百摩网
当前位置: 首页 生活百科

研究范式的五个要素(预习-上课-复习)

时间:2023-08-21 作者: 小编 阅读量: 1 栏目名: 生活百科

目前对话系统的各类研究工作,大多还是集中在模型结构的创新上,并按照传统的mini-batch方式进行有监督训练。任务型对话系统是通过人机对话完成某个特定任务的系统,例如政务事务办理、满意度回访、订餐馆等。例如,在DST任务中,每个槽有一个特殊的槽值叫dontcare,用于表示用户对该槽可选取所有值,即没有特定值限制。下图3是我们利用目前最好的DST模型TripPy[10],在MultiWOZ2.1数据集上进行错误分析得到的一个错因占比统计。

预习时关注重点,上课时由易到难,复习时举一反三,能否让机器也按照“预习-上课-复习”的学习范式进行学习呢?

达摩院对话智能(Conversational AI)团队对这个问题进行了研究探索,先将其用在了人机对话领域,在国际知名多轮对话数据集MultiWoz上取得了最好结果。

目前对话系统的各类研究工作,大多还是集中在模型结构的创新上,并按照传统的mini-batch方式进行有监督训练。然而,笔者所在团队经过最新研究发现,这种传统训练方式并不是对话系统的最优训练模式。受到人类在学习新知识时的学习范式的启发,我们提出了“预习-上课-复习”的三阶段训练范式来提升对话系统的性能,该范式能够像人一样预习时关注重点,上课时由易到难,复习时举一反三。具体来说,在预习阶段时,人一般会先了解重点概念、章节结构等信息,因此我们对应地设计了带有结构偏置的预训练目标,让模型学会对话数据中的槽值关联信息;在上课阶段时,人会从简单内容开始学习再逐步进阶到困难部分,因此我们使用了课程学习[1]的方法来训练对话模型;而在复习阶段时,人们通常是温故知新举一反三,因此我们专门设计了基于对话本体的数据增强方法,针对易错样例对模型进行加强训练。通过这样的优化框架,我们最终在多轮对话数据集MultiWOZ2.1和 WOZ2.0上都取得了目前最好结果,相关工作被ACL21以4-4-4高分接收。

一 人类学习范式与机器学习范式

在教育学中,针对人类学习的模式,不少学者提出“预习->上课->复习”的三阶段过程,是最为高效的学习范式之一[3]。预习时,由于没有老师进行指导,因此学生会利用已学知识和技能,通过观察章节标题、浏览段落文字、准备课上问题等方式进行自主地学习,大致了解课堂内容;进入到正式上课阶段时,学生会根据老师安排好的课程从易到难进行学习,这种由浅入深的教学是人类数百年教育发展总结出的最佳方式,能够让学生的知识接受效率最大化;在上完课后,学生应当及时地回顾所学的课程内容,温故知新,通过自我反思总结,找出仍旧没有掌握的知识点,并准备好和老师进一步沟通解答。

在人工智能的主要方向自然语言处理(Natural Language Processing,NLP)领域中,目前大家普遍采用的是“pre-trainfine-tune”的机器学习范式,即先得到大规模预训练语言模型,再基于该模型进行下游任务微调。这种机器学习范式过于简化,没有考虑到人类学习范式中的重要特性,即:预习时关注重点,上课时由易到难,复习时举一反三。因此,对于某个具体的NLP任务,我们应该在构建训练目标时就将这些特性考虑进来,通过设计出更具任务本身特点的新目标函数来模仿人类学习范式中的三阶段学习过程。

二 基于“预习-上课-复习”学习范式的多轮对话理解

在本文中,我们主要研究任务型多轮对话系统中的核心任务 -- 对话状态跟踪(Dialog State Tracking, DST),并希望能够设计出多轮对话特有的“预习-上课-复习”三阶段学习范式以提升DST 模型的效果。

1 对话状态追踪任务介绍

首先, 我们介绍一下任务型对话系统和DST任务。

任务型对话系统是通过人机对话完成某个特定任务的系统,例如政务事务办理、满意度回访、订餐馆等。该系统不仅可以回答用户问题,同时还能主动发问,引导会话的有效进行,通过多轮对话完成特定任务。例如在一个餐馆查找场景中,一个典型的对话如下:

图2 任务型多轮对话示例

如图2所示,可以看到,在该对话中,机器人需要根据用户的不同的回答情况进行多轮的对话,最终收集完整自己需要的信息后给出找到的结果。

对话状态跟踪(DST)是一个重要的对话理解任务,即给定整个对话历史,将用户表达的语义识别成槽值对形式的对话标签。例如用户说 “我想要便宜的餐馆”,对应的DST语义标签就是 “价格=便宜”。 对话标签的集合一般已经预定义好,统称为对话本体(ontology)或者对话schema。

2 对话状态追踪任务难点

在一些经典的学术对话数据集中,例如 MultiWOZ[4],CrossWOZ[5]等,DST 任务普遍存在以下3个挑战:

  • 不同槽之间的取值存在指代关联。例如用户在前几轮交互已经预定好了某家餐馆,在当前轮时,用户说 “我还想要该餐馆附近的一家酒店”,那么隐含地,酒店的area 槽值应当和餐馆的 area 槽值是一致的,这需要DST模型有能力识别出来。
  • 用户隐含接受系统推荐。例如,当系统推荐某家酒店时,用户针对推荐的结果的态度既可以是正面的表达(that’s great),也可以是非正面的表达(hold on please),对应的hotel-name 槽也就会填或不填。
  • 真实用户表达丰富多样,增大解析难度。例如,在DST任务中,每个槽有一个特殊的槽值叫 dontcare,用于表示用户对该槽可选取所有值,即没有特定值限制。在 MultiWOZ 数据集中,用户对于 dontcare 的表达多样性很大,十分考验模型的语言理解能力。

下图3是我们利用目前最好的DST 模型 TripPy[10],在 MultiWOZ2.1数据集上进行错误分析得到的一个错因占比统计。除了标注错误,后处理不当等额外因素,以上三类问题的占比达到约 42%,这需要更好的模型和方案来进行解决。

图3 MultiWoz 2.1 数据集DST错误分析(模型采用TriPy)

3 “预习-上课-复习”技术方案

针对上文提到的 DST 难点,我们希望能够从人类学习的过程中总结出一种特有范式来优化模型,实现一种model-agnostic的DST优化方案。基于此,我们设计了“预习-上课-复习”三阶段DST 训练方案,充分地利用好对话schema 中已经存在的槽值关联的结构(即 schema structure)和对话数据中存在的难易数据分布的结构(即 curriculum structure),提出了 Schema-aware Curriculum Learning for Dialog State Tracking (SaCLog) 通用的DST优化框架,如下图4所示:

图4 基于“预习-上课-复习”的对话状态追踪

预习模块(preview module)

我们希望在预习模块中能够实现对schema structure 的有效建模,通过设计类似[6]的带有结构偏置信息的预训练目标,让DST 模型的基座(如 BERT, BiRNN等)对schema 中信息有一个初步大致的了解,在不接触具体下游DST任务的情况下,先对各个槽的取值以及在用户语句中的表达有一个显式关系的建模。下图5是MultiWoz中的一个典型的schema structure:

图5 MultiWoz数据集中的典型的schema structure

实线连接的是同一个领域下的槽,虚线连接的是不同领域之间可能存在槽值关联的槽,整体形成了一个网络状的结构。每个槽的槽值在不同的自然语句中也会有不同的表达形式,我们希望将这些隐含的联系在预习阶段通过预训练的方式让模型学习出来。

具体的做法是,我们利用一个槽编码器和一个对话历史编码器(两个编码器共享参数,模型可选择BERT、BiRNN等)分别编码每个槽和对话历史,槽编码向量和对话历史的各个位置的向量进行两种loss计算,一种是操作分类loss ,判断某个槽在当前的对话语句中属于“增”、“删”、“改”、“无”四个操作中的哪一个操作类别,另一种是序列预测loss , 判断当前对话历史中,哪些词属于该槽的槽值(利用预设的字符串匹配得到)。同时我们再加上一个辅助的MLM loss ,对整个对话预料进行类似RoBERTa的预训练。最终整体loss是三者的加权和。

上课模块(attend module)

通过预习模块我们得到了一个预训练好的模型基座,如 BERT。接下来我们正式进行 DST 任务的学习。前面我们提到,在对话数据中存在的丰富的 curriculum structure,即数据的难易度分布的结构。下图6展示了一个简单和一个困难的对话例子:

图6 对话中不同难易程度的示意图

同样是用户想要一辆从 nandos 作为出发地的taxi, 图6中上方的对话例子是一个最简单的表达。而图6中下方的对话例子,尽管DST结果和简单例子一样,却要困难很多,用户是通过”from the restaurant”这种表述间接地表达了需要一辆出发地是nandos餐馆的taxi。

在前人的工作中,DST 模型一般都是采用 random sampling 的方式选择 batch data 进行优化的,这里,我们打算充分地考虑人在课程学习时的学习模式,将训练数据进行难易度划分,利用课程学习[1]中的经典算法 baby step[9]来优化,让模型先学习好简单的数据再学习复杂的数据。课程学习的诸多理论和实践[7]也已经证明了,这种类人教学的训练策略不仅能够加速模型收敛,还能够提升模型效果。下图是论文[8]中一个的可用于说明课程学习提升效果的示意图:

图7 课程学习效果提升示意图

假设我们的目标优化函数超曲面是最上方的一个曲线,下面的曲线分别是简单的优化函数超曲面,位置越下面说明训练数据越简单。可以看到,如果一开始就选择优化目标超曲面,模型很可能会陷入到局部峰值中,但是如果通过一系列合理的中间优化函数由简到难逐步逼近目标函数,那么模型就很可能跳出局部峰,达到更优解。

我们具体来看SaCLog中的上课模块是怎样实现的:首先我们使用了一个基于规则和模型的混合困难度打分器,模型打分器采用类似交叉验证的方式,将模型在训练集中的 K-fold 验证集上的预测概率作为模型得分,规则打分器利用了一些常见特征,如对话长度、当前轮槽值个数、实体词个数等作为规则得分,两类得分结合在一起对整个训练集进行排序,并提前划分成10个bucket。在 baby step 的训练中,首先让模型在最简单的bucket 数据上训练,当模型训练在现阶段训练集上收敛时再依次加入新的bucket一起训练,直至最终所有数据都加入了累计训练集。最后模型在全集上进一步训练至收敛为止。

复习模块(review module)

前面我们提到,复习是人类学习过程中的重要一环,所谓温故而知新,学习完重要的知识点后需要立即巩固练习,针对薄弱的环节加强训练。

落实到我们具体的SaCLog中的复习模块里,我们采取的方式是基于schema信息的数据增强方法,由于schema中已经预定义好了所有的槽和值,因此我们可以通过字符串匹配的方式尽可能地从对话语句中将相应位置的槽值找出来进行不同槽值的替换或者同义词替换,以扩充对话训练数据。我们在课程学习时,采取每次迭代的epoch 结尾都将模型预测出错的loss前10%的训练数据送入复习模块,通过槽替换、值替换和对话重组三种规则方式进行数据的扩充,将新增数据并入训练集一起参与下一轮训练。其中,对话重组是将和当前轮对话数据带有相同对话状态标签的其他对话数据进行历史对话和后续对话进行重新组合。

4 “预习-上课-复习”方案的实验结果

整体榜单

我们在 MultiWOZ2.1 和 WOZ2.0 两个经典的多轮对话数据集上进行了实验。首先,我们将 SaCLog 框架应用到目前最好的transformer-based DST模型TripPy [10] 上,利用预习模块对BERT基座进行预训练,再利用上课模块和复习模块对 TripPy进行DST 任务的fine-tune, 实验结果如下图所示:

可以看到应用我们的框架后,TripPy 模型在两个数据集上性能都有很大提升,取得到了目前最佳结果。

消融实验

同时在MultiWOZ2.1上我们也进行了一个ablation study,发现利用预习模块和复习模块能够带来最大的提升。

其他实验

为了验证我们框架的通用性,我们也在目前最好的RNN-based DST 模型 TRADE [11] 上进行验证,发现同样也能带来提升。

三 整体总结

本文主要介绍了如何通过模仿人类“预习-上课-复习”的三阶段学习范式,设计出一个适用于对话状态跟踪任务的通用优化框架。具体来看我们采用了预习、上课、复习三个模块,通过充分利用对话数据中的schema structure 和curriculum structure 以提升模型的性能。实验表明,我们在利用了SaCLog优化框架后,在多个多轮对话数据集上都取得了目前最好效果。

四 新学习范式的未来展望

在未来,我们希望能将“预习-上课-复习”三阶段学习范式扩展到更多的任务中,例如 对话生成、端到端对话系统,以及其他的 NLP 任务。我们希望这样的新范式能够带来更多的训练优化方法上的变革,同时也准备在对话系统的业务落地上开展更多的实践应用。

智能对话系统是个极具前景和挑战性的方向,达摩院 Conversational AI团队将不断地探索推进在这个领域的技术进步和落地,敬请期待我们后续的工作!

五 参考文献

[1] Bengio Y, et al. Curriculum learning. ICML19.[2] Yinpei Dai, et al. Preview, Attend and Review: Schema-Aware Curriculum Learning for Multi-Domain Dialog State Tracking.ACL21.[3] https://www.educationcorner.com/the-study-cycle.html[4] Eric M et al. MultiWOZ 2.1: A consolidated multi-domain dialogue dataset with state corrections and state tracking baselines.LERC, 2020.[5] Zhu Q, Huang K, Zhang Z, et al. Crosswoz: A large-scale chinese cross-domain task-oriented dialogue dataset. TACL, 2020.[6]Yu T, Zhang R, Polozov O, et al. SCORE: PRE-TRAINING FOR CONTEXT REPRESENTA-TION IN CONVERSATIONAL SEMANTIC PARSING. ICLR 2021.[7] Xin Wang, Yudong Chen and Wenwu Zhu. A Survey on Curriculum Learning. PAMI 2021.[8] Bengio Y. Evolving culture versus local minima. Growing Adaptive Machines, 2014.[9] Spitkovsky V I, Alshawi H, Jurafsky D. From baby steps to leapfrog: How “less is more” in unsupervised dependency parsing. NAACL 2010.[10] Heck M, van Niekerk C, Lubis N, et al. Trippy: A triple copy strategy for value independent neural dialog state tracking. SIGDIAL, 2020.[11] Wu C S, Madotto A, Hosseini-Asl E, et al. Transferable multi-domain state generator for task-oriented dialogue systems. ACL, 2019.

作者 | 言枫

原文链接:http://click.aliyun.com/m/1000303735/

本文为阿里云原创内容,未经允许不得转载。

    推荐阅读
  • qq名片赞怎样可以快速获得1000个 qq如何免费获得名片赞

    qq名片快速获得赞的方法如下:1、打开QQ,在查找页面查找一些互刷、互粉、QQ名片互赞等QQ交流群,选择一些人数较多的群加入其中,越多越好。

  • 沃的组词(沃的组词介绍)

    下面更多详细答案一起来看看吧!沃的组词肥沃造句:曾经是海底的陆地现在成了广阔肥沃的田野,在城市的四周伸展开来,这里曾经有过螃蟹爬行,现在则有驴子择路而行,生长出了海藻和玫瑰花。

  • 现在qq密保问题弄不了吗(QQ密保问题删了之后会出大问题)

    而且当下我们也特别注重这些软件的安全问题,其中微信不容易被盗,而QQ则会经常出现被盗的情况今天就来跟大家说一下有关于QQ密保问题的有关注意事项。去删除密保问题,这是一个很大的安全隐患。所以我们一定要注意自己的密保,特别是以前自己设置的密保问题一定要管理好。6/6一会就会弹出一个提示,说明我们已成功删除了密保问题。

  • 雪佛兰科鲁泽四缸试驾测评(试驾雪佛兰科鲁泽轻混)

    本次试驾的雪佛兰科鲁泽为指导价11.79万元的2020款轻混RS330T自动畅快版,相比于2019款的RS330T自动畅快版,指导价高出3000元整。内饰部分,新车则采用雪佛兰品牌经典的飞翼式座舱设计,黑红色调的运用则再次强调其年轻化的定位,其内饰做工与用料处于同级主流水平。通过此次试驾体验来看,作为雪佛兰旗下首款搭载48V轻混系统的车型,雪佛兰科鲁泽轻混版不仅保留了运动、时尚的外观,而且在48V轻混系统的加持下,驾乘体验也更为灵动、舒适。

  • 爱情故事大全(中国古代感人爱情故事)

    一日被黑鹰追杀被许家救下,这条白蛇为报答许家的救命之恩,嫁给了许家后人许仙。18年后,许仕麟高中状元,回乡祭祖拜塔,才救出母亲,一家团圆。孟姜心善便救了范喜良,两人日久生情,就结为了夫妻。可没成想刚成亲范喜良就被官兵抓了去,新郎被迫修筑长城。孟姜久候不归,就千里寻夫,历尽艰辛曲折,到达山海关,在得知丈夫去世消息后痛哭城下,大雨滂沱,长城坍塌绵延800里长。

  • 制作甜甜圈简单做法不用淡奶油(奶油甜甜圈的正确做法)

    奶油甜甜圈:低筋面粉70克、鸡蛋2-3个、淡奶油35克、黄油35克、细砂糖55克、盐少量第一步,把准备好的材料都拿出来,放在一旁备用,鸡蛋用到的是常温的鸡蛋,把面粉过一遍筛放在碗里。第四步,打发好了之后就可以把低筋面粉倒进盆子里了,一开始的时候要翻拌,再转成搅拌,搅拌均匀就好了。

  • 治服与制服有什么区别 治服与制服的区别

    它强调行为执行的力度和临时效果,至于对方是不是真服以及后续情况,不好说。治服侧重过程,强调结果,对象服从效果较好,局面较为乐观。它的范围很宽泛,治服对象可以是人、事、物或环境等。手段和措施通常多样。

  • 泰山区预防接种门诊一览(泰山区疫苗接种门诊)

    泰山区预防接种门诊(站)开诊时间、咨询电话公示:1、泰山区财源街道社区卫生服务中心第二预防接种门诊地址:财源大街120号接种时间:周一至周六上午8:00-11:00联系电话:82564182、泰山区财源街道社区卫生服务中心第一预防接种门诊地址:望岳东路中段接种时间:周一至周六上午8:00-11:00联系电话:82021373、泰山区岱庙街道社区卫生服务中心第一预防接种门诊地址:东湖路266号接种时

  • 河湖水系保护治理(约谈6市3县处理1.6万余河湖问题)

    今年7月初,山东部署开展小型水库安全运行自查整改工作,各地对辖区所有小型水库安全运行情况进行全面自查排查,逐一建立问题清单、责任清单、措施清单,实现一库一档精细化管理。通过落实小型水库责任人、全面排查整治运行管理隐患,山东有效提升了全省安全度汛的防御能力。2018年10月20日,省政府批复实施《山东省灾后重点防洪减灾工程建设实施方案》,部署实施灾后重点防洪减灾工程建设。

  • 兰雪花的养殖方法和注意事项(怎么养殖兰雪花)

    兰雪花的养殖方法和注意事项温度,蓝雪花相对来说是喜高温植物,一般来说在7℃以下它会有生长停止的表现,5℃以下它就会有一些寒害的表现,0℃上下它的叶片就会全部脱落。所以在养护的时候,在国内除了岭南地区可以不用担心,任何问题的室外栽培外,其他地区冬季都要进入室内进行栽培。施肥,蓝雪花在养护中,大约生长期每半个月给它一次稀薄的肥料,就可以正常的生长。