描述
基于知识图(KG)的对话式问答(ConvQA)模型通常在以下基准上进行训练和测试黄金QA对。这意味着训练仅限于表面形式在各自的数据集中可以看到,并且评估是在一小组搁置的问题。通过我们提出的框架REIGN,我们采取几个步骤来纠正这种受限的学习设置。第一,我们系统地生成训练问题的重新编排增加模型对曲面形状变化的鲁棒性。这是一个特别具有挑战性的问题,因为这些问题。其次,我们引导ConvQA模型朝着更高的方向发展通过使用深层强化学习,只输入那些有助于提高答题质量的改写内容来提高答题效率。第三,我们证明了在一个基准上训练主要模型组件并将其应用于另一个基准的可行性。最后,为了严格评估训练模型的稳健性,我们使用并发布了大量不同的重新配方,这些配方是通过提示GPT-3.5用于基准测试集而生成的(结果尺寸增加20倍)。我们的研究结果表明,ConvQA模型通过重新设计实现强大的训练,显著优于那些只接受金牌QA对的标准培训。
REIGN中性能引导的重新公式生成
我们的方法REIGN(REInforced GeNeration)旨在提高ConvQA模型的鲁棒性。它加强了模型的训练通过为同一个训练样本预先将其暴露在更大种类的意图呈现表面形式中。表示相同问题语义的这种句法变化的示例如上图所示橙色框中,改写中的扰动区域位于蓝色.有了这些更加多样化的训练数据,ConvQA模型可以更好地应对不同的句法形式。我们的改革是根据第一原则制定的。我们建议分类学ConvQA的重新配方类别,基于字符串编辑操作系统地处理给定会话问题的部分。我们使用BART作为我们的重新制定生成模型,该模型通过远程监控进行微调。考虑到我们生成的实例有噪音,对于给定的问题,所有类别的重新格式化都不太可能提高ConvQA模型的性能。因此,对于每个问题,我们都要明智地选择其中一些这是最有益的。因此,我们将生成的改写传递给我们希望改进的QA模型,并获得排名答案列表作为响应-显示在带有绿色(正确)和红色(错误)答案在图的右半部分。模型的答案性能指标(或代理)用作奖励(阴影黄色的盒子)用深度Q网络训练重整类别选择器(RCS),这是一种近似于价值函数.然后将经过训练的RCS用作特定于模型的数据增强:它只选择顶部-k个用于QA模型的额外培训数据的重新设计,以最大限度地提高性能。