描述

基于知识图(KG)的对话式问答(ConvQA)模型通常在以下基准上进行训练和测试黄金QA对。这意味着训练仅限于表面形式在各自的数据集中可以看到,并且评估是在一小组搁置的问题。通过我们提出的框架REIGN,我们采取几个步骤来纠正这种受限的学习设置。第一,我们系统地生成训练问题的重新编排增加模型对曲面形状变化的鲁棒性。这是一个特别具有挑战性的问题,因为这些问题。其次,我们引导ConvQA模型朝着更高的方向发展通过使用深层强化学习,只输入那些有助于提高答题质量的改写内容来提高答题效率。第三,我们证明了在一个基准上训练主要模型组件并将其应用于另一个基准的可行性。最后,为了严格评估训练模型的稳健性,我们使用并发布了大量不同的重新配方,这些配方是通过提示GPT-3.5用于基准测试集而生成的(结果尺寸增加20倍)。我们的研究结果表明,ConvQA模型通过重新设计实现强大的训练,显著优于那些只接受金牌QA对的标准培训。

REIGN框架概述
显示REIGN中主要处理步骤的示例:根据QA性能指标预测最合适的重新制定类别(由我们的重新制定分类单元定义),并为预测类别(RG)生成重新制定。

REIGN中性能引导的重新公式生成

我们的方法REIGN(REInforced GeNeration)旨在提高ConvQA模型的鲁棒性。它加强了模型的训练通过为同一个训练样本预先将其暴露在更大种类的意图呈现表面形式中。表示相同问题语义的这种句法变化的示例如上图所示橙色框中,改写中的扰动区域位于蓝色.有了这些更加多样化的训练数据,ConvQA模型可以更好地应对不同的句法形式。我们的改革是根据第一原则制定的。我们建议分类学ConvQA的重新配方类别,基于字符串编辑操作系统地处理给定会话问题的部分。我们使用BART作为我们的重新制定生成模型,该模型通过远程监控进行微调。考虑到我们生成的实例有噪音,对于给定的问题,所有类别的重新格式化都不太可能提高ConvQA模型的性能。因此,对于每个问题,我们都要明智地选择其中一些这是最有益的。因此,我们将生成的改写传递给我们希望改进的QA模型,并获得排名答案列表作为响应-显示在带有绿色(正确)和红色(错误)答案在图的右半部分。模型的答案性能指标(或代理)用作奖励(阴影黄色的盒子)用深度Q网络训练重整类别选择器(RCS),这是一种近似于价值函数.然后将经过训练的RCS用作特定于模型的数据增强:它只选择顶部-k个用于QA模型的额外培训数据的重新设计,以最大限度地提高性能。

下载GPT增强测试数据

为了能够对REIGN进行大规模评估,并显示基础QA模型的健壮性得到了改进,我们对两个现有ConvQA基准测试集(ConvMix和ConvQuestions)进行了扩充,在Chat-GPT(GPT-3.5)生成的每个原始问题上进行了20次改写,产生96k(ConvMix)和224k(Conv Questions)测试实例。

GPT-ConvMix测试集(96k个问题) GPT-ConvQuestions测试集(224k个问题)测试集根据Creative Commons Attribution 4.0国际许可.知识共享许可证

GitHub上的代码

REIGN代码

纸类

“通过强化重组生成对会话问答模型进行稳健训练”Magdalena Kaiser、Rishiraj Saha Roy和Gerhard Weikum,第17届ACM网络搜索和数据挖掘国际会议论文集(WSDM’24)2024年3月4日至8日,墨西哥梅里达。[预打印] [幻灯片] [海报]

联系人

有关更多信息,请联系:马格达莱娜·凯撒(mkaiser AT mpi HYPHEN inf DOT mpg DOT de),里希拉吉·萨哈·罗伊(rishiraj AT mpi HYPHEN inf DOT mpg DOT de)或格哈德·威库姆(威库姆在mpi HYPHEN inf DOT mpg DOT de)。


要了解我们团队的更多信息,请访问https://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/question-answering/.