活动聚酯s: 基于模式开发训练的小批量索赔验证活动数据注释优先级

夏曾Arkaitz Zubiaga公司


摘要
为了减轻标记数据稀缺对事实核查系统的影响,我们将重点放在少枪索赔验证上。尽管最近通过提出高级语言模型对少数镜头进行了分类,但在数据注释优先级方面缺乏研究,数据注释优先级可以改进标记的少数镜头的选择,以获得最佳模型性能。我们提出了主动PET,这是一种新的加权方法,利用基于各种语言模型的模式开发训练(PET)模型集成,主动选择未标记数据作为注释的候选数据。在两个技术事实检验数据集和使用六个不同的预处理语言模型上,使用主动PET进行少量快照数据选择显示出与基线方法相比的持续改进。我们展示了主动PETs-o的进一步改进,它进一步集成了过采样策略。我们的方法能够有效地选择未标记数据丰富但用于标记的资源有限的要标记的实例,从而持续改进少量索赔的验证性能。我们的代码可用。
选集ID:
2023.结果-每项14
音量:
计算语言学协会的研究结果:EACL 2023
月份:
五月
年份:
2023
地址:
克罗地亚杜布罗夫尼克
编辑:
安德烈亚斯·弗拉科斯伊莎贝尔·奥根斯坦
地点:
调查结果
SIG公司:
发布者:
计算语言学协会
注:
页:
190–204
语言:
网址:
https://aclantology.org/2023.findings-eacl.14
内政部:
10.18653/v1/2023.结果-每个.14
比比键:
引用(ACL):
夏曾和Arkaitz Zubiaga。2023主动PET:通过模式开发训练对少量索赔进行主动数据注释优先级验证.英寸计算语言学协会的研究结果:EACL 2023,第190-204页,克罗地亚杜布罗夫尼克。计算语言学协会。
引用(非正式):
主动PET:通过模式开发训练对少量索赔进行主动数据注释优先级验证(曾和祖比亚加,2023年调查结果)
复制引文:
PDF格式:
https://aclantology.org/2023.findings-eacl.14.pdf
视频:
 https://aclantology.org/2023.findings-eacl.14.mp4网址