短语生成的评价指标研究

沈玲凤,刘乐茂,姜海云(Haiyun Jiang),史树明


摘要
在本文中,我们重新审视了复述评估的自动度量,并获得了两个与传统智慧相反的发现:(1)无参考度量比基于参考的度量具有更好的性能。(2) 大多数常用的度量与人工注释不一致。通过额外的实验和深入的分析,探索了上述发现背后的潜在原因。在实验和分析的基础上,我们提出了一种新的释义生成评价指标ParaScore。它具有基于参考和无参考度量的优点,并显式地模拟了词汇差异。根据我们的分析和改进,我们提出的基于参考的指标优于无参考的指标。实验结果表明,ParaScore显著优于现有指标。
选集ID:
2022.emnlp-main.208年
体积:
2022年自然语言处理实证方法会议记录
月份:
十二月
年份:
2022
地址:
阿拉伯联合酋长国阿布扎比
编辑:
约夫·戈德伯格,佐尔尼萨·科扎列娃,张悦
地点:
EMNLP公司
SIG公司:
发布者:
计算语言学协会
注:
页:
3178–3190
语言:
网址:
https://aclantology.org/2022.emnlp-main.208
内政部:
10.18653/v1/2022.emnlp-main.208年
比比键:
引用(ACL):
沈玲凤、刘乐茂、蒋海云、石树明。2022短语生成的评价指标研究.英寸2022年自然语言处理实证方法会议记录,第3178–3190页,阿拉伯联合酋长国阿布扎比。计算语言学协会。
引用(非正式):
短语生成的评价指标研究(Shen等人,EMNLP 2022)
复制引文:
PDF格式:
https://aclantology.org/2022.emnlp-main.208.pdf