On the Evaluation Metrics for Paraphrase Generation

Lingfeng Shen; Lemao Liu; Haiyun Jiang; Shuming Shi

doi:10.18653/v1/2022.emnlp-main.208

短语生成的评价指标研究

摘要

在本文中，我们重新审视了复述评估的自动度量，并获得了两个与传统智慧相反的发现：（1）无参考度量比基于参考的度量具有更好的性能。（2）大多数常用的度量与人工注释不一致。通过额外的实验和深入的分析，探索了上述发现背后的潜在原因。在实验和分析的基础上，我们提出了一种新的释义生成评价指标ParaScore。它具有基于参考和无参考度量的优点，并显式地模拟了词汇差异。根据我们的分析和改进，我们提出的基于参考的指标优于无参考的指标。实验结果表明，ParaScore显著优于现有指标。

选集ID：: 2022.emnlp-main.208年
体积：: 2022年自然语言处理实证方法会议记录
月份：: 十二月
年份：: 2022
地址：: 阿拉伯联合酋长国阿布扎比
编辑：: 约夫·戈德伯格,佐尔尼萨·科扎列娃,张悦
地点：: EMNLP公司
SIG公司：
发布者：: 计算语言学协会
注：
页：: 3178–3190
语言：
网址：: https://aclantology.org/2022.emnlp-main.208
内政部：: 10.18653/v1/2022.emnlp-main.208年
比比键：
引用（ACL）：: 沈玲凤、刘乐茂、蒋海云、石树明。2022短语生成的评价指标研究.英寸2022年自然语言处理实证方法会议记录，第3178–3190页，阿拉伯联合酋长国阿布扎比。计算语言学协会。
引用（非正式）：: 短语生成的评价指标研究（Shen等人，EMNLP 2022）
复制引文：
PDF格式：: https://aclantology.org/2022.emnlp-main.208.pdf

PDF格式引用搜索