@正在进行{shen-etal-2022评估,title=“关于释义生成的评估指标”,author=“沈、凌峰和Liu、Lemao和姜海云史淑明”,editor=“Goldberg、Yoav和科扎列娃、佐尔尼察和张悦”,booktitle=“2022年自然语言处理实证方法会议记录”,月=12月,年=“2022”,address=“阿拉伯联合酋长国阿布扎比”,publisher=“计算语言学协会”,url=“https://aclantology.org/2022.emnlp-main.208”,doi=“10.18653/v1/2022.emnlp-main.208”,pages=“3178--3190”,abstract=“在本文中,我们重新审视了复述评估的自动指标,并得出了两个与传统观点背道而驰的发现:(1)无参考指标比基于参考的指标具有更好的性能。(2)大多数常用的度量与人工注释不一致。通过额外的实验和深入的分析,探索了上述发现背后的潜在原因。在实验和分析的基础上,我们提出了一种新的释义生成评价指标ParaScore。它具有基于参考和无参考度量的优点,并显式地模拟了词汇差异。根据我们的分析和改进,我们提出的基于参考的指标优于无参考的指标。实验结果表明,ParaScore显著优于现有指标。”,}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“shen-etal-2022-evaluation”><标题信息><title>关于短语生成的评估指标</titleInfo><name type=“个人”>凌峰<namePart type=“given”>沈<namePart type=“family”><角色>作者</角色></name><name type=“个人”>勒芒刘<角色>作者</角色></name><name type=“个人”><namePart type=“given”>海韵江<namePart type=“family”><角色>作者</角色></name><name type=“个人”>舒明史<namePart type=“family”><角色>作者</角色></name><originInfo>2022-12发布日期</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>2022年自然语言处理实证方法会议记录</titleInfo><name type=“个人”>Yoav戈德堡<角色>编辑器</角色></name><name type=“个人”>佐尔尼察科扎列娃<角色>编辑器</角色></name><name type=“个人”><namePart type=“given”>岳<namePart type=“family”>张<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>阿拉伯联合酋长国阿布扎比</place></originInfo>会议出版物</relatedItem><abstract>在本文中,我们重新审视了用于转述评估的自动度量,并获得了两个不符合传统观点的发现:(1)无引用度量比基于引用的度量实现了更好的性能。(2) 大多数常用的度量与人工注释不一致。通过额外的实验和深入的分析,探索了上述发现背后的潜在原因。在实验和分析的基础上,我们提出了一种新的释义生成评价指标ParaScore。它具有基于参考和无参考度量的优点,并显式地模拟了词汇差异。根据我们的分析和改进,我们提出的基于参考的指标优于无参考的指标。实验结果表明,ParaScore显著优于现有指标</摘要><identifier type=“citekey”>shen-etal-2022评估10.18653/v1/2022.emnlp-main.208<位置><网址>https://aclantology.org/2022.emnlp-main.208</url></位置><部分>2022-12年<扩展单元=“page”><开始>3178</开始><end>3190</范围></部分></mods></modsCollection>
%0会议记录%关于短语生成的评价指标%阿申、凌峰%A Liu,乐茂%阿江,海云%阿石、舒明%Y Goldberg,约夫%佐尔尼察Y Kozareva%Y Zhang,岳%2022年自然语言处理实证方法会议论文集%D 2022年%12月8日%计算语言学协会%C阿拉伯联合酋长国阿布扎比%F shen-etal-2022评估%X在本文中,我们重新审视了用于复述评估的自动度量,并得出了两个违反传统智慧的发现:(1)无参考度量比基于参考的度量具有更好的性能。(2) 大多数常用的度量与人工注释不一致。通过额外的实验和深入的分析,探索了上述发现背后的潜在原因。在实验和分析的基础上,我们提出了一种新的释义生成评价指标ParaScore。它具有基于参考和无参考度量的优点,并显式地模拟了词汇差异。根据我们的分析和改进,我们提出的基于参考的指标优于无参考的指标。实验结果表明,ParaScore显著优于现有指标。%R10.18653/v1/2022.emnlp-main.208年%U型https://aclantology.org/2022.emnlp-main.208%U型https://doi.org/10.18653/v1/2022.emnlp-main.208%电话:3178-3190
降价(非正式)
[关于释义生成的评估指标](https://aclantology.org/2022.emnlp-main.208)(Shen等人,EMNLP 2022)
国际计算语言学协会
- 沈玲凤、刘乐茂、蒋海云、石树明。2022短语生成的评价指标研究.英寸2022年自然语言处理实证方法会议记录,第3178–3190页,阿拉伯联合酋长国阿布扎比。计算语言学协会。