了解内容质量指标衡量摘要信息质量的程度

丹尼尔·多伊奇,丹罗斯


摘要
基于引用的指标(如ROUGE或BERTScore)通过将摘要与引用进行比较来评估摘要的内容质量。理想情况下,这种比较应该通过计算摘要的共同信息量来衡量摘要的信息质量。在这项工作中,我们分析了ROUGE和BERTScore用于比较总结的标记对齐,并认为它们的分数在很大程度上不能解释为测量信息重叠。相反,它们是对摘要讨论相同主题的程度的更好估计。此外,我们还提供了证据,证明该结果适用于许多其他摘要评估指标。这一结果的结果是,最常用的摘要评估指标与社区的研究目标不一致,无法生成包含高质量信息的摘要。然而,我们得出的结论是,最近提出的一个度量指标QAEval(使用问题回答对摘要进行评分)似乎比当前的评估更好地捕捉信息质量,这突出了未来研究的方向。
选集ID:
2021.续-1.24
体积:
第25届计算自然语言学习会议记录
月份:
十一月
年份:
2021
地址:
在线
编辑:
阿里安娜·比萨扎,奥姆里·阿本德
地点:
CoNLL公司
SIG公司:
SIGNLL公司
出版商:
计算语言学协会
注:
页:
300–309
语言:
网址:
https://aclantology.org/2021.coll-1.24
内政部:
10.18653/v1/2021.coll-1.24
比比键:
引用(ACL):
丹尼尔·多伊茨和丹·罗斯。2021了解内容质量指标衡量摘要信息质量的程度.英寸第25届计算自然语言学习会议记录,第300–309页,在线。计算语言学协会。
引用(非正式):
了解内容质量指标衡量摘要信息质量的程度(Deutsch&Roth,CoNLL 2021)
复制引文:
PDF格式:
https://aclantology.org/2021.coll-1.24.pdf
视频:
 https://aclantology.org/2021.coll-1.24.mp4网址