@进展中{deutsch-roth-2021理解,title=“了解内容质量指标衡量摘要信息质量的程度”,author=“Deutsch、Daniel和罗斯、丹“,editor=“Bisazza、Arianna和奥姆里·阿本德“,booktitle=“第25届计算自然语言学习会议记录”,月=11月,年=“2021”,address=“在线”,publisher=“计算语言学协会”,url=“https://aclantology.org/2021.conll-1.24”,doi=“10.18653/v1/2021.conll-1.24”,pages=“300--309”,abstract=“基于引用的指标,如ROUGE或BERTScore,通过将摘要与引用进行比较来评估摘要的内容质量。理想情况下,这种比较应该衡量摘要{'}通过计算摘要中有多少共同信息来确定信息质量。在这项工作中,我们分析了ROUGE和BERTScore用于比较总结的标记对齐,并认为它们的分数在很大程度上不能解释为测量信息重叠。相反,它们是对摘要讨论相同主题的程度的更好估计。此外,我们还提供了证据,证明该结果适用于许多其他摘要评估指标。这一结果的结果是,最常用的摘要评估指标与社区的研究目标不一致,即生成具有高质量信息的摘要。然而,我们得出的结论是,最近提出的一个度量指标QAEval(使用问题回答对摘要进行评分)似乎比当前的评估更好地捕捉信息质量,这突出了未来研究的方向。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“deutsch-roth-2021理解”><标题信息>了解内容质量指标衡量摘要信息质量的程度</titleInfo><name type=“个人”>丹尼尔德国<角色>作者</角色></name><name type=“个人”>丹罗斯<角色>作者</角色></name><originInfo>发布日期:2021-11发布日期:</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>第25届计算自然语言学习会议记录</titleInfo><name type=“个人”>阿里安娜比萨扎<角色>编辑器</角色></name><name type=“个人”>欧姆里Abend(阿本德)<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>在线</placeTerm></place></originInfo>会议出版物</relatedItem><abstract>基于引用的指标,如ROUGE或BERTScore,通过将摘要与引用进行比较来评估摘要的内容质量。理想情况下,这种比较应该通过计算摘要的共同信息量来衡量摘要的信息质量。在这项工作中,我们分析了ROUGE和BERTScore用于比较总结的标记对齐,并认为它们的分数在很大程度上不能解释为测量信息重叠。相反,它们是对摘要讨论相同主题的程度的更好估计。此外,我们还提供了证据,证明该结果适用于许多其他摘要评估指标。这一结果的结果是,最常用的摘要评估指标与社区的研究目标不一致,无法生成包含高质量信息的摘要。然而,我们得出的结论是,最近提出的一个度量指标QAEval(使用问题回答对摘要进行评分)似乎比当前的评估更好地捕捉信息质量,这突出了未来研究的方向</摘要><identifier type=“citekey”>deutsch-roth-2021理解10.18653/v1/2021.conll-1.24<位置><网址>https://aclantology.org/2021.coll-1.24</url></位置><部分>2021-11年<扩展单元=“page”><开始>300</开始><end>309</范围></部分></mods></modsCollection>
%0会议记录%了解内容质量指标衡量摘要信息质量的程度%丹尼尔·多伊奇%阿罗斯,丹%阿里安娜·比萨扎%奥姆里·阿本德%第25届计算自然语言学习会议论文集%D 2021年%11月8日%计算语言学协会%C在线%F deutsch-roth-2021理解%X基于引用的指标,如ROUGE或BERTScore,通过将摘要与引用进行比较来评估摘要的内容质量。理想情况下,这种比较应该通过计算摘要的共同信息量来衡量摘要的信息质量。在这项工作中,我们分析了ROUGE和BERTScore用于比较摘要的标记比对,并认为它们的得分在很大程度上不能被解释为测量信息重叠。相反,它们是对摘要讨论相同主题的程度的更好估计。此外,我们还提供了证据,证明该结果适用于许多其他摘要评估指标。这一结果的结果是,最常用的摘要评估指标与社区的研究目标不一致,无法生成包含高质量信息的摘要。然而,我们得出的结论是,最近提出的一个度量指标QAEval(使用问题回答对摘要进行评分)似乎比当前的评估更好地捕捉信息质量,这突出了未来研究的方向。%R 10.18653/v1/2021.coll-1.24%U型https://aclantology.org/2021.coll-1.24%U型https://doi.org/10.18653/v1/2021.coll-1.24%电话300-309
降价(非正式)
[了解内容质量指标衡量摘要信息质量的程度](https://aclantology.org/2021.coll-1.24)(Deutsch&Roth,CoNLL 2021)
国际计算语言学协会