理解摘要中的事实错误:错误、摘要生成器、数据集、错误检测器

李彦堂,塔尼亚·戈亚尔,亚历克斯·法布里,菲利普·拉班,徐嘉诚,塞米赫·亚武兹,沃伊西奇·克里辛斯基,贾斯汀·卢梭,格雷格·杜雷特


摘要
抽象摘要模型产生事实错误的倾向已被广泛研究,包括设计用于检测事实错误的度量标准和注释当前系统输出中的错误。然而,摘要系统、度量和带注释的基准的不断演变的性质使得真实性评估成为一个动态目标,并且在度量之间进行清晰的比较变得越来越困难。在这项工作中,我们从九个现有数据集中聚合真实性错误注释,并根据底层摘要模型对其进行分层。我们在此分层基准上比较了最先进的真实性度量(包括最近基于ChatGPT的度量)的性能,并表明它们的性能在不同类型的摘要模型中存在显著差异。关键的是,我们的分析表明,真实性检测领域最近的许多改进都是基于较旧(预转换)模型的摘要,而不是更相关的最新摘要模型。我们进一步对每个错误类型进行细粒度分析,发现不同真实性度量的错误类型之间存在类似的性能差异。我们的结果表明,没有一个指标在所有设置或所有错误类型中都是最优的,我们根据这些见解为最佳实践提供了建议。
选集ID:
2023.acl长650
体积:
计算语言学协会第61届年会论文集(第一卷:长篇论文)
月份:
七月
年份:
2023
地址:
加拿大多伦多
编辑:
安娜·罗杰斯,乔丹·博伊德·格雷伯,冈崎直(Naoaki Okazaki)
地点:
国际计算语言学协会
SIG公司:
出版商:
计算语言学协会
注:
页:
11626–11644
语言:
网址:
https://aclantology.org/2023.acl-long.650网址
内政部:
10.18653/v1/2023.acl长650
比比键:
引用(ACL):
唐丽燕、塔尼亚·戈亚尔、亚历克斯·法布里、菲利普·拉班、徐嘉诚、塞米·亚武兹、沃伊西奇·克里辛斯基、贾斯汀·卢梭和格雷格·杜勒特。2023理解摘要中的事实错误:错误、摘要生成器、数据集、错误检测器.英寸计算语言学协会第61届年会论文集(第一卷:长篇论文),第11626–11644页,加拿大多伦多。计算语言学协会。
引用(非正式):
理解摘要中的事实错误:错误、摘要生成器、数据集、错误检测器(Tang等人,ACL 2023)
复制引文:
PDF格式:
https://aclantology.org/2023.acl-long.650.pdf
视频:
 https://aclantology.org/2023.acl-long.650.mp4