@进展中{tang-etal-2023理解,title=“了解摘要中的事实错误:错误、摘要生成器、数据集、错误检测器”,author=“唐、李燕和戈亚尔、塔尼亚和Fabbri、Alex和拉班、菲利普和徐、佳成和Yavuz、Semih和Kryscinski、Wojciech和卢梭、贾斯汀和格雷格·杜勒特“,editor=“罗杰斯、安娜和Boyd-Graber、Jordan和冈崎、直崎“,booktitle=“计算语言学协会第61届年会会议记录(第1卷:长篇论文)”,月=七月,年=“2023”,address=“加拿大多伦多”,publisher=“计算语言学协会”,url=“https://aclantology.org/2023.acl-long.650”,doi=“10.18653/v1/2023.acl-long.650”,pages=“11626--11644”,abstract=“人们广泛研究了抽象摘要模型产生事实错误的倾向,包括设计用于检测事实错误的度量标准和注释当前系统中的错误{'}输出。然而,摘要系统、度量和带注释的基准的不断演变的性质使得真实性评估成为一个动态目标,并且在度量之间进行清晰的比较变得越来越困难。在这项工作中,我们从九个现有数据集中聚合真实性错误注释,并根据底层摘要模型对其进行分层。我们在此分层基准上比较了最先进的真实性度量(包括最近基于ChatGPT的度量)的性能,并表明它们的性能在不同类型的摘要模型中存在显著差异。关键的是,我们的分析表明,真实性检测领域最近的许多改进都是基于较旧(预转换)模型的摘要,而不是更相关的最新摘要模型。我们进一步对每个错误类型进行细粒度分析,发现不同真实性度量的错误类型之间存在类似的性能差异。我们的结果表明,没有一个指标在所有设置或所有错误类型中都是最优的,我们根据这些见解为最佳实践提供了建议。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“tang-etal-2023-理解”><标题信息>了解摘要中的事实错误:错误、摘要生成器、数据集、错误检测器</titleInfo><name type=“personal”>李燕唐<角色>作者</角色></name><name type=“personal”>Tanya戈亚尔<角色>作者</角色></name><name type=“personal”>亚历克斯Fabbri(法布里)<角色>作者</角色></name><name type=“personal”>菲利普拉班<角色>作者</角色></name><name type=“personal”>嘉诚<namePart type=“given”><namePart type=“family”>徐</namePart><角色>作者</角色></name><name type=“personal”>塞米赫语雅武兹<角色>作者</角色></name><name type=“personal”><namePart type=“given”>沃伊切赫</namePart>Kryscinski<角色>作者</角色></name><name type=“personal”>贾斯汀<namePart type=“family”>卢梭</namePart><角色>作者</角色></name><name type=“personal”>格雷格<namePart type=“family”>Durrett</namePart><角色>作者</角色></name><originInfo>发布日期:2023-07发布日期:</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>计算语言学协会第61届年会会议记录(第1卷:长篇论文)</titleInfo><name type=“personal”>安娜罗杰斯<角色>编辑器</角色></name><name type=“personal”>约旦博伊德·格雷伯<角色>编辑器</角色></name><name type=“personal”>直崎<namePart type=“given”>冈崎<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>加拿大多伦多</place></originInfo>会议出版物</relatedItem>抽象摘要模型产生事实错误的倾向已被广泛研究,包括设计度量来检测事实错误和注释当前系统输出中的错误。然而,摘要系统、度量和带注释的基准的不断演变的性质使得真实性评估成为一个动态目标,并且在度量之间进行清晰的比较变得越来越困难。在这项工作中,我们从九个现有数据集中聚合真实性错误注释,并根据底层摘要模型对其进行分层。我们在此分层基准上比较了最先进的真实性度量(包括最近基于ChatGPT的度量)的性能,并表明它们的性能在不同类型的摘要模型中存在显著差异。关键的是,我们的分析表明,真实性检测领域最近的许多改进都是基于较旧(预转换)模型的摘要,而不是更相关的最新摘要模型。我们进一步对每个错误类型进行细粒度分析,发现不同真实性度量的错误类型之间存在类似的性能差异。我们的结果表明,没有一个指标在所有设置或所有错误类型中都是最优的,我们根据这些见解为最佳实践提供了建议</摘要>理解tang-etal-202310.18653/v1/2023.acl-long.650<位置><网址>https://aclantology.org/2023.acl-long.650网址</url></位置><部分>2023-07年<扩展单元=“page”><开始>1162611644</范围></部分></模块></modsCollection>
%0会议记录%理解摘要中的事实错误:错误、摘要生成器、数据集、错误检测器%A Tang,李燕%塔尼亚·戈亚尔%亚历克斯·A Fabbri%菲利普·拉班%A Xu,嘉诚%A Yavuz,塞米%A Kryscinski,沃伊切赫%贾斯汀·卢梭%格雷格·杜勒特%Y Rogers,安娜%Y Boyd-Graber,约旦%Y冈崎,直崎%计算语言学协会第六十一届年会论文集(第一卷:长篇论文)%D 2023年%7月8日%计算语言学协会%C加拿大多伦多%F tang-etal-2023理解%X人们广泛研究了抽象摘要模型产生事实错误的倾向,包括设计用于检测事实错误的度量标准和注释当前系统输出中的错误。然而,摘要系统、度量和带注释的基准的不断演变的性质使得真实性评估成为一个动态目标,并且在度量之间进行清晰的比较变得越来越困难。在这项工作中,我们从九个现有数据集中聚合真实性错误注释,并根据底层摘要模型对其进行分层。我们在此分层基准上比较了最先进的真实性度量(包括最近基于ChatGPT的度量)的性能,并表明它们的性能在不同类型的摘要模型中存在显著差异。关键的是,我们的分析表明,真实性检测领域最近的许多改进都是基于较旧(预转换)模型的摘要,而不是更相关的最新摘要模型。我们进一步对每个错误类型进行细粒度分析,发现不同真实性度量的错误类型之间存在类似的性能差异。我们的结果表明,没有一个指标在所有设置或所有错误类型中都是最优的,我们根据这些见解为最佳实践提供了建议。%R 10.18653/v1/2023.acl长650%U型https://aclantology.org/2023.acl-long.650网址%U型https://doi.org/10.18653/v1/2023.acl-long.650网址%电话:11626-11644
降价(非正式)
[了解摘要中的事实错误:错误、摘要生成器、数据集、错误检测器](https://aclantology.org/2023.acl-long.650网址)(Tang等人,ACL 2023)
国际计算语言学协会
- 唐丽燕、塔尼亚·戈亚尔、亚历克斯·法布里、菲利普·拉班、徐嘉诚、塞米·亚武兹、沃伊西奇·克里辛斯基、贾斯汀·卢梭和格雷格·杜勒特。2023理解摘要中的事实错误:错误、摘要生成器、数据集、错误检测器.英寸计算语言学协会第61届年会论文集(第一卷:长篇论文),第11626–11644页,加拿大多伦多。计算语言学协会。