总结

总结评价:重新评价总结评价。缺乏关于文本摘要评估指标的全面最新研究,以及对评估协议缺乏共识,继续阻碍进展。我们从五个维度解决了摘要评价方法存在的不足:1)利用神经摘要模型输出,结合专家和众包人工注释,对14个自动评价指标进行了全面一致的重新评价,2)我们一贯使用上述自动评估指标对23个最近的摘要模型进行基准测试,3)我们收集了CNN/DailyMail新闻数据集上训练的模型生成的最大摘要集合,并以统一的格式进行共享,4)我们实现并共享一个工具包,该工具包提供了一个可扩展的统一API,用于评估各种自动度量的摘要模型;5)我们组装并共享最大和最多样化的模型类型,收集人类对CNN/每日邮报数据集模型生成的摘要的判断,这些数据集由专家评委和众源工作人员注释。我们希望这项工作将有助于促进一个更完整的文本摘要评估协议,以及在开发更好地与人类判断相关的评估指标方面的研究。

zbMATH中的参考文献(参考文献1条)

显示结果1/1。
按年份排序(引用)

  1. 科托,法吉里;鲍德温,提摩太;刘杰汉:一个可解释的自动摘要评价框架(2022)