Improving Multi-Document Summarization through Referenced Flexible Extraction with Credit-Awareness

Song, Yun-Zhu; Chen, Yi-Syuan; Shuai, Hong-Han

计算机科学>计算与语言

arXiv:2205.01889（cs）

【2022年5月4日提交】

职务：通过具有信用意识的引用灵活提取改进多文档摘要

作者：宋云珠,陈一思源,洪汉帅

查看PDF

摘要：多文档摘要（MDS）中一个显著的挑战是输入的长度过长。在本文中，我们提出了一个抽象变压器框架来解决这个问题。具体来说，我们利用预先训练的语言模型构建了一个层次提取器，用于跨文档选择突出的句子，以及一个抽象器，用于将所选内容重写为摘要。然而，学习这样的框架是很有挑战性的，因为抽象器的最佳内容通常是未知的。以前的工作通常创建伪提取预言，以支持提取器和抽象器的有监督学习。然而，我们认为，由于预测信息不足以及训练和测试之间的目标不一致，这些方法的性能可能会受到限制。为此，我们提出了一种损失加权机制，该机制使模型意识到非伪提取预言符中句子的不平等重要性，并利用微调的抽象器生成摘要引用，作为学习提取器的辅助信号。此外，我们提出了一种强化学习方法，可以有效地应用于提取器，以协调训练和测试之间的优化。实验结果表明，我们的框架大大优于具有可比模型大小的强基线，并在Multi-News、Multi-XScience和WikiCatSum语料库上取得了最佳结果。

学科：	计算与语言（cs.CL）; 人工智能（cs.AI）
引用为：	arXiv:2205.01889【cs.CL】
	（或 arXiv:2205.01889v1【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2205.01889

提交历史记录

发件人：宋云珠[查看电子邮件]
[第1版]2022年5月4日星期三04:40:39 UTC（176 KB）

计算机科学>计算与语言

职务：通过具有信用意识的引用灵活提取改进多文档摘要

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

职务：通过具有信用意识的引用灵活提取改进多文档摘要

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目