TLDR:科学文献的极端总结

@文章{Cachola2020 TLDRES,title={TLDR:科学文献的极端总结},作者={Isabel Cachola和Kyle Lo以及Arman Cohan和Daniel S.Weld},日志={ArXiv},年份={2020年},体积={abs/2004.15011},网址={https://api.semanticscholar.org/CorpusID:216867622}}
本文介绍了SCITLDR,一个新的多目标数据集,包含5.4K个TLDR,超过3.2K篇论文,并提出了CATTS,一种简单而有效的学习策略,用于生成TLDR,将标题作为辅助训练信号。

本文图表

询问这篇论文
AI供电

使用预训练变压器更好地进行铺层总结

本文提出了一种方法,即使用预训练和提取的间隙句来进行抽象摘要,以生成层摘要,并使用来自变形金刚的双向编码器表示和衡量句子可读性的可读性度量,将这些与提取摘要模型相结合,以进一步提高摘要的可读性提高总结的质量。

MSˆ2:医学研究的多文档综述

这项工作发布了MSˆ2(医学研究的多文档摘要),这是一个由超过47000份文档和20K份摘要组成的数据集,这些文档和摘要来自科学文献,有助于开发能够评估和聚合多个研究中相互矛盾的证据的系统,是第一个大规模的,生物医学领域中公开可用的多文档摘要数据集。

评论机器人:基于知识合成的可解释论文评论生成

一个新颖的ReviewRobot可以自动为多个类别(如新颖性和有意义的比较)分配评审分数和写评论,并且可以作为论文审稿人、节目主持人和作者的助手。

生物医学科学评论的非专业语言自动摘要

对自动生成生物医学科学评论的非专业语言摘要的各种挑战的分析表明,与专家为非专业公众开发的参考文献相比,使用当代神经架构生成的自动生成摘要可以实现有希望的质量和可读性。

使用实时、位置敏感的术语和符号定义扩充科学论文

这项工作介绍了ScholarPhi,这是一个增强的阅读界面,具有四个新颖的功能:工具提示,可显示论文中其他地方的位置敏感定义,对论文进行“整理”的过滤器,以揭示术语或符号在论文中的使用方式,并行显示多个定义的自动方程图,以及自动生成的重要术语和符号的词汇表。

X-SCITLDR:学术文献的跨语言极端总结

本文提出了一个针对学术领域四种不同语言的抽象跨语言摘要数据集,它使我们能够训练和评估处理英语论文并生成德语、意大利语、汉语和日语摘要的模型。

引文摘要:引文文本引导的科学极端总结和有限监督下的领域改编

提出了一种简单而有效的方法,用于从引文文本中自动提取科学论文的TLDR摘要,并创建了一个新的基准CiteSum,该基准CiteSam没有人工注释,比以前的人工管理数据集SciTLDR大约30倍。

引文摘要:引用文本引导的科学极端总结和低资源领域改编

提出了一种简单而有效的方法,可以从引文中自动提取科学论文的TLDR摘要,并创建了一个无需人工注释的新基准CiteSum,该基准比以前人工策划的数据集SciTLDR大约30倍。

PaperWeaver:通过将推荐论文与用户收集的论文联系起来,丰富专题论文提醒

用户研究表明,与呈现推荐论文相关工作部分的基线相比,使用PaperWeaver的参与者能够更好地理解推荐论文的相关性,并更自信地对其进行分类。

学术文献的跨语言极端摘要

本文探讨了如何使用基于多语言编解码器架构的最新神经抽象摘要模型实现学术文本的跨语言极端摘要,并研究了如何在知识提取方法的基础上使该方法更有效。
...

科学论文摘要的监督方法

本文通过利用大量作者提供的摘要资源,介绍了一个新的计算机科学出版物摘要数据集,并利用神经句子编码和传统使用的摘要特征,在该数据集上开发了模型。

结合全局和局部上下文的长文档摘要提取

一种新的针对长文档的神经单文档提取摘要模型,它结合了整个文档的全局上下文和当前主题中的局部上下文,其性能优于以前的工作,包括提取模型和抽象模型。

PEGASUS:用提取的间隙句进行抽象总结的预先训练

这项工作提出了在大规模文本语料库上用一个新的自我监督目标PEGASUS预训练大型基于Transformer的编码器-解码器模型,并证明它在所有12个下游数据集上都达到了最先进的性能,这些数据集由ROUGE分数衡量。

一种用于长文档摘要的语篇-软件注意模型

这项工作提出了第一个对单个较长形式的文档(如研究论文)进行抽象摘要的模型,该模型由一个新的层次编码器和一个专注的话语感知解码器组成,该编码器对文档的话语结构进行建模,该解码器用于生成摘要。

标题生成:从分解的文档标题中学习

提出了一种为非结构化文本文档生成标题的新方法,并给出了一项随机双盲试验的结果,在该试验中,受试者不知道哪些标题是人为或机器生成的。

TalkSumm:一种基于会议讨论的科学论文摘要数据集和可缩放注释方法

本文提出了一种新的方法,通过利用科学会议上的演讲视频自动生成科学论文摘要,并假设此类演讲构成了对论文内容的连贯而简洁的描述,可以构成良好摘要的基础。

不要给我细节,只给我总结!用于极值总结的Topic-ware卷积神经网络

本文提出了一种新的抽象模型,该模型以文章的主题为条件,完全基于卷积神经网络,在自动评估和人工评估时,其性能优于oracle提取系统和最先进的抽象方法。

使用预先训练的编码器进行文本摘要

本文介绍了一种基于BERT的新型文档级编码器,该编码器能够表达文档的语义并获得其句子的表示,并提出了一种新的微调时间表,该时间表对编码器和解码器采用不同的优化器,以缓解两者之间的不匹配。

数据驱动的科学文章摘要

这项工作从科学论文中生成了两个新的多内容摘要数据集,并测试了大量现有的基于提取和抽象神经网络的摘要方法的适用性,证明科学论文适合于数据驱动的文本摘要。

BART:用于自然语言生成、翻译和理解的去噪序列对序列预训练

BART是一种用于序列到序列模型预处理的去噪自动编码器,它与RoBERTa在GLUE和SQuAD上的性能相匹配,并在一系列抽象对话、问答和摘要任务上取得了最新的最新结果。
...