L(左)知识产权K(K)ey:一个用于生成缺失关键词和抽象摘要的大规模新闻数据集

法里·库托蒂莫西·鲍德温Jey Han Lau(杰·汉·刘)


摘要
摘要、关键字和标题是简洁地捕获文档内容的不同方式。虽然之前的大多数工作都分别发布了关键短语和摘要的数据集,但在这项工作中,我们引入了最大的新闻语料库LipKey,该语料库具有人工编写的抽象摘要、缺失的关键短语和标题。我们通过多任务训练将这三个要素联合使用,并在文档摘要的上下文中将其作为联合结构化输入。我们发现,将缺少的关键字和标题作为源文档的附加上下文可以改进基于变换的摘要模型。
选集ID:
2022.科林-1.303
体积:
第29届国际计算语言学会议论文集
月份:
十月
年份:
2022
地址:
韩国庆州
编辑:
尼科莱塔·卡尔佐拉里楚仁煌Hansaem Kim公司詹姆斯·普斯特约夫斯基利奥·瓦纳Key-Sun Choi公司Pum-Mo Ryu公司陈新喜露西娅·多纳泰利恒基黑桥贞道帕特里齐亚·帕吉奥念文雪Seokhwan Kim先生英云哈姆中和托尼·京吉尔·李恩里科·桑特斯弗朗西斯·邦德Seung-Hoon Na公司
地点:
冷却
SIG公司:
出版商:
国际计算语言学委员会
注:
页:
3427–3437
语言:
网址:
https://aclantology.org/2022.coling-1.303
内政部:
比比键:
引用(ACL):
Fajri Koto、Timothy Baldwin和Jey Han Lau。2022LipKey:一个用于无关键词生成和抽象摘要的大规模新闻数据集.英寸第29届国际计算语言学会议论文集,第3427–3437页,韩国庆州。国际计算语言学委员会。
引用(非正式):
LipKey:一个用于缺失关键词生成和抽象总结的大规模新闻数据集(Koto等人,COLING 2022)
复制引文:
PDF格式:
https://aclantology.org/2022.coling-1.303.pdf
数据
IndoSum公司KPTimes公司利普坦6