Liputan6:大型文本摘要的印尼数据集

法里·库托,Jey Han Lau(杰·汉·刘),蒂莫西·鲍德温


摘要
在本文中,我们介绍了一个大规模的印尼摘要数据集。我们从在线新闻门户Liputan6.com获取文章,并获得215827个文档-摘要对。我们利用预训练语言模型在基于多语言和单语BERT模型的数据集上开发基准提取和抽象摘要方法。我们通过检查机器生成的ROUGE分数较低的摘要进行了全面的错误分析,并揭示了ROUGE本身以及提取和抽象摘要模型的两个问题。
选集ID:
2020.acl-main.60年
体积:
计算语言学协会亚太分会第一届会议记录和第十届国际自然语言处理联合会议记录
月份:
十二月
年份:
2020
地址:
中国·苏州
编辑:
Kam-Fai Wong先生,凯文·奈特,华武
地点:
AACL公司
SIG公司:
出版商:
计算语言学协会
注:
页:
598–608
语言:
网址:
https://aclantology.org/2020.aacl-main.60
内政部:
比比键:
引用(ACL):
Fajri Koto、Jey Han Lau和Timothy Baldwin。2020Liputan6:用于文本摘要的大型印尼数据集.英寸计算语言学协会亚太分会第一届会议记录和第十届国际自然语言处理联合会议记录,第598-608页,中国苏州。计算语言学协会。
引用(非正式):
Liputan6:用于文本摘要的大型印尼数据集(Koto等人,AACL 2020)
复制引文:
PDF格式:
https://aclantology.org/2020.aacl-main.60.pdf
代码
fajri91/sum_liputan6号机组
数据
利普坦6IndoSum公司LCSTS系统