MLSUM公司 swMATH ID: 42116 软件作者: 托马斯·西亚罗姆、保罗·阿莱克西斯·德雷、西尔万·兰普利、本杰明·皮沃沃斯基、雅各布·斯塔亚诺 描述: MLSUM:多语言摘要语料库。我们提出了MLSUM,这是第一个大规模的多语言SUM化数据集。它从网上报纸上获得,包含五种不同语言的150多万篇文章/摘要对,即法语、德语、西班牙语、俄语和土耳其语。与流行的CNN/Daily邮件数据集中的英文报纸一起,收集的数据形成了一个大规模的多语言数据集,可以为文本摘要社区提供新的研究方向。我们报告了基于最先进系统的跨语言比较分析。这些突出了现有的偏见,这些偏见促使使用多语言数据集。 主页: https://arxiv.org/abs/2004.14900 源代码: https://github.com/ThomasScialom/MLSUM网站 相关软件: 胭脂;判决-BERT;捷运局;移动分数;希伯特;佩加斯;瓶装水总量;BiSET系列;Opinion文摘;高RES;SUPERT(超级);费卡;带宽总和;SummaEval总结;FFCI公司;BLEU公司;SBERT公司;BERTS核心;罗贝尔塔;XLNet公司 引用于: 1文件 3位作者引用 1 蒂莫西·鲍德温 1 法伊里·库托 1 刘杰翰 连载1篇 1 人工智能研究杂志 在1个字段中引用 1 计算机科学(68至XX) 按年份列出的引文