MADLAD-400:一个多语言和文档级的大型审计数据集

的一部分神经信息处理系统进展36(NeurIPS 2023)数据集和基准跟踪

Biptex公司 纸张 补充的

作者

斯内哈·库杜贡塔(Sneha Kudugunta)、艾萨克·卡斯维尔(Isaac Caswell)、张彪(Biao Zhang)、泽维尔·加西亚(Xavier Garcia)、德里克·辛(Derrick Xin)、阿迪蒂亚·库苏帕蒂(Aditya Kusupati)、罗米·斯特拉(Romi

摘要

我们介绍了MADLAD-400,这是一个基于CommonCrawl的手动审计的通用域3T令牌单语数据集,跨越419种语言。我们讨论了自审MADLAD-400所揭示的局限性,以及数据审核在数据集创建过程中的作用。然后,我们使用公开可用的数据,在2500亿个令牌上训练并发布了一个10.7B参数的多语言机器翻译模型,涵盖450多种语言,发现它与显著较大的模型竞争,并报告了不同领域的结果。此外,我们训练了一个8B参数的语言模型,并对少量快照翻译的结果进行了评估。我们将基线模型提供给研究社区。