MADLAD-400: A Multilingual And Document-Level Large Audited Dataset

Kudugunta, Sneha; Caswell, Isaac; Zhang, Biao; Garcia, Xavier; Xin, Derrick; Kusupati, Aditya; Stella, Romi; Bapna, Ankur; Firat, Orhan

MADLAD-400：一个多语言和文档级的大型审计数据集

的一部分神经信息处理系统进展36（NeurIPS 2023）数据集和基准跟踪

作者

斯内哈·库杜贡塔（Sneha Kudugunta）、艾萨克·卡斯维尔（Isaac Caswell）、张彪（Biao Zhang）、泽维尔·加西亚（Xavier Garcia）、德里克·辛（Derrick Xin）、阿迪蒂亚·库苏帕蒂（Aditya Kusupati）、罗米·斯特拉（Romi

摘要

我们介绍了MADLAD-400，这是一个基于CommonCrawl的手动审计的通用域3T令牌单语数据集，跨越419种语言。我们讨论了自审MADLAD-400所揭示的局限性，以及数据审核在数据集创建过程中的作用。然后，我们使用公开可用的数据，在2500亿个令牌上训练并发布了一个10.7B参数的多语言机器翻译模型，涵盖450多种语言，发现它与显著较大的模型竞争，并报告了不同领域的结果。此外，我们训练了一个8B参数的语言模型，并对少量快照翻译的结果进行了评估。我们将基线模型提供给研究社区。

MADLAD-400：一个多语言和文档级的大型审计数据集

作者

摘要

名称更改政策