的一部分神经信息处理系统进展36(NeurIPS 2023)数据集和基准跟踪
斯内哈·库杜贡塔(Sneha Kudugunta)、艾萨克·卡斯维尔(Isaac Caswell)、张彪(Biao Zhang)、泽维尔·加西亚(Xavier Garcia)、德里克·辛(Derrick Xin)、阿迪蒂亚·库苏帕蒂(Aditya Kusupati)、罗米·斯特拉(Romi
我们介绍了MADLAD-400,这是一个基于CommonCrawl的手动审计的通用域3T令牌单语数据集,跨越419种语言。我们讨论了自审MADLAD-400所揭示的局限性,以及数据审核在数据集创建过程中的作用。然后,我们使用公开可用的数据,在2500亿个令牌上训练并发布了一个10.7B参数的多语言机器翻译模型,涵盖450多种语言,发现它与显著较大的模型竞争,并报告了不同领域的结果。此外,我们训练了一个8B参数的语言模型,并对少量快照翻译的结果进行了评估。我们将基线模型提供给研究社区。
在电子程序中更改姓名的请求将被接受,不会提出任何问题。然而,名称更改可能会导致书目跟踪问题。作者被要求仔细考虑这一点,并在要求在电子诉讼中更改姓名之前与合著者进行讨论。
使用“报告问题”链接请求更改名称。