计算机科学>计算与语言
标题: MADLAD-400:一个多语言和文档级的大型审计数据集
摘要: 我们介绍了MADLAD-400,这是一个基于CommonCrawl的手动审计的通用域3T令牌单语数据集,跨越419种语言。 我们讨论了自审MADLAD-400所揭示的局限性,以及数据审核在数据集创建过程中的作用。 然后,我们使用公开可用的数据,在2500亿个令牌上训练并发布了一个10.7B参数的多语言机器翻译模型,涵盖450多种语言,发现它与显著较大的模型竞争,并报告了不同领域的结果。 此外,我们训练了一个8B参数的语言模型,并对少量快照翻译的结果进行了评估。 我们将基线模型提供给研究社区。