计算机科学>计算与语言
标题: 构建下千种语言的机器翻译系统
摘要: 在本文中,我们分享了我们构建实用机器翻译(MT)系统的成果,该系统能够跨1000多种语言进行翻译。 我们描述了三个研究领域的结果:(i)通过利用半监督的语言识别预训练和开发数据驱动的过滤技术,为1500多种语言构建干净的网络挖掘数据集; (ii)为服务不足的语言开发实用机器翻译模型,利用100多种高资源语言的受监督并行数据训练的大规模多语言模型,以及额外1000多种语言的单语数据集; 和(iii)研究这些语言的评估指标的局限性,并对机器翻译模型的输出进行定性分析,强调这些类型模型的几种常见错误模式。 我们希望,我们的工作能够为致力于为当前未被研究的语言构建机器翻译系统的从业者提供有用的见解,并突出研究方向,以弥补大规模多语言模型在数据解析设置中的不足。