机器翻译语言模型结构的缩放和转换研究
张彪(Biao Zhang)、戈巴尼(Behrooz Ghorbani)、安库尔·巴纳(Ankur Bapna)、郑勇(Yong Cheng)、加西亚(Xavier Garcia)、沈乔纳森(Jonathan Shen)、奥汉·菲拉特
第39届机器学习国际会议记录,PMLR 162:26176-261922022年。
摘要
自然语言理解和生成模型遵循两种主要的体系结构范式之一:在单个层堆栈中处理级联序列的语言模型(LM)和使用单独层堆栈进行输入和输出处理的编码器-解码器模型(EncDec)。在机器翻译中,EncDec一直是最受欢迎的方法,但很少有研究调查LM的性能。在这项工作中,我们深入研究了在数据条件和模型大小的系统变化下,几种建筑设计选择对LM在双语、(大规模)多语言和零快照翻译任务中的性能的作用。我们的结果表明:(i)不同的LM具有不同的缩放特性,其中架构差异通常在小范围内对模型性能有显著影响,但性能差距随着参数数量的增加而缩小,(ii)几种设计选择,包括源序列的因果掩蔽和语言建模目标,对翻译质量有不利影响,以及(iii)当与源序列的全可见掩蔽相结合时,LM在受监督的双语和多语言翻译任务上的表现可以与EncDec媲美,并通过减少离目标平移,在零射方向上大大改进。
引用本文
相关材料