Examining Scaling and Transfer of Language Model Architectures for Machine Translation

Biao Zhang; Behrooz Ghorbani; Ankur Bapna; Yong Cheng; Xavier Garcia; Jonathan Shen; Orhan Firat

机器翻译语言模型结构的缩放和转换研究

张彪（Biao Zhang）、戈巴尼（Behrooz Ghorbani）、安库尔·巴纳（Ankur Bapna）、郑勇（Yong Cheng）、加西亚（Xavier Garcia）、沈乔纳森（Jonathan Shen）、奥汉·菲拉特

第39届机器学习国际会议记录，PMLR 162:26176-261922022年。

摘要

自然语言理解和生成模型遵循两种主要的体系结构范式之一：在单个层堆栈中处理级联序列的语言模型（LM）和使用单独层堆栈进行输入和输出处理的编码器-解码器模型（EncDec）。在机器翻译中，EncDec一直是最受欢迎的方法，但很少有研究调查LM的性能。在这项工作中，我们深入研究了在数据条件和模型大小的系统变化下，几种建筑设计选择对LM在双语、（大规模）多语言和零快照翻译任务中的性能的作用。我们的结果表明：（i）不同的LM具有不同的缩放特性，其中架构差异通常在小范围内对模型性能有显著影响，但性能差距随着参数数量的增加而缩小，（ii）几种设计选择，包括源序列的因果掩蔽和语言建模目标，对翻译质量有不利影响，以及（iii）当与源序列的全可见掩蔽相结合时，LM在受监督的双语和多语言翻译任务上的表现可以与EncDec媲美，并通过减少离目标平移，在零射方向上大大改进。

引用本文

BibTeX公司

@在诉讼中{pmlr-v162-zhang22h，title={检查机器翻译语言模型架构的缩放和转换}，author={张、彪和戈尔巴尼、贝罗兹和巴纳、安库尔和程、勇和加西亚、泽维尔和沈、乔纳森和菲拉特、奥尔罕}，booktitle={第39届机器学习国际会议论文集}，页码={26176--26192}，年份={2022}，editor={乔杜里、卡马利卡和杰尔卡、斯特凡尼和宋、勒和塞佩斯瓦里、塞萨巴和纽、冈和萨巴托、西万}，体积={162}，series={机器学习研究论文集}，月={7月17日--23日}，publisher={PMLR}，pdf={https://proceedings.mlr.press/v162/zhang22h/zhang22小时.pdf},url={https://proceedings.mlr.press/v162/zhang22h.html},abstract={自然语言理解和生成模型遵循两种主要的体系结构范式之一：在单个层堆栈中处理级联序列的语言模型（LM）和编码器-解码器模型（EncDec）其利用单独的层堆栈进行输入和输出处理。在机器翻译中，EncDec一直是最受欢迎的方法，但很少有研究调查LM的性能。在这项工作中，我们深入研究了在数据条件和模型大小的系统变化下，几种建筑设计选择对LM在双语、（大规模）多语言和零快照翻译任务中的性能的作用。我们的结果表明：（i）不同的LM具有不同的缩放特性，其中架构差异通常在小范围内对模型性能有显著影响，但性能差距随着参数数量的增加而缩小，（ii）几种设计选择，包括源序列的因果掩蔽和语言建模目标，对翻译质量有不利影响，以及（iii）当与源序列的全可见掩蔽相结合时，LM在受监督的双语和多语言翻译任务上的表现可以与EncDec媲美，并且通过有助于减少偏离目标的平移，在零发射方向上大大改进。}}

尾注

%0会议论文%机器翻译语言模型结构的缩放和转换%张彪%Behrooz Ghorbani先生%安库尔·巴纳%阿永成%泽维尔·加西亚%乔纳森·沈%奥罕冷杉%第39届机器学习国际会议论文集%C机器学习研究进展%D 2022年%E卡马利卡·乔杜里%E斯特凡妮·杰格尔卡%E乐松%E Csaba Szepesvari公司%鄂岗牛%E西万·萨巴托%F pmlr-v162-张22h%我PMLR%电话26176-26192%U型https://proceedings.mlr.press/v162/zhang22h.html%V 162型%X自然语言理解和生成模型遵循两种主要的体系结构范式之一：在单个层堆栈中处理级联序列的语言模型（LM），以及利用独立层堆栈进行输入和输出处理的编码器-解码器模型（EncDec）。在机器翻译中，EncDec一直是最受欢迎的方法，但很少有研究调查LM的性能。在这项工作中，我们深入研究了在数据条件和模型大小的系统变化下，几种建筑设计选择对LM在双语、（大规模）多语言和零快照翻译任务中的性能的作用。我们的结果表明：（i）不同的LM具有不同的缩放特性，其中架构差异通常在小范围内对模型性能有显著影响，但性能差距随着参数数量的增加而缩小，（ii）几种设计选择，包括源序列的因果掩蔽和语言建模目标，对翻译质量有不利影响，以及（iii）当与源序列的全可见掩蔽相结合时，LM在受监督的双语和多语言翻译任务上的表现可以与EncDec媲美，并通过减少离目标平移，在零射方向上大大改进。

亚太地区

Zhang，B.、Ghorbani，B.、Bapna，A.、Cheng，Y.、Garcia，X.、Shen，J.和Firat，O.（2022）。研究机器翻译语言模型结构的缩放和转换。第39届机器学习国际会议记录，英寸机器学习研究进展162:26176-26192网址：https://proceedings.mlr.press/v162/zhang22h.html。

机器翻译语言模型结构的缩放和转换研究

摘要

引用本文

相关材料