机器翻译语言模型结构的缩放和转换研究

张彪(Biao Zhang)、戈巴尼(Behrooz Ghorbani)、安库尔·巴纳(Ankur Bapna)、郑勇(Yong Cheng)、加西亚(Xavier Garcia)、沈乔纳森(Jonathan Shen)、奥汉·菲拉特
第39届机器学习国际会议记录,PMLR 162:26176-261922022年。

摘要

自然语言理解和生成模型遵循两种主要的体系结构范式之一:在单个层堆栈中处理级联序列的语言模型(LM)和使用单独层堆栈进行输入和输出处理的编码器-解码器模型(EncDec)。在机器翻译中,EncDec一直是最受欢迎的方法,但很少有研究调查LM的性能。在这项工作中,我们深入研究了在数据条件和模型大小的系统变化下,几种建筑设计选择对LM在双语、(大规模)多语言和零快照翻译任务中的性能的作用。我们的结果表明:(i)不同的LM具有不同的缩放特性,其中架构差异通常在小范围内对模型性能有显著影响,但性能差距随着参数数量的增加而缩小,(ii)几种设计选择,包括源序列的因果掩蔽和语言建模目标,对翻译质量有不利影响,以及(iii)当与源序列的全可见掩蔽相结合时,LM在受监督的双语和多语言翻译任务上的表现可以与EncDec媲美,并通过减少离目标平移,在零射方向上大大改进。

引用本文


BibTeX公司
@在诉讼中{pmlr-v162-zhang22h,title={检查机器翻译语言模型架构的缩放和转换},author={张、彪和戈尔巴尼、贝罗兹和巴纳、安库尔和程、勇和加西亚、泽维尔和沈、乔纳森和菲拉特、奥尔罕},booktitle={第39届机器学习国际会议论文集},页码={26176--26192},年份={2022},editor={乔杜里、卡马利卡和杰尔卡、斯特凡尼和宋、勒和塞佩斯瓦里、塞萨巴和纽、冈和萨巴托、西万},体积={162},series={机器学习研究论文集},月={7月17日--23日},publisher={PMLR},pdf={https://proceedings.mlr.press/v162/zhang22h/zhang22小时.pdf},url={https://proceedings.mlr.press/v162/zhang22h.html},abstract={自然语言理解和生成模型遵循两种主要的体系结构范式之一:在单个层堆栈中处理级联序列的语言模型(LM)和编码器-解码器模型(EncDec)其利用单独的层堆栈进行输入和输出处理。在机器翻译中,EncDec一直是最受欢迎的方法,但很少有研究调查LM的性能。在这项工作中,我们深入研究了在数据条件和模型大小的系统变化下,几种建筑设计选择对LM在双语、(大规模)多语言和零快照翻译任务中的性能的作用。我们的结果表明:(i)不同的LM具有不同的缩放特性,其中架构差异通常在小范围内对模型性能有显著影响,但性能差距随着参数数量的增加而缩小,(ii)几种设计选择,包括源序列的因果掩蔽和语言建模目标,对翻译质量有不利影响,以及(iii)当与源序列的全可见掩蔽相结合时,LM在受监督的双语和多语言翻译任务上的表现可以与EncDec媲美,并且通过有助于减少偏离目标的平移,在零发射方向上大大改进。}}
尾注
%0会议论文%机器翻译语言模型结构的缩放和转换%张彪%Behrooz Ghorbani先生%安库尔·巴纳%阿永成%泽维尔·加西亚%乔纳森·沈%奥罕冷杉%第39届机器学习国际会议论文集%C机器学习研究进展%D 2022年%E卡马利卡·乔杜里%E斯特凡妮·杰格尔卡%E乐松%E Csaba Szepesvari公司%鄂岗牛%E西万·萨巴托%F pmlr-v162-张22h%我PMLR%电话26176-26192%U型https://proceedings.mlr.press/v162/zhang22h.html%V 162型%X自然语言理解和生成模型遵循两种主要的体系结构范式之一:在单个层堆栈中处理级联序列的语言模型(LM),以及利用独立层堆栈进行输入和输出处理的编码器-解码器模型(EncDec)。在机器翻译中,EncDec一直是最受欢迎的方法,但很少有研究调查LM的性能。在这项工作中,我们深入研究了在数据条件和模型大小的系统变化下,几种建筑设计选择对LM在双语、(大规模)多语言和零快照翻译任务中的性能的作用。我们的结果表明:(i)不同的LM具有不同的缩放特性,其中架构差异通常在小范围内对模型性能有显著影响,但性能差距随着参数数量的增加而缩小,(ii)几种设计选择,包括源序列的因果掩蔽和语言建模目标,对翻译质量有不利影响,以及(iii)当与源序列的全可见掩蔽相结合时,LM在受监督的双语和多语言翻译任务上的表现可以与EncDec媲美,并通过减少离目标平移,在零射方向上大大改进。
亚太地区
Zhang,B.、Ghorbani,B.、Bapna,A.、Cheng,Y.、Garcia,X.、Shen,J.和Firat,O.(2022)。研究机器翻译语言模型结构的缩放和转换。第39届机器学习国际会议记录,英寸机器学习研究进展162:26176-26192网址:https://proceedings.mlr.press/v162/zhang22h.html。

相关材料