×

超越以英语为中心的多语言机器翻译。 (英语) Zbl 07370624号

摘要:现有的翻译工作通过训练一个能够在任何一对语言之间进行翻译的模型,展示了大规模多语言机器翻译的潜力。然而,这项工作大多以英语为中心,只对翻译成英语的数据进行培训。虽然这得到了大量培训数据来源的支持,但它并没有反映世界各地的翻译需求。在这项工作中,我们创建了一个真正的多对多多语言翻译模型,可以在任意一对100种语言之间直接翻译。我们构建并开源了一个训练数据集,该数据集使用大规模挖掘创建的并行数据覆盖数千个语言方向。然后,我们探索如何通过结合密集缩放和特定于语言的稀疏参数来有效地增加模型容量,以创建高质量的模型。我们专注于非英语中心模式,在直接在非英语方向之间进行翻译的同时,在机器翻译研讨会(WMT)上竞争性地使用最佳单个系统时,可获得超过10个BLEU的收益。我们开源了我们的脚本,以便其他人可以复制数据、评估和最终M2M-100模型:https://github.com/pytorch/fairseq/tree/master/examples/m2m_100.

MSC公司:

68T05年 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] Solomon Teferra Abate、Michael Melese、Martha Yifiru Tachbelie、Million Meshesha、Solomon Atinafu、Wondwossen Mulugeta、Yaregal Assabie、Hafte Abera、Binyam Ephrem Seyoum、Tewodros Abebe等。七种埃塞俄比亚语言对的双向统计机器翻译并行语料库。《自然语言处理语言资源第一次研讨会论文集》,第83-90页,2018年。
[2] 萨达夫·阿卜杜勒·劳夫和霍尔格·施温克。使用可比语料库提高SMT性能。在EACL中,第16-23页,2009年。统一资源定位地址http://www.aclweb.org/选集/E09-1003。
[3] Zhi eljko Agić和Ivan Vulić。JW300:一个适用于低资源语言的广泛覆盖的并行语料库。2019年7月,意大利佛罗伦萨,计算语言学协会第57届年会会议记录,第3204-3210页。计算语言学协会。doi:10.18653/v1/P19-1310。统一资源定位地址https://www.aclweb.org/antology网站/第19-1310页。
[4] Roee Aharoni、Melvin Johnson和Orhan Firat。大规模多语言神经机器翻译。计算语言学协会北美分会2019年会议记录:人类语言技术,第1卷(长篇和短篇论文),第3874-38842019页。
[5] 奥勒沃根-阿希亚(Ahia)和凯莱奇·奥格吉(Kelechi Ogueji)。尼日利亚洋泾浜语的监督和非监督神经机器翻译基线。arXiv预打印arXiv:2003.1266020。
[6] Lo Alla、Dione Cheikh Bamba、Nguer Elhadji Mamadou、Ba Sileye O Ba和Lo Moussa。使用lstm将法语翻译成塞内加尔当地语言:Wolof作为案例研究。arXiv预印arXiv:2004.138402020。
[7] 匿名。低资源机器翻译中的句法相关性xlnet单词嵌入生成。OpenReview,2020年。
[8] Naveen Arivazhagan、Ankur Bapna、Orhan Firat、Dmitry Lepikhin、Melvin Johnson、Maxim Krikun、Mia Xu Chen、Yuan Cao、George Foster、Colin Cherry等,《野外大规模多语言神经机翻译:发现与挑战》。arXiv预印arXiv:1907.050192019。
[9] Sanjeev Arora、Nadav Cohen和Elad Hazan。深度网络优化:通过超参数化实现隐式加速。arXiv预印arXiv:1802.065092018。
[10] Mikel Artetxe和Holger Schwenk。基于Margin的多语言句子嵌入并行语料库挖掘。计算语言学协会第57届年会会议记录,第3197-32032019a页。
[11] 米凯尔·阿特克斯和霍尔格·施温克。大规模多语种句子嵌入,用于零快照跨语言迁移及其他。计算语言学协会学报,7:597-6102019b。
[12] 吉米·雷巴(Jimmy Lei Ba)、杰米·瑞安·基罗斯(Jamie Ryan Kiros)和杰弗里·欣顿(Geoffrey E Hinton)。层规范化。arXiv,abs/1607.064502016年。
[13] Dzmitry Bahdanau、Kyung Hyun Cho和Yoshua Bengio。神经机器翻译通过联合学习对齐和翻译。第三届国际学习代表大会,2015年,2015年。
[14] Ankur Bapna和Orhan Firat。神经机器翻译的简单、可扩展的适应。在2019年自然语言处理实证方法会议和第九届自然语言处理国际联合会议(EMNLP-IJCNLP)的会议记录中,第1538-1548页,2019。
[15] Loíc Barrault、Ondřej Bojar、Marta R Costa-Jussá、Christian Federmann、Mark Fishel、Yvette Graham、Barry Haddow、Matthias Huck、Philipp Koehn、Shervin Malmasi等。2019年机器翻译会议的成果(wmt19)。《第四届机器翻译会议记录》(第2卷:共享任务文件,第1天),2019年第1-61页。
[16] Ondrej Bojar和Ales Tamchyna。利用单语数据改进翻译模型。2011年统计机器翻译(WMT)研讨会。
[17] Ondřej Bojar、Christian Federmann、Mark Fishel、Yvette Graham、Barry Haddow、Philipp Koehn和Christof Monz。2018年机器翻译会议成果
[18] Houda Bouamor和Hassan Sajjad。H2@BUCC18:使用多语言句子嵌入从可比较语料库中提取并行句子。2018年5月,BUCC。
[19] 克里斯蒂安·巴克和菲利普·科恩。wmt 2016双语文档对齐共享任务的发现。《第一届机器翻译会议记录》,第554-563页,德国柏林,2016年8月。计算语言学协会。统一资源定位地址http://www.aclweb.org/antology/W/W16/W16-2347。
[20] Isaac Caswell、Ciprian Chelba和David Grangier。标记回译。《第四届机器翻译会议论文集》(第1卷:研究论文),第53-63页,2019年。
[21] Hande Celikkanat、Miikka Silfverberg和Vinit Ravishankar。多语言神经机器翻译模型在捕捉语言特征方面更好吗?布拉格数学语言学公报,(115):143-1622020。
[22] 毛罗·塞托洛(Mauro Cettolo)、马塞洛·费德里科(Marcello Federico)、路易莎·本蒂沃格利(Luisa Bentivogli)、尼胡斯·扬(Niehues Jan)、圣克塞巴斯蒂安(Stüker Sebastian)、苏道·卡图西奥(Sudoh Katsuitho)、吉。2017年iwslt评估活动概述。在国际口语翻译研讨会上,2017年第2-14页。
[23] Vishrav Chaudhary、Yuqing Tang、Francisco Guzmán、Holger Schwenk和Philipp Koehn。使用多语言句子嵌入的低源语料库过滤。WMT 2019,第261页,2019年。
[24] 陈鹏仁、沈佳军、马修·勒、维什拉夫·乔杜里、艾哈迈德·埃尔·基什基、纪尧姆·温泽克、迈勒·奥特和马克·阿雷里奥·兰扎托。脸书ai的wat19缅甸英语翻译任务提交。《第六届亚洲翻译研讨会论文集》,第112-122页,2019年。
[25] 陈品珍(Pinzhen Chen)、尼古拉·博戈谢夫(Nikolay Bogoychev)、肯尼斯·赫菲尔德(Kenneth Heafield)和法希姆·基里夫(Faheem Kirefu)。基于约束解码的并行句子挖掘。ACL,2020年。
[26] 陈田琪、徐冰、张池源和卡洛斯·盖斯特林。用次线性内存开销训练深网。arXiv,abs/1604.061742016年。
[27] Christos Christodouloupoulos和Mark Steedman。一个庞大的平行语料库:100种语言的《圣经》。语言资源与评估,49(2):375-3952015。
[28] 亚历克西斯·康诺(Alexis Conneau)、卡提凯·坎德尔瓦尔(Kartikay Khandelwal)、纳曼·戈亚尔(Naman Goyal)、维什拉夫·乔杜里(Vishrav Chaudhary)、纪尧姆·温泽克(Guillaume Wenzek)、弗朗西斯科·古兹曼(Francisco Guzmán)、爱德华·格雷夫(Edouard Gra。大规模的无监督跨语言表征学习。arXiv预印arXiv:1911.021162019。
[29] Marta R Costa-jussá、Carlos Escolano、Christine Basta、Javier Ferrando、Roser Batlle和Ksenia Kharitonova。多语言神经机器翻译中的性别偏见:架构很重要。arXiv预印arXiv:2012.131762020。
[30] Raj Dabre、Atsushi Fujita和Chenhui Chu。通过多级微调开发多语言,用于低资源神经机器翻译。《2019年自然语言处理实证方法会议记录》和第九届国际自然语言处理联合会议(EMNLP-IJCNLP),第1410-1416页,2019年。
[31] 丁晨晨(Chenchen Ding)、尤蒂亚马(Masao Utiyama)和住田英一郎(Eiichiro Sumita)。类似的东南亚语言:基于Corpus的泰国语和马来语印尼语案例研究。《第三届亚洲翻译研讨会论文集》(WAT2016),第149-156页,2016年。
[32] 丁晨晨(Chenchen Ding)、扎尔·艾(Hnin Thu Zar Aye)、温帕帕(Win Pa Pa)、钦丹达尔·恩维特(Khin Thandar Nwet)、钦马索(Khin Mar Soe)、尤提亚马(Masao Utiyama)和苏美田(Eiichiro Sumita)。面向缅甸语形态分析:基于音节的标记化和部分话语标记。ACM亚洲和低资源语言信息处理交易(TALLIP),19(1):2019年5月。
[33] 谢尔盖·埃杜诺夫(Sergey Edunov)、迈尔·奥特(Myle Ott)、迈克尔·奥利(Michael Auli)和大卫·格兰杰(David Grangier)。大规模理解回译。程序中。EMNLP,2018年。
[34] Ahmed El-Kishky、Vishrav Chaudhary、Francisco Guzman和Philipp Koehn。CCAligned:大量跨语言网络文档对的集合。程序中。EMNLP,2020年。
[35] Chris Chinenye Emezue和Femi Pancrace Bonaventure Dossou。Ffr第1版。1:Fon法语神经机器翻译。《第四届拓宽自然语言处理研讨会论文集》,第83-87页,2020年。
[36] 卡洛斯·埃斯科拉诺(Carlos Escolano)、马尔塔·科斯塔·朱萨(Marta R Costa-jussá)和何塞·阿尔·福诺洛萨(JoséAR Fonollosa)。通过增量训练实现从双语到多语言的神经机器翻译。《计算语言学协会第57届年会会议记录:学生研究研讨会》,第236-242页,2019年。
[37] 卡洛斯·埃斯科拉诺(Carlos Escolano)、马尔塔·科斯塔·朱萨(Marta R Costa-jussá)、何塞·阿尔·福诺洛萨(JoséAR Fonollosa)和米凯尔·阿尔泰克斯(Mikel Artetxe)。多语言机器翻译:缩小共享编码器和特定语言编码器之间的差距。arXiv预印arXiv:2004.065752020a。
[38] 卡洛斯·埃斯科拉诺(Carlos Escolano)、马尔塔·科斯塔·朱萨(Marta R Costa-jussá)、何塞·阿尔·福诺洛萨(JoséAR Fonollosa)和米凯尔·阿尔泰克斯(Mikel Artetxe)。通过交替冻结特定于语言的编码器和解码器来训练多语言机器翻译。arXiv预印arXiv:2006.015942020b。
[39] 米奎尔·埃斯普拉·戈米斯(Miquel Esplá-Gomis)、米凯尔·福卡达(Mikel L Forcada)、杰玛·拉米雷斯-桑切斯(Gema Ramírez-Sánchez)和霍昂(Hieu Hoang)。Parascraw:欧盟语言的网络规模并行语料库。在机器翻译峰会第十七届会议记录第2卷:译者、项目和用户轨迹,第118-119页,2019年。
[40] 蒂埃里·埃切戈伊(Thierry Etchegoyhen)和安多尼·阿斯佩提亚(Andoni Azpeitia)。可比语料库的集合理论对齐。在ACL中,第2009-20182016页。doi:10.18653/v1/P16-1189。统一资源定位地址http://www.aclweb。org/antology/P16-1189。
[41] 伊格纳蒂乌斯·埃泽亚尼、保罗·雷森、伊科库武·奥延韦、Chinedu Uchechukwu和马克·赫普尔。Igbo-english机器翻译:评估基准。arXiv预印本arXiv:2004.006482020。
[42] Marzieh Fadaee、Arianna Bisazza和Christof Monz。低资源神经机器翻译的数据增强。《计算语言学协会第55届年会论文集》(第2卷:短文),第567-573页,2017年。
[43] 安吉拉·范(Angela Fan)、爱德华·格雷夫(Edouard Grave)和阿尔曼德·朱林(Armand Joulin)。根据需要使用结构化丢包降低变压器深度。2019年国际学习代表大会。
[44] Orhan Firat、Kyunghyun Cho和Yoshua Bengio。具有共享注意机制的多途径、多语言神经机器翻译。《计算语言学协会北美分会2016年会议记录:人类语言技术》,第866-875页,2016年。
[45] ∀、Wilhelmina Nekoto、Vukosi Marivate、Tshinondiwa Matsila、Timi Fasubaa、Taiwo Fagbohungbe、Solomon Oluwole Akinola、Shamsuddeen Muhammad、Salomon Kabongo Kabenamualu、Salomey Osei、Freshia Sackey等。低资源机器翻译的参与性研究:非洲语言案例研究。《2020年自然语言处理实证方法会议论文集:研究结果》,第2144-2160页,2020年。
[46] 叶卡捷琳娜·加马什和克里斯托夫·蒙兹。多源神经机器翻译的集成学习。程序中。COLING,2016年。
[47] Jonas Gehring、Michael Auli、David Grangier、Denis Yarats和Yann N Dauphin。卷积序列到序列学习。程序中。2017年,ICML。
[48] 顾家涛,哈尼·哈桑,雅各布·德夫林和维克托·奥克利。极低资源语言的通用神经机器翻译。《计算语言学协会北美分会2018年会议记录:人类语言技术》,第1卷(长篇论文),第344-354页,2018年。
[49] 顾家涛,王勇,赵京贤,李克强。通过忽略虚假相关性改进了零快照神经机器翻译。计算语言学协会第57届年会会议记录,第1258-1268页,2019年。
[50] Francisco Guzmán、Peng-Jen Chen、Myle Ott、Juan Pino、Guillaume Lample、Philipp Koehn、Vishrav Chaudhary和Marc’Aurelio Ranzato。两个新的低资源机器翻译评估数据集:尼泊尔语-英语和僧伽罗语-英语。2019
[51] Francisco Guzmán、Peng-Jen Chen、Myle Ott、Juan Pino、Guillaume Lample、Philipp Koehn、Vishrav Chaudhary和Marc’Aurelio Ranzato。低资源机器翻译的flores评估数据集:尼泊尔语-英语和僧伽罗语-英语。《2019年自然语言处理实证方法会议记录》和第九届国际自然语言处理联合会议(EMNLP-IJCNLP),第6100-6113页,2019年。
[52] Thanh-Le Ha、Jan Niehues和Alexander Waibel。使用通用编码器和解码器实现多语言神经机器翻译。arXiv预印arXiv:1611.047982016。
[53] 何开明、张湘玉、任少清、孙建军。用于图像识别的深度残差学习。程序中。CVPR,2015年。
[54] 武聪·杜洪(Vu Cong Duy Hoang)、菲利普·科恩(Philipp Koehn)、戈拉姆雷扎·哈法里(Gholamreza Haffari)和特雷弗·科恩。用于神经机器翻译的迭代反翻译。2018年第二届神经机器翻译和生成研讨会论文集,第18-24页。
[55] Sepp Hochreiter和Jürgen Schmidhuber。长短期记忆。神经计算,9(8):1735-17801997。
[56] Neil Houlsby、Andrei Giurgiu、Stanislaw Jastrzebski、Bruna Morrone、Quentin De Laroussilhe、Andrea Gesmundo、Mona Attariyan和Sylvain Gelly。nlp的参数高效传递学习。在机器学习国际会议上,第2790-2799页。PMLR,2019年。
[57] 黄延平,程友龙,安库尔·巴普纳,奥汉·菲拉特,陈德浩,米娅·陈,李孝忠,Ngiam,Quoc V Le,Wu Yonghui,等。Gpipe:使用流水线并行性对巨型神经网络进行高效训练。神经信息处理系统进展,第103-1122019a页。
[58] 黄燕萍、程友龙、安库尔·巴普纳、奥汉·菲拉特、陈德浩、陈米娅·旭、李孝忠、Ngiam、Quoc V Le、吴永辉等。Gpipe:使用流水线并行高效训练巨型神经网络。在NeurIPS,2019b。
[59] 杰夫·约翰逊(Jeff Johnson)、马蒂杰斯·杜泽(Matthijs Douze)和埃尔维·杰古(HervéJégou)。使用gpu进行数十亿规模的相似性搜索。2019年IEEE大数据汇刊。
[60] 梅尔文·约翰逊(Melvin Johnson)、迈克·舒斯特(Mike Schuster)、奎克·V·勒(Quoc V Le)、马克西姆·克里坤(Maxim Krikun)、吴永辉(Yonghui Wu)、陈志峰(Zhifeng Chen)、尼基尔·索拉特(Nikhil Thorat)、费尔南达·维盖斯(Fernanda Viégas)、马丁·瓦滕。《计算语言学协会学报》,5:339-3512017年。
[61] 贾里德·卡普兰、萨姆·麦肯德利什、汤姆·海尼根、汤姆·布朗、本杰明·切斯、瑞沃·查尔德、斯科特·格雷、亚历克·拉德福德、杰弗里·吴和达里奥·阿莫迪。神经语言模型的缩放律。arXiv,abs/2001.083612020。
[62] Jungo Kasai、Nikolaos Pappas、Hao Peng、James Cross和Noah A.Smith。深度编码器,浅层解码器:重新评估机器翻译中的速度-质量权衡。arXiv,2020年。
[63] 乌尔瓦希·坎德瓦尔、安吉拉·范·朱拉夫斯基、卢克·泽特莫耶和迈克·刘易斯。最近邻机器翻译。arXiv预印arXiv:2010.007102020。
[64] Chiheon Kim、Heungsub Lee、Myungryong Jeong、Woonhyuk Baek、Boogeon Yoon、Ildoo Kim、Sungbin Lim和Sungwoong Kim。火炬管:用于训练巨型模型的实时流水线并行性。arXiv预印arXiv:2004.099102020。
[65] Yunsu Kim、Petre Petrov、Pavel Petrushkov、Shahram Khadivi和Hermann Ney。基于枢轴的迁移学习用于非英语语言之间的神经机器翻译。《2019年自然语言处理实证方法会议记录》和第九届国际自然语言处理联合会议(EMNLP-IJCNLP),第865-875页,2019年。
[66] DP Kingma和LJ Ba.Adam:一种随机优化方法。arXiv,2015年。
[67] 菲利普·科恩。Europarl:统计机器翻译的并行语料库。2005年MT峰会。
[68] 菲利普·科恩。Europarl:统计机器翻译的并行语料库。Citeser,2005年b。
[69] 菲利普·科恩。统计机器翻译。剑桥大学出版社,2009年。
[70] Philipp Koehn、Hieu Hoang、Alexandra Birch、Chris Callison-Burch、Marcello Federico、Nicola Bertoldi、Brooke Cowan、Wade Shen、Christine Moran、Richard Zens等。摩西:统计机器翻译的开源工具包。ACL第45届年会关于互动海报和演示会议的会议记录,第177-180页。计算语言学协会,2007年。
[71] Philipp Koehn、Huda Khayrallah、Kenneth Heafield和Mikel L.Forcada。wmt 2018关于并行语料库过滤的共享任务的发现。《第三届机器翻译会议论文集:共享任务论文》,726-739页,比利时布鲁塞尔,2018年10月a。计算语言学协会。统一资源定位地址https://www.aclweb.org/antology/W18-6453。
[72] Philipp Koehn、Huda Khayrallah、Kenneth Heafield和Mikel L Forcada。wmt 2018关于并行语料库过滤的共享任务的发现。《第三届机器翻译会议论文集:共享任务论文》,第726-7392018b页。
[73] Philipp Koehn、Francisco Guzmán、Vishrav Chaudhary和Juan Pino。WMT 2019的研究结果共享了低资源条件下并行语料库过滤的任务。2019年第四届机器翻译会议记录(第3卷:共享任务文件,第2天)。
[74] Taku Kudo和John Richardson。句子集:一个简单且独立于语言的子单词标记器和去标记器,用于神经文本处理。arXiv预印arXiv:1808.062262018。
[75] 阿诺普·昆楚库坦(Anoop Kunchukuttan)。IndicNLP库。https://github.com/anoopkunchukutan网址/indic_nlp-library/blob/master/docs/indicnlp.pdf,2020年。
[76] 伊万娜·科瓦皮利科娃(Ivana Kvapilíková)、米凯尔·阿特克斯(Mikel Artetxe)、戈卡·拉巴卡(Gorka Labaka)、恩尼科·阿吉雷(Eneko Agirer)和昂德·伊杰·博贾尔。用于并行语料库挖掘的无监督多语言句子嵌入。ACL,2020年。
[77] Surafel M Lakew、Marcello Federico、Matteo Negri和Marco Turchi。零源语言的多语言神经机器翻译。arXiv预印arXiv:1909.073422019。
[78] 德米特里·勒皮钦(Dmitry Lepikhin)、李孝忠(HyoukJoong Lee)、徐元忠(Yuanchong Xu)、陈德豪(Dehao Chen)、奥汉·菲拉特(Orhan Firat)、黄延平(Yanping Huang)、马克西姆·克里坤(Maxim Krikun)、诺。Gshard:使用条件计算和自动切分缩放巨型模型。arXiv,2020年。
[79] Jason Edward Lewis、Angie Abdilla、Noelani Arista、Kaipulaumakaniolono Baker、Scott Benesiinaabandan、Michelle Brown、Melanie Cheung、Meredith Coleman、Ashley Cordes、Joel Davison等。《土著协议和人工智能立场文件》。2020
[80] Bei Li、Yinqiao Li、Chen Xu、Ye Lin、Jiqiang Liu、Hui Liu、Ziyang Wang、Yuhao Zhang、Nuo Xu、Zeyang Wag等。wmt19的牛运机器翻译系统。《第四届机器翻译会议记录》(第2卷:共享任务文件,第1天),第257-266页,2019年。
[81] 李贤、阿萨·库珀·斯蒂克兰、汤玉清和孔翔。具有潜在深度的深层变压器。《神经信息处理系统进展》,332020年。
[82] 皮埃尔·里森和约格·蒂德曼。Opensubtitles2016:从电影和电视字幕中提取大型平行语料库。2016
[83] 刘银汉、顾家涛、纳曼·戈亚尔、仙丽、谢尔盖·埃杜诺夫、马詹·加兹维尼亚德、迈克·刘易斯和卢克·泽特莫耶。神经机器翻译的多语言去噪预训练。计算语言学协会学报,8:726-7422020。
[84] 陆一超、张飞利浦、费萨尔·拉达克、维卡斯·巴德瓦吉、张绍南和孙杰森。用于多语言机器翻译的神经中间语言。《第三届机器翻译会议论文集:研究论文》,第84-92页,2018年。
[85] Chaitanya Malaviya、Graham Neubig和Patrick Littell。学习语言表征以进行类型学预测。《2017年自然语言处理实证方法会议记录》,第2529-2535页,2017年。
[86] Nathan Ng、Kyra Yee、Alexei Baevski、Myle Ott、Michael Auli和Sergey Edunov。Facebook FAIR的WMT19新闻翻译任务提交。第四届机器翻译会议记录(第2卷:共享任务文件,第1天)。计算语言学协会,2019年。统一资源定位地址https://www.clweb.org/选集/W19-5333。
[87] Toan Q Nguyen和Julian Salazar。无撕裂变压器:提高自我关注的规范化。arXiv预印arXiv:1910.058952019。
[88] Bojar Ondrej、Rajen Chatterjee、Federmann Christian、Graham Yvette、Haddow Barry、Huck Matthias、Koehn Philipp、Liu Qun、Logacheva Varvara、Monz Christof等。2017年机器翻译会议成果(wmt17)。第二届机器翻译会议,第169-214页。计算语言学协会,2017年。
[89] Kishore Papineni、Salim Roukos、Todd Ward和Wei-Jing Zhu。Bleu:一种自动评估机器翻译的方法。计算语言学协会第40届年会会议记录,第311-318页,2002年。
[90] Gabriel Pereyra、George Tucker、Jan Chorowski、Lukasz Kaiser和Geoffrey E.Hinton。通过惩罚自信的输出分布来规范神经网络。在2017年国际学习代表大会(ICLR)研讨会上。
[91] Jonas Pfeiffer、Andreas Rücklé、Clifton Poth、Aishwarya Kamath、Ivan Vulić、Sebastian Ruder、Kyunghyun Cho和Iryna Gurevych。Adapterhub:用于调整变压器的框架。《2020年自然语言处理实证方法会议论文集:系统演示》,第46-54页,2020年。
[92] Wannaphong Phatthiyaphaibun、Korakot Chaovavanich、Charin Polpanumas、Arthit Suriyawongkul、Lalita Lowphansirikul和Pattarawat Chormai。PyThaiNLP:《Python中的泰国自然语言处理》,2016年6月。统一资源定位地址http://doi.org/10.5281/zenodo.3519354。
[93] M?arcis Pinnis、Rihards Krišlauks、Toms Miks、Daiga Deksne和ValtersŠics。Tilde的WMT 2017机器翻译系统。计算语言学协会,2017年。统一资源定位地址https://www.aclweb.org/antology/W17-4737。
[94] M?arcis Pinnis、Mat?naw ss Rikters和Rihards Krišlauks。Tilde 2018年WMT机器翻译系统。计算语言学协会,2018年。统一资源定位地址https://www.网址。aclweb.org/antology/W18-6423。
[95] Marcis Pinnis、Rihards Krišlauks和Matñnaf ss Rikters。Tilde的WMT 2019机器翻译系统。计算语言学协会,2019年。统一资源定位地址https://www.网址。aclweb.org/选集/W19-5335。
[96] 马特·波斯特。要求明确报告BLEU分数。《第三届机器翻译会议论文集:研究论文》,第186-191页,2018年。
[97] Marcelo OR Prates、Pedro H Avelar和Luis C Lamb。评估机器翻译中的性别偏见:谷歌翻译的案例研究。神经计算与应用,2019年第1-19页。
[98] Samyam Rajbhandari、Jeff Rasley、Olatunji Ruwase和Yuxiong He。零:针对训练万亿参数模型的内存优化。ArXiv,2019年。
[99] 里卡多·雷(Ricardo Rei)、克雷格·斯图尔特(Craig Stewart)、安娜·C·法里尼亚(Ana C Farinha)和阿隆·拉维(Alon Lavie)。彗星:用于mt评估的神经框架。在2020年自然语言处理经验方法会议记录(EMNLP)中,第2685-27022020页。
[100] 菲利普·雷斯尼克。为双语文本挖掘Web。ACL,1999年。统一资源定位地址http://www.aclweb。org/antology/P99-1068。
[101] Hammam Riza、Michael Purwoadi、Teduh Uliniansyah、Aw Ai Ti、Sharifah Mahani Aljunied、Luong Chi Mai、Vu Tat Thang、Nguyen Phuong Thai、Vichet Chea、Sethserey Sam等。亚洲语言树库简介。在2016年国际语音数据库和评估技术协调与标准化委员会(O-COCOSDA)东方分会会议上,第1-6页。IEEE,2016年。
[102] 霍尔格·施温克。统计机器翻译大规模轻度监督训练研究。在IWSLT中,第182-189页,2008年。
[103] 霍尔格·施文克(Holger Schwenk)、维什拉夫·乔杜里(Vishrav Chaudhary)、朔孙(Shuo Sun)、龚宏宇(Hongyu Gong)和弗朗西斯科·古兹曼(Francisco Guzmán)。Wikimatrix:从维基百科中挖掘1620个语言对中的1.35亿个平行句子。2019a年。
[104] 霍尔格·施温克(Holger Schwenk)、纪尧姆·温泽克(Guillaume Wenzek)、谢尔盖·埃杜诺夫(Sergey Edunov)、爱德华·格雷夫(Edouard Grave)、阿尔曼德·朱林(Armand Joulin)和安吉拉·范恩。CCMatrix:在网络上挖掘数十亿个高质量的平行句子。arXiv预印本arXiv:1911.049442019b。
[105] Thibault Sellam、Dipanjan Das和Ankur Parikh。Bleurt:学习用于文本生成的强大指标。计算语言学协会第58届年会会议记录,第7881-78922020页。
[106] Rico Sennrich和Biao Zhang。回顾低资源神经机器翻译:案例研究。2019年7月,意大利佛罗伦萨,第211-221页,《计算语言学协会第57届年会会议记录》。计算语言学协会。doi:10.18653/v1/P19-1021。统一资源定位地址https://www.aclweb.org/antology网站/第19-1021页。
[107] Rico Sennrich、Barry Haddow和Alexandra Birch。带有子单词单元的罕见单词的神经机器翻译。arXiv预印本arXiv:1508.079092015。
[108] Rico Sennrich、Barry Haddow和Alexandra Birch。用单语数据改进神经机器翻译模型。计算语言学协会(ACL)会议,2016年a。
[109] Rico Sennrich、Barry Haddow和Alexandra Birch。用于wmt 16的爱丁堡神经机器翻译系统。《机器翻译第一届会议论文集:第2卷,共享任务文件》,第371-376页,2016b。
[110] 里科·森里奇(Rico Sennrich)、亚历山德拉·伯奇(Alexandra Birch)、安娜·库里(Anna Currey)、乌尔里希·杰尔曼(Ulrich Germann)、巴里·哈多(Barry Haddow)、肯尼斯·海菲尔德(Kenneth Heafield)、安东尼奥·。爱丁堡大学WMT17神经机器翻译系统。计算语言学协会,2017年。统一资源定位地址https://www.aclweb.org/antology/W17-4739。
[111] Noam Shazeer、Youlong Cheng、Niki Parmar、Dustin Tran、Ashish Vaswani、Penporn Koanantakool、Peter Hawkins、HyoukJoong Lee、Mingsheng Hong、Cliff Young等。网格张量流:超级计算机的深度学习。《神经信息处理系统进展》,第10414-104232018页。
[112] 沈嘉君、陈鹏仁、马特·乐、何俊贤、顾家涛、麦勒·奥特、迈克尔·奥利和马克·阿雷里奥·兰扎托。机器翻译中的源-目标域不匹配问题。arXiv预印arXiv:1909.131512019。
[113] Mohammad Shoeybi、Mostofa Patwarve、Raul Puri、Patrick LeGresley、Jared Casper和Bryan Catanzaro。Megatron-lm:使用gpu模型并行性训练数十亿参数语言模型。arXiv预印arXiv:1909.080532019。
[114] Aditya Siddhant、Ankur Bapna、Yuan Cao、Orhan Firat、Mia Xu Chen、Sneha Kudugunta、Naveen Arivazhagan和Yonghui Wu。利用单语数据和自我监控进行多语言神经机器翻译。计算语言学协会第58届年会会议记录,第2827-2835页,2020年。
[115] 凯萨琳·西蒙尤(Kathleen Siminyu)、萨基·弗雷西娅(Sackey Freshia)、杰德·艾博特(Jade Abbott)和武科西·马里瓦特(Vukosi Marivate)。Ai4d-非洲语言数据集挑战。arXiv预印arXiv:2007.118652020。
[116] 理查德·辛克霍恩(Richard Sinkhorn)。任意正矩阵与双随机矩阵之间的关系。《数理统计年鉴》,35(2):876-8791964年·Zbl 0134.25302号
[117] Richard Sinkhorn和Paul Knopp。关于非负矩阵和双重随机矩阵。太平洋数学杂志,21(2):343-3481967·Zbl 0152.01403号
[118] 杰森·史密斯(Jason R.Smith)、克里斯·奎克(Chris Quirk)和克里斯蒂娜·图塔诺娃(Kristina Toutanova)。使用文档级对齐从可比较语料库中提取平行句子。在NAACL中,第403-411页,2010年。
[119] 斯蒂芬妮·斯特拉塞尔和詹妮弗·特蕾西。Lorelei语言包:低资源语言中用于技术开发的数据、工具和资源。第十届国际语言资源与评估会议(LREC’16),第3273-3280页,2016年。
[120] 克里斯蒂安·塞格迪(Christian Szegedy)、文森特·范胡克(Vincent Vanhoucke)、谢尔盖·洛夫(Sergey Ioffe)、乔纳森·什伦斯(Jonathon Shlens)和兹比格尼乌·沃伊纳(Zbigniew Wojna)。重新思考计算机视觉的初始架构。arXiv预印arXiv:1512.005672015。
[121] 阿尔内·塔尔曼(Aarne Talman)、乌穆特·苏鲁巴卡克(Umut Sulubacak)、劳尔·瓦茨奎兹(Raúl Vázquez)、伊夫·舍勒(Yves Scherrer)、萨米·维皮奥亚(Sami Virpioja)、亚历山德罗·拉加纳托(Alessandro Raganato)、阿尔维·赫尔斯卡宁(Arvi Hurskainen)和约格·蒂德曼。赫尔辛基大学提交给WMT19新闻翻译任务。第四届机器翻译会议记录(第2卷:共享任务文件,第1天)。计算语言学协会,2019年。统一资源定位地址https://www.aclweb.org/antology/W19-5347。
[122] 徐坦、陈嘉乐、狄和、夏英策、秦涛和刘铁燕。带语言聚类的多语言神经机器翻译。《2019年自然语言处理经验方法会议和第九届国际自然语言处理联合会议(EMNLP-IJCNLP)论文集》,第962-9722019a页。
[123] 徐坦、梁一冲、陈嘉乐、任毅、秦涛和刘铁燕。多语言神经机器翻译研究。arXiv预印arXiv:1912.116252019b。
[124] 汤玉清、周Tran、Xian Li、陈鹏仁、Naman Goyal、Vishrav Chaudhary、Gu Jiatao和Angela Fan。具有可扩展多语言预处理和微调功能的多语言翻译。arXiv预印arXiv:2008.004012020。
[125] 约格·蒂德曼(Jörg Tiedemann)。OPUS中的并行数据、工具和接口。《第八届国际语言资源与评价会议记录》(LREC’12),第2214-2218页,2012年。
[126] 约格·蒂德曼(Jörg Tiedemann)。从大规模多语言语料库中学习到的新兴语言空间。《北欧国家的数字人文》DHN2018,第188-197页。CEUR研讨会记录,2018年。
[127] Dan Tufis、Radu Ion、S、tefan Daniel、Dumitrescu和Dan S、tefănescu。维基百科作为smt培训语料库。在兰普,第702-709页,2013年。
[128] Masao Utiyama和Hitoshi Isahara。日英新闻文章和句子对齐的可靠措施。在ACL,2003年。统一资源定位地址http://www.aclweb.org/文选/P03-1010。
[129] 阿什什·瓦斯瓦尼(Ashish Vaswani)、诺姆·沙泽尔(Noam Shazeer)、尼基·帕尔玛(Niki Parmar)、雅各布·乌斯科雷特(Jakob Uszkoreit)、利昂·琼斯(Llion Jones)、艾丹·戈麦斯(Aidan N Gomez)、尤卡斯·凯泽(ukasz Kaiser。注意力是你所需要的。神经信息处理系统进展,第5998-6008页,2017年。
[130] 卢卡斯·努斯·维埃拉(Lucas Nunes Vieira)、米纳科·奥哈根(Minako O'Hagan)和卡罗尔·奥沙利文(Carol O'Sullivan)。理解机器翻译的社会影响:对医学和法律用例文献的批判性评论。信息、通信与社会,第1-18页,2020年。
[131] 王欣怡、尤利娅·茨维特科夫和格雷厄姆·纽比格。多语言神经机器翻译的平衡训练。程序中。ACL,2020年。
[132] 王一宁、张家军、翟飞飞、徐静芳、宗承庆。改进一对多多语言翻译的三种策略。《2018年自然语言处理实证方法会议记录》,第2955-2960页,比利时布鲁塞尔,2018年10月-11月。计算语言学协会。doi:10.18653/v1/D18-1326。统一资源定位地址https://www.aclweb.org/antology/D18-1326。
[133] 纪尧姆·温泽克(Guillaume Wenzek)、玛丽·安妮·拉乔克斯(Marie-Anne Lachaux)、亚历克西斯·康诺(Alexis Conneau)、维什拉夫·乔杜里(Vishrav Chaudhary)、弗朗西斯科·古兹曼(Francisco Guzmán)、阿尔曼·朱。从网络爬虫数据中提取高质量的单语数据集。arXiv预印arXiv:1911.003592019。
[134] Felix Wu、Angela Fan、Alexei Baevski、Yann N.Dauphin和Michael Auli。轻量级和动态卷积较少关注。程序中。ICLR,2019年。
[135] 吴永辉(Yonghui Wu)、迈克·舒斯特(Mike Schuster)、陈志峰(Zhifeng Chen)、奎克·V·勒(Quoc V Le)、穆罕默德·诺鲁齐(Mohammad Norouzi)、沃尔夫冈·马切里(Wolfgang Macherey)、马克西姆·克里坤(Maxim Krikun)、袁操(Yuan Cao)、秦高(Qin Gao)。arXiv预印本arXiv:1609.081442016。
[136] Qi Ye、Sachan Devendra、Felix Matthieu、Padmanabhan Sarguna和Neubig Graham。什么时候和为什么预训练单词嵌入对神经机器翻译有用。2018年HLT-NAACL。
[137] 张彪(Biao Zhang)、菲利普·威廉姆斯(Philip Williams)、伊万·蒂托夫(Ivan Titov)和里科·森里奇(Rico Sennrich)。改进大规模多语言神经机器翻译和零快照翻译。《计算语言学协会第58届年会会议记录》,第1628-16392020页。
[138] MichałZiemski、Marcin Junczys-Dowmunt和Bruno Pouliquen。联合国平行语料库v1.0。2016年5月,LREC。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。