@正在进行{chen-etal-2020-facebook,title=“{F}acebook{AI}{'}s{WMT}20新闻翻译任务提交”,author=“陈、彭仁和Lee、Ann和王长汉和戈亚尔、纳曼和范、安吉拉和威廉姆森、玛丽和顾嘉涛“,editor={Barrault,Lo{\“\i}c和Bojar、Ond{\v{r}}ej和布加尔、费蒂和Chatterjee、Rajen和Costa-juss{\`a},Marta R.和费德曼、克里斯蒂安和Fishel、Mark和弗雷泽、亚历山大和格雷厄姆、伊维特和古兹曼、帕科和哈多、巴里和哈克、马提亚斯和Yepes、Antonio Jimeno和Koehn、Philipp和马丁斯、安德烈和Morishita、Makoto和蒙兹、克里斯托夫和长田、Masaaki和中泽、Toshiaki和内格里·马特奥,booktitle=“第五届机器翻译会议记录”,月=11月,年=“2020”,address=“在线”,publisher=“计算语言学协会”,url=“https://aclantology.org/2020.wmt-1.8”,pages=“113--125”,abstract=“本文描述了脸书AI{'}提交WMT20共享新闻翻译任务。我们关注低资源设置,并参与两种语言对,泰米尔语{\textless}-{\textgreater}英语和因纽特人{\textlets}-}英语,其中有有限的域外双文本和单语数据。我们使用两种主要策略来解决资源不足的问题,即利用所有可用数据和使系统适应目标新闻领域。我们探索了利用所有语言的双文本和单语数据的技术,如自我监督模型预训练、多语言模型、数据增强和重新分类。为了更好地使翻译系统适应测试领域,我们探索了数据集标记和域内数据的微调。我们观察到,不同的技术根据语言对的可用数据提供了不同的改进。基于这一发现,我们将这些技术集成到一个训练管道中。对于En-{\textgreater}Ta,我们探索了一种使用额外泰米尔语位文本和单语数据的无约束设置,并表明可以获得进一步的改进。在测试集上,我们提交的最佳系统的Ta-{textgreater}En和En-{textgreater}Ta分别达到21.5和13.7 BLEU,Iu-{textgraater}En和En-{textgerater}Iu分别达到27.9和13.0。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“chen-etal-2020-facebook”><标题信息>脸书AI的WMT20新闻翻译任务提交</titleInfo><name type=“personal”><namePart type=“given”>彭仁</namePart><namePart type=“family”>陈</namePart><角色><roleTerm authority=“marcorrator”type=“text”>作者</roleTerm></角色></name><name type=“personal”>安李<namePart type=“family”><角色><roleTerm authority=“marcorrator”type=“text”>作者</roleTerm></角色></name><name type=“personal”>长汉王<namePart type=“family”><角色><roleTerm authority=“marcorrator”type=“text”>作者</roleTerm></角色></name><name type=“personal”><namePart type=“given”>Naman戈亚尔<角色><roleTerm authority=“marcorrator”type=“text”>作者</roleTerm></角色></name><name type=“personal”>安吉拉风扇<角色><roleTerm authority=“marcorrator”type=“text”>作者</roleTerm></角色></name><name type=“personal”>玛丽威廉姆森</namePart><角色><roleTerm authority=“marcorrator”type=“text”>作者</roleTerm></角色></name><name type=“personal”>嘉涛顾<角色><roleTerm authority=“marcorrator”type=“text”>作者</roleTerm></角色></name><originInfo><发布日期>2020-11</发布日期></originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>第五届机器翻译会议记录</titleInfo><name type=“personal”><namePart type=“given”>低成本<namePart type=“family”>突击队</namePart><角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><name type=“personal”>Ondřej博加尔<角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><name type=“personal”>费蒂布加尔<角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><name type=“personal”>拉詹查特吉<角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><name type=“personal”>玛尔塔<namePart type=“given”>R</namePart>Costa-jussá<角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><name type=“personal”>克里斯蒂安费德曼<角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><name type=“personal”>标记费舍尔<角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><name type=“personal”>亚历山大弗雷泽<角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><name type=“personal”>Yvette(伊维特)格雷厄姆<角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><name type=“personal”>Paco公司古兹曼<角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><name type=“personal”>巴里哈多<角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><name type=“personal”><namePart type=“given”>Matthias</namePart>哈克<角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><name type=“personal”>安东尼奥Jimeno是的<角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><name type=“personal”>飞利浦<namePart type=“family”>科恩</namePart><角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><name type=“personal”>安德烈马丁斯<角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><name type=“personal”><namePart type=“given”>Makoto森田(Morishita)<角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><name type=“personal”>克里斯托夫蒙兹<角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><name type=“personal”>马萨基<namePart type=“family”>长田</namePart><角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><name type=“personal”>Toshiaki中泽<namePart type=“family”><角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><name type=“personal”>马蒂奥Negri(奈格里)<角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><originInfo>计算语言学协会<位置>在线</place></originInfo>会议出版物</relatedItem><abstract>本文描述了Facebook AI提交给WMT20共享新闻翻译任务。我们专注于低资源设置,并参与两种语言对,泰米尔语\textless-\textgreater English和Inuktitut\textless-\textgreeter Englass,其中存在有限的域外比特和单语数据。我们使用两种主要策略来解决资源不足的问题,即利用所有可用数据和使系统适应目标新闻领域。我们探索了利用所有语言的双文本和单语数据的技术,如自我监督模型预训练、多语言模型、数据增强和重新分类。为了更好地使翻译系统适应测试领域,我们探索了数据集标记和域内数据的微调。我们观察到,不同的技术根据语言对的可用数据提供了不同的改进。基于这一发现,我们将这些技术集成到一个训练管道中。对于En-\textgreaterTa,我们使用额外的泰米尔语位文本和单语数据探索了一种无约束设置,并表明可以获得进一步的改进。在测试集上,我们提交的最佳系统的Ta-\textgreaterEn和En-\textgeraterTa分别达到21.5和13.7 BLEU,Iu-\textgreaterEn和En-\t greaterIu分别达到27.9和13.0 BLEU</摘要><identifier type=“citekey”>chen-etal-2020-facebook</identifier><位置><网址>https://aclantology.org/2020.wmt-1.8</url></位置><部分><日期>2020-11</date><扩展单元=“page”><开始>113</开始><end>125</范围></部分></模块></modsCollection>
%0会议记录%T脸书AI的WMT20新闻翻译任务提交%A Chen、Peng-Jen%A Lee,Ann(安·李)%A Wang,长汉%纳曼·A Goyal%一个粉丝,安吉拉%玛丽·威廉姆森%阿古,嘉涛%罗伊奇Y Barrault%Y Bojar,Ondřej%Y Bougares,费蒂%拉金·查特吉%Y Costa-jussá,Marta R。%Y Federmann,克里斯蒂安%Y Fishel,马克%亚历山大·弗雷泽%伊维特·Y·格雷厄姆%Y Guzman,帕科%巴里·Y·哈多%Y哈克,马提亚斯%Y Yepes,安东尼奥·吉梅诺%Y Koehn,菲利普%安德烈·马丁斯%Y Morishita,Makoto公司%克里斯托夫·蒙兹%Y Nagata、Masaaki%Y Nakazawa,Toshiaki先生%Y Negri,马蒂奥%第五届机器翻译会议论文集%D 2020年%11月8日%计算语言学协会%C在线%F chen-etal-2020脸书%本文描述了脸书人工智能向WMT20共享新闻翻译任务的提交。我们专注于低资源设置,并参与两种语言对,泰米尔语\textless-\textgreater English和Inuktitut\textless-\textgreeter Englass,其中存在有限的域外比特和单语数据。我们使用两种主要策略来解决资源不足的问题,即利用所有可用数据和使系统适应目标新闻领域。我们探索了利用所有语言的双文本和单语数据的技术,如自我监督模型预训练、多语言模型、数据增强和重新分类。为了更好地使翻译系统适应测试领域,我们探索了数据集标记和域内数据的微调。我们观察到,不同的技术根据语言对的可用数据提供了不同的改进。基于这一发现,我们将这些技术集成到一个训练管道中。对于En-\textgreaterTa,我们使用额外的泰米尔语位文本和单语数据探索了一种无约束设置,并表明可以获得进一步的改进。在测试集上,我们提交的最佳系统的Ta-\textgreaterEn和En-\textgeraterTa分别达到21.5和13.7 BLEU,Iu-\textgreaterEn和En-\t greaterIu分别达到27.9和13.0 BLEU。%U型https://aclantology.org/2020.wmt-1.8%电话113-125
降价(非正式)
【脸书AI的WMT20新闻翻译任务提交】(https://aclantology.org/2020.wmt-1.8)(Chen等人,WMT 2020)
国际计算语言学协会
- Peng Jen Chen、Ann Lee、Changhan Wang、Naman Goyal、Angela Fan、Mary Williamson和Gu Jiatao。2020。脸书AI的WMT20新闻翻译任务提交.英寸第五届机器翻译会议记录,第113-125页,在线。计算语言学协会。