@进行中{soto-etal-2020-选择,title=“从多个源中选择反向翻译数据以改进神经机器翻译”,author=“Soto、Xabier和Shterionov、Dimitar和蓬塞拉斯、阿尔贝托和对了,安迪”,editor=“Jurafsky、Dan和Chai、Joyce和Schluter、Natalie和Joel Tetreault“,booktitle=“计算语言学协会第58届年会会议记录”,月=七月,年=“2020”,address=“在线”,publisher=“计算语言学协会”,url=“https://aclantology.org/2020.acl-main.359”,doi=“10.18653/v1/2020.acl-main.359”,pages=“3898--3908”,abstract=“机器翻译(MT)得益于使用源于翻译单语语料库的合成训练数据,这是一种称为反向翻译的技术。与单独使用此类数据相比,组合来自不同来源的反向翻译数据可以获得更好的结果。在这项工作中,我们分析了使用基于规则、基于短语的统计和神经机器翻译系统翻译的数据对新机器翻译系统的影响。我们使用真实世界中的低资源使用案例(临床领域中的巴斯克语到西班牙语)以及高资源语言对(德语到英语)来测试不同的反译场景,并使用数据选择来优化合成语料库。我们利用不同的数据选择策略,以减少使用的数据量,同时保持高质量的机器翻译系统。我们进一步调整了数据选择方法,考虑了用于回译的机器翻译系统的质量和结果语料库的词汇多样性。我们的实验表明,合并来自不同来源的反向翻译数据是有益的,并且利用数据选择可以提高性能。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“soto-etal-2020-selection”><标题信息><title>从多个源中选择反向翻译数据以改进神经机器翻译</titleInfo><name type=“personal”>Xabier索托<角色>作者</角色></name><name type=“personal”>Dimitar DimitarShterionov<角色>作者</角色></name><name type=“personal”>阿尔贝托蓬塞拉斯<角色>作者</角色></name><name type=“personal”>安迪<namePart type=“family”>方式</namePart><角色>作者</角色></name><originInfo>发布日期:2020-07发布日期:</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>计算语言学协会第58届年会会议记录</titleInfo><name type=“personal”>丹朱拉夫斯基<角色>编辑器</角色></name><name type=“personal”>乔伊斯Chai(Chai)<角色>编辑器</角色></name><name type=“personal”>娜塔莉Schluter公司<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>Joel</namePart>Tetreault公司<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>在线</place></originInfo>会议出版物</relatedItem>机器翻译(MT)得益于使用来自翻译单语语料库的合成训练数据,这是一种称为反译的技术。与单独使用此类数据相比,组合来自不同来源的反向翻译数据可以获得更好的结果。在这项工作中,我们分析了使用基于规则、基于短语的统计和神经机器翻译系统翻译的数据对新机器翻译系统的影响。我们使用真实世界中的低资源使用案例(临床领域中的巴斯克语到西班牙语)以及高资源语言对(德语到英语)来测试不同的反译场景,并使用数据选择来优化合成语料库。我们利用不同的数据选择策略来减少使用的数据量,同时保持高质量的MT系统。我们进一步调整了数据选择方法,考虑了用于回译的机器翻译系统的质量和结果语料库的词汇多样性。我们的实验表明,合并来自不同来源的反向翻译数据是有益的,并且利用数据选择可以提高性能</摘要>soto-etal-2020选择10.18653/v1/2020。acl-main.359<位置><网址>https://acl选集.org/2020.acl-main.359</url></位置><部分><日期>2020-07</日期><扩展单元=“page”><开始>3898<end>3908</范围></部分></mods></modsCollection>
%0会议记录%从多个源中选择反向翻译数据以改进神经机器翻译%夏比尔·A·索托%迪米塔尔·施特里奥诺夫%阿尔贝托,蓬塞拉斯%好的,安迪%Y朱拉夫斯基,丹%乔伊斯·蔡%Y Schluter,娜塔莉%乔尔·特特劳特%计算语言学协会第58届年会论文集%D 2020年%7月8日%计算语言学协会%C在线%F soto-etal-2020选择%X机器翻译(MT)得益于使用源于翻译单语语料库的合成训练数据,这是一种称为反向翻译的技术。与单独使用此类数据相比,组合来自不同来源的反向翻译数据可以获得更好的结果。在这项工作中,我们分析了用基于规则、基于短语的统计和神经机器翻译系统翻译的数据对新机器翻译系统的影响。我们使用现实世界中的低资源用例(临床领域中的巴斯克语到西班牙语)和高资源语言对(德语到英语)来测试反翻译的不同场景,并使用数据选择来优化合成语料库。我们利用不同的数据选择策略,以减少使用的数据量,同时保持高质量的机器翻译系统。我们进一步调整了数据选择方法,考虑了用于回译的机器翻译系统的质量和结果语料库的词汇多样性。我们的实验表明,合并来自不同来源的反向翻译数据是有益的,并且利用数据选择可以提高性能。%R 10.18653/v1/2020.acl-main.359%U型https://aclantology.org/2020.acl-main.359%U型https://doi.org/10.18653/v1/2020.acl-main.359%电话3898-3908
降价(非正式)
[从多个源中选择反向翻译数据以改进神经机器翻译](https://aclantology.org/2020.acl-main.359)(Soto等人,ACL 2020)
国际计算语言学协会
- 夏比尔·索托(Xabier Soto)、迪米塔尔·什特里诺夫(Dimitar Shterionov)、阿尔贝托·蓬塞拉斯(Alberto Poncelas)和安迪·韦(Andy Way)。2020从多个源中选择反向翻译数据以改进神经机器翻译.英寸计算语言学协会第58届年会论文集,第3898–3908页,在线。计算语言学协会。