@在进料{burlot-yvon-2018-使用,title=“在神经机器翻译中使用单语数据:一项系统研究”,author=“Burlot、Franck和Yvon,Fran{\c{c}}ois“,editor=“Bojar,Ond{\v{r}}ej和Chatterjee、Rajen和费德曼、克里斯蒂安和费舍尔、马克和格雷厄姆、伊维特和哈多、巴里和哈克、马提亚斯和是的,安东尼奥·吉梅诺和Koehn、Philipp和蒙兹、克里斯托夫和Negri、Matteo和N{\'e}v{\'e}ol,Aur{\e}谎言和内维斯、玛丽安娜和Post、Matt和Specia、Lucia和图尔奇、马尔科和卡琳·弗斯普尔”,booktitle=“第三届机器翻译会议论文集:研究论文”,月=10月,year=“2018”,address=“比利时布鲁塞尔”,publisher=“计算语言学协会”,url=“https://aclantology.org/W18-6315”,doi=“10.18653/v1/W18-6315”,pages=“144--155”,abstract=“神经机器翻译(MT)从根本上改变了系统的开发方式。与前一代(基于短语的MT)的主要区别是这两种范式中使用单语目标数据的方式,这种数据通常非常丰富。虽然基于短语的机器翻译可以无缝地集成经过数十亿句子训练的超大语言模型,但神经机器翻译开发人员的最佳选择似乎是通过回译生成人工并行数据,这是一种无法充分利用现有数据集的技术。在本文中,我们对回译进行了系统研究,比较了单语数据的替代用途以及多种数据生成过程。我们的发现证实了反向翻译非常有效,并对为什么会出现这种情况给出了新的解释。我们还引入了新的数据模拟技术,这些技术几乎同样有效,但实施起来要便宜得多。",}
<?xml版本=“1.0”编码=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“burrot-yvon-2018-using”><标题信息>神经机器翻译中使用单语数据的系统研究</titleInfo><name type=“personal”>弗兰克布洛<角色>作者</角色></name><name type=“personal”>弗朗索瓦Yvon(伊冯)<角色>作者</角色></name><originInfo>2018-10发布日期</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>第三届机器翻译会议论文集:研究论文</titleInfo><name type=“personal”>Ondřej博加尔<角色>编辑器</角色></name><name type=“personal”>拉詹查特吉<角色>编辑器</角色></name><name type=“personal”>克里斯蒂安费德曼<角色>编辑器</角色></name><name type=“personal”>标记费舍尔<角色>编辑器</角色></name><name type=“personal”>Yvette(伊维特)格雷厄姆<角色>编辑器</角色></name><name type=“personal”>巴里哈多<角色>编辑器</角色></name><name type=“personal”>马提亚斯哈克<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>Antonio</namePart>安东尼奥</namePartJimeno是的<角色>编辑器</角色></name><name type=“personal”>飞利浦科恩<角色>编辑器</角色></name><name type=“personal”>克里斯托夫蒙兹<角色>编辑器</角色></name><name type=“personal”>马蒂奥Negri(奈格里)<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>Aurélie</namePart>内维尔<角色>编辑器</角色></name><name type=“personal”>玛丽安娜内维斯<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>马特帖子<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>露西亚</namePart>Specia系列<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>马可图尔奇<namePart type=“family”><角色>编辑器</角色></name><name type=“personal”>卡琳Verspoor公司<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>比利时布鲁塞尔</地点></originInfo><type-authority=“marcgt”>会议出版物</type></relatedItem>神经机器翻译(MT)从根本上改变了系统的开发方式。与前一代(基于短语的机器翻译)的一个主要区别是这两种范式中使用单语目标数据的方式,这两种数据往往非常丰富。虽然基于短语的机器翻译可以无缝地集成经过数十亿句子训练的超大语言模型,但神经机器翻译开发人员的最佳选择似乎是通过回译生成人工并行数据,这是一种无法充分利用现有数据集的技术。在本文中,我们对回译进行了系统研究,比较了单语数据的替代用途以及多种数据生成过程。我们的发现证实了反向翻译非常有效,并对为什么会出现这种情况给出了新的解释。我们还引入了新的数据模拟技术,这些技术几乎同样有效,但实施起来要便宜得多</摘要>使用Burrot-yvon-2018年10.18653/v1/W18-6315<位置><网址>https://aclantology.org/W18-6315</url></位置><部分>2018-10年<扩展单元=“page”><开始>144</开始><end>155</end></范围></部分></mods></modsCollection>
%0会议记录%神经机器翻译中使用单语数据的系统研究%法兰克,布洛%弗朗索瓦·A Yvon%Y Bojar,Ondřej%拉简·Y·查特吉%Y Federmann,克里斯蒂安%Y Fishel,马克%伊维特·Y·格雷厄姆%巴里·Y·哈多%Y哈克,马提亚斯%安东尼奥·希梅诺Y Yepes%Y Koehn,菲利普%克里斯托夫·蒙兹%Y Negri,马蒂奥%奥雷利·Y·内维尔%玛丽亚娜·尼维斯%Y Post,马特%露西娅·Y·斯佩西亚%马可·Y·图奇%Y Verspoor,卡琳%第三届机器翻译会议论文集:研究论文%2018年D月%10月8日%计算语言学协会%C比利时布鲁塞尔%F Burrot-yvon-2018-使用%X神经机器翻译(MT)从根本上改变了系统的开发方式。与前一代(基于短语的机器翻译)的一个主要区别是这两种范式中使用单语目标数据的方式,这两种数据往往非常丰富。虽然基于短语的机器翻译可以无缝地集成经过数十亿句子训练的超大语言模型,但神经机器翻译开发人员的最佳选择似乎是通过回译生成人工并行数据,这是一种无法充分利用现有数据集的技术。在本文中,我们对回译进行了系统研究,比较了单语数据的替代用途以及多种数据生成过程。我们的发现证实了反向翻译非常有效,并对为什么会出现这种情况给出了新的解释。我们还引入了新的数据模拟技术,这些技术几乎同样有效,但实施起来要便宜得多。%R 10.18653/v1/W18-6315型%U型https://aclantology.org/W18-6315%U型https://doi.org/10.18653/v1/W18-6315%电话144-155
降价(非正式)
【神经机器翻译中使用单语数据的系统研究】(https://aclantology.org/W18-6315)(Burlot&Yvon,WMT 2018)
国际计算语言学协会