@进行中{ott-etal-2018-scaling,title=“缩放神经机器翻译”,author=“Ott、Myle和Edunov、Sergey和Grangier、David和迈克尔·奥利”,editor=“Bojar,Ond{\v{r}}ej和Chatterjee、Rajen和费德曼,克里斯蒂安和费舍尔、马克和格雷厄姆、伊维特和哈多、巴里和哈克、马提亚斯和是的,安东尼奥·吉梅诺和Koehn、Philipp和蒙兹、克里斯托夫和Negri、Matteo和N{\'e}v{\'e}ol,Aur{\e}谎言和内维斯、玛丽安娜和Post、Matt和Specia、Lucia和图尔奇、马尔科和卡琳·弗斯普尔”,booktitle=“第三届机器翻译会议论文集:研究论文”,月=10月,year=“2018”,address=“比利时布鲁塞尔”,publisher=“计算语言学协会”,url=“https://aclantology.org/W18-6301”,doi=“10.18653/v1/W18-6301”,pages=“1--9”,abstract=“序列到序列学习模型仍然需要几天的时间才能在使用单台机器的大型基准数据集上达到最先进的性能。本文表明,通过仔细调整和实现,降低精度和大批量训练可以在单台8-GPU机器上将训练速度提高近5倍。关于WMT14英语-德语翻译,当在8个GPU上训练时,我们在不到5个小时的时间内就达到了Vaswani等人(2017)的准确性,在128个GPU训练85分钟后,我们获得了29.3 BLEU的最新水平。通过对更大的Paracrall数据集进行训练,我们进一步将这些结果提高到29.8 BLEU。在WMT{'}14英法任务中,我们在128个GPU上在8.5小时内获得了43.2的最先进BLEU。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“ott-etal-2018-scaling”><标题信息>缩放神经机器翻译</titleInfo><name type=“personal”>迈尔奥特<角色>作者</角色></name><name type=“personal”>谢尔盖<namePart type=“family”>Edunov</namePart><角色>作者</角色></name><name type=“personal”>大卫格兰杰<namePart type=“family”>Grangier<角色>作者</角色></name><name type=“personal”>迈克尔Auli(奥利)<角色>作者</角色></name><originInfo>2018-10发布日期</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>第三届机器翻译会议论文集:研究论文</titleInfo><name type=“personal”>Ondřej博加尔<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>Rajen</namePart>查特吉<角色>编辑器</角色></name><name type=“personal”>克里斯蒂安费德曼<角色>编辑器</角色></name><name type=“personal”>标记费舍尔<角色>编辑器</角色></name><name type=“personal”>Yvette(伊维特)格雷厄姆<角色>编辑器</角色></name><name type=“personal”>巴里哈多<角色>编辑器</角色></name><name type=“personal”>马提亚斯哈克<角色>编辑器</角色></name><name type=“personal”>安东尼奥Jimeno是的<角色>编辑器</角色></name><name type=“personal”>飞利浦科恩<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>Christof</namePart>蒙兹<角色>编辑器</角色></name><name type=“personal”>马蒂奥Negri(奈格里)<角色>编辑器</角色></name><name type=“personal”>奥雷利内维尔<角色>编辑器</角色></name><name type=“personal”>玛丽安娜内维斯<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>马特帖子<角色>编辑器</角色></name><name type=“personal”>露西娅Specia系列<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>马可<namePart type=“family”>图尔奇</namePart><角色>编辑器</角色></name><name type=“personal”>卡琳Verspoor公司<角色>编辑器</角色></name><originInfo><publisher>计算语言学协会</publisher><位置>比利时布鲁塞尔</place></originInfo>会议出版物</relatedItem>序列到序列学习模型仍然需要几天的时间才能在使用单个机器的大型基准数据集上达到最先进的性能。本文表明,经过仔细调整和实现,降低精度和大批量训练可以在单个8-GPU机器上将训练速度提高近5倍。在WMT’14英德翻译中,我们在8个GPU上训练时,在不到5小时的时间内达到了Vaswani等人(2017)的准确性,在128个GPU上训练85分钟后,我们获得了29.3 BLEU的新技术水平。通过对更大的Paracrall数据集进行训练,我们进一步将这些结果提高到29.8 BLEU。在WMT’14英语法语任务中,我们在128个GPU上在8.5小时内获得了最先进的43.2 BLEU</摘要>ott-etal-2018缩放10.18653/v1/W18-6301<位置><网址>https://aclantology.org/W18-6301</url></位置><部分>2018-10年<扩展单元=“page”><开始>1<end>9</end></范围></部分></mods></modsCollection>
%0会议记录%T缩放神经机器翻译%米尔·奥特%谢尔盖·埃杜诺夫%大卫·格兰杰%迈克尔·A·奥利%Y Bojar,Ondřej%拉金·查特吉%Y Federmann,克里斯蒂安%Y Fishel,马克%伊维特·Y·格雷厄姆%巴里·Y·哈多%Y哈克,马提亚斯%Y Yepes,安东尼奥·吉梅诺%Y Koehn,菲利普%克里斯托夫·蒙兹%Y Negri,马蒂奥%奥雷利·Y·内维尔%玛丽亚娜·尼维斯%Y Post,马特%露西娅·Y·斯佩西亚%马可·Y·图奇%Y Verspoor,卡琳%第三届机器翻译会议论文集:研究论文%2018年D月%10月8日%计算语言学协会%C比利时布鲁塞尔%Fott-etal-2018缩放%X序列到序列学习模型仍然需要几天的时间才能在使用单个机器的大型基准数据集上达到最先进的性能。本文表明,经过仔细调整和实现,降低精度和大批量训练可以在单个8-GPU机器上将训练速度提高近5倍。在WMT’14英语-德语翻译中,当使用8个GPU进行训练时,我们在不到5个小时内就达到了Vaswani等人(2017)的准确性,并且在128个GPU上进行85分钟的训练后,我们获得了29.3 BLEU的最新水平。我们通过在更大的Paracrawl数据集上进行训练,将这些结果进一步提高到29.8 BLEU。在WMT’14英语法语任务中,我们在128个GPU上在8.5小时内获得了最先进的43.2 BLEU。%10.18653/v1/W18-6301兰特%U型https://aclantology.org/W18-6301%U型https://doi.org/10.18653/v1/W18-6301%第1-9页
降价(非正式)
[缩放神经机器翻译](https://aclantology.org/W18-6301)(Ott等人,WMT 2018)
国际计算语言学协会
- Myle Ott、Sergey Edunov、David Grangier和Michael Auli。2018缩放神经机器翻译.英寸第三届机器翻译会议记录:研究论文,第1-9页,比利时布鲁塞尔。计算语言学协会。