Scaling Neural Machine Translation

Myle Ott; Sergey Edunov; David Grangier; Michael Auli

doi:10.18653/v1/W18-6301

缩放神经机器翻译

摘要

序列到序列学习模型仍然需要几天的时间才能在使用单个机器的大型基准数据集上达到最先进的性能。本文表明，经过仔细调整和实现，降低精度和大批量训练可以在单个8-GPU机器上将训练速度提高近5倍。在WMT’14英语-德语翻译中，当使用8个GPU进行训练时，我们在不到5个小时内就达到了Vaswani等人（2017）的准确性，并且在128个GPU上进行85分钟的训练后，我们获得了29.3 BLEU的最新水平。通过对更大的Paracrall数据集进行训练，我们进一步将这些结果提高到29.8 BLEU。在WMT’14英语法语任务中，我们在128个GPU上在8.5小时内获得了最先进的43.2 BLEU。

选集ID：: W18-6301型
体积：: 第三届机器翻译会议记录：研究论文
月份：: 十月
年份：: 2018
地址：: 比利时布鲁塞尔
编辑：: Ondřej Bojar公司,拉金·查特吉,克里斯蒂安·费德曼,马克·费舍尔,伊维特·格雷厄姆,巴里·哈多,马蒂亚斯·哈克,安东尼奥·吉梅诺·耶佩斯,菲利普·科恩,克里斯托夫·蒙兹,马泰奥·内格里,Aurélie Névéol公司,玛丽亚娜·奈维斯,马特·波斯特,露西娅·斯佩西亚,马可·图尔奇,卡林·弗斯普尔
地点：: WMT公司
SIG公司：: SIGMT公司
发布者：: 计算语言学协会
注：
页：: 1–9
语言：
网址：: https://aclantology.org/W18-6301
内政部：: 10.18653/v1/W18-6301
比比键：
引用（ACL）：: Myle Ott、Sergey Edunov、David Grangier和Michael Auli。2018缩放神经机器翻译.英寸第三届机器翻译会议记录：研究论文，第1-9页，比利时布鲁塞尔。计算语言学协会。
引用（非正式）：: 缩放神经机器翻译（Ott等人，WMT 2018）
复制引文：
PDF格式：: https://aclcollectory.org/W18-6301.pdf
代码: pytorch/fairseq公司+附加社区代码
数据: 2014年WMT

PDF格式引用搜索代码