GNMT

谷歌的神经机器翻译系统:弥补人与机器翻译之间的鸿沟。神经机器翻译(NMT)是一种自动翻译的端到端学习方法,有可能克服传统的基于短语的翻译系统的许多弱点。不幸的是,NMT系统在训练和翻译推理中都是计算昂贵的。而且,大多数的NMT系统很难使用稀有的词。这些问题阻碍了NMT在实际部署和服务中的应用,其中精度和速度都是必不可少的。在这项工作中,我们提出GNMT,谷歌的神经机器翻译系统,试图解决许多这些问题。我们的模型包括一个深度LSTM网络与8编码器和8个解码层使用注意和剩余连接。为了提高并行性,从而减少训练时间,我们的注意力机制将解码器的底层连接到编码器的顶层。为了加快最终的翻译速度,在推理计算中采用了低精度算法。为了提高对稀有词的处理,我们将单词划分成有限的一组共同的子词单元(“词组”),用于输入和输出。这种方法在“字符”-定界模型的灵活性和“字”定界模型的效率之间提供了很好的平衡,自然地处理了稀有词的翻译,并最终提高了系统的整体精度。我们的波束搜索技术采用长度归一化过程,并使用覆盖惩罚,这鼓励生成一个输出语句,最有可能覆盖源语句中的所有单词。在WMT '14英语到法语和英语到德国的基准上,GNMT达到了最先进的竞争结果。使用对一组孤立的简单句子的人类并排评价,与谷歌的基于短语的生产系统相比,它减少了翻译错误的平均60%。