拜特尼特

线性时间下的神经机器翻译。我们提出了一种新的神经网络处理序列。ByteNet是一个一维卷积神经网络,由两部分组成,一部分对源序列进行编码,另一部分对目标序列进行解码。两个网络部分通过将解码器堆叠在编码器顶部并保持序列的时间分辨率来连接。为了解决源和目标长度不同的问题,我们引入了一种有效的机制,通过该机制,解码器在编码器的表示上动态展开。ByteNet利用卷积层的扩张来增加它的感受野。由此产生的网络有两个核心特性:它的运行时间在序列长度上是线性的,并且它避开了过度记忆的需要。ByteNet译码器在字符级语言建模方面达到了最先进的性能,并优于以往使用递归网络获得的最佳结果。ByteNet在英-德WMT翻译任务中还实现了最先进的字符到字符机器翻译性能,超过了基于循环网络的可比神经翻译模型,这些模型具有注意力集中和在二次时间内运行。我们发现,包含在表示中的潜在对齐结构反映了令牌之间的预期对齐。