跳到内容

MarkPKCollier/MANNs4NMT公司

存储库文件导航

用于机器翻译的记忆增强神经网络

此存储库扩展了Tensorflow神经机器翻译教程建立一系列将记忆增强神经网络应用于机器翻译的模型。

我们为我们的每一个新建筑培训了越南语到英语和罗马尼亚语到英语的翻译模型。

神经图灵机器风格的注意力和记忆增强解码器都是注意力编码器-解码器的扩展。我们发现,对于测试的语言对,这些扩展并没有比注意力编码器-解码器提高翻译质量。Pure MANN模型与注意力编码器-解码器不同。我们发现,在越南语到英语的任务中,纯MANN模型的表现与注意编码器-解码器相当,在罗马尼亚语到英语的任务中,纯MANN模型的表现比注意编码器-解码器差~2BLEU。

要遵循的精确结果。。。

用法

下面的命令将使用神经图灵机训练越南语到英语的翻译模型,该机器只接收嵌入的源句子作为输入。

您必须下载了IWSLT 2015数据集才能训练此模型(请参阅:nmt/scripts/download_iwslt15.sh)。

python-m nmt.nmt\--src=vi——tgt=en\--out_dir=/tmp/ref_model_en_vi_sgd_uni\--vocb_prefix=/path/to/iwslt/voab\--train_prefix=/path/to/iwslt/train\--dev_prefix=/path/到/iwslt/tst2012\--test_prefix=/path/to/iwslt/tst2013\--注意=scaled_luong\--num_train_steps=14000\--steps_per_stats=100\--num_layers=2\--num_units=512个\--下降=0.3\--指标=bleu\--优化器=adam\--学习率=0.001\--编码器类型=bi\--decade_steps=1000\--start_decay_step=20000\--波束宽度=10\--share_vocab=假\--src_max_len=50\--src_max_len_infer=50\--模型=模型3\--mann=ntm\--read_heads=1\--write_heads=1\--num_memory_locations=64\--memory_unit_size=50

模型1神经图灵机器风格注意力

我们用神经图灵机的迭代能力扩展了Luong的注意力。我们的动机来自于经验观察,即注意力经常在源句中单调迭代。

型号2存储器增强解码器

我们在注意力编码器-解码器的解码器中添加了一个外部存储单元。我们的动机是成功地将注意力添加到编码器模型架构中。我们注意到,注意力扩展了编码器的内存容量,但解码器的可写内存容量仍然是一个固定大小的向量。我们提出的模型增加了解码器的可写存储容量。

模型2

型号3 Pure MANN

我们评估了MANN在机器翻译中的直接使用。MANN(NTM或DNC)接收嵌入的源语句作为输入,后跟EOS标记,然后必须输出目标语句。

模型3

关于

将记忆增强神经网络应用于机器翻译的一系列模型

资源

许可证

星星

观察者

叉子

发布

未发布版本

包装

未发布包