班迪特nmt

bandit-nmt:基于模拟人反馈的bandit神经机器翻译强化学习。机器翻译对于强化学习来说是一个自然的候选问题:用户对候选翻译提供快速、肮脏的评分,以指导系统改进。然而,目前的神经机器翻译培训集中在昂贵的人工生成的参考翻译上。我们描述了一种强化学习算法,从模拟人的反馈中改进神经机器翻译系统。我们的算法将advantage actor-critic算法(Mnih et al.,2016)与基于注意力的神经编码器-解码器架构(Luong et al.,2015)相结合。该算法(a)适用于具有较大动作空间和延迟奖励的问题,(b)有效地优化了传统的语料库级机器翻译指标,(c)对模拟实际人类行为的倾斜、高方差、细粒度反馈具有鲁棒性。