匪民

强盗NMT:利用模拟人反馈进行强盗神经机器翻译的强化学习。机器翻译是从人类反馈强化学习的一个自然的候选问题:用户提供候选翻译的快速、肮脏的评级来指导系统改进。然而,目前的神经机器翻译训练集中于昂贵的人类生成的参考译文。我们描述了一种强化学习算法,改进了神经机器翻译系统从模拟的人类反馈。我们的算法结合优势演员评论算法(MNIH等人,2016)与基于注意力的神经编码器解码器架构(Luun等人,2015)。该算法(A)是针对具有大的动作空间和延迟奖励的问题而精心设计的,(b)有效地优化传统语料库级机器翻译度量,并且(c)对于在实际人类行为之后建模的倾斜、高方差、粒状反馈具有鲁棒性。

ZBMaCT中的参考文献(1篇文章中提到)

显示1的结果1。
按年份排序(引文

  1. Khanh Nguyen,Hal Daume III,Jordan Boyd Graber:利用模拟人反馈进行强盗神经机器翻译的强化学习(2017)阿西夫