塞克根

具有策略梯度的序列生成对抗网。生成对抗网作为一种新的生成模型训练方法,利用判别模型指导生成模型的训练,在生成实值数据方面取得了相当大的成功。然而,当目标是生成离散令牌序列时,它有局限性。一个主要原因是生成模型的离散输出使得判别模型的梯度更新难以传递到生成模型。另外,判别模型只能评估一个完整的序列,而对于部分生成的序列,一旦整个序列被生成,平衡其当前和未来的分数是非常重要的。本文提出了一个序列生成框架SeqGAN来解决这些问题。在强化学习(RL)中将数据生成器建模为随机策略,SeqGAN通过直接执行梯度策略更新来绕过生成器微分问题。RL奖赏信号来自根据完整序列判断的GAN鉴别器,并通过montecarlo搜索传回中间状态动作步骤。在合成数据和实际任务上进行的大量实验表明,与强大的基线相比有显著的改进。