塞克甘

SeqGAN:具有政策梯度的序列生成对抗网。作为生成模型训练的一种新方法,生成判别网络(GAN)使用判别模型来指导生成模型的训练,在生成实值数据方面取得了相当大的成功。然而,当目标是生成离散令牌序列时,它具有局限性。一个主要的原因在于来自生成模型的离散输出使得难以将梯度更新从判别模型传递到生成模型。此外,判别模型只能评估完整的序列,而对于部分生成的序列,一旦生成整个序列,平衡当前的分数和将来的分数是不平凡的。在本文中,我们提出了一个序列生成框架,称为SEQGAN,以解决这些问题。将数据发生器建模为强化学习(RL)中的随机策略,SeqGAN通过直接执行梯度策略更新绕过发电机微分问题。RL奖励信号来自完整的序列判断的GaN鉴别器,并使用蒙特卡洛搜索传递到中间状态动作步骤。在合成数据和真实世界任务上的广泛实验证明了相对于强基线的显著改进。