计算机科学>机器学习
标题: 你的政策规划者是秘密的对手
摘要: 策略正则化方法(如最大熵正则化)广泛用于强化学习,以提高学习策略的鲁棒性。 在本文中,我们展示了这种鲁棒性是如何通过对冲奖励函数的最坏情况扰动而产生的,这些扰动是由假想的对手从有限的集合中选择的。 利用凸对偶性,我们刻画了在KL和α-扩散正则化下的对抗性报酬扰动的鲁棒集,其中包括Shannon和Tsallis熵正则化作为特例。 重要的是,可以在这个健壮集内提供泛化保证。 我们详细讨论了最坏情况下的报酬扰动,并给出直观的经验示例来说明这种鲁棒性及其与泛化的关系。 最后,我们讨论了我们的分析是如何补充和扩展以前关于对抗性奖励鲁棒性和路径一致性最优性条件的结果的。