Your Policy Regularizer is Secretly an Adversary

Brekelmans, Rob; Genewein, Tim; Grau-Moya, Jordi; Delétang, Grégoire; Kunesch, Markus; Legg, Shane; Ortega, Pedro

计算机科学>机器学习

arXiv:2203.12592（cs）

【2022年3月23日提交(第1版)，上次修订时间：2022年7月8日（本版本，v4）]

标题：你的政策规划者是秘密的对手

作者：罗伯·布雷克尔曼斯,蒂姆·吉纳温,乔迪·格劳·莫亚,格雷戈伊尔·德雷唐（Grégoire Delétang）,马库斯·库内什,谢恩·莱格,佩德罗·奥尔特加

查看PDF

摘要：策略正则化方法（如最大熵正则化）广泛用于强化学习，以提高学习策略的鲁棒性。在本文中，我们展示了这种鲁棒性是如何通过对冲奖励函数的最坏情况扰动而产生的，这些扰动是由假想的对手从有限的集合中选择的。利用凸对偶性，我们刻画了在KL和α-扩散正则化下的对抗性报酬扰动的鲁棒集，其中包括Shannon和Tsallis熵正则化作为特例。重要的是，可以在这个健壮集内提供泛化保证。我们详细讨论了最坏情况下的报酬扰动，并给出直观的经验示例来说明这种鲁棒性及其与泛化的关系。最后，我们讨论了我们的分析是如何补充和扩展以前关于对抗性奖励鲁棒性和路径一致性最优性条件的结果的。

评论：	机器学习研究汇刊
学科：	机器学习（cs.LG）; 机器学习（stat.ML）
引用为：	arXiv:2203.12592【cs.LG】
	（或 arXiv:2203.12592v4型【cs.LG】对于此版本）
	https://doi.org/10.48550/arXiv.2203.12592
日志参考：	TMLR（2022年）https://openreview.net/forum？id=berNQMTYWZ

提交历史记录

发件人：Rob Brekelmans[查看电子邮件]
[第1版]2022年3月23日星期三17:54:20 UTC（6637 KB）
[版本2]2022年3月24日星期四17:59:01 UTC（6763 KB）
[第3版]2022年4月1日星期五14:22:30 UTC（7079 KB）
[第4版]2022年7月8日星期五14:09:54 UTC（7149 KB）

计算机科学>机器学习

标题：你的政策规划者是秘密的对手

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

标题：你的政策规划者是秘密的对手

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目