Learning Uncertainty-Aware Temporally-Extended Actions

Lee, Joongkyu; Park, Seung Joon; Tang, Yunhao; Oh, Min-hwan

计算机科学>机器学习

arXiv:2402.05439（cs）

【于2024年2月8日提交】

职务：学习不确定感知的临时扩展操作

作者：Joongkyu Lee（李钟圭）,Seung Joon公园,汤云浩,Min-hwan噢

查看PDF

摘要：在强化学习中，动作空间中的时间抽象，以动作重复为例，是一种通过扩展动作促进政策学习的技术。然而，在以前的动作重复研究中，一个主要的局限性是它可能会降低性能，特别是当重复次优动作时。这个问题经常会否定重复动作的优点。为了解决这个问题，我们提出了一种新的算法，称为不确定感知时态扩展（UTE）。UTE使用集合方法来准确测量动作扩展过程中的不确定性。该功能允许政策在强调勘探或采用针对其特定需求的不确定性规避方法之间进行战略性选择。我们通过在Gridworld和Atari 2600环境中的实验证明了UTE的有效性。我们的研究结果表明，UTE优于现有的动作重复算法，有效地缓解了其固有的局限性，并显著提高了策略学习效率。

评论：	AAAI 2024验收（主要技术轨道）
学科：	机器学习（cs.LG）; 机器学习（stat.ML）
引用为：	arXiv:2402.05439【cs.LG】
	（或 arX病毒：2402.05439v1【cs.LG】对于此版本）
	https://doi.org/10.48550/arXiv.2402.05439

提交历史记录

发件人：Joongkyu Lee[查看电子邮件]
[第1版]2024年2月8日星期四06:32:06 UTC（9911 KB）

全文链接：

访问纸张：

查看许可证

当前浏览上下文：

反恐精英。LG公司

<上一版本 | 下一个>

新的 | 最近的 |2024-02

更改为浏览方式：

反恐精英
斯达
统计ML

参考文献和引文

导出BibTeX引文

计算机科学>机器学习

职务：学习不确定感知的临时扩展操作

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

职务：学习不确定感知的临时扩展操作

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目