扩展摘要

vMFER:von Mises-Fisher基于梯度方向不确定性的经验重采样用于行动者关键算法的策略改进

作者:

金毅（Jinyi）线路接口单元,

文雅世界环境学会,

唐杰吕、和

仓颉风扇作者信息和声明

AAMAS’24：第23届自主代理和多代理系统国际会议记录

2024年5月

页2621-2623

出版:2024年5月6日出版历史

获取访问权限

摘要

强化学习（RL）是一种广泛应用于决策问题的技术，包括两个基本操作——政策评估和政策改进。角色关键算法在RL领域占据主导地位，但在提高其学习效率方面存在挑战。为了解决这一问题，通常会聘请综合评论家来提高政策评估效率。然而，当使用多个批评者时，政策改进过程中的参与者可以获得不同的梯度。以前的研究将这些梯度结合在一起，而没有考虑它们之间的分歧。因此，优化策略改进过程对于提高actor-critic算法的学习效率至关重要。本研究的重点是调查整体批评者造成的梯度分歧对政策改进的影响。我们引入梯度方向不确定性的概念，作为衡量政策改进过程中使用的梯度之间差异的一种手段。通过测量梯度之间的差异，我们发现梯度方向不确定性较低的过渡在政策改进过程中更可靠。基于此分析，我们提出了一种称为von Mises-Fisher Experience Resampling（vMFER）的方法，该方法通过重新采样过渡，并为梯度方向不确定性较低的过渡赋予更高的置信度，从而优化策略改进过程。我们在Mujoco机器人控制任务和具有稀疏奖励的机器人手臂任务上的实验表明，vMFER显著优于基准，特别适合RL中的集成结构。

工具书类

[1]

Philipp Wu、Alejandro Escontrela、Danijar Hafner、Pieter Abbeel和Ken Goldberg。白日梦者：物理机器人学习的世界模型。机器人学习会议，第2226-2240页，2023年。

[2]

Ilija Radosavovic、Tete Xiao、Stephen James、Pieter Abbeel、Jitendra Malik和Trevor Darrell。真实世界的机器人学习与蒙面视觉预训练。机器人学习会议，第416-4262023页。

[3]

Saminda Wishwajith Abeyruwan、Laura Graesser、David B D'Ambrosio、Avi Singh、Anish Shankar、Alex Bewley、Deepali Jain、Krzysztof Marcin Choromanski和Pannag R Sanketi。i-sim2real：在紧密的人机交互循环中加强机器人策略的学习。机器人学习会议，第212-2242023页。

[4]

理查德·萨顿和安德鲁·巴托。强化学习：简介。麻省理工学院出版社，2018年。

数字图书馆

[5]

哈多·哈塞尔特。双重q学习。神经信息处理系统进展，2010年23月。

[6]

Tuomas Haarnoja、Aurick Zhou、Pieter Abbeel和Sergey Levine。软行动者：非政策最大熵深度强化学习与随机行动者。在机器学习国际会议上，第1861-1870页，2018年。

[7]

Tuomas Haarnoja、Aurick Zhou、Kristian Hartikainen、George Tucker、Sehoon Ha、Jie Tan、Vikash Kumar、Henry Zhu、Abhishek Gupta、Pieter Abbeel等。软actor-critic算法和应用。arXiv预印arXiv:1812.059052018。

[8]

Scott Fujimoto、Herke Hoof和David Meger。在actor-critic方法中处理函数近似错误。在2018年国际机器学习会议上，第1587-1596页。

[9]

陈新跃、王彻、周子健和基思·罗斯。随机集合双q学习：无模型快速学习。arXiv预打印arXiv:2101.059822021。

[10]

Kanti V Mardia、Peter E Jupp和KV Mardia。方向统计，第2卷。威利在线图书馆，2000年。

[11]

罗纳德·艾尔默·费舍尔。球体上的色散。伦敦皇家学会会刊。数学和物理科学系列，217（1130）：295--3051953。

[12]

Greg Brockman、Vicki Cheung、Ludwig Pettersson、Jonas Schneider、John Schulman、Jie Tang和Wojciech Zaremba。Openai健身房。arXiv预印arXiv:1606.0154016。

[13]

Matthias Plappert、Marcin Andrychowicz、Alex Ray、Bob McGrew、Bowen Baker、Glenn Powell、Jonas Schneider、Josh Tobin、Maciek Chociej、Peter Welinder等。多目标强化学习：挑战机器人环境和研究请求。arXiv预印arXiv:1802.094642018。

[14]

克里斯托弗·宾厄姆。球面上的反足对称分布。《统计年鉴》，第1201-1225页，1974年。

[15]

约翰·T·肯特。球面上的fisher-bingham分布。英国皇家统计学会期刊：B辑（方法论），44（1）：71-802982。

[16]

弗兰克·鲍曼。贝塞尔函数简介。Courier Corporation，2012年。

[17]

杰弗里·沃森（Geoffrey S Watson）。圆形和球体上的分布。应用概率杂志，19（A）：265--2801982。

[18]

Arindam Banerjee、Inderjit S Dhillon、Joydeep Ghosh、Suvrit Sra和Greg Ridgeway。使用von mises-fisher分布在单位超球面上进行聚类。机器学习研究杂志，6（9），2005年。

[19]

苏夫里特·斯拉。关于von mises-fisher分布的参数近似的简短说明：以及Is（x）的快速实现。计算统计，27:177-1902012。

数字图书馆

索引术语

vMFER:von Mises-Fisher基于梯度方向不确定性的经验重采样用于行动者关键算法的策略改进
1. 计算方法
  1. 人工智能
    1. 控制方法
      1. 计算控制理论

建议

贝叶斯策略梯度和actor-critic算法

策略梯度方法是一种强化学习算法，它通过遵循性能梯度估计来适应参数化策略。许多传统的政策梯度方法使用蒙特卡罗技术来估计这个梯度。政策是。。。
阅读更多信息
非政策行动者-关键
ICML'12:第29届国际机器学习会议论文集

本文提出了第一种用于非策略强化学习的actor-critic算法。我们的算法是在线的和增量的，其每一步的复杂度与学习的权重数成线性关系。演员评论的前期工作。。。
阅读更多信息
自然actor-critic算法

基于actor-critic、natural-gradient和function-approximation思想，我们提出了四种新的强化学习算法，并给出了它们的收敛性证明。行为临界强化学习方法是对策略的在线近似。。。
阅读更多信息

评论

信息和贡献者

问询处

发布于

封面图片ACM会议

AAMAS’24：第23届自主代理和多代理系统国际会议记录

2024年5月

2898页

国际标准图书编号：9798400704864

总主席：
迈赫迪·达斯坦尼
荷兰乌得勒支大学
,
詹姆·西芒·西赫曼
巴西圣保罗大学
,
课程主席：
娜塔莎·阿列奇纳
荷兰乌得勒支大学
,
弗吉尼亚·迪格纳姆
瑞典乌梅大学

赞助商

SIGAI：美国计算机学会人工智能特别兴趣小组
国际会计师联合会

出版商

国际自治代理和多代理系统基金会

南卡罗来纳州里奇兰

出版历史

出版：2024年5月6日

检查更新

作者标记

限定符

扩展摘要

会议

AAMAS’23年

赞助商：

SIGAI公司

AAMAS’23：自治代理和多代理系统国际会议

2024年5月6日至10日

新西兰奥克兰

接受率

5036份提交文件的总体接受率为1155份，23%

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

0
引文总数
13
总下载次数

下载次数（过去12个月）13
下载次数（最近6周）9

其他指标

查看作者指标

引文

视图选项

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

查看选项

PDF格式

以PDF文件查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

媒体

数字

其他

桌子