跳到主要内容
10.5555/3635637.3663247acm会议文章/章节视图摘要出版物页面原子吸收光谱法会议记录会议集合
扩展摘要

vMFER:von Mises-Fisher基于梯度方向不确定性的经验重采样用于行动者关键算法的策略改进

出版:2024年5月6日 出版历史
  • 获取引文提醒
  • 摘要

    强化学习(RL)是一种广泛应用于决策问题的技术,包括两个基本操作——政策评估和政策改进。角色关键算法在RL领域占据主导地位,但在提高其学习效率方面存在挑战。为了解决这一问题,通常会聘请综合评论家来提高政策评估效率。然而,当使用多个批评者时,政策改进过程中的参与者可以获得不同的梯度。以前的研究将这些梯度结合在一起,而没有考虑它们之间的分歧。因此,优化策略改进过程对于提高actor-critic算法的学习效率至关重要。本研究的重点是调查整体批评者造成的梯度分歧对政策改进的影响。我们引入梯度方向不确定性的概念,作为衡量政策改进过程中使用的梯度之间差异的一种手段。通过测量梯度之间的差异,我们发现梯度方向不确定性较低的过渡在政策改进过程中更可靠。基于此分析,我们提出了一种称为von Mises-Fisher Experience Resampling(vMFER)的方法,该方法通过重新采样过渡,并为梯度方向不确定性较低的过渡赋予更高的置信度,从而优化策略改进过程。我们在Mujoco机器人控制任务和具有稀疏奖励的机器人手臂任务上的实验表明,vMFER显著优于基准,特别适合RL中的集成结构。

    工具书类

    [1]
    Philipp Wu、Alejandro Escontrela、Danijar Hafner、Pieter Abbeel和Ken Goldberg。白日梦者:物理机器人学习的世界模型。机器人学习会议,第2226-2240页,2023年。
    [2]
    Ilija Radosavovic、Tete Xiao、Stephen James、Pieter Abbeel、Jitendra Malik和Trevor Darrell。真实世界的机器人学习与蒙面视觉预训练。机器人学习会议,第416-4262023页。
    [3]
    Saminda Wishwajith Abeyruwan、Laura Graesser、David B D'Ambrosio、Avi Singh、Anish Shankar、Alex Bewley、Deepali Jain、Krzysztof Marcin Choromanski和Pannag R Sanketi。i-sim2real:在紧密的人机交互循环中加强机器人策略的学习。机器人学习会议,第212-2242023页。
    [4]
    理查德·萨顿和安德鲁·巴托。强化学习:简介。麻省理工学院出版社,2018年。
    [5]
    哈多·哈塞尔特。双重q学习。神经信息处理系统进展,2010年23月。
    [6]
    Tuomas Haarnoja、Aurick Zhou、Pieter Abbeel和Sergey Levine。软行动者:非政策最大熵深度强化学习与随机行动者。在机器学习国际会议上,第1861-1870页,2018年。
    [7]
    Tuomas Haarnoja、Aurick Zhou、Kristian Hartikainen、George Tucker、Sehoon Ha、Jie Tan、Vikash Kumar、Henry Zhu、Abhishek Gupta、Pieter Abbeel等。软actor-critic算法和应用。arXiv预印arXiv:1812.059052018。
    [8]
    Scott Fujimoto、Herke Hoof和David Meger。在actor-critic方法中处理函数近似错误。在2018年国际机器学习会议上,第1587-1596页。
    [9]
    陈新跃、王彻、周子健和基思·罗斯。随机集合双q学习:无模型快速学习。arXiv预打印arXiv:2101.059822021。
    [10]
    Kanti V Mardia、Peter E Jupp和KV Mardia。方向统计,第2卷。威利在线图书馆,2000年。
    [11]
    罗纳德·艾尔默·费舍尔。球体上的色散。伦敦皇家学会会刊。数学和物理科学系列,217(1130):295--3051953。
    [12]
    Greg Brockman、Vicki Cheung、Ludwig Pettersson、Jonas Schneider、John Schulman、Jie Tang和Wojciech Zaremba。Openai健身房。arXiv预印arXiv:1606.0154016。
    [13]
    Matthias Plappert、Marcin Andrychowicz、Alex Ray、Bob McGrew、Bowen Baker、Glenn Powell、Jonas Schneider、Josh Tobin、Maciek Chociej、Peter Welinder等。多目标强化学习:挑战机器人环境和研究请求。arXiv预印arXiv:1802.094642018。
    [14]
    克里斯托弗·宾厄姆。球面上的反足对称分布。《统计年鉴》,第1201-1225页,1974年。
    [15]
    约翰·T·肯特。球面上的fisher-bingham分布。英国皇家统计学会期刊:B辑(方法论),44(1):71-802982。
    [16]
    弗兰克·鲍曼。贝塞尔函数简介。Courier Corporation,2012年。
    [17]
    杰弗里·沃森(Geoffrey S Watson)。圆形和球体上的分布。应用概率杂志,19(A):265--2801982。
    [18]
    Arindam Banerjee、Inderjit S Dhillon、Joydeep Ghosh、Suvrit Sra和Greg Ridgeway。使用von mises-fisher分布在单位超球面上进行聚类。机器学习研究杂志,6(9),2005年。
    [19]
    苏夫里特·斯拉。关于von mises-fisher分布的参数近似的简短说明:以及Is(x)的快速实现。计算统计,27:177-1902012。

    索引术语

    1. vMFER:von Mises-Fisher基于梯度方向不确定性的经验重采样用于行动者关键算法的策略改进

      建议

      评论

      信息和贡献者

      问询处

      发布于

      封面图片ACM会议
      AAMAS’24:第23届自主代理和多代理系统国际会议记录
      2024年5月
      2898页
      国际标准图书编号:9798400704864

      赞助商

      出版商

      国际自治代理和多代理系统基金会

      南卡罗来纳州里奇兰

      出版历史

      出版:2024年5月6日

      检查更新

      作者标记

      1. 重采样
      2. 不确定性
      3. von mises-fisher分布

      限定符

      • 扩展摘要

      会议

      AAMAS’23年
      赞助商:
      AAMAS’23:自治代理和多代理系统国际会议
      2024年5月6日至10日
      新西兰奥克兰

      接受率

      5036份提交文件的总体接受率为1155份,23%

      贡献者

      其他指标

      文献计量学和引文

      文献计量学

      文章指标

      • 0
        引文总数
      • 13
        总下载次数
      • 下载次数(过去12个月)13
      • 下载次数(最近6周)9

      其他指标

      引文

      视图选项

      获取访问权限

      登录选项

      完全访问权限

      查看选项

      PDF格式

      以PDF文件查看或下载。

      PDF格式

      电子阅读器

      使用联机查看电子阅读器.

      电子阅读器

      媒体

      数字

      其他

      桌子

      分享

      分享

      共享此出版物链接

      在社交媒体上分享