跳到主要内容
10.5555/3545946.3599028acm会议文章/章节视图摘要出版物页面原子吸收光谱法会议记录会议集合
海报

用非线性函数逼近原对偶Actor-Critic的有效收敛性

出版:2023年5月30日 出版历史
  • 获取引文提醒
  • 摘要

    在非凸原对偶形式下,研究了具有非线性函数逼近的actor-critic算法的收敛性。随机梯度下降上升应用了一个自适应近端项,以获得鲁棒的学习速率。我们给出了在马尔可夫采样下,具有收敛速度为O(√ln(N d G2)over N)的原对偶因子批评家的第一个有效收敛结果,其中G是梯度的元素最大值,N是迭代次数,d是梯度的维数。我们的结果只给出了对偶变量的Polyak-Łojasiewicz(PL)条件,这很容易验证,并且适用于广泛的RL场景。

    工具书类

    [1]
    安德鲁·盖瑞特·巴托(Andrew Gehret Barto)、理查德·萨顿(Richard S Sutton)和查尔斯·安德森(Charles W Anderson)。1983.可解决学习控制困难问题的类神经元自适应元件。IEEE系统、人与控制论汇刊(1983),834--846。
    [2]
    Andrew Gehret Barto、Richard S Sutton和Christopher JCH Watkins。1989.学习和顺序决策。货币技术报告89-95(1989)。
    [3]
    迪米特里·贝塞卡斯。2000.动态规划和最优控制:第1卷。雅典娜科学贝尔蒙特。
    [4]
    多坦·迪·卡斯特罗和罗恩·迈尔。2010年,一种收敛的在线单时间尺度演员-评论家算法。《机器学习研究杂志》11(2010),367-410。
    [5]
    戴波、萧伯纳、何鸟、李丽红和乐松。2018年,用双重批评家提升演员。在学习代表国际会议上。
    [6]
    杰琳娜·迪亚科尼科拉斯(Jelena Diakonikolas)、君士坦丁诺·达斯卡拉基斯(Constantinos Daskalakis)和迈克尔·乔丹(Michael Jordan)。2021.结构化非凸非凹min-max优化的有效方法。在国际人工智能和统计会议上。
    [7]
    Thin T Doan公司。2021.马尔可夫噪声下非线性两时间尺度随机逼近的有限时间收敛速度。arXiv预打印arXiv:2104.01627(2021)。
    [8]
    约翰·杜奇(John Duchi)、伊拉德·哈赞(Elad Hazan)和约拉姆·辛格(Yoram Singer)。2011.用于在线学习和随机优化的自适应次梯度方法。《机器学习研究杂志》12,7(2011)。
    [9]
    Scott Fujimoto、Herke Hoof和David Meger。2018.在actor-critic方法中解决函数近似错误。在机器学习国际会议上。
    [10]
    Tuomas Haarnoja、Aurick Zhou、Pieter Abbeel和Sergey Levine。2018.Soft actor-critic:非政策最大熵深度强化学习与随机参与者。在机器学习国际会议上。
    [11]
    Mingyi Hong、Hoi-To Wai、Zhaoran Wang和Zhooran Yang。2020年。二级优化的双时间尺度框架:复杂性分析和对关键因素的应用。arXiv预印arXiv:2007.05170(2020)。
    [12]
    谢里克·伊克巴尔和费沙。2019.多智能体强化学习的参与者关注关键。在机器学习国际会议上。
    [13]
    Vijay R Konda和John N Tsitsiklis。1999.演员聚会。在国际神经信息处理系统会议上。
    [14]
    林启航、刘明瑞、哈桑·拉菲克和杨天宝。2018.将弱凸弱凹鞍点问题解为弱单调变分不等式。arXiv预印arXiv:1810.10207(2018)。
    [15]
    刘明瑞(Mingrui Liu)、优素福(Youssef Mroueh)、杰瑞特·罗斯(Jerret Ross)、张伟(Wei Zhang)、崔晓东(Xiaodong Cui)、佩耶尔·达斯(Payel Das)和杨天宝(Tianbao Yang)。2019.更好地理解生成对抗性网络中的自适应梯度算法。在学习代表国际会议上。
    [16]
    哈米德·雷扎·梅。2018.非策略训练和函数近似下的收敛actor-critic算法。arXiv预印arXiv:1802.07842(2018)。
    [17]
    Lam M Nguyen、Jie Liu、Katya Scheinberg和Martin Takánch。2017.SARAH:使用随机递归梯度解决机器学习问题的新方法。在机器学习国际会议上。
    [18]
    Tao Sun、Han Shen、Tianyi Chen和Dongsheng Li.2020年。线性函数逼近的自适应时间差分学习。arXiv预打印arXiv:2002.08537(2020)。
    [19]
    吴岳、张卫彤、潘旭和顾全全。2020年。对两种时间尺度演员-评论家方法的有限时间分析。arXiv预印arXiv:2005.01350(2020)。
    [20]
    熊华清、徐腾宇、梁应斌和张伟。2020年。马尔科夫抽样下Adam型强化学习算法的非症状收敛。arXiv预印本arXiv:2002.06286(2020)。
    [21]
    徐腾宇、王哲和梁迎斌。2020年。两种时间尺度(自然)actor-critic算法的非症状收敛性分析。arXiv预印arXiv:2005.03557(2020)。
    [22]
    徐腾宇、杨卓然、王兆然和梁迎斌。2021.双稳健非政策参与者关键:收敛性和最优性。在机器学习国际会议上。

    索引术语

    1. 用非线性函数逼近原对偶Actor-Critic的有效收敛性

      建议

      评论

      信息和贡献者

      问询处

      发布于

      封面图片ACM会议
      AAMAS’23:2023年自主智能体和多智能体系统国际会议论文集
      2023年5月
      3131页
      国际标准图书编号:9781450394321

      赞助商

      出版商

      国际自治代理和多代理系统基金会

      南卡罗来纳州里奇兰

      出版历史

      出版:2023年5月30日

      检查更新

      作者标记

      1. 收敛性分析
      2. 强化学习

      限定符

      • 海报

      资金来源

      • 2030年重大科技创新“脑科学与类脑研究”重点项目
      • 深圳市科技计划
      • 国家自然科学基金

      会议

      AAMAS’23年
      主办单位:
      AAMAS’23:自治代理和多代理系统国际会议
      2023年5月29日至6月2日
      英国伦敦

      接受率

      5036份提交文件的总体接受率为1155份,23%

      贡献者

      其他指标

      文献计量学和引文

      文献计量学

      文章指标

      • 0
        引文总数
      • 21
        总下载次数
      • 下载次数(过去12个月)19
      • 下载次数(最近6周)0

      其他指标

      引文

      视图选项

      获取访问权限

      登录选项

      完全访问权限

      查看选项

      PDF格式

      以PDF文件查看或下载。

      PDF格式

      电子阅读器

      使用联机查看电子阅读器.

      电子阅读器

      媒体

      数字

      其他

      桌子

      分享

      分享

      共享此出版物链接

      在社交媒体上分享