海报

用非线性函数逼近原对偶Actor-Critic的有效收敛性

作者:

英甘徐、和

宝祥王作者信息和声明

AAMAS’23：2023年自治代理和多代理系统国际会议记录

2023年5月

页2640-2642

出版:2023年5月30日出版历史

获取访问权限

摘要

在非凸原对偶形式下，研究了具有非线性函数逼近的actor-critic算法的收敛性。随机梯度下降上升应用了一个自适应近端项，以获得鲁棒的学习速率。我们给出了在马尔可夫采样下，具有收敛速度为O（√ln（N d G2）over N）的原对偶因子批评家的第一个有效收敛结果，其中G是梯度的元素最大值，N是迭代次数，d是梯度的维数。我们的结果只给出了对偶变量的Polyak-Łojasiewicz（PL）条件，这很容易验证，并且适用于广泛的RL场景。

工具书类

[1]

安德鲁·盖瑞特·巴托（Andrew Gehret Barto）、理查德·萨顿（Richard S Sutton）和查尔斯·安德森（Charles W Anderson）。1983.可解决学习控制困难问题的类神经元自适应元件。IEEE系统、人与控制论汇刊（1983），834--846。

[2]

Andrew Gehret Barto、Richard S Sutton和Christopher JCH Watkins。1989.学习和顺序决策。货币技术报告89-95（1989）。

[3]

迪米特里·贝塞卡斯。2000.动态规划和最优控制：第1卷。雅典娜科学贝尔蒙特。

数字图书馆

[4]

多坦·迪·卡斯特罗和罗恩·迈尔。2010年，一种收敛的在线单时间尺度演员-评论家算法。《机器学习研究杂志》11（2010），367-410。

数字图书馆

[5]

戴波、萧伯纳、何鸟、李丽红和乐松。2018年，用双重批评家提升演员。在学习代表国际会议上。

[6]

杰琳娜·迪亚科尼科拉斯（Jelena Diakonikolas）、君士坦丁诺·达斯卡拉基斯（Constantinos Daskalakis）和迈克尔·乔丹（Michael Jordan）。2021.结构化非凸非凹min-max优化的有效方法。在国际人工智能和统计会议上。

[7]

Thin T Doan公司。2021.马尔可夫噪声下非线性两时间尺度随机逼近的有限时间收敛速度。arXiv预打印arXiv:2104.01627（2021）。

[8]

约翰·杜奇（John Duchi）、伊拉德·哈赞（Elad Hazan）和约拉姆·辛格（Yoram Singer）。2011.用于在线学习和随机优化的自适应次梯度方法。《机器学习研究杂志》12，7（2011）。

数字图书馆

[9]

Scott Fujimoto、Herke Hoof和David Meger。2018.在actor-critic方法中解决函数近似错误。在机器学习国际会议上。

[10]

Tuomas Haarnoja、Aurick Zhou、Pieter Abbeel和Sergey Levine。2018.Soft actor-critic：非政策最大熵深度强化学习与随机参与者。在机器学习国际会议上。

[11]

Mingyi Hong、Hoi-To Wai、Zhaoran Wang和Zhooran Yang。2020年。二级优化的双时间尺度框架：复杂性分析和对关键因素的应用。arXiv预印arXiv:2007.05170（2020）。

[12]

谢里克·伊克巴尔和费沙。2019.多智能体强化学习的参与者关注关键。在机器学习国际会议上。

[13]

Vijay R Konda和John N Tsitsiklis。1999.演员聚会。在国际神经信息处理系统会议上。

[14]

林启航、刘明瑞、哈桑·拉菲克和杨天宝。2018.将弱凸弱凹鞍点问题解为弱单调变分不等式。arXiv预印arXiv:1810.10207（2018）。

[15]

刘明瑞（Mingrui Liu）、优素福（Youssef Mroueh）、杰瑞特·罗斯（Jerret Ross）、张伟（Wei Zhang）、崔晓东（Xiaodong Cui）、佩耶尔·达斯（Payel Das）和杨天宝（Tianbao Yang）。2019.更好地理解生成对抗性网络中的自适应梯度算法。在学习代表国际会议上。

[16]

哈米德·雷扎·梅。2018.非策略训练和函数近似下的收敛actor-critic算法。arXiv预印arXiv:1802.07842（2018）。

[17]

Lam M Nguyen、Jie Liu、Katya Scheinberg和Martin Takánch。2017.SARAH：使用随机递归梯度解决机器学习问题的新方法。在机器学习国际会议上。

[18]

Tao Sun、Han Shen、Tianyi Chen和Dongsheng Li.2020年。线性函数逼近的自适应时间差分学习。arXiv预打印arXiv:2002.08537（2020）。

[19]

吴岳、张卫彤、潘旭和顾全全。2020年。对两种时间尺度演员-评论家方法的有限时间分析。arXiv预印arXiv:2005.01350（2020）。

[20]

熊华清、徐腾宇、梁应斌和张伟。2020年。马尔科夫抽样下Adam型强化学习算法的非症状收敛。arXiv预印本arXiv：2002.06286（2020）。

[21]

徐腾宇、王哲和梁迎斌。2020年。两种时间尺度（自然）actor-critic算法的非症状收敛性分析。arXiv预印arXiv:2005.03557（2020）。

[22]

徐腾宇、杨卓然、王兆然和梁迎斌。2021.双稳健非政策参与者关键：收敛性和最优性。在机器学习国际会议上。

索引术语

用非线性函数逼近原对偶Actor-Critic的有效收敛性
1. 计算方法
  1. 机器学习
    1. 学习范式
      1. 强化学习
        顺序决策

建议

退化非线性优化问题的原对偶内点法的二次收敛性

近年来，退化非线性优化问题的数值方法研究受到了广泛关注。几位作者讨论了无线性独立约束条件和/或严格约束条件下的收敛性。。。
阅读更多信息
一种具有良好收敛性的非线性优化零空间原对偶内点算法

我们提出了一种零空间原对偶内点算法，用于求解具有一般不等式和等式约束的非线性优化问题。该算法通过求解一系列等式约束的障碍子问题来近似求解。。。
阅读更多信息
非线性规划原对偶内点算法的超线性收敛性

分析了一类原对偶内点方法的局部收敛性。这些方法旨在最小化受线性等式约束和一般不等式约束的非线性非凸目标函数。他们。。。
阅读更多信息

评论

信息和贡献者

问询处

发布于

封面图片ACM会议

AAMAS’23：2023年自主智能体和多智能体系统国际会议论文集

2023年5月

3131页

国际标准图书编号：9781450394321

总主席：
诺亚·阿格蒙
以色列巴伊兰大学
,
保安
新加坡南洋理工大学
,
课程主席：
亚历山德罗·里奇
意大利博洛尼亚大学
,
杨致远（William Yeoh）
美国圣路易斯华盛顿大学

赞助商

SIGAI：美国计算机学会人工智能特别兴趣小组
国际会计师联合会

出版商

国际自治代理和多代理系统基金会

南卡罗来纳州里奇兰

出版历史

出版：2023年5月30日

检查更新

作者标记

限定符

海报

资金来源

2030年重大科技创新“脑科学与类脑研究”重点项目
深圳市科技计划
国家自然科学基金

会议

AAMAS’23年

主办单位：

SIGAI公司

AAMAS’23：自治代理和多代理系统国际会议

2023年5月29日至6月2日

英国伦敦

接受率

5036份提交文件的总体接受率为1155份，23%

贡献者

其他指标

查看文章度量

文献计量学和引文

文献计量学

文章指标

0
引文总数
21
总下载次数

下载次数（过去12个月）19
下载次数（最近6周）0

其他指标

查看作者指标

引文

视图选项

获取访问权限

登录选项

请检查您是否可以通过登录凭据或您的机构访问此文章以获得完全访问权限。

完全访问权限

获取此出版物

查看选项

PDF格式

以PDF文件查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

媒体

数字

其他

桌子