×

政策优化的无导数方法:线性二次系统的保证。 (英语) Zbl 1498.93784号

摘要:我们研究了一类线性策略上的无导数策略优化方法。我们重点描述了这些方法应用于线性二次系统时的收敛速度,并研究了驱动噪声和奖励反馈的各种设置。我们的主要理论结果提供了样本或评估复杂性的显式界:我们证明了这些方法通过若干零阶评估(即误差容限、维数、,以及问题的曲率性质。我们的分析揭示了附加驱动噪声和随机初始化设置之间的一些有趣差异,以及一点和两点奖励反馈的设置。无导数方法在这些系统中的应用仿真验证了我们的理论。在此过程中,我们推导了随机零阶优化算法应用于某类非凸问题时的收敛速度。

理学硕士:

93E20型 最优随机控制
68T05型 人工智能中的学习和自适应系统
90C26型 非凸规划,全局优化
49甲10 线性二次型最优控制问题
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] Yasin Abbasi-Yadkori和Csaba Szepesv´ari。线性二次系统自适应控制的遗憾界。《学习理论会议记录》,第1-26页,2011年。
[2] Yasin Abbasi-Yadkori、Nevena Lazic和Csaba Szepesv´ari。无模型线性二次控制的遗憾界。arXiv预印本arXiv:1804.060212018。
[3] 马克·阿贝尔和亚历山德罗·拉扎里奇。改进了线性二次型控制问题中汤普森抽样的遗憾界。《机器学习国际会议论文集》,第1-9页,2018年·Zbl 1459.62012号
[4] 阿列克·阿加瓦尔(Alekh Agarwal)、奥弗·德克尔(Ofer Dekel)和林晓(Lin Xiao)。多点土匪反馈在线凸优化的优化算法。《学习理论会议记录》,第28-40页,2010年。
[5] Shipra Agrawal和Randy Jia。强化学习的乐观后验抽样:最坏情况下的后悔界限。《神经信息处理系统进展》,第1184-1194页,2017年。
[6] Mohammad Gheshlaghi Azar、Ian Osband和R´emi Munos。强化学习的最小遗憾边界。《机器学习国际会议论文集》,第263-272页,2017年。
[7] Dimitri P Bertsekas。动态规划和最优控制。第一卷《雅典娜科学》,第三版,2005年·邮编1125.90056
[8] 阿隆·科恩(Alon Cohen)、阿维纳坦·哈西迪姆(Avinatan Hasidim)、托默·科伦(Tomer Koren)、内文娜·拉齐奇(Nevena Lazic)、伊莎·曼苏尔(Yishay Mansour)和库纳尔·塔瓦尔(。在线线性二次型控制。《机器学习国际会议论文集》,第1028-1037页,2018年。
[9] Alon Cohen、Tomer Koren和Yishay Mansour。仅使用Tregret有效学习线性二次调节器。《机器学习国际会议论文集》,第1300-1309页,2019年。
[10] Christoph Dann、Tor Lattimore和Emma Brunskill。统一PAC和遗憾:情景强化学习的统一PAC边界。《神经信息处理系统进展》,第5713-5723页,2017年。
[11] Sarah Dean、Horia Mania、Nikolai Matni、Benjamin Recht和Stephen Tu。关于线性二次调节器的样本复杂性。arXiv预印本arXiv:1710.016882017·Zbl 1447.49052号
[12] Sarah Dean、Horia Mania、Nikolai Matni、Benjamin Recht和Stephen Tu。线性二次调节器鲁棒自适应控制的回归界。arXiv预印本arXiv:1805.09388018。
[13] Mark P Deisenroth、Carl E Rasmussen和Dieter Fox。学习使用高效数据强化学习控制低成本机械手。InRobotics:科学与系统,2012。
[14] 约翰·杜奇(John C Duchi)、迈克尔·乔丹(Michael I Jordan)、马丁·温赖特(Martin J Wainwright)和安德烈·维比索诺(Andre Wibisono)。零阶凸优化的最优速率:两个函数求值的幂。IEEE信息理论汇刊,61:2788-28062015·Zbl 1359.90155号
[15] 里克·德雷特。概率:理论和例子。剑桥大学出版社,2010年·Zbl 1202.60001号
[16] Mohamad Kazem Shirani Faradonbeh、Ambuj Tewari和George Michailidis。线性二次系统最优自适应策略的有限时间分析。arXiv预印本arXiv:1711.07230,2017·Zbl 1507.93033号
[17] 玛丽亚姆·法泽尔(Maryam Fazel)、荣格(Rong Ge)、沙姆·卡卡德(Sham Kakade)和梅兰·梅斯巴希(Mehran Mesbahi)。线性二次调节器策略梯度方法的全局收敛性。《机器学习国际会议论文集》,第1466-1475页,2018年。
[18] 克劳德·尼古拉·费希特(Claude-Nicolas Fiechter)。线性系统的PAC自适应控制。《计算学习理论会议记录》,第72-80页,1997年。
[19] 亚伯拉罕·弗拉克斯曼(Abraham Flaxman)、亚当·卡莱(Adam Kalai)和布伦丹·麦克马汉(Brendan McMahan)。土匪设置中的在线凸优化:没有梯度的梯度下降。《离散算法研讨会论文集》,第385-394页,2005年·Zbl 1297.90117号
[20] 赛义德·加迪米(Saeed Ghadimi)和兰光辉(Guanghui Lan)。非凸随机规划的随机一阶和零阶方法。SIAM优化杂志,23:2341-23682013年·Zbl 1295.90026号
[21] 顾世祥(Shixiang Gu)、蒂莫西·利利克拉普(Timothy Lillicrap)、伊利亚·萨茨克弗(Ilya Sutskever)和谢尔盖·莱文(Sergey Levine)。具有基于模型的加速的持续深度Q学习。《机器学习国际会议论文集》,第2829-2838页,2016年。
[22] David Lee Hanson和Farroll Tim Wright。独立随机变量中二次型的尾部概率的界。《数理统计年鉴》,42(3):1079-10831971·Zbl 0216.22203号
[23] 丹尼尔·徐(Daniel Hsu)、沈卡德(Sham Kakade)和张彤(Tong Zhang)。二次型次高斯随机向量的尾部不等式。《概率电子通信》,2012年第17期·Zbl 1309.60017号
[24] 莫特扎·易卜拉希米(Morteza Ibrahimi)、阿德尔·贾马德(Adel Javanmard)和本杰明·罗伊(Benjamin V.Roy)。高维线性二次系统的高效强化学习。神经信息处理系统进展,2636-2644页。2012
[25] Kevin G Jamieson、Robert Nowak和Ben Recht。无导数优化的查询复杂性。神经信息处理系统进展,第2672-2680页。2012
[26] 池进、普拉尼斯·内特拉帕利、荣戈、沙姆·M·卡卡德和迈克尔·乔丹。关于具有亚高斯范数的随机向量的集中不等式的简短注释。arXiv预印本arXiv:1902.03736019。
[27] 鲁道夫·卡尔曼。对最优控制理论的贡献。墨西哥马蒂马蒂卡·博莱汀,5:102-1191960·Zbl 0112.06303号
[28] Hamed Karimi、Julie Nutini和Mark Schmidt。在polyak-lojasiewicz条件下梯度和近似粒度方法的线性收敛性。《欧洲数据库机器学习和知识发现会议论文集》,第795-811页,2016年。
[29] 谢尔盖·莱文(Sergey Levine)、切尔西·芬恩(Chelsea Finn)、特雷弗·达雷尔(Trevor Darrell)和彼得·阿贝尔(Pieter Abbeel)。深度视觉政策的端到端培训。机器学习研究杂志,17:1334-13732016·Zbl 1360.68687号
[30] 蒂莫西·利利克拉普(Timothy P Lillicrap)、乔纳森·亨特(Jonathan J Hunt)、亚历山大·普里泽尔(Alexander Pritzel)、尼古拉·赫斯(Nicolas Heess)、汤姆·埃雷斯(Tom Erez)、尤瓦尔·塔萨(Yuval Tassa)、。通过深层强化学习进行连续控制。arXiv预印本arXiv:1509.029712015。
[31] 伦纳特·荣格。系统标识。《信号分析与预测》,第163-173页。斯普林格,1998年。
[32] 斯坦尼斯劳·洛贾西维茨(Stanislaw Lojasiewicz)。实解析子集的拓扑性质。科尔。du CNRS,Les’equations aux d’eriv’ees partielles,第87-89页,1963年·Zbl 0234.57007号
[33] Volodymyr Mnih等人,通过深度强化学习进行人的水平控制。《自然》,518:529-5332015年。
[34] 尤里·内斯特罗夫。凸函数的随机无梯度最小化。卢万天主教大学运营研究和计量经济中心(Core)核心讨论文件,2011年。
[35] 鲍里斯·波利亚克。求解方程和不等式的梯度方法。苏联计算数学和数学物理,4(6):17-321964·Zbl 0147.35302号
[36] Aravind Rajeswaran、Kendall Lowrey、Emanuel V Todorov和Sham M Kakade。在连续控制中实现通用化和简单化。《神经信息处理系统进展》,第6550-6561页,2017年。
[37] 雅各布·里卡蒂。aequationes中的动画人物区分了secundi gradus。《博学学报》,1724年。
[38] Tim Salimans、Jonathan Ho、Xi Chen、Szymon Sidor和Ilya Sutskever。进化策略作为强化学习的可扩展替代方案。arXiv预印本arXiv:1703.038642017。
[39] 约翰·舒尔曼(John Schulman)、谢尔盖·莱文(Sergey Levine)、彼得·阿比尔(Pieter Abbeel)、迈克尔·乔丹(Michael Jordan)和菲利普·莫里茨(Philipp Moritz)。信任区域政策优化。《机器学习国际会议论文集》,第1889-1897页,2015年。
[40] 奥哈德·沙米尔。关于土匪和无导数随机凸优化的复杂性。《学习理论会议记录》,第3-24页,2013年。
[41] 奥哈德·沙米尔。一种具有两点反馈的土匪和零阶凸优化的优化算法。《机器学习研究杂志》,18:1703-17132017·Zbl 1440.90049号
[42] 大卫·西尔弗(David Silver)等人,通过深度神经网络和树搜索掌握围棋游戏。《自然》,529:484-4892016。
[43] 詹姆斯·斯波尔。随机搜索和优化导论:估计、模拟和控制,第65卷。John Wiley&Sons,2005年·兹比尔1088.90002
[44] 乔什·托宾(Josh Tobin)、雷切尔·方(Rachel Fong)、亚历克斯·雷(Alex Ray)、乔纳斯·施奈德(Jonas Schneider)、沃伊西奇·扎伦巴(Wojciech Zaremba)和彼得·阿比尔(Pieter Abbe。将深度神经网络从模拟传输到现实世界的域随机化。《智能机器人和系统国际会议论文集》,2017年第23-30页。
[45] Stephen Tu和Benjamin Recht。线性二次调节器的最小二乘时间差分学习。《机器学习国际会议论文集》,第5012-5021页,2018a。
[46] Stephen Tu和Benjamin Recht。线性二次调节器基于模型和无模型方法之间的差距:渐近观点。CoRR,2018年b。
[47] 王以宁、西瓦拉曼·巴拉克里希南和阿尔蒂·辛格。带噪声观测的平滑函数优化:局部极小极大速率。arXiv预打印arXiv:1803.085862018a·Zbl 1433.90197号
[48] 王以宁、西蒙·S·杜、西瓦拉曼·巴拉克里希南和阿尔蒂·辛格。高维随机零秩优化。《国际人工智能与统计会议论文集》,第1356-1365页,2018b。
[49] 彼得·惠特尔。最佳控制:基础与超越。威利父子公司,1996年·Zbl 0880.49001号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。