×

动态学习的最优控制:一个玩具问题。 (英语) Zbl 1485.93628号

小结:我们展示了一个简单玩具问题的最优控制策略,其中潜在的动力学依赖于一个初始未知且必须学习的参数。我们考虑在有限时间间隔内提出的成本函数,与许多以前的工作不同,这些工作考虑时间范围趋于无穷大时的渐近性。我们研究了该问题的几个不同版本,包括贝叶斯控制,其中我们假设未知参数的先验分布;以及“不可知论”控制,即我们对未知参数不做任何假设。对于不可知问题,我们将我们的性能与知道参数值的对手的性能进行比较。这种比较产生了“后悔”的几个概念,我们获得了最小化未知参数最不利选择引起的“最坏情况后悔”的策略。在任何情况下,最优策略都是贝叶斯策略或贝叶斯限制策略。

MSC公司:

93年20日 最优随机控制
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agarwal,N.,Bullins,B.,Hazan,E.,Kakade,S.M.和Singh,K.:对抗性干扰的在线控制。《第36届机器学习国际会议论文集》(2019年,加利福尼亚州长湾),第111-119页。机器学习研究论文集97,PMLR,2019年。
[2] Agarwal,N.、Hazan,E.和Singh,K.:对在线控制的对数遗憾。在第33届神经信息处理系统大会(NeurIPS 2019)上,加拿大温哥华,10页。神经信息处理系统进展32,Curran Associates,2019。
[3] Auer,P.、Cesa-Bianchi,N.和Fischer,P.:多武器匪徒问题的有限时间分析。机器。学习。47(2002),第2-3、235-256号·Zbl 1012.68093号
[4] Bertsekas,D.P.:《动态规划和最优控制》,第一卷,雅典娜科学出版社,马萨诸塞州贝尔蒙特,2005年·邮编1125.90056
[5] Brazy,D.P.:集团主席关于调查的事实报告。国家运输安全委员会SA-532号案卷,附件12,2009年。
[6] Bubeck,S.和Cesa-Bianchi,N.:随机和非随机多武器强盗问题的遗憾分析。已找到。趋势马赫数。学习。5(2012),第1期,第1-122页·Zbl 1281.91051号
[7] 塞萨·比安奇,N.和卢戈西,G.:预测、学习和游戏。剑桥大学出版社,剑桥,2006年·Zbl 1114.91001号
[8] Cohen,A.、Koren,T.和Mansour,Y.:高效地学习线性二次调节器,只会后悔。《第36届机器学习国际会议论文集》(2019年,加利福尼亚州长湾),1300-1309。机器学习研究论文集97,PMLR,2019年。
[9] Hazan,E.:在线凸优化简介。Optimiza-tion 2的基金会和趋势,Now Publishers,2016年。
[10] Lai,T.L.和Robbins,H.渐近有效的自适应分配规则。申请中的预付款。数学。6(1985),第1期,4-22·兹伯利0568.62074
[11] 鲍威尔,W.B.:近似动态规划。解决维度的诅咒。第二版,《威利概率统计系列》,威利国际科学出版社,2011年·Zbl 1242.90002号
[12] P.Ramadge:个人沟通,2019年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。