查尔斯·费弗曼;贝纳特·吉伦(Bernat Guillén),佩古尔(Pegueroles);罗利,克拉伦斯·W。;梅兰妮·韦伯 动态学习的最优控制:一个玩具问题。 (英语) Zbl 1485.93628号 马特·伊贝罗姆(Mat.Iberoam)版本。 38,第1期,175-187(2022). 小结:我们展示了一个简单玩具问题的最优控制策略,其中潜在的动力学依赖于一个初始未知且必须学习的参数。我们考虑在有限时间间隔内提出的成本函数,与许多以前的工作不同,这些工作考虑时间范围趋于无穷大时的渐近性。我们研究了该问题的几个不同版本,包括贝叶斯控制,其中我们假设未知参数的先验分布;以及“不可知论”控制,即我们对未知参数不做任何假设。对于不可知问题,我们将我们的性能与知道参数值的对手的性能进行比较。这种比较产生了“后悔”的几个概念,我们获得了最小化未知参数最不利选择引起的“最坏情况后悔”的策略。在任何情况下,最优策略都是贝叶斯策略或贝叶斯限制策略。 引用于1文件 MSC公司: 93年20日 最优随机控制 关键词:后悔;竞争比率;不可知论控制;自适应控制;燃油税遗憾 PDF格式BibTeX公司 XML格式引用 \textit{C.Fefferman}等人,《马特·伊贝隆评论》。38,第1号,175--187(2022;Zbl 1485.93628) 全文: DOI程序 arXiv公司 参考文献: [1] Agarwal,N.,Bullins,B.,Hazan,E.,Kakade,S.M.和Singh,K.:对抗性干扰的在线控制。《第36届机器学习国际会议论文集》(2019年,加利福尼亚州长湾),第111-119页。机器学习研究论文集97,PMLR,2019年。 [2] Agarwal,N.、Hazan,E.和Singh,K.:对在线控制的对数遗憾。在第33届神经信息处理系统大会(NeurIPS 2019)上,加拿大温哥华,10页。神经信息处理系统进展32,Curran Associates,2019。 [3] Auer,P.、Cesa-Bianchi,N.和Fischer,P.:多武器匪徒问题的有限时间分析。机器。学习。47(2002),第2-3、235-256号·Zbl 1012.68093号 [4] Bertsekas,D.P.:《动态规划和最优控制》,第一卷,雅典娜科学出版社,马萨诸塞州贝尔蒙特,2005年·邮编1125.90056 [5] Brazy,D.P.:集团主席关于调查的事实报告。国家运输安全委员会SA-532号案卷,附件12,2009年。 [6] Bubeck,S.和Cesa-Bianchi,N.:随机和非随机多武器强盗问题的遗憾分析。已找到。趋势马赫数。学习。5(2012),第1期,第1-122页·Zbl 1281.91051号 [7] 塞萨·比安奇,N.和卢戈西,G.:预测、学习和游戏。剑桥大学出版社,剑桥,2006年·Zbl 1114.91001号 [8] Cohen,A.、Koren,T.和Mansour,Y.:高效地学习线性二次调节器,只会后悔。《第36届机器学习国际会议论文集》(2019年,加利福尼亚州长湾),1300-1309。机器学习研究论文集97,PMLR,2019年。 [9] Hazan,E.:在线凸优化简介。Optimiza-tion 2的基金会和趋势,Now Publishers,2016年。 [10] Lai,T.L.和Robbins,H.渐近有效的自适应分配规则。申请中的预付款。数学。6(1985),第1期,4-22·兹伯利0568.62074 [11] 鲍威尔,W.B.:近似动态规划。解决维度的诅咒。第二版,《威利概率统计系列》,威利国际科学出版社,2011年·Zbl 1242.90002号 [12] P.Ramadge:个人沟通,2019年。 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。