文件Zbl 1485.93628-zbMATH Open

查尔斯·费弗曼;贝纳特·吉伦（Bernat Guillén），佩古尔（Pegueroles）;罗利，克拉伦斯·W。;梅兰妮·韦伯

动态学习的最优控制：一个玩具问题。（英语） Zbl 1485.93628号

马特·伊贝罗姆（Mat.Iberoam）版本。 38，第1期，175-187（2022）.

小结：我们展示了一个简单玩具问题的最优控制策略，其中潜在的动力学依赖于一个初始未知且必须学习的参数。我们考虑在有限时间间隔内提出的成本函数，与许多以前的工作不同，这些工作考虑时间范围趋于无穷大时的渐近性。我们研究了该问题的几个不同版本，包括贝叶斯控制，其中我们假设未知参数的先验分布；以及“不可知论”控制，即我们对未知参数不做任何假设。对于不可知问题，我们将我们的性能与知道参数值的对手的性能进行比较。这种比较产生了“后悔”的几个概念，我们获得了最小化未知参数最不利选择引起的“最坏情况后悔”的策略。在任何情况下，最优策略都是贝叶斯策略或贝叶斯限制策略。

引用于1文件

MSC公司：

93年20日

最优随机控制

关键词：

后悔;竞争比率;不可知论控制;自适应控制;燃油税遗憾

PDF格式 BibTeX公司 XML格式引用

全文： DOI程序 arXiv公司

参考文献：

[1]	Agarwal，N.，Bullins，B.，Hazan，E.，Kakade，S.M.和Singh，K.：对抗性干扰的在线控制。《第36届机器学习国际会议论文集》（2019年，加利福尼亚州长湾），第111-119页。机器学习研究论文集97，PMLR，2019年。
[2]	Agarwal，N.、Hazan，E.和Singh，K.：对在线控制的对数遗憾。在第33届神经信息处理系统大会（NeurIPS 2019）上，加拿大温哥华，10页。神经信息处理系统进展32，Curran Associates，2019。
[3]	Auer，P.、Cesa-Bianchi，N.和Fischer，P.：多武器匪徒问题的有限时间分析。机器。学习。47（2002），第2-3、235-256号·Zbl 1012.68093号
[4]	Bertsekas，D.P.：《动态规划和最优控制》，第一卷，雅典娜科学出版社，马萨诸塞州贝尔蒙特，2005年·邮编1125.90056
[5]	Brazy，D.P.：集团主席关于调查的事实报告。国家运输安全委员会SA-532号案卷，附件12，2009年。
[6]	Bubeck，S.和Cesa-Bianchi，N.：随机和非随机多武器强盗问题的遗憾分析。已找到。趋势马赫数。学习。5（2012），第1期，第1-122页·Zbl 1281.91051号
[7]	塞萨·比安奇，N.和卢戈西，G.：预测、学习和游戏。剑桥大学出版社，剑桥，2006年·Zbl 1114.91001号
[8]	Cohen，A.、Koren，T.和Mansour，Y.：高效地学习线性二次调节器，只会后悔。《第36届机器学习国际会议论文集》（2019年，加利福尼亚州长湾），1300-1309。机器学习研究论文集97，PMLR，2019年。
[9]	Hazan，E.：在线凸优化简介。Optimiza-tion 2的基金会和趋势，Now Publishers，2016年。
[10]	Lai，T.L.和Robbins，H.渐近有效的自适应分配规则。申请中的预付款。数学。6（1985），第1期，4-22·兹伯利0568.62074
[11]	鲍威尔，W.B.：近似动态规划。解决维度的诅咒。第二版，《威利概率统计系列》，威利国际科学出版社，2011年·Zbl 1242.90002号
[12]	P.Ramadge：个人沟通，2019年。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：book；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

动态学习的最优控制：一个玩具问题。（英语） Zbl 1485.93628号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

动态学习的最优控制：一个玩具问题。 （英语） Zbl 1485.93628号

MSC公司：

关键词：

参考文献：

动态学习的最优控制：一个玩具问题。（英语） Zbl 1485.93628号