×

马尔可夫决策过程的常微分方程方法及其在Kullback-Leibler控制成本中的应用。 (英语) Zbl 1388.90122号

摘要:介绍了一种计算MDP(马尔可夫决策过程)模型最优策略的新方法。其主要思想是求解一个而不是一个MDP,而是一个完整的MDP家族,由出现在一步奖励函数中的标量\(\ zeta \)参数化。对于具有(d)状态的MDP,相对值函数族(h^*zeta:zeta\in\mathbb{R})是ODE的解,(frac{d}{d\zeta}h^*_zeta={mathcalV}(h^*.zeta)),其中向量场({mathcal V}:{mathbbR}^d\rightarrow{mathbb R}^d)基于矩阵具有简单形式相反。给出了两个一般应用:Brockett的二次成本MDP模型和Todorov“线性可解”MDP框架的推广,其中一步奖励函数由Kullback-Leibler发散定义。

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程
93年20日 最优随机控制
60J22型 马尔可夫链中的计算方法
93E35型 随机学习与自适应控制
60J20型 马尔可夫链和离散时间马尔可夫过程在一般状态空间(社会流动、学习理论、工业过程等)上的应用
90立方厘米 数学规划中的最优性条件和对偶性
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] P.Barooah,A.Bušicí和S.Meyn,{智能电网中可靠辅助服务需求端灵活性的谱分解},第48届夏威夷国际系统科学会议(HICSS)论文集,考艾,HI,IEEE,新泽西州皮斯卡塔韦,2015,第2700-2709页。
[2] D.Bertsekas和S.Shreve,《随机最优控制:离散时间案例》,雅典娜科学出版社,马萨诸塞州贝尔蒙特,1996年·兹伯利0471.93002
[3] D.Bertsekas和J.N.Tsitsiklis,《神经动力学编程》,雅典娜科学出版社,马萨诸塞州贝尔蒙特,1996年·Zbl 0924.68163号
[4] V.S.Borkar,{马尔可夫决策过程中的凸分析方法},《马尔可夫决定过程手册》,国际。序列号。操作。研究管理科学。40,Kluwer Academic,马萨诸塞州波士顿,2002年,第347-375页·Zbl 1003.90048号
[5] S.Boyd和L.Vandenberghe,{凸优化},第1版,剑桥大学出版社,纽约,2004年·Zbl 1058.90049号
[6] R.Brockett,{可观测连续时间马尔可夫链的最优控制},《IEEE决策与控制会议论文集》,IEEE,新泽西州皮斯卡塔韦,2008年,第4269-4274页。
[7] A.Bušicá和S.Meyn,{平均场控制中的被动动力学},《第53届IEEE决策与控制会议论文集》,IEEE,新泽西州皮斯卡塔韦,2014年,第2716-2721页。
[8] A.Bušicá和S.Meyn,{\it Distributed random control for demand dispatch},《IEEE决策与控制会议论文集》,IEEE,新泽西州皮斯卡塔韦,2016年,第6964-6971页。
[9] M.Chertkov和V.Y.Chernyak,《循环能量负荷的集成控制:马尔可夫决策方法》,预印本,(2017)·Zbl 1421.90158号
[10] A.Dembo和O.Zeitouni,《大偏差技术与应用》,第2版,纽约施普林格,1998年·Zbl 0896.60013号
[11] W.H.Fleming和S.K.Mitter,{非退化扩散过程的最优控制和非线性滤波},《随机学》,8(1982),第63-77页·Zbl 0493.93047号
[12] P.Guan、M.Raginsky和R.Willett,{具有Kullback-Leibler控制成本的在线马尔可夫决策过程},IEEE Trans。自动化。控制,59(2014),第1423-1438页·Zbl 1360.90277号
[13] M.Kaírnyí,{\it Towards fully probability control design},Automatica J.IFAC,32(1996),第1719-1722页·Zbl 0868.93022号
[14] I.Kontoyiannis和S.P.Meyn,{几何遍历Markov过程的谱理论和极限定理},Ann.Appl。概率。,13(2003),第304-362页·Zbl 1016.60066号
[15] I.Kontoyiannis和S.P.Meyn,{大偏差渐近性和乘法正则马尔可夫过程的谱理论},电子。J.概率。,10(2005),第61-123页·Zbl 1079.60067号
[16] S.Kullback,{信息论中的某些不等式和Cramer-Rao不等式},《数学年鉴》。统计人员。,25(1954年),第745-751页·Zbl 0057.35402号
[17] L.H.Loomis和S.Sternberg,《高等微积分》,Addison-Wesley,Reading,MA,1968年·Zbl 0162.35301号
[18] A.S.Manne,{线性规划和序列决策},管理。科学。,6(1960年),第259-267页·Zbl 0995.90599号
[19] S.Meyn、P.Barooah、A.Bušicí、Y.Chen和J.Ehren,{使用智能可延迟负荷的电网辅助服务},IEEE Trans。自动化。控制,60(2015),第2847-2862页·兹比尔1360.93653
[20] S.P.Meyn和R.L.Tweedie,{马尔可夫链和随机稳定性},第二版,剑桥大学出版社,剑桥,2009年·Zbl 1165.60001号
[21] E.Nummelin,{一般不可约马尔可夫链和非负算子},剑桥大学出版社,剑桥,1984年·兹伯利0551.60066
[22] M.L.Puterman,{it Markov决策过程:离散随机动态规划},Wiley,Hoboken,NJ,2014·Zbl 0829.90134号
[23] P.J.Schweitzer,{微扰理论与有限马尔可夫链},J.Appl。概率。,5(1968年),第401-403页·Zbl 0196.19803号
[24] E.Shafieepoorfard、M.Raginsky和S.P.Meyn,{马尔可夫过程的理性疏忽控制},SIAM J.控制优化。,54(2016),第987-1016页·Zbl 1360.93785号
[25] C.A.Sims,《理性疏忽的含义》,《货币经济学杂志》。,50(2003),第665-690页。
[26] C.A.Sims,《理性疏忽:超越线性二次型情形》,Amer。经济。修订版,(2006年),第158-163页。
[27] R.Sutton和A.Barto,《强化学习:导论》,麻省理工学院出版社,马萨诸塞州剑桥,1998年·Zbl 1407.68009号
[28] R.S.Sutton、D.McAllester、S.Singh和Y.Mansour,{函数逼近强化学习的政策梯度方法},《第十二届神经信息处理系统国际会议论文集》,NIPS'99,麻省理工学院出版社,马萨诸塞州剑桥,2000年,第1057-1063页。
[29] E.Todorov,{线性可解Markov决策问题},摘自《神经信息处理系统进展》19,B.Scho¨lkopf,J.Platt和T.Hoffman编辑,麻省理工学院出版社,马萨诸塞州剑桥,2007年,第1369-1376页。
[30] E.Todorov,{最优行动的有效计算},Proc。国家。阿卡德。科学。美国,106(2009),第11478-11483页·Zbl 1203.68327号
[31] E.Todorov,{线性可解MDPs中的政策梯度},《神经信息处理系统的进展》23,J.D.Lafferty,C.K.I.Williams,J.Shawe-Tylor,R.S.Zemel和A.Culotta,eds.,Curran Associates,2010年,第2298-2306页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。