文件Zbl 1388.90122-zbMATH Open

马尔可夫决策过程的常微分方程方法及其在Kullback-Leibler控制成本中的应用。（英语） Zbl 1388.90122号

SIAM J.控制优化。 56，第1期，343-366（2018）.

摘要：介绍了一种计算MDP（马尔可夫决策过程）模型最优策略的新方法。其主要思想是求解一个而不是一个MDP，而是一个完整的MDP家族，由出现在一步奖励函数中的标量\（\ zeta \）参数化。对于具有（d）状态的MDP，相对值函数族（h^*zeta:zeta\in\mathbb{R}）是ODE的解，（frac{d}{d\zeta}h^*_zeta={mathcalV}（h^*.zeta）），其中向量场（{mathcal V}:{mathbbR}^d\rightarrow{mathbb R}^d）基于矩阵具有简单形式相反。给出了两个一般应用：Brockett的二次成本MDP模型和Todorov“线性可解”MDP框架的推广，其中一步奖励函数由Kullback-Leibler发散定义。

引用于2文件

MSC公司：

90立方厘米	马尔可夫和半马尔可夫决策过程
93年20日	最优随机控制
60J22型	马尔可夫链中的计算方法
93E35型	随机学习与自适应控制
60J20型	马尔可夫链和离散时间马尔可夫过程在一般状态空间（社会流动、学习理论、工业过程等）上的应用
90立方厘米	数学规划中的最优性条件和对偶性

关键词：

马尔可夫决策过程;计算方法;分布式控制

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	P.Barooah，A.Bušicí和S.Meyn，{智能电网中可靠辅助服务需求端灵活性的谱分解}，第48届夏威夷国际系统科学会议（HICSS）论文集，考艾，HI，IEEE，新泽西州皮斯卡塔韦，2015，第2700-2709页。
[2]	D.Bertsekas和S.Shreve，《随机最优控制：离散时间案例》，雅典娜科学出版社，马萨诸塞州贝尔蒙特，1996年·兹伯利0471.93002
[3]	D.Bertsekas和J.N.Tsitsiklis，《神经动力学编程》，雅典娜科学出版社，马萨诸塞州贝尔蒙特，1996年·Zbl 0924.68163号
[4]	V.S.Borkar，{马尔可夫决策过程中的凸分析方法}，《马尔可夫决定过程手册》，国际。序列号。操作。研究管理科学。40，Kluwer Academic，马萨诸塞州波士顿，2002年，第347-375页·Zbl 1003.90048号
[5]	S.Boyd和L.Vandenberghe，{凸优化}，第1版，剑桥大学出版社，纽约，2004年·Zbl 1058.90049号
[6]	R.Brockett，{可观测连续时间马尔可夫链的最优控制}，《IEEE决策与控制会议论文集》，IEEE，新泽西州皮斯卡塔韦，2008年，第4269-4274页。
[7]	A.Bušicá和S.Meyn，{平均场控制中的被动动力学}，《第53届IEEE决策与控制会议论文集》，IEEE，新泽西州皮斯卡塔韦，2014年，第2716-2721页。
[8]	A.Bušicá和S.Meyn，{\it Distributed random control for demand dispatch}，《IEEE决策与控制会议论文集》，IEEE，新泽西州皮斯卡塔韦，2016年，第6964-6971页。
[9]	M.Chertkov和V.Y.Chernyak，《循环能量负荷的集成控制：马尔可夫决策方法》，预印本，（2017）·Zbl 1421.90158号
[10]	A.Dembo和O.Zeitouni，《大偏差技术与应用》，第2版，纽约施普林格，1998年·Zbl 0896.60013号
[11]	W.H.Fleming和S.K.Mitter，{非退化扩散过程的最优控制和非线性滤波}，《随机学》，8（1982），第63-77页·Zbl 0493.93047号
[12]	P.Guan、M.Raginsky和R.Willett，{具有Kullback-Leibler控制成本的在线马尔可夫决策过程}，IEEE Trans。自动化。控制，59（2014），第1423-1438页·Zbl 1360.90277号
[13]	M.Kaírnyí，{\it Towards fully probability control design}，Automatica J.IFAC，32（1996），第1719-1722页·Zbl 0868.93022号
[14]	I.Kontoyiannis和S.P.Meyn，{几何遍历Markov过程的谱理论和极限定理}，Ann.Appl。概率。，13（2003），第304-362页·Zbl 1016.60066号
[15]	I.Kontoyiannis和S.P.Meyn，{大偏差渐近性和乘法正则马尔可夫过程的谱理论}，电子。J.概率。，10（2005），第61-123页·Zbl 1079.60067号
[16]	S.Kullback，{信息论中的某些不等式和Cramer-Rao不等式}，《数学年鉴》。统计人员。，25（1954年），第745-751页·Zbl 0057.35402号
[17]	L.H.Loomis和S.Sternberg，《高等微积分》，Addison-Wesley，Reading，MA，1968年·Zbl 0162.35301号
[18]	A.S.Manne，{线性规划和序列决策}，管理。科学。，6（1960年），第259-267页·Zbl 0995.90599号
[19]	S.Meyn、P.Barooah、A.Bušicí、Y.Chen和J.Ehren，{使用智能可延迟负荷的电网辅助服务}，IEEE Trans。自动化。控制，60（2015），第2847-2862页·兹比尔1360.93653
[20]	S.P.Meyn和R.L.Tweedie，{马尔可夫链和随机稳定性}，第二版，剑桥大学出版社，剑桥，2009年·Zbl 1165.60001号
[21]	E.Nummelin，{一般不可约马尔可夫链和非负算子}，剑桥大学出版社，剑桥，1984年·兹伯利0551.60066
[22]	M.L.Puterman，{it Markov决策过程：离散随机动态规划}，Wiley，Hoboken，NJ，2014·Zbl 0829.90134号
[23]	P.J.Schweitzer，{微扰理论与有限马尔可夫链}，J.Appl。概率。，5（1968年），第401-403页·Zbl 0196.19803号
[24]	E.Shafieepoorfard、M.Raginsky和S.P.Meyn，{马尔可夫过程的理性疏忽控制}，SIAM J.控制优化。，54（2016），第987-1016页·Zbl 1360.93785号
[25]	C.A.Sims，《理性疏忽的含义》，《货币经济学杂志》。，50（2003），第665-690页。
[26]	C.A.Sims，《理性疏忽：超越线性二次型情形》，Amer。经济。修订版，（2006年），第158-163页。
[27]	R.Sutton和A.Barto，《强化学习：导论》，麻省理工学院出版社，马萨诸塞州剑桥，1998年·Zbl 1407.68009号
[28]	R.S.Sutton、D.McAllester、S.Singh和Y.Mansour，{函数逼近强化学习的政策梯度方法}，《第十二届神经信息处理系统国际会议论文集》，NIPS'99，麻省理工学院出版社，马萨诸塞州剑桥，2000年，第1057-1063页。
[29]	E.Todorov，{线性可解Markov决策问题}，摘自《神经信息处理系统进展》19，B.Scho¨lkopf，J.Platt和T.Hoffman编辑，麻省理工学院出版社，马萨诸塞州剑桥，2007年，第1369-1376页。
[30]	E.Todorov，{最优行动的有效计算}，Proc。国家。阿卡德。科学。美国，106（2009），第11478-11483页·Zbl 1203.68327号
[31]	E.Todorov，{线性可解MDPs中的政策梯度}，《神经信息处理系统的进展》23，J.D.Lafferty，C.K.I.Williams，J.Shawe-Tylor，R.S.Zemel和A.Culotta，eds.，Curran Associates，2010年，第2298-2306页。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

马尔可夫决策过程的常微分方程方法及其在Kullback-Leibler控制成本中的应用。（英语） Zbl 1388.90122号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

马尔可夫决策过程的常微分方程方法及其在Kullback-Leibler控制成本中的应用。 （英语） Zbl 1388.90122号

MSC公司：

关键词：

参考文献：

马尔可夫决策过程的常微分方程方法及其在Kullback-Leibler控制成本中的应用。（英语） Zbl 1388.90122号