×

具有吸收状态的马尔可夫决策过程中的极端占用测度。 (英语) Zbl 07791449号

摘要:在本文中,我们考虑了一个具有Borel状态空间(mathbf{X}\cup\Delta\})的马尔可夫决策过程(MDP),其中(Delta)是一个吸收状态(墓地),Borel动作空间(mathbf{a})。我们考虑了限制在\(mathbf{X}\ times\mathbf}A}\)上的有限占据测度空间及其极值点。然而,我们证明了每一个有限的极端占用测度都是由一个确定的平稳策略生成的。然后,对于这个MDP,我们考虑一个具有总未贴现标准和\(J\)约束的约束问题,其中成本函数是非负的。根据假设,导致无限占用措施的策略不是最优的。然后,我们的第二个主要结果是,在温和的条件下,该约束MDP的解是由确定性平稳策略生成的不超过(J+1)个占领测度的混合给出的。

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程
90C25型 凸面编程
60J10型 马尔可夫链(离散状态空间上的离散时间马尔可夫过程)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Altman,E.,《约束马尔可夫决策过程》,Chapman和Hall/CRC,佛罗里达州博卡拉顿,1999年·Zbl 0963.90068号
[2] Bertsekas,D.,无限状态随机最短路径问题中的适当策略,IEEE Trans。自动化。控制,63(2018),第3787-3792页·Zbl 1423.93411号
[3] Bertsekas,D.和Shreve,S.,《随机最优控制》,学术出版社,纽约,1978年·Zbl 0471.93002号
[4] Borkar,V.,马尔可夫决策过程的凸分析方法,Probab。理论相关领域,78(1988),第583-602页·Zbl 0628.90090号
[5] Borkar,V.,《受控马尔可夫链中的主题》,朗曼科技公司,英国哈洛,1991年·Zbl 0725.93082号
[6] Borkar,V.,《马尔可夫决策过程中的凸分析方法》,摘自《马尔可夫决策过程手册》,Feinberg,E.A.和Shwartz,A.编辑,Kluwer学术出版社,马萨诸塞州波士顿,2002年,第347-375页·Zbl 1003.90048号
[7] D’Epenoux,F.,《关于生产和库存问题的研究》,法国。里奇。Operationelle,14(1960),第3-16页。
[8] Dufour,F.和Genadot,A.,在期望总回报准则下离散时间Markov决策过程的凸规划方法,SIAM J.控制优化。,58(2020),第2535-2566页,doi:10.1137/19M1255811·兹比尔1452.90316
[9] Dufour,F.,Horiguchi,M.和Piunovskiy,A.,约束条件下Markov决策过程的预期总成本准则:凸分析方法,应用进展。概率。,44(2012),第774-793页·Zbl 1286.90161号
[10] Dufour,F.和Piunovskiy,A.,离散时间Markov过程的多目标停止问题:凸分析方法,J.Appl。概率。,47(2010年),第947-966页·Zbl 1218.62081号
[11] Dufour,F.和Piunovskiy,A.,约束条件下Markov决策过程的预期总成本准则,应用进展。概率。,45(2013年),第837-859页·Zbl 1298.90126号
[12] Dufour,F.和Prieto-Rumeau,T.,约束折扣马尔可夫决策过程线性规划公式可解的条件,应用。数学。最佳。,74(2016),第27-51页·Zbl 1346.90801号
[13] Dunford,N.和Schwartz,J.T.,《线性算子》。第一部分:《一般理论》,约翰·威利父子出版社,纽约,1958年·Zbl 0084.10402号
[14] Dynkin,E.B.和Yushkevich,A.A.,受控马尔可夫过程,纽约施普林格,1979年·Zbl 0426.60063号
[15] Fainberg,E.A.,具有任意数值准则的受控马尔可夫过程,理论概率。申请。,27(1982),第486-503页,doi:10.1137/127058·Zbl 0515.90076号
[16] Feinberg,E.A.、Jaskiewicz,A.和Nowak,A.S.,带Borel状态空间的约束折扣Markov决策过程,Automatica,111(2020),108582·Zbl 1434.90212号
[17] Feinberg,E.A.和Piunovskiy,A.,无原子折扣和一致吸收多准则MDP确定性策略的充分性,SIAM J.控制优化。,57(2019),第163-191页,doi:10.1137/18M1194924·Zbl 1411.90351号
[18] Feinberg,E.A.和Rothblum,U。《全向马尔可夫决策过程中随机平稳策略的拆分》,数学。操作。研究,37(2012),第129-153页·Zbl 1243.90233号
[19] Feinberg,E.A.和Shwartz,A.,约束折扣动态规划,数学。操作。Res.,21(1996),第922-944页·Zbl 0867.90123号
[20] Feinberg,E.A.和Sonin,I.M.,关于马尔可夫决策过程中等价平稳策略的注记,数学。方法操作。Res.,44(1996),第205-221页·Zbl 0860.90124号
[21] Gonzalez-Hernandez,J.和Hernández-Lerma,O.,Borel空间中的约束Markov控制过程:折扣情况,数学。方法操作。研究,52(2000),第271-285页·Zbl 1032.90061号
[22] González-Hernández,J.和Hernandez-Lerma,O.,约束优化和控制问题中随机策略集的极值点,SIAM J.Optim。,15(2005),第1085-1104页,doi:10.1137/040605345·Zbl 1097.90040号
[23] González-Hernandez,J.和Villarreal,C.E.,约束平均成本马尔可夫决策过程的最优策略,TOP,19(2011),第107-120页·Zbl 1246.90157号
[24] Guo,X.P.,Huang,Y.H.和Zhang,Y.,有限时域上的约束连续时间Markov决策过程,应用。数学。最佳。,75(2017年),第317-341页·Zbl 1370.90285号
[25] Guo,X.P.和Zhang,Y.,带约束的平均连续时间Markov决策过程混合策略的最优性,数学。操作。决议,41(2016),第1276-1296页·Zbl 1349.90832号
[26] Guo,X.P.和Zhang,Y.,约束总未贴现连续时间Markov决策过程,Bernoulli,23(2017),第1694-1736页·Zbl 1456.90173号
[27] Hernández-Lerma,O.和Lasserre,J.,离散时间马尔可夫控制过程,Springer-Verlag,纽约,1996年·Zbl 0853.93106号
[28] Hernández-Lerma,O.和Lasserre,J.,离散时间马尔可夫控制过程的进一步主题,Springer Verlag,纽约,1999年·Zbl 0928.93002号
[29] Kallenberg,L.C.M.,线性规划和有限马尔可夫控制问题,数学。Centre Tracts,148,Mathematisch Centrum,阿姆斯特丹,1983年·Zbl 0503.90061号
[30] Parthasarathy,K.R.,度量空间上的概率测度,AMS Chelsea,普罗维登斯,RI,2005·兹比尔1188.60001
[31] Piunovskiy,A.,约束问题中随机序列的最优控制,Kluwer学术出版社,荷兰多德雷赫特,1997年·Zbl 0894.93001号
[32] Piunovskiy,A.,《受控随机序列:凸分析方法与函数约束问题》,Uspekhi Mat.Nauk,53(1998),第129-192页(俄语);俄罗斯数学。《调查》,53(1998),第1233-1293页(英语)·Zbl 0941.93056号
[33] Piunovskiy,A.和Zhang,Y.,无界速率的折扣连续时间Markov决策过程:凸分析方法,SIAM J.控制优化。,49(2011),第2032-2061页,doi:10.1137/10081366X·Zbl 1242.90283号
[34] Piunovskiy,A.和Zhang,Y.,《连续时间马尔可夫决策过程》,Springer,Cham,2020年·Zbl 1451.90003号
[35] Piunovskiy,A.和Zhang,Y.,关于将跳跃马尔可夫模型的约束渐进控制问题简化为仅具有渐进控制的模型,SIAM J.控制优化。,58(2020),第192-214页,doi:10.1137/19M1248303·Zbl 1435.90142号
[36] Piunovskiy,A.和Zhang,Y.,具有总未贴现成本和约束的连续时间Markov决策过程的渐进脉冲控制:通过约简方法的线性规划方法,SIAM J.控制优化。,60(2022),第1892-1917页,doi:10.1137/21M1444060·Zbl 1495.90230号
[37] Piunovskiy,A.和Zhang,Y.,关于凸空间中数学规划问题最优解的结构,Oper。Res.Lett.公司。,51(2023年),第488-493页。
[38] Piunovskiy,A.和Zhang,Y.,《在吸收马尔可夫决策过程中从战略措施到职业措施的投影映射的连续性》,预印本,arXiv:2311.140432023。
[39] Schäl,M.,《动态规划:政策空间的紧性》,随机过程。申请。,3(1975年),第345-364页·Zbl 0317.60025号
[40] Schäl,M.,动态规划中最优性的条件和阶段策略的极限是最优的条件,Z.Wahrscheinlichkeits theory und Verw。Gebiete,32(1975),第179-196页·Zbl 0316.90080号
[41] Varadarajan,V.,可分度量空间上测度的弱收敛性,Sankhyá,19(1958),第15-22页·兹伯利0082.26505
[42] Zhang,Y.,带非恒定折扣因子的约束折扣马尔可夫决策过程的凸分析方法,TOP,21(2013),第378-408页·Zbl 1273.90235号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。