×

具有长期平均目标的POMDP中的有限记忆策略。 (英语) 兹比尔1492.90189

摘要:部分可观测马尔可夫决策过程(POMDP)是不确定环境中具有概率和不确定性行为的动态系统的标准模型。我们证明了在具有长期平均目标的POMDP中,决策者具有有限记忆的近似最优策略。这意味着近似长期值是可递归枚举的,并且该值相对于转换函数具有弱连续性。

MSC公司:

90立方厘米 动态编程
90立方厘米 马尔可夫和半马尔可夫决策过程
37A50型 动力系统及其与概率论和随机过程的关系
2015年3月1日 计算复杂性(包括隐式计算复杂性)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] [1] Arapostathis A,Borkar V,Fernández-Gaucherand E,Ghosh M,Marcus S(1993)《具有平均成本标准的离散时间受控马尔可夫过程:一项调查》。SIAM J.控制优化。31(2):282-344.Crossref,谷歌学者·Zbl 0770.93064号 ·数字对象标识代码:10.1137/0331018
[2] [2] Baier C,Größer M,Bertrand N(2012)概率ω-自动机。美国临床医学杂志59(1):1-52.Crossref,谷歌学者·Zbl 1281.68152号 ·doi:10.1145/2108242.2108243
[3] [3] Bellman R(1957)马尔科夫决策过程。数学杂志。机械。6(5):679-684.谷歌学者·兹伯利0078.34101
[4] [4] Blackwell D(1962)离散动态规划。安。数学。统计师。33(2):719-726.Crossref,谷歌学者·Zbl 0133.12906号 ·doi:10.1214/aoms/1177704593
[5] [5] Bonet B,Geffner H(2009)《解决POMDP:RTDP-bel与基于点的算法》。程序。第21届国际。人工智能联合会议(Morgan Kaufmann,旧金山),1641-1646年。谷歌学者
[6] [6] Borkar V(2000)具有部分观测值的受控马尔可夫链的平均成本动态规划方程。SIAM J.控制优化。39(3):673-681.Crossref,谷歌学者·Zbl 1011.93110号 ·doi:10.1137/S0363012998345172
[7] [7] Bukharaev RG(1980)概率自动机。数学杂志。科学。13:359-386.Crossref,谷歌学者·Zbl 0457.68045号 ·doi:10.1007/BF01088986
[8] [8] CerníP、Chatterjee K、Henzinger TA、Radhakrishna A、Singh R(2011)《并发程序的定量合成》。Gopalakrishnan G,Qadeer S,编辑。国际。Conf.计算。辅助验证,计算机科学讲稿,第6806卷(柏林施普林格出版社),243-259.谷歌学者
[9] [9] Chatterjee K(2007)具有尾部目标的并发游戏。定理。计算。科学。388(1-3):181-198.谷歌学者Crossref·Zbl 1177.91031号 ·doi:10.1016/j.tcs.2007.07.047
[10] [10] Durbin R、Eddy S、Krogh A、Mitchison G(1998)生物序列分析:蛋白质和核酸的概率模型(剑桥大学出版社,英国剑桥)。Crossref,谷歌学者·兹比尔0929.92010 ·doi:10.1017/CBO9780511790492
[11] [11] Feinberg E(1996)关于马尔可夫决策过程中战略措施的可测性和表示。Ferguson TS、Shapley LS、MacQueen JB主编,《统计学、概率论和博弈论:纪念David Blackwell(数理统计研究所)的论文》,29-43.Crossref,谷歌学者·doi:10.1214/lnms/1215453563
[12] [12] Filar J、Vrieze K(1997)竞争马尔可夫决策过程(纽约州施普林格)。谷歌学者·Zbl 0934.91002号
[13] [13] Hansen KA、Ibsen-Jensen R、Neyman A(2018)《使用时钟和两位内存吸收游戏》。工作文件,英国苏格兰格拉斯哥大学,谷歌学者
[14] [14] Hansen KA、Ibsen-Jensen R、Neyman A(2018)这场大型比赛有一个时钟和一点记忆。程序。2018年ACM经济会议。计算。(ACM,纽约),149-150.谷歌学者
[15] [15] Hernández-Lerma O,Lasserre JB(2003),马尔可夫链和不变概率(瑞士巴塞尔Birkhäuser)。谷歌学者·Zbl 1036.60003号
[16] [16] Kaelbling LP、Littman ML、Moore AW(1996)《强化学习:一项调查》。J.人工智能研究.4:237-285.Crossref,谷歌学者·doi:10.1613/jair.301
[17] [17] Madani O,Hanks S,Condon A(2003)关于概率规划和相关随机优化问题的不确定性。人工智能147(1-2):5-34.Crossref,谷歌学者·Zbl 1082.68806号 ·doi:10.1016/S0004-3702(02)00378-8
[18] [18] Neyman A,Sorin S(2010)公共不确定持续时间过程的重复游戏。国际。J.博弈论.39(1-2):29-52.Crossref,谷歌学者·Zbl 1211.91063号 ·doi:10.1007/s00182-009-0197-y
[19] [19] 帕斯A(1971)概率自动机简介《计算机科学和应用数学》(学术出版社,马萨诸塞州剑桥)。谷歌学者·Zbl 0234.94055号
[20] [20] Rabin M(1963)概率自动机。通知。控制6(3):230-245.Crossref,谷歌学者·Zbl 0182.33602号 ·doi:10.1016/S0019-9958(63)90290-0
[21] [21]雷诺J(2011)动态规划中的统一值。《欧洲数学杂志》。索克。13(2):309-330.Crossref,谷歌学者·Zbl 1229.90253号 ·doi:10.4171/JEMS/254
[22] [22]雷诺J,Venel X(2016)马尔可夫决策过程和重复博弈中的长期值,以及概率空间的新距离。数学。操作。物件。42(2):349-376.链接,谷歌学者·Zbl 1364.90350号
[23] [23]Rosenberg D,Solan E,Vieille N(2002)部分观测的马尔可夫决策过程中的Blackwell最优性。安。统计师。30(4):1178-1193.谷歌学者交叉引用·Zbl 1103.90402号 ·doi:10.1214/aos/1031689022
[24] [24]Shapley L(1953)随机游戏。程序。国家。阿卡德。科学。美国.39(10):1095-1100.Crossref,谷歌学者·Zbl 0051.35805号 ·doi:10.1073/美国国家统计局.39.10.1953
[25] [25]Solan E(2003)竞争马尔可夫决策过程值的连续性。J.理论。普罗巴伯。16(4):831-845.Crossref,谷歌学者·Zbl 1044.90087号 ·doi:10.1023/B:JOTP.00001995.28536.ef
[26] [26]Solan E,Vieille N(2010)计算双层随机博弈中的一致最优策略。经济。理论42(1):237-253.Crossref,谷歌学者·Zbl 1182.91030号 ·doi:10.1007/s00199-009-0437-1
[27] [27]Venel X,Ziliotto B(2016)赌场中的强一致值和部分可观察的马尔可夫决策过程。SIAM J.控制优化。54(4):1983-2008.Crossref,谷歌学者·Zbl 1346.90796号 ·doi:10.1137/15M1043340
[28] [28]Venel X,Ziliotto B(2021)POMDP中的历史相关性评估。SIAM J.控制优化。即将到来。谷歌学者
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。