文件Zbl 1492.90189-zbMATH Open

具有长期平均目标的POMDP中的有限记忆策略。（英语）兹比尔1492.90189

数学。操作。物件。 47，第1号，100-119（2022）.

摘要：部分可观测马尔可夫决策过程（POMDP）是不确定环境中具有概率和不确定性行为的动态系统的标准模型。我们证明了在具有长期平均目标的POMDP中，决策者具有有限记忆的近似最优策略。这意味着近似长期值是可递归枚举的，并且该值相对于转换函数具有弱连续性。

MSC公司：

90立方厘米	动态编程
90立方厘米	马尔可夫和半马尔可夫决策过程
37A50型	动力系统及其与概率论和随机过程的关系
2015年3月1日	计算复杂性（包括隐式计算复杂性）

关键词：

有限状态；马尔可夫；动态规划；计算复杂性；算法分析

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司链接

参考文献：

[1]	[1] Arapostathis A，Borkar V，Fernández-Gaucherand E，Ghosh M，Marcus S（1993）《具有平均成本标准的离散时间受控马尔可夫过程：一项调查》。SIAM J.控制优化。31（2）:282-344.Crossref，谷歌学者·Zbl 0770.93064号 ·数字对象标识代码：10.1137/0331018
[2]	[2] Baier C，Größer M，Bertrand N（2012）概率ω-自动机。美国临床医学杂志59（1）：1-52.Crossref，谷歌学者·Zbl 1281.68152号 ·doi:10.1145/2108242.2108243
[3]	[3] Bellman R（1957）马尔科夫决策过程。数学杂志。机械。6（5）：679-684.谷歌学者·兹伯利0078.34101
[4]	[4] Blackwell D（1962）离散动态规划。安。数学。统计师。33（2）：719-726.Crossref，谷歌学者·Zbl 0133.12906号 ·doi:10.1214/aoms/1177704593
[5]	[5] Bonet B，Geffner H（2009）《解决POMDP:RTDP-bel与基于点的算法》。程序。第21届国际。人工智能联合会议（Morgan Kaufmann，旧金山），1641-1646年。谷歌学者
[6]	[6] Borkar V（2000）具有部分观测值的受控马尔可夫链的平均成本动态规划方程。SIAM J.控制优化。39（3）:673-681.Crossref，谷歌学者·Zbl 1011.93110号 ·doi:10.1137/S0363012998345172
[7]	[7] Bukharaev RG（1980）概率自动机。数学杂志。科学。13:359-386.Crossref，谷歌学者·Zbl 0457.68045号 ·doi:10.1007/BF01088986
[8]	[8] CerníP、Chatterjee K、Henzinger TA、Radhakrishna A、Singh R（2011）《并发程序的定量合成》。Gopalakrishnan G，Qadeer S，编辑。国际。Conf.计算。辅助验证，计算机科学讲稿，第6806卷（柏林施普林格出版社），243-259.谷歌学者
[9]	[9] Chatterjee K（2007）具有尾部目标的并发游戏。定理。计算。科学。388（1-3）：181-198.谷歌学者Crossref·Zbl 1177.91031号 ·doi:10.1016/j.tcs.2007.07.047
[10]	[10] Durbin R、Eddy S、Krogh A、Mitchison G（1998）生物序列分析：蛋白质和核酸的概率模型（剑桥大学出版社，英国剑桥）。Crossref，谷歌学者·兹比尔0929.92010 ·doi:10.1017/CBO9780511790492
[11]	[11] Feinberg E（1996）关于马尔可夫决策过程中战略措施的可测性和表示。Ferguson TS、Shapley LS、MacQueen JB主编，《统计学、概率论和博弈论：纪念David Blackwell（数理统计研究所）的论文》，29-43.Crossref，谷歌学者·doi:10.1214/lnms/1215453563
[12]	[12] Filar J、Vrieze K（1997）竞争马尔可夫决策过程（纽约州施普林格）。谷歌学者·Zbl 0934.91002号
[13]	[13] Hansen KA、Ibsen-Jensen R、Neyman A（2018）《使用时钟和两位内存吸收游戏》。工作文件，英国苏格兰格拉斯哥大学，谷歌学者
[14]	[14] Hansen KA、Ibsen-Jensen R、Neyman A（2018）这场大型比赛有一个时钟和一点记忆。程序。2018年ACM经济会议。计算。（ACM，纽约），149-150.谷歌学者
[15]	[15] Hernández-Lerma O，Lasserre JB（2003），马尔可夫链和不变概率（瑞士巴塞尔Birkhäuser）。谷歌学者·Zbl 1036.60003号
[16]	[16] Kaelbling LP、Littman ML、Moore AW（1996）《强化学习：一项调查》。J.人工智能研究.4:237-285.Crossref，谷歌学者·doi:10.1613/jair.301
[17]	[17] Madani O，Hanks S，Condon A（2003）关于概率规划和相关随机优化问题的不确定性。人工智能147（1-2）：5-34.Crossref，谷歌学者·Zbl 1082.68806号 ·doi:10.1016/S0004-3702（02）00378-8
[18]	[18] Neyman A，Sorin S（2010）公共不确定持续时间过程的重复游戏。国际。J.博弈论.39（1-2）：29-52.Crossref，谷歌学者·Zbl 1211.91063号 ·doi:10.1007/s00182-009-0197-y
[19]	[19] 帕斯A（1971）概率自动机简介《计算机科学和应用数学》（学术出版社，马萨诸塞州剑桥）。谷歌学者·Zbl 0234.94055号
[20]	[20] Rabin M（1963）概率自动机。通知。控制6（3）：230-245.Crossref，谷歌学者·Zbl 0182.33602号 ·doi:10.1016/S0019-9958（63）90290-0
[21]	[21]雷诺J（2011）动态规划中的统一值。《欧洲数学杂志》。索克。13（2）:309-330.Crossref，谷歌学者·Zbl 1229.90253号 ·doi:10.4171/JEMS/254
[22]	[22]雷诺J，Venel X（2016）马尔可夫决策过程和重复博弈中的长期值，以及概率空间的新距离。数学。操作。物件。42（2）：349-376.链接，谷歌学者·Zbl 1364.90350号
[23]	[23]Rosenberg D，Solan E，Vieille N（2002）部分观测的马尔可夫决策过程中的Blackwell最优性。安。统计师。30（4）：1178-1193.谷歌学者交叉引用·Zbl 1103.90402号 ·doi:10.1214/aos/1031689022
[24]	[24]Shapley L（1953）随机游戏。程序。国家。阿卡德。科学。美国.39（10）：1095-1100.Crossref，谷歌学者·Zbl 0051.35805号 ·doi:10.1073/美国国家统计局.39.10.1953
[25]	[25]Solan E（2003）竞争马尔可夫决策过程值的连续性。J.理论。普罗巴伯。16（4）：831-845.Crossref，谷歌学者·Zbl 1044.90087号 ·doi:10.1023/B:JOTP.00001995.28536.ef
[26]	[26]Solan E，Vieille N（2010）计算双层随机博弈中的一致最优策略。经济。理论42（1）：237-253.Crossref，谷歌学者·Zbl 1182.91030号 ·doi:10.1007/s00199-009-0437-1
[27]	[27]Venel X，Ziliotto B（2016）赌场中的强一致值和部分可观察的马尔可夫决策过程。SIAM J.控制优化。54（4）：1983-2008.Crossref，谷歌学者·Zbl 1346.90796号 ·doi:10.1137/15M1043340
[28]	[28]Venel X，Ziliotto B（2021）POMDP中的历史相关性评估。SIAM J.控制优化。即将到来。谷歌学者

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

具有长期平均目标的POMDP中的有限记忆策略。（英语）兹比尔1492.90189

MSC公司：

关键词：

参考文献：

示例

领域

操作员

具有长期平均目标的POMDP中的有限记忆策略。 （英语） 兹比尔1492.90189

MSC公司：

关键词：

参考文献：

具有长期平均目标的POMDP中的有限记忆策略。（英语）兹比尔1492.90189