文件Zbl 1452.68225-zbMATH Open

无限时域有界Markov决策过程的鲁棒拓扑策略迭代。（英语） Zbl 1452.68225号

国际J近似推理 105, 287-304 (2019).

摘要：马尔可夫决策过程(多学科发展计划s）通常用于解决顺序决策问题。限制性较小的模型是有界参数多学科发展计划(弹道导弹防御计划)这允许：（i）用概率区间表示过渡函数，以及（ii）推理稳健解，即最差模型下的最佳解。在本文中，我们提出了鲁棒拓扑策略迭代(实时数字输入接口)一种新的无限时域策略迭代算法弹道导弹防御计划基于状态空间的分区。实证结果表明，域的结构越多，其性能越好实时数字输入接口.

引用于1文件

MSC公司：

68层37	人工智能背景下的不确定性推理
90立方厘米	马尔可夫和半马尔可夫决策过程

关键词：

概率规划;有界参数马尔可夫决策过程;异步策略迭代

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Puterman，M.L.，《马尔可夫决策过程：离散随机动态规划》（Markov Decision Processes:Discrete Stochastic Dynamic Programming，1994），John Wiley&Sons，Inc.：John Willey&Sons公司，美国纽约州纽约市·Zbl 0829.90134号
[2]	Bertsekas，D.P。；Yu，H.，动态规划中的分布式异步策略迭代，（2010年第48届Allerton通信、控制和计算年会，2010年第四十八届Allerten通信、控制与计算年会），Allerton（2010），IEEE，1368-1375
[3]	Satia，J.K。；Lave，J.Roy E.，转移概率不确定的马尔科夫决策过程，Oper。研究，21，3，728-740（1973）·Zbl 0286.60038号
[4]	吉万，R。；利奇，S。；Dean，T.，有界参数马尔可夫决策过程，Artif。智力。，122, 71-109 (2000) ·Zbl 0948.68171号
[5]	毛萨姆；Kolobov，A.，《马尔可夫决策过程规划：人工智能视角》（2012），Morgan&Claypool出版社·Zbl 1270.68014号
[6]	温盖特，D。；Seppi，K.D.，《加速MDP求解器的优先级方法》，J.Mach。学习。第6号决议（5月），851-881（2005年）·Zbl 1222.68331号
[7]	Bertsekas，D.P.，Monotone映射及其在动态规划中的应用，SIAM J.Control Optim。，15438-464（1977年）·Zbl 0357.90051号
[8]	Bertsekas，D.P。；Shreve，S.E.，《随机最优控制：离散时间案例》（1978），学术出版社：学术出版社，美国佛罗里达州奥兰多·Zbl 0471.93002号
[9]	Bertsekas，D.P.，分布式动态编程，IEEE Trans。自动。控制，27，3，610-616（1982）·Zbl 0493.49030号
[10]	Bertsekas，D.P.，《动态规划和最优控制》，第二卷（2007年），雅典娜科学出版社
[11]	德尔加多，K.V。；de Barros，L.N。；Cozman，F.G。；Sanner，S.，《使用数学规划求解概率不精确的因子马尔可夫决策过程》，《国际期刊近似推理》。，52, 7, 1000-1017 (2011) ·Zbl 1229.90255号
[12]	德尔加多，K.V。；桑纳，S。；De Barros，L.N.，具有不精确转移概率的因子化MDP的有效解，Artif。智力。，175, 9, 1498-1527 (2011) ·Zbl 1230.90115号
[13]	德尔加多，K.V。；桑纳，S。；de Barros，L.N。；Cozman，F.G.，《具有不精确转移概率的分解MDP的有效解决方案》，（第19届国际自动规划和调度会议，第19届自动规划和日程安排国际会议，ICAPS 2009（2009）），98-105
[14]	德库曼，G。；赫尔曼斯，F。；Quaeghebeur，E.，不精确马尔可夫链及其极限行为，Probab。工程信息科学。，23, 4, 597-635 (2009) ·Zbl 1183.60026号
[15]	Reis，W.A.S。；德尔加多，K.V。；de Barros，L.N.，有界参数马尔可夫决策过程的分布式和异步策略迭代，（XIII Encontro Nacional de Inteligência Artificial e Computational（2016））
[16]	Dai Mausam，P。；焊接，D.S。；Goldsmith，J.，拓扑值迭代算法，J.Artif。智力。研究，42，181-209（2011）·Zbl 1279.90183号
[17]	科尔曼，T.H。；雷瑟森，C.E。；Rivest，R.L。；Stein，C.，《算法导论》（2009），麻省理工学院出版社·Zbl 1187.68679号
[18]	Hansen，E.A。；Zilberstein，S.，LAO*：一种启发式搜索算法，通过循环找到解决方案，Artif。智力。，129, 1-2, 35-62 (2001) ·Zbl 0971.68036号
[19]	巴托，A.G。；Bradtke，S.J。；Singh，S.P.，《学习使用实时动态编程进行操作》，Artif。智力。，72, 1, 81-138 (1995)
[20]	谢弗，A.J。；医学博士贝利。；谢赫特，S.M。；Roberts，M.S.，使用马尔可夫决策过程建模医疗，593-612（2004），Springer US:Springer US Boston，MA
[21]	Trevizan，F.W。；Cozman，F.G。；de Barros，L.N.，《风险下的规划与骑士式的不确定性》，（IJCAI 2007，第20届国际人工智能联合会议论文集。IJCAI2007，第二十届国际人工智慧联合会议论文集中，印度海得拉巴（2007）），2023-2028
[22]	Tilson，V。；Tilson，D.A.，考虑风险敏感性的无症状疾病治疗选择的马尔可夫决策过程模型的使用，社会-经济评论。计划。科学。，47, 3, 172-182 (2013)
[23]	Tewari，A。；Bartlett，P.L.，具有平均报酬标准的有界参数Markov决策过程，（学习理论（2007），施普林格-柏林-海德堡：施普林格–柏林-海德堡-柏林，海德堡），263-277·Zbl 1203.90175号
[24]	崔，S。；Sun，J。；尹，M。；Lu，S.，《解决不确定马尔可夫决策问题：基于区间的方法》（Advances in Natural Computation，2006），948-957
[25]	O.自助餐。；Aberdeen，D.，《与LRTDP的稳健规划》，（国际人工智能联合会议记录（2005）），1214-1219
[26]	Moreira，D.A.M。；德尔加多，K.V。；Nunes de Barros，L.，ILAO的鲁棒概率规划，应用。智力。，1-11 (2016)
[27]	Ni，Y。；Liu，Z.-Q.，有界参数部分可观测马尔可夫决策过程，（第十八届国际自动规划与调度会议论文集（2008）），240-247
[28]	Buchholz，P。；I.多恩多夫。；Scheftelowitsch，D.，参数不确定性下的马尔可夫决策过程分析，（计算机性能工程（2017），Springer International Publishing：Springer国际出版公司Cham），3-18
[29]	Iyengar，G.N.，鲁棒动态规划，数学。操作。研究，30，2，257-280（2005）·Zbl 1082.90123
[30]	Nilim，A。；Ghaoui，L.E.，具有不确定转移矩阵的马尔可夫决策过程的鲁棒控制，Oper。第53号、第5号、第780-798号决议（2005年）·Zbl 1165.90674号
[31]	曼诺，S。；O.梅贝尔。；Xu，H.，Lightning不会两次打击：具有耦合不确定性的稳健MDP，（ICML（2012），ICML。抄送/Omnipress）
[32]	Delage，E。；Mannor，S.，参数不确定性马尔可夫决策过程的百分位优化，Oper。第58号、第1号、第203-213号决议（2010年）·Zbl 1226.90128号
[33]	Xu，H。；Mannor，S.，分布稳健马尔可夫决策过程，数学。操作。研究，37，2，288-300（2012）·Zbl 1243.90236号
[34]	Campos，文学硕士。；迪穆罗，G.P。；达罗查·科斯塔，A.C。；Kreinovich，V.，计算区间值有限平稳马尔可夫链的两步预测，计算，7，1-2004（2003）
[35]	De Campos，L.M。；Huete，J.F。；道德，S.，《概率区间：不确定性推理的工具》，《国际不确定性杂志》。模糊知道-基于系统。，2, 02, 167-196 (1994) ·Zbl 1232.68153号
[36]	Kozine，I.O。；Utkin，L.V.，区间值有限马尔可夫链，Reliab。计算。，8, 2, 97-113 (2002) ·兹比尔1001.65007
[37]	Škulj，D.，具有区间概率的有限离散时间马尔可夫链，（集成不确定性建模的软方法（2006），Springer），299-306·Zbl 1106.60066号
[38]	Hartfiel，D.J.，Markov Set-chains，数学课堂讲稿，第1695卷（1998年），施普林格出版社·Zbl 0904.60003号
[39]	P.Walley，概率不精确的统计推理。；P.Walley，概率不精确的统计推理·兹比尔0732.62004
[40]	德库曼，G。；De Bock，J。；Lopatatzidis，S.，《离散时间中的不精确随机过程：全局模型、不精确马尔可夫链和遍历定理》，《国际近似推理》。，76, 18-46 (2016) ·Zbl 1388.60129号
[41]	Fortunato，S.，《图形中的社区检测》，Phys。众议员，486，3，75-174（2010）

此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配，并且可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
拉	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
数据传输时间	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	括号

示例

领域

操作员

无限时域有界Markov决策过程的鲁棒拓扑策略迭代。（英语） Zbl 1452.68225号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

无限时域有界Markov决策过程的鲁棒拓扑策略迭代。 （英语） Zbl 1452.68225号

MSC公司：

关键词：

参考文献：

无限时域有界Markov决策过程的鲁棒拓扑策略迭代。（英语） Zbl 1452.68225号