文件Zbl 1271.90105-zbMATH Open

规划连续状态POMDP中的多个测量通道。（英语） Zbl 1271.90105号

安。数学。Artif公司。智力。 67，编号3-4，283-317（2013）.

摘要：连续状态部分可观测马尔可夫决策过程（POMDP）是许多具有隐藏状态的随机规划问题的直观表示选择。我们考虑具有有限作用和观测空间的连续状态POMDP，其中POMDP由高斯加权和或高斯混合模型（GMM）参数化。特别地，我们研究了在这种框架下测量通道的优化选择问题。导出了基于点的值迭代算法的一个新的误差界，并实现了一种构造试图降低误差界的信度状态子集的方法。在实验中，证明了应用连续状态POMDP优化选择测量通道，并比较了三种GMM简化方法的性能。通过考虑获得的控制策略的各种度量，研究了基于点的值迭代算法的收敛性。

MSC公司：

90立方厘米	马尔可夫和半马尔可夫决策过程
68层37	人工智能背景下的不确定性推理
90立方厘米	动态编程

关键词：

部分可观测马尔可夫决策过程;最佳测量;不确定性下的规划;动态规划;连续状态

软件：

POMDPS公司;PRMLT公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Bellman，R.，Dreyfus，S.：应用动态编程。普林斯顿大学出版社，普林斯顿（1962）·Zbl 0106.34901号
[2]	Bertsekas，D.，Tsitsiklis，J.：神经动力学编程。雅典娜科学，贝尔蒙特（1996）·Zbl 0924.68163号
[3]	Bishop，C.：模式识别和机器学习。施普林格，纽约（2006）·Zbl 1107.68072号
[4]	Brooks，A.、Makarenko，A.、Williams，S.、Durrant-Whyte，H.：连续状态空间规划的参数POMDP。机器人。自动。系统。54（11），887-897（2006）·doi:10.1016/j.robot.2006.05.007
[5]	Brunskill，E.，Kaelbling，L.P.，Lozano-Pérez，T.，Roy，N.：部分可观测切换模式连续域中的规划。安。数学。Artif公司。英特尔。58(3-4), 185-216 (2010) ·Zbl 1207.90095号 ·doi:10.1007/s10472-010-9202-1
[6]	Cassandra，A.：部分可观测Markov决策过程的精确和近似算法。罗得岛普罗维登斯布朗大学博士论文（1998年）·兹比尔1080.68674
[7]	Chong，E.K.P.，Kreucher，C.M.，Hero，A.O.：自适应传感的部分可观测马尔可夫决策过程近似。离散事件动态。S.19（3），377-422（2009）·Zbl 1192.93111号 ·doi:10.1007/s10626-009-0071-x
[8]	Dallaire，P.，Besse，C.，Ross，S.，Chaib-Draa，B.：具有高斯过程的连续POMDP中的贝叶斯强化学习。摘自：IEEE/RSJ智能机器人和系统国际会议（IROS）会议记录，第2604-2609页（2009年）·Zbl 0275.93059号
[9]	Drake，A.：通过噪声信道观察马尔可夫过程。马萨诸塞州剑桥市麻省理工学院博士论文（1962年）·Zbl 1182.68262号
[10]	Goldberger，J.，Roweis，S.：混合模型的层次聚类。In:《神经信息处理系统进展》，第17卷，第505-512页（2005）
[11]	Hauskrecht，M.：部分可观测马尔可夫决策过程的值函数近似。J.阿蒂夫。智力。决议13，33-94（2000）·Zbl 0946.68131号
[12]	Kaelbling，L.，Littman，M.，Cassandra，A.：在部分可观测随机域中规划和行动。Artif公司。智力。101(1-2), 99-134 (1998) ·兹比尔0908.68165 ·doi:10.1016/S0004-3702（98）00023-X
[13]	Krishnamurthy，V.，Djonin，D.V.：动态传感器调度的结构化阈值策略——部分可观察的马尔可夫决策过程方法。IEEE传输。信号处理。55(10), 4938-4957 (2007) ·Zbl 1390.90335号 ·doi:10.1009/TSP.2007.897908
[14]	Kurniawati，H.，Hsu，D.，Lee，W.：SARSOP：通过近似最优达信度空间实现基于点的POMDP规划。摘自：《机器人学报：科学与系统会议》（RSS）（2008年）
[15]	Li，Y.，Krakow，L.，Chong，E.，Groom，K.：传感器调度跟踪多个目标的近似随机动态规划。数字。信号处理。19(6), 978-989 (2009) ·doi:10.1016/j.dsp.2007.05.004
[16]	Lovejoy，W.：部分可观测Markov决策过程的算法方法综述。安·Oper。第28（1）号决议，47-65（1991）·Zbl 0717.90086号 ·doi:10.1007/BF02055574
[17]	Lozano Perez，T.：空间规划：一种配置空间方法。IEEE传输。计算。C-32（2），108-120（1983）·Zbl 0513.68081号 ·doi:10.1109/TC.1983.1676196
[18]	Martinez-Cantin，R.，de Freitas，N.，Brochu，E.，Castellanos，J.，Doucet，A.：一种贝叶斯探索开发方法，用于视觉引导移动机器人的最佳在线感知和规划。自动。机器人27（2），93-103（2009）·doi:10.1007/s10514-009-9130-2
[19]	McLachlan，G.，Peel，D.：有限混合模型。威利，纽约（2000年）·Zbl 0963.62061号 ·doi:10.1002/0471721182
[20]	Meier，L.，Peschon，J.，Dressler，R.：测量子系统的最优控制。IEEE传输。自动化。控制12（5），528-536（1967）·doi:10.1109/TAC.1967.1098668
[21]	Monahan，G.：部分可观测马尔可夫决策过程综述：理论、模型和算法。管理。科学。28(1), 1-16 (1982) ·Zbl 0486.90084号 ·doi:10.1287/mnsc.28.1.1
[22]	Pineau，J.、Gordon，G.、Thrun，S.：大型POMDP的基于任意时间点的近似。J.阿蒂夫。智力。第27（1）号决议，335-380（2006）·Zbl 1182.68262号
[23]	Porta，J.、Vlassis，N.、Spaan，M.、Poupart，P.：连续POMDP的基于点的值迭代。J.马赫。学习。第7号决议，2329-2367（2006）·Zbl 1222.90078号
[24]	Poupart，P.：利用结构有效地解决大规模部分可观测的马尔可夫决策过程。加拿大多伦多多伦多大学博士论文（2005年）
[25]	鲍威尔，W.：《近似动态规划：解决维数问题》。威利，纽约（2007）·Zbl 1156.90021号 ·数字对象标识代码：10.1002/9780470182963
[26]	Åström，K.：具有不完全状态信息的马尔可夫过程的最优控制。数学杂志。分析。申请。26(2), 403-406 (1969) ·Zbl 0172.13301号 ·doi:10.1016/0022-247X（69）90163-2
[27]	Ross，S.、Pineau，J.、Paquet，S.和Chaib-Draa，B.：POMDP的在线规划算法。J.阿蒂夫。智力。第32（1）号决议，663-704（2008）·Zbl 1182.68265号
[28]	Roy，N.、Gordon，G.、Thrun，S.：通过信念压缩找到近似POMDP解。J.阿蒂夫。智力。第23（1）号决议，1-40（2005）·Zbl 1080.68690号 ·doi:10.1016/j.artint.2005.06.002文件
[29]	Russell，S.，Norvig，P.：《人工智能：现代方法》，第3版。Prentice Hall，Upper Saddle River（2010年）·Zbl 0835.68093号
[30]	Smallwood，R.，Sondik，E.：有限时间内部分可观测马尔可夫过程的最优控制。操作。第21（5）号决议，1071-1088（1973）·Zbl 0275.93059号 ·doi:10.1287/opre.21.5.1071
[31]	Smith，T.，Simmons，R.：POMDP的启发式搜索值迭代。摘自：《第20届人工智能不确定性会议论文集》，第520-527页（2004）
[32]	Spaan，M.，Vlassis，N.：Perseus：POMDP的随机基于点的值迭代。J.阿蒂夫。智力。第24（1）号决议，195-220（2005）·兹比尔1080.68674
[33]	Thrun，S.：蒙特卡洛POMDP。In:《神经信息处理系统进展》，第12卷，第1064-1070页（2000）
[34]	Thrun，S.，Burgard，W.，Fox，D.：概率机器人。麻省理工学院出版社，剑桥（2006）
[35]	Zhang，K.，Kwok，J.T.：通过函数逼近简化混合模型。IEEE传输。神经网络。21(4), 644-658 (2010) ·doi:10.1109/TNN.2010/2040835
[36]	Zhang，N.，Zhang，W.：加速部分可观测马尔可夫决策过程中值迭代的收敛。J.阿蒂夫。智力。第14（1）号决议，29-51（2001）
[37]	Zhou，E.，Fu，M.C.，Marcus，S.I.：通过密度投影求解连续状态POMDP。IEEE传输。自动化。控制55（5），1101-1116（2010）·Zbl 1368.90173号 ·doi:10.1109/TAC.2010.2042005

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

规划连续状态POMDP中的多个测量通道。（英语） Zbl 1271.90105号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

规划连续状态POMDP中的多个测量通道。 （英语） Zbl 1271.90105号

MSC公司：

关键词：

软件：

参考文献：

规划连续状态POMDP中的多个测量通道。（英语） Zbl 1271.90105号