×

规划连续状态POMDP中的多个测量通道。 (英语) Zbl 1271.90105号

摘要:连续状态部分可观测马尔可夫决策过程(POMDP)是许多具有隐藏状态的随机规划问题的直观表示选择。我们考虑具有有限作用和观测空间的连续状态POMDP,其中POMDP由高斯加权和或高斯混合模型(GMM)参数化。特别地,我们研究了在这种框架下测量通道的优化选择问题。导出了基于点的值迭代算法的一个新的误差界,并实现了一种构造试图降低误差界的信度状态子集的方法。在实验中,证明了应用连续状态POMDP优化选择测量通道,并比较了三种GMM简化方法的性能。通过考虑获得的控制策略的各种度量,研究了基于点的值迭代算法的收敛性。

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程
68层37 人工智能背景下的不确定性推理
90立方厘米 动态编程
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bellman,R.,Dreyfus,S.:应用动态编程。普林斯顿大学出版社,普林斯顿(1962)·Zbl 0106.34901号
[2] Bertsekas,D.,Tsitsiklis,J.:神经动力学编程。雅典娜科学,贝尔蒙特(1996)·Zbl 0924.68163号
[3] Bishop,C.:模式识别和机器学习。施普林格,纽约(2006)·Zbl 1107.68072号
[4] Brooks,A.、Makarenko,A.、Williams,S.、Durrant-Whyte,H.:连续状态空间规划的参数POMDP。机器人。自动。系统。54(11),887-897(2006)·doi:10.1016/j.robot.2006.05.007
[5] Brunskill,E.,Kaelbling,L.P.,Lozano-Pérez,T.,Roy,N.:部分可观测切换模式连续域中的规划。安。数学。Artif公司。英特尔。58(3-4), 185-216 (2010) ·Zbl 1207.90095号 ·doi:10.1007/s10472-010-9202-1
[6] Cassandra,A.:部分可观测Markov决策过程的精确和近似算法。罗得岛普罗维登斯布朗大学博士论文(1998年)·兹比尔1080.68674
[7] Chong,E.K.P.,Kreucher,C.M.,Hero,A.O.:自适应传感的部分可观测马尔可夫决策过程近似。离散事件动态。S.19(3),377-422(2009)·Zbl 1192.93111号 ·doi:10.1007/s10626-009-0071-x
[8] Dallaire,P.,Besse,C.,Ross,S.,Chaib-Draa,B.:具有高斯过程的连续POMDP中的贝叶斯强化学习。摘自:IEEE/RSJ智能机器人和系统国际会议(IROS)会议记录,第2604-2609页(2009年)·Zbl 0275.93059号
[9] Drake,A.:通过噪声信道观察马尔可夫过程。马萨诸塞州剑桥市麻省理工学院博士论文(1962年)·Zbl 1182.68262号
[10] Goldberger,J.,Roweis,S.:混合模型的层次聚类。In:《神经信息处理系统进展》,第17卷,第505-512页(2005)
[11] Hauskrecht,M.:部分可观测马尔可夫决策过程的值函数近似。J.阿蒂夫。智力。决议13,33-94(2000)·Zbl 0946.68131号
[12] Kaelbling,L.,Littman,M.,Cassandra,A.:在部分可观测随机域中规划和行动。Artif公司。智力。101(1-2), 99-134 (1998) ·兹比尔0908.68165 ·doi:10.1016/S0004-3702(98)00023-X
[13] Krishnamurthy,V.,Djonin,D.V.:动态传感器调度的结构化阈值策略——部分可观察的马尔可夫决策过程方法。IEEE传输。信号处理。55(10), 4938-4957 (2007) ·Zbl 1390.90335号 ·doi:10.1009/TSP.2007.897908
[14] Kurniawati,H.,Hsu,D.,Lee,W.:SARSOP:通过近似最优达信度空间实现基于点的POMDP规划。摘自:《机器人学报:科学与系统会议》(RSS)(2008年)
[15] Li,Y.,Krakow,L.,Chong,E.,Groom,K.:传感器调度跟踪多个目标的近似随机动态规划。数字。信号处理。19(6), 978-989 (2009) ·doi:10.1016/j.dsp.2007.05.004
[16] Lovejoy,W.:部分可观测Markov决策过程的算法方法综述。安·Oper。第28(1)号决议,47-65(1991)·Zbl 0717.90086号 ·doi:10.1007/BF02055574
[17] Lozano Perez,T.:空间规划:一种配置空间方法。IEEE传输。计算。C-32(2),108-120(1983)·Zbl 0513.68081号 ·doi:10.1109/TC.1983.1676196
[18] Martinez-Cantin,R.,de Freitas,N.,Brochu,E.,Castellanos,J.,Doucet,A.:一种贝叶斯探索开发方法,用于视觉引导移动机器人的最佳在线感知和规划。自动。机器人27(2),93-103(2009)·doi:10.1007/s10514-009-9130-2
[19] McLachlan,G.,Peel,D.:有限混合模型。威利,纽约(2000年)·Zbl 0963.62061号 ·doi:10.1002/0471721182
[20] Meier,L.,Peschon,J.,Dressler,R.:测量子系统的最优控制。IEEE传输。自动化。控制12(5),528-536(1967)·doi:10.1109/TAC.1967.1098668
[21] Monahan,G.:部分可观测马尔可夫决策过程综述:理论、模型和算法。管理。科学。28(1), 1-16 (1982) ·Zbl 0486.90084号 ·doi:10.1287/mnsc.28.1.1
[22] Pineau,J.、Gordon,G.、Thrun,S.:大型POMDP的基于任意时间点的近似。J.阿蒂夫。智力。第27(1)号决议,335-380(2006)·Zbl 1182.68262号
[23] Porta,J.、Vlassis,N.、Spaan,M.、Poupart,P.:连续POMDP的基于点的值迭代。J.马赫。学习。第7号决议,2329-2367(2006)·Zbl 1222.90078号
[24] Poupart,P.:利用结构有效地解决大规模部分可观测的马尔可夫决策过程。加拿大多伦多多伦多大学博士论文(2005年)
[25] 鲍威尔,W.:《近似动态规划:解决维数问题》。威利,纽约(2007)·Zbl 1156.90021号 ·数字对象标识代码:10.1002/9780470182963
[26] Åström,K.:具有不完全状态信息的马尔可夫过程的最优控制。数学杂志。分析。申请。26(2), 403-406 (1969) ·Zbl 0172.13301号 ·doi:10.1016/0022-247X(69)90163-2
[27] Ross,S.、Pineau,J.、Paquet,S.和Chaib-Draa,B.:POMDP的在线规划算法。J.阿蒂夫。智力。第32(1)号决议,663-704(2008)·Zbl 1182.68265号
[28] Roy,N.、Gordon,G.、Thrun,S.:通过信念压缩找到近似POMDP解。J.阿蒂夫。智力。第23(1)号决议,1-40(2005)·Zbl 1080.68690号 ·doi:10.1016/j.artint.2005.06.002文件
[29] Russell,S.,Norvig,P.:《人工智能:现代方法》,第3版。Prentice Hall,Upper Saddle River(2010年)·Zbl 0835.68093号
[30] Smallwood,R.,Sondik,E.:有限时间内部分可观测马尔可夫过程的最优控制。操作。第21(5)号决议,1071-1088(1973)·Zbl 0275.93059号 ·doi:10.1287/opre.21.5.1071
[31] Smith,T.,Simmons,R.:POMDP的启发式搜索值迭代。摘自:《第20届人工智能不确定性会议论文集》,第520-527页(2004)
[32] Spaan,M.,Vlassis,N.:Perseus:POMDP的随机基于点的值迭代。J.阿蒂夫。智力。第24(1)号决议,195-220(2005)·兹比尔1080.68674
[33] Thrun,S.:蒙特卡洛POMDP。In:《神经信息处理系统进展》,第12卷,第1064-1070页(2000)
[34] Thrun,S.,Burgard,W.,Fox,D.:概率机器人。麻省理工学院出版社,剑桥(2006)
[35] Zhang,K.,Kwok,J.T.:通过函数逼近简化混合模型。IEEE传输。神经网络。21(4), 644-658 (2010) ·doi:10.1109/TNN.2010/2040835
[36] Zhang,N.,Zhang,W.:加速部分可观测马尔可夫决策过程中值迭代的收敛。J.阿蒂夫。智力。第14(1)号决议,29-51(2001)
[37] Zhou,E.,Fu,M.C.,Marcus,S.I.:通过密度投影求解连续状态POMDP。IEEE传输。自动化。控制55(5),1101-1116(2010)·Zbl 1368.90173号 ·doi:10.1109/TAC.2010.2042005
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。