×

在部分可观测的随机域中进行规划和行动。 (英语) Zbl 0908.68165号

小结:在本文中,我们引入运筹学的技术来研究在部分可观测随机域中选择最优行动的问题。我们首先介绍马尔可夫决策过程(mdps)和部分可观测mdps(pomdps)的理论。然后,我们概述了一种离线求解pomdps的新算法,并展示了在某些情况下,如何从pomdp的解中提取有限内存控制器。最后,我们讨论了我们的方法如何与以前的工作相联系,找到pomdps精确解的复杂性,以及找到近似解的一些可能性。

MSC公司:

68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aström,K.J.,状态估计不完全的马尔可夫决策过程的最优控制,J.Math。分析。申请。,10, 174-205 (1995) ·Zbl 0137.35803号
[2] 巴克斯,F。;Boutiler,C。;Grove,A.,《奖励行为》,(第十三届全国人工智能会议论文集(AAAI-96)。《第十三届全国人工智能会议论文集》(AAAI-96),俄勒冈州波特兰(1996),AAAI出版社/MIT出版社:AAAI Press/MIT Press Menlo Park,CA),1160-1167
[3] Bertsekas,D.P.,(《动态规划和最优控制》,第1卷和第2卷(1995年),雅典娜科学:雅典娜科技贝尔蒙特,马萨诸塞州)·Zbl 0904.90170号
[4] Blum,A.L。;Furst,M.L.,通过规划图分析快速规划,人工智能,90,1-2,279-298(1997)·Zbl 1017.68533号
[5] Blythe,J.,《外部事件规划》,(第十届人工智能不确定性会议论文集(UAI-94)。第十届人工智能不确定性会议论文集(UAI-94),西雅图,华盛顿州(1994),94-101
[6] Boutiler,C。;Poole,D.,《使用紧凑表示法计算部分可观测决策过程的最优策略》,(第十三届全国人工智能会议论文集(AAAI-96)。第十三届全国人工智能大会论文集(AAAI-96),俄勒冈州波特兰(1996),AAAI出版社/麻省理工学院出版社:AAAI出版社/麻省理工学院出版社,加利福尼亚州门洛帕克),1168-1175
[7] 卡桑德拉。;利特曼,M.L。;Zhang,N.L.,增量修剪:部分可观测马尔可夫决策过程的一种简单、快速、精确方法,(第十三届人工智能不确定性年会论文集(UAI-97)(1997),Morgan Kaufmann:Morgan Koufmann San Francisco,CA),54-61
[8] 卡桑德拉,A.R。;Kaelbling,L.P。;Littman,M.L.,在部分可观测随机域中的最优行为,(第十二届全国人工智能会议论文集(AAAI-94)。第十二届全国人工智能会议论文集(AAAI-94),西雅图,华盛顿州(1994),1023-1028
[9] Cassandra,A.R.,部分可观测Markov决策问题的精确和近似算法,(博士论文(1998),布朗大学计算机科学系:罗得岛州普罗维登斯布朗大学计算机系)
[10] Cheng,H.-T.,部分可观测马尔可夫决策过程的算法,(博士论文(1988),不列颠哥伦比亚大学:不列颠斯哥伦比亚大学温哥华分校)
[11] Chrisman,L.,《感知混叠强化学习:感知区分方法》(第十届全国人工智能会议论文集,AAAI-92)。《第十届全国人工智能会议论文集》(AAAI-92),加利福尼亚州圣何塞(1992),AAAI出版社:加利福尼亚州圣荷西AAAI新闻社,183-188
[12] Condon,A.,《随机博弈的复杂性》,Inform。和计算。,96203-224(1992年)·Zbl 0756.90103号
[13] 院长,T。;Kaelbling,L.P。;Kirman,J。;Nicholson,A.,《随机域中时间约束下的规划》,人工智能,76,1-2,35-74(1995)
[14] 德雷珀,D。;汉克斯,S。;Weld,D.,《信息收集和应急执行的概率规划》(技术报告93-12-04(1993),华盛顿大学:华盛顿大学西雅图分校)
[15] Drummond,M。;Bresina,J.,《任何时候的综合预测:最大化目标满足的概率》,(第八届全国人工智能会议论文集(AAAI-90)。《第八届全国人工智能会议论文集》(AAAI-90),马萨诸塞州波士顿(1990年),摩根·考夫曼:摩根·考夫曼,加利福尼亚州旧金山),138-144
[16] Eagle,J.N.,搜索路径受限时对移动目标的最佳搜索,Oper。研究,32,5,1107-1115(1984)·兹伯利0562.90035
[17] Fernández-Gaucherand,E。;阿拉珀塔提斯,A。;Marcus,S.I.,《关于部分可观测Markov过程的平均成本最优方程和最优策略结构》,Ann.Oper。研究,29,471-512(1991)
[18] Goldman,R.P。;Boddy,M.S.,条件线性规划(Hammond,K.,第二届人工智能规划系统国际会议(1994),AAAI出版社/MIT出版社:AAAI Press/MIT Press Menlo Park,CA),80-85
[19] Goldman,R.P。;Boddy,M.S.,Epsilon-safe规划(第十届人工智能不确定性会议论文集(UAI-94)。第十届人工智能不确定性会议论文集(UAI-94),西雅图,华盛顿州(1994),253-261
[20] Goldman,R.P。;Boddy,M.S.,《在简单规划师中表示不确定性》,(第四届知识表示和推理原则国际会议论文集(KR-94)。第四届知识表示和推理原则国际会议论文集(KR-94),德国波恩(1994),238-245
[21] 哈德维,P。;Hanks,S.,《目标导向决策理论规划师的实用模型》(技术报告93-06-04(1993),华盛顿大学计算机科学与工程系)
[22] Hansen,E.A.,《计划执行期间的成本效益感知》,(第十二届全国人工智能会议论文集(AAAI-94)。《第十二届全国人工智能会议论文集》(AAAI-94),西雅图,华盛顿州(1994),AAAI出版社/麻省理工学院出版社:AAAI Press/MIT Press Menlo Park,CA),1029-1035
[23] Hansen,E.A.,部分可观测MDP的改进策略迭代算法,神经信息处理系统进展,10(1998)
[24] Howard,R.A.,《动态规划和马尔可夫过程》(1960年),麻省理工学院出版社:麻省理学院出版社剑桥·Zbl 0091.16001号
[25] Howard,R.A.,信息价值理论,IEEE Trans。系统科学与控制论SSC-2,1,22-26(1966)
[26] Kaiman,R.E.,《线性滤波和预测问题的新方法》,Trans,美国机械工程师学会,《基础工程杂志》,82,35-45(1960)
[27] Koenig,S.,《使用马尔科夫决策理论的最优概率和决策理论规划》,技术报告UCB/CSD 92/685(1992),加州伯克利
[28] 柯尼格,S。;Simmons,R.G.,《风险敏感规划与概率决策图》,(第四届知识表示与推理原则国际会议论文集(KR-94)。第四届知识表示和推理原则国际会议论文集(KR-94),德国波恩(1994),363-373
[29] Koza,J.R.,《遗传程序设计:论计算机的自然选择编程》(1992),麻省理工学院出版社:麻省理工学院出版社,马萨诸塞州剑桥·Zbl 0850.68161号
[30] 北卡罗来纳州库什默里克。;汉克斯,S。;Weld,D.S.,概率规划算法,人工智能,76,1-2,239-286(1995)
[31] 林,S.-H。;Dean,T.,《为具有条件分支和循环的高级计划生成最优政策》(第三届欧洲规划研讨会论文集(1995)),205-218
[32] Littman,M.L.,《无记忆政策:理论局限性和实际结果》(Cliff,D.;Husbands,P.;Meyer,J.-A.;Wilson,S.W.,《从动物到动物3:模拟适应行为的第三届国际会议论文集》(From Animals to Animals 3:Proceedings Third International Conferences on Simulation of Adaptive Behavior,1994),麻省理工学院出版社:
[33] 利特曼,M.L。;卡桑德拉,A.R。;Kaelbling,L.P.,《部分可观察环境的学习策略:放大》(Prieditis,A.;Russell,S.,《第十二届机器学习国际会议论文集》(1995),Morgan Kaufmann:Morgan Koufmann San Francisco,CA)。(Huhns,M.H.;Singh,M.P.,《代理人阅读》(1998),Morgan Kaufmann:Morgan Koufmann San Francisco,CA),第362-370页,重印于:
[34] 利特曼,M.L。;卡桑德拉,A.R。;Kaelbling,L.P.,部分可观测马尔可夫决策过程中的高效动态规划更新,(技术报告CS-95-19(1996),布朗大学:普罗维登斯布朗大学,RI)
[35] 技术报告CS-96-09;以及技术报告CS-96-09
[36] Lovejoy,W.S.,《部分可观测马尔可夫决策过程算法方法综述》,《Ann.Oper》。研究,28,1,47-65(1991)·Zbl 0717.90086号
[37] Majercik,S.M。;Littman,M.L.,MAXPLAN:概率规划的新方法,(技术报告CS-1998-01(1998),杜克大学计算机科学系:北卡罗来纳州杜克大学达勒姆计算机科学系),提交审查
[38] Mansell,T.M.,《一种规划给定不确定和不完整信息的方法》,(《人工智能不确定性第九届会议论文集》(UAI-93)(1993),Morgan Kaufmann:Morgan Koufmann San Mateo,CA),350-358
[39] McAllester博士。;Rosenblitt,D.,《系统非线性规划》(Proceedings 9th National Conference on Artificial Intelligence,AAAI-91)。第九届全国人工智能会议论文集(AAAI-91),加利福尼亚州阿纳海姆(1991),634-639
[40] McCallum,R.A.,《利用区分记忆克服不完全感知》,(第十届国际机器学习会议论文集(1993),摩根考夫曼:摩根考夫曼·阿默斯特,MA),190-196
[41] McCallum,R.A.,《基于实例的利用差异进行隐藏状态强化学习》,(第十二届机器学习国际会议论文集(1995),Morgan Kaufmann:Morgan Koufmann San Francisco,CA),387-395
[42] Monahan,G.E.,《部分可观测马尔可夫决策过程的调查:理论、模型和算法》,《管理科学》,28,1,1-16(1982)·兹伯利04869.0084
[43] Moore,R.C.,《知识与行动的形式理论》,(Hobbs,J.R.;Moore
[44] Morgenstern,L.,《行动和计划的知识前提条件》(第十届国际人工智能联合会议论文集(IJCAI-87)。第十届国际人工智能联合会议论文集(IJCAI-87),意大利米兰(1987),867-874
[45] 彭伯蒂,J.S。;Weld,D.,UCPOP:一个健全、完整的ADL部分订单规划师,(第三届知识表示和推理原则国际会议论文集(KR-92)。《第三届知识表示和推理原则国际会议论文集》(KR-92),马萨诸塞州剑桥(1992),103-114
[46] Peot,M.A。;Smith,D.E.,条件非线性规划,(第一届人工智能规划系统国际会议论文集(1992)),189-197
[47] Platzman,L.K.,《部分观测到的无限小时马尔可夫决策问题的可行计算方法》(技术报告(1981),佐治亚理工学院:佐治亚州亚特兰大佐治亚工学院)
[48] 普赖尔,L。;Collins,G.,《应急计划:基于决策的方法》,J.Artif。智力。研究,4287-339(1996)
[49] Puterman,M.L.,马尔可夫决策过程——离散随机动态规划(1994),Wiley:Wiley New York,NY·兹伯利0829.90134
[50] Rabiner,L.R.,语音识别中隐藏马尔可夫模型和选定应用教程,(IEEE,77(1989)),257-286,(2)
[51] Sawaki,K。;Ichikawa,A.,无限时域上部分可观测马氏决策过程的最优控制,J.Oper。日本皇家学会,21,1,1-14(1978)·Zbl 0386.49008号
[52] Schert,R.B。;Levesque,H.J.,《框架问题和知识创造行动》(第11届全国人工智能会议论文集,AAAI-93)。《第11届全国人工智能会议论文集》(AAAI-93),华盛顿特区(1993),689-697
[53] Schoppers,M.J.,《不可预测环境中反应机器人的通用计划》(第十届国际人工智能联合会议论文集,IJCAI-87)。第十届国际人工智能联合会议记录(IJCAI-87),意大利米兰(1987),1039-1046
[54] Schrijver,A.,《线性和整数规划理论》(1986),Wiley-Interscience:Wiley-Interscience纽约·兹比尔0665.90063
[55] 辛格,S.P。;Jaakkola,T。;Jordan,M.I.,非马尔可夫决策问题的无模型强化学习,(机器学习第十一届国际会议论文集(1994),Morgan Kaufmann:Morgan Koufmann San Francisco,CA),284-292
[56] 斯莫尔伍德,R.D。;Sondik,E.J.,有限时间内部分可观测马尔可夫过程的最优控制,Oper。第21号决议,1071-1088(1973)·Zbl 0275.93059号
[57] 史密斯,D.E。;Williamson,M.,《用循环表示和评估计划》(1995年斯坦福大学春季扩展行动理论研讨会工作笔记(1995))
[58] Sondik,E.,部分可观测马尔可夫过程的最优控制,(斯坦福大学博士论文(1971))·Zbl 0379.60067号
[59] Sondik,E.J.,《无限期部分可观测马尔可夫过程的最优控制:折现成本》,Oper。Res.,26228-304(1978年)·Zbl 0379.60067号
[60] Stolcke,A。;Omohundro,S.,通过贝叶斯模型合并进行隐马尔可夫模型归纳,(Hanson,S.J.;Cowan,J.D.;Giles,C.L.,《神经信息处理系统进展》,5(1993),Morgan Kaufmann:Morgan Koufmann San Mateo,CA),11-18
[61] Tash,J。;Russell,S.,《随机规划师的控制策略》(Proceedings 12th National Conference on Artificial Intelligence,AAAI-94)。《第十二届全国人工智能会议论文集》(AAAI-94),西雅图,华盛顿州(1994),1079-1085
[62] Tseng,P.,求解时间与对数成正比的(H)-时域平稳马尔可夫决策问题,Oper。Res.Lett.公司。,9, 5, 287-297 (1990) ·Zbl 0717.90090号
[63] 白色,C.C。;Harrington,D.,Jensen不等式在自适应次优设计中的应用,J.Optim。理论应用。,32, 1, 89-99 (1980) ·兹伯利0416.90075
[64] 怀特,C.C.,《部分观察到的马尔可夫决策过程:一项调查》,《Ann.Oper》。研究,32(1991)·Zbl 0727.90089号
[65] 白色,C.C。;Scherer,W.T.,部分观测马尔可夫决策过程的求解程序,Oper。第37、5、791-797号决议(1989年)·Zbl 0684.90099号
[66] 威廉姆斯,R.J。;Baird,L.C.,基于不完美价值函数的贪婪政策的严格性能界限,(技术报告NU-CCS-93-14(1993),东北大学,计算机科学学院:东北大学,马萨诸塞州波士顿计算机科学学院)
[67] Zhang,N.L。;Liu,W.,《随机域中的规划:问题特征和近似》,(香港科技大学计算机科学系技术报告HKUST-CS96-31(1996))
[68] 赵,J。;Schmidhuber,J.H.,终身多智能体强化学习的增量自我完善,(Maes,P.;Mataric,M.J.;Meyer,J.-A;Pollack,J.;Wilson,S.W.,《从动物到动物:适应性行为模拟第四届国际会议论文集》(1996),麻省理工学院出版社:麻省理工学院出版社,马萨诸塞州剑桥),516-525
[69] 美国兹威克。;Paterson,M.,图上平均支付游戏的复杂性,Theoret。计算。科学。,158, 1-2, 343-359 (1996) ·Zbl 0871.68138号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。