×

一类确定性pomdp环境中层次模型的自底向上学习。 (英语) Zbl 1322.90109号

摘要:部分可观测马尔可夫决策过程(POMDP)理论是开发各种智能代理的有用工具,学习层次POMDP模型是在代理环境未知且较大时构建此类代理的关键方法之一。为了学习层次模型,自底向上(bottom-up)学习方法是一种从最低层到最高层逐层进行学习的方法,已经广泛应用于一些研究领域,如隐马尔可夫模型和神经网络。然而,对于学习POMDP模型的自下而上方法却很少有人关注。本文针对层次POMDP模型提出了一种新的自底向上学习算法,并证明了使用该算法,至少可以在一类确定性POMDP环境中学习到一个完美的模型(即能够完美预测未来观测值的模型)。

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程
93甲13 层次系统
68问题32 计算学习理论

软件:

达奇
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 奥斯特罗姆,K.J.(1965)。不完全状态估计下马尔可夫决策过程的最优控制,数学分析与应用杂志10(1):174-205·Zbl 0137.35803号
[2] Barto,A.G.和Mahadevan,S.(2003年)。分层强化学习的最新进展,离散事件动态系统13(4):341-379·Zbl 1034.93003号
[3] Bonet,B.(2009年)。《重新审视确定性POMDP》,《第25届人工智能不确定性会议论文集》,加拿大蒙特利尔,第59-66页。;
[4] Bui,H.H.、Phung,D.Q.和Venkatesh,S.(2004)。具有一般状态层次的层次隐马尔可夫模型,《第19届全国人工智能会议论文集》,美国加利福尼亚州圣何塞,第324-329页。;
[5] Chang,H.S.、Fard,P.J.、Marcus,S.I.和Shayman,M.(2003)。多时间尺度马尔可夫决策过程,IEEE自动控制汇刊48(6):976-987·Zbl 1364.90345号
[6] Charlin,L.、Poupart,P.和Shioda,R.(2007)。部分可观测环境中规划的自动层次发现,见B.Schölkopf、J.C.Platt和T.Hofmann(编辑),《神经信息处理系统进展》19(NIPS 2006),麻省理工学院出版社,马萨诸塞州剑桥,第225-232页。;
[7] Chatzis,S.P.和Kosmopoulos,D.(2014)。处理动态变化环境的部分可观察的马尔可夫决策过程,见L.Iliadis、I.Maglogiannis和H.Papadopoulos(编辑),《人工智能应用与创新》,柏林斯普林格出版社,第111-120页。;
[8] Dean,T.、Angluin,D.、Basye,K.、Engelson,S.、Kaelbling,L.、Kokkevis,E.和Maron,O.(1995)。用随机输出函数推断有限自动机及其在地图学习中的应用,机器学习18(1):81-108。;
[9] Dietterich,T.G.(2000年)。基于MAXQ值函数分解的分层强化学习,《人工智能研究杂志》13:227-303·Zbl 0963.68085号
[10] Doshi-Velez,F.(2009)。无限部分可观测马尔可夫决策过程,载于Y.Bengio等人(编辑),《神经信息处理系统进展》22(NIPS 2009),Curran Associates Inc.,Red Hook,NY,第477-485页。;
[11] Doshi-Velez,F.、Pfau,D.、Wood,F.和Roy,N.(2015)。部分可观测强化学习的贝叶斯非参数方法,IEEE模式分析和机器智能汇刊37(2):394-407。;
[12] 德雷克,A.(1962年)。通过噪声信道观察马尔可夫过程,麻省理工学院博士论文,马萨诸塞州剑桥。;
[13] Fine,S.、Singer,Y.和Tishby,N.(1998年)。层次隐马尔可夫模型:分析与应用,机器学习32(1):41-62·Zbl 0901.68178号
[14] Foka,A.和Trahanias,P.(2007年)。用于自主机器人导航、机器人和自主系统的实时分层POMDP 55(7):561-571。;
[15] Gavaldá,R.、Keller,P.W.、Pineau,J.和Precup,D.(2006)。带隐藏状态的马尔可夫模型的PAC-学习,《第17届欧洲机器学习会议论文集》,德国柏林,第150-161页。;
[16] Heller,K.A.、Teh,Y.W.和Görür,D.(2009年)。无限层次隐马尔可夫模型,《第12届国际人工智能与统计会议论文集》,美国佛罗里达州克利尔沃特海滩,第224-231页。;
[17] Hengst,B.(2011)。分层方法,见M.Wiering和M.van Otterlo(编辑),《强化学习:艺术现状》,施普林格出版社,柏林,第293-323页。;
[18] Hinton,G.E.、Osindero,S.和Teh,Y.-W.(2006)。深度信念网的快速学习算法,神经计算18(7):1527-1554·兹比尔1106.68094
[19] Hoey,J.、Poupart,P.、Bertoldi,A.、Craig,T.、Boutiler,C.和Mihailidis,A.(2010年)。使用视频和部分可观察的马尔可夫决策过程为痴呆患者提供自动洗手帮助,计算机视觉和图像理解114(5):503-519。;
[20] Holmes,M.P.和Isbell Jr.,C.L.(2006年)。部分可观测隐藏状态的循环后缀树推理,第23届国际机器学习会议论文集,匹兹堡,宾夕法尼亚州,美国,第409-416页。;
[21] Kaelbling,L.P.、Littman,M.L.和Cassandra,A.R.(1999)。在部分可观测随机域中规划和行动,人工智能101(1-2):99-134·Zbl 0908.68165号
[22] Kolobov,A.(2012年)。马尔可夫决策过程规划:人工智能视角,人工智能与机器学习综合讲座6(1):1-210·Zbl 1270.68014号
[23] Kołodziej,J.、Khan,S.U.、Wang,L.、Min-Allah,N.、Madani,S.A.、Ghani,N.和Li,H.(2011)。马尔可夫跳跃过程模型在无线网络中基于活动的室内移动预测中的应用,第九届IEEE信息技术前沿国际会议(FIT),巴基斯坦伊斯兰堡,第51-56页。;
[24] Li,H.,Zhao,Q.和Yang,Z.(2007)。容错控制系统的可靠性建模,国际应用数学与计算机科学杂志17(4):491-504,DOI:10.2478/v10006-007-0041-0·Zbl 1228.90031号
[25] Lim,Z.、Sun,L.和Hsu,D.J.(2011)。蒙特卡罗数值迭代与宏观行动,J.Shawe-Taylor等人(编辑),《神经信息处理系统的进展》24(NIPS 2011),Curran Associates Inc.,Red Hook,NY,第1287-1295页。;
[26] Littman,M.L.(1996)。序贯决策算法,博士论文,罗得岛州普罗维登斯布朗大学。;
[27] Mahadevan,S.(1998年)。部分可观测半马尔可夫决策过程:工程和认知科学中的理论与应用,AAAI部分可观测马尔可夫过程规划秋季研讨会,美国佛罗里达州奥兰多,第113-120页。;
[28] Mihalkova,L.和Mooney,R.J.(2007)。马尔可夫逻辑网络结构的自底向上学习,第24届国际机器学习会议(ICML)论文集,科尔瓦利斯,俄勒冈州,美国,第625-632页。;
[29] Murphy,K.P.(2002)。将分层POMDP表示为DBN,应用于移动机器人导航,www.cs.ubc.ca/murphyk/mypapers.html。;
[30] Oliver,N.、Garg,A.和Horvitz,E.(2004年)。从多个感官渠道学习和推断办公室活动的分层表示,计算机视觉和图像理解96(2):163-180。;
[31] Oniszczuk,W.(2009年)。带阻塞和截断的开放串联网络分析的半马尔科夫方法,国际应用数学与计算机科学杂志19(1):151-163,DOI:10.2478/v10006-009-0014-6·Zbl 1167.90459号
[32] Pineau,J.、Montemerlo,M.、Pollack,M.,Roy,N.和Thrun,S.(2003年)。《面向疗养院机器人助理:挑战与结果》,机器人与自治系统42(3):271-281·Zbl 1011.68806号
[33] Poupart,P.和Vlassis,N.(2008年)。部分可观测领域中基于模型的贝叶斯强化学习,《第十届国际人工智能与数学研讨会论文集》,美国佛罗里达州劳德代尔堡,第8页。;
[34] Rao,V.和Teh,Y.W.(2013)。Markov跳跃过程和扩展的快速MCMC采样,《机器学习研究杂志》14(1):3295-3320·Zbl 1318.60078号
[35] Ross,S.、Pineau,J.、Chaib-draa,B.和Kreitmann,P.(2011)。部分可观测Markov决策过程中学习和规划的贝叶斯方法,机器学习研究杂志12:1729-1770·Zbl 1280.68193号
[36] Roy,N.、Pineau,J.和Thrun,S.(2000年)。使用概率推理进行口语对话管理,《计算语言学协会第38届年会论文集》,中国香港,第93-100页。;
[37] Rusek,K.、Janowski,L.和Papir,Z.(2014)。建模为MAP/SM/1/b系统的数据包缓冲区的瞬态和稳态特性,国际应用数学与计算机科学杂志24(2):429-442,DOI:10.2478/amcs-2014-0033·Zbl 1293.60070号
[38] Sallans,B.(2000年)。部分可观测马尔可夫决策过程的学习因子表示,S.A。;
[39] Solla,T.K.Leen和K.Müller(编辑),《神经信息处理系统的进展》12(NIPS 1999),麻省理工学院出版社,马萨诸塞州剑桥,第1050-1056页。;
[40] Shani,G.、Brafman,R.I.和Shimony,S.E.(2005年)。POMDP的基于模型的在线学习,《第16届欧洲机器学习会议论文集》,葡萄牙波尔图,第353-364页。;
[41] Spaan,M.T.J.和Vlassis,N.(2005年)。Perseus:POMDP的随机基于点的值迭代,人工智能研究杂志24:195-220·Zbl 1080.68674号
[42] Theocharous,G.(2002)。密歇根州立大学密歇根州东兰辛分校博士论文《部分可观测马尔可夫决策过程中的层次学习与规划》。;
[43] Theocharous,G.和Mahadevan,S.(2002年)。机器人导航的分层部分可观测马尔可夫决策过程模型近似规划,2002年IEEE机器人与自动化国际会议论文集,美国华盛顿特区,第1347-1352页。;
[44] Theocharous,G.、Murphy,K.和Kaelbling,L.P.(2004)。将分层POMDP表示为多尺度机器人定位的DBN,2004年IEEE机器人与自动化国际会议论文集,美国路易斯安那州新奥尔良,第1卷,第1045-1051页。;
[45] Toussant,M.、Charlin,L.和Poupart,P.(2008)。基于似然最大化的层次POMDP控制器优化,第24届人工智能不确定性会议论文集,芬兰赫尔辛基,第562-570页。;
[46] Wakabayashi,K.和Miura,T.(2012)。分层隐马尔可夫模型的前向-后向激活算法,见F.Pereira等人(编辑),《神经信息处理系统进展25》(NIPS 2012),Curran Associates Inc.,Red Hook,NY,第1502-1510页。;
[47] 怀特,C.C.(1976)。有限时域部分可观测半马尔可夫优化问题的求解程序,运筹学24(2):348-358。Young,S.、Gašić,M.、Thomson,B.和Williams,J.D.(2013年)。基于POMDP的统计口语对话系统:综述,IEEE 101(5):1160-1179·Zbl 0344.90038号
[48] Youngblood,G.M.和Cook,D.J.(2007年)。分层模型创建的数据挖掘,IEEE系统、人和控制论汇刊,C部分:应用和评论37(4):561-572。;
[49] Youngblood,G.M.、Heierman,E.O.、Cook,D.J.和Holder,L.B.(2005年)。通过智能环境领域的数据挖掘技术实现HPOMDP的自动化构建,第18届国际佛罗里达人工智能研究学会会议论文集,美国佛罗里达州克利尔沃特海滩,194-199页。;
[50] Zamani、Sanner、S.、Poupart、P.和Kersting,K.(2012年)。连续状态和观测POMDP的符号动态编程,见F.Pereira等人(编辑),《神经信息处理系统进展25》(NIPS 2012),Curran Associates Inc.,Red Hook,NY,第1403-1411页。;
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。