×

通过编码经验和信念规划推理不确定参数和代理行为。 (英语) Zbl 1476.68261号

小结:机器人有望处理越来越复杂的任务。此类任务通常包括与对象的交互或与其他代理的协作。在这种情况下,推理的关键挑战之一是缺乏准确的模型,这会妨碍规划师的有效性。我们提出了一个在线模型自适应系统,该系统在使用信念空间规划器求解任务时持续验证和改进模型。我们聘请了著名的在线信仰规划师POMCP。粒子用于表示关于当前状态和世界模型的假设。它们足以配置模拟器以提供过渡和观测模型。我们提出了一种增强的粒子再生过程,该过程利用了递归神经网络(RNN)中编码的先前经验。该网络通过与各种对象和代理参数化的交互进行训练。RNN与混合密度网络(MDN)相结合,以处理当前的观测历史,从而提出合适的粒子和模型参数化。该方法还确保新生成的粒子与当前历史一致。这些对粒子重振过程的增强有助于缓解大状态空间中采样质量差带来的问题,并能够处理具有不连续性的动力学。根据决策者需要考虑的不确定性,所提出的方法可以应用于各种领域。我们通过多个领域的实验对该方法进行了评估,并与其他最先进的方法进行了比较。实验是在协作多agent和单agent对象操作域中进行的。实验是在仿真和真实机器人上进行的。该框架能够很好地处理具有不确定代理行为、未知对象和环境参数的推理。结果表明,该方法具有良好的性能,可以改进现有的最新方法。

MSC公司:

68T42型 Agent技术与人工智能
68T05型 人工智能中的学习和自适应系统
68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
第68页第37页 人工智能背景下的不确定性推理
68T40型 机器人的人工智能
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿尔布雷希特,S。;Ramamoorthy,S.,《多智能体系统中临时协调的博弈理论模型和最佳响应学习方法》,(第十二届自主智能体和多智能体体系国际会议论文集(AAMAS-13),国际自主智能体与多智能体系统基金会。《第十二届自主代理和多代理系统国际会议论文集》(AAMAS-13),美国明尼苏达州圣保罗市国际自主代理与多代理系统基金会(2013),1155-1156
[2] 阿尔布雷希特,S。;Stone,P.,《关于假设代理行为及其参数的推理》,(《第16届自主代理和多代理系统国际会议论文集》(AAMAS-17),国际自主代理和多重代理系统基金会。第十六届自主代理和多代理系统国际会议记录(AAMAS-17),国际自主代理和多重代理系统基金会,巴西圣保罗(2017),547-555
[3] 阿尔布雷奇特,S。;Stone,P.,《模拟其他代理的自治代理:综合调查和开放问题》,Artif。智力。,258, 66-95 (2018) ·Zbl 1433.68460号
[4] Aström,K.J。;Wittenmark,B.,自适应控制(2008),多佛出版社·Zbl 0217.57903号
[5] 巴雷特,S。;Stone,P.,《在复杂领域与未知队友合作:机器人足球特别团队合作案例研究》,(第二十届美国人工智能协会人工智能会议(2015年)),2010-2016年
[6] Bishop,C.M.,混合物密度网络(1994),阿斯顿大学,技术报告
[7] 查斯洛特,G.M.B。;Winands,M.H。;van Den Herik,H.J.,并行蒙特卡罗树搜索,(计算机和游戏国际会议(2008),斯普林格),60-71·Zbl 1198.68225号
[8] Y.Chebotar。;豪斯曼,K。;张,M。;Sukhatme,G。;沙尔,S。;Levine,S.,结合基于模型和无模型的更新,以轨迹为中心的强化学习(2017),arXiv预印本
[9] 库曼斯,E。;Bai,Y.,Pybillet,一个用于游戏、机器人和机器学习物理模拟的python模块(2016-2018)
[10] Deisenroth,M。;Rasmussen,C.E.,PILCO:基于模型和数据效率的政策搜索方法,(第28届机器学习国际会议(ICML-11)(2011年)论文集),465-472
[11] Doshi,P。;Zeng,Y.,使用判别模型更新改进交互式动态影响图的近似,(第八届自治代理和多代理系统国际会议论文集-第2卷,国际自治代理和多重代理系统基金会(2009年)),907-914
[12] 芬恩,C。;Abbeel,P。;Levine,S.,深度网络快速适应的模型认知元学习(2017),arXiv预印本
[13] 芬恩,C。;Levine,S.,规划机器人运动的深度视觉预见,(2017年IEEE机器人与自动化国际会议(ICRA)(2017),IEEE),2786-2793
[14] Fu,J。;莱文,S。;Abbeel,P.,《利用在线动力学自适应和神经网络先验进行操纵技能的一次性学习》,(2016年IEEE/RSJ智能机器人和系统国际会议(2016年),IEEE),4019-4026
[15] Gmytrasiewicz,P.J。;Doshi,P.,《多智能体环境中的顺序规划框架》,J.Artif。智力。决议,24,49-79(2005)·Zbl 1080.68664号
[16] 新泽西州戈登。;Salmond,D.J。;Smith,A.F.,非线性/非高斯贝叶斯状态估计的新方法,(IEE Proceedings F-Radar and Signal Processing(1993),IET),107-113
[17] Graves,A.,用递归神经网络生成序列(2013),arXiv预印本
[18] 哈特,体育。;新泽西州尼尔森。;Raphael,B.,《启发式确定最小成本路径的形式基础》,IEEE Trans。系统。科学。赛博。,4, 100-107 (1968)
[19] He,H。;Boyd-Graber,J。;Kwok,K。;Daumé,H.,深度强化学习中的对手建模,(机器学习国际会议(2016)),1804-1813
[20] Hochreiter,S。;Schmidhuber,J.,长短期记忆,神经计算。,9, 1735-1780 (1997)
[21] Kaelbling,L.P。;利特曼,M.L。;Cassandra,A.R.,《部分可观测随机域中的规划和行动》,Artif。智力。,101, 99-134 (1998) ·Zbl 0908.68165号
[22] Kocsis,L。;Szepesvári,C.,基于Bandit的蒙特卡洛规划,(欧洲机器学习会议(ECML)(2006年)),282-293
[23] Kurniawati,H。;徐,D。;Lee,W.S.,SARSOP:通过近似最佳可达信念空间实现基于点的POMDP规划,(机器人:科学与系统(RSS)(2008))
[24] 兰道,医学博士。;罗扎诺,R。;M'Saad,M.,自适应控制,第51卷(1998),Springer:Springer纽约
[25] 莱文,S。;Abbeel,P.,《在未知动态下使用指导性策略搜索学习神经网络策略》,(神经信息处理系统进展(2014)),1071-1079
[26] 洛克特,A.J。;Chen,C.L。;Miikkulainen,R.,《游戏中进化显式对手模型》,(第九届遗传与进化计算年会论文集(2007),ACM),2106-2113
[27] Mnih,V。;Kavukcuoglu,K。;西尔弗·D。;Rusu,A.A。;Veness,J。;Bellemare,M.G。;格雷夫斯,A。;里德米勒,M。;Fidjeland,A.K。;Ostrovski,G.,《通过深度强化学习实现人类层面的控制》,《自然》,518529-533(2015)
[28] Papadimitriou,C.H。;Tsitsiklis,J.N.,马尔可夫决策过程的复杂性,数学。操作。Res.,12,441-450(1987)·Zbl 0638.90099号
[29] 彼得斯,J。;Schaal,S.,利用政策梯度强化运动技能学习,神经网络。,21, 682-697 (2008)
[30] 普拉特·R。;特德雷克·R。;Kaelbling,L.P。;Lozano-Perez,T.,《假设最大可能性观测的信念空间规划》,机器人:科学与系统(RSS)(2010年)
[31] Punjani,A。;Abbeel,P.,深度学习直升机动力学模型,(2015年IEEE机器人与自动化国际会议(ICRA)(2015),IEEE),3223-3230
[32] Rahmatizadeh,R。;Abolghasemi,P。;Behal,A。;Bölöni,l.,《使用LSTM和MDN从虚拟演示到现实操作》(2016),arXiv预印本
[33] Rumelhart,D.E。;辛顿,G.E。;Williams,R.J.,通过反向传播错误学习表征,《自然》,323533(1986)·Zbl 1369.68284号
[34] 肖尔茨,J。;莱文,M。;伊斯贝尔,C。;Wingate,D.,面向对象MDP之前的基于物理的模型,(机器学习国际会议(2014)),1089-1097
[35] 舒尔曼,J。;沃尔斯基,F。;Dhariwal,P。;Radford,A。;Klimov,O.,近似策略优化算法(2017),arXiv预印本
[36] 西尔弗·D。;Veness,J.,大型POMDP中的蒙特卡罗规划,(神经信息处理系统进展(NIPS)(2010)),2164-2172
[37] 斯莫尔伍德,R.D。;Sondik,E.J.,有限时间内部分可观测马尔可夫过程的最优控制,Oper。第21号决议,1071-1088(1973)·Zbl 0275.93059号
[38] Somani,A。;Ye,N。;徐,D。;Lee,W.S.,DESPOT:带正则化的在线POMDP规划,(神经信息处理系统进展(2013)),1772-1780
[39] 斯通,P。;卡明卡,G.A。;克劳斯,S。;Rosenschein,J.S.,《特设自治代理团队:无需预先协调的协作》(AAAI(2010)),6
[40] Sturm,J。;斯塔奇尼斯,C。;Burgard,W.,《学习铰接物体运动模型的概率框架》,J.Artif。智力。研究,41,477-526(2011)·Zbl 1234.68383号
[41] 吴,F。;Zilberstein,S。;Chen,X.,特设自治代理团队的在线规划,(第二十二届国际人工智能联合会议(2011))
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。