×

动态交友:与新队友合作。 (英语) Zbl 1392.68411号

概述:机器人在越来越多的环境中部署的时间越来越长。随着机器人数量的增长,它们将越来越需要与其他机器人进行交互。此外,生产这些机器人的公司和研究实验室的数量正在增加,导致这些机器人可能无法共享通用的通信或协调协议。虽然可能会制定协调和通信标准,但我们预计机器人还需要在有限的信息下对其队友进行智能推理。这个问题激发了临时团队合作在这种情况下,代理可能会潜在地与各种队友合作,以实现共同的目标。本文关注的是特设团队合作问题的一个有限版本,在该问题中,代理了解环境动力学,并与其他队友有过过去的经验,尽管这些经验可能不能代表当前的队友。为了解决这个问题,本文介绍了一种新的通用算法,即PLASTIC,它可以重用从以前的队友那里学到的知识或专家提供的知识,以快速适应新队友。该算法以两种形式进行了实例化:1)塑料模型(PLASTIC-Model),它建立以前队友的行为模型,并使用这些模型在线计划行为;2)塑料政策(PLASTIC-Policy),它学习与以前队友合作的政策,并在线选择这些政策。我们在两个基准任务上评估了PLASTIC:追踪域和RoboCup 2D仿真域中的机器人足球。由于认识到临时团队合作的一个关键要求是对以前看不到的代理的适应性,测试在第一项任务中使用了40多个以前未知的团队,在第二项任务中则使用了7个以前未知团队。虽然PLASTIC假设当前和过去队友的行为之间存在一定程度的相似性,但在实验设置中没有采取任何步骤来确保该假设成立。团队成员由各种独立开发人员创建旨在分享任何相似之处。尽管如此,结果表明,塑料能够识别和利用其当前和过去队友行为之间的相似性,使其能够快速适应新队友。

MSC公司:

第68页第40页 机器人人工智能
68T05型 人工智能中的学习和自适应系统
第68页第42页 Agent技术与人工智能
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Agmon,N。;巴雷特,S。;Stone,P.,《领导特设团队中的不确定性建模》(《第十三届自治代理和多代理系统国际会议论文集》,第十三届自主代理和多智能体系统国际会议文献集,AAMAS(2014年5月))
[2] Agmon,N。;Stone,P.,与多个队友在联合行动环境中领导特设代理,(第十一届自治代理和多代理系统国际会议论文集。第十一届自主代理和多智能体系统国际会议文献集,AAMAS(2012年6月))
[3] Akiyama,H.,Agent2d基本代码发布(2010)
[4] 阿尔布雷希特,S。;Ramamoorthy,S.,《多智能体系统中临时协调的博弈论模型和最佳响应学习方法》(2013年2月),爱丁堡大学:英国爱丁堡州立大学信息学院技术代表
[5] 阿尔布雷希特,S。;Ramamoorthy,S.,《多智能体系统中临时协调的博弈理论模型和最佳响应学习方法》(扩展摘要),(第十二届国际自主智能体和多智能体会议论文集。第十二届自主智能体与多智能体系统国际会议论文集,AAMAS,St。美国明尼苏达州保罗市(2013年5月)
[6] 阿尔布雷希特,S。;Ramamoorthy,S.,《关于多智能体系统中具有策略类型的最佳响应学习的收敛性和优化》,(《第30届人工智能不确定性会议论文集》,《第30次人工智能不确定性会议论文集,阿联酋魁北克市,加拿大》(2014年7月))
[7] Albus,J.S.,小脑功能理论,数学。生物科学。,10, 1-2, 25-61 (1971)
[8] Albus,J.S.,机械手控制小脑模型关节控制(CMAC)的新方法,Tran。ASME,J.Dyn。系统。测量。对照,97,9220-227(1975)·Zbl 0314.92007号
[9] 阿尔梅达,F。;阿布雷乌,P.H。;Lau,N。;Reis,L.,从足球模拟比赛中自动提取进球计划的方法,软计算。,17835-848(2013年)
[10] 巴德,N。;Johanson,M。;伯奇,N。;Bowling,M.,在线隐式代理建模,(第十二届自治代理和多代理系统国际会议论文集。第十二届自主代理和多智能体系统国际会议文献集,AAMAS(2013)),255-262
[11] 巴雷特,S。;Stone,P.,《特设团队工作的分析框架》,(第十一届自治代理和多代理系统国际会议论文集,第十一届自主代理和多智能体系统国际会议文献集,AAMAS(2012年6月))
[12] 巴雷特,S。;Stone,P.,《在复杂领域与未知队友合作:机器人足球特别团队合作案例研究》(《第二十届人工智能会议论文集》,《第二十次人工智能会议文献集》,AAAI(2015年1月))
[13] 巴雷特,S。;斯通,P。;Kraus,S.,《追踪领域中临时团队合作的实证评估》,(第十届自治代理和多代理系统国际会议论文集,第十届自主代理和多智能体系统国际会议文献集,AAMAS(2011年5月))
[14] 巴雷特,S。;斯通,P。;克劳斯,S。;Rosenfeld,A.,《对队友了解有限的团队合作》(《第二十七届人工智能会议论文集》,《第二十七次人工智能会议文献集》,AAAI(2013年7月))
[15] 本达,M。;Jagannathan,V。;Dodhiawala,R.,《知识源的最佳合作——实证研究》(1986年7月),波音先进技术中心,波音计算服务,技术代表BCS-G2010-28
[16] Biswas,J。;Mendoza,J.P。;朱,D。;Choi,B。;克莱,S。;Veloso,M.,多机器人足球队传球、进攻和防守的对手驱动规划和执行,(第十三届自治代理和多代理系统国际会议论文集。第十三届自主代理和多智能体系统国际会议文献集,AAMAS(2014年1月))
[17] Blum,A。;Mansour,Y.,《学习、后悔最小化和均衡》(《算法博弈论》(2007),剑桥大学出版社)·Zbl 1143.91311号
[18] 保龄球,M。;McCracken,P.,《即兴团队中的协调和适应》,(《第二十届人工智能会议论文集》,《第二十次人工智能会议文献集》,AAAI(2005)),53-58
[19] R.I.布拉夫曼。;Tennenholtz,M.,《部分受控多智能体系统》,J.Artif。智力。决议,4477-507(1996)·Zbl 0900.68160号
[20] Carmel,D。;Markovitch,S.,《将对手模型纳入对手搜索》(AAAI Proc.of AAAI(1996)),120-125
[21] 查克拉博蒂,D。;Stone,P.,《多智能体学习中的收敛、目标优化和安全》,(第二十七届机器学习国际会议论文集。第二十七届国际机器学习会议论文集,ICML(2010年6月))
[22] 查克拉博蒂,D。;Stone,P.,《与马尔科夫临时队友合作》(《第十二届自治代理和多代理系统国际会议论文集》,第十二届自主代理和多智能体系统国际会议文献集,AAMAS(2013年5月))
[23] 科尼策,V。;Sandholm,T.,AWESOME:一种通用多智能体学习算法,在自我游戏中收敛,并学习对静止对手马赫的最佳反应。学习。,67(2007年5月)·兹比尔1471.91075
[24] Dai,W。;杨琼。;薛国荣。;Yu,Y.,促进迁移学习,(第二十四届国际机器学习会议论文集。第二十四届国际机器学习会议论文集,ICML(2007)),193-200
[25] Decker,K.S。;Lesser,V.R.,《设计一系列协调算法》,(多智能体系统国际会议,多智能体国际会议,ICMAS(1995年6月)),73-80
[26] 戴森罗斯,M.P。;Neumann,G。;Peters,J.,《机器人政策搜索调查》,Found。趋势机器人。,2, 1-2, 1-142 (2013)
[27] Doshi,P。;Zeng,Y.,使用区分性模型更新改进交互式动态影响图的近似,(第八届自治代理和多代理系统国际会议论文集。第八届自主代理和多智能体系统国际会议文献集,AAMAS(2009))
[28] Ernst,D。;Geurts,P。;Wehenkel,L.,基于树的批处理模式强化学习,J.Mach。学习。研究,503-556(2005)·Zbl 1222.68193号
[29] 方,M。;郭毅。;张,X。;Li,X.,基于标签共享子空间的多源转移学习,模式识别。莱特。,51, 101-106 (2015)
[30] Ge,L。;高杰。;Zhang,A.,OMS-TL:在线多源迁移学习框架,(第22届ACM信息与知识管理国际会议论文集。第22届AC M信息和知识管理国际大会论文集,CIKM’13(2013),ACM:美国纽约州纽约市ACM),2423-2428
[31] 盖利,S。;Wang,Y.,围棋中的探索开发:Monte-Carlo围棋的UCT,(神经信息处理系统的进展。神经信息处理体系的进展,NIPS,第19卷(2006年12月))
[32] Genter,K。;Agmon,N。;Stone,P.,《领导一群人的特别团队合作》,(第十二届自治代理和多代理系统国际会议论文集。第十二届自主代理和多智能体系统国际会议文献集,美国原子能机构协会(2013年5月))
[33] Genter,K。;Stone,P.,《通过特别团队影响群体》(《第九届国际蜂群智能会议论文集》,第九届全球蜂群智能大会论文集,ANTS(2014年9月))
[34] Gmytrasiewicz,P.J。;Doshi,P.,《多智能体环境中的顺序规划框架》,J.Artif。智力。决议,24,1,49-79(2005年7月)·Zbl 1080.68664号
[35] Gmytrasiewicz,P.J。;Durfee,E.H。;Wehe,D.K.,《协调多智能体交互的决策理论方法》(IJCAI,第91卷(1991)),63-68·Zbl 0747.68069号
[36] Grosz,B。;Kraus,S.,《复杂群体行动的协作计划》,Artif。智力。,86, 269-368 (1996) ·Zbl 1523.68100号
[37] 霍尔,M。;E.弗兰克。;霍姆斯,G。;普法林格,B。;鲁特曼,P。;Witten,I.H.,WEKA数据挖掘软件:更新,ACM SIGKDD Explor。新闻。,11、10-18(2009年11月)
[38] Han,J。;李,M。;Guo,L.,shill agent对一组自治agent集体行为的软控制,J.Syst。科学。复杂。,19, 54-62 (2006)
[39] Hausknecht,M。;穆帕拉朱,P。;Subramanian,S。;Kalyanakrishnan,S。;Stone,P.,《半场进攻:多智能体学习和特别团队合作的环境》,(AAMAS自适应学习智能体(ALA)研讨会。AAMAS自适应学习代理(ALA)研讨会,新加坡(2016年5月)
[40] 海丝特,T。;Stone,P.,TEXPLORE:机器人实时采样效率强化学习,马赫。学习。,90, 3, 385-429 (2013)
[41] Hoang,T.N。;Low,K.H.,《交互式POMDP精简版:走向实用规划,以预测和利用与自利主体交互的意图》,(第23届国际人工智能联合会议。第23届人工智能国际联合会议,IJCAI(2013),AAAI出版社),2298-2305
[42] Huang,P.等人。;王,G。;Qin,S.,从多个数据源进行转移学习的推进,模式识别。莱特。,33, 5, 568-579 (2012)
[43] 黄,Y.-W。;Y.佐佐木。;Y.原川。;日本福岛。;Hirose,S.,《2011年东北地震和海啸期间水下救援机器人锚潜水员III的操作》(2011年9月,《海洋》),1-6
[44] Isaacs,R.,《微分对策:数学理论及其在战争、追击、控制和优化中的应用》(1965),多佛出版社·Zbl 0125.38001号
[45] 石瓦卡,Y。;佐藤,T。;Kakazu,Y.,《使用强化学习解决异构多智能体系统上的追踪问题的方法》,Robot。自动。系统。,43, 4, 245-256 (2003)
[46] 琼斯,E。;布朗宁,B。;Dias,M.B。;阿格尔,B。;Veloso,M.M。;Stentz,A.T.,执行紧密协调任务的动态形成的异构机器人团队,(IEEE机器人与自动化国际会议论文集。IEEE机器人和自动化国际会议文献集,ICRA(2006年5月)),570-575
[47] Jung,T。;Polani,D。;Stone,P.,《连续代理环境系统授权》(2010),德克萨斯大学奥斯汀分校计算机科学系,技术代表AI-10-03
[48] Kalyanakrishnan,S。;刘,Y。;Stone,P.,《RoboCup足球赛中的半场进攻:一个多智能体强化学习案例研究》,(RoboCup-2006:机器人足球世界杯X。RoboCup-2006:机器人足球全球杯X,人工智能课堂讲稿,第4434卷(2007),Springer-Verlag:Springer-Verlag Berlin),72-85
[49] Kalyanakrishnan,S。;Stone,P.,通过参数化学习问题表征强化学习方法,马赫。学习。,84、1-2、205-247(2011年7月)
[50] Kamishima,T。;滨崎步,M。;Akaho,S.,TrBagg:一种简单的迁移学习方法及其在协作标记个性化中的应用,(第九届IEEE国际数据挖掘会议。第九届EEE国际数据挖掘大会,ICDM(2009年12月)),219-228
[51] Kocsis,L.公司。;Szepesvari,C.,基于Bandit的Monte-Carlo规划
[52] Korzhyk,D。;尹,Z。;Kiekintveld,C。;科尼策,V。;Tambe,M.,《安全游戏中的Stackelberg vs.Nash:互换性、等价性和唯一性的扩展研究》,J.Artif。智力。Res.,41,2297-327(2011年5月)·兹比尔1219.91032
[53] 劳尔,M。;Riedmiller,M.,合作多智能体系统中分布式强化学习算法,(第十七届机器学习国际会议论文集,第十七届机械学习国际会议文献集,ICML(2000),Morgan Kaufmann),535-542
[54] Liemhetcharat,S。;Veloso,M.,《利用异质特设代理有效组建团队的加权协同图》,Artif。智力。,208, 41-65 (2014) ·Zbl 1334.68230号
[55] 墨菲,R。;Dreger,K。;Newsome,S。;罗多克,J。;Steimle,E。;木村,T。;Makabe,K。;松野,F。;Tadokoro,S。;Kon,K.,《在日本南三陆町和陆前高田使用遥控船用车辆进行灾难恢复》,(2011年IEEE安全、安保和救援机器人国际研讨会,2011年IEEE-安全、安保与救援机器人国际会议,SSRR(2011年11月),19-25
[56] Nagatani,K。;Kiribayashi,S。;冈田,Y。;Tadokoro,S。;西村,T。;吉田,T。;Koyanagi,E。;Hada,Y.,《救援移动机器人Quince的重新设计》(2011年IEEE安全、安保和救援机器人国际研讨会,2011年IEEE-安全、安保与救援机器人国际会议,SSRR(2011年11月),13-18
[57] 帕尔多,D。;Stone,P.,《促进回归迁移》,(第二十七届机器学习国际会议论文集,第二十七届国际机器学习会议论文集(2010年6月))
[58] 理查德森博士,机器人救援?,工程技术。,6、4、52-54(2011年5月)
[59] 西尔弗·D。;Sutton,R.S。;Müller,M.,《基于样本的学习和具有永久和暂时记忆的搜索》,(第二十五届机器学习国际会议论文集,第二十五届机械学习国际会议文献集,ICML(2008))
[60] 西尔弗·D。;Veness,J.,Monte-Carlo planning in large POMDPs,(神经信息处理系统进展,神经信息处理体系进展,NIPS,vol.23(2010))
[61] 索努,E。;Doshi,P.,有限嵌套交互式POMDP的广义和有界策略迭代:放大,(《第十一届自治代理和多代理系统国际会议论文集》,第十一届国际自治代理和多重代理系统会议论文集,AAMAS,国际自治代理与多重代理系统基金会,南卡罗来纳州里奇兰(2012)),1039-1048
[62] Stone,P.,《多智能体系统中的分层学习:机器人足球的制胜方法》(2000),麻省理工学院出版社
[63] 斯通,P。;卡明卡,G.A。;克劳斯,S。;Rosenschein,J.S.,《Ad hoc autonomous agent teams:无需预先协调的协作》(《第二十四届人工智能会议论文集》,《第二十届人工智能大会论文集》(2010年7月))
[64] 斯通,P。;卡明卡,G.A。;Rosenschein,J.S.,在一个特设团队中领导一个最佳响应团队,(AAMAS代理电子商务研讨会。AAMAS代理电子商务研讨会,AMEC(2010年11月))
[65] 斯通,P。;克劳斯,S.,教还是不教?特设团队中不确定性下的决策,(第九届自治代理和多代理系统国际会议论文集。第九届自主代理和多智能体系统国际会议文献集,AAMAS(2010年5月))
[66] 斯通,P。;Veloso,M.,《多智能体系统:从机器学习的角度进行的调查》,Auton。机器人,8,3,345-383(2000年7月)
[67] Sutton,R.S。;Barto,A.G.,《强化学习:导论》(1998),麻省理工学院出版社:麻省理学院出版社,马萨诸塞州剑桥,美国
[68] Tambe,M.,《走向灵活的团队合作》,J.Artif。智力。决议,781-124(1997)
[69] M.E.泰勒。;Stone,P.,《强化学习领域的迁移学习:一项调查》,J.Mach。学习。第10号、第1号、第1633-1685号决议(2009年)·Zbl 1235.68196号
[70] Undeger,C。;Polat,F.,Multi-agent实时追踪,Auton。代理多代理系统。,21, 1, 69-107 (2010)
[71] Watkins,C.J.C.H.,《从延迟奖励中学习》(1989年5月),英国剑桥大学国王学院博士论文
[72] Wu,F。;Zilberstein,S。;Chen,X.,特设自治代理团队的在线规划,(第22届国际人工智能联合会议,第22届人工智能国际联合会议,IJCAI(2011))
[73] Xuan,P。;Lesser,V。;Zilberstein,S.,《多智能体合作中的通信决策:模型和实验》,(第五届自主智能体国际会议论文集,第五届国际自主智能体会议论文集(2001年))
[74] 姚,Y。;Doretto,G.,《促进多源迁移学习》(《计算机视觉和模式识别会议论文集》,《计算机视觉与模式识别会议文献集》,CVPR(2010年6月))
[75] 曾勇。;陈,Y。;Doshi,P.,使用top k策略路径的交互式动态影响图中的近似模型等价,(IEEE/WIC/ACM网络智能和智能代理技术国际会议,第2卷(2011)),208-211
[76] 曾勇。;Doshi,P.,利用模型等效性求解交互式动态影响图,J.Artif。智力。研究,43,1,211-255(2012年1月)·Zbl 1237.68199号
[77] 庄,F。;Cheng,X。;潘,S。;于伟(Yu,W.)。;何,Q。;Shi,Z.,通过共识正则化自动编码器转移多源学习,(Calders,T.;Esposito,F.;Hüllermier,E.;Meo,R.,《数据库中的机器学习和知识发现》,《数据库的机器学习与知识发现》(Machine learning and Knowledge Discovery in Databases),计算机科学讲义,第8726卷(2014),施普林格:施普林格柏林,海德堡), 417-431
[78] Zinkevich,M。;Johanson,M。;保龄球,M。;Piccione,C.,《不完全信息博弈中的后悔最小化》,(神经信息处理系统进展,神经信息处理体系进展,NIPS,第20卷(2008)),905-912
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。