×

自主代理模拟其他代理:全面调查和公开问题。 (英语) Zbl 1433.68460号

摘要:人工智能的许多研究都与开发能够与其他智能体有效交互的自主智能体有关。此类代理的一个重要方面是通过构造模型它可以预测建模代理的各种感兴趣的属性(例如动作、目标、信念)。目前存在各种建模方法,其方法和基本假设各不相同,以满足不同亚社区的需求,并反映出其预期的不同实际用途。本文旨在对文献中的显著建模方法进行全面综述。文章最后讨论了一些开放性问题,这些问题可能构成未来富有成果的研究的基础。

理学硕士:

第68页第42页 Agent技术与人工智能
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿卜杜勒·拉赫曼,A。;Hailes,S.,支持虚拟社区中的信任,(第33届夏威夷国际系统科学年会论文集,(2000年),IEEE)
[2] 艾哈迈迪,M。;Lamjiri,A。;Nevisi,M。;哈比比,J。;Badie,K.,《使用两层基于案例的推理进行足球教练预测》,(机器学习国际会议论文集;模型、技术和应用,(2003)),181-185
[3] 阿尔布雷希特,D。;祖克曼,I。;Nicholson,A.,冒险游戏中钥匙孔计划识别的贝叶斯模型,用户模型。用户适配器。互动。,8, 1, 5-47, (1998)
[4] 阿尔布雷希特,D。;祖克曼,I。;Nicholson,A。;Bud,A.,《大领域钥匙孔计划识别的贝叶斯模型研究》(User Modeling:Proceedings of the Sixth International Conference,(1997),Springer),365-376
[5] 阿尔布雷希特,S。;克兰德尔,J。;Ramamoorthy,S.,E-HBA:使用行动政策提供专家建议和代理类型化,(AAAI’15无需事先协调的多代理交互研讨会,(2015))
[6] 阿尔布雷希特,S。;克兰德尔,J。;Ramamoorthy,S.,《先前信念对政策类型的实际影响的实证研究》(第29届AAAI人工智能会议论文集,(2015)),1988-1994年
[7] 阿尔布雷希特,S。;克兰德尔,J。;Ramamoorthy,S.,《假设行为中的信仰和真理》,Artif。智力。,235, 63-94, (2016) ·Zbl 1352.68259号
[8] 阿尔布雷希特,S。;Liemhetcharat,S。;Stone,P.,《无需事先协调的多智能体交互专题:客座编辑》,Auton。代理多代理系统。,31, 4, 765-766, (2017)
[9] 阿尔布雷希特,S。;Ramamoorthy,S.,《不同团队问题中MAL算法的比较评估》,(第十一届自主代理和多代理系统国际会议论文集,(2012年),349-356
[10] 阿尔布雷希特,S。;Ramamoorthy,S.,《多智能体系统中临时协调的游戏理论模型和最佳响应学习方法》,(2013),爱丁堡大学信息学院,技术代表。
[11] 阿尔布雷奇特,S。;Ramamoorthy,S.,《关于多智能体系统中具有策略类型的最佳响应学习的收敛性和优化》,(第30届人工智能不确定性会议论文集,(2014)),12-21
[12] 阿尔布雷希特,S。;Ramamourthy,S.,你在做我认为你在做的事情吗?批评不确定主体模型,(第31届人工智能不确定性会议论文集,(2015)),52-61
[13] 阿尔布雷希特,S。;Stone,P.,《关于假设代理行为及其参数的推理》,(《第16届自主代理和多代理系统国际会议论文集》,(2017年),547-555
[14] 阿尔布雷希特,S.V。;Ramamoorthy,S.,《利用因果关系在动态贝叶斯网络中进行选择性信念过滤》,J.Artif。因特尔。决议,55,1135-1178,(2016)·Zbl 1357.68236号
[15] 阿隆索,E。;D'Inverno,M。;Kudenko博士。;幸运,M。;Noble,J.,《多智能体系统中的学习》,Knowl。工程版本,16,3,277-284,(2001)
[16] 安德森,J。;博伊尔,C。;科贝特,A。;Lewis,M.,认知建模和智能辅导,Artif。智力。,42, 1, 7-49, (1990)
[17] Aumann,R.,《随机策略中的主观性和相关性》,J.Math。经济学。,1, 67-96, (1974) ·Zbl 0297.90106号
[18] Avrahami-Zilberbrand,D。;Kaminka,G.,《快速完整的符号化平面识别》(第19届国际人工智能联合会议论文集,(2005)),653-658
[19] Avrahami-Zilberbrand,D。;Kaminka,G.,《将观察者偏差纳入锁孔计划识别(高效!)》,(第22届AAAI人工智能会议论文集,(2007)),944-949
[20] Avrahami-Zilberbrand,D。;卡明卡,G。;Zarosim,H.,《快速完整的符号计划识别:允许持续时间、交错执行和有损观察》(IJCAI’05从观察中建模他人研讨会,(2005))
[21] Baarslag,T。;亨德里克斯,M。;Hindriks,K。;Jonker,C.,《学习自动双边谈判中的对手:对手建模技术的综合调查》,Auton。代理多代理系统。,30, 5, 849-898, (2016)
[22] 贝克,C。;萨克斯,R。;Tenenbaum,J.,《作为逆向规划的行动理解》,《认知》,第113、3、329-349页,(2009)
[23] 贝克,C。;萨克斯,R。;Tenenbaum,J.,《贝叶斯心理理论:联合信念-欲望归因建模》,(认知科学学会学报,(2011)),2469-2474
[24] 贝克,C。;Tenenbaum,J。;Saxe,R.,人类行为理解的贝叶斯模型,(第18届神经信息处理系统国际会议论文集,(2005)),99-106
[25] Bakkes,S。;斯普龙克,P。;van Lankveld,G.,视频游戏玩家行为建模,娱乐计算。,3, 3, 71-79, (2012)
[26] 班纳吉,B。;Kraemer,L.,Branch and price for multi-agent plan recognition,(第25届AAAI人工智能会议论文集,(2011)),601-607
[27] 班纳吉,B。;克莱默,L。;Lyle,J.,《多智能体计划识别:形式化和算法》,(第24届AAAI人工智能会议论文集,(2010)),1059-1064
[28] Banerjee,D。;Sen,S.,《使用条件联合行动学习实现囚犯困境中的帕累托最优》,Auton。代理多代理系统。,15, 1, 91-108, (2007)
[29] 巴德,N。;Bowling,M.,简化扑克中动态代理建模的粒子滤波,(第22届AAAI人工智能会议论文集,(2007)),515-521
[30] 巴德,N。;Johanson,M。;伯奇,N。;Bowling,M.,《在线隐式代理建模》(第十二届自主代理和多代理系统国际会议论文集,(2013)),255-262
[31] 巴雷,M。;卡纳梅罗,D。;德拉诺伊,J。;Kodratoff,Y.,Xplans:基于案例的计划识别推理,Appl。Artif公司。智力。,8, 4, 617-643, (1994)
[32] 巴雷特,S。;Stone,P.,《在复杂领域与未知队友合作:机器人足球特别团队合作案例研究》(第29届AAAI人工智能会议论文集,(2015)),2010-2016年
[33] 巴雷特,S。;斯通,P。;Kraus,S.,《追求领域中临时团队合作的实证评估》,(第十届自主代理和多代理系统国际会议论文集,(2011)),567-574
[34] 巴雷特,S。;斯通,P。;克劳斯,S。;Rosenfeld,A.,《对队友了解有限的团队合作》(第27届AAAI人工智能会议论文集,(2013)),102-108
[35] Bellman,R.,《动态编程》,(1957年),普林斯顿大学出版社·兹伯利0077.13605
[36] 本吉奥,Y。;Frasconi,P.,《输入输出HMM体系结构》,(神经信息处理系统进展,第8卷,(1995)),427-434
[37] Billings,D。;戴维森,A。;Schauenberg,T.等人。;伯奇,N。;保龄球,M。;霍尔特,R。;谢弗,J。;Szafron,D.,随机不完全信息游戏中的自适应博弈树搜索(第四届国际计算机与游戏会议论文集,(2004)),21-34
[38] 布莱洛克,N。;Allen,J.,基于Corpus的统计目标识别,(第18届国际人工智能联合会议论文集,(2003)),1303-1308
[39] 布莱洛克,N。;Allen,J.,《统计目标参数识别》(2004年第14届国际自动规划与调度会议论文集),297-304
[40] 布莱洛克,N。;Allen,J.,《快速分层目标模式识别》(第21届AAAI人工智能全国会议论文集,(2006)),796-801
[41] 布隆伯格,D。;Tuyls,K。;Hennes,D。;Kaisers,M.,《多智能体学习的进化动力学:一项调查》,J.Artif。因特尔。决议,53,659-697,(2015)·Zbl 1336.68210号
[42] Bolander,T。;Andersen,M.,《单智能体和多智能体系统的认识规划》,J.Appl。非类别。日志。,21, 1, 9-33, (2011) ·Zbl 1242.68285号
[43] Bombini,G。;Di Mauro,N。;Ferilli,S。;Esposito,F.,通过关系序列模式对代理行为进行分类,(agent和Multi-agent Systems:Technologies and Applications,(2010)),273-282
[44] 博克,H。;Karneeb,J。;阿尔福德,R。;Aha,D.,超视距空战中基于案例的行为识别,(第28届国际佛罗里达人工智能研究会会议论文集,(2015)),379-384
[45] Boutiler,C.,偏好激发问题的POMDP公式,(第18届全国人工智能会议论文集,(2002)),239-246
[46] Boutiler,C。;布拉夫曼,R。;Domshlak,C。;胡斯,H。;Poole,D.,《CP-nets:用条件对等偏好语句表示和推理的工具》,J.Artif。因特尔。决议,21,135-191,(2004)·Zbl 1080.68685号
[47] 保龄球,M。;伯奇,N。;约翰森,M。;Tammelin,O.,《头向上极限保持’EM扑克解决》,《科学》,347,6218,145-149,(2015)
[48] 保龄球,M。;McCracken,P.,即兴团队中的协调和适应,(第20届全国人工智能大会论文集,(2005)),53-58
[49] 保龄球,M。;Veloso,M.,使用可变学习率的多智能体学习,Artif。智力。,136, 2, 215-250, (2002) ·Zbl 0995.68075号
[50] 博扬,X。;Koller,D.,复杂随机过程的可追踪推理,(第14届人工智能不确定性会议论文集,(1998)),33-42
[51] Brown,G.,通过虚拟游戏迭代求解游戏,(《生产和分配活动分析会议记录》,考尔斯委员会专著,第13卷,(1951年),374-376·Zbl 0045.09902号
[52] 布朗,C。;鲍利,E。;怀特豪斯,D。;卢卡斯,S。;Cowling,P。;罗尔夫沙根,P。;Tarede,S。;佩雷斯,D。;萨莫特拉基斯,S。;Colton,S.,《蒙特卡罗树搜索方法调查》,IEEE Trans。计算。因特尔。人工智能游戏,4,1,1-43,(2012)
[53] Buehler,M。;Iagnemma,K。;Singh,S.,《DARPA城市挑战:城市交通中的自动车辆》,《先进机器人中的Springer拖拉机》,第56卷,(2009年),Springer
[54] Bui,H。;Venkatesh,S。;West,G.,抽象隐马尔可夫模型中的政策识别,J.Artif。因特尔。决议,17,451-499,(2002)·Zbl 1053.68101号
[55] Busoniu,L。;巴布斯卡,R。;De Schutter,B.,《多智能体强化学习的综合调查》,IEEE Trans。系统。人类网络。,C部分,应用。第38、2版(2008年)
[56] Cadilhac,A。;Asher,N。;Benamara,F。;拉斯卡里德斯,A.,《建立战略对话基础:利用谈判对话预测输赢游戏中的交易》(自然语言处理实证方法会议论文集,(2013)),357-368
[57] 卡梅勒,C。;Ho,T。;Chong,J.,游戏的认知层次模型,Q.J.经济学。,119, 3, 861-898, (2004) ·Zbl 1074.91503号
[58] 卡梅勒,C。;Ho,T。;Chong,J.,游戏中战略思维的心理学方法,Curr。操作。贝哈夫。科学。,3, 157-162, (2015)
[59] 坎贝尔,M。;Marsland,T.,《极大极小树搜索算法的比较》,Artif。智力。,20, 4, 347-367, (1983) ·Zbl 0509.68104号
[60] Carberry,S.,《计划识别技术》,用户模型。用户适配器。互动。,11, 1-2, 31-48, (2001) ·Zbl 1030.68613号
[61] Carmel,D。;Markovitch,S.,《对手游戏策略的学习模型》,(AAAI秋季研讨会系列会议记录,游戏:规划与学习,(1993)),140-147
[62] Carmel,D。;Markovitch,S.,将对手模型纳入对手搜索,(第13届全国人工智能会议论文集,(1996)),120-125
[63] Carmel,D。;Markovitch,S.,《在对手搜索中学习和使用对手模型》(1996),Technion计算机科学部,技术报告CIS9606
[64] Carmel,D。;Markovitch,S.,智能代理的学习模型,(第13届AAAI人工智能全国会议论文集,(1996)),62-67
[65] Carmel,D。;Markovitch,S.,《如何(几乎)最优地探索对手的策略》,(《多智能体系统国际会议论文集》,(1998年),IEEE),64-71
[66] Carmel,D。;Markovitch,S.,多智能体系统中基于模型的交互策略学习,J.Exp.Theor。Artif公司。智力。,10, 3, 309-332, (1998) ·Zbl 1053.68591号
[67] Carmel,D。;Markovitch,S.,《多智能体系统中基于模型学习的探索策略》,Auton。代理多代理系统。,2, 2, 141-172, (1999)
[68] Chajewska,美国。;科勒,D。;Ormoneit,D.,《通过观察行为学习Agent的效用函数》(第18届机器学习国际会议论文集,(2001)),35-42
[69] Chajewska,美国。;科勒,D。;Parr,R.,《利用适应性效用启发进行理性决策》(《第17届全国人工智能会议论文集》,2000年),363-369
[70] 查克拉博蒂,D。;Stone,P.,《与马尔科夫临时队友合作》,(第十二届自治代理和多代理系统国际会议论文集,(2013年),1085-1092
[71] 查克拉博蒂,D。;Stone,P.,《在基于记忆的代理面前进行多代理学习》,Auton。代理多代理系统。,28, 2, 182-213, (2014)
[72] 查尔基阿达基斯,G。;Boutiler,C.,《多智能体强化学习中的协调:贝叶斯方法》(第二届自主智能体和多智能体系统国际会议论文集,(2003)),709-716
[73] Chaloner,K。;Verdinelli,I.,《贝叶斯实验设计:综述》,《统计科学》。,273-304,(1995年)·Zbl 0955.62617号
[74] Chandrasekaran先生。;埃克·A。;Doshi,P。;Soh,L.,《开放式和类型化agent系统中的个体规划》,(第32届人工智能不确定性会议论文集,(2016)),82-91
[75] 查尼亚克,E。;Goldman,R.,计划识别的贝叶斯模型,Artif。智力。,64, 1, 53-79, (1993)
[76] 克劳斯,C。;Boutiler,C.,合作多智能体系统中强化学习的动力学,(第15届全国人工智能会议论文集,(1998)),746-752
[77] 科霍恩,R。;Jennings,N.,《学习对手的偏好以进行有效的多议题谈判权衡》(《第六届国际电子商务会议论文集》,(2004年),ACM),59-68
[78] 科恩,P。;Levesque,H.,《团队合作,诺德斯》,25,4,487-512,(1991)
[79] 科恩,P。;佩罗,C。;Allen,J.,《超越问答》(Lehnert,W.;Ringle,M.,《自然语言处理策略》,(1981),Taylor&Fancis Group),245-274
[80] 科尼策,V。;Sandholm,T.,AWESOME:一种通用多智能体学习算法,在自我游戏中收敛,并学习对静止对手马赫的最佳反应。学习。,67, 1-2, 23-43, (2007) ·Zbl 1471.91075号
[81] 科尔特斯,C。;Vapnik,V.,支持向量网络,马赫。学习。,20, 3, 273-297, (1995) ·兹比尔08316.8098
[82] 克兰德尔,J.,《在重复游戏中尽量减少失望》,J.阿蒂夫。因特尔。决议,49,111-142,(2014)·Zbl 1353.68231号
[83] Dasgupta,P.,《信托作为一种商品》,(信托:建立和打破合作关系,第4卷,(2000)),第49-72页
[84] 戴维森。;Billings,D。;谢弗,J。;Szafron,D.,《改进扑克中的对手建模》(《国际人工智能会议论文集》,(2000年),1467-1473
[85] 戴维森,B。;Hirsh,H.,《预测用户动作序列》(AAAI/IMCL’98年预测未来研讨会:人工智能时间序列分析方法,1998年)
[86] de Farias,D。;Megiddo,N.,《反应环境中专家算法的探索与开发权衡》,(神经信息处理系统进展,第17卷,(2004)),409-416
[87] de Weerd,H。;Verbrugge,R。;Verheij,B.,知道她知道什么对你有多大帮助?一个基于代理的模拟研究,Artif。智力。,199, 67-92, (2013) ·Zbl 1284.68567号
[88] 德·维尔德,H。;韦尔布鲁格,R。;Verheij,B.,《与其他思维的谈判:思维递归理论在不完全信息谈判中的作用》,Auton。代理多代理系统。,31, 2, 250-287, (2017)
[89] 院长,T。;Kanazawa,K.,关于持久性和因果关系的推理模型,计算。智力。,5, 142-150, (1989)
[90] 德克尔,E。;福登堡,D。;莱文,D.,《学习玩贝叶斯游戏》,《游戏经济》。行为。,46, 2, 282-303, (2004) ·Zbl 1064.91024号
[91] Denzinger,J。;Hamdan,J.,《使用试探性刻板印象和观测压缩改进其他代理的建模》(IEEE/WIC/ACM智能代理技术国际会议论文集,(2004)),106-112
[92] Doshi,P。;Chandrasekaran,M。;Zeng,Y.,Epsilon-交互式动态影响图模型的主观等效,(IEEE/WIC/ACM网络智能和智能代理技术国际会议,第2卷,(2010),IEEE),165-172
[93] Doshi,P。;Gmytrasiewicz,P.,用于近似交互式pomdps的蒙特卡罗采样方法,J.Artif。因特尔。决议,297-337,(2009)·Zbl 1182.68236号
[94] Doshi,P。;Perez,D.,交互式pomdps的广义基于点的值迭代,(第23届AAAI人工智能会议论文集,(2008)),63-68
[95] Doshi,P。;曾勇。;Chen,Q.,《交互式POMDP的图形模型:表示和解决方案》,Auton。代理多代理系统。,18, 3, 376-416, (2009)
[96] Doucet,A。;De Freitas,N。;墨菲,K。;Russell,S.,Rao-blackwellised particle filtering for dynamic Bayesian networks,(第16届人工智能不确定性会议论文集,(2000)),176-183
[97] 埃尔多安,C。;Veloso,M.,《通过学习多机器人领域的行为模式进行动作选择》,(第22届国际人工智能联合会议论文集,(2011)),192-197年
[98] Fagan,M。;坎宁安,P.,计算机游戏中基于案例的计划识别,(基于案例推理国际会议,(2003),斯普林格),161-170·Zbl 1045.68703号
[99] 法贡德斯,M。;梅内古齐,F。;博尔迪尼,R。;Vieira,R.,《处理时间限制下计划识别的模糊性》,(第十三届自主代理和多代理系统国际会议论文集,(2014)),389-396
[100] 弗恩,A。;Tadeballi,P.,交互式助手的计算决策理论,(《神经信息处理系统进展》,(2010)),577-585
[101] 菲克斯,R。;Nilsson,N.,STRIPS:应用定理证明解决问题的新方法,Artif。智力。,189-208年2月3日至4日,(1971年)·兹伯利0234.68036
[102] Foster,D。;Young,H.,《关于无法预测理性代理人的行为》,Proc。国家。阿卡德。科学。,98, 22, 12848-12853, (2001)
[103] Foster,D。;Young,H.,《学习、假设检验和纳什均衡》,《游戏经济学》。行为。,45, 1, 73-96, (2003) ·Zbl 1054.91013号
[104] Fredkin,E.,Trie memory,Commun。美国医学会,3,9,490-499,(1960)
[105] 福登堡,D。;莱文,D.,《游戏中的学习理论》,第2卷,(1998年),麻省理工学院出版社·Zbl 0939.91004号
[106] Fürnkranz,J.,《游戏中的机器学习:一项调查》·Zbl 1026.68113号
[107] Gal,Y。;Pfeffer,A.,游戏中代理决策过程建模语言,(第二届自主代理和多代理系统国际会议论文集,(2003),ACM),265-272
[108] Gal,Y。;Pfeffer,A.,《重复游戏中对手建模语言》(AAMAS’03博弈论和决策理论研讨会,(2003))
[109] Gal,Y。;Pfeffer,A.,《影响图网络:代表代理人信念和决策过程的形式主义》,J.Artif。因特尔。第33号、第1号、第109-147号决议(2008年)·Zbl 1183.68574号
[110] Gal,Y。;Pfeffer,A。;Marzo,F。;Grosz,B.,《游戏中的社交偏好学习》(第19届AAAI人工智能全国会议论文集,(2004)),226-231
[111] 甘兹弗里德,S。;Sandholm,T.,大型不完全信息游戏中基于博弈论的对手建模,(第十届自治代理和多代理系统国际会议论文集,(2011)),533-540
[112] Geib,C.,评估计划识别的复杂性,(第19届AAAI人工智能全国会议论文集,(2004)),507-512
[113] 盖布,C。;Goldman,R.,入侵检测系统中的计划识别,(第二届DARPA信息生存能力会议和展览会论文集,(2001)),329-342
[114] 盖布,C。;Goldman,R.,基于计划树文法的概率计划识别算法,Artif。智力。,173, 11, 1101-1132, (2009)
[115] 盖布,C。;Steedman,M.,《自然语言处理和计划识别》,(第20届国际人工智能联合会议论文集,(2007)),1612-1617
[116] Ghaderi,H。;Levesque,H。;Lespérance,Y.,协调和联合能力的逻辑理论,(第22届AAAI人工智能会议论文集,(2007)),421-426
[117] Gmytrasiewicz,P。;Doshi,P.,《多智能体环境中的顺序规划框架》,J.Artif。因特尔。Res.,24,1,49-79,(2005年)·兹比尔1080.68664
[118] Gmytrasiewicz,P。;Durfee,E.,递归建模的严格操作形式化,(第一届多智能体系统国际会议论文集,(1995)),125-132
[119] Gmytrasiewicz,P。;Durfee,E.,《多智能体环境中的理性协调》,Auton。代理多代理系统。,3, 4, 319-350, (2000)
[120] Gmytrasiewicz,P。;Durfee,E。;Wehe,D.,《协调多智能体交互的决策理论方法》(第十二届国际人工智能联合会议论文集,(1991)),63-68·Zbl 0747.68069号
[121] Gmytrasiewicz,P。;Noh,S。;Kellogg,T.,递归代理模型的贝叶斯更新,用户模型。用户适配器。互动。,8, 1, 49-69, (1998)
[122] Gold,E.,从给定数据识别自动机的复杂性,Inf.Control,37,3,302-320,(1978)·Zbl 0376.68041号
[123] Gold,K.,《通过动作冒险游戏中的低级输入在线识别训练目标》(第六届AAAI人工智能和交互式数字娱乐会议论文集,(2010)),21-26
[124] 古迪,A。;Doshi,P。;Young,D.,《竞技游戏中的思维推理水平》,J.Behav。Decis公司。制造商。,25, 1, 95-108, (2012)
[125] Grosz,B。;Kraus,S.,《复杂群体行动的协作计划》,Artif。智力。,86, 2, 269-357, (1996) ·Zbl 1523.68100号
[126] Grosz,B。;Sidner,C.,注意、意图和话语结构,计算。语言学家。,12, 3, 175-204, (1986)
[127] Guerra-Hernández,A。;El Fallah-Seghrouchni,A。;Soldano,H.,《BDI多代理系统学习》,(多代理系统中的计算逻辑,(2004),斯普林格出版社),218-233·Zbl 1110.68504号
[128] Hammond,K.,CHEF:基于案例的规划模型,(第五届AAAI全国人工智能会议论文集,(1986)),267-271
[129] Harsanyi,J.,《无视对手效用函数的谈判》,J.Confl。决议。,6, 1, 29-38, (1962)
[130] Harsanyi,J.,“贝叶斯”玩家玩的信息不完整的游戏。第一部分,基本模型,Manag。科学。,14, 3, 159-182, (1967) ·Zbl 0207.51102号
[131] Harsanyi,J.,“贝叶斯”玩家玩的信息不完整的游戏。第二部分。贝叶斯均衡点,马纳。科学。,14, 5, 320-334, (1968) ·Zbl 0177.48402号
[132] Harsanyi,J.,“贝叶斯”玩家玩的信息不完整的游戏。第三部分,博弈的基本概率分布,Manag。科学。,14, 7, 486-502, (1968) ·Zbl 0177.48501号
[133] 哈特,S。;Mas-Colell,A.,《导致相关均衡的强化程序》(《经济论文:沃纳·希尔登布兰德的一场盛会》,(2001)),181-200·Zbl 1023.91004号
[134] Hausknecht,M。;Mupparaju,P。;Subramanian,S。;Kalyanakrishnan,S。;Stone,P.,《半场进攻:多智能体学习和特别团队合作的环境》(AAMAS’16自适应学习智能体研讨会,(2016))
[135] Hawasly,M。;Ramamoorthy,S.,《带选项层次结构的终身转移学习》,(智能机器人和系统国际会议,(2013),IEEE),1341-1346
[136] He,H。;Boyd-Graber,J。;Kwok,K。;Daumé,H.,深度强化学习中的对手建模,(第33届机器学习国际会议论文集,(2016)),1804-1813
[137] Hedden,T。;Zhang,J.,你觉得我觉得你是怎么想的矩阵博弈中的战略推理,认知,85,1,1-36,(2002)
[138] 埃尔南德斯·莱尔,P。;凯泽,M。;Baarslag,T。;de Cote,E.M.,《多智能体环境中的学习调查:处理非国家性》(2017),CoRR
[139] 埃尔南德斯·莱尔,P。;詹,Y。;泰勒,M。;Sucar,L。;de Cote,E.,高效检测针对非稳定对手的开关,Auton。Agent多Agent系统。,31, 4, 767-789, (2017)
[140] Hindriks,K。;Tykhonov,D.,使用贝叶斯学习的自动多问题协商中的对立建模,(第七届自主代理和多代理系统国际会议论文集,(2008)),331-338
[141] 黄,T。;Low,K.,《交互式POMDP精简版:走向实用规划,预测和利用与自利主体交互的意图》,(第23届国际人工智能联合会议论文集,(2013),2298-2305
[142] Hoehn,B。;Southey,F。;霍尔特,R。;Bulitko,V.,简化扑克中的有效短期对手利用,(第29届AAAI人工智能会议论文集,(2005)),783-788
[143] Hong,J.,作为计划识别范式的图形构建和分析,(第17届全国人工智能会议论文集,(2000)),774-779
[144] Hong,J.,通过目标图分析进行目标识别,J.Artif。因特尔。决议,15,1-30,(2001)·Zbl 0970.68193号
[145] 霍斯特,R。;帕尔达洛斯,P。;Thoai,N.,《全球优化导论》,(2000年),Kluwer学术出版社·兹伯利0966.90073
[146] Howard,R.,信息价值理论,IEEE Trans。系统。科学。赛博。,2, 1, 22-26, (1966)
[147] 霍华德·R。;Matheson,J.,《影响图》(Howard,R.;Matheson
[148] 霍华德·R。;Matheson,J.,影响图,Decis。分析。,2, 3, 127-143, (2005)
[149] 谢家华。;Sun,C.,通过分析实时策略游戏的回放建立玩家策略模型,(IEEE国际神经网络联合会议,(2008)),3106-3111
[150] Huynh,T。;北卡罗来纳州詹宁斯。;Shadbolt,N.,开放多代理系统的集成信任和声誉模型,Auton。代理多代理系统。,13, 2, 119-154, (2006)
[151] 伊格莱西亚斯,J。;Angelov,P。;Ledezma,A。;Sanchis,A.,《代理人行为的进化分类:一般方法》,Evolv。系统。,1, 3, 161-171, (2010)
[152] 伊格莱西亚斯,J。;Ledezma,A。;Sanchis,A。;Kaminka,G.,高效分类足球队的行为,Intell。自动。系统。,10, 316-323, (2008)
[153] 艾达·H。;Kotani,Y。;Uiterwijk,J.,游戏树搜索中的辅导策略,(《没有机会的游戏》,第29卷,(1996)),433-435·Zbl 0869.90089
[154] 艾达·H。;尤特尔维克,J。;范登·赫里克,H。;Herschberg,I.,对手模型搜索的潜在应用。第1部分:适用范围,ICCA J.,16,201-208,(1993)
[155] 艾达·H。;Uiterwijk,J。;van den Herik,H。;Herschberg,I.,对手模型搜索的潜在应用。第2部分:风险与策略,《国际资本市场协会期刊》,17,10-14,(1994)
[156] 伊利诺布雷,A。;冈萨雷斯,J。;奥特罗,R。;Santos,J.,《在RoboCup 2D仿真环境中学习对手行为的动作描述》(《第20届感应逻辑编程国际会议论文集》,(2010),Springer),105-113
[157] 贾维斯,P。;伦特,T。;Myers,K.,《利用AI计划识别技术识别恐怖活动》,AI Mag.,26,3,73,(2005)
[158] Jensen,F。;Nielsen,T.,不确定性下优化的概率决策图,4OR,9,1,1-28,(2011)·Zbl 1217.68212号
[159] Jensen,S。;Boley,D。;基尼,M。;Schrater,P.,自适应代理快速在线时间序列预测,(第四届自治代理和多代理系统国际会议论文集,(2005)),67-73
[160] Johanson,M。;Bowling,M.,《数据偏向稳健应对策略》(第十二届国际人工智能与统计会议论文集,(2009年),264-271
[161] Johanson,M。;Zinkevich,M。;Bowling,M.,《计算稳健的对抗策略》,(神经信息处理系统进展,第20卷,(2008)),721-728
[162] Kaelbling,L。;利特曼,M。;Cassandra,A.,《部分可观测随机域中的规划和行动》,Artif。智力。,101, 1, 99-134, (1998) ·兹比尔0908.68165
[163] 卡莱,E。;Lehrer,E.,理性学习导致纳什均衡,《计量经济学》,61,5,1019-1045,(1993)·Zbl 0793.90106号
[164] 卡明卡,G。;Fidanboylu,M。;Chang,A。;Veloso,M.,《从观察中学习团队的顺序协调行为》(RoboCup 2002:机器人足球世界杯第六届,(2002),Springer),111-125
[165] 卡明卡,G。;Pynadath博士。;Tambe,M.,通过窃听监控团队:一种多智能体计划识别方法,J.Artif。因特尔。决议,17,1,83-135,(2002)·Zbl 1045.68135号
[166] Karpinskyj,S。;赞比塔,F。;Cavedon,L.,《视频游戏个性化技术:综合调查》,《娱乐计算》。,5, 4, 211-218, (2014)
[167] 考茨,H。;Allen,J.,《广义计划识别》(第五届全国人工智能会议论文集,(1986)),32-37
[168] 卡恩斯,M。;利特曼,M。;Singh,S.,博弈论的图形模型,(第17届人工智能不确定性会议论文集,(2001)),253-260
[169] 克伦,S。;加尔,A。;Karpas,E.,目标识别设计,(第24届自动规划和调度国际会议论文集,(2014)),154-162
[170] 克伦,S。;加尔,A。;Karpas,E.,非最优代理的目标识别设计,(第29届AAAI人工智能会议论文集,(2015)),3298-3304
[171] 克伦,S。;加尔,A。;Karpas,E.,具有不可观察动作的目标识别设计,(第30届AAAI人工智能会议论文集,(2016)),3152-3158
[172] 科克兹,B。;Cox,M.,《基于案例的增量计划识别与局部预测》,国际期刊Artif。因特尔。工具,12,4,413-463,(2003)
[173] H.北野。;Tambe,M。;斯通,P。;维洛索,M。;Coradeschi,S。;Osawa,E。;Matsubara,H。;野田佳彦。;Asada,M.,《机器人杯合成剂挑战97》,(第十五届国际人工智能联合会议论文集,(1997年),24-29
[174] Kocsis,L。;Szepesvári,C.,基于Bandit的Monte-Carlo规划(第17届欧洲机器学习会议论文集,(2006),Springer),282-293
[175] 科勒,D。;弗里德曼,N.,概率图形模型:原理和技术,(2009),麻省理工学院出版社·Zbl 1183.68483号
[176] 科勒,D。;Milch,B.,代表和解决游戏的多代理影响图,游戏经济学。行为。,45, 1, 181-221, (2003) ·Zbl 1054.91007号
[177] Kolodner,J.,基于案例的推理,(2014),Morgan Kaufmann
[178] 科米斯,F。;Geffner,H.,多智能体规划中的信念:从一个智能体到多个智能体,(第25届自动规划与调度国际会议论文集,(2015)),147-155
[179] Kuhlmann,G。;诺克斯·W。;Stone,P.,《了解你的敌人:机器人杯冠军教练经纪人》(《第21届全国人工智能会议论文集》,2006年),1463-1468
[180] La Mura,P.,《游戏网络》(《第16届人工智能不确定性会议论文集》,2000年),第335-342页
[181] 拉苏塔,P。;Fong,T。;Shah,J.,《安全人机交互方法调查》,Found。机器人趋势,5,4,261-349,(2014)
[182] Lattner,A。;Miene,A。;维瑟,美国。;Herzog,O.,模拟机器人足球中态势和行为预测的序列模式挖掘,(RoboCup 2005,LNAI,第4020卷,(2005),Springer),118-129
[183] Laviers,K。;Sukthankar,G。;莫利诺,M。;Aha,D.,《通过对手建模提高进攻性能》(第五届交互式数字娱乐人工智能会议论文集,(2009)),58-63
[184] Ledezma,A。;Aler,R。;Sanchis,A。;Borrajo,D.,OMBO:对手建模方法,AI Commun。,22, 1, 21-35, (2009) ·Zbl 1200.68246号
[185] Lesh,N。;Etzioni,O.,一个声音快速的目标识别器,(第十四届国际人工智能联合会议论文集,(1995)),1704-1710
[186] Litman,D。;Allen,J.,《澄清子类群的计划识别模型》(第十届国际计算语言学会议论文集,(1984)),302-311
[187] 洛克特,A。;陈,C。;Miikkulainen,R.,《游戏中进化显式对手模型》,(第九届遗传与进化计算会议论文集,(2007)),2106-2113
[188] Löwe,B。;Pacuit,E。;Witzel,A.,《基于动态认知逻辑的规划》(2010),阿姆斯特丹大学逻辑、语言和计算研究所,技术报告PP-2010-14
[189] 马尔科维奇,S。;Reger,R.,学习和利用对手代理的相对弱点,Auton。代理多代理系统。,10,2103-130,(2005年)
[190] 麦卡拉,G。;瓦西列娃,J。;格里尔,J。;Bull,S.,主动学习者建模,(第五届智能辅导系统国际会议论文集,(2000)),53-62
[191] McCarthy,J.,转写——非单调推理的一种形式,人工智能。智力。,13, 1, 27-39, (1980) ·兹比尔0435.68073
[192] 麦卡锡,J。;海耶斯,P.,《从人工智能的角度来看的一些哲学问题》,马赫。智力。,4, 463-502, (1969) ·Zbl 0226.68044号
[193] 麦克拉肯,P。;Bowling,M.,《游戏中代理建模的安全策略》(AAAI人工多代理学习秋季研讨会,(2004)),103-110
[194] McTear,M.,《自适应计算机系统的用户建模:最新发展概览》,Artif。因特尔。第7版、第3版、第157-184版(1993年)
[195] 米林,R。;Shapiro,J.,《简化扑克中预期最大化和序列预测的对手建模》,IEEE Trans。计算。因特尔。人工智能游戏,9,(2017)
[196] 米尔奇,B。;Koller,D.,代理信念和决策的概率模型,(第16届人工智能不确定性会议论文集,(2000)),389-396
[197] 米林顿,I。;Funge,J.,《游戏人工智能》(2009),CRC出版社
[198] Miorandi,D。;马耳他,V。;罗瓦索斯,M。;Nijholt,A。;Stewart,J.,《社会集体智慧:将人类和机器的力量结合起来构建更智能的社会》,(2014),斯普林格出版社
[199] 莫尔,Y。;Goldman,C。;Rosenschein,J.,学习对手的策略(在多项式时间内)!,(1995年IJCAI多智能体系统适应与学习研讨会)
[200] Muggleton,S.,《归纳逻辑编程》,新一代。计算。,8, 4, 295-318, (1991) ·Zbl 0712.68022号
[201] 梅,L。;莫塔希米,M。;Halberstadt,A.,信任和声誉的计算模型,(第35届夏威夷国际系统科学年会论文集,(2002),IEEE),2431-2439
[202] Muise,C。;贝勒,V。;Felli,P。;McIlraith,S。;米勒,T。;皮尔斯,A。;Sonenberg,L.,《多智能体认知状态规划:经典规划方法》(第29届AAAI人工智能会议论文集,(2015)),3327-3334
[203] Myerson,R.,《博弈论:冲突分析》(1991),哈佛大学出版社·Zbl 0729.90092号
[204] Nachbar,J.,重复游戏中的信念,计量经济学,73,2459-480,(2005)·Zbl 1145.91317号
[205] Nash,J.,n人博弈中的平衡点,Proc。国家。阿卡德。科学。,36,1,48-49,(1950)·兹伯利0036.01104
[206] Ng,A。;Russell,S.,《反向强化学习算法》(第17届机器学习国际会议论文集,(2000)),663-670
[207] Ng,B。;Boakye,K。;梅耶斯,C。;Wang,A.,Bayes-adaptive interactive pomdps,(第26届AAAI人工智能会议论文集,(2012)),1408-1414
[208] Nguyen,T.-H.D。;徐,D。;Lee,W.S。;Leong,T.-Y。;Kaelbling,L.P。;Lozano-Perez,T。;Grant,A.H.,《CAPIR:具有意图识别的协作行动计划》,(第七届AAAI人工智能和交互式数字娱乐会议论文集,2011年),61-66
[209] 尼尔森,T。;Jensen,F.,从(可能)不一致的行为中学习决策者的效用函数,Artif。智力。,160, 1-2, 53-78, (2004) ·Zbl 1086.91019号
[210] Nyarko,Y.,《贝叶斯学习与无公共先验纳什均衡收敛》,《经济学》。理论,11,3,643-655,(1998)·Zbl 0911.90371号
[211] 哦,J。;梅内古齐,F。;Sycara,K。;Norman,T.,预测推理辅助的代理架构,(第22届国际人工智能联合会议论文集,(2011)),2513-2518
[212] Olorunleke,O。;McCalla,G.,《代理建模-代理研究的简明路线图》(IJCAI’05从观察中建模其他代理研讨会,(2005))
[213] Panait,L。;Luke,S.,《合作多智能体学习:最新进展》,Auton。代理多代理系统。,11, 3, 387-434, (2005)
[214] Panella,A。;Gmytrasiewicz,P.,带其他代理有限状态模型的交互式POMDP,Auton。代理多代理系统。,(2017)
[215] Pearl,J.,《智能系统中的概率推理:似是而非推理网络》(1988),摩根·考夫曼
[216] 平约尔,I。;Sabater-Mir,J.,《开放多智能体系统的计算信任和声誉模型:综述》,Artif。因特尔。版次:40、1、1-25(2013)
[217] Pitt,L.,归纳推理、DFA和计算复杂性,(国际类比和归纳推理研讨会,(1989),施普林格),18-44
[218] Pollack,M.,区分行动者和观察者信念的计划推理模型,(计算语言学协会第24届年会论文集,(1986)),207-214
[219] Pourmehr,S。;Dadkhah,C.,《机器人杯足球模拟2D中对手建模概述》(RoboCup 2011,LNCS,第7416卷,(2012),Springer),402-414
[220] 权力,R。;Shoham,Y.,《利用有限记忆学习对抗对手》(第19届国际人工智能联合会议论文集,(2005)),817-822
[221] 皮纳塔斯,D。;Wellman,M.,《计划识别的概率状态依赖文法》,(第16届人工智能不确定性会议论文集,(2000)),507-514
[222] 拉姆特尔,S。;Huynh,D。;Jennings,N.,《信任多代理系统》,Knowl。工程版次,19,1,1-25,(2004)
[223] 拉米雷斯,M。;Geffner,H.,《将计划识别为计划》,(第21届国际人工智能联合会议论文集,(2009)),1778-1783
[224] 拉米雷斯,M。;Geffner,H.,使用非自有经典规划师进行概率计划识别,(第24届AAAI人工智能会议论文集,(2010)),1121-1126
[225] 拉姆雷兹,M。;Geffner,H.,《POMDP的目标识别:推断POMDP代理人的意图》(第22届国际人工智能联合会议论文集,(2011)),2009-2014年
[226] Rathnasabapathy,B。;Doshi,P。;Gmytrasiewicz,P.,使用行为等效的交互式POMDP的精确解,(第五届自治代理和多代理系统国际会议论文集,(2006)),1025-1032
[227] Reibman,A。;Ballard,B.,《用于对付易犯错误的对手的非最小最大搜索策略》(第三届AAAI人工智能全国会议论文集,(1983)),338-342
[228] 莱利,P。;Veloso,M.,《对抗环境中的行为分类》(Distributed Autonomous Robotic Systems 4,(2000),Springer),371-380
[229] 莱利,P。;Veloso,M.,《识别概率对手运动模型》(RoboCup 2001,LNAI,第2377卷,(2002),Springer),453-458·Zbl 1050.68878号
[230] 罗瓦索斯,M。;魏ß,G。;Wolf,M.,《开放系统的多智能体学习:对手分类研究》(Adaptive Agents and Multi-Agent systems,LNAI,vol.2636,(2003),Springer),66-87·Zbl 1032.68705号
[231] 罗耶,E。;Toh,C.,《当前移动无线网络路由协议综述》,IEEE Pers.Commun。,6, 2, 46-55, (1999)
[232] 鲁宾,J。;沃森,I.,《电脑扑克:评论》,Artif。智力。,175958-9872011年
[233] Sabater,J。;Sierra,C.,《后悔:社交社会的声誉模型》,(第四期代理社会欺诈和信任研讨会,第70卷,(2001年)),61-69
[234] 萨迪博士。;Sastry,S。;Seshia,S。;Dragan,A.,关于人类内部状态的信息收集行动,(IEEE智能机器人与系统国际会议论文集,(2016)),66-73
[235] Saria,S。;Mahadevan,S.,多智能体系统中的概率计划识别,(第14届国际自动规划与调度会议论文集,(2004)),287-296
[236] 谢德,F。;Bakkes,S。;Spronck,P.,实时战略游戏中的对手建模,(第八届欧洲GAMEON年会论文集,(2007)),61-70
[237] Schillo,M。;Funk,P。;Rovatsos,M.,《利用信任来检测人工社会中的欺诈行为》,应用。Artif公司。智力。,14, 8, 825-848, (2000)
[238] 施密德,A。;韦德,O。;Wörn,H.,基于人类意图估计的主动机器人任务选择,(第16届IEEE机器人与人类交互通信国际研讨会论文集,(2007)),726-731
[239] 施密特,C。;北卡罗来纳州斯里德哈兰。;Goodson,J.,《计划识别问题:心理学和人工智能的交叉》,Artif。智力。,11, 1-2, 45-83, (1978)
[240] Sen,S。;Arora,N.,《学习冒险》(AAAI’97多智能体学习研讨会,(1997)),59-64
[241] Sen,S。;Weiss,G.,《多智能体系统中的学习》(multiagent systems:A Modern Approach to Distributed Artificial Intelligence,1999),麻省理工学院出版社,259-298,第6章
[242] Settles,B.,《主动学习》(2012),摩根&克莱普尔出版社·Zbl 1270.68006号
[243] Shachter,R.,评估影响图,Oper。研究,34,6,871-882,(1986)
[244] 西尔弗·D。;黄,A。;Maddison,C.J。;A.盖兹。;Sifre,L。;Van Den Driessche,G。;Schrittwieser,J。;安东尼奥卢,I。;Panneershelvam,V。;Lanctot,M.,《掌握深度神经网络和树搜索的游戏》,《自然》,529,7587,484-489,(2016)
[245] 辛格,S。;A.巴托。;Chentanez,N.,《内在激励强化学习》,(神经信息处理系统进展,2005年),1281-1288
[246] Sohrabi,S。;Riabov,A。;Udrea,O.,重新审视规划时的计划认可,(第25届国际人工智能联合会议论文集,(2016)),3258-3264
[247] Sondik,E.,部分可观测马尔可夫过程的最优控制,(1971),斯坦福大学博士论文
[248] 索努,E。;Doshi,P.,使用广义和有界策略迭代的交互式POMDP的可扩展解决方案,Auton。Agent多Agent系统。,29, 3, 455-494, (2015)
[249] Southey,F。;保龄球,M。;拉森,B。;Piccione,C。;伯奇,N。;Billings,D。;Rayner,C.,《贝叶斯的虚张声势:扑克中的对手建模》,(第21届人工智能不确定性会议论文集,(2005)),550-558
[250] 斯普龙克,P。;den Teuling,F.,《文明中的玩家建模IV》,(第六届AAAI人工智能与交互式数字娱乐会议论文集,(2010)),180-185
[251] Steffens,T.,《根据对手建模中的代理类型调整相似性度量》,(AAMAS’04从观察中建模其他代理研讨会,(2004)),125-128
[252] Steffens,T.,《基于特征的声明性对抗建模》(RoboCup 2003,LNAI,第3020卷,(2004),Springer),125-136
[253] Steffens,T.,使用不完美领域理论的基于相似性的对手建模,(第一届IEEE计算智能与游戏研讨会论文集,(2005)),285-291
[254] 斯通,P。;卡明卡,G。;克劳斯,S。;Rosenschein,J.,Ad hoc autonomous agent teams:无需预先协调的协作,(第24届AAAI人工智能会议论文集,(2010)),1504-1509
[255] 斯通,P。;莱利,P。;Veloso,M.,《定义和使用理想队友和对手-代理人模型》,(第12届人工智能创新应用会议论文集,(2000)),441-442
[256] 斯通,P。;Veloso,M.,《任务分解、动态角色分配和用于实时战略团队的低带宽通信》,Artif。智力。,110, 2, 241-273, (1999) ·Zbl 1047.68631号
[257] 斯通,P。;Veloso,M.,《多智能体系统:从机器学习角度的调查》,Auton。机器人,8,3,345-383,(2000)
[258] Sukthankar,G。;戈德曼,R。;盖布,C。;皮纳塔斯,D。;Bui,H.,《计划、活动和意图识别:理论与实践》,(2014),摩根·考夫曼
[259] Sukthankar,G。;Sycara,K.,《多层战术场景的政策识别》,(第六届自主代理和多代理系统国际会议论文集,(2007)),58-65
[260] Sukthankar,G。;Sycara,K.,大型计划识别问题的假设修剪和排序,(第23届AAAI人工智能会议论文集,(2008)),998-1003
[261] 苏里亚迪,D。;Gmytrasiewicz,P.,使用影响图学习其他代理的模型,(第七届用户建模国际会议论文集,(1999)),223-234
[262] 辛纳芙,G。;Bessiere,P.,RTS游戏开场预测的贝叶斯模型及其在星际飞船中的应用,(IEEE计算智能与游戏会议,(2011)),281-288
[263] 高桥Y。;江泽一郎,K。;Asada,M.,多智能体环境中行为获取的多模块学习系统,(IEEE/RSJ智能机器人和系统国际会议,第1卷,(2002),IEEE),927-931
[264] Tambe,M.,实时动态环境中的递归代理和代理组跟踪,(第一届多代理系统国际会议论文集,(1995)),368-375
[265] Tambe,M.,《追踪动态团队活动》(第13届全国人工智能会议论文集,(1996)),80-87
[266] Tambe,M.,《走向灵活的团队合作》,J.Artif。因特尔。决议,783-124,(1997)
[267] Tambe,M。;Rosenbloom,P.,RESC:实时动态代理跟踪方法(第14届国际人工智能联合会议论文集,(1995)),103-110
[268] 田,X。;卓,H。;Kambhampati,S.,《基于行动分布式表示的基础计划发现》,(第十五届自治代理和多代理系统国际会议论文集,(2016)),1135-1143
[269] Tuyls,K。;Weiss,G.,《多智能体学习:基础、挑战和前景》,AI Mag.,33,3,41,(2012)
[270] van den Herik,H。;Donkers,H。;Spronck,P.,《对手建模与商业游戏》(IEEE 2005年计算智能与游戏研讨会论文集,(2005)),15-25
[271] Van Der Hoek,W。;Wooldridge,M.,认知目标的可追踪多智能体规划,(第一届自主智能体和多智能体艾斯特斯国际会议论文集,(2002),ACM),1167-1174
[272] Veloso,M.,通过类比推理进行规划和学习,LNAI,第886卷,(1994),Springer-Verlag·Zbl 0875.68747号
[273] Vered,M。;Kaminka,G.,连续域中的启发式在线目标识别,(第26届国际人工智能联合会议论文集,(2017)),4447-4454
[274] 维克里·D·。;Koller,D.,解决图形游戏的多代理算法,(第18届全国人工智能会议论文集,(2002),AAAI),345-351
[275] 维达尔,J。;Durfee,E.,使用有限理性的递归代理建模,(第一届多代理系统国际会议论文集,(1995)),376-383
[276] 维瑟,美国。;Weland,H.,《使用在线学习分析对手的行为》(RoboCup 2002:机器人足球世界杯第六届,(2002),Springer),78-93
[277] 冯·诺依曼,J。;《博弈论与经济行为》,(1944年),普林斯顿大学出版社·Zbl 0063.05930号
[278] 王,Z。;Boularias,A。;穆林,K。;Peters,J.,平衡对手建模中的安全性和可利用性,(第25届AAAI人工智能会议论文集,(2011)),1515-1520
[279] 沃特金斯,C。;大研,P.,Q-learning,马赫。学习。,8,3279-292,(1992年)·Zbl 0773.68062号
[280] Wayllace,C。;侯,P。;Yeoh,W.,随机目标识别设计问题的新度量和算法,(第26届国际人工智能联合会议论文集,(2017)),4455-4462
[281] 韦伯,B。;Mateas,M.,战略预测的数据挖掘方法,(IEEE计算智能与游戏研讨会论文集,(2009)),140-147
[282] Wilks,Y。;Ballim,A.,《多智能体与信念的启发式归属》(第十届国际人工智能联合会议论文集,1986年),118-124
[283] Wright,J。;Leyton-Brown,K.,《超越平衡:预测正常形态游戏中的人类行为》,(第24届AAAI人工智能会议论文集,(2010)),901-907
[284] 吉田,W。;杜兰,R。;Friston,K.,《心理博弈论》,《公共科学图书馆·计算》。生物学,4,12,(2008)
[285] 余,H。;沈,Z。;Leung,C。;Miao,C。;Lesser,V.,《多代理信任管理系统的调查》,IEEE Access,1,35-50,(2013)
[286] 曾勇。;Doshi,P.,利用模型等效性求解交互式动态影响图,J.Artif。因特尔。研究,43,211-255,(2012)·Zbl 1237.68199号
[287] 卓,H。;Li,L.,具有部分团队跟踪和计划库的多智能体计划识别,(第22届国际人工智能联合会议论文集,(2011)),484-489
[288] 卓,H。;杨琼。;Kambhampati,S.,基于行动模型的多智能体计划识别,(神经信息处理系统进展,(2012)),368-376
[289] 祖克曼,I。;Albrecht,D.,用户建模的预测统计模型,用户模型。用户适配器。互动。,11, 1, 5-18, (2001) ·Zbl 1030.68915号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。