×

面向工程师的多智能体学习。 (英语) 兹比尔1168.68477

摘要:如标题所示Y.肖姆,R.权力、和T.格雷纳格的立场文件【Artif.Intell.171,No.7,365–377(2007;Zbl 1168.68493号)],评估多智能体学习框架的最终视角是“问题是什么?”。在本文中,我们通过提出工程应用带来的挑战来解决这个问题,并讨论了多智能体学习在应对这些挑战方面的潜在吸引力。此外,我们强调了基本假设和关注问题中的各种差异,这些差异通常将工程应用与经济博弈论文献中通常考虑的模型区分开来。

MSC公司:

68T05型 人工智能中的学习和自适应系统
91A26型 博弈论中的理性与学习
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] R.K.Ahuja,A.Kumar,K.Jha,J.B.Orlin,武器目标分配问题的精确和启发式方法,技术报告#4464-03,麻省理工学院,斯隆管理学院工作文件,2003年;R.K.Ahuja,A.Kumar,K.Jha,J.B.Orlin,武器目标分配问题的精确和启发式方法,技术报告#4464-03,麻省理工学院,斯隆管理学院工作文件,2003年·Zbl 1167.90555号
[2] 阿凯拉,R。;Kumar,P.R.,《防故障制造系统中生产率的最优控制》,IEEE自动控制汇刊,31,2,116-126(1986)·Zbl 0579.90047号
[3] 奥尔特曼,E。;布洛涅,T。;El Azouzi,R。;吉姆·内兹,T。;Wynter,L.,《电信、计算机和运筹学网络游戏调查》,33,2,286-311(2005)·Zbl 1116.91310号
[4] 奥尔特曼,E。;Shimkin,N.,处理器共享系统中的个体均衡和学习,运筹学,46,776-784(1998)·Zbl 0987.90020号
[5] Arrow,K.J.,《经济系统中自我和他人的合理性》,《商业杂志》,59,4,S385-S399(1986)
[6] 阿尔斯兰,G。;马尔登,J.R。;Shamma,J.S.,《自动车辆目标分配:博弈论公式》(2006)
[7] 奥尔,P。;塞萨·比安奇,N。;弗伦德,Y。;Schapire,R.E.,《非随机多武器盗贼问题》,SIAM计算机杂志,32,1,48-77(2002)·Zbl 1029.68087号
[8] (Basar,T.,《控制理论:二十五篇学术论文》(1932-1981)(2000),威利出版社:威利纽约)
[9] R.W.比尔德。;麦克莱恩,T.W。;Goodrich,医学硕士。;Anderson,E.P.,《无人飞行器的协调目标分配和拦截》,IEEE机器人与自动化学报,18,6,911-922(2002)
[10] 博卡尔,V.S。;Kumar,P.R.,网络中的动态Cesaro-Wardrop平衡,IEEE自动控制汇刊,48,3,382-396(2003)·Zbl 1364.90081号
[11] 卡梅勒,C.F.,《行为博弈论:战略互动实验》(2003),普林斯顿大学出版社:普林斯顿大学出版,新泽西州普林斯顿·Zbl 1019.91001号
[12] 塞萨·比安奇,N。;Lugosi,G.,《预测、学习与游戏》(2006),剑桥大学出版社:剑桥大学出版社纽约·Zbl 1114.91001号
[13] 福斯特,D.P。;Vohra,R.,《校准学习与相关均衡》,《游戏与经济行为》,第21期,第40-55页(1997年)·Zbl 0894.90188号
[14] 福斯特,D.P。;Young,H.P.,《学习、假设检验和纳什均衡》,《游戏与经济行为》,45,73-96(2003)·Zbl 1054.91013号
[15] 福登堡,D。;莱文,D.K.,《游戏中的学习理论》(1998),麻省理工学院出版社:麻省理学院出版社,剑桥·Zbl 0939.91004号
[16] Gershwin,S.B.,《制造系统工程》(1994),普伦蒂斯·霍尔:普伦蒂斯霍尔·恩格尔伍德克利夫斯,新泽西州·Zbl 0903.90070号
[17] Hart,S.,《自适应启发式》,《计量经济学》,73,5,1401-1430(2005)·兹比尔1152.91370
[18] 哈特,S。;Mas-Colell,A.,《非耦合动力学不会导致纳什均衡》,《美国经济评论》,93,5,1830-1836(2003)
[19] 哈特,S。;Mas-Colell,A.,《随机非耦合动力学和纳什均衡》(2004),预印本·Zbl 1156.91319号
[20] 胡,J。;Wellman,M.,广义和随机博弈的Nash Q学习,机器学习研究杂志,41039-1069(2003)·兹比尔1094.68076
[21] S.M.Kakade,D.P.Foster,《确定性校准与纳什均衡》,载:J.Shawe Taylor,Y.Singer(编辑),《第17届学习理论年会论文集》,2004年,第33-48页;S.M.Kakade,D.P.Foster,《确定性校准和纳什均衡》,J.Shawe-Taylor,Y.Singer(编辑),《第17届学习理论年会论文集》,2004年,第33-48页·Zbl 1078.91004号
[22] M.J.Kearns,M.L.Littman,S.P.Singh,博弈论的图形模型,载于《第17届人工智能不确定性会议论文集》,2001年,第253-260页;M.J.Kearns,M.L.Littman,S.P.Singh,博弈论的图形模型,摘自:《第17届人工智能不确定性会议论文集》,2001年,第253-260页
[23] Kelly,F.P.,《弹性流量的收费和速率控制》,《欧洲电信交易》,第8期,第33-37页(1997年)
[24] Kimemia,J。;Gershwin,S.B.,《柔性制造系统的计算机控制算法》,IIE Transactions,15,4,353-362(1983)
[25] Kumar,P.R.,Re-entrant lines,排队系统:理论与应用,13,87-110(1993)·Zbl 0772.90049号
[26] 拉脱维亚共和国。;Anantharam,V.,《最优路由控制:重复博弈方法》,IEEE自动控制汇刊,47,3,437-450(2002)·Zbl 1364.91028号
[27] S.Mannor,J.S.Shamma,G.Arslan,《在线校准预测:游戏中学习的记忆效率与普遍性》,《机器学习杂志》,“学习与计算游戏理论”特刊,2006年9月在线出版;S.Mannor,J.S.Shamma,G.Arslan,《在线校准预测:游戏中学习的记忆效率与普遍性》,《机器学习杂志》,“学习与计算游戏理论”特刊,2006年9月在线出版
[28] 曼诺,S。;Shimkin,N.,竞争马尔可夫决策过程中的经验贝叶斯包络和后悔最小化,运筹学数学,28,2,327-345(2003)·Zbl 1082.91027号
[29] Murphey,R.A.,《基于目标的武器目标分配问题》(Pardalos,P.M.;Pitsoulis,L.S.,《非线性分配问题:算法和应用》(1999),Kluwer学术出版社:Kluwer-学术出版社Dordrecht),39-53·Zbl 1172.90428号
[30] 奥达,A。;Rom,R。;Shimkin,N.,《多用户通信网络中的竞争路由》,IEEE/ACM Trans。网络,1,5,510-521(1993)
[31] Roughgarden,T.,《自私的路线和无政府的价格》(2005),麻省理工学院出版社:麻省理学院出版社,马萨诸塞州剑桥
[32] Samuelson,L.,《进化博弈与均衡选择》(1997),麻省理工学院出版社:麻省理学院出版社,马萨诸塞州剑桥·Zbl 0953.91500
[33] Shamma,J.S。;Arslan,G.,《动态虚拟游戏、动态梯度游戏和纳什均衡的分布式收敛》,IEEE自动控制汇刊,50,3,312-327(2005)·Zbl 1366.91028号
[34] 肖姆,Y。;权力,R。;Grenager,T.,如果多智能体学习是答案,那么问题是什么?,人工智能,171,7,365-377(2007),本期·Zbl 1168.68493号
[35] Weibull,J.W.,《进化博弈论》(1995),麻省理工学院出版社:麻省理学院出版社剑桥·Zbl 0879.90206号
[36] Wolpert博士。;Tumer,K.,集体智能概述,(Bradshaw,J.M.,《代理技术手册》(1999),AAAI出版社/麻省理工学院出版社)·Zbl 1056.68113号
[37] Young,H.P.,《个人战略与社会结构》(1998),普林斯顿大学出版社:普林斯顿大学出版,新泽西州普林斯顿
[38] Young,H.P.,《战略学习及其局限》(2006),牛津大学出版社:牛津大学出版社
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。