×

基于状态的游戏的策略学习算法。 (英语) Zbl 1440.93017号

总结:研究了基于状态的游戏的学习算法设计和应用。首先,提出了一种启发式非耦合学习算法,它是一种双记忆更好的应答学习规则。在可达性条件下,证明了对于任何初始状态,如果基于状态的博弈中的所有代理都遵循所提出的学习算法,那么动作状态对几乎肯定会收敛到循环状态平衡的动作不变集。学习算法的设计依赖于有限内存的全局和局部搜索,惯性和随机性。然后,研究了时间有效的通用学习算法的存在性。最后,讨论了我们提出的学习算法的应用,包括学习有限博弈中的纯纳什均衡和时变通信结构的协同控制。

MSC公司:

93甲16 多代理系统
93E35型 随机学习与自适应控制
91A26型 博弈论中的理性与学习
91A80型 博弈论的应用
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] French,J.R.P.,《社会权力的形式理论》,《心理学评论》,63,3811-194(1956)
[2] 哈特,S。;Mansour,Y.,平衡需要多长时间?非耦合均衡过程的传播复杂性,游戏与经济行为,69,1,107-126(2010)·Zbl 1229.91029号
[3] 哈特,S。;Mas-Colell,A.,《随机非耦合动力学与纳什均衡》,《博弈与经济行为》,57,2,286-303(2006)·Zbl 1156.91319号
[4] Jordan,J.S.,学习混合战略纳什均衡的三个问题,博弈与经济行为,5,3,368-386(1993)·Zbl 0805.90131号
[5] Liang,Y.,Liu,F.,&Wei,W.等(2016)。智能电网分布式经济调度问题的基于状态的潜在博弈方法。IEEE电力和能源学会大会论文集,(第1-5页)。
[6] Marden,J.R.,基于州的潜在游戏,Automatica,48,12,3075-3088(2012)·Zbl 1255.93012号
[7] Marden,J.R.,通过分布式学习选择有效的相关均衡,游戏与经济行为,106,114-133(2017)·兹比尔1414.91067
[8] Marden,J.R。;Shamma,J.S.,博弈论与分布式控制,《经济应用博弈论手册》,41861-899(2015)
[9] Marden,J.R。;Young,H.P。;Pao,L.Y.,通过分布式学习实现帕累托最优,SIAM控制与优化杂志,52,5,2753-2770(2014)·Zbl 1305.91045号
[10] 奥坎波·马丁内斯,C。;Quijano,N.,《工程系统控制中的博弈论方法:专题简介》,IEEE控制系统,37,1,30-32(2017)·兹比尔1477.93113
[11] B.S.R.普拉德尔斯基。;Young,H.P.,《分布式系统中的学习有效纳什均衡》,《游戏与经济行为》,75,2882-897(2012)·Zbl 1239.91018号
[12] Rahili,S.和Ren,W.(2014)。未知环境下传感器覆盖问题的博弈论控制解。第53届IEEE决策与控制会议记录(第1173-1178页)。
[13] 西萨德。;韩,Z。;Poor,H.,《智能电网的博弈论方法:微电网系统、需求端管理和智能电网通信概述》,IEEE Signal Processing Magazine,29,86-105(2012)
[14] Shamma,J.S。;Arslan,G.,《动态虚拟游戏、动态梯度游戏和纳什均衡的分布式收敛》,IEEE自动控制汇刊,50,3,312-327(2005)·Zbl 1366.91028号
[15] Shapley,L.S.,《随机游戏》,美国国家科学院院刊,39,10,1095-1100(1953)·Zbl 0051.35805号
[16] Talebi,M.S.,《在重复游戏中寻求平衡的非耦合学习规则:概述》,《计算机科学》,1-29(2013)
[17] Wang,X.,Xiao,N.,&Wongpiromsarn,T.等(2013)。非合作拥挤博弈中的分布式共识:道路定价的应用。程序中。第十届IEEE国际会议控制。Aut.,(第1668-1673页)。
[18] 杨,B。;Johansson,M.,分布式优化和游戏:教程概述,网络控制系统,406109-148(2010)·Zbl 1227.90030号
[19] Young,H.P.,《战略学习及其局限》(2004),牛津大学出版社:牛津大学出版社,英国牛津
[20] Young,H.P.,《通过试错学习》,《游戏与经济行为》,65,2,626-643(2009)·Zbl 1158.91327号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。