文件Zbl 1440.93017-zbMATH Open

基于状态的游戏的策略学习算法。（英语） Zbl 1440.93017号

Automatica公司 113，文章ID 108615，第9页（2020）.

总结：研究了基于状态的游戏的学习算法设计和应用。首先，提出了一种启发式非耦合学习算法，它是一种双记忆更好的应答学习规则。在可达性条件下，证明了对于任何初始状态，如果基于状态的博弈中的所有代理都遵循所提出的学习算法，那么动作状态对几乎肯定会收敛到循环状态平衡的动作不变集。学习算法的设计依赖于有限内存的全局和局部搜索，惯性和随机性。然后，研究了时间有效的通用学习算法的存在性。最后，讨论了我们提出的学习算法的应用，包括学习有限博弈中的纯纳什均衡和时变通信结构的协同控制。

引用于7文件

MSC公司：

93甲16	多代理系统
93E35型	随机学习与自适应控制
91A26型	博弈论中的理性与学习
91A80型	博弈论的应用

关键词：

战略学习；基于国家的游戏；循环状态平衡；多智能体系统

PDF格式 BibTeX公司 XML格式引用

全文： DOI程序 arXiv公司

参考文献：

[1]	French，J.R.P.，《社会权力的形式理论》，《心理学评论》，63，3811-194（1956）
[2]	哈特，S。；Mansour，Y.，平衡需要多长时间？非耦合均衡过程的传播复杂性，游戏与经济行为，69，1，107-126（2010）·Zbl 1229.91029号
[3]	哈特，S。；Mas-Colell，A.，《随机非耦合动力学与纳什均衡》，《博弈与经济行为》，57，2，286-303（2006）·Zbl 1156.91319号
[4]	Jordan，J.S.，学习混合战略纳什均衡的三个问题，博弈与经济行为，5，3，368-386（1993）·Zbl 0805.90131号
[5]	Liang，Y.，Liu，F.，&Wei，W.等（2016）。智能电网分布式经济调度问题的基于状态的潜在博弈方法。IEEE电力和能源学会大会论文集，（第1-5页）。
[6]	Marden，J.R.，基于州的潜在游戏，Automatica，48，12，3075-3088（2012）·Zbl 1255.93012号
[7]	Marden，J.R.，通过分布式学习选择有效的相关均衡，游戏与经济行为，106，114-133（2017）·兹比尔1414.91067
[8]	Marden，J.R。；Shamma，J.S.，博弈论与分布式控制，《经济应用博弈论手册》，41861-899（2015）
[9]	Marden，J.R。；Young，H.P。；Pao，L.Y.，通过分布式学习实现帕累托最优，SIAM控制与优化杂志，52，5，2753-2770（2014）·Zbl 1305.91045号
[10]	奥坎波·马丁内斯，C。；Quijano，N.，《工程系统控制中的博弈论方法：专题简介》，IEEE控制系统，37，1，30-32（2017）·兹比尔1477.93113
[11]	B.S.R.普拉德尔斯基。；Young，H.P.，《分布式系统中的学习有效纳什均衡》，《游戏与经济行为》，75，2882-897（2012）·Zbl 1239.91018号
[12]	Rahili，S.和Ren，W.（2014）。未知环境下传感器覆盖问题的博弈论控制解。第53届IEEE决策与控制会议记录（第1173-1178页）。
[13]	西萨德。；韩，Z。；Poor，H.，《智能电网的博弈论方法：微电网系统、需求端管理和智能电网通信概述》，IEEE Signal Processing Magazine，29，86-105（2012）
[14]	Shamma，J.S。；Arslan，G.，《动态虚拟游戏、动态梯度游戏和纳什均衡的分布式收敛》，IEEE自动控制汇刊，50，3，312-327（2005）·Zbl 1366.91028号
[15]	Shapley，L.S.，《随机游戏》，美国国家科学院院刊，39，10，1095-1100（1953）·Zbl 0051.35805号
[16]	Talebi，M.S.，《在重复游戏中寻求平衡的非耦合学习规则：概述》，《计算机科学》，1-29（2013）
[17]	Wang，X.，Xiao，N.，&Wongpiromsarn，T.等（2013）。非合作拥挤博弈中的分布式共识：道路定价的应用。程序中。第十届IEEE国际会议控制。Aut.，（第1668-1673页）。
[18]	杨，B。；Johansson，M.，分布式优化和游戏：教程概述，网络控制系统，406109-148（2010）·Zbl 1227.90030号
[19]	Young，H.P.，《战略学习及其局限》（2004），牛津大学出版社：牛津大学出版社，英国牛津
[20]	Young，H.P.，《通过试错学习》，《游戏与经济行为》，65，2，626-643（2009）·Zbl 1158.91327号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：书本；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

基于状态的游戏的策略学习算法。（英语） Zbl 1440.93017号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

基于状态的游戏的策略学习算法。 （英语） Zbl 1440.93017号

MSC公司：

关键词：

参考文献：

基于状态的游戏的策略学习算法。（英语） Zbl 1440.93017号