文件Zbl 1521.91004-zbMATH Open

通过最佳和更好的响应在两层对称游戏中进行评估和学习。（英语） Zbl 1521.91004号

信息科学。 647，文章ID 119459，16 p.（2023）.

小结：本文着重于填补两层对称博弈中策略评估和策略学习之间的差距，因为学习算法可能会收敛到评估指标不首选的策略。当玩家决定自己的策略时，首先需要评估候选策略，而不需要知道对手的决定。然后，根据评估结果首选选择了策略。相反，如果在每个训练片段中都知道其他参与者的策略，则构造了许多多智能体强化学习算法。在本文中，我们首先介绍了基于汇平衡描述策略评估中参与者的首选策略。这些指标可以被视为游戏中的广义解决方案概念。然后，我们提出了经典的两种变体自娱自乐算法，命名为绝对最佳响应和弱反应更好的自我游戏，学习玩家的策略。通过将学习过程建模为遍历联合策略响应图，我们证明了在某些条件下，两个变量学习的策略分别是两个指标下的首选策略，从而填补了评价学习的空白，并确保了首选策略的学习。我们还研究了这两个指标之间的关系。

MSC公司：

91A05型	2人游戏
91A15型	随机博弈，随机微分博弈
91A26型	博弈论中的理性与学习

关键词：

博弈论;战略评估;多智能体强化学习;最佳反应;自娱自乐

软件：

特鲁斯吉尔;TrueSkill公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Arslan，G。；Yüksel，S.，随机团队和游戏的分散Q-学习，IEEE Trans。自动。控制，621545-1558（2016）·Zbl 1366.91030号
[2]	巴尔杜齐，D。；Tuyls，K。；佩罗拉特，J。；Graepel，T.，重新评估评估，（第32届神经信息处理系统国际会议论文集（2018）），3272-3283
[3]	O.比格。；Shames，I.，两层游戏的图形结构，科学。代表，1833年（2023年）
[4]	博罗夫斯基，H。；Marden，J.R.，《半匿名势博弈中的快速收敛》，IEEE Trans。控制网络。系统。，4, 246-258 (2017) ·Zbl 1371.91008号
[5]	Brown，G.W.，通过虚拟游戏迭代求解游戏，生产和分配活动分析，13374-376（1951）·Zbl 0045.09902号
[6]	曹，X。；孙，H。；郭，L.，三维水下环境中多AUV目标搜索的势场分层强化学习方法，国际控制杂志，93，1677-1683（2020）·Zbl 1453.93155号
[7]	卡佩罗，D。；Mylvaganam，T.，多智能体系统控制的分布式微分对策，IEEE Trans。控制网络。系统。，9, 635-646 (2021)
[8]	查普曼，A.C。；Leslie，D.S。；罗杰斯，A。；Jennings，N.R.，未知奖励游戏的收敛学习算法，SIAM J.Control Optim。，51, 3154-3180 (2013) ·兹比尔1280.91007
[9]	科尼策，V。；Sandholm，T.，《计算承诺的最佳策略》（第七届ACM电子商务会议论文集（2006）），82-90
[10]	Czarnecki，W.M。；Gidel，G。；特蕾西，B。；Tuyls，K。；Omidshaviei，S。；Balduzzi博士。；Jaderberg，M.，《真实世界的游戏看起来就像旋转的陀螺》（第34届神经信息处理系统会议论文集（2020）），17443-17454
[11]	杜，Y。；严，X。；陈，X。；Wang，J。；Zhang，H.，从低秩矩阵完成的几个条目中估计α秩，（第38届机器学习国际会议论文集（2021）），2870-2879
[12]	埃克辛，C。；Paarporn，K.，《反协调网络游戏中的学习控制》，IEEE Trans。控制网络。系统。，7, 1823-1835 (2020) ·Zbl 07583248号
[13]	Elo，A.E.，《国际象棋运动员的评分，过去和现在》（1978年），Arco Pub。
[14]	戈曼斯，M。；Mirrorkni，V。；Vetta，A.，Sink平衡与收敛，（第46届IEEE计算机科学基础年会论文集（2005）），142-151
[15]	Govaert，A。；拉马齐，P。；Cao，M.，空间公共物品游戏中的理性、模仿和理性模仿，IEEE Trans。控制网络。系统。，8, 1324-1335 (2021)
[16]	Grammatico，S.，《多智能体网络游戏中的近距离动力学》，IEEE Trans。控制网络。系统。，1707-1716年5月（2018年）·Zbl 1515.91037号
[17]	Hansen，E.A。；伯恩斯坦，D.S。；Zilberstein，S.，部分可观测随机博弈的动态规划，（美国人工智能协会（2004）），709-715
[18]	Herbrich，R。；Minka，T。；Graepel，T.，Trueskill™：贝叶斯技能评级系统（神经信息处理系统进展（2006））
[19]	胡，J。；Wellman，M.P.，《多智能体强化学习：理论框架和算法》（1998年第15届机器学习国际会议论文集），242-250
[20]	胡，J。；Wellman，M.P.，广义和随机博弈的Nash Q学习，J.Mach。学习。第4号决议，1039-1069（2003）·Zbl 1094.68076号
[21]	Isaacs，R.，《微分对策：数学理论及其在战争、追击、控制和优化中的应用》（1965年），John Wiley and Sons，Inc:John Willey and Sons公司，纽约·Zbl 0125.38001号
[22]	Jaderberg，M。；Czarnecki，W.M。；邓宁，I。；马里斯。；杠杆G。；卡斯塔涅达，A.G。；比蒂，C。；北卡罗来纳州拉比诺维茨。；Morcos，A.S。；Ruderman，A。；Sonnerat，N。；格林，T。；Deason，L。；雷波，J.Z。；西尔弗·D。；哈萨比斯，D。；Kavukcuoglu，K。；Graepel，T.，《基于人口的强化学习在3D多人游戏中的人性化表现》，《科学》，364859-865（2019）
[23]	Kober，J。；Bagnell，J.A。；Peters，J.，《机器人强化学习：调查》，国际机器人杂志。研究，32，1238-1274（2013）
[24]	Lanctot，M。；赞巴尔迪，V。；Gruslys，A。；拉扎里杜，A。；Tuyls，K。；佩罗拉特，J。；西尔弗·D。；Graepel，T.，《多智能体强化学习的统一游戏理论方法》（Advances in Neural Information Processing Systems，2017），4193-4206
[25]	O.H.莱尔马。；Lasserre，J.B.，离散时间马尔可夫控制过程：基本最优准则（1996），施普林格：施普林格纽约
[26]	李，J。；丁，J。；Chai，T。；Lewis，F.L.，《用于大规模工业过程性能优化的非零和博弈强化学习》，IEEE Trans。赛博。，50, 4132-4145 (2020)
[27]	Littman，M.L.，一般和游戏中的Friend-or-Foe Q-learning，（第18届机器学习国际会议论文集（2001）），322-328
[28]	Marden，J.R。；Shamma，J.S.，《重新审视对数线性学习：异步、完整性和基于支付的实现》，《游戏经济》。行为。，75, 788-808 (2012) ·Zbl 1239.91017号
[29]	McMahan，H.B。；戈登·G·J。；Blum，A.，《对手控制成本函数时的规划》（第20届国际机器学习会议论文集（2003）），536-543
[30]	蒙德勒，D。；Shapley，L.S.，《潜在游戏》，《游戏经济》。行为。，14, 124-143 (1996) ·Zbl 0862.90137号
[31]	穆勒，P。；奥米德沙菲，S。；罗兰，M。；Tuyls，K。；佩罗拉特，J。；刘，S。；Hennes，D。；Marris，L。；Lanctot，M。；Hughes，E。；王，Z。；杠杆，G。；海斯，N。；Graepel，T。；Munos，R.，《多智能体学习的通用培训方法》（国际学习代表大会（2020年））
[32]	Nowé，A。；弗兰克斯，P。；De Hauare，Y.M.，《博弈论与多智能体强化学习》，441-470（2012），施普林格-柏林-海德堡：施普林格
[33]	Omidshaviei，S。；Papadimitriou，C。；皮里奥拉斯，G。；Tuyls，K。；罗兰，M。；Lespiau，J.B。；Czarnecki，W.M。；Lanctot，M。；佩罗拉特，J。；Munos，R.，α-秩：进化的多智能体评估，科学。代表，9937（2019）
[34]	Omidshaviei，S。；Tuyls，K.等人。；Czarnecki，W.M。；F.C.桑托斯。；罗兰，M。；康纳，J。；Hennes，D。；穆勒，P。；Pérolat，J。；维尔德，B.D。；Gruslys，A。；Munos，R.，《在多人游戏中导航》，《国家通讯》。，11, 5603 (2020)
[35]	Osborne，M.J.，《博弈论导论》，49-52（2004），牛津大学出版社：牛津大学出版社，纽约·Zbl 1140.91365号
[36]	Paarporn，K。；坎蒂，B。；Brown，P.N。；Alizadeh，M。；Marden，J.R.，《图形协调游戏中复杂且知情的对抗行为的影响》，IEEE Trans。控制网络。系统。，8200-2011（2021）·Zbl 07588087号
[37]	A.R.罗曼诺。；Pavel，L.，《动态NE寻找具有干扰抑制功能的多积分器网络代理》，IEEE Trans。控制网络。系统。，7, 129-139 (2020) ·Zbl 1516.93016号
[38]	Roughgarden，T.，算法博弈论，Commun。ACM，第53页，第78-86页（2010年）
[39]	罗兰，M。；Omidshaviei，S。；Tuyls，K。；佩罗拉特，J。；瓦尔科，M。；皮里奥拉斯，G。；Munos，R.，不完全信息下的多智能体评估，（神经信息处理系统进展（2019）），12270-12282
[40]	Samuel，A.L.，《使用跳棋游戏进行机器学习的一些研究》，IBM J.Res.Dev.，3210-229（1959）
[41]	Soemers，D.J。；萨莫特拉基斯，S。；皮埃特（Piette，E..）。；Stephenson，M.，《从一般游戏中的自演中提取战术》，《信息科学》。，624, 277-298 (2023)
[42]	Tuyls，K。；佩罗拉特，J。；Lanctot，M。；雷波，J.Z。；Graepel，T.，经验博弈分析的一般方法，（第17届国际自治代理和多代理系统会议论文集（2018）），77-85
[43]	葡萄酒，O。；巴布什金，I。；Czarnecki，W.M。；马修，M。；杜季克，A。；钟，J。；Choi，D.H.，《星际争霸II使用多智能体强化学习的大师级》，《自然》，575350-354（2019）
[44]	沃尔什·W·E。；达斯·R。；Tesauro，G。；Kephart，J.O.，分析多智能体系统中的复杂战略交互，（AAAI-02博弈论和决策论智能体研讨会，AAAI-03博弈论和决定论智能体会议，加拿大埃德蒙顿（2002）），109-118
[45]	韦斯特，D.B.，《图论导论》，193（2001），普伦蒂斯·霍尔：普伦蒂斯霍尔上鞍河
[46]	Yan，R。；段，X。；施，Z。；钟，Y。；Marden，J.R。；Bullo，F.，《政策评估和通过最佳响应寻求多智能体强化学习》，IEEE Trans。自动。对照，671898-1913（2022）·Zbl 07564806号
[47]	Ye，M。；Hu，G.，通过基于共识的方法寻求分布式纳什均衡，IEEE Trans。自动。控制，624811-4818（2017）·Zbl 1390.91081号
[48]	Ye，M。；胡，G。；Lewis，F.L.，寻求n联盟非合作博弈的Nash均衡，Automatica，95，266-272（2018）·兹比尔1417.91031
[49]	Yongacoglu，B。；Arslan，G。；Yüksel，S.，具有局部控制和全局状态信息的随机动态团队和游戏中的最优分散学习，IEEE Trans。自动。控制，67，5230-5245（2021）·Zbl 07741706号
[50]	Young，H.P.，《战略学习及其局限》（2004），牛津大学出版社

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
！ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

字段

操作员

通过最佳和更好的响应在两层对称游戏中进行评估和学习。（英语） Zbl 1521.91004号

MSC公司：

关键词：

软件：

参考文献：

示例

字段

操作员

通过最佳和更好的响应在两层对称游戏中进行评估和学习。 （英语） Zbl 1521.91004号

MSC公司：

关键词：

软件：

参考文献：

通过最佳和更好的响应在两层对称游戏中进行评估和学习。（英语） Zbl 1521.91004号