文件Zbl 1510.91023-zbMATH Open

空节点影响强化学习下的条件合作。（英语） Zbl 1510.91023号

申请。数学。计算。 413，文章ID 126658，8 p.（2022）.

摘要：在社会困境中，个体行为一般遵循条件合作和情感条件合作的特征。然而，用进化博弈理论很难充分解释条件合作的行为模式。本文将基于期望的强化学习方法引入公共物品博弈中，以调查和解释行为模式。我们没有像以前的研究那样让个人占据整个网络，而是专注于研究具有空节点的网络上的个人行为模式。在总人口密度下的结果表明了我们模型的有效性，因为它们与之前的研究一致，即个体的行为表现出条件合作及其变种穆迪条件合作。然而，在节点为空的网络中，有条件合作表现出相反的趋势。我们最后证明，适当的人口密度可以促进合作的维持和发展。

引用于5文件

MSC公司：

91A22型	进化游戏
91A26型	博弈论中的理性与学习

关键词：

强化学习；空节点；有条件合作；公共物品博弈；进化博弈论

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Nowak，医学硕士。；May，R.M.，《进化博弈与空间混沌》，《自然》，359，6398，826-829（1992）
[2]	Ohtsuki，H。；Hauert，C。；利伯曼，E。；Nowak，M.A.，图表和社交网络上合作演变的简单规则，《自然》，441、7092、502-505（2006）
[3]	Tanimoto，J。；Sagara，H.，两层对称博弈中困境发生与弱优势策略存在之间的关系，生物系统，90，1，105-114（2007）
[4]	Szolnoki，A。；Szabó，G.等人。；Perc，M.，带有池惩罚的空间公共物品游戏的相图，Phys。修订版E，83036101（2011）
[5]	王，Z。；科库博，S。；Tanimoto，J。；福田，E。；Shigaki，K.，洞察所谓的空间互惠，Phys。版本E，88，4，042145（2013）
[6]	伊藤，H。；Tanimoto，J.，《动态效用：合作进化的第六种互惠机制》，R.Soc.开放科学。，7, 00891 (2020)
[7]	Szabó，G.等人。；Fáth，G.，《图上的进化游戏》，《物理学》。代表，446，97-216（2007）
[8]	Nax，H.H。；Perc，M.，《定向学习和公共物品的提供》，科学。代表58010（2015）
[9]	卡普拉罗，V。；Perc，M.，道德偏好的数学基础，J.R.Soc.Interface，18202000880（2021）
[10]	贾，D。；郭，H。；宋，Z。；Shi，L。；邓，X。；Perc，M。；王忠，强化学习中的局部和全局刺激，新物理杂志。，23, 083020 (2021)
[11]	Perc，M.，基于代理的模型中子系统解决方案的稳定性，Eur.J.Phys。，39, 014001 (2018)
[12]	王，Z。；Wang，L。；Szolnoki，A。；Perc，M.，《多层网络上的进化游戏：学术讨论会》，《欧洲物理学》。J.B，88，124（2015）
[13]	Perc，M。；Jordan，J.J。；兰德·D·G。；王，Z。；博卡莱蒂，S。；Szolnoki，A.，人类合作的统计物理学，物理学。代表，687，1-51（2017）·Zbl 1366.80006号
[14]	莱曼，L。；Keller，L.，《合作与利他主义的演变——一般框架和模型分类》，J.Evol。《生物学》，第19期，1365-1376页（2006年）
[15]	南美洲西部。；格里芬，A。；加德纳，A.，《社会语义学：利他主义、合作、互惠、强互惠和群体选择》，J.Evol。《生物学》，第20期，第415-432页（2007年）
[16]	Axelrod，R.，《合作的演变》，纽约：基础图书（1984）
[17]	Kraines，D。；Kraines，V.，《学习与巴甫洛夫合作：一种应对反复囚徒困境的自适应策略》，《决策理论》。，35107-150（1993年）·Zbl 0800.90794号
[18]	米林斯基（Milinski，M.），《脊背鲸中的以牙还牙与合作的进化》，《自然》，325433-435（1987）
[19]	Nowak，医学硕士。；Sigmund，K.，异质种群中的以牙还牙，《自然》，355，250-253（2004）
[20]	Nowak，医学硕士。；Sigmund，K.，《囚犯困境游戏中的一种胜留败转移策略》，《自然》，364，56-58（1993）
[21]	希尔贝，C。；查特吉，K。；Nowak，M.A.，《直接互惠中的合作伙伴和竞争对手》，Nat.Hum.Behav。，2, 469-477 (2018)
[22]	王，Z。；Jusup，M。；Shi，L。；Lee，J.H。；伊瓦萨，Y。；Boccaletti，S.，《利用认知偏见促进社会困境实验中的合作》，Nat.Commun。，9, 2954 (2018)
[23]	凯瑟，C。；van Winden，F.，《有条件合作和对公共物品的自愿捐款》，Scand。《经济学杂志》。，102, 23-39 (2000)
[24]	美国菲施巴赫。；Gächter，S。；Fehr，E.，人们是否有条件地合作？来自公共物品实验的证据，Econ。莱特。，71, 397-404 (2001) ·Zbl 0999.91001号
[25]	费尔，E。；美国菲施巴赫，《社会规范与人类合作》，《趋势认知》。科学。，8, 185-190 (2004)
[26]	博顿·切勒，M.N。；El，M.C。；West，S.A.，《公共物品实验中的条件合作与混淆》，Proc。国家。阿卡德。科学。美国，1131291-1296（2016）
[27]	Gracia-Lázaro，C.，《当人类陷入囚徒困境时，异质网络不会促进合作》，Proc。国家。阿卡德。科学。美国，10912922-12926（2012）
[28]	Grujić，J。；Röhl，T。；Semmann，D。；米林斯基，M。；Traulsen，A.，《空间和非空间行为实验中的一致策略更新并不能促进社交网络中的合作》，《公共科学图书馆·综合》，7，e47718（2012）
[29]	Schlag，K.H.，为什么要模仿，如果是，如何模仿？针对多武装匪徒的有限理性方法，J.Econ。理论，78，130-156（1998）·Zbl 0895.90003号
[30]	Schlag，K.H.，我应该模仿哪一个？，数学杂志。经济。，31, 493-522 (1999) ·兹伯利0947.91025
[31]	王，Z。；科库博，S。；Jusup，M。；Tanimoto，J.，进化游戏中两难困境强度的通用尺度，Phys。生活评论，14，1-30（2015）
[32]	Arefin，M.R。；Tanimoto，J.，渴望和模仿机制共存下社会困境中合作的演变，Phys。版本E，102，032120（2020）
[33]	贾，D。；王，X。；宋，Z。；罗米奇一世。；李，X。；Jusup，M。；Wang，Z.，《进化动力学在玩家群体中推动角色专业化》，J.R.Soc.Interface，1720200174（2020）
[34]	桑托斯，F.P。；F.C.桑托斯。；帕切科，J.M.，《合作进化中的社会规范复杂性和过去声誉》，《自然》，555242-245（2018）
[35]	Amaral，医学硕士。；Wardil，L。；Perc，M。；Silva，J.，《进化社会困境中具有动态期望的随机win-stay-lo-shift策略》，《自然》，94，3，032317（2016）
[36]	梅西，M.W.，《学会合作：社会交换中的随机和默契共谋》，美国社会学杂志。，97, 3, 808-843 (1991)
[37]	布什，R.R。；Mosteller，F.，《学习的随机模型》，纽约：威利出版社（1955）·Zbl 0064.39002号
[38]	梅西，M.W。；Flache，A.，《社会困境中的学习动力》，Proc。国家。阿卡德。科学。美国，99，7229-7236（2002）·兹比尔1355.91014
[39]	Ezaki，T。；Y.Horita。；竹泽，M。；北卡罗来纳州Masuda的强化学习解释了条件合作及其情绪化的表亲PLoS Compute。生物，12，7，e1005034（2016）
[40]	Izquierdo，L.R。；Izquierdo，S.S。；新墨西哥州戈茨。；Polhill，J.G.，《游戏中强化学习的瞬态和渐近动力学》，游戏经济学。行为。，61, 2, 259-276 (2007) ·Zbl 1275.91024号
[41]	Izquierdo，S.S。；Izquierdo，L.R。；Gotts，N.M.，《社会困境中的强化学习动力》，J.Artif。Soc.Soc.仿真。，11, 2, 1 (2008)
[42]	北马苏达州。；Nakamura，M.，《迭代囚犯困境中动态期望水平强化学习模型的数值分析》，J.Theor。生物学，27855-62（2011）·兹比尔1307.91029
[43]	Y.Horita。；竹泽，M。；Inukai，K。；基塔，T。；Masuda，N.，《强化学习解释情绪化条件合作行为：实验结果》，科学。代表，739275（2017）

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

空节点影响强化学习下的条件合作。（英语） Zbl 1510.91023号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

空节点影响强化学习下的条件合作。 （英语） Zbl 1510.91023号

MSC公司：

关键词：

参考文献：

空节点影响强化学习下的条件合作。（英语） Zbl 1510.91023号