文件Zbl 1406.91026-zbMATH Open

重复游戏中的最优决策规则，玩家通过简化的信念计算推断对手的想法。（英语） Zbl 1406.91026号

游戏 7，第3号，第19号论文，23页（2016年）.

小结：在战略情境中，人类可以推断他人的心理状态，例如情绪或意图，从而适当地调整自己的行为。然而，对合作的进化研究通常只关注反应规范，例如以牙还牙，即个体通过只考虑观察到的结果而不是关注对手的心理状态来做出下一个决定。在本文中，我们分析了重复的两层游戏，其中玩家明确推断出对手的不可观察的心理状态。利用马尔可夫决策过程，我们研究了最优决策规则及其在协作中的性能。状态推理需要贝叶斯信念计算，这需要大量计算。因此，我们研究了两个模型，在这两个模型中，玩家简化了这些信念计算。在模型1中，玩家采用启发式近似推断对手的心理状态，而在模型2中，玩家使用从外部证据（例如情绪信号）获得的关于对手先前心理状态的信息。我们表明，两种模型中的玩家都通过承诺式决策规则达到了几乎最优的行为，根据这些规则，无论对手的行为如何，玩家都会选择相同的动作。这些类似承诺的决策规则可以根据对手的策略加强或减少合作。

引用于1文件

MSC公司：

91A20型	多阶段重复游戏
91A35型	博弈决策理论
91A05型	2人游戏
91A12号机组	合作游戏
91A28型	博弈论中的信号与通信
90立方厘米	马尔可夫和半马尔可夫决策过程

关键词：

合作;直接互惠;重复游戏;马尔可夫决策过程;启发式

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	W.D.汉密尔顿。；社会行为的遗传进化Ⅰ；J.西奥。生物学：1964年；第7卷，1-16。
[2]	S.A.西部。；格里芬，A.S。；加德纳，A。；合作的进化解释；货币。生物学：2007年；第17卷，R661-R672。
[3]	特里弗斯，R.L。；互惠利他主义的演变；Q.生物评论：1971; 第46卷，35-37页。
[4]	阿克塞尔罗德，R；合作的演变：美国纽约，纽约，1984·兹比尔1225.92037
[5]	Nowak，文学硕士。；合作演变的五条规则；科学：2006年；第314卷，1560-1563。
[6]	兰德，D.G。；Nowak，文学硕士。；人类合作；趋势认知。科学：2013年；第17卷，413-425。
[7]	Nowak，文学硕士。；Sigmund，K。；异质种群中的针锋相对；性质：1992年；第355卷，第250-253页。
[8]	Nowak，文学硕士。；Sigmund，K。；在《囚徒困境》游戏中，胜败交替的策略胜过针锋相对的策略；性质：1993年；第364卷，第56-58页。
[9]	Sigmund，K；自私的微积分：普林斯顿，新泽西州，美国2010·Zbl 1189.91010号
[10]	托马塞洛，M；人类交流的起源：美国马萨诸塞州剑桥，2010年。
[11]	希耶斯，C.M。；非人灵长类动物的心理理论；行为。脑科学：1998; 第21卷，101-114。
[12]	兰德，D.G。；福登堡，D。；Dreber，A。；重要的是思想：意图在嘈杂的重复游戏中的作用；《经济学杂志》。行为。器官：2015; 第116卷，481-499。
[13]	福加西。；法拉利，P.F。；Gesierich，B。；Rozzi，S。；Chersi，F。；Rizzolatti，G。；顶叶：从行动组织到意图理解；科学：2005年；第308卷，662-667。
[14]	安德森，R.A。；崔，H。；parietal-front电路中的意图、行动计划和决策；神经元：2009年；第63卷，568-583。
[15]	博尼尼，L。；法拉利，P.F。；Fogassi，L。；组织有意行为和理解他人意图的神经生理学基础；意识。认知：2013年；第22卷，1095-1104。
[16]	阿道夫·R。；情绪识别的神经系统；货币。操作。神经生物学：2002; 第12卷，169-177。
[17]	菲利普斯医学博士。；华盛顿州德雷维茨。；劳赫，S.L。；R巷。；情绪知觉的神经生物学Ⅰ：正常情绪知觉的神经元基础；生物心理学：2003；第54卷，504-514。
[18]	Anh，H.T。；佩雷拉，L.M。；F.C.桑托斯。；意向识别促进合作的出现；适应。行为：2011; 第19卷，264-279。
[19]	Han，T.A。；佛罗里达州桑托斯。；Lenaerts，T。；佩雷拉，L.M。；合作困境中意图确认和承诺之间的协同作用；科学。代表：2015年；第5卷，9312。
[20]	坎多里，M。；奥巴拉，I；走向基于信念的私人监控重复游戏理论：POMDP的应用：洛杉矶，加利福尼亚州，美国2010。
[21]	Yamamoto，Y；带隐藏状态的随机游戏，第二版（2015年6月1日）：美国纽约州罗切斯特，2015。
[22]	Ohtsuki，H。；伊瓦萨，Y。；Nowak，文学硕士。；间接互惠只为代价高昂的惩罚提供了很小的效率范围；性质：2009年；第457卷，第79-82页。
[23]	C.R.Schwenk。；战略决策中的认知简化过程；地层。管理。J.：1984年；第5卷，111-128。
[24]	戈德斯坦，D.G。；Gigerenzer，G。；生态理性模型：认知启发式；精神病。修订：2002年；第109卷，第75-90页。
[25]	施密特，K.L。；科恩，J.F。；人类面部表情的适应性：面部表情研究中的进化问题；美国物理学杂志。人类学：2001; 第116卷，3-24。
[26]	Kraines，D。；克莱恩斯，V。；巴甫洛夫与囚犯困境；西奥。拒绝：1989; 第26卷，第47-79页·Zbl 0800.90794号
[27]	福登堡，D。；Maskin，大肠杆菌。；嘈杂重复游戏中的进化与合作；美国经济。版次：1990年；第80卷，274-279。
[28]	苏格登，R；《权利、合作与福利经济学：牛津，英国1986年》。
[29]	弗里德曼，J.W。；超级博弈的非合作均衡；经济收益率。螺柱：1971；第38卷，1-12·Zbl 0274.90072号
[30]	Kaelbling，L.P。；利特曼，M.L。；卡桑德拉，A.R。；部分可观测随机域中的规划和行动；Artif公司。智力：1998; 第101卷，第99-134页·Zbl 0908.68165号
[31]	Hauskrecht，M。；部分可观测Markov决策过程的值函数逼近；J.阿蒂夫。智力。决议：2000；第13卷，33-94·Zbl 0946.68131号
[32]	K.P.墨菲。；POMDP解决方案技术综述；2000; .
[33]	德尔顿，A.W。；Krasnow，M.M。；科斯米德斯，L。；托比，J。；不确定性下直接互惠的演化可以解释人类在一次性遭遇中的慷慨行为；程序。国家。阿卡德。科学。美国：2011年；第108卷，13335-13340。
[34]	卡斯特拉诺，S。；贝叶斯规则和偏见在决策进化中的作用；行为。经济：2015; 第26卷，282-292。
[35]	杜塔，P.K。；随机对策的一个民间定理；《经济学杂志》。理论：1995; 第66卷，1-32·Zbl 0835.90139号
[36]	Hörner，J。；苏加亚，T。；高桥，S。；北卡罗来纳州维埃勒。；折扣随机对策中的递归方法：δ的一个算法→1和一个民间定理；计量经济学：2011年；第79卷，1277-1318·Zbl 1271.91063号
[37]	Nowak，文学硕士。；Sigmund，K。；El-Sedy，E。；自动化、重复游戏和噪音；数学杂志。生物学：1995年；第33卷，703-722·Zbl 0837.90140号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
！ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

字段

操作员

重复游戏中的最优决策规则，玩家通过简化的信念计算推断对手的想法。（英语） Zbl 1406.91026号

MSC公司：

关键词：

参考文献：

示例

字段

操作员

重复游戏中的最优决策规则，玩家通过简化的信念计算推断对手的想法。 （英语） Zbl 1406.91026号

MSC公司：

关键词：

参考文献：

重复游戏中的最优决策规则，玩家通过简化的信念计算推断对手的想法。（英语） Zbl 1406.91026号