丹尼尔·布劳恩(Daniel A.Braun)。;佩德罗·奥尔特加。 信息论的有限理性和(ε)-最优性。 (英语) Zbl 1338.91050号 熵 16,第8期,4662-4676(2014). 摘要:有限理性涉及对信息处理资源有限的决策者的研究。以前,人们建议使用自由能量差函数来模拟有界理性决策,因为它可以在要优化的能量或效用函数与用熵搜索成本衡量的信息处理成本之间进行自然的权衡。本文的主要问题是信息理论自由能模型如何与有界理性决策的简单(ε)-最优性模型相关,其中决策者对最优效用的ε-邻域中的任何行为都感到满意。我们发现,优化自由能权衡的随机策略符合(ε)-最优性的概念。此外,这种优化准则甚至适用于对抗性环境。我们得出的结论是,基于抽象出信息处理约束细节的\(ε)-最优性准则的有限理性研究与有限理性的信息论自由能模型是相容的。 引用于5文件 理学硕士: 91B06型 决策理论 91A26型 博弈论中的理性与学习 94甲15 信息论(总论) 62C05型 统计决策理论的一般考虑 PDF格式BibTeX公司 XML格式引用 \textit{D.A.Braun}和\textit{P.A.Ortega},熵16,第8期,4662-4676(2014;Zbl 1338.91050) 全文: 内政部 参考文献: [1] Gintis,行为科学统一框架,Behav。脑科学30第1页–(2006) [2] 罗素,《人工智能:现代方法》(1995)·Zbl 0835.68093号 [3] Kreps,《选择理论笔记》(1988年) [4] Trommershauser,决策,运动规划和统计决策理论,趋势认知。《科学》第12卷第291页–(2008年)·doi:10.1016/j.tics.2008.04.010 [5] 内政部:10.3389/fnhum.2011.00001·doi:10.3389/fnhum.2011.00001 [6] 沃尔伯特,电机控制是决策,Curr。操作。Neurobiol 22第996页–(2012年)·doi:10.1016/j.conb.2012.05.003 [7] Fishburn,《预期效用的基础》(1982年)·Zbl 0497.90001号 [8] 诺依曼,博弈论与经济行为(1944) [9] 西蒙,《理性选择与环境结构》,《心理学》。第63版第129页–(1956)·doi:10.1037/h0042769 [10] 西蒙,《有限理性、决策和组织理论》,第161页–(1972年) [11] 西蒙,《有限理性模型》(1984) [12] 奥曼,《理性与有限理性》,《游戏经济》。Behav 21第2页–(1997)·兹比尔0904.90188 ·doi:10.1006/游戏.1997.0585 [13] 鲁宾斯坦,《有限理性建模》(1998) [14] 卡尼曼,《有限理性地图:行为经济学心理学》,美国经济学。第93版第1449页–(2003)·doi:10.1257/00282803322655392 [15] McKelvey,正规形式博弈的量子响应均衡,博弈经济学。Behav 10第6页–(1995年)·Zbl 0832.90126号 ·doi:10.1006/游戏.1995.1023 [16] Mckelvey,《广义博弈的数量反应均衡》,《经济实验1》第9页–(1998)·Zbl 0920.90141号 ·doi:10.1023/A:1009905800005 [17] 沃尔伯特,《信息理论——连接有界理性博弈论和统计物理学的桥梁》,复杂工程系统第262页–(2006) [18] 斯皮格勒,有限理性与产业组织(2011) [19] Jones,《有限理性政治科学:公共行政和公共政策的教训》,《公共行政研究理论》第13页,第395页–(2003年)·doi:10.1093/jopart/mug028 [20] Gigerenzer,《有限理性:适应性工具箱》(2001) [21] 卡梅勒,《行为博弈论:战略互动实验》(2003年)·Zbl 1019.91001号 [22] Howes,《任务和加工约束下的理性适应:对认知和行动理论测试的启示》,《心理学》。第116版第717页–(2009年)·doi:10.1037/a0017187 [23] Janssen,使用自主任务交错的认知有界理性分析模型确定最佳绩效权衡,Top。认知。科学3第123页–(2011年)·doi:10.1111/j.1756-8765.2010.01125.x [24] 刘易斯,《计算理性:通过有限效用最大化将机制和行为联系起来》,托普。认知。科学(2014)·doi:10.1111/tops.12086 [25] Lipman,《信息处理与有限理性:调查》,Can。《经济学杂志》第28页第42页–(1995年)·doi:10.2307/13622 [27] Russell,Provable bounded-optimal agent,J.Artif。智力。第3号决议第575页–(1995年)·Zbl 0900.68091号 [28] Glimcher,《神经经济学:决策和大脑》(2008) [29] 内政部:10.3389/fnhum.2013.00598·doi:10.3389/fnhum.2013.00598 [30] 狄克逊,《关于经济理论和人工智能的一些思考》,《人工智能和经济分析:前景和问题》,第131页–(1992年) [32] 奥尔特加,《信息、效用和有限理性》,《人工智能》第269页–(2011年) [34] DOI:10.1098/rspa.2012.0683·兹比尔1372.91080 ·doi:10.1098/rspa.2012.0683 [35] 沃尔伯特,非合作博弈参数变化的滞后效应,物理学。版本E 85第036102页–(2012年)·doi:10.1103/PhysRevE.85.036102 [36] 卢斯,个人选择行为(1959)·Zbl 0093.31708号 [37] 麦克法登,定性选择行为的条件逻辑分析,《计量经济学前沿》第105页–(1974) [38] 梅金尼斯,一类新的赌博对称效用规则、主观边际概率函数和广义贝叶斯规则,1976年美国统计协会会议录,商业和经济统计部分,第471页–(1976) [39] Fudenberg,《学习混合均衡》,《游戏经济学》。Behav 5第320页–(1993)·Zbl 0790.90092号 ·doi:10.1006/游戏.1993.1021 [40] 萨顿,《强化学习:导论》(1998年) [41] 卢斯,《收益和损失的效用:计量理论和实验方法》(2000年)·Zbl 0997.91500号 [42] 训练,离散选择方法与模拟(2009) [43] Toussant,求解(PO)MDP的概率推理(2006) [44] 奥尔特加,《学习和行动的最小相对熵原理》,J.Artif。智力。第38号决议第475页–(2010年)·Zbl 1344.68248号 [45] 弗里斯顿,《自由能量原理:统一的大脑理论?》?,Nat.Rev.Neurosci 11第127页–(2010年)·doi:10.1038/nrn2787 [46] 蒂什比,《决策和行动的信息理论》,《感知-推理-行动循环:模型、算法和系统》(2011年) [47] 卡彭,作为图形模型推理问题的最优控制,马赫数。学习1第1页-(2012) [50] 奥尔特加,序列决策和因果推理的广义汤普森抽样,复杂Adap。系统。模型5第269页–(2014年) [53] Freund,在线学习的决策论推广及其在Boosting中的应用,J.Compute。系统。Sci 55第119页–(1997)·Zbl 0880.68103号 ·doi:10.1006/jcss.1997.1504 [54] 费曼,《费曼计算讲座》(1996) [55] 福登伯格,《游戏学习理论》(1998)·Zbl 0939.91004号 [56] 诺姆,算法博弈论(2007) [57] 富登伯格,《一致性与谨慎的虚拟游戏》,J.Econ。动态。对照19第1065页–(1995年)·兹比尔0900.90423 ·doi:10.1016/0165-1889(94)00819-4 此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不声称其完整性或完全匹配。