×

理解和帮助动态决策的理论工具。 (英语) Zbl 1176.90274号

摘要:动态决策出现在许多应用中,包括军事、医疗、管理、体育和紧急情况。在过去的50年里,出现了各种通用而强大的工具来理解、分析和帮助人类做出这些决定。这些工具包括预期和多属性效用分析、博弈论、贝叶斯推理和贝叶斯网、决策树和影响图、随机最优控制理论、部分可观察的马尔可夫决策过程、神经网络和强化学习模型、马尔可夫逻辑和基于规则的认知架构。这些工具都是什么,它们是如何关联的,它们在什么时候最有用,这些工具是否与人类的决策方式相匹配?我们在为跨学科读者编写的广泛概述中解决了所有这些问题。对工具的每一个描述都介绍了它所依据的原则,并回顾了旨在测试人类是否真的使用这些原则进行决策的实证研究。最后,我们对未来的研究方向提出了建议。

MSC公司:

90B50型 管理决策,包括多个目标

软件:

POMDP公司
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Allais,M.,《所谓的Allais悖论和不确定性下的理性决策》(Hagen,O.;Allais M.,预期效用假设和Allais佯谬(1979)),437-681·Zbl 0468.90002号
[2] 安德森,J.R.,《思维的适应性》(1990),劳伦斯·埃尔鲍姆出版社:劳伦斯·埃尔鲍姆出版社,肯塔基州佛罗伦萨
[3] 安德森,J.R。;Bothell,D。;医学博士拜恩。;道格拉斯,S。;Lebiere,C。;秦永乐,《心理综合理论》,《心理学评论》,第111期,第1036-1060页(2004年)
[4] Anzai,Y.,实时事件驱动系统的认知控制,认知科学,8221-254(1984)
[5] Arkes,H.R。;Blummer,C.,沉没成本心理学,组织行为与人的绩效,35,11,124-140(1985)
[6] Astrom,K.J。;Murray,R.M.,《反馈系统:科学家和工程师导论》(2008),普林斯顿大学出版社:普林斯顿大学出版社,新泽西州普林斯顿·Zbl 1144.93001号
[7] Bar-Eli,M。;Raab,M.,《运动和锻炼中的判断和决策:重新发现和新视野》,《运动与锻炼心理学》,第7519-524页(2006年)
[8] Barron,G。;Erev,I.,《基于反馈的小决策及其与基于描述的决策的有限对应关系》,《行为决策杂志》,16,3,215-233(2003)
[9] Bernoulli,D.,风险计量新理论的阐述,《计量经济学》,22,23-36(1954)·Zbl 0055.12004号
[10] Berry,D。;Fristedt,B.,班迪特问题(1985),查普曼和霍尔:查普曼与霍尔伦敦,英国·Zbl 0659.62086号
[11] Bertsekas,D.P.,《动态规划和随机控制》(1976),学术出版社:纽约学术出版社·兹伯利0549.93064
[12] Bertsekas,D.P.,《动态规划:确定性和随机模型》(1987年),Prentice Hall:Prentice Hall Upper Saddle River,NJ·Zbl 0649.93001号
[13] Bertsekas,D.P。;Tsitsiklis,J.N.,神经动力学编程(1996),雅典娜科学:雅典娜科技贝尔蒙特,马萨诸塞州·Zbl 0924.68163号
[14] Biele,G。;埃雷夫,I。;Ert,E.,《不安的强盗问题中的学习、风险态度和热炉》,《数学心理学杂志》,第53、3、155-167页(2009年)·Zbl 1176.91134号
[15] 博加茨,R。;布朗,E。;Moehlis,J。;霍姆斯,P。;Cohen,J.D.,《最佳决策的物理学:两种替代强迫选择任务中表现模型的形式分析》,《心理学评论》,113700-765(2006)
[16] Brehmer,B。;Allard,R.,《实时动态决策:任务复杂性和反馈延迟的影响》(Rasmussen,J.;Brehmer,B.;Leplat,J.,《分布式决策;合作工作的认知模型》(1991),威利:威利-奇切斯特)
[17] Busemeyer,J.R.,《动态决策》(Dynamic decision making),(新泽西州斯迈尔斯;巴尔特斯,P.B.,《国际社会和行为科学百科全书》(2002),爱思唯尔出版社:牛津爱思唯尔出版社),第9l版。6. 3903-3908
[18] Busemeyer,J.R。;Stout,J.C.,《认知决策模型对临床评估的贡献:贝查拉赌博任务的分解表现》,《心理评估》,第14期,第253-262页(2002年)
[19] Busemeyer,J.R。;汤森,J.T.,《决策场理论:不确定环境中决策的动态认知方法》,《心理学评论》,100432-459(1993)
[20] 卡梅勒,C.F.,《战略互动中的行为博弈理论实验》(2003),普林斯顿大学出版社:普林斯顿大学出版,新泽西州普林斯顿·Zbl 1019.91001号
[21] 卡桑德拉(1998)。POMDP应用调查。(可从作者网站获取);卡桑德拉(1998)。POMDP应用调查。(可从作者网站获取。)
[22] 卡西马蒂斯,N.L.(2005)。基于不同计算方法集成计算模型。认知科学学会第27届年会会议记录; Cassimatis,N.L.(2005)。基于不同计算方法集成计算模型。认知科学学会第27届年会会议记录
[23] Clemens,R.T.,《做出艰难的决定:决策分析导论》(1996),华兹华斯:华兹华斯·贝尔蒙特,加利福尼亚州
[24] 库姆斯,C.H。;Avrunin,G.S.,《单峰函数与偏好理论》,《心理学评论》,84,2,216-230(1977)
[25] 库比特,R.P。;斯塔默,C。;Sugden,R.,《动态决策:来自经济学和心理学的一些最新证据》(Brocas,I.;Carrillo,J.D.,《经济决策的心理学》,第2卷(2004),牛津大学出版社:牛津大学出版社)
[26] 大研,P。;Balleine,B.W.,奖励、动机和强化学习,神经元,36285-298(2002)
[27] 道斯,R。;Hastie,R.,《不确定世界中的理性选择:判断和决策的心理学》(2001年),《圣人:千橡树圣人》,加利福尼亚州
[28] DeGroot,M.H.,《最佳统计决策》(1970年),McGraw-Hill:纽约州纽约市McGraw-Hill·Zbl 0225.62006号
[29] Denrell,J.,《为什么大多数人不赞成我:印象形成中的经验取样》,《心理评论》,第112期,第4951-978页(2005年)
[30] Denrell,J.,《体验学习中的不确定性避免》,《心理学评论》,114177-187(2007)
[31] 迪恩斯,Z。;Fahey,R.,《特定实例在控制动态系统中的作用》,《实验心理学杂志:学习、记忆和认知》,21848-862(1995)
[32] Edwards,W.,《寻求信息的最佳策略:统计模型、选择反应时间和人类信息处理》,《数学心理学杂志》,2312-329(1965)·Zbl 0125.09806
[33] 埃雷夫,I。;Barron,G.,《认知策略中的适应、最大化和强化学习》,《心理学评论》,第112、4、912-931页(2005年)
[34] Fu,W.,《探索/开发权衡的理性生态方法》(Gray,W.著,《认知系统的综合模型》(2007),牛津大学出版社:牛津大学出版社,纽约),165-179
[35] 傅伟(Fu,W.)。;Anderson,J.A.,《从反复选择到技能学习:强化学习模型》,《实验心理学杂志:概述》,135,184-206(2006)
[36] 福登堡,D。;Tirole,J.,《博弈论》(1991),麻省理工学院出版社:麻省理学院出版社剑桥·Zbl 1339.91001号
[37] 高杰。;Lee,J.D.,《扩展决策场理论以模拟操作员在监控情况下对自动化的依赖》,IEEE系统、人与控制论汇刊-A部分:系统与人,36,5,943-959(2006)
[38] 吉布森,F。;菲奇曼,M。;Plaut,D.C.,《动态决策任务中的学习:计算模型和经验证据》,《组织行为与人的绩效》,第71期,第1-35页(1997年)
[39] 吉尔博亚;Schmeidler,基于案例的决策理论,《经济学季刊》,110,605-639(1995)·Zbl 0836.90005号
[40] 冈萨雷斯,C。;Lerch,J.F。;Lebiere,C.,动态决策中基于实例的学习,认知科学,27591-635(2003)
[41] Grossberg,S.,《神经网络和自然智能》(1988年),麻省理工学院出版社:麻省理学院出版社剑桥
[42] Haykin,S.,神经网络(1999),普伦蒂斯·霍尔:新泽西州普伦蒂斯霍尔上鞍河·Zbl 0934.68076号
[43] Harsanyi,J.C。;Selten,R.,《博弈均衡的一般理论》(1988年),麻省理工学院出版社:麻省理学院出版社,马萨诸塞州剑桥·Zbl 0693.90098号
[44] Howard,R.,《动态规划和马尔可夫过程》(1960年),麻省理工学院出版社:麻省剑桥·Zbl 0091.16001号
[45] 霍华德·R·A。;Matheson,J.E.,影响图,决策分析,2127-143(2005)
[46] 贾加辛斯基,R.J。;Miller,R.A.,描述动态系统的操作员内部模型,人为因素,20425-433(1978)
[47] 贾加奇斯基,R.J。;Hah,S.,《追踪重复模式的渐进回归效应》,《实验心理学杂志:人类感知与表现》,第14期,第77-88页(1988年)
[48] 约翰逊,E。;卡梅勒,C。;Sen,S。;Rymon,T.,《检测反向归纳的失败:在顺序谈判中监测信息搜索》,《经济理论杂志》,104,1,16-47(2002)·Zbl 1015.91016号
[49] M.I.乔丹。;Rumelhart,D.E.,《正向模型:与远程教师一起监督学习》,《认知科学》,第16期,第307-354页(1992年)
[50] Kahneman,D。;特维斯基,A.,《前景理论》,《计量经济学》,47,263-292(1979)·Zbl 0411.90012号
[51] (Kahneman,D.;Slovic,P.;Tversky,A.,《不确定性下的判断:启发式和偏见》(1982),剑桥大学)
[52] Kaelbling,L.P。;利特曼,M.L。;Moore,A.W.,《强化学习:一项调查》,《人工智能杂志》,第4237-285页(1996年)
[53] Keeney,R.L。;Raiffa,H.,《多目标决策:偏好和价值权衡》(1993),剑桥大学出版社:剑桥大学出版社纽约·Zbl 0488.90001号
[54] Klein,G.,《权力的来源:人们如何做出决定》(1998),麻省理工学院出版社:麻省理学院出版社,马萨诸塞州剑桥
[55] Kleinmuntz,D。;Thomas,J.,《动态决策中行动和推理的价值》,《组织行为和人类决策过程》,39,341-364(1987)
[56] Koopmans,T.C.,《固定序数效用与不耐烦》,《计量经济学》,第28期,第287-309页(1960年)·Zbl 0149.38401号
[57] Laird,J.E。;A.纽厄尔。;Rosenbloom,P.S.,《SOAR:通用智能架构》,《人工智能》,第33、1-64页(1987年)
[58] Lane,D.E.,渔民决策的部分可观察模型,运筹学,37240-254(1989)·Zbl 0666.90039号
[59] 拉明,D.R.,《选择反应时间的信息理论》(1968),学术出版社:纽约学术出版社
[60] 林克·S·W。;Heath,R.A.,《心理歧视的序列理论》,心理测量学,40,77-105(1975)·Zbl 0306.9209号
[61] Littman,M.L.,《部分可观测马尔可夫决策过程教程》,《数学心理学杂志》,第53、3、119-125页(2009年)·Zbl 1176.90298号
[62] Loewenstein,G。;Prelec,D.,《跨期选择中的异常现象》,《经济学季刊》,107,2,573-597(1992)
[63] Luce,R.D.,《损益效用》(2000),劳伦斯·埃尔鲍姆协会:新泽西州劳伦斯·埃尔鲍姆协会·Zbl 0997.91500号
[64] 卢斯·R·D。;Raiffa,H.,《游戏与决策》(1957年),多佛出版公司:纽约州纽约市多佛出版有限公司·Zbl 0084.15704号
[65] McKelvey,R.D。;Palfrey,T.R.,《蜈蚣游戏的实验研究》,计量经济学:计量经济学学会杂志,60803-836(1992)·兹比尔0764.90093
[66] Meinhold,R.J。;辛普瓦拉,N.D.,理解卡尔曼滤波器,《美国统计学家》,37,2,123-127(1983)
[67] 梅耶,D.E。;Kieras,D.E.,执行认知过程和多任务执行的计算理论:第1部分。基本机制,《心理评论》,104,3-65(1997)
[68] 米勒,T。;Sutton,R.S。;Werbos,P.J.,《神经网络控制》(1991),麻省理工学院出版社:麻省剑桥·Zbl 0850.68282号
[69] Mitchel,I.和Tomlin,C.J.(2000)。混合系统中计算的水平集方法。混合系统:计算和控制。第三次国际研讨会,HSCC 2000,2000会议记录; Mitchel,I.和Tomlin,C.J.(2000)。混合系统中计算的水平集方法。混合系统:计算和控制。第三次国际研讨会,HSCC 2000,2000会议记录
[70] Myerson,R.B.,《博弈论:冲突分析》(1991),哈佛大学出版社:哈佛大学出版社,马萨诸塞州剑桥·Zbl 0729.90092号
[71] Nash,J.,《非合作博弈》,《数学年鉴》,54,268-295(1951)·Zbl 0045.08202号
[72] 那不勒斯,R.E.,《学习贝叶斯网络》(2004),普伦蒂斯·霍尔:新泽西州普伦蒂斯霍尔上鞍河
[73] Newell,A.,《统一认知理论》(1990),哈佛大学出版社:哈佛大学出版社,马萨诸塞州剑桥,美国
[74] Niv,Y.,《大脑强化学习》,《数学心理学杂志》,第53、3、139-154页(2009年)·Zbl 1176.91139号
[75] 诺维克,L.R。;Cheng,P.W.,《评估交互因果影响》,《心理学评论》,111455-485(2004)
[76] 帕科,J.E。;拉波波特,A。;Stein,W.E.,《财政激励对互信破裂的影响》,《心理科学》,第13期,第292-297页(2002年)
[77] Pearl,J.,《智能系统中的概率推理:似是而非推理网络》(1988年),摩根·考夫曼:摩根·考夫曼,加利福尼亚州旧金山
[78] Puterman,M.L.,《马尔可夫决策过程:离散随机动态规划》(Markov decision processes:Discrete random dynamic programming)(1994),John Wiley&Sons,Inc.:John Willey&Sons公司,美国纽约州纽约市·Zbl 0829.90134号
[79] Rapoport,A.,《随机多阶段决策任务中人类控制的研究》,《行为科学》,11,18-32(1966)
[80] 拉波波特,A。;Burkheimer,G.J.,《延迟决策模型》,《数学心理学杂志》,8508(1971)·Zbl 0226.92013号
[81] 拉波波特,A。;Stein,W.E。;Parco,J.E。;Nicholas,T.E.,三人蜈蚣游戏中的平衡游戏和适应性学习,游戏与经济行为,43223-265(2003)·兹比尔1047.91507
[82] Ratcliff,R.,《记忆提取理论》,《心理学评论》,85,59-108(1978)
[83] Rieskamp,J。;Busemeyer,J.R。;Mellers,B.A.,《扩大理性的界限:优先选择的证据和理论》,《经济文学杂志》,44631-636(2006)
[84] 理查森,M。;Damingos,P.,马尔可夫逻辑网络,机器学习,62,1-2,107-136(2006)·Zbl 1470.68221号
[85] 罗森塔尔,R.W.,《完美信息博弈、掠夺性定价和连锁店悖论》,《经济理论杂志》,25,92-100(1981)·Zbl 0467.90084号
[86] Rumelhart,D。;McClelland,J.L.,《并行分布式处理:认知微观结构的探索》,第1卷(1986年),麻省理工学院出版社:麻省理学院出版社剑桥
[87] Savage,L.J.,《统计学基础》(1954),威利出版社:威利纽约·Zbl 0121.13603号
[88] Schall,J.D.,《决策过程的神经相关性:神经和心理计时法》,《神经生物学的当前观点》,13,2,182-186(2003)
[89] 沙德伦,M.N。;Newsome,W.T.,恒河猴顶叶皮层(LIP区)感知决策的神经基础,神经生理学杂志,86,4,1916-1936(2001)
[90] 谢弗,G。;Pearl,J.,《不确定推理中的阅读》(1990年),摩根·考夫曼出版社:摩根·考夫曼出版社,加利福尼亚州旧金山·Zbl 0805.68121号
[91] Simon,H.A.,《有限理性模型》(1982年),麻省理工学院出版社:麻省理学院出版社,剑桥
[92] Smith,P.L.,《反应时间和准确性的随机动力学模型:基础入门》,《数学心理学杂志》,44,3,408-463(2000)·Zbl 0982.91040号
[93] Sorkin,R.D.美国空军发明AFD 873。最佳快速共识系统(提交出版);Sorkin,R.D.美国空军发明AFD 873。最佳快速共识系统(提交出版)
[94] Stengel,R.F.,随机最优控制:理论与应用(1986),John Wiley&Sons,Inc.:John Wiley&Sons,Inc.美国纽约州纽约市·Zbl 0666.93126号
[95] Sterman,J.D.,《动态决策中反馈的误解,组织行为和人类决策过程》,43,301-335(1989)
[96] Sterman,J.D.,《复杂系统中的学习和关于复杂系统的学习》,《系统动力学评论》,10291-330(1994)
[97] Steyvers,M。;李,M。;Wagenmakers,E.J.,《班迪特问题上人类决策的贝叶斯分析》,《数学心理学杂志》,第53、3、168-179页(2009年)·Zbl 1176.90319号
[98] Sun,R。;张,X。;Mathews,R.,《认知架构中的元认知建模》,认知系统研究,7327-338(2006)
[99] Sutton,R.S。;Barto,A.G.,《强化学习》(1998),麻省理工学院出版社:麻省剑桥
[100] Tenenbaum,J.B。;Griffiths,T.L。;Kemp,C.,归纳学习和推理的基于理论的贝叶斯模型[专刊],认知概率模型。认知的概率模型,《认知科学趋势》,10309-318(2006)
[101] Tenenbaum,J.和Griffiths,T.L.(2001年)。代表性的合理基础。认知科学学会第23届年会会议记录; Tenenbaum,J.和Griffiths,T.L.(2001)。代表性的合理基础。认知科学学会第23届年会会议记录
[102] A.特维斯基。;Kahneman,D.,《扩展与直觉推理:概率判断中的连接谬误》,《心理学评论》,90,4,293-315(1983)
[103] 冯·诺依曼,J。;Morgenstern,O.,《博弈论与经济行为》(1947),普林斯顿大学出版社:普林斯顿大学出版,新泽西州普林斯顿·Zbl 1241.91002号
[104] 冯·温特费尔德,D。;Edwards,W.,《决策分析和行为研究》(1986),剑桥大学出版社:剑桥大学出版社
[105] Whittle,P.,《变化世界中的活动分配》,《应用概率杂志》,25A,287-298(1988)·Zbl 0664.90043号
[106] 耶奇亚姆,E。;Busemeyer,J.R.,《评估学习模型中的泛化性和参数一致性》,《游戏与经济行为》,63,370-394(2008)·Zbl 1134.91356号
[107] 齐默尔曼,模糊集理论及其应用(2001),基沃学术出版社
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。