文件Zbl 1176.90274-zbMATH Open

理解和帮助动态决策的理论工具。（英语） Zbl 1176.90274号

数学杂志。精神病。 53，第3期，126-138（2009）.

摘要：动态决策出现在许多应用中，包括军事、医疗、管理、体育和紧急情况。在过去的50年里，出现了各种通用而强大的工具来理解、分析和帮助人类做出这些决定。这些工具包括预期和多属性效用分析、博弈论、贝叶斯推理和贝叶斯网、决策树和影响图、随机最优控制理论、部分可观察的马尔可夫决策过程、神经网络和强化学习模型、马尔可夫逻辑和基于规则的认知架构。这些工具都是什么，它们是如何关联的，它们在什么时候最有用，这些工具是否与人类的决策方式相匹配？我们在为跨学科读者编写的广泛概述中解决了所有这些问题。对工具的每一个描述都介绍了它所依据的原则，并回顾了旨在测试人类是否真的使用这些原则进行决策的实证研究。最后，我们对未来的研究方向提出了建议。

引用于5文件

MSC公司：

90B50型

管理决策，包括多个目标

关键词：

动态决策;POMDP公司;可分性;沉没成本

软件：

POMDP公司

PDF格式 BibTeX公司 XML格式引用

全文： DOI程序

参考文献：

[1]	Allais，M.，《所谓的Allais悖论和不确定性下的理性决策》（Hagen，O.；Allais M.，预期效用假设和Allais佯谬（1979）），437-681·Zbl 0468.90002号
[2]	安德森，J.R.，《思维的适应性》（1990），劳伦斯·埃尔鲍姆出版社：劳伦斯·埃尔鲍姆出版社，肯塔基州佛罗伦萨
[3]	安德森，J.R。；Bothell，D。；医学博士拜恩。；道格拉斯，S。；Lebiere，C。；秦永乐，《心理综合理论》，《心理学评论》，第111期，第1036-1060页（2004年）
[4]	Anzai，Y.，实时事件驱动系统的认知控制，认知科学，8221-254（1984）
[5]	Arkes，H.R。；Blummer，C.，沉没成本心理学，组织行为与人的绩效，35，11，124-140（1985）
[6]	Astrom，K.J。；Murray，R.M.，《反馈系统：科学家和工程师导论》（2008），普林斯顿大学出版社：普林斯顿大学出版社，新泽西州普林斯顿·Zbl 1144.93001号
[7]	Bar-Eli，M。；Raab，M.，《运动和锻炼中的判断和决策：重新发现和新视野》，《运动与锻炼心理学》，第7519-524页（2006年）
[8]	Barron，G。；Erev，I.，《基于反馈的小决策及其与基于描述的决策的有限对应关系》，《行为决策杂志》，16，3，215-233（2003）
[9]	Bernoulli，D.，风险计量新理论的阐述，《计量经济学》，22，23-36（1954）·Zbl 0055.12004号
[10]	Berry，D。；Fristedt，B.，班迪特问题（1985），查普曼和霍尔：查普曼与霍尔伦敦，英国·Zbl 0659.62086号
[11]	Bertsekas，D.P.，《动态规划和随机控制》（1976），学术出版社：纽约学术出版社·兹伯利0549.93064
[12]	Bertsekas，D.P.，《动态规划：确定性和随机模型》（1987年），Prentice Hall:Prentice Hall Upper Saddle River，NJ·Zbl 0649.93001号
[13]	Bertsekas，D.P。；Tsitsiklis，J.N.，神经动力学编程（1996），雅典娜科学：雅典娜科技贝尔蒙特，马萨诸塞州·Zbl 0924.68163号
[14]	Biele，G。；埃雷夫，I。；Ert，E.，《不安的强盗问题中的学习、风险态度和热炉》，《数学心理学杂志》，第53、3、155-167页（2009年）·Zbl 1176.91134号
[15]	博加茨，R。；布朗，E。；Moehlis，J。；霍姆斯，P。；Cohen，J.D.，《最佳决策的物理学：两种替代强迫选择任务中表现模型的形式分析》，《心理学评论》，113700-765（2006）
[16]	Brehmer，B。；Allard，R.，《实时动态决策：任务复杂性和反馈延迟的影响》（Rasmussen，J.；Brehmer，B.；Leplat，J.，《分布式决策；合作工作的认知模型》（1991），威利：威利-奇切斯特）
[17]	Busemeyer，J.R.，《动态决策》（Dynamic decision making），（新泽西州斯迈尔斯；巴尔特斯，P.B.，《国际社会和行为科学百科全书》（2002），爱思唯尔出版社：牛津爱思唯尔出版社），第9l版。6. 3903-3908
[18]	Busemeyer，J.R。；Stout，J.C.，《认知决策模型对临床评估的贡献：贝查拉赌博任务的分解表现》，《心理评估》，第14期，第253-262页（2002年）
[19]	Busemeyer，J.R。；汤森，J.T.，《决策场理论：不确定环境中决策的动态认知方法》，《心理学评论》，100432-459（1993）
[20]	卡梅勒，C.F.，《战略互动中的行为博弈理论实验》（2003），普林斯顿大学出版社：普林斯顿大学出版，新泽西州普林斯顿·Zbl 1019.91001号
[21]	卡桑德拉（1998）。POMDP应用调查。（可从作者网站获取）；卡桑德拉（1998）。POMDP应用调查。（可从作者网站获取。）
[22]	卡西马蒂斯，N.L.（2005）。基于不同计算方法集成计算模型。在认知科学学会第27届年会会议记录; Cassimatis，N.L.（2005）。基于不同计算方法集成计算模型。在认知科学学会第27届年会会议记录
[23]	Clemens，R.T.，《做出艰难的决定：决策分析导论》（1996），华兹华斯：华兹华斯·贝尔蒙特，加利福尼亚州
[24]	库姆斯，C.H。；Avrunin，G.S.，《单峰函数与偏好理论》，《心理学评论》，84，2，216-230（1977）
[25]	库比特，R.P。；斯塔默，C。；Sugden，R.，《动态决策：来自经济学和心理学的一些最新证据》（Brocas，I.；Carrillo，J.D.，《经济决策的心理学》，第2卷（2004），牛津大学出版社：牛津大学出版社）
[26]	大研，P。；Balleine，B.W.，奖励、动机和强化学习，神经元，36285-298（2002）
[27]	道斯，R。；Hastie，R.，《不确定世界中的理性选择：判断和决策的心理学》（2001年），《圣人：千橡树圣人》，加利福尼亚州
[28]	DeGroot，M.H.，《最佳统计决策》（1970年），McGraw-Hill:纽约州纽约市McGraw-Hill·Zbl 0225.62006号
[29]	Denrell，J.，《为什么大多数人不赞成我：印象形成中的经验取样》，《心理评论》，第112期，第4951-978页（2005年）
[30]	Denrell，J.，《体验学习中的不确定性避免》，《心理学评论》，114177-187（2007）
[31]	迪恩斯，Z。；Fahey，R.，《特定实例在控制动态系统中的作用》，《实验心理学杂志：学习、记忆和认知》，21848-862（1995）
[32]	Edwards，W.，《寻求信息的最佳策略：统计模型、选择反应时间和人类信息处理》，《数学心理学杂志》，2312-329（1965）·Zbl 0125.09806
[33]	埃雷夫，I。；Barron，G.，《认知策略中的适应、最大化和强化学习》，《心理学评论》，第112、4、912-931页（2005年）
[34]	Fu，W.，《探索/开发权衡的理性生态方法》（Gray，W.著，《认知系统的综合模型》（2007），牛津大学出版社：牛津大学出版社，纽约），165-179
[35]	傅伟（Fu，W.）。；Anderson，J.A.，《从反复选择到技能学习：强化学习模型》，《实验心理学杂志：概述》，135，184-206（2006）
[36]	福登堡，D。；Tirole，J.，《博弈论》（1991），麻省理工学院出版社：麻省理学院出版社剑桥·Zbl 1339.91001号
[37]	高杰。；Lee，J.D.，《扩展决策场理论以模拟操作员在监控情况下对自动化的依赖》，IEEE系统、人与控制论汇刊-A部分：系统与人，36，5，943-959（2006）
[38]	吉布森，F。；菲奇曼，M。；Plaut，D.C.，《动态决策任务中的学习：计算模型和经验证据》，《组织行为与人的绩效》，第71期，第1-35页（1997年）
[39]	吉尔博亚；Schmeidler，基于案例的决策理论，《经济学季刊》，110，605-639（1995）·Zbl 0836.90005号
[40]	冈萨雷斯，C。；Lerch，J.F。；Lebiere，C.，动态决策中基于实例的学习，认知科学，27591-635（2003）
[41]	Grossberg，S.，《神经网络和自然智能》（1988年），麻省理工学院出版社：麻省理学院出版社剑桥
[42]	Haykin，S.，神经网络（1999），普伦蒂斯·霍尔：新泽西州普伦蒂斯霍尔上鞍河·Zbl 0934.68076号
[43]	Harsanyi，J.C。；Selten，R.，《博弈均衡的一般理论》（1988年），麻省理工学院出版社：麻省理学院出版社，马萨诸塞州剑桥·Zbl 0693.90098号
[44]	Howard，R.，《动态规划和马尔可夫过程》（1960年），麻省理工学院出版社：麻省剑桥·Zbl 0091.16001号
[45]	霍华德·R·A。；Matheson，J.E.，影响图，决策分析，2127-143（2005）
[46]	贾加辛斯基，R.J。；Miller，R.A.，描述动态系统的操作员内部模型，人为因素，20425-433（1978）
[47]	贾加奇斯基，R.J。；Hah，S.，《追踪重复模式的渐进回归效应》，《实验心理学杂志：人类感知与表现》，第14期，第77-88页（1988年）
[48]	约翰逊，E。；卡梅勒，C。；Sen，S。；Rymon，T.，《检测反向归纳的失败：在顺序谈判中监测信息搜索》，《经济理论杂志》，104，1，16-47（2002）·Zbl 1015.91016号
[49]	M.I.乔丹。；Rumelhart，D.E.，《正向模型：与远程教师一起监督学习》，《认知科学》，第16期，第307-354页（1992年）
[50]	Kahneman，D。；特维斯基，A.，《前景理论》，《计量经济学》，47，263-292（1979）·Zbl 0411.90012号
[51]	（Kahneman，D.；Slovic，P.；Tversky，A.，《不确定性下的判断：启发式和偏见》（1982），剑桥大学）
[52]	Kaelbling，L.P。；利特曼，M.L。；Moore，A.W.，《强化学习：一项调查》，《人工智能杂志》，第4237-285页（1996年）
[53]	Keeney，R.L。；Raiffa，H.，《多目标决策：偏好和价值权衡》（1993），剑桥大学出版社：剑桥大学出版社纽约·Zbl 0488.90001号
[54]	Klein，G.，《权力的来源：人们如何做出决定》（1998），麻省理工学院出版社：麻省理学院出版社，马萨诸塞州剑桥
[55]	Kleinmuntz，D。；Thomas，J.，《动态决策中行动和推理的价值》，《组织行为和人类决策过程》，39，341-364（1987）
[56]	Koopmans，T.C.，《固定序数效用与不耐烦》，《计量经济学》，第28期，第287-309页（1960年）·Zbl 0149.38401号
[57]	Laird，J.E。；A.纽厄尔。；Rosenbloom，P.S.，《SOAR:通用智能架构》，《人工智能》，第33、1-64页（1987年）
[58]	Lane，D.E.，渔民决策的部分可观察模型，运筹学，37240-254（1989）·Zbl 0666.90039号
[59]	拉明，D.R.，《选择反应时间的信息理论》（1968），学术出版社：纽约学术出版社
[60]	林克·S·W。；Heath，R.A.，《心理歧视的序列理论》，心理测量学，40，77-105（1975）·Zbl 0306.9209号
[61]	Littman，M.L.，《部分可观测马尔可夫决策过程教程》，《数学心理学杂志》，第53、3、119-125页（2009年）·Zbl 1176.90298号
[62]	Loewenstein，G。；Prelec，D.，《跨期选择中的异常现象》，《经济学季刊》，107，2，573-597（1992）
[63]	Luce，R.D.，《损益效用》（2000），劳伦斯·埃尔鲍姆协会：新泽西州劳伦斯·埃尔鲍姆协会·Zbl 0997.91500号
[64]	卢斯·R·D。；Raiffa，H.，《游戏与决策》（1957年），多佛出版公司：纽约州纽约市多佛出版有限公司·Zbl 0084.15704号
[65]	McKelvey，R.D。；Palfrey，T.R.，《蜈蚣游戏的实验研究》，计量经济学：计量经济学学会杂志，60803-836（1992）·兹比尔0764.90093
[66]	Meinhold，R.J。；辛普瓦拉，N.D.，理解卡尔曼滤波器，《美国统计学家》，37，2，123-127（1983）
[67]	梅耶，D.E。；Kieras，D.E.，执行认知过程和多任务执行的计算理论：第1部分。基本机制，《心理评论》，104，3-65（1997）
[68]	米勒，T。；Sutton，R.S。；Werbos，P.J.，《神经网络控制》（1991），麻省理工学院出版社：麻省剑桥·Zbl 0850.68282号
[69]	Mitchel，I.和Tomlin，C.J.（2000）。混合系统中计算的水平集方法。混合系统：计算和控制。在第三次国际研讨会，HSCC 2000，2000会议记录; Mitchel，I.和Tomlin，C.J.（2000）。混合系统中计算的水平集方法。混合系统：计算和控制。在第三次国际研讨会，HSCC 2000，2000会议记录
[70]	Myerson，R.B.，《博弈论：冲突分析》（1991），哈佛大学出版社：哈佛大学出版社，马萨诸塞州剑桥·Zbl 0729.90092号
[71]	Nash，J.，《非合作博弈》，《数学年鉴》，54，268-295（1951）·Zbl 0045.08202号
[72]	那不勒斯，R.E.，《学习贝叶斯网络》（2004），普伦蒂斯·霍尔：新泽西州普伦蒂斯霍尔上鞍河
[73]	Newell，A.，《统一认知理论》（1990），哈佛大学出版社：哈佛大学出版社，马萨诸塞州剑桥，美国
[74]	Niv，Y.，《大脑强化学习》，《数学心理学杂志》，第53、3、139-154页（2009年）·Zbl 1176.91139号
[75]	诺维克，L.R。；Cheng，P.W.，《评估交互因果影响》，《心理学评论》，111455-485（2004）
[76]	帕科，J.E。；拉波波特，A。；Stein，W.E.，《财政激励对互信破裂的影响》，《心理科学》，第13期，第292-297页（2002年）
[77]	Pearl，J.，《智能系统中的概率推理：似是而非推理网络》（1988年），摩根·考夫曼：摩根·考夫曼，加利福尼亚州旧金山
[78]	Puterman，M.L.，《马尔可夫决策过程：离散随机动态规划》（Markov decision processes:Discrete random dynamic programming）（1994），John Wiley&Sons，Inc.：John Willey&Sons公司，美国纽约州纽约市·Zbl 0829.90134号
[79]	Rapoport，A.，《随机多阶段决策任务中人类控制的研究》，《行为科学》，11，18-32（1966）
[80]	拉波波特，A。；Burkheimer，G.J.，《延迟决策模型》，《数学心理学杂志》，8508（1971）·Zbl 0226.92013号
[81]	拉波波特，A。；Stein，W.E。；Parco，J.E。；Nicholas，T.E.，三人蜈蚣游戏中的平衡游戏和适应性学习，游戏与经济行为，43223-265（2003）·兹比尔1047.91507
[82]	Ratcliff，R.，《记忆提取理论》，《心理学评论》，85，59-108（1978）
[83]	Rieskamp，J。；Busemeyer，J.R。；Mellers，B.A.，《扩大理性的界限：优先选择的证据和理论》，《经济文学杂志》，44631-636（2006）
[84]	理查森，M。；Damingos，P.，马尔可夫逻辑网络，机器学习，62，1-2，107-136（2006）·Zbl 1470.68221号
[85]	罗森塔尔，R.W.，《完美信息博弈、掠夺性定价和连锁店悖论》，《经济理论杂志》，25，92-100（1981）·Zbl 0467.90084号
[86]	Rumelhart，D。；McClelland，J.L.，《并行分布式处理：认知微观结构的探索》，第1卷（1986年），麻省理工学院出版社：麻省理学院出版社剑桥
[87]	Savage，L.J.，《统计学基础》（1954），威利出版社：威利纽约·Zbl 0121.13603号
[88]	Schall，J.D.，《决策过程的神经相关性：神经和心理计时法》，《神经生物学的当前观点》，13，2，182-186（2003）
[89]	沙德伦，M.N。；Newsome，W.T.，恒河猴顶叶皮层（LIP区）感知决策的神经基础，神经生理学杂志，86，4，1916-1936（2001）
[90]	谢弗，G。；Pearl，J.，《不确定推理中的阅读》（1990年），摩根·考夫曼出版社：摩根·考夫曼出版社，加利福尼亚州旧金山·Zbl 0805.68121号
[91]	Simon，H.A.，《有限理性模型》（1982年），麻省理工学院出版社：麻省理学院出版社，剑桥
[92]	Smith，P.L.，《反应时间和准确性的随机动力学模型：基础入门》，《数学心理学杂志》，44，3，408-463（2000）·Zbl 0982.91040号
[93]	Sorkin，R.D.美国空军发明AFD 873。最佳快速共识系统（提交出版）；Sorkin，R.D.美国空军发明AFD 873。最佳快速共识系统（提交出版）
[94]	Stengel，R.F.，随机最优控制：理论与应用（1986），John Wiley&Sons，Inc.：John Wiley&Sons，Inc.美国纽约州纽约市·Zbl 0666.93126号
[95]	Sterman，J.D.，《动态决策中反馈的误解，组织行为和人类决策过程》，43，301-335（1989）
[96]	Sterman，J.D.，《复杂系统中的学习和关于复杂系统的学习》，《系统动力学评论》，10291-330（1994）
[97]	Steyvers，M。；李，M。；Wagenmakers，E.J.，《班迪特问题上人类决策的贝叶斯分析》，《数学心理学杂志》，第53、3、168-179页（2009年）·Zbl 1176.90319号
[98]	Sun，R。；张，X。；Mathews，R.，《认知架构中的元认知建模》，认知系统研究，7327-338（2006）
[99]	Sutton，R.S。；Barto，A.G.，《强化学习》（1998），麻省理工学院出版社：麻省剑桥
[100]	Tenenbaum，J.B。；Griffiths，T.L。；Kemp，C.，归纳学习和推理的基于理论的贝叶斯模型[专刊]，认知概率模型。认知的概率模型，《认知科学趋势》，10309-318（2006）
[101]	Tenenbaum，J.和Griffiths，T.L.（2001年）。代表性的合理基础。在认知科学学会第23届年会会议记录; Tenenbaum，J.和Griffiths，T.L.（2001）。代表性的合理基础。在认知科学学会第23届年会会议记录
[102]	A.特维斯基。；Kahneman，D.，《扩展与直觉推理：概率判断中的连接谬误》，《心理学评论》，90，4，293-315（1983）
[103]	冯·诺依曼，J。；Morgenstern，O.，《博弈论与经济行为》（1947），普林斯顿大学出版社：普林斯顿大学出版，新泽西州普林斯顿·Zbl 1241.91002号
[104]	冯·温特费尔德，D。；Edwards，W.，《决策分析和行为研究》（1986），剑桥大学出版社：剑桥大学出版社
[105]	Whittle，P.，《变化世界中的活动分配》，《应用概率杂志》，25A，287-298（1988）·Zbl 0664.90043号
[106]	耶奇亚姆，E。；Busemeyer，J.R.，《评估学习模型中的泛化性和参数一致性》，《游戏与经济行为》，63，370-394（2008）·Zbl 1134.91356号
[107]	齐默尔曼，模糊集理论及其应用（2001），基沃学术出版社

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：book；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

理解和帮助动态决策的理论工具。（英语） Zbl 1176.90274号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

理解和帮助动态决策的理论工具。 （英语） Zbl 1176.90274号

MSC公司：

关键词：

软件：

参考文献：

理解和帮助动态决策的理论工具。（英语） Zbl 1176.90274号