文件Zbl 1186.93002-zbMATH Open

曹明;斯图尔特，安德鲁;莱昂纳多米·埃里奇（Naomi Ehrich Leonard）

人类决策动力学的趋同。（英语） Zbl 1186.93002号

系统。控制信函。 59，第2期，87-97（2010）.

摘要：一类二元决策任务称为双选择强迫选择任务，在心理学和行为经济学实验中被广泛用于研究人类决策。人类受试者定期在两个选项之间进行选择，每次选择后都会获得奖励；对于各种奖励结构，这些实验表明，聚合行为与通常次优的奖励的收敛性。本文提出了两种人类决策模型：一种是Win-Stay，Lose-Switch（WSLS）模型，另一种是流行的漂移扩散（DD）模型的确定性极限。利用这些模型，我们证明了人类行为对具有匹配点的奖励结构的观察到的总体决策的收敛性。分析的动机是人机交互系统，在人机交互系统中，人们经常需要在有限的备选方案中进行重复选择，以应对不断变化的系统性能度量。我们讨论了收敛结果在使用从人类主体到人类监督者的映射设计人机交互系统中的应用。

引用于2文件

MSC公司：

93A10号	一般系统
91C99型	社会和行为科学：一般主题
68层37	人工智能背景下的不确定性推理
93C85号	控制理论中的自动化系统（机器人等）

关键词：

人类决策;双选择强迫选择任务;冬季;失去开关模型;漂移扩散模型;机器人觅食;探索与利用

PDF格式 BibTeX公司 XML格式引用

全文：内政部链接

参考文献：

[1]	（Murphey，R.；Pardalos，P.M.，《协同控制与优化》（2002），施普林格出版社）·Zbl 0999.93005号
[2]	（Kumar，V.；Leonard，N.；Morse，A.S.，《合作控制》（2005），施普林格出版社）·兹比尔1079.93004
[3]	（Antsaklis，P.；Baillieul，J.，IEEE自动控制汇刊：网络控制系统专刊，第49卷（2004），IEEE），9·Zbl 1365.93308号
[4]	（Antsaklis，P.；Baillieul，J.，IEEE会议录：网络控制系统技术专题，第95卷（2007），IEEE），1
[5]	R.Simmons、S.Singh、F.Heger、L.Hiatt、S.Koterba、N.Melchior、B.Sellner，大型装配的人-机器人团队，见：Proc。NASA科学技术会议，2007年；R.Simmons、S.Singh、F.Heger、L.Hiatt、S.Koterba、N.Melchior、B.Sellner，大型装配的人-机器人团队，见：Proc。2007年NASA科学技术会议
[6]	T.Kaupp，A.Makarenko，《测量人机团队效能以确定适当的自治水平》，摘自：Proc。IEEE机器人与自动化国际会议，2008年；T.Kaupp，A.Makarenko，测量人类机器人团队的有效性以确定适当的自主水平，在：Proc。2008年IEEE机器人与自动化国际会议
[7]	A.Steinfeld、T.Fong、D.Kaber、M.Lewis、J.Scholtz、A.Schultz、M.Goodrich，《人机交互通用指标》，摘自：Proc。2006年人机交互会议；A.Steinfeld、T.Fong、D.Kaber、M.Lewis、J.Scholtz、A.Schultz、M.Goodrich，《人机交互通用指标》，摘自：Proc。2006年人机交互会议
[8]	阿拉米，R。；克洛迪克，A。；蒙特勒，V。；西斯博特，E.A。；Chatila，R.，《人机交互的任务规划》，（《智能对象和环境智能联合会议程序》（2005年），ACM）
[9]	Trafton，J.G。；卡西马提斯，N.L。；Bugajska，医学博士。；布罗克·D·P。；明茨，F.E。；Schultz，A.C.，《使用机器人透视实现有效的人机交互》，IEEE系统、人与控制论汇刊，A部分：系统与人，35，4，460-470（2005）
[10]	Herrnstein，R.，《理性选择理论：必要但不充分》，美国心理学家，45，356-367（1990）
[11]	蒙塔古，P.R。；Berns，G.S.，《神经经济学与估值的生物基础》，《神经元》，36，265-284（2002）
[12]	博加茨，R。；McClure，S.M。；李，J。；科恩，J.D。；Montague，P.R.，《人类强化学习中行为偏差的短期记忆追踪》，《大脑研究》，1153111-121（2007）
[13]	李，J。；McClure，S.M。；King-Casas，B。；Montague，P.R.，《动态经济博弈中的政策调整》，《公共科学图书馆·综合》，e103，1-11（2006）
[14]	艾格尔曼，D.M。；个人，C。；Montague，P.R.，《多巴胺递送在人类决策中的计算作用》，《认知神经科学杂志》，10623-630（1998）
[15]	A.Nedic、D.Tomlin、P.Holmes、D.A.Prentice、J.D.Cohen，《社会背景下的简单决策任务：初步实验和模型》，摘自：Proc。第47届IEEE决策与控制会议，2008年，第1115-1120页；A.Nedic、D.Tomlin、P.Holmes、D.A.Prentice、J.D.Cohen，《社会背景下的简单决策任务：初步实验和模型》，摘自：Proc。第47届IEEE决策与控制会议，2008年，第1115-1120页
[16]	B.Donmez，M.L.Cummings，H.D.Graham，多无人飞行器监督控制中的听觉决策辅助。人为因素：《人为因素与人类工效学杂志》（已出版），OnlineFirst，2009年出版，doi:10.1177/0018720809347106；B.Donmez，M.L.Cummings，H.D.Graham，多无人飞行器监督控制中的听觉决策辅助。人为因素：《人为因素和人类工效学杂志》（已出版），OnlineFirst，2009年出版，doi:10.1177/0018720809347106
[17]	K.C.Campbell Jr.、W.W.Cooper、D.P.Greenbaum、L.A.Wojcik，交通流管理操作中的分布式人工决策建模，载于：第三届美国/欧洲空中交通管理研发研讨会，那不勒斯，2000年；K.C.Campbell Jr.，W.W.Cooper，D.P.Greenbaum，L.A.Wojcik，交通流管理操作中的分布式人类决策建模，收录于：第三届美国/欧洲空中交通管理研发研讨会，那不勒斯，2000年
[18]	Herrnstein，R.（Rachlin，Howard；Laibson，David I.，《匹配定律：心理学和经济学论文》（1997），哈佛大学出版社：哈佛大学出版社，马萨诸塞州剑桥，美国）
[19]	M.Cao，A.Stewart，N.E.Leonard，《将人类和机器人决策动力学与反馈相结合：模型和收敛分析》，摘自：Proc。第47届IEEE决策与控制会议，2008年，第1127-1132页；M.Cao，A.Stewart，N.E.Leonard，《将人类和机器人决策动力学与反馈相结合：模型和收敛分析》，摘自：Proc。第47届IEEE决策与控制会议，2008年，第1127-1132页
[20]	L.Vu，K.Morgansen，顺序二选择任务中动态决策的建模和分析，在：Proc。第47届IEEE决策与控制会议，2008年，第1121-1126页；L.Vu，K.Morgansen，《连续两选择任务中动态决策的建模与分析》，摘自：Proc。第47届IEEE决策与控制会议，2008年，第1121-1126页
[21]	Robbins，H.，《实验顺序设计的某些方面》，《美国数学学会公报》，58527-535（1952）·Zbl 0049.37009号
[22]	Nowak，M。；Sigmund，K.，《在《囚徒的困境》游戏中胜券在握的策略，《自然》，36456-58（1993）
[23]	博加茨，R。；Brown，E。；Moehlis，J。；霍姆斯，P。；Cohen，J.D.，《最佳决策的物理学：两种替代强迫选择任务中表现模型的形式分析》，《心理学评论》，113700-765（2006）
[24]	Oksendal，B.K.，《随机微分方程：应用简介》（2003年），Springer-Verlag:Springer-Verlag Berlin·Zbl 1025.60026号
[25]	西蒙，P。；Cohen，J.D.，《通过神经扩散模型进行显性改善》，《大脑研究》，1299，95-117（2009）
[26]	蒙塔古，P.R。；达扬，P。；Sejnowski，T.J.，《基于预测性希伯来学习的中脑多巴胺系统框架》，《神经科学杂志》，第16期，1936-1947（1996）
[27]	Sutton，R.S。；Barto，A.G.，《强化学习》（1998年），麻省理工学院出版社：麻省理学院出版社剑桥
[28]	D.Baronov，J.Baillieul，通过潜在油田中的下列等值线进行反应勘探，见：Proc。2007年美国控制会议，第2141-2146页；D.Baronov，J.Baillieul，通过潜在油田中的下列等值线进行反应勘探，见：Proc。2007年美国控制会议，第2141-2146页
[29]	科尔特斯，J。；马丁内斯，S。；卡拉塔斯，T。；Bullo，F.，移动传感网络的覆盖控制，IEEE机器人与自动化汇刊，20，243-255（2004）
[30]	奥格伦，P。；菲奥雷利，E。；Leonard，N.E.，移动传感器网络的协同控制：分布式环境中的自适应梯度攀升，IEEE自动控制汇刊，4911292-1302（2004）·Zbl 1365.93243号
[31]	吉拉尔多，洛杉矶。；Caraco，T.，《社会觅食理论》（2000），普林斯顿大学出版社：普林斯顿大学出版，美国新泽西州普林斯顿
[32]	莫兰·费伦，J。；吉拉尔多，洛杉矶。；Lefebvre，L.，《野生驯鹿抓钩扮演一种生产者-掠夺者游戏》，《行为生态学》，916-921（2007）
[33]	C.Baldassano，N.E.Leonard，探索与利用：多机器人觅食的任务分配。2009年预印本。在线可用网址：http://www.princeton.edu/naomi/publications.html；C.Baldassano，N.E.Leonard，探索与利用：多机器人觅食的任务分配。2009年预印本。在线可用http://www.princeton.edu/naomi/publications.html

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
！ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

字段

操作员

人类决策动力学的趋同。（英语） Zbl 1186.93002号

MSC公司：

关键词：

参考文献：

示例

字段

操作员

人类决策动力学的趋同。 （英语） Zbl 1186.93002号

MSC公司：

关键词：

参考文献：

人类决策动力学的趋同。（英语） Zbl 1186.93002号