×

主动推理、信念传播和贝丝近似。 (英语) Zbl 1471.91411号

摘要:在存在各种不确定性源的情况下,对目标导向行为建模时,规划可以描述为一个推理过程。先前在主动推理框架中,以基于变分自由能的近似推理方案的形式提出了作为推理的规划问题的解决方案。然而,该近似方案基于平均场近似,它假设隐藏变量的统计独立性,并且已知存在过度自信,可能收敛到自由能的局部极小值。为了更好地捕捉环境的时空特性,我们使用所谓的Bethe近似重新计算了近似推理过程。重要的是,Bethe近似允许表示成对统计相关性。在这些假设下,变分自由能的极小值对应于机器学习中常用的信念传播算法。为了说明平均场近似和Bethe近似之间的差异,我们模拟了具有不同类型不确定性的简单目标达成任务中的代理行为。总的来说,贝丝经纪人在达到目标状态方面取得了较高的成功率。我们将贝丝特工更好的表现与对其自身行为后果的更准确预测联系起来。因此,基于Bethe近似的主动推理将主动推理的应用范围扩展到更复杂的行为任务。

MSC公司:

91E10型 认知心理学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Arthur,W.B.(1994)。归纳推理和有限理性。《美国经济评论》,84(2),406-411。
[2] Astrom,K.J.(1965年)。状态估计不完全的马尔可夫决策过程的最优控制。数学分析与应用杂志,10(1),174-205·Zbl 0137.35803号
[3] Attias,H.(2003)。通过概率推理进行规划。在C.M.Bishop和B.J.Frey(编辑),Proc。第九届国际人工智能与统计研讨会。纽约:ACM。
[4] Baker,C.、Saxe,R.和Tenenbaum,J.B.(2005)。人类行为理解的贝叶斯模型。Y.Weiss、B.Schölkopf和J.Platt(编辑),《神经信息处理系统的进展》,18(第99-106页)。马萨诸塞州剑桥:麻省理工学院出版社。
[5] Beal,M.J.(2003)。近似贝叶斯推理的变分算法。博士学位。,伦敦大学。
[6] Behrens,T.E.、Hunt,L.T.、Woolrich,M.W.和Rushworth,M.F.(2008)。社会价值的联想学习。《自然》,456(7219),245,
[7] Behrens,T.E.、Woolrich,M.W.、Walton,M.E.和Rushworth,M.F.(2007年)。在不确定的世界中学习信息的价值。《自然神经科学》,10(9),1214,
[8] Bethe,H.(1931)。金属理论。Zeitschrift für Physik A强子与核,71(3),205-226。
[9] Bethe,H.A.(1935年)。超晶格的统计理论。伦敦皇家学会会刊。A辑,数学和物理科学,150(871),552-575·Zbl 0012.04501号
[10] 毕晓普,C.M.(2006)。模式识别和机器学习。柏林:斯普林格·Zbl 1107.68072号
[11] Blei,D.M.、Kucukelbir,A.和McAuliffe,J.D.(2017年)。变分推理:统计学家评论。美国统计协会杂志,112(518),859-877,
[12] Botvinick,M.和Toussaint,M.(2012年)。作为推理的计划。认知科学趋势,16(10),485-488,
[13] Coughlan,J.M.和Ferreira,S.J.(2002)。使用循环信念传播查找可变形形状。《欧洲计算机视觉会议记录》(第453-468页)。柏林:施普林格·Zbl 1039.68611号
[14] Daunizeau,J.、Den Ouden,H.E.、Pessiglione,M.、Kiebel,S.J.、Stephan,K.E.和Friston,K.J.(2010年)。观察观察者(I):学习和决策的元贝叶斯模型。公共科学图书馆一期,5(12),e15554,
[15] Daw,N.D.、Niv,Y.和Dayan,P.(2005)。前额叶和背外侧纹状体系统之间基于不确定性的行为控制竞争。《自然神经科学》,8(12),1704,
[16] Dayan,P.、Hinton,G.E.、Neal,R.M.和Zemel,R.S.(1995)。亥姆霍兹机器。神经计算,7(5),889-904,
[17] Dayan,P.,&Niv,Y.(2008)。强化学习:好的、坏的和丑陋的。神经生物学的当前观点,18(2),185-196,
[18] Deneve,S.(2004)。尖峰神经元的贝叶斯推断。L.K.Saul、Y.Weiss和L.Bottou(编辑),《神经信息处理系统的进展》,17(第353-360页)。马萨诸塞州剑桥:麻省理工学院出版社。
[19] Doll,B.B.、Simon,D.A.和Daw,N.D.(2012年)。基于模型的强化学习的普遍性。神经生物学的当前观点,22(6),1075-1081,
[20] Doya,K.(2007)。贝叶斯大脑:神经编码的概率方法。马萨诸塞州剑桥:麻省理工学院出版社·Zbl 1137.91015号
[21] Doya,K.(2008)。决策调节剂。《自然神经科学》,11(4),410,
[22] Drake,A.W.(1962年)。通过噪声信道观察马尔可夫过程。博士diss。,麻省理工学院。
[23] Fan,J.L.(2001)。约束编码和软迭代解码(第97-116页)。波士顿:施普林格·Zbl 1051.94002号
[24] Felzenszwalb,P.F.和Huttenlocher,D.P.(2006)。早期视力的有效信念传播。国际计算机视觉杂志,70(1),41-54,
[25] FitzGerald,T.H.、Dolan,R.J.和Friston,K.J.(2014)。模型平均、最优推理和习惯形成。人类神经科学前沿,8,
[26] FitzGerald,T.H.、Hämmerer,D.、Friston,K.J.、Li,S.C.和Dolan,R.J.(2017)。序贯推理作为一种认知模式及其在额叶顶叶和海马脑区的相关性。《公共科学图书馆·计算生物学》,13(5),e1005418,
[27] Friston,K.(2010年)。自由能量原理:统一的大脑理论?《自然评论神经科学》,11(2),127-138,
[28] Friston,K.J.、Daunizeau,J.、Kilner,J.和Kiebel,S.J.(2010)。行动和行为:自由能量公式。生物控制论,102(3),227-260,
[29] Friston,K.、FitzGerald,T.、Rigoli,F.、Schwartenbeck,P.和Pezzulo,G.(2016)。主动推理:一种过程理论。神经计算,29,1-49·Zbl 1414.92092号
[30] Friston,K.、FitzGerald,T.、Rigoli,F.、Schwartenbeck,P.、O'Doherty,J.和Pezzulo,G.(2016)。积极的推理和学习。《神经科学与生物行为评论》,68862-879·Zbl 1414.92092号
[31] Friston,K.和Kiebel,S.(2009年)。自由能量原理下的预测编码。伦敦皇家学会哲学学报B:生物科学,364(1521),1211-1221,
[32] Friston,K.J.、Parr,T.和de Vries,B.(2017年)。图形大脑:信念传播和主动推理。网络神经科学,1(4),381-414,
[33] Friston,K.、Rigoli,F.、Ognibene,D.、Mathys,C.、Fitzgerald,T.和Pezzulo,G.(2015)。主动推理和认知价值。认知神经科学,6(4),187-214,
[34] Friston,K.J.、Rosch,R.、Parr,T.、Price,C.和Bowman,H.(2017)。深度时间模型和主动推理。《神经科学与生物行为评论》,77,288-402,
[35] Friston,K.、Schwartenbeck,P.、FitzGerald,T.、Moutussis,M.、Behrens,T.和Dolan,R.J.(2013)。选择的解剖学:主动推理和能动性。人类神经科学前沿,
[36] Friston,K.、Schwartenbeck,P.、FitzGerald,T.、Moutussis,M.、Behrens,T.和Dolan,R.J.(2014)。选择的解剖:多巴胺和决策。菲尔翻译。R.Soc.B,369(1655),20130481,
[37] Gelb,A.(1974)。应用最优估计。马萨诸塞州剑桥:麻省理工学院出版社。
[38] George,D.和Hawkins,J.(2009)。走向皮质微电路的数学理论。《公共科学图书馆·计算生物学》,5(10),e1000532,
[39] Hua,G.,Yang,M.-H.,&Wu,Y.(2005)。学习使用数据驱动的信念传播估计人类姿势。《IEEE计算机学会计算机视觉和模式识别会议论文集》(第2卷,第747-754页)。新泽西州皮斯卡塔韦:IEEE。
[40] Jardri,R.和Denève,S.(2013年)。精神分裂症中的循环推理。大脑,136(11),3227-3241,
[41] Kalman,R.E.(1960年)。线性滤波和预测问题的新方法。基础工程杂志,82(1),35-45,
[42] Kaplan,R.和Friston,K.(2017年)。规划和导航作为主动推理。生物Rxiv·Zbl 1400.92607号
[43] Knill,D.C.和Pouget,A.(2004年)。贝叶斯大脑:不确定性在神经编码和计算中的作用。神经科学趋势,27(12),712-719,
[44] Lake,B.M.、Salakhutdinov,R.和Tenenbaum,J.B.(2015)。通过概率程序归纳法进行人性化概念学习。《科学》,350(6266),1332-1338·Zbl 1355.68230号
[45] Lee,T.S.和Mumford,D.(2003年)。视觉皮层的层次贝叶斯推理。乔萨A,20(7),1434-1448,
[46] Martin,J.J.(1967年)。贝叶斯决策问题和马尔可夫链。纽约:Wiley·兹比尔0164.50102
[47] Mathys,C.、Daunizeau,J.、Friston,K.J.和Stephan,K.E.(2011年)。不确定性下个人学习的贝叶斯基础。人类神经科学前沿,5,
[48] Meltzer,T.、Yanover,C.和Weiss,Y.(2005)。使用重加权信念传播实现立体视觉中能量最小化的全局最优解。第十届IEEE计算机视觉国际会议论文集(第1卷,第428-435页)。新泽西州皮斯卡塔韦:IEEE,
[49] Meyniel,F.、Schlunegger,D.和Dehaene,S.(2015)。概率学习过程中的信心:一种规范的解释。《公共科学图书馆·计算生物学》,11(6),e1004305,
[50] Monahan,G.E.(1982)。部分可观测马尔可夫决策过程的最新研究:理论、模型和算法。管理科学,28(1),1-16·Zbl 0486.90084号
[51] Montague,P.R.、Hyman,S.E.和Cohen,J.D.(2004)。多巴胺在行为控制中的计算作用。《自然》,431(7010),760,
[52] Murphy,K.P.(2012)。机器学习:概率观点。马萨诸塞州剑桥:麻省理工学院出版社·Zbl 1295.68003号
[53] Nassar,M.R.、Wilson,R.C.、Heasly,B.和Gold,J.I.(2010年)。一个近似贝叶斯增量规则模型解释了在变化的环境中信念更新的动态。神经科学杂志,30(37),12366-12378,
[54] O'Doherty,J.、Dayan,P.、Schultz,J.,Deichmann,R.、Friston,K.和Dolan,R.J.(2004)。腹侧和背侧纹状体在工具性条件反射中的分离作用。科学,304(5669),452-454,
[55] Ott,T.和Stoop,R.(2006)。二元马尔可夫随机场上信念传播的神经动力学。B.Schölkopf、J.C.Platt和T.Hoffman(编辑),《神经信息处理系统的进展》,19(第1057-1064页)。马萨诸塞州剑桥:麻省理工学院出版社。
[56] Payzan-LeNestour,E.、Dunne,S.、Bossaerts,P.和O'Doherty,J.P.(2013)。基于价值的决策过程中意外不确定性的神经表示。神经元,79(1),191-201,
[57] Pearl,J.(1988)。智能系统中的概率推理:似是而非推理网络。加利福尼亚州圣马特斯:Morgan Kaufmann·Zbl 0746.68089号
[58] 拉宾纳,L.R.(1989年)。语音识别中隐藏马尔可夫模型和选定应用的教程。IEEE会议录,77(2),257-286,
[59] Rangel,A.和Hare,T.(2010年)。与目标导向选择相关的神经计算。神经生物学最新观点,20(2),262-270,
[60] Rushworth,M.F.和Behrens,T.E.(2008)。前额叶和扣带回皮层的选择、不确定性和价值。《自然神经科学》,11(4),389,
[61] Schwartenbeck,P.、FitzGerald,T.H.和Dolan,R.(2016)。编码信念转变的神经信号。神经影像,125,578-586,
[62] Schwartenbeck,P.、FitzGerald,T.H.、Mathys,C.、Dolan,R.和Friston,K.(2014)。多巴胺能中脑编码预期结果的确定性。大脑皮层,25(10),3434-3445,
[63] Schwartenbeck,P.、FitzGerald,T.H.、Mathys,C.、Dolan,R.、Kronbichler,M.和Friston,K.(2015)。选择行为中惊喜最小化优于价值最大化的证据。科学报告,5,
[64] Shon,A.P.和Rao,R.P.(2005)。在神经电路中实现信念传播。神经计算,65,393-399,
[65] Simon,H.A.(1990年)。人类行为的不变性。心理学年鉴,41(1),1-20,
[66] Solway,A.和Botvinick,M.M.(2012年)。作为概率推理的目标导向决策:计算框架和潜在的神经关联。心理评论,119(1),120,
[67] Steimer,A.、Maass,W.和Douglas,R.(2009)。尖峰神经元网络中的信念传播。神经计算,21(9),2502-2523·Zbl 1171.92014年
[68] Sudderth,E.B.、Mandel,M.I.、Freeman,W.T.和Willsky,A.S.(2004)。基于非参数置信传播的视觉手跟踪。《计算机视觉和模式识别研讨会论文集》,2004年(第189页)。新泽西州皮斯卡塔韦:IEEE,
[69] Sutton,R.S.和Barto,A.G.(1998年)。强化学习:导论(第1卷)。剑桥:麻省理工学院出版社·Zbl 1407.68009号
[70] Vossel,S.、Mathys,C.、Daunizau,J.、Bauer,M.、Driver,J.、Friston,K.J.和Stephan,K.E.(2013)。空间注意力、精确度和贝叶斯推断:对扫视反应速度的研究。大脑皮层,24(6),1436-1450,
[71] 温赖特,M.J.和乔丹,M.I.(2008)。图形模型、指数族和变分推理。机器学习的基础和趋势,1(1-2),1-305·Zbl 1193.62107号
[72] Weiss,Y.(2001)。比较MRF中近似推理的平均场方法和置信传播。在M.Opper&D.Saad(编辑)中,《高级平均场方法:理论与实践》(第229-240页)。马萨诸塞州剑桥:麻省理工学院出版社。
[73] Yedidia,J.S.、Freeman,W.T.和Weiss,Y.(2000)。广义信念传播。T.K.Leen、T.G.Dietterich和V.Tresp(编辑),《神经信息处理系统的进展》,13(第689-695页)。马萨诸塞州剑桥:麻省理工学院出版社。
[74] Yedidia,J.S.、Freeman,W.T.和Weiss,Y.(2003)。理解信念传播及其推广。探索新千年的人工智能,8236-239。
[75] Yedidia,J.S.、Freeman,W.T.和Weiss,Y.(2005)。构造自由能量近似和广义置信传播算法。IEEE信息理论汇刊,51(7),2282-2312·Zbl 1283.94023号
[76] Yu,A.J.和Dayan,P.(2005)。不确定性、神经调节和注意力。神经元,46(4),681-692,
[77] Yu,S.-Z.和Kobayashi,H.(2003)。显式时间隐马尔可夫模型的一种有效的前向支持算法。IEEE信号处理信件,10(1),11-14,
[78] Yuille,A.和Kersten,D.(2006年)。视为贝叶斯推理:综合分析?认知科学趋势,10(7),301-308,
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。