×

自由能、值和吸引子。 (英语) Zbl 1422.91632号

摘要:最近有人提出,动作和感知可以理解为将感官样品的自由能降至最低。这确保了代理人对环境进行采样,以最大限度地为他们的世界模型提供证据,从而使与环境的交流具有可预测性和适应性。然而,自由能源账户并没有从强化学习和最优控制理论中调用报酬或成本函数。因此,我们询问奖励是否有必要解释适应性行为。自由能公式使用统计物理学的观点来解释行为,以最小化感官惊讶。相反,强化学习源于行为主义和工程学,并假设代理人优化政策以最大化未来回报。本文试图将这两个公式联系起来,并得出结论:最优政策对应于隐藏环境状态轨迹的经验先验,这迫使代理人寻找他们期望遇到的(有价值的)状态。

MSC公司:

91E40型 心理学中的记忆和学习
91E30型 心理物理学和心理生理学;感知
92D50型 动物行为
37D45号 奇异吸引子,双曲行为系统的混沌动力学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] K.Friston、J.Kilner和L.Harrison,“大脑的自由能原理”,《巴黎生理学杂志》,第100卷,第1-3期,第70-872006页·doi:10.1016/j.jpysparis.2006.10.001
[2] R.S.Sutton和A.G.Barto,“走向适应网络的现代理论:期望和预测”,《心理学评论》,第88卷,第2期,第135-170页,1981年·doi:10.1037/0033-295X.88.2.135
[3] N.D.Daw和K.Doya,“学习和奖励的计算神经生物学”,《神经生物学的当前观点》,第16卷,第2期,第199-204页,2006年·doi:10.1016/j.cb.2006.03.006
[4] P.Dayan和N.D.Daw,“决策理论、强化学习和大脑”,《认知、情感和行为神经科学》,第8卷,第4期,第429-453页,2008年·doi:10.3758/CABN.8.4.429
[5] Y.Niv和G.Schoenbaum,“预测错误对话”,《认知科学趋势》,第12卷,第7期,第265-272页,2008年·doi:10.1016/j.tics.2008.03.006
[6] K.J.Friston、J.Daunizeau、J.Kilner和S.J.Kiebel,“行动与行为:自由能量公式”,《生物控制论》,第102卷,第3期,第227-260页,2010年·doi:10.1007/s00422-010-0364-z
[7] K.J.Friston、J.Daunizeau和S.J.Kiebel,“强化学习还是主动推理?”《公共科学图书馆·综合》,第4卷,第7期,文章ID e64212009年·doi:10.1371/journal.pone.0006421
[8] J.Nash,“n人游戏中的平衡点”,《美利坚合众国国家科学院院刊》,第36卷,第48-49页,1950年·Zbl 0036.01104号 ·doi:10.1073/第36.1.48页
[9] C.F.Camerer,“游戏中战略思维的行为研究”,《认知科学趋势》,第7卷,第5期,第225-231页,2003年·doi:10.1016/S1364-6613(03)00094-9
[10] P.Dayan、G.E.Hinton、R.M.Neal和R.S.Zemel,“亥姆霍兹机器”,《神经计算》,第7卷,第5期,第889-9041995页。
[11] T.S.Lee和D.Mumford,“视觉皮层中的层次贝叶斯推理”,《美国光学学会杂志》,A卷,第7期,第1434-1448页,2003年。
[12] R.P.N.Rao和D.H.Ballard,“视觉皮层中的预测编码:一些超经典感受野效应的功能解释”,《自然神经科学》,第2卷,第1期,第79-87页,1999年·doi:10.1038/4580
[13] K.Friston,“皮层反应理论”,《皇家学会哲学学报B》,第360卷,第1456期,第815-836页,2005年·doi:10.1098/rstb.2005.1622
[14] R.Bellman,“动态规划理论”,《美利坚合众国国家科学院院刊》,第38卷,第716-719页,1952年·Zbl 0047.13802号 ·doi:10.1073/pnas.38.8.716
[15] L.Demetrius,“热力学与进化”,《理论生物学杂志》,第206卷,第1期,第1-16页,2000年·doi:10.1006/jtbi.2000.2106
[16] A.Traulsen、J.C.Claussen和C.Hauert,“大型但有限种群的共同进化动力学”,《物理评论》E,第74卷,第1期,文章编号0119012006·doi:10.1103/PhysRevE.74.011901
[17] S.Conway Morris,《生活的解决方案:孤独宇宙中不可避免的人类》,剑桥大学出版社,英国剑桥,2005年。
[18] R.D.McKelvey和T.R.Palfrey,“正规形式博弈的量子响应平衡”,《博弈与经济行为》,第10卷,第1期,第6-38页,1995年·Zbl 0832.90126号 ·doi:10.1006/游戏.1995.1023
[19] H.Crauel和F.Flandoli,“随机动力系统的吸引子”,《概率论及相关领域》,第100卷,第3期,第365-393页,1994年·Zbl 0819.58023号 ·doi:10.1007/BF01193705
[20] G.D.Birkhoff,“遍历定理的证明”,《美国国家科学院院刊》,第17卷,第656-660页,1931年·兹比尔0003.25602 ·doi:10.1073/pnas.17.12.656
[21] V.L.Ginzburg和L.D.Landau,“超导理论”,Zhurnal Eksperimental’noi i Teoreticheskoi Fiziki,第20卷,第1064页,1950年。
[22] H.Haken,《协同学:导论》。《物理、化学和生物学中的非平衡相变和自组织》,施普林格,德国柏林,1983年第3版·Zbl 0523.93001号
[23] J.Carr,中心流形理论的应用,施普林格,德国柏林,1981年·Zbl 0464.58001号
[24] S.De Monte、F.d'Ovido和E.Mosekilde,“全球耦合动力系统的相干状态”,《物理评论快报》,第90卷,第5期,第054102/1-054102/4页,2003年。
[25] R.V.N.Melnik和A.H.Roberts,“多尺度耦合动力学问题的计算模型”,《未来一代计算机系统》,第20卷,第3期,第453-464页,2004年·doi:10.1016/j.future.2003.07.009
[26] M.J.Davis,“反应扩散方程中的低维流形。基本方面”,《物理化学杂志A》,第110卷,第16期,第5235-5256页,2006年·doi:10.1021/jp055592s
[27] G.Deco、V.K.Jirsa、P.A.Robinson、M.Breakspear和K.Friston,“动态大脑:从尖峰神经元到神经团和皮层场”,《公共科学图书馆·计算生物学》,第4卷,第8期,文章编号e10000922008·doi:10.1371/journal.pcbi.1000092
[28] A.Hu、Z.Xu和L.Guo,“复杂网络中混沌系统广义同步的存在性”,《混沌》,第20卷,第1期,文章ID 014001CHA,10页,2010年·Zbl 1311.34114号 ·数字标识代码:10.1063/1.3309017
[29] J.Ito和K.Kaneko,“混沌单元塑性网络中的自组织层次结构”,《神经网络》,第13卷,第3期,第275-281页,2000年·doi:10.1016/S0893-6080(99)00107-0
[30] W.R.Ashby,“自组织动力系统的原理”,《普通心理学杂志》,第37卷,第125-1281947页。
[31] G.Nicolis和I.Prigogine,《非平衡系统中的自我组织》,John Wiley&Sons,美国纽约州纽约市,1977年·Zbl 0363.93005号
[32] C.C.Moore,“均匀空间上流的遍历性”,《美国数学杂志》,第88卷,第154-178页,1966年·Zbl 0148.37902号 ·doi:10.2307/2373052
[33] T.D.Frank,《非线性福克-普朗克方程:基础与应用》,《斯普林格协同学系列》,德国柏林斯普林格出版社,2004年。
[34] K.Friston,“大脑中的层次模型”,《公共科学图书馆·计算生物学》,第4卷,第11期,文章编号e1000211,2008年·doi:10.1371/journal.pcbi.1000211
[35] H.Qian和D.A.Beard,“远离平衡的生命系统中化学计量生化网络的热力学”,《生物物理化学》,第114卷,第2-3期,第213-220页,2005年·doi:10.1016/j.bpc.2004.12.001
[36] H.Qian,“熵去神秘化:随机波动系统的“热力学”动力学”,《酶学方法》,第467卷,第111-134页,2009年·doi:10.1016/S0076-6879(09)67005-1
[37] C.Kwon、P.Ao和D.J.Thouless,“不动点附近随机动力学的结构”,《美利坚合众国国家科学院院刊》,第102卷,第37期,第13029-13033页,2005年·doi:10.1073/pnas.0506347102
[38] P.Ao,“生物网络动力学的全球观点:适应性景观”,《遗传学和基因组学杂志》,第36卷,第2期,第63-73页,2009年·doi:10.1016/S1673-8527(08)60093-4
[39] H.Crauel,“全局随机吸引子是通过吸引确定性紧集唯一确定的”,Annali di Matematica Pura ed Applicata,第4卷,第57-72页,1999年·Zbl 0954.37027号 ·doi:10.1007/BF02505989
[40] D.J.Evans,“确定性系统的非平衡自由能定理”,《分子物理学》,第101卷,第10期,第1551-1554页,2003年。
[41] T.Tomé,“由福克-普朗克方程描述的非平衡系统中的熵产生”,《巴西物理学杂志》,第36卷,第4期,第1285-1289页,2006年。
[42] H.R.Maturana和F.Varela,“自生:生命的组织”,摘自《自生与认知》,F.Varla和H.R..Maturana,Eds.,Reidel,Dordrecht,荷兰,1980年。
[43] R.P.Feynman,《统计力学》,本杰明,雷丁,美国马萨诸塞州,1972年。
[44] G.E.Hinton和D.van Camp,“通过最小化权重的描述长度保持神经网络的简单性”,《第六届ACM计算学习理论年会论文集》(COLT’93),第5-13页,1993年7月。
[45] D.J.C.MacKay,“解码和密码分析的自由能量最小化算法”,《电子快报》,第31卷,第6期,第446-447页,1995年·doi:10.1049/el:19950331
[46] M.J.Beal,近似贝叶斯推理的变分算法,博士论文,伦敦大学学院,英国伦敦,2003年。
[47] S.Kullback和R.A.Leibler,“关于信息和充分性”,《数理统计年鉴》,第22卷,第79-86页,1951年·Zbl 0042.38403号 ·doi:10.1214/aoms/1177729694
[48] H.Helmholtz,“关于一般感知”,载于《生理光学论文》,J.P.C.Southall,Ed.,第3卷,多佛,纽约州纽约市,美国,第3版,1866/1962。
[49] R.L.Gregory,“感知错觉和大脑模型”,《伦敦皇家学会论文集》。B辑,第171卷,第24期,第279-296页,1968年。
[50] R.L.Gregory,“感知作为假设”,《伦敦皇家学会哲学学报B辑》,第290卷,第1038期,第181-197页,1980年。
[51] D.Kersten、P.Mamassian和A.Yuille,“物体感知作为贝叶斯推理”,《心理学年鉴》,第55卷,第271-304页,2004年·doi:10.1146/annurev.psych.55.090902.142005
[52] D.C.Knill和A.Pouget,“贝叶斯大脑:不确定性在神经编码和计算中的作用”,《神经科学趋势》,第27卷,第12期,第712-719页,2004年·doi:10.1016/j.tins.2004.10.007
[53] K.Friston、K.Stephan、B.Li和J.Daunizeau,“广义过滤”,《工程中的数学问题》,2010年第卷,文章编号621670,2010年·Zbl 1189.94032号 ·doi:10.1155/2010/621670
[54] D.Mumford,“新皮质的计算结构-II:皮质-皮质环路的作用”,《生物控制论》,第66卷,第3期,第241-251页,1992年·doi:10.1007/BF00198477
[55] R.E.Kass和D.Steffey,“条件独立层次模型中的近似贝叶斯推断(参数经验贝叶斯模型)”,《美国统计协会杂志》,第407卷,第717-726页,1989年。
[56] P.Ao,“随机微分方程的潜力:新结构”,《物理学杂志》A,第37卷,第3期,第L25-L30页,2004年·Zbl 1050.60056号 ·doi:10.1088/0305-4470/37/3/L01
[57] R.Yuan,Y.Ma,B.Yuan和P.Ao,“全局lyapunov函数作为势函数的构造性证明”http://arxiv.org/abs/1012.2721。
[58] P.Ao,“达尔文动力学中随机动力学等式和稳态热力学的出现”,《理论物理通讯》,第49卷,第5期,第1073-1090页,2008年·Zbl 1392.37093号 ·doi:10.1088/0253-6102/49/5/01
[59] P.A.Haile、A.Hortaćsu和G.Kosenok,“关于量子响应均衡的实证内容”,《美国经济评论》,第98卷,第1期,第180-200页,2008年·数字对象标识代码:10.1257/aer.98.1.180
[60] K.Train,《离散选择方法与模拟》,剑桥大学出版社,英国剑桥,2003年·Zbl 1047.62098号
[61] J.Maynard Smith,“字节大小的进化”,《自然》,第355卷,第6363号,第772-773页,1992年。
[62] J.Maynard Smith,“选择单位”,诺华基金会研讨会,第213卷,第203-217页,1998年。
[63] E.Mayr,“遗传环境和进化的变化”,载于《进化即过程》,a.C.Hardy和E.B.Ford,Eds.,第157-180页,Allen和Unwin,英国伦敦,1954年。
[64] N.Eldredge和S.J.Gould,“穿刺平衡:系统渐进主义的替代方案”,《古生物学模型》,T.J.M.Schopf,编辑,第82-115页,弗里曼·库珀,美国加利福尼亚州旧金山,1972年。
[65] G.Matheron,《随机集与积分几何》,John Wiley&Sons,美国纽约州纽约市,1975年·Zbl 0321.60009号
[66] H.Robbins和S.Monro,“随机近似方法”,《数理统计年鉴》,第22卷,第400-407页,1951年·Zbl 0054.05901号 ·doi:10.1214/aoms/1177729586
[67] A.Benveniste、M.Metivier和P.Prourier,《自适应算法和随机近似》,德国柏林施普林格出版社,1990年·Zbl 0752.93073号
[68] R.A.Rescorla和A.R.Wagner,“巴甫洛夫条件反射理论:强化和非强化有效性的变化”,载于《经典条件反射II:当前研究与理论》,A.H.Black和W.F.Prokasy,编辑,第64-99页,阿普尔顿世纪克罗夫茨出版社,纽约,纽约,美国,1972年。
[69] C.J.C.H.Watkins和P.Dayan,“Q-learning”,机器学习,第8卷,第3-4期,第279-292页,1992年·Zbl 0773.68062号 ·doi:10.1007/BF00992698
[70] P.R.Montague、P.Dayan、C.Person和T.J.Sejnowski,“蜜蜂在不确定的环境中使用预测hebbian学习觅食”,《自然》,第377卷,第6551期,第725-7281995页。
[71] W.Schultz、P.Dayan和P.R.Montague,“预测和奖励的神经基质”,《科学》,第275卷,第5306期,第1593-1599页,1997年·数字对象标识代码:10.1126/science.275.5306.1593
[72] K.J.Friston、G.Tononi、G.N.Reeke、O.Sporns和G.M.Edelman,“大脑中的价值依赖性选择:合成神经模型中的模拟”,《神经科学》,第59卷,第2期,第229-243页,1994年·doi:10.1016/0306-4522(94)90592-4
[73] J.R.Hollerman和W.Schultz,“在熟悉的任务背景下学习期间多巴胺神经元的活动”,《神经科学学会》,第22卷,第1388页,1996年。
[74] J.D.Cohen、S.M.McClure和A.J.Yu,“我应该留下还是应该离开?人脑如何管理开发与探索之间的权衡”,《皇家学会哲学学报B》,第362卷,第1481期,第933-942页,2007年·doi:10.1098/rstb.2007.2098
[75] J.M.Liebman,“焦虑、抗焦虑药和大脑刺激增强”,《神经科学和生物行为评论》,第9卷,第1期,第75-86页,1985年·doi:10.1016/0149-7634(85)90033-8
[76] T.L.Davidson,“喂入感信号的性质和功能:朝向生理学和学习观点的整合”,《心理学评论》,第100卷,第4期,第640-657页,1993年。
[77] A.Alcaro、R.Huber和J.Panksepp,“中边缘多巴胺能系统的行为功能:情感神经行为学观点”,《大脑研究评论》,第56卷,第2期,第283-321页,2007年·doi:10.1016/j.brainesrev.2007.07.014
[78] S.Ishii、W.Yoshida和J.Yoshimoto,“强化学习中的开发-探索元参数控制”,《神经网络》,第15卷,第4-6期,第665-687页,2002年·doi:10.1016/S0893-6080(02)00056-4
[79] W.J.Freeman,“大脑皮层中空间分布、混沌、非线性动力系统的状态转换特征”,《综合生理学和行为科学》,第29卷,第3期,第294-306页,1994年·doi:10.1007/BF02691333
[80] I.Tsuda,“从混沌动力学系统角度解读动态神经活动”,《行为与脑科学》,第24卷,第5期,第793-810页,2001年。
[81] V.K.Jirsa、R.Friedrich、H.Haken和J.A.S.Kelso,“人脑相变的理论模型”,《生物控制论》,第71卷,第1期,第27-35页,1994年·Zbl 0797.92011号 ·doi:10.1007/BF00198909
[82] V.Pasquale、P.Massobrio、L.L.Bologna、M.Chiapplone和S.Martinoia,“分离皮层神经元网络中的自我组织和神经元雪崩”,《神经科学》,第153卷,第4期,第1354-1369页,2008年·doi:10.1016/j.neuroscience.2008.03.050
[83] M.Rabinovich、R.Huerta和G.Laurent,“神经科学:神经处理的瞬态动力学”,《科学》,第321卷,第5885号,第48-50页,2008年·doi:10.1126/科学.1155564
[84] C.van Leeuwen,“作为保守结构的感知学习系统:经济是吸引因素吗?”《心理学研究》,第52卷,第2-3期,第145-152页,1990年·doi:10.1007/BF00877522
[85] P.Ao、D.Galas、L.Hood和X.Zhu,“癌症作为进化形成的内源性分子细胞网络的强大内在状态”,《医学假说》,第70卷,第3期,第678-6842008页·doi:10.1016/j.mehy.2007.03.043
[86] W.Tschacher和H.Haken,“非平衡系统中的意向性?自组织模式形成的功能方面”,《心理学新思想》,第25卷,第1期,第1-15页,2007年·doi:10.1016/j.newideapych.2006.09.002
[87] C.Gros,“自主活动神经网络的认知计算:一个新兴领域”,《认知计算》,第1卷,第1期,第77-90页,2009年·doi:10.1007/s12559-008-9000-9
[88] M.Breakspear和C.J.Stam,“具有多尺度结构的神经系统动力学”,《皇家学会哲学学报B》,第360卷,第1457期,第1051-1074页,2005年·doi:10.1098/rstb.2005.1643
[89] S.L.Bressler和E.Tognoli,“神经认知网络的操作原理”,《国际心理生理学杂志》,第60卷,第2期,第139-148页,2006年·doi:10.1016/j.ijpsychol.2005.12.008
[90] G.Werner,“跨组织层次的大脑动力学”,《巴黎生理学杂志》,第101卷,第4-6期,第273-279页,2007年·doi:10.1016/j.jphyparis.2007.12.001
[91] I.Tyukin、C.van Leeuwen和D.Prokhorov,“S形叠加的参数估计:动力学系统方法”,《神经计算》,第15卷,第10期,第2419-2455页,2003年·Zbl 1085.68653号 ·doi:10.1162/08997660332362428
[92] I.Tyukin、T.Tyukina和C.van Leeuwen,“时空编码系统中的不变模板匹配:不稳定性问题”,《神经网络》,第22卷,第4期,第425-449页,2009年·Zbl 1335.68219号 ·doi:10.1016/j.neunet.2009.01.014
[93] C.Van Leeuwen,“混沌孕育自主:偏见和婴儿造型之间的联结主义设计”,《认知加工》,第9卷,第2期,第83-92页,2008年·doi:10.1007/s10339-007-0193-8
[94] S.Nara,《混沌》,第13卷,第3期,第1110-1121页,2003年·数字对象标识代码:10.1063/1.1604251
[95] J.Tani、M.Ito和Y.Sugita,“镜像系统中分布式表示的多行为图式的自组织:使用RNNPB的机器人实验综述”,《神经网络》,第17卷,第8-9期,第1273-1289页,2004年·doi:10.1016/j.neunet.2004.05.007
[96] J.M.Herrmann、K.Pawelzik和T.Geisel,“通过隐藏表示实现自主机器人的自我定位”,《自主机器人》,第7卷,第1期,第31-40页,1999年·doi:10.1023/A:1008913712526
[97] A.Wald,“生活成本指数的新公式”,《计量经济学》,第7卷,第319-331页,1939年。
[98] D.S.Jones,《基本信息理论》,克拉伦登出版社,英国牛津,1979年·Zbl 0453.94005号
[99] T.Basar和G.J.Olsder,《动态非合作博弈论》,学术出版社,英国伦敦,第二版,1995年·Zbl 0479.90085号
[100] E.Todorov,“线性可解Markov决策问题”,《神经信息处理系统进展》,第19卷,第1369-1376页,麻省理工学院出版社,美国马萨诸塞州波士顿,2006年。
[101] G.A.Rummery和M.Niranjan,“使用连接主义系统的在线Q-学习”,技术代表CUED/F-INFENG/TR 166,英国剑桥大学工程系,1994年。
[102] B.Sallans和G.E.Hinton,“基于因子状态和行为的强化学习”,《机器学习研究杂志》,第5卷,第1063-1088页,2004年·Zbl 1222.68297号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。