×

主动推理:去神秘化和比较。 (英语) Zbl 1520.68156号

摘要:主动推理是描述自治代理如何在动态、非平稳环境中运行的第一原理。在强化学习中也考虑了这个问题,但在相同的离散状态环境中比较这两种方法的工作有限。在这封信中,我们提供了(1)主动推理的离散状态公式的一个可访问的概述,强调了主动推理中通常在强化学习中设计的自然行为,以及(2)在OpenAI健身房基线上,主动推理和强化学习之间的显式离散状态比较。我们首先简要介绍了主动推理文献,特别是通过强化学习的视角来观察主动推理机的各种自然行为。我们表明,通过在纯粹基于信念的环境中操作,主动推理代理可以以贝叶斯优化的方式进行认知探索,并解释其环境的不确定性。此外,我们还表明,在主动推理中,强化学习对显性奖励信号的依赖性被消除了,在主动推断中,奖励可以简单地被视为我们偏好的另一个观察结果;即使在完全没有奖励的情况下,代理行为也是通过偏好学习来学习的。我们通过显示两种场景来明确这些属性,在这两种场景中,主动推理代理与基于Q学习和贝叶斯模型的强化学习代理相比,可以在无报酬环境中推断行为,并通过对奖励设置零先验偏好,以及学习对与之对应的观察值的先验偏好奖励。最后,我们注意到,如果可以制定适当的生成模型,这种形式主义可以应用于更复杂的设置(例如,机器人手臂运动、Atari游戏)。简而言之,我们的目的是通过提供一个可访问的离散状态空间和时间公式来揭开主动推理代理行为的神秘面纱,并在OpenAI健身房环境中与强化学习代理一起演示这些行为。

MSC公司:

68T05年 人工智能中的学习和自适应系统
第68页第42页 Agent技术与人工智能
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Al-Shedivat,M.、Bansal,T.、Burda,Y.、Sutskever,I.、Mordatch,I.和Abbeel,P.(2017)。通过元学习在非平稳和竞争环境中持续适应。arXiv:1710.03641。
[2] Alagoz,O.、Hsu,H.、Schaefer,A.J.和Roberts,M.S.(2010年)。马尔可夫决策过程:一种在不确定性条件下进行顺序决策的工具。《医疗决策》,30(4),474-483。谷歌学者
[3] Amodei,D.、Olah,C.、Steinhardt,J.、Christiano,P.、Schulman,J.和Mané,D.(2016)。人工智能安全中的具体问题。arXiv:1606.06565。
[4] Astrom,K.J.(1965年)。状态信息不完全的马尔可夫过程的最优控制。数学分析与应用杂志,10(1),174-205。谷歌学者·Zbl 0137.35803号
[5] Attias,H.(2003)。通过概率推理进行规划。在AISTATS。Citeser。谷歌学者
[6] Baker,C.L.和Tenenbaum,J.B.(2014)。使用贝叶斯心智理论建模人类计划识别。G.Sukthankar、C.Geib、H.Bui、D.Pynadath和R.Goldman(编辑),《计划、活动和意图识别:理论和实践》(第177-204页)。加利福尼亚州圣马特奥:Morgan Kaufmann。
[7] Beal,M.J.(2003)。近似贝叶斯推理的变分算法。伦敦大学学院博士论文。
[8] Beck,J.、Pouget,A.和Heller,K.A.(2012年)。具有概率总体代码和主题模型的神经电路中的复杂推理。F.Pereira、C.J.C.Burges、L.Bottou和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,25(第3059-3067页)。纽约州红钩市:Curran。
[9] Bellman,R.(1952年)。关于动态规划理论。《美国国家科学院院刊》,38(8),716。谷歌学者·Zbl 0047.13802号
[10] Blau,T.、Ott,L.和Ramos,F.(2019年)。贝叶斯对强化学习中有效探索的好奇心。arXiv:1911.08701。
[11] Blei,D.M.、Kucukelbir,A.和McAuliffe,J.D.(2017年)。变分推理:统计学家评论。美国统计协会杂志,112(518),859-877。谷歌学者
[12] Bogacz,R.(2017)。关于建模感知和学习的自由能源框架的教程。数学心理学杂志,76198-211。谷歌学者·Zbl 1396.91638号
[13] Botvinick,M.和Toussaint,M.(2012年)。计划作为推论。《认知科学趋势》,16(10),485-488。谷歌学者
[14] Buckley,C.L.、Kim,C.S.、McGregor,S.和Seth,A.K.(2017年)。行动和感知的自由能原理:数学综述。数学心理学杂志,81,55-79。谷歌学者·兹比尔1397.91535
[15] Burda,Y.、Edwards,H.、Storkey,A.和Klimov,O.(2018年)。通过随机网络蒸馏进行探索。arXiv:1810.12894。
[16] Camacho,E.F.和Alba,C.B.(2013年)。模型预测控制。纽约:Springer Science&Business Media。
[17] Cao,F.和Ray,S.(2012年)。贝叶斯分层强化学习。F.Pereira、C.J.C.Burges、L.Bottou和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,25(第73-81页)。纽约州红钩市:Curran。
[18] Cesa-Bianchi,N.、Gentile,C.、Lugosi,G.和Neu,G.(2017年)。波尔兹曼的探索做得对。F.Pereira、C.J.C.Burges、L.Bottou和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,25(第6284-6293页)。谷歌学者
[19] Chong,E.,Familiar,A.M.和Shim,W.M.(2016)。重建早期视觉皮层中动态视觉对象的表征。《美国国家科学院院刊》,113(5),1453-1458。谷歌学者
[20] Crauel,H.和Flandoli,F.(1994)。随机动力系统的吸引子。概率论及相关领域,100(3),365-393。谷歌学者·Zbl 0819.58023号
[21] Cullen,M.、Davey,B.、Friston,K.J.和Moran,R.J.(2018年)。OpenAI健身房中的主动推理:精神疾病计算研究的范例。生物精神病学:认知神经科学和神经成像,3(9),809-818。谷歌学者
[22] Da Costa,L.、Parr,T.、Sajid,N.、Veselic,S.、Neacsu,V.和Friston,K.(2020年)。离散状态空间上的主动推理:综合。arXiv:2001.07203年·Zbl 1455.91190号
[23] Daw,N.D.、Courville,A.C.和Touretzky,D.S.(2006年)。多巴胺系统理论中的表征和计时。神经计算,18(7),1637-1677。谷歌学者·Zbl 1092.92006年
[24] Daw,N.D.、Gershman,S.J.、Seymour,B.、Dayan,P.和Dolan,R.J.(2011)。基于模型对人类选择和纹状体预测误差的影响。神经元,69(6),1204-1215。谷歌学者
[25] Dearden,R.、Friedman,N.和Andre,D.(2013年)。基于模型的贝叶斯探索。arXiv:1301.6690。
[26] Dearden,R.、Friedman,N.和Russell,S.(1998年)。贝叶斯q学习。第15届全国人工智能会议记录(第761-768页)。加利福尼亚州帕洛阿尔托:AAAI。谷歌学者
[27] Foerster,J.N.、Chen,R.Y.、Al-Shedivat,M.、Whiteson,S.、Abbeel,P.和Mordatch,I.(2017)。以机会学习意识学习。arXiv:1709.04326。
[28] Friston,K.(2019)。特定物理的自由能原理。arXiv:1906.10184。
[29] Friston,K.、FitzGerald,T.、Rigoli,F.、Schwartenbeck,P.和Pezzulo,G.(2016)。积极的推理和学习。《神经科学与生物行为评论》,68862-879。谷歌学者·Zbl 1414.92092号
[30] Friston,K.、FitzGerald,T.、Rigoli,F.、Schwartenbeck,P.和Pezzulo,G.(2017年)。主动推理:一种过程理论。神经计算,29(1),1-49。谷歌学者·Zbl 1414.92092号
[31] Friston,K.、Mattout,J.和Kilner,J.(2011)。行动理解和主动推理。生物控制论,104(1-2),137-160。谷歌学者·Zbl 1232.92036号
[32] Friston,K.J.、Parr,T.和de Vries,B.(2017年)。图形大脑:信念传播和主动推理。网络神经科学,1(4),381-414。谷歌学者
[33] Friston,K.、Rigoli,F.、Ognibene,D.、Mathys,C.、Fitzgerald,T.和Pezzulo,G.(2015)。主动推理和认知价值。认知神经科学,6(4),187-214。谷歌学者
[34] Friston,K.J.、Rosch,R.、Parr,T.、Price,C.和Bowman,H.(2017)。深层时间模型和主动推理。《神经科学与生物行为评论》,77,388-402。谷歌学者
[35] Friston,K.、Samothrakis,S.和Montague,R.(2012)。主动推理与代理:无成本函数的最优控制。生物控制论,106(8-9),523-541。谷歌学者·兹比尔1267.90167
[36] Friston,K.、Schwartenbeck,P.、FitzGerald,T.、Moutussis,M.、Behrens,T.和Dolan,R.J.(2014)。选择的解剖:多巴胺和决策。《皇家学会哲学学报B:生物科学》,369(1655),20130481。谷歌学者
[37] Fuhs,M.C.和Touretzky,D.S.(2007年)。啮齿类动物海马体的上下文学习。神经计算,19(12),3173-3215。谷歌学者·Zbl 1135.62020号
[38] Fürnkranz,J.、Hüllermier,E.、Cheng,W.和Park,S.-H.(2012)。基于偏好的强化学习:形式化框架和策略迭代算法。机器学习,89(1-2),123-156。谷歌学者·Zbl 1260.68328号
[39] Gershman,S.J.和Beck,J.M.(2017)。复杂概率推理。A.Mopustafa(Ed.),大脑和行为的计算模型。新泽西州霍博肯:威利。谷歌学者
[40] Gershman,S.J.和Daw,N.D.(2017年)。《人类和动物的强化学习和情景记忆:一个综合框架》,《心理学年度评论》,第68期,第101-128页。谷歌学者
[41] Gershman,S.J.和Niv,Y.(2010年)。学习潜在结构:在关节处雕刻自然。《神经生物学当前观点》,20(2),251-256。谷歌学者
[42] Gershman,S.J.、Norman,K.A.和Niv,Y.(2015)。发现强化学习中的潜在原因。《行为科学的当前观点》,第543-50页。谷歌学者
[43] Ghavamzadeh,M.、Mannor,S.、Pineau,J.和Tamar,A.(2016)。贝叶斯强化学习:一项调查。机器学习的基础和趋势,8(5-6):359-483。谷歌学者·Zbl 1382.68190号
[44] Haarnoja,T.、Zhou,A.、Abbeel,P.和Levine,S.(2018年)。软actor-critic:使用随机actor的非策略最大熵深度强化学习。arXiv:1801.01290。
[45] Igl,M.、Ciosek,K.、Li,Y.、Tschiatschek,S.、Zhang,C.、Devlin,S.和Hofmann,K.(2019年)。具有选择性噪声注入和信息瓶颈的强化学习中的泛化。H.Wallach、H.Larochelle、A.Beygelzimer、F.d'Alché-Buc、E.Fox和R.Garnett(编辑),《神经信息处理系统的进展》,32(第13978-13990页)。纽约州红钩市:Curran。
[46] Igl,M.、Zintgraf,L.、Le,T.A.、Wood,F.和Whiteson,S.(2018年)。POMDP的深度变分强化学习。arXiv:1806.02426。
[47] Kolter,J.Z.和Ng,A.Y.(2009年)。多项式时间中的近贝叶斯探索。第26届国际机器学习年会论文集(第513-520页)。纽约:ACM。谷歌学者
[48] Lee,L.、Eysenbach,B.、Parisotto,E.、Xing,E.、Levine,S.和Salakhutdinov,R.(2019年)。通过状态边缘匹配进行有效探索。arXiv:1906.05274。
[49] Levine,S.(2018)。强化学习和控制作为概率推理:教程和复习。arXiv:1805.00909。
[50] Lloyd,K.和Leslie,D.S.(2013)。上下文相关决策:一个简单的贝叶斯模型。《皇家学会界面杂志》,10(82),20130069。谷歌学者
[51] Millidge,B.、Tschantz,A.和Buckley,C.L.(2020年)。预期的自由能从哪里来?arXiv:2004.08128。
[52] Millidge,B.、Tschantz,A.、Seth,A.K.和Buckley,C.L.(2020年)。论主动推理与控制推理的关系。arXiv:2006.12964年。
[53] Mirza,M.B.、Adams,R.A.、Mathys,C.D.和Friston,K.J.(2016)。场景构建、视觉觅食和主动推理。计算神经科学前沿,10,56。谷歌学者
[54] Mnih,V.、Badia,A.P.、Mirza,M.、Graves,A.、Lillicrap,T.、Harley,T.…Kavukcuoglu,K.(2016)。深度强化学习的异步方法。《机器学习国际会议论文集》(第1928-1937页)。威斯康星州麦迪逊:无所不在。谷歌学者
[55] Mnih,V.、Kavukcuoglu,K.、Silver,D.、Graves,A.、Antonoglou,I.、Wierstra,D.和Riedmiller,M.(2013年)。玩Atari游戏进行深度强化学习。arXiv:1312.5602。
[56] Mohamed,S.和Rezende,D.J.(2015)。本质激励强化学习的变量信息最大化。arXiv:1509.08731。谷歌学者
[57] Moutussis,M.、Trujillo-Barreto,N.J.、El-Deredy,W.、Dolan,R.和Friston,K.(2014)。人际推理的形式化模型。人类神经科学前沿,8160。谷歌学者
[58] Ng,A.Y.,(2003)。强化学习中的塑造与政策探索。博士学位。,加州大学伯克利分校。
[59] O’Donoghue,B.、Osband,I.和Ionescu,C.(2020)。理解强化学习和概率推理。arXiv:2001.00805。
[60] O’Donoghue,B.、Osband,I.、Munos,R.和Mnih,V.(2018年)。不确定性贝尔曼方程及其探索。《国际机器学习会议论文集》(第3836-3845页)。纽约:ACM。谷歌学者
[61] Osband,I.、Blundell,C.、Pritzel,A.和Van Roy,B.(2016)。通过引导式DQN进行深入探索。D.Lee、M.Sugiyama、U.Luxburg、I.Guyon和R.Garnett(编辑),《神经信息处理系统的进展》,29(第4026-4034页)。纽约州红钩市:Curran。
[62] Padakandla,S.和Bhatnagar,S.2019。非平稳环境中的强化学习。arXiv:1905.03970。
[63] Parr,T.和Friston,K.J.(2017年)。不确定性、认识论和主动推理。《皇家学会界面杂志》,14(136),20170376。谷歌学者
[64] Parr,T.和Friston,K.J.(2018年)。离散和连续的大脑:从决策到行动,再到返回。神经计算,30(9),2319-2347。谷歌学者·Zbl 1472.92035号
[65] Parr,T.和Friston,K.J.(2019a)。眼动的计算药理学。精神药理学,236(8),2473-2484。谷歌学者
[66] Parr,T.和Friston,K.J.(2019b)。广义自由能和主动推理。生物控制论,113(5-6),495-513。谷歌学者·Zbl 1425.91384号
[67] Parr,T.、Markovic,D.、Kiebel,S.J.和Friston,K.J.(2019年)。使用平均场、Bethe和边缘近似值传递神经信息。科学报告,9(1),1-18。谷歌学者
[68] Pathak,D.、Agrawal,P.、Efros,A.A.和Darrell,T.(2017年)。通过自我监督的预测进行好奇驱动的探索。IEEE计算机视觉和模式识别研讨会会议记录(第16-17页)。新泽西州皮斯卡塔韦:IEEE。谷歌学者
[69] Poupart,P.(2018)。关于从cs885学习贝叶斯强化的演讲幻灯片:谷歌学者
[70] Rakelly,K.、Zhou,A.、Finn,C.、Levine,S.和Quillen,D.(2019年)。通过概率上下文变量进行有效的非策略元增强学习。《国际机器学习会议记录》(第5331-5340页)。纽约:ACM。谷歌学者
[71] Ross,S.、Chaib-draa,B.和Pineau,J.(2008)。贝叶斯自适应POMDP。J.C.Platt、D.Koller、Y.Singer和S.Roweis(编辑),《神经信息处理系统的进展》,20(第1225-1232页)。马萨诸塞州剑桥:麻省理工学院出版社·Zbl 1182.68265号
[72] Schmidhuber,J.(2006)。开发机器人、最佳人工好奇心、创造力、音乐和美术。连接科学,18(2):173-187。谷歌学者
[73] Schwartenbeck,P.、FitzGerald,T.H.、Mathys,C.、Dolan,R.、Wurst,F.、Kronbichler,M.和Friston,K.(2015)。次优模型的最优推理:成瘾和主动贝叶斯推理。医学假设,84(2),109-117。谷歌学者
[74] Schwartenbeck,P.、Passecker,J.、Hauser,T.U.、FitzGerald,T.H.、Kronbichler,M.和Friston,K.J.(2019年)。好奇心和目标导向探索的计算机制。Elife,8岁,e41703。谷歌学者
[75] Seifert,U.(2012年)。随机热力学,涨落定理和分子机器。物理学进展报告,75(12),126001。谷歌学者
[76] Sekar,R.、Rybkin,O.、Danilidis,K.、Abbeel,P.、Hafner,D.和Pathak,D.(2020年)。计划通过自我监督的世界模型进行探索。arXiv:2005.05960。
[77] Sorg,J.、Singh,S.和Lewis,R.L.(2012年)。基于方差的近似贝叶斯强化学习奖励。arXiv:1203.3518。
[78] Still,S.和Precup,D.(2012年)。一种基于信息理论的好奇驱动强化学习方法。生物科学理论,131(3),139-148。谷歌学者
[79] Sutton,R.S.(1990年)。基于近似动态编程的学习、规划和反应的集成架构。《1990年机器学习论文集》(第216-224页)。阿姆斯特丹:爱思唯尔。谷歌学者
[80] Sutton,R.S.和Barto,A.G.(1998年)。强化学习简介。马萨诸塞州剑桥:麻省理工学院出版社·兹比尔1407.68009
[81] Sutton,R.S.和Barto,A.G.(2018年)。强化学习:简介。马萨诸塞州剑桥:麻省理工学院出版社·兹比尔1407.68009
[82] Tervo,D.G.R.、Tenenbaum,J.B.和Gershman,S.J.(2016)。结构学习的神经实现。神经生物学最新观点,37,99-105。谷歌学者
[83] Tijsma,A.D.、Drugan,M.M.和Wiering,M.A.(2016年)。比较随机迷宫中q学习的探索策略。IEEE计算智能研讨会系列会议录(第1-8页)。新泽西州皮斯卡塔韦:IEEE。谷歌学者
[84] Ueltzhöffer,K.(2018)。深度主动推理。生物控制论,112(6),547-573。谷歌学者·Zbl 1402.92028号
[85] Vermorel,J.和Mohri,M.(2005年)。多武器盗贼算法和实证评估。《欧洲机器学习会议记录》(第437-448页)。柏林:斯普林格。谷歌学者
[86] Watkins,C.J.C.H.(1989)。从延迟的奖励中学习。博士学位。,剑桥大学。
[87] Watkins,C.J.和Dayan,P.(1992年)。Q学习。机器学习,8(3-4),279-292。谷歌学者·Zbl 0773.68062号
[88] Wiering,M.和Schmidhuber,J.(1998年)。高效的基于模型的探索。《第六届适应行为模拟国际会议论文集:从动物到动画》,6(第223-228页)。马萨诸塞州剑桥:麻省理工学院出版社。谷歌学者
[89] Zintgraf,L.、Shiarlis,K.、Igl,M.、Schulze,S.、Gal,Y.、Hofmann,K.和Whiteson,S.(2019年)。Varibad:通过元学习实现Bayes自适应深度R1的一种非常好的方法。arXiv:1910.08348。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。