×

通过离散主动推理实现奖励最大化。 (英语) Zbl 1520.91292号

摘要:主动推理是一种用于建模生物和人工智能体行为的概率框架,它源于自由能最小化的原则。近年来,该框架已成功应用于各种以奖励最大化为目标的情况,通常提供与替代方法相当的性能,有时甚至优于替代方法。在本文中,我们通过演示主动推理代理如何以及何时执行对最大化报酬最有利的操作,澄清了报酬最大化和主动推理之间的联系。准确地说,我们展示了主动推理产生Bellman方程最优解的条件,该方程是基于模型的强化学习和控制的几种方法的基础。对于部分可观测的马尔可夫决策过程,标准的主动推理方案可以产生规划范围为1但不超过1的Bellman最优行动。相反,最近开发的递归主动推理方案(复杂推理)可以在任何有限时间范围内产生Bellman最优动作。我们在分析的基础上讨论了主动推理和强化学习之间更广泛的关系。

MSC公司:

91E10型 认知心理学
91E40型 心理学中的记忆和学习
90立方厘米 马尔可夫和半马尔可夫决策过程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Adams,R.A.、Stephan,K.E.、Brown,H.R.、Frith,C.D.和Friston,K.J.(2013)。精神病的计算解剖学。精神病学前沿,4。
[2] Adda,J.和Cooper,R.W.(2003)。动态经济学:定量方法和应用。麻省理工学院出版社。
[3] Attias,H.(2003)。通过概率推理进行规划。第九届国际人工智能与统计研讨会论文集。
[4] Barlow,H.B.(1961年)。感官信息转换的可能原理。麻省理工学院出版社。
[5] Barlow,H.B.(1974年)。归纳推理、编码、感知和语言。感知,3(2),123-134。[]
[6] Barp,A.、Da Costa,L.、FrançA,G.、Friston,K.、Girolma,M.、Jordan,M.I.和Pavliotis,G.A.(2022年)。采样、优化、推理和自适应代理的几何方法。在F.Nielsen、A.S.R.Srinivasa Rao和C.Rao(编辑)《几何与统计》中。爱思唯尔·Zbl 1524.62021号
[7] Barto,A.、Mirolli,M.和Baldassarre,G.(2013年)。新颖还是惊喜?心理学前沿,4。
[8] Barto,A.和Sutton,R.(1992年)。强化学习:简介。麻省理工学院出版社·Zbl 1407.68009号
[9] Beal,M.J.(2003)。近似贝叶斯推理的变分算法。博士学位。,伦敦大学。
[10] Bellman,R.E.(1957)。动态编程。普林斯顿大学出版社·Zbl 0077.13605号
[11] Bellman,R.E.和Dreyfus,S.E.(2015)。应用动态编程。普林斯顿大学出版社·Zbl 0123.37104号
[12] Berger,J.O.(1985年)。统计决策理论和贝叶斯分析(第二版)。斯普林格·弗拉格·Zbl 0572.62008号
[13] Berger-Tal,O.、Nathan,J.、Meron,E.和Saltz,D.(2014)。《探索与开发的困境:一个多学科框架》,《PLOS One》,9(4),e95693。
[14] Bertsekas,D.P.和Shreve,S.E.(1996年)。随机最优控制:离散时间情况。雅典娜科技·兹伯利0471.93002
[15] Bishop,C.M.(2006年)。模式识别和机器学习。斯普林格·Zbl 1107.68072号
[16] Blei,D.M.、Kucukelbir,A.和McAuliffe,J.D.(2017年)。变分推理:统计学家评论。《美国统计协会杂志》,112(518),859-877。
[17] Botvinick,M.和Toussaint,M.(2012年)。作为推理的计划。《认知科学趋势》,16(10),485-488。[]
[18] 乔塔尔·O·、诺塔·J·、韦伯伦·T·、西蒙斯·P·和德霍特·B·(2019年)。使用主动推理的贝叶斯策略选择。
[19] 乔塔尔,O.,Verbelen,T.,Nauta,J.,Boom,C.D.,&Dhoedt,B.(2020年)。通过深度主动推理学习感知和规划。《IEEE声学、语音和信号处理国际会议论文集》(第3952-3956页)。
[20] 乔塔尔,O.,韦伯伦,T.,范德梅尔,T.、德霍特,B.和萨夫隆,A.(2021)。机器人导航作为分层主动推理。神经网络,142192-204·Zbl 1521.68222号
[21] Champion,T.、Bowman,H.和Grz sh,M.(2021)。分支时间主动推理:实证研究和复杂性类分析。
[22] Champion,T.、Da Costa,L.、Bowman,H.和Grze Shi,M.(2021年)。分支时间主动推理:理论及其一般性。
[23] Cullen,M.、Davey,B.、Friston,K.J.和Moran,R.J.(2018年)。OpenAI健身房中的主动推理:精神疾病计算研究的范例。生物精神病学:认知神经科学和神经成像,3(9),809-818。[]
[24] Da Costa,L.、Lanillos,P.、Sajid,N.、Friston,K.和Khan,S.(2022年)。主动推理如何帮助机器人革命。熵,24(3),361。
[25] Da Costa,L.、Parr,T.、Sajid,N.、Veselic,S.、Neacsu,V.和Friston,K.(2020年)。离散状态空间上的主动推理:综合。《数学心理学杂志》,99102447·兹比尔1455.91190
[26] Da Costa,L.、Tenka,S.、Zhao,D.和Sajid,N.(2022)。作为代理模型的主动推理。RL作为代理模式研讨会。
[27] Daw,N.D.、O'Doherty,J.P.、Dayan,P.、Seymour,B.和Dolan,R.J.(2006)。人类探索性决策的皮层基质。《自然》,441(7095),876-879。[]
[28] Dayan,P.和Daw,N.D.(2008年)。决策理论、强化学习和大脑。认知、情感和行为神经科学,8(4),429-453。
[29] Deci,E.和Ryan,R.M.(1985年)。人类行为的内在动机和自主性。施普林格。
[30] Eysenbach,B.和Levine,S.(2019年)。如果MaxEnt Rl是答案,那么问题是什么?arXiv:1910.01913。
[31] Fountas,Z.,Sajid,N.,Mediano,P.A.M.使用Monte-Carlo方法的深层主动推理代理。
[32] Friston,K.、Da Costa,L.、Sajid,N.、Heins,C.、Ueltzhöffer,K.,Pavliotis,G.A.和Parr,T.(2022)。自由能原理变得更简单,但并不太简单。
[33] Friston,K.、Da Costa,L.、Hafner,D.、Hesp,C.和Parr,T.(2021)。复杂的推理。神经计算,33(3),713-763。[] ·Zbl 1469.91023号
[34] Friston,K.、FitzGerald,T.、Rigoli,F.、Schwartenbeck,P.、O'Doherty,J.和Pezzulo,G.(2016)。积极的推理和学习。《神经科学与生物行为评论》,68862-879。[] ·Zbl 1414.92092号
[35] Friston,K.、FitzGerald,T.、Rigoli,F.、Schwartenbeck,P.和Pezzulo,G.(2017年)。主动推理:过程理论神经计算,29(1),1-49。[] ·Zbl 1414.92092号
[36] Friston,K.、Samothrakis,S.和Montague,R.(2012)。主动推理与代理:无成本函数的最优控制。生物控制论,106(8),523-541。[] ·Zbl 1267.90167号
[37] Friston,K.J.、Daunizeau,J.和Kiebel,S.J.(2009年)。强化学习还是主动推理?PLOS One,4(7),e6421。
[38] Friston,K.J.、Daunizeau,J.、Kilner,J.和Kiebel,S.J.(2010)。行动和行为:自由能量公式。生物控制论,102(3),227-260。[]
[39] Friston,K.J.、Lin,M.、Frith,C.D.、Pezzulo,G.、Hobson,J.A.和Ondobaka,S.(2017年)。积极的推理、好奇心和洞察力。神经计算,29(10),2633-2683。[]·Zbl 1414.91320号
[40] Friston,K.J.、Parr,T.和de Vries,B.(2017年)。图形大脑:信念传播和主动推理。网络神经科学,1(4),381-414。[]
[41] Friston,K.J.、Rosch,R.、Parr,T.、Price,C.和Bowman,H.(2018年)。深层时间模型和主动推理。《神经科学与生物行为评论》,90,486-501。[]
[42] Fudenberg,D.和Tirole,J.(1991)。博弈论。麻省理工学院出版社·Zbl 1339.91001号
[43] Gershman,S.J.(2018)。解构人类探索算法。认知,173,34-42。[]
[44] Gershman,S.J.和Niv,Y.(2010年)。学习潜在结构:在关节处雕刻自然。神经生物学的当前观点,20(2),251-256。[]
[45] Ghavamzadeh,M.、Mannor,S.、Pineau,J.和Tamar,A.(2016)。贝叶斯强化学习:一项调查。arXiv:1609.04436·Zbl 1382.68190号
[46] Guez,A.、Silver,D.和Dayan,P.(2013a)。基于蒙特卡罗树搜索的可扩展高效贝叶斯自适应强化学习。《人工智能研究杂志》,48,841-883·Zbl 1361.68179号
[47] Guez,A.、Silver,D.和Dayan,P.(2013b)。使用基于样本的搜索实现高效的贝叶斯自适应强化学习·Zbl 1361.68179号
[48] Haarnoja,T.、Tang,H.、Abbeel,P.和Levine,S.(2017年)。通过深入的基于能源的政策加强学习。arXiv:1702.08165。
[49] Haarnoja,T.、Zhou,A.、Abbeel,P.和Levine,S.(2018)。软行动者批评家:非政策最大熵深度强化学习与随机行动者。CoRR,abs/1801.01290。
[50] Huys,Q.J.M.、Eshel,N.、O'Nions,E.、Sheridan,L.、Dayan,P.和Roiser,J.P.(2012)。头脑中的盆景树:巴甫洛夫系统如何通过修剪决策树来塑造目标导向的选择。PLOS计算生物学,8(3),e1002410。
[51] Itti,L.和Baldi,P.(2009年)。贝叶斯惊喜吸引着人类的注意力。视觉研究,49(10),1295-1306。[]
[52] Jaynes,E.T.(1957a)。信息论和统计力学。《物理评论》,106(4),620-630·Zbl 0084.43701号
[53] Jaynes,E.T.(1957b)。信息论和统计力学。二、。《物理评论》,108(2),171-190·Zbl 0084.43701号
[54] Jordan,M.I.、Ghahramani,Z.、Jaakkola,T.S.和Saul,L.K.(1998)。介绍图形模型的变分方法。M.I.Jordan(Ed.),《图形模型学习》(第105-161页)。施普林格荷兰·Zbl 0910.68175号
[55] Kaelbling,L.P.、Littman,M.L.和Cassandra,A.R.(1998)。在部分可观测的随机域中进行规划和行动。人工智能,101(1),99-134·Zbl 0908.68165号
[56] Kahneman,D.和Tversky,A.(1979年)。前景理论:风险下的决策分析。《计量经济学》,47(2),263-291·Zbl 0411.90012号
[57] Kappen,H.J.、Gómez,V.和Opper,M.(2012)。最优控制是一个图形模型推理问题。机器学习,87(2),159-182·Zbl 1243.93133号
[58] Klyubin,A.S.、Polani,D.和Nehaniv,C.L.(2008)。让您的选择保持开放:基于信息的传感运动系统驱动原理。PLOS One,3(12),e4018。
[59] Lally,N.、Huys,Q.J.M.、Eshel,N.,Faulkner,P.、Dayan,P.和Roiser,J.P.(2017年)。规划期间厌恶性巴甫洛夫指导的神经基础《神经科学杂志》,37(42),10215-10229。[]
[60] Lanillos,P.、Pages,J.和Cheng,G.(2020)。机器人自我/其他区别:主动推理与神经网络学习在镜子里相遇。《欧洲人工智能会议论文集》。
[61] Levine,S.(2018年5月20日)。强化学习和控制作为概率推理:教程和复习。
[62] Lindley,D.V.(1956年)。对实验提供的信息进行测量。《数理统计年鉴》,27(4),986-1005·兹伯利0073.14103
[63] Linsker,R.(1990)。感知神经组织:基于网络模型和信息理论的一些方法。神经科学年度回顾,13(1),257-281。[]
[64] 麦凯,D.J.C.(2003年9月25日)。信息理论、推理和学习算法。剑桥大学出版社·Zbl 1055.94001号
[65] Maisto,D.、Gregoretti,F.、Friston,K.和Pezzulo,G.(2021年3月25日)。大型POMDP中的活动树搜索。
[66] Marković,D.、Stojić,H.、Schwöbel,S.和Kiebel,S.J.(2021年)。多武装匪徒主动推理的实证评估。神经网络,144229-246。
[67] Mazzaglia,P.、Verbelen,T.和Dhoedt,B.(2021)。对比主动推理。
[68] Millidge,B.(2019年3月11日)。实施预测处理和主动推理:初步步骤和结果。PsyArXiv公司。
[69] Millidge,B.(2020年)。作为变化策略梯度的深度主动推断。数学心理学杂志,96102348·Zbl 1448.91236号
[70] Millidge,B.(2021)。自由能原理在机器学习和神经科学中的应用。
[71] Millidge,B.、Tschantz,A.和Buckley,C.L.(2020年4月21日)。预期的自由能从哪里来·Zbl 1469.91041号
[72] Millidge,B.、Tschantz,A.、Seth,A.K.和Buckley,C.L.(2020年)。论主动推理与控制推理的关系。在T.Verbelen、P.Lanillos、C.L.Buckley和C.De Boom(编辑)《主动推理》(第3-11页)中。施普林格。
[73] Miranda,M.J.和Fackler,P.L.(2002年9月1日)。应用计算经济学和金融学。麻省理工学院出版社·兹比尔1014.91015
[74] Mirza,M.B.、Adams,R.A.、Mathys,C.和Friston,K.J.(2018)。人类视觉探索减少了感知世界的不确定性。PLOS One,13(1),e0190429。
[75] Oliver,G.、Lanillos,P.和Cheng,G.(2021)。人形机器人主动推理的实证研究。IEEE认知与发展系统汇刊PP(99),1-1。
[76] Optican,L.M.和Richmond,B.J.(1987)。灵长类动物颞下皮层中单个单位对二维模式的时间编码。三、 信息理论分析。《神经生理学杂志》,57(1),162-178。[]
[77] Oudeyer,P.-Y.和Kaplan,F.(2007)。什么是内在动机?计算方法的类型学。神经机器人领域的前沿,1,6。
[78] Parr,T.(2019)。主动视觉的计算神经学(PhD diss.)。伦敦大学学院。
[79] Parr,T.、Limanowski,J.、Rawji,V.和Friston,K.(2021)。主动推理下运动的计算神经学。《大脑》,144(6),1799-1818年。[]
[80] Parr,T.、Markovic,D.、Kiebel,S.J.和Friston,K.J.(2019年)。使用平均场、Bethe和边缘近似值传递神经信息。科学报告,9(1),1889年。
[81] Parr,T.、Pezzulo,G.和Friston,K.J.(2022年3月29日)。主动推理:头脑、大脑和行为中的自由能原理。麻省理工学院出版社。
[82] Paul,A.、Sajid,N.、Gopalkrishnan,M.和Razi,A.(2021年8月27日)。随机控制的主动推理。
[83] Pavliotis,G.A.(2014)。随机过程和应用:扩散过程,福克-普朗克方程和朗之万方程。斯普林格·Zbl 1318.60003号
[84] Pearl,J.(1998)。概率和因果推理的图形模型。在P.Smets(Ed.)中,不确定性和不精确性的量化表示(第367-389页)。施普林格荷兰·Zbl 0933.03020号
[85] Pezzato,C.、Ferrari,R.和Corbato,C.H.(2020年)。一种基于主动推理的机器人自适应控制器。IEEE机器人与自动化快报,5(2),2973-2980。
[86] Pio Lopez,L.、Nizard,A.、Friston,K.和Pezzulo,G.(2016)。主动推理与机器人控制:案例研究。《皇家学会界面杂志》,13(122),20160616。
[87] Puterman,M.L.(2014年8月28日)。马尔可夫决策过程:离散随机动态规划。威利·Zbl 0829.90134号
[88] Rahme,J.和Adams,R.P.(2019年6月24日)。统计物理学和强化学习之间的理论联系。
[89] Rawlik,K.、Toussant,M.和Vijayakumar,S.(2013)。随机最优控制与近似推理强化学习。第二十届国际人工智能联合会议论文集。
[90] Ross,S.、Chaib-draa,B.和Pineau,J.(2008)。贝叶斯自适应POMDP。J.C.Platt、D.Koller、Y.Singer和S.T.Roweis(编辑),《神经信息处理系统的进展》,20(第1225-1232页)。库伦·Zbl 1182.68265号
[91] Ross,S.、Pineau,J.、Chaib-draa,B.和Kreitmann,P.(2011)。部分可观测马尔可夫决策过程中学习和规划的贝叶斯方法。机器学习研究杂志,12(2011)·Zbl 1280.68193号
[92] Russo,D.和Van Roy,B.(2014年)。通过后验抽样学习优化。运筹学数学,39(4),1729-1770·Zbl 1310.93091号
[93] Russo,D.和Van Roy,B.(2016年)。汤普森抽样的信息理论分析。机器学习研究杂志,17(1),2442-2471·Zbl 1360.62030
[94] Russo,D.、Van Roy,B.、Kazerouni,A.、Osband,I.和Wen,Z.(2017年)。汤普森采样教程。arXiv:1707.02038·Zbl 1409.62024号
[95] Sajid,N.、Ball,P.J.、Parr,T.和Friston,K.J.(2021年)。主动推理:解密和比较。神经计算,33(3),674-712。[] ·Zbl 1520.68156号
[96] Sajid,N.、Holmes,E.、Costa,L.D.、Price,C.和Friston,K.(2022)。听觉单词重复的混合生成模型。
[97] Sajid,N.、Tigas,P.、Zakharov,A.、Fountas,Z.和Friston,K.(2021年7月18日)。无报酬学习中的探索与偏好满意度权衡。
[98] Sales,A.C.、Friston,K.J.、Jones,M.W.、Pickering,A.E.和Moran,R.J.(2019年)。预测错误的位置Coeruleus跟踪优化了认知灵活性:一个主动推理模型。PLOS计算生物学,15(1),e1006267。
[99] Sancaktar,C.、van Gerven,M.和Lanillos,P.(2020年5月29日)。基于端到端像素的深度主动推理,用于身体感知和动作。
[100] 萨金特,R.W.H.(2000年)。最佳控制。计算与应用数学杂志,124(1),361-371·Zbl 0970.49003号
[101] Schmidhuber,J.(2006)。开发机器人、最佳人工好奇心、创造力、音乐和美术。连接科学,18(2),173-187。
[102] Schmidhuber,J.(2010)。创造性、乐趣和内在动机的形式理论(1990-2010)。IEEE自主精神发育汇刊,2(3),230-247。
[103] Schneider,T.、Belousov,B.、Abdulsamad,H.和Peters,J.(2022年6月1日)。机器人操作的主动推理。
[104] Schulz,E.和Gershman,S.J.(2019年)。人脑探索的算法架构。神经生物学的当前观点,55,7-14。[]
[105] Schwartenbeck,P.、FitzGerald,T.H.B.、Mathys,C.、Dolan,R.和Friston,K.(2015)。多巴胺能中脑编码预期结果的确定性。大脑皮层,25(10),3434-3445。[]
[106] Schwartenbeck,P.、FitzGerald,T.H.B.、Mathys,C.、Dolan,R.、Kronbichler,M.和Friston,K.(2015)。选择行为中惊喜最小化优于价值最大化的证据。科学报告。5, 16575.
[107] Schwartenbeck,P.、Passecker,J.、Hauser,T.U.、FitzGerald,T.H.、Kronbichler,M.和Friston,K.J.(2019年)。好奇心和目标导向探索的计算机制。电子生活,45。
[108] Shoham,Y.、Powers,R.和Grenager,T.(2003)。多智能体强化学习:一项批判性调查。斯坦福大学计算机科学系·Zbl 1168.68493号
[109] Silver,D.,Huang,A.,Maddison,C.J.,Guez,A.,Sifre,L.,van den Driessche,G.,…Hassabis,D.(2016)。通过深度神经网络和树搜索掌握围棋游戏。《自然》,529(7587),484-489。[]
[110] Smith,R.、Friston,K.J.和Whyte,C.J.(2022)。关于主动推理及其在经验数据中的应用的分步教程。数学心理学杂志,107102632·Zbl 1484.91352号
[111] Smith,R.、Khalsa,S.S.和Paulus,M.P.(2021)。一种主动推理方法,用于剖析不依从抗抑郁药物的原因。生物精神病学。认知神经科学与神经成像,6(9),919-934。[]
[112] Smith,R.、Kirlic,N.、Stewart,J.L.、Touthang,J.、Kuplicki,R.,Khalsa,S.S.F.、…Aupperle,R.L.(2021)。在进近回避冲突期间,更大的决策不确定性是跨诊断患者样本的特征:一种计算建模方法。《精神病学与神经科学杂志》,46(1),E74-E87。
[113] Smith,R.、Kirlic,N.、Stewart,J.L.、Touthang,J.、Kuplicki,R.,McDermott,T.J.、…Aupperle,R.L.(2021)。跨诊断精神病患者样本中接近-回避冲突期间计算参数的长期稳定性。科学报告,11(1),11783。
[114] Smith,R.、Kuplicki,R.,Feinstein,J.、Forthman,K.L.、Stewart,J.L.、Paulus,M.P.、…Khalsa,S.S.(2020年)。贝叶斯计算模型揭示了在抑郁、焦虑、饮食和物质使用障碍中,无法适应内感受精确估计。《公共科学图书馆计算生物学》,16(12),e1008484。
[115] Smith,R.、Kuplicki,R.,Teed,A.、Upshaw,V.和Khalsa,S.S.(2020年9月29日)。证实了健康个体能够自适应地调整先前的预期和接受间的精确估计。
[116] Smith,R.、Mayeli,A.、Taylor,S.、Al Zoubi,O.、Naegele,J.和Khalsa,S.(2021)。直觉推理:一种计算建模方法。生物心理学,164 108152。
[117] Smith,R.、Schwartenbeck,P.、Parr,T.和Friston,K.J.(2019年)。概念学习的主动推理模型。生物Rxiv:633677。
[118] Smith,R.、Schwartenbeck,P.、Parr,T.和Friston,K.J.(2020年)。建模结构学习的一种主动推理方法:以概念学习为例。计算神经科学前沿,14。
[119] Smith,R.、Schwartenbeck,P.、Stewart,J.L.、Kuplicki,R.,Ekhtiari,H.和Paulus,M.P.(2020年)。物质使用障碍中的不精确行为选择:解决探索性开发困境时主动学习障碍的证据。药物和酒精依赖,215108208。
[120] Smith,R.,Taylor,S.,Stewart,J.L.,Guinjoan,S.M.,Ironside,M.,Kirlic,N.,…Paulus,M.P.(2022)。在一年时间内,物质使用障碍的负面结果导致的学习率降低及其潜在的预测效用。计算精神病学,6(1),117-141。
[121] Still,S.和Precup,D.(2012年)。一种基于信息理论的好奇驱动强化学习方法。生物科学理论,131(3),139-148。[]
[122] Stolle,M.和Precup,D.(2002年)。强化学习中的学习选项。计算机科学讲义,212-223。斯普林格·兹比尔1077.68787
[123] Stone,J.V.(2015年2月1日)。信息论:教程介绍。Sebtel出版社。
[124] Stone,J.V.(2019)。人工智能引擎:深度学习数学入门教程。Sebtel出版社。
[125] Sun,Y.、Gomez,F.和Schmidhuber,J.(2011年3月29日)。计划惊喜:动态环境中的最佳贝叶斯探索。
[126] Tanaka,T.(1999)。平均场近似理论。S.Solla、T.Leen和K.Müller(编辑),《神经信息处理系统的进展》,第11页。麻省理工学院出版社。
[127] Tervo,D.G.R.、Tenenbaum,J.B.和Gershman,S.J.(2016)。结构学习的神经实现。神经生物学最新观点,37,99-105。[]
[128] Todorov,E.(2006)。线性可解马尔可夫决策问题。神经信息处理系统进展,19。麻省理工学院出版社。
[129] Todorov,E.(2008)。最优控制和估计之间的一般对偶性。第47届IEEE决策与控制会议记录(第4286-4292页)。
[130] Todorov,E.(2009)。有效计算最优行动。《美国国家科学院院刊》,106(28),11478-11483·Zbl 1203.68327号
[131] Tokic,M.和Palm,G.(2011年)。基于价值差异的探索:epsilon贪婪和Softmax之间的自适应控制。J.Bach&S.Edelkamp(编辑),KI 2011:人工智能进展(第335-346页)。施普林格。
[132] Toussant,M.(2009年)。利用近似推理进行机器人轨迹优化。第26届国际机器学习年会论文集(第1049-1056页)。
[133] Tschantz,A.、Baltieri,M.、Seth,A.K.和Buckley,C.L.(2019年11月24日)。缩放主动推理。
[134] Tschantz,A.、Millidge,B.、Seth,A.K.和Buckley,C.L.(2020年)。通过主动推理强化学习。
[135] Tschantz,A.、Seth,A.K.和Buckley,C.L.(2020年)。通过主动推理学习行动导向模型。PLOS计算生物学,16(4),e1007805。
[136] van den Broek,B.、Wiegerinck,W.和Kappen,B.(2010)。风险敏感路径集成控制·Zbl 1221.93276号
[137] van der Himst,O.和Lanillos,P.(2020年)。部分可观测MDP的深度主动推断。
[138] Von Neumann,J.和Morgenstern,O.(1944年)。博弈论与经济行为。普林斯顿大学出版社·兹比尔0063.05930
[139] Wainwright,M.J.和Jordan,M.I.(2007年)。图形模型、指数族和变分推理。机器学习的基础和趋势,1(1-2),1-305。
[140] Wilson,R.C.、Bonawitz,E.、Costa,V.D.和Ebitz,R.B.(2021年)。利用信息和随机化平衡勘探和开发。行为科学的当前观点,38,49-56。[]
[141] Wilson,R.C.、Geana,A.、White,J.M.、Ludvig,E.A.和Cohen,J.D.(2014)。人类使用定向和随机探索来解决探索开发的困境。实验心理学杂志。概述,143(6),2074-2081。
[142] Xu,H.A.、Modirshanechi,A.、Lehmann,M.P.、Gerstner,W.和Herzog,M.H.(2021)。新颖性并不奇怪:人类在顺序决策中的探索性和适应性行为。《公共科学图书馆计算生物学》,17(6),e1009070。
[143] Zermelo,E.(1913年)。《蒙涅尔赫雷理论》(Un ber eine Anwendung der Mengenlehre auf die Theory des Schachspiels)。
[144] 齐巴特,B.(2010)。用最大因果熵原理建模有目的的适应性行为。卡内基·梅隆大学。
[145] Ziebart,B.D.、Maas,A.L.、Bagnell,J.A.和Dey,A.K.(2008年)。最大熵反向强化学习。在AAAI人工智能会议记录中。
[146] Zintgraf,L.、Shiarlis,K.、Igl,M.、Schulze,S.、Gal,Y.、Hofmann,K.和Whiteson,S.(2020年2月27日)。VariBAD:通过元学习实现Bayes自适应深度RL的一种非常好的方法·Zbl 07626804号
[147] Zintgraf,L.M.、Feng,L.、Lu,C.、Igl,M.、Hartikainen,K.、Hofmann,K.&Whiteson,S.(2021)。元强化学习的近似超状态空间探索。机器学习国际会议(第12991-13001页)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。