×

动物集体运动的贝叶斯反向强化学习。 (英语) Zbl 1498.62292号

摘要:基于代理的方法允许定义生成复杂组行为的简单规则。这类模型的控制规则通常是预先设定的,参数是根据观察到的行为轨迹进行调整的。反向强化学习不是在所有预期场景中进行简化假设,而是利用马尔可夫决策过程的特性,对控制长期行为策略的短期(局部)规则进行推断。我们使用计算效率高的线性可解马尔可夫决策过程来学习控制集体运动的局部规则,以模拟自推进粒子(SPP)模型和捕获孔雀鱼种群的数据应用。行为决策成本的估计是在贝叶斯框架下进行的,带有基函数平滑。我们在SPP模拟中恢复了真实成本,发现孔雀鱼更重视集体行动,而不是有针对性的行动。

MSC公司:

62页第12页 统计在环境和相关主题中的应用
2015年1月62日 贝叶斯推断
60J22型 马尔可夫链中的计算方法
68T05型 人工智能中的学习和自适应系统
90立方厘米 马尔可夫和半马尔可夫决策过程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] ARORA,S.和DOSHI,P.(2021)。反向强化学习综述:挑战、方法和进展。人工智能297 103500. ·Zbl 1519.68207号 ·doi:10.1016/j.artint.2021.103500
[2] 贝尔曼R.(1957)。动态程序设计。普林斯顿大学出版社,新泽西州普林斯顿·Zbl 0077.13605号
[3] BODE,N.W.、FRANKS,D.W.、WOOD,A.J.、PIERCY,J.J.、CROFT,D.P.和CODLING,E.A.(2012年)。在移动的动物群中区分社交导航和非社交导航。阿默尔。国家。179 621-632.
[4] Carpenter,B.、Gelman,A.、Hoffman,M.D.、Lee,D.、Goodrich,B.、Betancourt,M.、Brubaker,M.,Guo,J.、Li,P.等人(2017年)。斯坦:一种概率编程语言。J.统计软件。76
[5] CHOI,J.和KIM,K.-E.(2011年)。贝叶斯逆强化学习的映射推理。神经信息处理系统研究进展1989年至1997年。
[6] CHOI,J.和KIM,K.-E.(2014)。分层贝叶斯逆强化学习。IEEE传输。赛博。45 793-805.
[7] COUZIN,I.D.、KRAUSE,J.、JAMES,R.、RUXTON,G.D.和FRANKS,N.R.(2002)。动物群体的集体记忆和空间分类。J.理论。生物。218 1-11. ·doi:10.1006/jtbi.2002.3065
[8] DVIJOTHAM,K.和TODOROV,E.(2010年)。线性可解MDP的逆最优控制。ICML公司335-342.
[9] EARLE,A.C.、SAXE,A.M.和ROSMAN,B.(2018年)。非负矩阵分解的分层子任务发现。学习代表国际会议
[10] FINN,C.、LEVINE,S.和ABBEEL,P.(2016)。引导成本学习:通过策略优化实现深度逆最优控制。机器学习国际会议49-58.
[11] Hanks,E.M.、Hooten,M.B.和Alldredge,M.W.(2015)。动物运动的连续时间离散空间模型。附录申请。斯达。9 145-165. ·Zbl 1454.62445号 ·doi:10.1214/14-AOAS803
[12] Hoffman,M.D.和Gelman,A.(2014)。无转取样器:在哈密顿蒙特卡罗中自适应设置路径长度。J.马赫。学习。物件。15 1593-1623. ·Zbl 1319.60150号
[13] HOOTEN,M.B.、SCHARF,H.R.和MORALES,J.M.(2019年)。空跑:从动物运动数据中重新充电。经济。莱特。22 377-389. ·doi:10.111/电子邮箱13198
[14] HOOTEN,M.、WIKLE,C.和SCHWOB,M.(2020年)。基于代理的人口统计模型的统计实现。国际统计版次。88 441-461. ·Zbl 07776808号 ·doi:10.1111/insr.12399
[15] Hooten,M.B.、Johnson,D.S.、Hanks,E.M.和Lowry,J.H.(2010年)。基于Agent的动物运动和选择推理。《农业杂志》。生物与环境。斯达。15 523-538. ·兹比尔1306.62289 ·doi:10.1007/s13253-010-0038-2
[16] Hooten,M.B.、Johnson,D.S.、Mcclintock,B.T.和Morales,J.M.(2017)。动物运动:遥测数据的统计模型查普曼和霍尔/CRC,佛罗里达州博卡拉顿。
[17] HOOTEN,M.B.、LU,X.、GARLICK,M.J.和POWELL,J.A.(2020年)。具有机械选择功能的动物运动模型。小争吵。斯达。37 100406. ·doi:10.1016/j.spasta.2019.100406
[18] JIN,M.、DAMIANOU,A.、ABBEEL,P.和SPANOS,C.(2017)。通过深高斯过程进行反向强化学习。人工智能不确定性会议
[19] KANGASR Alada SIÙ,A.和KASKI,S.(2018年)。从总结数据中进行反向强化学习。机器。学习。107 1517-1535. ·Zbl 1475.68277号 ·doi:10.1007/s10994-018-5730-4
[20] KOHJIMA,M.、MATSUBAYASHI,T.和SAWADA,H.(2017)。线性可解MDP的广义逆强化学习。欧洲机器学习和数据库知识发现联合会议373-388. 柏林施普林格。
[21] KUCUKELBIR,A.、RANGANATH,R.、GELMAN,A.和BLEI,D.(2015)。Stan中的自动变分推理。神经信息处理系统研究进展568-576.
[22] LEE,K.,RUCKER,M.,SCHERER,W.T.,BELING,P.A.,GERBER,M.S.和KANG,H.(2017)。使用反向强化学习构建基于Agent的模型。2017年冬季模拟会议(WSC公司)1264年-1275年。电气与电子工程师协会。
[23] MCDERMOTT,P.L.、WIKLE,C.K.和MILLSPAUGH,J.(2017)。动物集体运动的层次非线性时空代理模型。《农业杂志》。生物与环境。斯达。22 294-312. ·Zbl 1388.62345号 ·doi:10.1007/s13253-017-0289-2
[24] MILLS FLEMMING,J.E.、FIELD,C.A.、JAMES,M.C.、JONSEN,I.D.和MYERS,R.A.(2006)。动物的导航能力如何?从跟踪数据中估计混乱圈。环境计量学17 351-362·doi:10.1002/env.774
[25] NG,A.Y.和RUSSELL,S.J.(2000)。反向强化学习算法。ICML公司663-670.
[26] PINSLER,R.、MAAG,M.、ARENZ,O.和NEUMANN,G.(2018年)。鸟群行为的反向强化学习。ICRA Swarms研讨会
[27] RAMACHANDRAN,D.和AMIR,E.(2007年)。贝叶斯反向强化学习。国际JCAI7 2586-2591.
[28] RATLIFF,N.D.、BAGNELL,J.A.和ZINKEVICH,M.A.(2006年)。最大利润规划。会议记录23第三届国际机器学习会议729-736.
[29] RIED,K.、MüLLER,T.和BRIEGEL,H.J.(2019年)。基于代理原则的集体运动建模:一般框架和行军蝗虫案例。公共科学图书馆14 e01210404·doi:10.1371/journal.pone.0212044
[30] RUSSELL,J.C.、HANKS,E.M.和HARAN,M.(2016)。具有空间点过程交互作用的动物运动动态模型。《农业杂志》。生物与环境。斯达。21 22-40. ·Zbl 1342.62179号 ·doi:10.1007/s13253-015-0219-0
[31] SCHAFER,T.L.、WIKLE,C.K.和HOOTEN,M.B.(2022)。补充“动物集体运动的贝叶斯反向强化学习”https://doi.org/10.1214/21-AOAS1529SUPA网站, https://doi.org/10.1214/21-AOAS1529SUPPB
[32] SCHARF,H.R.、HOOTEN,M.B.、FOSDICK,B.K.、JOHNSON,D.S.、LONDON,J.M.和DURBAN,J.W.(2016)。基于运动的动态社交网络。附录申请。斯达。10 2182-2202. ·Zbl 1454.62395号 ·doi:10.1214/16-AOAS970
[33] SCHARF,H.R.、HOOTEN,M.B.、JOHNSON,D.S.和DURBAN,J.W.(2018年)。用于建模交互轨迹的过程卷积方法。环境计量学29 e2487·doi:10.1002/env.2487
[34] SOSIC,A.、ZOUBIR,A.M.和KOEPPL,H.(2018)。一种用于策略识别和状态表示学习的贝叶斯方法。IEEE传输。模式分析。机器。智力。40 1295-1308. ·doi:10.1109/TPAMI.2017.2711024
[35] SOŠI ch,A.、KHUDABUKHSH,W.R.、ZOUBIR,A.M.和KOEPPL,H.(2017)。群系统中的反向强化学习。会议记录16第十届自治代理和多代理系统会议1413-1421.
[36] STAN开发团队(2020年)。RStan:与Stan的R接口。R软件包版本2.19.3。
[37] SUTTON,R.S.和BARTO,A.G.(1998年)。强化学习简介2.麻省理工学院出版社,剑桥。
[38] 托多罗夫E.(2007)。线性可解马尔可夫决策问题。神经信息处理系统研究进展1369-1376.
[39] 托多罗夫E.(2009)。最佳行动的有效计算。程序。国家。阿卡德。科学。美国106 11478-11483. ·Zbl 1203.68327号
[40] VICSEK,T.、CZIR OK,A.、BEN-JACOB,E.、COHEN,I.和SHOCHET,O.(1995)。自驱动粒子系统中的新型相变。物理学。修订稿。75 1226-1229. ·doi:10.1103/PhysRevLett.75.1226
[41] WIKLE,C.K.和HOOTEN,M.B.(2016)。离散值数据的基于层次代理的时空动态模型。离散值时间序列手册查普曼和霍尔/CRC Handb。国防部。统计方法349-365. 佛罗里达州博卡拉顿CRC出版社。
[42] WULFMEER,M.、ONDRUSKA,P.和POSNER,I.(2015)。深度反向强化学习。ArXiv预打印。可从ArXiv:1507.04888获取。
[43] YAMAGUCHI,S.、NAOKI,H.、IKEDA,M.、TSUKADA,Y.、NAKANO,S.,MORI,I.和ISHII,S.(2018年)。通过反向强化学习识别动物行为策略。公共科学图书馆计算。生物。14 e1006122·doi:10.1371/journal.pcbi.1006122
[44] ZAMMIT-MANGION,A.(2020年)。FRK:固定秩克里金。R包版本0.2.2.1。
[45] ZIEBART,B.D.、MAAS,A.、BAGNELL,J.A.和DEY,A.K.(2008年)。最大熵反向强化学习。会议记录23第三届全国人工智能会议AAAI公司08 3 1433-1438. 门罗公园AAAI出版社
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。