×

局部连接的相关网络:正向传播原语。 (英语) Zbl 1469.68121号

Steven M.Lavalle(编辑)等人,机器人算法基础XIV。机器人算法基础第十四次研讨会论文集。查姆:斯普林格。Springer程序。高级机器人。17, 124-142 (2021).
总结:在状态转换、观察和奖励功能最初未知的情况下,端到端规划学习是一种很有前途的方法,可以找到好的机器人策略。这种方法的许多神经网络结构都显示出了积极的结果。在这些网络中,看似较小的组件在不同的体系结构中反复使用,这意味着提高这些组件的效率对于提高网络的整体性能具有很大潜力。本文旨在改进其中一个组件:前向传播模块。特别是,我们提出了局部连接相关网络(LCI-Net),这是一种新型的局部连接层,具有非共享但相互关联的权重,以提高信息传播和学习规划随机过渡模型的效率。LCI-Net是一个小的可微分神经网络模块,可以插入到各种现有架构中。出于评估目的,我们将LCI-Net应用于QMDP-Net;QMDP-Net是一种用于解决POMDP问题的神经网络,其过渡、观察和奖励函数都是学习的。对涉及二维和三维导航和抓取的基准问题的仿真测试表明,结果很有希望:仅使用LCI-Net更改前向传播模块即可将QMDP-Net的泛化能力提高10倍。
有关整个系列,请参见[Zbl 1464.68013号].

MSC公司:

68T40型 机器人人工智能
68T05型 人工智能中的学习和自适应系统
68T20型 人工智能背景下的问题解决(启发式、搜索策略等)

软件:

萝卜
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 神经网络、类型和函数编程。http://colah.github.io/posts/2015-09-NN-Types-FP/。2019年9月3日访问
[2] François-Lavet,V.,Bengio,Y.,Precup,D.,Pineau,J.:通过抽象表征的组合强化学习。收录于:AAAI,第33卷,第3582-3589页(2019年)
[3] Gupta,S.、Davidson,J.、Levine,S.,Sukthankar,R.、Malik,J.:视觉导航的认知映射和规划。摘自:IEEE计算机视觉和模式识别会议(CVPR)(2017年)。https://doi.org/10.109/CVPR.2017.769
[4] Haarnoja,T.、Ajay,A.、Levine,S.、Abbeel,P.:Backprop KF:学习判别确定性状态估计器。In:NIPS会议(2016)
[5] Hausknecht,M.,Stone,P.:部分可观察MDP的深度递归Q学习。参加:AAAI 2015秋季研讨会(2015)
[6] Howard,A.,Roy,N.:机器人数据集存储库(萝卜)(2003)。http://radish.sourceforge.net/
[7] Jonkowski,R.,Brock,O.:端到端可学习直方图过滤器(2017)
[8] Kaelbling,L.P.,Littman,M.L.,Cassandra,A.R.:在部分可观测随机域中规划和行动。Artif公司。智力。101(1-2), 99-134 (1998) ·Zbl 0908.68165号 ·doi:10.1016/S0004-3702(98)00023-X
[9] Karkus,P.,Hsu,D.,Lee,W.S.:QMDP-net:部分可观测性下的计划深度学习。In:NIPS会议(2017)
[10] Karkus,P.、Hsu,D.、Lee,W.S.:应用于视觉定位的粒子滤波网络。In:CoRL会议(2018)
[11] Karkus,P.、Ma,X.、Hsu,D.、Kaelbling,L.P.、Lee,W.S.、Lozano-Perez,T.:可组合机器人学习的微分算法网络。主题:机器人:科学与系统(2019)
[12] Lee,L.,Parisotto,E.,Chaplot,D.S.,Xing,E.,Salakhutdinov,R.:门控路径规划网络。In:ICML会议(2018)
[13] Littman,M.L.、Cassandra,A.R.、Kaelbling,L.P.:部分可观察环境的学习政策:扩大规模。In:ICML(1995)
[14] Mirowski,P.、Pascanu,R.、Viola,F.、Soyer,H.、Ballard,A.J.、Banino,A.、Denil,M.、Goroshin,R.,Sifre,L.、Kavukcuoglu,K.、Kumaran,D.、Hadsell,R.:学习在复杂环境中导航。In:ICLR会议(2016)
[15] Mnih,V.、Kavukcuoglu,K.、Silver,D.、Rusu,A.A.、Veness,J.、Bellemare,M.G.、Graves,A.、Riedmiller,M.、Fidjeland,A.K.、Ostrovski,G.、Petersen,S.、Beattie,C.、Sadik,A.、Antonoglou,I.、King,H.、Kumaran,D.、Wierstra,D.、Legg,S.和Hassabis,D.:通过深度强化学习实现人性化控制。《自然》518,529 EP,2015年2月。https://doi.org/10.1038/nature14236
[16] Oh,J.,Guo,X.,Lee,H.,Lewis,R.L.,Singh,S.:在atari游戏中使用深度网络进行动作条件视频预测。摘自:NIPS会议,第2863-2871页(2015年)
[17] Oh,J.,Singh,S.,Lee,H.:价值预测网络。在:NIPS会议,第6118-6128页(2017)
[18] Okada,M.,Rigazio,L.,Aosima,T.:路径积分网络:端到端可微最优控制(2017)
[19] Shankar,T.、Dwivedy,S.K.、Guha,P.:通过递归卷积神经网络进行强化学习。In:ICPR会议。第2592-2597页,2016年12月
[20] Sondik,E.:部分可观测马尔可夫过程的最优控制。斯坦福大学博士论文(1971)·Zbl 0379.60067号
[21] Tamar,A.、Wu,Y.、Thomas,G.、Levine,S.、Abbeel,P.:价值迭代网络。参加:2017年8月IJCAI会议
[22] Wahlström,N.,SchöN,T.B.,Deisenroth,m.P.:从图像像素学习深层动力学模型。In:第17届IFAC系统识别研讨会(SYSID)(2015)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。