×

闭环深度学习:使用反向传播生成正向模型。 (英语) 兹比尔1497.68446

总结:反射是一种简单的闭环控制方法,它试图将错误降至最低,但由于反应总是太迟而未能做到这一点。自适应算法可以利用此错误,借助预测线索学习正向模型。例如,驾驶员通过向前看以避免在最后一分钟转向来学习改进转向。为了处理诸如前方道路等复杂线索,深入学习是一种自然的选择。然而,这通常只能通过使用具有离散状态空间的深度强化学习间接实现。在这里,我们展示了如何通过将深度学习嵌入闭环系统并保持其连续处理来直接实现这一点。我们在z空间中具体展示了如何实现误差反向传播,以及通常如何在这种闭环场景中分析基于梯度的方法。该学习范式的性能通过在仿真中使用直线跟随器以及在显示非常快速和持续学习的真实机器人上进行演示。

MSC公司:

68T07型 人工神经网络与深度学习

软件:

ImageNet公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bansal,S.、Akametalu,A.K.、Jiang,F.J.、Laine,F.和Tomlin,C.J.(2016)。使用神经网络学习飞行控制的四旋翼动力学。2016年IEEE第55届决策与控制会议记录(第4653-4660页)。新泽西州皮斯卡塔韦:IEEE,
[2] Bengio,Y.、Frasconi,P.和Simard,P.(1993)。递归网络中的长期依赖学习问题。《IEEE神经网络国际会议论文集》(第1183-1188页)。新泽西州皮斯卡塔韦:IEEE,
[3] Bengio,Y.、Simard,P.和Frasconi,P.(1994年)。学习梯度下降的长期依赖性是困难的。IEEE神经网络汇刊,5(2),157-166,
[4] Botvinick,M.、Ritter,S.、Wang,J.X.、Kurth-Nelson,Z.、Blundell,C.和Hassabis,D.(2019年)。强化学习,快和慢。认知科学趋势,23(5),408-422,
[5] Botvinick,M.和Weinstein,A.(2014)。基于模型的分层强化学习和人类行为控制。《皇家学会哲学学报B:生物科学》,369(1655),20130480,
[6] Daryanavard,S.和Porr,B.(2020a)。Sama-Darya/CLDL:灵活的闭环深度学习。https://zenodo.org/record/3922922#.Xz7dz3VKg_A
[7] Daryanavard,S.和Porr,B.(2020b)。Sama-Darya/lineFollowerRobot:在闭环平台上进行深度学习的物理型线下机器人。https://zenodo.org/account/settings/github/repository/Sama-Darya/line追随者机器人
[8] Deng,J.,Dong,W.,Socher,R.,Li,L.-J.,Li.,K.,&Fei-Fei,L.(2009)。ImageNet:大型分层图像数据库。2009年IEEE计算机视觉和模式识别会议记录(第248-255页)。新泽西州皮斯卡塔韦:IEEE,
[9] Dolan,R.J.和Dayan,P.(2013年)。大脑中的目标和习惯。神经元,80(2),312-325,
[10] Guo,X.、Singh,S.、Lee,H.、Lewis,R.L.和Wang,X.(2014)。使用离线Monte-Carlo树搜索规划进行实时Atari游戏深度学习。Z.Gharamani、M.Welling、C.Cortes、N.D.Lawrence和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,27(第3338-3346页)。纽约州红钩市:Curran。
[11] Haruno,M.、Wolpert,D.M.和Kawato,M.(2001)。用于感觉运动学习和控制的马赛克模型。神经计算,13(10),2201-2220·Zbl 0984.68151号
[12] Hochreiter,S.和Schmidhuber,J.(1997)。长短期记忆。神经计算,9(8),1735-1780,
[13] Klopf,A.H.(1986)。单神经元功能的驱动增强模型:Hebbian神经元模型的替代方案。AIP会议记录(第151卷,第265-270页)。College Park,MD:美国物理研究所,
[14] Kulvicius,T.、Porr,B.和Wörgötter,F.(2007)。简单闭环行为环境中的连锁学习架构。生物控制论,97(5-6),363-378,
[15] Maffei,G.、Herreros,I.、Sanchez-Fibla,M.、Friston,K.J.和Verschure,P.F.(2017)。预期行为的感性塑造。英国皇家学会学报B:生物科学,284(1869),20171780,
[16] 宫本茂,H.,卡瓦托,M.,Setoyama,T.,&铃木,R.(1988)。机器人机械手轨迹控制的反馈误差学习神经网络。神经网络,1(3),251-265,
[17] Nakanishi,J.和Schaal,S.(2004)。反馈误差学习和非线性自适应控制。神经网络,17(10),1453-1465·Zbl 1089.93011号
[18] Pascanu,R.、Mikolov,T.和Bengio,Y.(2013年)。关于训练递归神经网络的困难。《机器学习国际会议论文集》(第1310-1318页)。
[19] Phillips,C.L.和Harbor,R.D.(2000年)。反馈控制系统。新泽西州上马鞍河:普伦蒂斯·霍尔·Zbl 1038.93001号
[20] Popa,L.和Ebner,T.(2018年)。小脑,预测和错误。细胞神经科学前沿,12524,
[21] Porr,B.和Daryanavard,S.(2020年)。Sama-Darya/enkiSimulator:在闭环平台上进行深度学习的虚拟线下机器人。https://zenodo.org/account/settings/github/repository/Sama-Darya/enkiSimulator
[22] Porr,B.和Wörgötter,F.(2006)。仅使用输入相关性,大大提高了时序学习的稳定性和更快的收敛性。神经计算,18(6),1380-1412·Zbl 1095.68651号
[23] Rumelhart,D.E.、Hinton,G.E.和Williams,R.J.(1986年)。通过反向传播错误学习表示。《自然》,323(6088),533-536·Zbl 1369.68284号
[24] Sutton,R.和Barto,A.(1998年)。强化学习:导论。马萨诸塞州剑桥:麻省理工学院出版社·Zbl 1407.68009号
[25] Verschure,P.F.和Coolen,A.C.(1991)。自适应域:经典条件关联的分布式表示。网络:神经系统计算,2(2),189-206,
[26] Watkins,C.J.和Dayan,P.(1992年)。Q学习。机器学习,8(3-4),279-292·Zbl 0773.68062号
[27] Wolpert,D.M.、Ghahramani,Z.和Flanagan,J.R.(2001)。运动学习中的观点和问题。认知科学趋势,5(11),487-494,
[28] Wolpert,D.M.和Kawato,M.(1998年)。用于电机控制的多个成对正向和反向模型。神经网络,11(7-8),1317-1329,
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。