×

具有先验知识的深线性网络的精确学习动力学。 (英语) Zbl 07848829号

MSC公司:

83至XX 相对论与引力理论
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Arora,Retal.2020普林斯顿大学深度学习理论(准备中)
[2] Arora,S。;科恩,N。;北卡罗来纳州戈洛维奇。;Wei,H.,深度线性神经网络梯度下降的收敛性分析,2018
[3] Arora,S。;科恩,N。;Hazan,E.,《深度网络优化:通过超参数化隐式加速》,第244-53页,2018年,PMLR
[4] Arora,S。;科恩,N。;魏,H。;Luo,Y.,深层矩阵分解中的隐式正则化,第32卷,2019
[5] Arora,S。;杜,S.S。;魏,H。;李志远;Salakhutdinov,R.R。;Wang,R.,关于用无限宽神经网络进行精确计算,第32卷,2019年
[6] 浅沼,H。;Takagi,S。;Y.长野。;Yoshida,Y。;Igarashi,Y。;冈田,M.,《教师和学生网络持续学习中灾难性遗忘的统计力学分析》,J.Phys。Soc.日本,902021·doi:10.7566/JPSJ.90.104001
[7] Atanasov,A。;博德隆,B。;Pehlevan,C.,《作为核心学习者的神经网络:无声对齐效应》,2022年
[8] Bahri,Y。;J.卡德蒙。;彭宁顿,J。;Schoenholz,S.S。;Sohl-Dickstein,J。;Ganguli,S.,《深度学习的统计力学》,年。修订版Condens。物质物理学。,11, 501-28, 2020 ·doi:10.1146/annurev-conmatphys-031119-050745
[9] 巴尔迪,P。;Hornik,K.,《神经网络和主成分分析:从没有局部极小值的示例中学习》,神经网络。,2, 53-58, 1989 ·doi:10.1016/0893-6080(89)90014-2
[10] Y.本吉奥。;洛拉杜尔,科姆;科洛伯特,R。;韦斯顿,J.,《课程学习》,第41-48页,2009年
[11] 贝尔,M。;Schwarze,H.,《在线梯度下降学习》,J.Phys。A: 数学。Gen.,286431995年·Zbl 0960.68635号 ·doi:10.1088/0305-4470/28/3/018
[12] Carey,S.E.,《童年时期的概念改变》,1985年,麻省理工学院出版社
[13] Carleo,G。;西拉克,I。;克兰默,K。;Daudet,L。;舒尔德,M。;蒂什比,N。;Vogt-Maranto,L。;Zdeborová,L.,《机器学习与物理科学》,修订版。物理。,91, 2019 ·doi:10.1103/RevModPhys.91.045002
[14] Chizat,L。;Oyallon,E。;巴赫,F.,《论微分编程中的懒惰训练》,第32卷,2019年
[15] Doan,T。;Abbana Bennani,M。;Mazoure,B。;Rabusseau,G。;Alquier,P.,通过ntk重叠矩阵对灾难性遗忘的理论分析,第1072-80页,2021年,PMLR
[16] Erdeniz,B。;Bedin Atalay,N.,《使用注意力控制强化学习(agrel)模型模拟概率学习和概率逆转学习》,第1-6页,2010年,IEEE
[17] Flesch,T.等人。;Balaguer,J。;德克尔,R。;尼利,H。;Summerfield,C.,比较大脑和机器中的持续任务学习,Proc。美国国家科学院。科学。,115,E10313-22018年·doi:10.1073/pnas.1800755115
[18] Flesch,T。;Juechms,K。;Dumbalska,T。;萨克斯,A。;Summerfield,C.,大脑和神经网络中鲁棒上下文相关任务性能的正交表示,Neuron,1104212-192022·doi:10.1016/j.neuron.2022.12.004
[19] French,R.M.,《联结主义网络中的灾难性遗忘》,《趋势认知》。科学。,3, 128-35, 1999 ·doi:10.1016/S1364-6613(99)01294-2
[20] Fukumizu,K.,批量学习在多层神经网络中的作用,国际会议神经信息处理(ICONIP),第67-701998页
[21] Gerace,F。;Saglietti,L。;Sarao Mannelli,S。;萨克斯,A。;Zdeborová,L.,用合成相关数据集模型探索迁移学习,马赫。学习。:科学。技术。,3, 2022 ·doi:10.1088/2632-1253/ac4f3f
[22] 格洛洛特,X。;Bengio,Y.,《理解深度前馈神经网络训练的困难》,第249-56页,2010年
[23] Goldt,S。;阿德瓦尼,M。;萨克斯,A.M。;Krzakala,F。;Zdeborová,L.,师生环境中两层神经网络的随机梯度下降动力学,第32卷,2019年
[24] Gunasekar,S。;Lee,J.D。;Soudry,D。;Srebro,N.,线性卷积网络上梯度下降的隐式偏差,第31页,2018
[25] Huh,D.,深度神经网络中的曲率校正学习动力学,第4552-60页,2020年,PMLR
[26] Jacot,A。;加布里埃尔,F。;Hongler,C.,《神经切线核:神经网络中的收敛和泛化》,第31卷,2018年
[27] 贾维德,K。;White,M.,《持续学习的元学习表征》,第1820-30页,2019年
[28] 凯明,H。;张,X。;任,S。;Sun,J.,《深入研究整流器:在图像网络分类方面超越人类水平的表现》,第1026-34页,2015年
[29] Kirkpatrick,J.,《克服神经网络中的灾难性遗忘》,Proc。美国国家科学院。科学。,114, 3521-6, 2017 ·Zbl 1404.92015年 ·doi:10.1073/pnas.1611855114
[30] Kriegeskorte,N。;穆尔,M。;Bandettini,P.A.,表征相似性分析-连接系统神经科学分支,Front。系统。神经科学。,2, 4, 2008 ·doi:10.3389/neuro.06.004.2008年
[31] Lampinen,A.K。;Ganguli,S.,深度线性网络中泛化动力学和迁移学习的分析理论,2018
[32] 劳伦特,T。;Brecht,J.,《具有任意损失的深线性网络:所有局部极小值都是全局的》,第2902-7页,2018年,PMLR
[33] Lee,J。;肖,L。;Schoenholz,S。;Bahri,Y。;诺瓦克,R。;Sohl-Dickstein,J。;Pennington,J.,《任意深度的宽神经网络在梯度下降下演化为线性模型》,第32卷,2019年
[34] Lee,S。;Sarao Mannelli,S。;克洛帕斯,C。;Goldt,S。;Saxe,A.,Maslow的灾难性遗忘之锤:节点重用与节点激活,2022年
[35] Lee,S。;塞巴斯蒂安,G。;Saxe,A.,《师生环境中的持续学习:任务相似性的影响》,第6109-192021页,PMLR
[36] McClelland,J.L.,《将新图式一致信息的快速大脑皮层学习纳入互补学习系统理论》,J.Exp.Psychol。Gen.,14211902013年·doi:10.1037/a0033812
[37] 麦克莱兰,J.L。;麦克诺顿,B.L。;O'Reilly,R.C.,《为什么海马体和新皮质中存在互补的学习系统:从联结主义学习和记忆模型的成功与失败中获得的见解》,《心理学》。修订版,1024191995·doi:10.1037/0033-295X.102.3.419
[38] McCloskey,M。;科恩,N.J.,《联结主义网络中的灾难性干扰:顺序学习问题》,《学习与动机心理学》,第24卷,第109-65页,1989年,爱思唯尔出版社
[39] 梅,S。;Montanari,A。;Nguyen,P-M,双层神经网络景观的平均场视图,Proc。美国国家科学院。科学。,115,E7665-712018年·Zbl 1416.92014号 ·doi:10.1073/pnas.1806579115
[40] 米什金,D。;马塔斯,J.,你所需要的只是2015年的良好开端
[41] Murphy,G.,《概念大书》,2004年,麻省理工学院出版社
[42] 帕里西,G.I。;Kemker,R。;第J.L.部分。;卡南,C。;Wermter,S.,《使用神经网络进行持续终身学习:综述》,神经网络。,113, 54-71, 2019 ·doi:10.1016/j.neunet.2019.01.012
[43] 彭宁顿,J。;Schoenholz,S。;Ganguli,S.,《通过动态等距恢复深度学习中的乙状结肠:理论与实践》,第30卷,2017年
[44] Poggio,T。;廖琦(Liao,Q.)。;米兰达,B。;班伯斯基,A。;博伊克斯,X。;Hidary,J.,Theory iiib:深度网络中的泛化,2018
[45] 拉古,M。;张,C。;Kleinberg,J。;Bengio,S.,《输血:理解医学成像的转移学习》,第32页,2019年
[46] Ratcliff,R.,《认知记忆的连接主义模型:学习和遗忘功能施加的约束》,《心理学》。修订版,972851990·doi:10.1037/0033-295X.97.2.285
[47] Rotskoff,G。;Vanden-Eijnden,E.,作为相互作用粒子的参数:神经网络的长时间收敛和渐近误差缩放,第31卷,2018
[48] 萨阿德,D。;Solla,S.A.,多层神经网络在线学习的精确解决方案,物理。修订版Lett。,74, 4337, 1995 ·doi:10.1103/PhysRevLett.74.4337
[49] 萨克斯,A.M。;麦克莱兰,J.L。;Ganguli,S.,深度线性神经网络学习非线性动力学的精确解,2014年
[50] 萨克斯,A.M。;麦克莱兰,J.L。;Ganguli,S.,《深层神经网络语义发展的数学理论》,Proc。美国国家科学院。科学。,116, 11537-46, 2019 ·Zbl 1416.92018号 ·doi:10.1073/pnas.1820226116
[51] 沙沙夫,G。;Brutzkus,A。;Globerson,A.,《线性教师微调的理论分析》,第34卷,2021年
[52] 西蒙,D。;Wei,H.,深度线性神经网络优化中的宽度可证明问题,pp 1655-64,2019,PMLR
[53] 西里尼亚诺,J。;Spiliopoulos,K.,《神经网络的平均场分析:中心极限定理》,Stoch。过程。申请。,130, 1820-52, 2020 ·Zbl 1441.60022号 ·doi:10.1016/j.spa.2019.06.003
[54] Tarmoun,S。;弗兰卡,G。;Haeffele,B.D。;Vidal,R.,《了解超参数线性模型中梯度流的动力学》,第10153-612021页,PMLR
[55] M.E.泰勒。;Stone,P.,《强化学习领域的迁移学习:一项调查》,J.Mach。学习。2009年第10号决议,1633-85·Zbl 1235.68196号
[56] 特隆,S。;Pratt,L.,《学会学习》,2012年,施普林格科学与商业媒体
[57] Tripuraneni,N。;乔丹,M。;Jin,C.,《论迁移学习理论:任务多样性的重要性》,第33卷,第7852-62页,2020年
[58] 肖,L。;Bahri,Y。;Sohl Dickstein,J.等人。;Schoenholz,S。;Pennington,J.,《cnns的动态等距和平均场理论:如何训练10000层香草卷积神经网络》,第5393-4022018页,PMLR
[59] Yan,W-Y;赫尔姆克,美国。;Moore,J.B.,神经网络oja流的全局分析,IEEE Trans。神经网络。,5, 674-83, 1994 ·数字对象标识代码:10.1109/72.317720
[60] Zenke,F。;普尔,B。;Ganguli,S.,通过突触智能进行持续学习,第3987-95页,2017年,PMLR
[61] Ziwei,J。;Telgarsky,M.,《梯度下降排列深层线性网络》,2018年
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。