×

深度神经网络中出现的大型随机矩阵的特征值分布:正交情况。 (英语) Zbl 1508.15029号

摘要:本文研究深度未训练神经网络的输入输出雅可比矩阵的奇异值在其无限宽度极限内的分布。雅可比矩阵是随机矩阵的乘积,其中独立权重矩阵与对角矩阵交替,对角矩阵的条目取决于最近邻权重矩阵的对应列。最近几次关于高斯权重和偏差以及Haar分布正交矩阵和高斯偏差的权重的研究中都考虑了这个问题。这些论文基于一个自由概率论证,声称在无限宽度(矩阵大小)的极限下,雅可比矩阵的奇异值分布与雅可比函数的模拟值分布一致,雅可布函数具有特殊的随机但与权重无关的对角矩阵,这是随机矩阵理论中众所周知的情况。在本文中,我们证明了随机Haar分布权重矩阵和高斯偏差的说法。这尤其证明了深度未训练神经网络在无限宽度极限下平均场近似的有效性,并将随机矩阵理论的宏观普适性扩展到这类新的随机矩阵。
©2022美国物理研究所

MSC公司:

15B52号 随机矩阵(代数方面)
60对20 随机矩阵(概率方面)
60F05型 中心极限和其他弱定理
15甲18 特征值、奇异值和特征向量
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bahri,Y。;J.卡德蒙。;彭宁顿,J。;Schoenholz,S.S。;Sohl Dickstein,J.等人。;Ganguli,S.,《深度学习的统计力学》,年。修订版Condens。物质物理学。,11, 501-528 (2020) ·doi:10.1146/annurev-conmatphys-031119-050745
[2] Buduma,N.,《深度学习基础:设计下一代机器智能算法》(Fundamentals of Deep Learning:Designing Next-Generation Machine Intelligence Algorithms)(2017),O'Reilly:O'Relly,Boston
[3] Calin,O.,《深度学习建筑:数学方法》(2020),施普林格:瑞士查姆施普林格·Zbl 1441.68001号
[4] 古德费罗,I。;Y.本吉奥。;A.Courville,《深度学习》(2016),麻省理工学院出版社:麻省剑桥麻省理学院出版社·Zbl 1373.68009号
[5] LeCun,Y。;Y.本吉奥。;Hinton,G.,深度学习,自然,521436-444(2015)·doi:10.1038/nature14539
[6] 马丁·C·H。;Mahoney,M.W.,重新思考泛化需要重新审视旧思想:统计力学方法和复杂的学习行为
[7] Schmidhuber,J.,《神经网络中的深度学习:概述》,神经网络,61,85-117(2015)·doi:10.1016/j.neuet.2014.09.003
[8] Shrestha,A。;Mahmood,A.,《深度学习算法和架构评论》,IEEE Access,75340-53065(2019)·doi:10.1109/访问2019.2912200
[9] 加利奇奥,C。;斯卡达潘,S。;Oneto,L。;纳瓦林,N。;Sperduti,A。;Anguita,D.,深度随机神经网络,从数据中学习的最新趋势,43-68(2020),施普林格:施普林格,查姆,瑞士
[10] Giryes,R。;萨皮罗,G。;Bronstein,A.M.,《随机高斯权重的深度神经网络:通用分类策略?》?,IEEE传输。信号处理。,64, 3444-3457 (2016) ·Zbl 1414.94217号 ·doi:10.1109/tsp.2016.2546221
[11] Ling,Z。;邱R.C.,深度剩余学习中的频谱集中:一种自由概率方法,IEEE Access,7105212-105223(2019)·doi:10.1109/access.2019.2931991
[12] 马修斯,A.G.d.G。;Hron,J。;罗兰,M。;特纳,R.E。;Ghahramani,Z.,广深神经网络中的高斯过程行为
[13] 彭宁顿,J。;舍恩霍尔茨,S。;Ganguli,S.,《深网络中光谱普遍性的出现》,841924-1932(2018)
[14] 普尔,B。;拉希里,S。;拉胡,M。;Sohl-Dickstein,J。;神经节,S。;Lee,D。;杉山,M。;美国卢克斯堡。;盖恩,I。;Garnett,R.,通过瞬态混沌实现深层神经网络的指数表达,3360-3368(2016),Curran Associates,Inc
[15] 斯卡达潘,S。;Wang,D.,《神经网络中的随机性:概述》,Wiley Interdiscip。版本:Data Min.Knowl。Discovery,7,e1200(2017)·doi:10.1002/widm.1200
[16] Schoenholz,S.S。;Gilmer,J。;甘古利,S。;Sohl-Dickstein,J.,深度信息传播
[17] Tarnowski,W。;Warchol,P。;雅斯特泽布斯基,S。;Tabor,J。;Nowak,M.A.,对于任何激活函数,动态等距是在剩余网络中以通用的方式实现的
[18] Yang,G.,Tensor程序III:神经矩阵定律
[19] 彭宁顿,J。;Bahri,Y.,《基于随机矩阵理论的神经网络损失曲面几何》,702798-2806(2017)
[20] 胡,W。;肖,L。;Pennington,J.,正交初始化在优化深线性网络中的可证明益处
[21] Pastur,L.,《深度神经网络中产生的随机矩阵:高斯情况》,Pure Appl。功能。分析。,5, 1395-1424 (2020) ·Zbl 1467.15032号
[22] Pastur,L。;Slavin,V.,《深度神经网络中产生的随机矩阵:一般身份识别案例》,《随机矩阵:理论应用》·Zbl 1390.82017年
[23] Girko,V.L.,《随机规范方程理论》(2001),Springer:Springer,纽约·Zbl 0996.60002号
[24] 马尔琴科,V.A。;Pastur,L.A.,一些随机矩阵集的特征值分布,数学。苏联Sb.,1457-483(1967)·Zbl 0162.22501号 ·doi:10.1070/SM1967v001n04ABEH001994
[25] Pastur,L.A.,《关于随机矩阵的谱》,Theor。数学。物理。,10, 67-74 (1972) ·doi:10.1007/bf01035768
[26] Pastur,L。;Wehr,J.,随机矩阵的特征值分布,random Media 2000,93-206(2007),数学与计算建模跨学科中心:数学与计算模型跨学科中心,波兰华沙
[27] Pastur,L。;Shcherbina,M.,大型随机矩阵的特征值分布(2011),AMS:AMS,Providence,RI·Zbl 1244.15002号
[28] Mingo,J.A。;Speicher,R.,《自由概率和随机矩阵》(2017),施普林格:施普林格,海德堡·Zbl 1387.60005号
[29] 柯林斯,B。;Hayase,T.,多层感知器不变性引起的分层Jacobians的渐近自由性:Haar正交情况·兹比尔1521.46027
[30] Pastur,L.,《随机矩阵乘法:重温》,J.Math。物理。,分析。地理。(2022)
[31] Vasilchuk,V.,《随机矩阵乘法》,数学。物理。,分析。地理。,4, 1-36 (2001) ·Zbl 0992.15021号 ·doi:10.1023/a:101011807424118
[32] 霍恩,R.A。;Johnson,C.R.,矩阵分析(2013),剑桥大学出版社:剑桥大学出版社,剑桥·Zbl 1267.15001号
[33] 新泽西州维伦金。,特殊函数与群表示理论(1968),AMS:AMS,Providence,RI·Zbl 0172.18404号
[34] F.D.Murnagan,《统一与轮换集团》(The Unitary and Rotation Group,1962),《斯巴达人的书:斯巴达的书》,华盛顿·Zbl 0112.26302号
[35] Neretin,Y.A.,《高斯积分算子和经典群讲座》(2011年),欧洲数学学会:欧洲数学学会,苏黎世·Zbl 1211.22001
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。