×

神经网络的非线性加权有向无环图和先验估计。 (英语) Zbl 1491.68184号

摘要:为了更好地理解深度神经网络的结构优势和泛化能力,我们首先提出了一种新的神经网络模型的图论公式,包括全连通、残差网络(ResNet)和密连通网络(DenseNet)。其次,我们扩展了两层网络人口风险的误差分析[E.渭南等,Commun。数学。科学。17,第5期,1407-1425(2019年;Zbl 1427.68277号)]和ResNet[西-东等,Commun。数学。科学。第18期,第6期,1755-1774(2020年;Zbl 1467.62158号)]并进一步表明,对于满足某些温和条件的神经网络,可以获得类似的估计。这些估计在本质上是先验的,因为它们完全依赖于训练过程之前的信息,特别是估计误差的边界不会受到维数灾难的影响。

MSC公司:

68T07型 人工神经网络与深度学习
05C82号 小世界图形、复杂网络(图形理论方面)
41A46型 任意非线性表达式的逼近;宽度和熵
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Z.Allen-Zhu、Y.Li和Y.Liang,超参数化神经网络的学习和泛化,超越两层,《神经信息处理系统的进展》,H.Wallach、H.Larochelle、A.Beygelzimer、F.d\textquotesingle Alche-Buc、E.Fox和R.Garnett编辑,第32卷,Curran Associates,纽约州Red Hook,2019年,https://proceedings.neurips.cc/paper/2019/file/62dad6e273d32235ae02b7d321578ee8-paper.pdf。
[2] S.Arora,S.Du,W.Hu,Z.Li,R.Wang,超参数双层神经网络优化和泛化的细粒度分析,Proc。机器。学习。研究(PMLR),97(2019),第322-332页。
[3] P.L.Bartlett、D.J.Foster和M.J.Telgarsky,神经网络的光谱规范化边界,摘自《神经信息处理系统进展》,I.Guyon、U.V.Luxburg、S.Bengio、H.Wallach、R.Fergus、S.Vishwanathan和R.Garnett编辑,第30卷,Curran Associates,纽约州Red Hook,2017年,https://proceedings.neurips.cc/paper/2017/file/b22b257ad0519d4500539da3c8bcf4d-paper.pdf。
[4] R.E.Bellman,《自适应控制过程:导览》,普林斯顿大学出版社,新泽西州普林斯顿,2015年。
[5] Y.Cao和Q.Gu,学习过参数化深层ReLu网络的梯度下降广义误差界,载《AAAI人工智能会议论文集》,第34卷,加州门罗公园,2020年,第3349-3356页。
[6] Z.Chen、Y.Cao、Q.Gu和T.Zhang,双层神经网络的广义神经切线核分析,高级神经信息。过程。系统。,33(2020年),第13363-13373页。
[7] A.Daniely,SGD Learns the Conjugate Kernel Class of the Network,in Advances in Neural Information Processing Systems,I.Guyon,U.V.Luxburg,S.Bengio,H.Wallach,R.Fergus,S.Vishwanathan,and R.Garnett,eds.,Vol.30,Curran Associates,Red Hook,NY,2017年,https://proceedings.neurips.cc/paper/2017/file/489d0396e6826eb0c1e611d82ca8b215-paper.pdf。
[8] W.E,C.Ma,和Q.Wang,Rademacher复杂性和残差网络的泛化误差,Commun。数学。科学。,18(2020年),第1755-1774页·Zbl 1467.62158号
[9] W.E、C.Ma、L.Wu和S.Wojtowytsch,《基于神经网络的机器学习的数学理解:我们知道什么和不知道什么》,CSIAM Trans。申请。数学。,1(2020年),第561-615页,https://doi.org/10.4208/csiam-am.SO-2020-0002。
[10] W.E,C.Ma和L.Wu,双层神经网络人口风险的先验估计,Commun。数学。科学。,17(2019),第1407-1425页·Zbl 1427.68277号
[11] W.E和S.Wojtowytsch,《使用神经网络对分类问题进行先验估计》,预印本,arXiv:2009.13500,2020年。
[12] X.Glrot和Y.Bengio,理解训练深度前馈神经网络的困难,Proc。机器。学习。研究(PMLR),2010年9月,第249-256页,http://proceedings.mlr.press/v9/glorot10a.html。
[13] N.Golowich、A.Rakhlin和O.Shamir,神经网络的尺寸依赖样本复杂性,Proc。机器。学习。研究(PMLR),75,(2018),第297-299页,http://proceedings.mlr.press/v75/glowich18a.html。 ·Zbl 1528.68354号
[14] M.Hardt和T.Ma,深度学习中的身份问题,https://arxiv.org/abs/1111.004231 (2017).
[15] K.He,X.Zhang,S.Ren,J.Sun,图像识别的深度剩余学习,《2016年IEEE计算机视觉和模式识别会议论文集》,IEEE,新泽西州皮斯卡塔韦,2016年,第770-778页,https://doi.org/10.109/CVPR.2016.90。
[16] G.Huang、Z.Liu、L.Van Der Maaten和K.Q.Weinberger,《密集连接卷积网络》,载于IEEE计算机视觉和模式识别会议论文集,IEEE,新泽西州皮斯卡塔韦,2017,第4700-4708页。
[17] G.Huang、Y.Sun、Z.Liu、D.Sedra和K.Q.Weinberger,《具有随机深度的深度网络》,欧洲计算机视觉会议,瑞士查姆斯普林格,2016年,第646-661页。
[18] A.Jacot、F.Gabriel和C.Hongler,《神经切线核:神经网络中的收敛和泛化》,《神经信息处理系统进展》,2018年第31期。
[19] G.Larsson、M.Maire和G.Shakhnarovich,《分形网:无残差的超深神经网络》,载于《国际LR》,2017年。
[20] Y.Li和Y.Liang,通过结构化数据上的随机梯度下降学习超参数化神经网络,《神经信息处理系统进展》,S.Bengio、H.Wallach、H.Larochelle、K.Grauman、N.Cesa Bianchi和R.Garnett编辑,第31卷,Curran Associates,纽约州Red Hook,2018年,https://proceedings.neurips.cc/paper/2018/file/54fe976ba170c19ebae453679b362263-paper.pdf。
[21] T.Liang、T.Poggio、A.Rakhlin和J.Stokes,《Fisher-Rao度量、几何和神经网络复杂性》,Proc。机器。学习。研究(PMLR),89,(2019),第888-896页,http://proceedings.mlr.press/v89/liang19a.html。
[22] B.Neyshabur,《深度学习中的内隐正则化》,预印本,arXiv:1709.019532017。
[23] B.Neyshabur、S.Bhojanapalli、D.Mcallester和N.Srebro,《探索深度学习中的泛化,神经信息处理系统的进展》,I.Guyon、U.V.Luxburg、S.Bengio、H.Wallach、R.Fergus、S.Vishwanathan和R.Garnett编辑,第30卷,Curran Associates,Inc.,2017年,https://proceedings.neurips.cc/paper/2017/file/10ce03a1ed01077e3e289f3e53c72813-paper.pdf。
[24] B.Neyshabur、S.Bhojanapalli和N.Srebro,《神经网络频谱正常化边界的PAC-Baysian方法》,国际学习表征会议,2018年,https://openreview.net/forum?id=Skz_WfbCZ。
[25] B.Neyshabur、Z.Li、S.Bhojanapalli、Y.LeCun和N.Srebro,超参数化在神经网络泛化中的作用,2019年国际学习表征会议,https://openreview.net/forum?id=BygfghAcYX。
[26] S.Shalev-Shwartz和S.Ben-David,《理解机器学习:从理论到算法》,剑桥大学出版社,2014年·Zbl 1305.68005号
[27] R.K.Srivastava、K.Greff和J.Schmidhuber,《训练深度网络,神经信息处理系统进展》,C.Cortes、N.Lawrence、D.Lee、M.Sugiyama和R.Garnett编辑,第28卷,Curran Associates,Inc.,2015年,https://proceedings.neurips.cc/paper/2015/file/215a71a12769b056c3c32e7299f1c5ed-paper.pdf。
[28] M.Taylor,《伪微分算子与非线性偏微分方程》,第100卷,Springer科学与商业媒体,2012年。
[29] L.Venturi、A.S.Bandeira和J.Bruna,单层神经网络优化环境中的伪谷,《机器学习研究杂志》,20(2019),第1-34页,http://jmlr.org/papers/v20/18-674.html。 ·Zbl 1434.68464号
[30] S.Wojtowytsch等人,《机器学习中的Kolmogorov宽度衰减和差逼近:浅层神经网络、随机特征模型和神经切线核》,arXiv预印本arXiv:2005.108072020·Zbl 07307666号
[31] S.Wojtowytsch等人,巴伦函数的表示公式和逐点性质,arXiv预印本arXiv:2006.05982020·Zbl 1482.41013号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。