×

线性不可分数据分类神经网络训练中缓慢到快速权重进化的全局收敛性和几何特征。 (英语) Zbl 1469.90113号

摘要:在本文中,我们研究了用于分类问题的神经网络学习中梯度下降的动力学。与现有工作不同,我们考虑了不同类的训练数据位于正交子空间中的线性不可分离情况。我们证明了当网络具有足够(但不是非常大)数量的神经元时,(1)相应的最小化问题具有理想的前景,其中所有临界点都是具有完美分类的全局极小值;(2) 梯度下降保证收敛到全局极小值。此外,我们发现了网络权重的一个几何条件,使得当满足该条件时,权重演化从权重方向扩展的缓慢阶段过渡到权重收敛的快速阶段。几何条件表明,投影在单位球体上的权重的凸包包含原点。

MSC公司:

90C26型 非凸规划,全局优化
68瓦40 算法分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Z.Alen Zhu,Y.Li和Z.Song,通过过度参数化进行深度学习的收敛理论,预印本,arXiv:11811.03962。
[2] A.Brutzkus和A.Globerson,高斯输入ConvNet的全局最优梯度下降,预印本,arXiv:1702.07966。
[3] A.Brutzkus和A.Globerson,超参数化改进了XOR检测问题的泛化,预打印。
[4] A.Brutzkus、A.Globerson、E.Malach和S.Shalev-Shwartz,SGD学习在线性可分数据上可证明推广的超参数网络,第六届学习代表国际会议,加拿大不列颠哥伦比亚省温哥华,2018
[5] R.T.des Combes、M.Pezeshki、S.Shabanian、A.Courville和Y.Bengio,可分离数据上深度神经网络的收敛特性,2019年,可从以下网站获得:https://openreview.net/forum?id=HJfQrs0qt7。
[6] S.S.Du,X.Zhai,B.PoczóS和A.Singh,梯度下降可证明优化过参数化神经网络,预印本,arXiv:1810.02054。
[7] C.Ho;S.Zimmerman,关于一个\(\开始{文档}m\end{document}\)-由\(\begin剪切的维度空间{文档}n\end{document}\)超平面,澳大利亚。数学。Soc.天然气公司。,33, 260-264 (2006) ·Zbl 1179.52031号
[8] S.Hochreiter;J.Schmidhuber,长短期记忆,神经计算。,9, 1735-1780 (1997) ·doi:10.1116/neco.1997.9.8.1735
[9] A.Krizhevsky、I.Sutskever和G.E.Hinton,深度卷积神经网络的ImageNet分类神经信息处理系统研究进展, 2012, 1097-1105.
[10] LeNet-5——经典CNN架构.,可从以下网址获得:https://engmrk.com/lenet-5-a-classic-cnn-architecture/。,
[11] 李毅,梁毅,基于结构数据的随机梯度下降学习超参数神经网络,预印本,arXiv:1808.01204。
[12] S.Liang,R.Sun,Y.Li和R.Srikant,理解用于二元分类的神经网络的损失面,预印本,arXiv:1803.00909。
[13] B.Neyshabur,Z.Li,S.Bhojanapalli,Y.LeCun和N.Srebro,《理解神经网络泛化中过参数化的作用》,预印本,arXiv:1805.12076。
[14] Q.Nguyen,M.C.Mukkamala和M.Hein,关于一类无不良局部谷的深度神经网络的损失景观,预印本,arXiv:1809.10749。
[15] 任正非;K.He;R.Girshick;J.Sun,《Faster R-CNN:利用区域提议网络实现实时目标检测》,IEEE Trans。模式分析。机器智能。,39, 1137-1149 (2017) ·doi:10.1109/TPAMI.2016.2577031
[16] A.Rosebrock,LeNet-Python中的卷积神经网络,2016年,可从以下网站获得:https://www.pyimagesearch.com/2016/08/01/lenet-convolutional-neural-network-in-python/。
[17] D.银;A.黄;C.J.Maddison;A.Guez;L.et al.Sifre,《利用深度神经网络和树搜索掌握围棋游戏》,《自然》,529,484-489(2016)·doi:10.1038/nature16961
[18] 王浩、王毅、周振中、纪晓和龚德华等,CosFace:深度人脸识别的大余弦损失,预印本,arXiv:1801.09414。
[19] 尹培生;J.Xin;齐彦,基于深度神经网络的线性特征变换与分类增强,科学学报。计算。,76, 1396-1406 (2018) ·Zbl 1484.68210号 ·doi:10.1007/s10915-018-0666-1
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。