×

深度神经网络拓扑。 (英语) Zbl 1527.68207号

摘要:我们研究了二进制分类问题中代表两类(a)和(b)的数据集(M=M_a\cup M_b\subseteq\mathbb{R}^d)的拓扑如何在经过良好训练的神经网络层时发生变化,即在训练集上具有完美精度和近零泛化误差(约0.01\%\)). 其目标是揭示深度神经网络中的两个谜团:(i)像ReLU这样的非光滑激活函数优于像双曲正切这样的光滑激活函数;(ii)成功的神经网络架构依赖于具有多个层,即使浅层网络可以很好地逼近任何函数。我们对大量真实和模拟点云数据集的持久同源性进行了广泛的实验。结果一致地表明:(1)神经网络是通过改变拓扑结构来工作的,当一个拓扑结构复杂的数据集经过各层时,它会转换成拓扑结构简单的数据集。无论(M)的拓扑结构有多复杂,当通过一个训练有素的神经网络(f:mathbb{R}^d到mathbb}R}^p)时,组件(M_a)和(M_b)的Betti数都会大大减少;事实上,它们几乎总是减少到可能的最低值:\(\betak\bigl(f(M_i)\bigr)=0\)for \(k\ge1)and \。(2) ReLU激活的Betti数减少速度明显快于双曲正切激活,因为前者定义了改变拓扑的非同胚映射,而后者定义了保持拓扑的同胚映射。(3) 浅层网络和深层网络转换数据集的方式不同——浅层网络主要通过改变几何结构来操作,只在最后一层改变拓扑结构,深层网络则将拓扑变化更均匀地传播到所有层。

MSC公司:

68T07型 人工神经网络与深度学习
55N31号 持久同源性及其应用,拓扑数据分析
68单位03 数字拓扑的计算方面
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] D.Attali、A.Lieutier和D.Salinas。Vietoris-Rips复合体还提供了采样形状的拓扑正确重建。计算。地理。,46(4):448-465, 2013. ·Zbl 1262.68171号
[2] S.Basu和A.Rizzie。实变种和半代数集的Betti数的多维界及其应用。离散计算。地理。,59(3):553-620, 2018. ·Zbl 1401.14228号
[3] C.拜耳、O.Enge-Rosenblatt、M.Bator和U.M¨onks。使用自动特征提取、重要性排序和约简进行无传感器驱动器诊断。2013年IEEE新兴技术与工厂自动化会议(ETFA),第1-4页。
[4] M.Bianchini和F.Scarselli。神经网络分类器的复杂性:浅层和深层结构的比较。IEEE传输。诺尔。净值。李尔王。,25(8):1553-1565, 2014.
[5] J.-D.Boissonnat、S.Pritam和D.Pareek。坚持的强烈崩溃。2018年欧洲算法研讨会(ESA),第67:1-67:13页·Zbl 1524.68390号
[6] M.M.Breunig、H.-P.Kriegel、R.T.Ng和J.Sander。LOF:识别基于密度的局部异常值。InACM SIGMOD国际数据管理会议,第93-104页,2000年。
[7] G.卡尔森。数据的形状。计算数学基础,伦敦数学。Soc.课堂讲稿Ser。,第16-44页,2013年·Zbl 1349.55001号
[8] G.卡尔森。点云数据的拓扑模式识别。Acta Numer.公司。,2014年23月28日至38日·Zbl 1398.68615号
[9] G.Carlsson和A.Zomordian。多维持久性理论。离散计算。地理。,42(1):71-93, 2009. ·Zbl 1187.55004号
[10] G.Carlsson、T.Ishkhanov、V.De Silva和A.Zomordian。关于自然图像空间的局部行为。国际期刊计算。视觉。,76(1):1-12, 2008. ·Zbl 1477.68463号
[11] G.Carlsson、G.Singh和A.Zomordian。计算多维持久性。J.计算。地理。,1(1):72-100, 2010. ·Zbl 1374.68649号
[12] M.Courbariaux、Y.Bengio和J.-P.David。用低精度乘法训练深度神经网络。arXiv:1412.70242014。
[13] V.De Silva和G.Carlsson。使用见证复合体进行拓扑估计。在基于点的图形研讨会(SPBG)上,第157-166页,2004年。
[14] J.Deng、W.Dong、R.Socher、L.Li、K.Li和L.Fei-Fei。ImageNet:大型分层图像数据库。2009年IEEE计算机视觉和模式识别会议(CVPR),第248-255页。
[15] P.Dlotko和H.Wagner。用于持久同源计算的复数的简化。同源同伦应用。,16(1):49-63, 2014. ·Zbl 1295.55002号
[16] H.Edelsbrunner、D.Letscher和A.Zomordian。拓扑持久性和简化。计算机科学基础研讨会(FOCS),第454-463页,2000年·Zbl 1011.68152号
[17] D.Eigen、J.Rolfe、R.Fergus和Y.LeCun。使用递归卷积网络理解深层架构。国际学习表征会议(ICLR),2014年。
[18] A.Gabrielov、N.Vorobjov和T.Zell。半代数和亚Pfaffian集的Betti数。J.伦敦数学。Soc.,69(1):27-432004年·Zbl 1087.14038号
[19] C.Giusti、E.Pastalkova、C.Curto和V.Itskov。团拓扑揭示了神经关联的内在几何结构。程序。国家。阿卡德。科学。,112(44):13455-134601015年·Zbl 1355.92015年
[20] X.Glorit、A.Bordes和Y.Bengio。深度稀疏整流器神经网络。2011年国际人工智能与统计会议(AISTATS),第315-323页。
[21] M.格罗莫夫。曲率、直径和贝蒂数。注释。数学。帮助。,56(2):179-1951981年·Zbl 0467.53021号
[22] S.Gupta、A.Agrawal、K.Gopalakrishnan和P.Narayanan。深度学习,数值精度有限。国际机器学习会议(ICML),第1737-1746页,2015年。
[23] W.H.Guss和R.Salakhutdinov。关于使用代数拓扑表征神经网络的容量。arXiv:1802.044432018。
[24] G.Henselman和R.Ghrist。拟阵过滤和计算持久同源性。arXiv:1606.001992016年。
[25] I.Hubara、M.Courbariaux、D.Soudry、R.El-Yaniv和Y.Bengio。量化神经网络:训练具有低精度权重和激活的神经网络。J.马赫。学习。决议,18(1):6869-68982017·Zbl 1468.68183号
[26] F.A.Khasawneh、E.Munch和J.A.Perea。使用机器学习和拓扑数据分析进行车削颤振分类。IFAC-PapersOnLine,51(14):195-2002018年。
[27] D.P.Kingma和J.Ba.ADAM:一种随机优化方法。2015年国际学习代表大会(ICLR)。
[28] A.Krizhevsky、V.Nair和G.Hinton。CIFAR-10,加拿大高等研究院,2009年。
[29] A.Krizhevsky、I.Sutskever和G.E.Hinton。使用深度卷积神经网络进行ImageNet分类。Commun公司。ACM,60(6):84-902017年。
[30] J.拉舍夫。Vietoris-Rips闭黎曼流形附近度量空间的复数。架构(architecture)。数学。,77(6):522-528, 2001. ·Zbl 1001.53026号
[31] Y.LeCun、L.Bottou、Y.Bengio和P.Haffner。基于梯度的学习应用于文档识别。程序。IEEE,86(11):2278-23241998年。
[32] A.B.Lee、K.S.Pedersen和D.Mumford。自然图像中高对比度斑块的非线性统计。国际期刊计算。视觉。,54(1-3):83-103, 2003. ·Zbl 1070.68661号
[33] L.Li、W.-Y.Cheng、B.S.Glicksberg、O.Gottesman、R.Tamler、R.Chen、E.P.Bottinger和J.T.Dudley。通过患者相似性拓扑分析确定2型糖尿病亚组。科学。Transl.公司。医学,7(311):ra174-1-ra174-152015。
[34] L.-H.林。图上的霍奇·拉普拉斯。SIAM版本,63(3):685-7152020·Zbl 1453.05061号
[35] V.Lohweg、J.L.Hoffmann、H.D¨orksen、R.Hildebrand、E.Gillich、J.Hofmann和J.Schaede。使用移动设备进行钞票身份验证。InMedia水印、安全和取证(MWSF),8665(07):1-142013。
[36] R.J.Lyon、B.W.Stappers、S.Cooper、J.M.Brooke和J.D.Knowles。50年的脉冲星候选选择:从简单的滤波器到新的原则性实时分类方法。周一。通知皇家阿童木。Soc.,459(1):1104-11232016年。
[37] A.L.Maas、A.Y.Hannun和A.Y.Ng。整流器非线性改进了神经网络声学模型。2013年国际机器学习会议(ICML)。
[38] J.米尔诺。莫尔斯理论。数学研究年鉴。普林斯顿大学出版社,1963年·Zbl 0108.10401号
[39] J.米尔诺。关于实际品种的贝蒂数。程序。阿默尔。数学。1964年,索契,15:275-280·Zbl 0123.38302号
[40] K.Mischaikow和V.Nanda。莫尔斯过滤理论和持久同调的有效计算。离散计算。地理。,50(2):330-353, 2013. ·Zbl 1278.57030号
[41] G.Mont´ufar、R.Pascanu、K.Cho和Y.Bengio。关于深度神经网络的线性区域数。《神经信息处理系统进展》(NIPS),第2924-2932页,2014年。
[42] V.Nair和G.E.Hinton。整流的线性单元改进了受限的玻尔兹曼机。国际机器学习会议(ICML),第807-8142010页。
[43] G.Naitzat、N.Lokare、J.Silva和I.Kaynar-Kabul。M-Boost:使用拓扑数据分析分析和细化深层神经网络。InKDD互动数据探索与分析研讨会,2018年。
[44] Y.Netzer、T.Wang、A.Coates、A.Bissacco、B.Wu和A.Y.Ng。使用无监督特征学习读取自然图像中的数字。InNIPS深度学习和无监督特征学习研讨会,2011年。
[45] J.L.Nielson等人,临床前脊髓损伤和创伤性脑损伤发现的拓扑数据分析。国家公社。,6(8581):1-12, 2015.
[46] P.Niyogi、S.Smale和S.Weinberger。从随机样本中寻找高置信度子流形的同源性。离散计算。地理。,39(1-3):419-441, 2008. ·Zbl 1148.68048号
[47] C.奥拉。神经网络、流形和拓扑。http://colah.github.io/posts/2014-03-NN-歧管-拓扑/,2014。
[48] M.L.奥弗顿。使用IEEE浮点算法进行数值计算。工业和应用数学学会,2001年·Zbl 0981.68057号
[49] P.T.皮尔逊。使用莫尔斯理论可视化人工神经网络中的簇。高级人工神经系统,2013(486363):1-82013。
[50] J.A.Perea和J.Harer。滑动窗口和持久性:拓扑方法在信号分析中的应用。已找到。计算。数学。,15(3):799-838, 2015. ·兹比尔1325.37054
[51] J.A.Perea、A.Deckard、S.B.Haase和J.Harer。Sw1pers:滑动窗口和1次持续得分;发现基因表达时间序列数据的周期性。BMC生物信息学,16(257):1-122015。
[52] K.N.Ramamurthy、K.Varshney和K.Mody。决策边界的拓扑数据分析及其在模型选择中的应用。2019年国际机器学习会议(ICML),第5351-5360页。
[53] B.Rieck、M.Togninalli、C.Bock、M.Moor、M.Horn、T.Gumbsch和K.M.Borgwardt。神经持久性:使用代数拓扑的深度神经网络的复杂性度量。国际学习代表大会(ICLR),2019。
[54] B.Sch¨olkopf和A.J.Smola。用内核学习。麻省理工学院出版社,2002年。
[55] G.Singh、F.M´emoli和G.E.Carlsson。用于分析高维数据集和三维对象识别的拓扑方法。2007年,在基于点的图形研讨会(SPBG)上,第91-100页。
[56] A.斯托约翰。计算整数矩阵smith正规形的近最优算法。在符号和代数计算国际研讨会(ISSAC)上,第267-274页,1996年·Zbl 0914.65043号
[57] D.Yu、F.Seide和G.Li。使用上下文相关深层神经网络的会话语音转录。国际机器学习会议(ICML),第1-2页,2012年。
[58] T.P.泽尔。半法夫集的定量研究。普渡大学博士论文,2003年。
[59] L.Zhang、G.Naitzat和L.-H.Lim。深层神经网络的热带几何学。在2018年国际机器学习会议(ICML)上,第5824-5832页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。