×

具有内在维数的深度神经网络的自适应逼近和泛化。 (英语) Zbl 1525.68135号

摘要:在本研究中,我们证明协变量的内在低维性是决定深度神经网络(DNN)性能的主要因素。DNN通常提供出色的经验性能。因此,许多研究积极研究了DNN的理论性质,以了解其潜在机制。特别是,DNN在高维数据方面的行为是最关键的问题之一。然而,尽管高维数据的内在维数实际上很低,但这一问题尚未从协变量的角度得到充分研究。在这项研究中,我们推导了具有本质低维协变量的DNN的近似误差和泛化误差的界。我们应用了Minkowski维数的概念,并开发了一种新的证明技术。因此,我们表明,DNN的误差收敛速度不取决于数据的标称高维,而取决于其较低的固有维。我们进一步证明了该速率在极大极小意义下是最优的。我们发现DNN的一个优点是,与其他自适应估计器相比,DNN可以处理更广泛的一类内在低维数据。最后,我们进行了数值模拟以验证理论结果。

MSC公司:

68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] 马丁·安东尼和彼得·巴特利特。神经网络学习:理论基础。剑桥大学出版社,2009年·Zbl 0968.68126号
[2] 马丁·阿乔夫斯基和莱昂·博图。面向生成性对抗网络训练的原则方法。2017年国际学习代表大会。
[3] Sanjeev Arora、Rong Ge、Behnam Neyshabur和Yi Zhang。通过压缩方法,深度网具有更强的泛化边界。国际机器学习会议,第254-2632018页。
[4] 弗朗西斯·巴赫。用凸神经网络打破维数的魔咒。机器学习研究杂志,18(1):629-6812017·Zbl 1433.68390号
[5] 安德鲁·R·巴伦。sigmoid函数叠加的通用近似界。IEEE信息理论汇刊,39(3):930-9451993·Zbl 0818.68126号
[6] 安德鲁·巴伦(Andrew R Barron)。人工神经网络的近似和估计界。机器学习,14(1):115-1331994·Zbl 0818.68127号
[7] Andrew R Barron和Jason M Klusowski。高维深度学习网络的近似和估计。arXiv预印本arXiv:1809.030902018·Zbl 1432.41003号
[8] Peter L Bartlett、Dylan J Foster和Matus J Telgarsky。神经网络的谱规范化边界。《神经信息处理系统进展》,第6240-6249页,2017年。
[9] Benedikt Bauer和Michael Kohler。深度学习作为非参数回归中维度诅咒的补救方法。《统计年鉴》,47(4):2261-22852019年·Zbl 1421.62036号
[10] 米哈伊尔·贝尔金和帕塔·尼约吉。用于降维和数据表示的拉普拉斯特征映射。神经计算,15(6):1373-13962003·Zbl 1085.68119号
[11] Peter J Bickel和Bo Li.未知流形上的局部多项式回归。复杂数据集和反问题,第177-186页。2007
[12] Jörg Bruske和Gerald Sommer。具有最优拓扑保持映射的内在维数估计。IEEE模式分析和机器智能汇刊,20(5):572-5751998。
[13] Ronan Collobert和Jason Weston。自然语言处理的统一架构:具有多任务学习的深度神经网络。国际机器会议
[14] 杰拉尔德·B·福兰德。真实分析:现代技术及其应用。John Wiley&Sons,2013年·Zbl 0549.28001号
[15] Keinosuke Fukunaga和David R Olsen。一种求数据内在维数的算法。IEEE计算机汇刊,100(2):176-1831971·Zbl 0216.50201号
[16] 克里斯托弗·吉诺维塞(Christopher Genovese)、马可·佩罗内·佩西菲科(Marco Perone-Pacifico)、伊莎贝拉·威尔迪内利(Isabella Verdinelli)和拉里·瓦瑟曼(Larry Wasserman)。极小极大流形估计。机器学习研究杂志,13:1263-12912012·Zbl 1283.62112号
[17] 埃瓦里斯特·基内和理查德·尼克尔。无限维统计模型的数学基础。剑桥大学出版社,2016·Zbl 1358.62014号
[18] 伊恩·古德费罗、约舒亚·本吉奥、亚伦·库维尔和约舒亚·本吉奥。深度学习。麻省理工学院出版社,剑桥,2016年·Zbl 1373.68009号
[19] 格洛丽亚·哈罗(Gloria Haro)、格雷戈里·兰德尔(Gregory Randall)和吉列尔莫·萨皮罗(Guillermo Sapiro)。分层学习的转化泊松混合模型。国际计算机视觉杂志,80(3):358-3742008·Zbl 1477.68265号
[20] 何开明、张湘玉、任少清、孙建军。用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议,第770-778页。
[21] Imaizumi Masaaki和Fukumizu Kenji。深度神经网络有效地学习非光滑函数。《人工智能与统计》,第869-878页,2019年。
[22] 科尔斯汀·约翰逊(Kerstin Johnsson)、夏洛特·索尼森(Charlotte Soneson)和马格纳斯字体(Magnus Fontes)。基于期望单纯形偏度的低偏差局部内禀维数估计。IEEE模式分析和
[23] 安蒂·卡恩梅基(Antti Käenmäki)、朱哈·莱尔巴克(Juha Lehrbäck)和马蒂·武奥里宁(Matti Vuorinen)。尺寸、惠特尼盖和管状社区。印第安纳大学数学杂志,62(6):1861-18892013·Zbl 1298.28011号
[24] Diederick P Kingma和Jimmy Ba.Adam:一种随机优化方法。在2015年国际学习代表大会上。
[25] Michael Kohler、Adam Krzyzak和Sophie Langer。深度神经网络对低局部维数函数的估计。arXiv预印本arXiv:1908.111402019。
[26] 萨默里·科波图夫。k-nn回归适用于局部内在维数。神经信息处理系统进展,第729-7372011页。
[27] Samory Kpotufe和Vikas Garg。核回归中对局部光滑性和维数的适应性。《神经信息处理系统进展》,第3075-30832013页。
[28] 亚历克斯·克利舍夫斯基(Alex Krizhevsky)和杰弗里·辛顿(Geoffrey Hinton)。从微小图像中学习多层特征。2009
[29] Yann LeCun、Yoshua Bengio和Geoffrey Hinton。深度学习。《自然》杂志,521(7553):4362015。
[30] 乔纳森·马斯奇(Jonathan Masci)、戴维德·博斯卡尼(Davide Boscaini)、迈克尔·布朗斯坦(Michael Bronstein)和皮埃尔·范德盖恩斯特(Pierre Vandergheynst)。黎曼流形上的测地卷积神经网络。InIEEE国际会议
[31] 哈德里安·蒙塔内利和强都。深度relu网络减轻了维度的诅咒。arXiv预印arXiv:1712.086882017。
[32] Partha Niyogi、Stephen Smale和Shmuel Weinberger。从随机样本中寻找高置信度子流形的同源性。离散与计算几何,39(1-3):419-4412008·Zbl 1148.68048号
[33] 菲利普·彼得森(Philipp Petersen)和菲利克斯·沃格特拉恩德(Felix Voigtlaender)。使用深相关神经网络对分段光滑函数进行最佳逼近。神经网络,108:296-3302018·Zbl 1434.68516号
[34] 尤根·施密杜贝尔(Jürgen Schmidhuber)。神经网络中的深度学习:概述。神经网络,61:85-1172015。
[35] 约翰内斯·施密特·希伯(Johannes Schmidt-Hieber)。流形上函数的深relu网络逼近。arXiv预印arXiv:1908.006952019。
[36] 约翰内斯·施密特·希伯(Johannes Schmidt-Hieber)。使用具有relu激活函数的深度神经网络进行非参数回归。《统计年鉴》,48(4),2020年·Zbl 1459.62059号
[37] Shai Shalev-Shwartz和Shai Ben-David。理解机器学习:从理论到算法。剑桥大学出版社,2014年·Zbl 1305.68005号
[38] 铃木太极拳。从内核角度来看,深度学习的学习速度很快。《人工智能与统计》,2017年。
[39] 铃木太极拳。深度relu网络在besov和混合光滑besov空间中学习的适应性:最优速率和维数诅咒。国际学习会议
[40] 马图斯·特尔加斯基。神经网络的深度优势。InConference On Learning Theory,第49卷,2016年。
[41] Joshua B Tenenbaum、Vin De Silva和John C Langford。非线性降维的全局几何框架。科学,290(5500):2319-23232000。
[42] Aad W van der Vaart和Jon A Wellner。弱收敛和经验过程。施普林格,1996年·Zbl 0862.60002号
[43] 马丁·温赖特。高维统计:一个非症状的观点。剑桥大学出版社,2019年·Zbl 1457.62011年
[44] 杨玉红,安德鲁·巴伦,等。极大极小收敛速度的信息论确定。《统计年鉴》,27(5):1564-15991999·Zbl 0978.62008号
[45] 杨云(Yun Yang)和大卫·B·邓森(David B Dunson)。贝叶斯流形回归。《统计年鉴》,44(2):876-9052016年·Zbl 1341.62196号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。