×

通用近似性质。特征、构造、表示和存在。 (英语) Zbl 1511.41012号

摘要:目前对各种机器学习模型的通用近似性质的理解仅限于逐个案例,这限制了新的理论证明的神经网络体系结构的快速发展,模糊了我们对当前模型潜力的理解。本文通过给出一个特征、一个表示、一个构造方法和一个存在性结果来克服这些挑战,每个特征、表示、构造方法和存在性结果都适用于大多数实际感兴趣的函数空间上的任何通用逼近器。我们的特征化结果用于描述当对其最终层施加多个约束且其剩余层仅稀疏连接时,哪些激活函数允许前馈结构保持其通用近似能力。这些包括重新缩放和移位的泄漏ReLU激活功能,但不包括ReLU启动功能。我们的构造和表示结果用于展示对前馈结构的简单修改,该前馈结构可以在整个欧氏输入空间上一致地逼近具有非病态增长的任何连续函数。这提高了前馈架构的已知功能。

MSC公司:

41A63型 多维问题
2005年10月30日 度量空间的几何嵌入
37B20型 拓扑动力系统中递归和递归行为的概念
46纳米40 泛函分析在数值分析中的应用
68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 麦卡洛赫,WS;Pitts,W.,《神经活动内在思想的逻辑演算》,布尔。数学。生物物理学。,5, 115-133 (1943) ·Zbl 0063.03860号
[2] Rosenblatt,F.,《感知器:大脑中信息存储和组织的概率模型》。,《心理学评论》,65、6、386(1958)
[3] 霍尼克,K。;Stinchcombe,M。;White,H.,使用多层前馈网络对未知映射及其导数的通用近似,神经网络。,3, 5, 551-560 (1990)
[4] Cybenko,G.,通过sigmoid函数的叠加进行逼近,数学。控制信号系统。,2, 4, 303-314 (1989) ·Zbl 0679.94019号
[5] Hornik,K.,多层前馈网络的逼近能力,神经网络。,4, 2, 251-257 (1991)
[6] 科尔莫戈罗夫,AN,关于用一元连续函数和加法的叠加表示多变量连续函数,Dokl。阿卡德。诺克SSSR,114953-956(1957)·Zbl 0090.27103号
[7] 韦伯,S.:生物学的深度学习。《自然》554(7693)(2018)
[8] 伊拉斯兰,G。;Avsec,Z。;Gagneur,J。;Theis,FJ,《深度学习:基因组学的新计算建模技术》,《自然遗传学评论》。,20, 7, 389-403 (2019)
[9] Plis,SM,《神经成像的深度学习:验证研究》,Front。神经科学。,8, 229 (2014)
[10] Zhang,W.E.,Sheng,Q.Z.,Alhazmi,A.,Li,C.:自然语言处理中深度学习模型的对抗性攻击:一项调查。ACM事务处理。智力。系统。Technol公司。11(3) (2020)
[11] Buehler,H。;戈农。;Teichmann,J。;Wood,B.,深度套期保值,数量。金融,19,8,1271-1291(2019)·Zbl 1420.91450
[12] 贝克尔,S。;切里迪托,P。;Jentzen,A.,深度最佳停车,J.Mach。学习。第20号决议,第74、25号论文(2019年)·Zbl 1495.60029号
[13] 库切罗,C。;西科斯拉维。;Teichmann,J.,用于校准局部随机波动率模型的生成性对抗网络方法,风险,8,4,101(2020)
[14] Kratsios,A。;Hyndman,C.,通过套利调整在广义HJM框架中进行深度无套利学习,风险,8,2,40(2020)
[15] Horvath,B。;Muguruza,A。;Tomas,M.,《深度学习波动率:(粗略)波动率模型定价和校准的深度神经网络观点》,Quant。财务,0,1-17(2020)
[16] Leshno,M。;林,VY;Pinkus,A。;Schocken,S.,具有非多项式激活函数的多层前馈网络可以近似任何函数,神经网络。,6, 6, 861-867 (1993)
[17] Kidger,P.,Lyons,T.In:Abernethy,J,Agarwal,S(编辑):深窄网络的通用逼近,第125卷,第2306-2327页。PMLR,美国(2020年)
[18] 霍尼克,K。;Stinchcombe,M。;White,H.,多层前馈网络是通用逼近器,神经网络。,2, 5, 359-366 (1989) ·Zbl 1383.92015年
[19] Park,S.、Yun,C.、Lee,J.、Shin,J.:通用近似的最小宽度。ICLR(2021年)
[20] Hanin,B.:具有有界宽度和相关激活的深度神经网络的通用函数逼近。数学-MDPI 7(10)(2019)
[21] Lu,Z.,Pu,H.,Wang,F.,Hu,Z..,Wang。摘自:《神经信息处理系统进展》,第30卷,第6231-6239页。Curran Associates,Inc.(2017年)
[22] PT弗莱彻;Venkatasubramanian,S。;Joshi,S.,黎曼流形上的几何中值及其在稳健地图集估计中的应用,Neuroimage,45,1,S143-S152(2009)
[23] Keller-Ressel,M。;Nargang,S.,Hydra:一种基于网络和距离数据的双曲线嵌入应变最小化方法,J.Complex Netw。,8、1、cnaa002、18(2020)·Zbl 1473.90032号
[24] Ganea,O.,Beigneul,G.,Hofmann,T.:双曲型神经网络。收录:Bengio,S,Wallach,H,Larochelle,H,Grauman,K,Cesa-Bianchi,N,Garnett,R(eds.)《神经信息处理系统进展》,第31卷,第5345-5355页。柯兰联合公司(2018)
[25] Zhang,H.,Goodfellow,I.,Metaxas,D.,Odena,A.:自我关注生成性对抗网络。摘自:机器学习国际会议,第7354-7363页。PMLR(2019)
[26] 阿伦斯,RF;Eells,J.,关于嵌入一致空间和拓扑空间,太平洋数学杂志。,6, 397-403 (1956) ·Zbl 0073.39601号
[27] von Luxburg,美国。;Bousquet,O.,《利用Lipschitz函数进行基于距离的分类》,J.Mach。学习。决议,5669-695(2003)·Zbl 1222.68326号
[28] Ambrosio,L。;Puglishi,D.,Lipschitz映射空间与最优传输之间的线性延拓算子,J.Reine Angew。数学。,764, 1-21 (2020) ·Zbl 1445.49024号
[29] Arjovsky,M.,Chintala,S.,Bottou,L.:瓦瑟斯坦生成性对抗网络,第214-223页。澳大利亚悉尼国际会议中心PMLR(2017年)
[30] Xu,T.,Le,W.,Munn,M.,Acciaio,B.:Cot-gan:通过因果最优运输生成序列数据。神经信息处理系统进展33(2020)
[31] Godefroy,G.,Kalton,N.J.:无Lipschitz的Banach空间。第121-141页。纪念Aleksander Pełczynski教授70岁生日(2003年)·Zbl 1059.46058号
[32] 韦弗,N.:Lipschitz代数。世界科学出版有限公司,哈肯萨克(2018)·Zbl 1419.46001号
[33] Godefroy,G.,《无Lipschitz Banach空间的调查》,评论。数学。,55, 2, 89-118 (2015) ·Zbl 1358.46015号
[34] Jost,J.,黎曼几何和几何分析(2011),海德堡:Universitext,Springer,Heidelberg·Zbl 1227.53001号
[35] Basso,G.:扩展和改进锥形双组合。预印本2005.13941(2020)
[36] Nagata,J-,《现代一般拓扑学》(1974),阿姆斯特丹:North-Holland Publishing Co.,Amsterdam·Zbl 0181.25401号
[37] Munkres,JR,拓扑(2000),上鞍河:Prentice Hall,Inc.,上鞍河·Zbl 0951.54001号
[38] 加利福尼亚州米切利;Xu,Y。;Zhang,H.,Universal kernels,J.Mach。学习。第7号决议,2651-2667(2006)·Zbl 1222.68266号
[39] Kontorovich,L。;Nadler,B.,《通用基于内核的学习与常规语言应用》,J.Mach。学习。第10号决议,1095-1129(2009年)·Zbl 1235.68094号
[40] Caponetto,A。;加利福尼亚州米切利;庞蒂尔,M。;Ying,Y.,通用多任务内核,J.Mach。学习。第9号决议,1615-1646(2008)·Zbl 1225.68155号
[41] 格里戈耶娃,L。;Ortega,J-P,可微储层计算,J.Mach。学习。决议,20,论文编号179,62(2019)·Zbl 1433.68343号
[42] Cuchiero,C.、Gonon,L.、Grigoryeva,L.,Ortega,J-P,Teichmann,J.:储层计算中的离散时间特征和随机性。预印2010.14615(2020)
[43] Fletcher,PT,测地回归和黎曼流形上的最小二乘理论,国际计算杂志。视觉。,105, 2, 171-185 (2013) ·Zbl 1304.62092号
[44] Kratsios,A.,Bilokopytov,E.:非核素通用近似(2020)
[45] 奥斯本,MS,局部凸空间,数学研究生教材,第269卷(2014),查姆:斯普林格,查姆·Zbl 1287.46002号
[46] Petersen,P.,Raslan,M.,Voigtlaender,F.:由固定大小的神经网络生成的函数集的拓扑性质。找到计算数学。doi:10.1007/s10208-020-09461-0(2020)·Zbl 1516.68082号
[47] Gribonval,R.,Kutyniok,G.,Nielsen,M.,Voigtlaender,F.:深度神经网络的近似空间。施工。即将拨款(2020年)
[48] Goodfellow,I.,Bengio,Y.,Courville,A.:深度学习。自适应计算和机器学习。麻省理工学院出版社,剑桥(2016)·Zbl 1373.68009号
[49] Gelfand,I.,Normierte Ringe,Rec.数学。美国,9,51,3-24(1941)
[50] 伊斯贝尔,JR,类别结构,公牛。阿默尔。数学。Soc.,72,619-655(1966年)·Zbl 0142.25401号
[51] Dimov,GD,Stone对偶定理的一些推广,Publ。数学。德布勒森,80,3-4,255-293(2012)·Zbl 1265.18008号
[52] Tuitman,J.:混合稀疏有效Nullstellensatz的细化。国际数学。Res.不。IMRN 71560-1572(2011)·Zbl 1217.14046号
[53] Fletcher,PT,测地回归和黎曼流形上的最小二乘理论,国际计算杂志。视觉。,105, 2, 171-185 (2013) ·Zbl 1304.62092号
[54] 梅耶,G。;Bonnabel,S。;Sepulchre,R.,固定秩半正定矩阵的回归:黎曼方法,J.Mach。学习。决议,第12号,第593-625页(2011年)·Zbl 1280.68185号
[55] Baes,M.,Herrera,C.,Neufeld,A.,Ruyssen,P.:使用神经网络参数化对协方差矩阵进行低秩加稀疏分解。预印1908.00461(2019)
[56] Hummel,J。;Biederman,I.,《形状识别神经网络中的动态绑定》,《心理学评论》,99,480-517(1992)
[57] Bishop,C.M.:混合物密度网络(1994)
[58] Kipf,T.N.,Welling,M.:图卷积网络的半监督分类。ICLR(2017)
[59] 斯卡塞利,F。;戈里,M。;佐伊,AC;Hagenbuchner,M。;Monfardini,G.,图神经网络模型,神经网络。学习系统。,20, 1, 61-80 (2009)
[60] PrajitRamachandran,Q.V.L.:搜索激活功能。ICLR(2018)
[61] Pinkus,A.:神经网络中MLP模型的近似理论8,143-195(1999)·Zbl 0959.68109号
[62] Koopman,BO,哈密顿系统和希尔伯特空间中的变换,Proc。国家。阿卡德。科学。,17, 5, 315-318 (1931) ·Zbl 0002.05701号
[63] 阿拉巴马州马斯;AY Hannun;Ng,AY,整流器非线性改善神经网络声学模型,ICML,30,1,3(2013)
[64] 辛格(RK Singh);Manhas,JS,《函数空间上的复合算子》,《North-Holland数学研究》,第179卷(1993),阿姆斯特丹:North-Holland Publishing Co.,阿姆斯特朗·Zbl 0788.47021号
[65] Bengio,Y.:无监督和迁移学习的表征深度学习。摘自:《ICML无监督和迁移学习研讨会论文集》,第27卷,第17-36页。JMLR研讨会和会议记录(2012年)
[66] Tan,C.,Sun,F.,Kong,T.,Zhang,W.,Yang,C.,Liu,C.:深度迁移学习调查。收录于:Kůrková,V.,Manolopoulos,Y,Hammer,B,Iliadis,L,Maglogiannis,I(编辑)《人工神经网络和机器学习-ICANN 2018》,第270-279页。施普林格(2018)
[67] Chollet,F.等人:Keras。https://keras.io/guides/transfer_learning/ (2015)
[68] Barron,AR,σ函数叠加的通用近似界,IEEE Trans。通知。理论,39,3,930-945(1993)·Zbl 0818.68126号
[69] Darken,C.、Donahue,M.、Gurvits,L.、Sontag,E.:稳健神经网络学习激励的近似结果率。摘自:《第六届计算学习理论年会论文集》,第303-309页。纽约计算机协会(1993年)
[70] Prolla,JB,向量值连续函数的加权空间,Ann.Mat.Pura Appl。(4), 89, 145-157 (1971) ·Zbl 0224.46024号
[71] 布尔巴吉,N.,《数学教育》。地形学。第1章第4节(1971年),巴黎:赫尔曼,巴黎·兹比尔0249.54001
[72] Phelps,RR,亚自反赋范线性空间,Arch。数学。(巴塞尔),8,444-450(1957)·兹伯利0081.32701
[73] Kadec,MI,所有可分无穷维Banach空间拓扑等价性的证明,Funkconal。分析。i Priloíen。,1, 61-70 (1967) ·Zbl 0166.10603号
[74] Grosse-Erdmann,K.-G.,Peris-Manguillot,A.:线性混沌。伦敦斯普林格大学(2011)·Zbl 1246.47004号
[75] Pérez-Carreras,P.,Bonet,J.:桶形局部凸空间,《北荷兰数学研究》,第131卷。阿姆斯特丹North-Holland出版公司。Notas de Matemática[数学笔记],113(1987)·Zbl 0614.46001号
[76] Kreyszig,E.:《应用功能分析导论》,威利经典图书馆。威利,纽约(1989)·Zbl 0706.46001号
[77] Bourbaki,N.,Espaces矢量拓扑。第1章第5节(1981年),巴黎:马森,巴黎·Zbl 0482.46001号
[78] Kalmes,T.,由局部属性定义的函数空间上加权复合算子的动力学,Studia Math。,249, 3, 259-301 (2019) ·Zbl 1435.47015号
[79] Przestacki,A.,光滑函数空间上加权复合算子的动力学性质,J.Math。分析。申请。,445, 1, 1097-1113 (2017) ·Zbl 1394.47032号
[80] Bayart,F。;乌兰巴托州达尔吉;Pires,B.,《拓扑及物性与复合算子的混合》,J.Math。分析。申请。,465, 1, 125-139 (2018) ·Zbl 1509.47029号
[81] Hoffmann,H.:关于严格单调函数逆的连续性。爱尔兰数学。Soc.牛市。(75), 45-57 (2015) ·Zbl 1339.26024号
[82] Behrends,E。;Schmidt-Bichler,U.,M结构和Banach-Stone定理,数学研究。,69,1,33-40(1980年)·Zbl 0371.46013号
[83] Jarchow,H.:局部凸空间。B.G.Teubner,斯图加特。Mathematische Leitfäden。【数学课本】(1981)·Zbl 0466.46001号
[84] Dieudonne,J。;Schwartz,L.,La duaitédans les espaces F et LF,《傅里叶学院年鉴》(格勒诺布尔),161-101(1949)·Zbl 0035.35501号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。