×

用于多类分类的深度ReLU网络的收敛速度。 (英语) Zbl 1493.62156号

摘要:对于分类问题,经过训练的深度神经网络返回类成员的概率。在这项工作中,我们研究了学习概率到真实条件类概率的收敛性。更具体地说,我们考虑在多类分类设置中最小化交叉熵损失的稀疏深层ReLU网络重建。当类成员概率接近零时,会出现有趣的现象。通过边缘类型条件导出了取决于近零行为的收敛速度。

MSC公司:

62G05型 非参数估计
62H30型 分类和区分;聚类分析(统计方面)
68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 安德森·G.、瓦马纳穆尔西·M.和沃伦·M.(1993)。空间中拟共形映射的不等式。太平洋数学杂志160 1-18. ·Zbl 0793.30014号
[2] Audibert,J.-Y.和Tsybakov,A.B.(2007年)。插件分类器的快速学习率。安。统计师。35 608-633. ·Zbl 1118.62041号 ·doi:10.1214/009053600000.1217
[3] BARTLETT,P.L.、JORDAN,M.I.和MCAULIFFE,J.D.(2006)。凸性、分类和风险边界。J.Amer。统计师。协会。101 138-156. ·Zbl 1118.62330号 ·doi:10.1198/01621450000000907
[4] Bauer,B.和Kohler,M.(2019年)。关于深度学习作为非参数回归中维数诅咒的补救措施。安。统计师。47 2261-2285·兹比尔1421.62036 ·doi:10.1214/18-AOS1747
[5] 班纳特·G(1962)。独立随机变量之和的概率不等式。美国统计协会杂志57 33-45. ·Zbl 0104.11905号
[6] Birgé,L.和Massart,P.(1998年)。筛子上的最小对比度估计:指数界和收敛速度。伯努利4 329-375. ·Zbl 0954.62033号
[7] BOJARSKI,M.、DEL TESTA,D.、DWORAKOWSKI,D.,FIRNER,B.、FLEPP,B.、GOYAL,P.、JACKEL,L.D.、MONFORT,M.,MULLER,U.、ZHANG,J.、ZHANGX、ZHAO,J.和ZIEBA,K.(2016)。自动驾驶汽车的端到端学习。arXiv电子打印arXiv:1604.07316。
[8] Dua,D.和Graff,C.(2017年)。UCI机器学习库。
[9] GREENSPAN,H.、VAN GINNEKEN,B.和SUMMERS,R.M.(2016)。医学影像学客座编辑深度学习:一种令人兴奋的新技术的概述和未来前景。IEEE医学影像汇刊35 1153-1159. ·doi:10.1109/TMI.2016.2553401
[10] HASTIE,T.、TIBSHIRANI,R.和FRIEDMAN,J.(2009)。统计学习的要素,第二版。统计学中的斯普林格系列Springer,纽约数据挖掘、推理和预测·Zbl 1273.62005年 ·doi:10.1007/978-0-387-84858-7
[11] HAUSSLER,D.和OPPER,M.(1997)。互信息、度量熵和累积相对熵风险。安。统计师。25 2451-2492. ·Zbl 0920.62007号 ·doi:10.1214/aos/1030741081
[12] Horowitz,J.L.和Mammen,E.(2007年)。一类具有未知链接函数的非参数回归模型的比率最优估计。安。统计师。35 2589-2619. ·Zbl 1129.62034号 ·doi:10.1214/009053600700000415
[13] KIM,Y.、OHN,I.和KIM,D.(2021)。用于分类的深度神经网络的快速收敛速度。神经网络138 179-197. ·兹比尔1521.68188 ·doi:10.1016/j.欧盟.2021.02.012
[14] KOHLER,M.和KRZY*ZAK,A.(2017)。基于层次交互模型的非参数回归。IEEE传输。通知。理论63 1620-1630. ·Zbl 1366.62082号 ·doi:10.1109/TIT.2016.2634401
[15] KOHLER,M.、KRZYZAK,A.和WALTER,B.(2020年)。基于卷积神经网络的图像分类器的收敛速度。arXiv预打印arXiv:2003.01526.
[16] KOHLER,M.和LANGER,S.(2019年)。关于全连通极深神经网络回归估计的收敛速度。arXiv电子打印arXiv:1908.11133年·Zbl 1486.62112号
[17] KOHLER,M.和LANGER,S.(2020年)。利用具有交叉熵损失的深度卷积神经网络进行图像分类的统计理论。arXiv预打印arXiv:2011.13602.
[18] KRIZHEVSKY,A.、SUTSKEVER,I.和HINTON,G.E.(2012年)。基于深度卷积神经网络的ImageNet分类。神经信息处理系统的进展251097-1105. Curran Associates公司。
[19] LEIBIG,C.、ALLKEN,V.、AYHAN,M.S.、BERENS,P.和WAHL,S.(2017年)。利用深层神经网络的不确定性信息进行疾病检测。科学报告7 1-14.
[20] Mammen,E.和Tsybakov,A.B.(1999年)。平滑判别分析。安。统计师。27 1808-1829. ·Zbl 0961.62058号 ·doi:10.1214/aos/1017939240
[21] PETERSEN,P.和VOIGTLAENDER,F.(2021)。使用深度神经网络优化学习高维分类问题。arXiv预打印arXiv:2112.12555.
[22] PINELIS,I.(2002年)。L'Hospital类型单调规则及其应用。J.伊内克。纯&应用。数学兹伯利0989.26005
[23] Schmidt Hieber,J.(2020)。使用ReLU激活函数的深度神经网络进行非参数回归。安。统计师。48 1875-1897. ·Zbl 1459.62059号 ·doi:10.1214/19-AOS1875
[24] SHEN,G.、JIAO,Y.、LIN,Y.&和HUANG,J.(2021)。深度卷积神经网络分类的非症状超额风险边界。arXiv预打印arXiv:2105.00292.
[25] TARIGAN,B.和VAN DE GEER,S.A.(2008年)。多指分类器的力矩界限。机器学习研究杂志9 2171-2185. ·Zbl 1225.68218号
[26] TSYBAKOV,A.B.(2008)。非参数估计简介.统计学中的斯普林格系列纽约施普林格。
[27] TSYBAKOV,A.B.(2004)。统计学习中分类器的最优聚合。统计年鉴32 135-166. ·Zbl 1105.62353号
[28] 范德盖尔,S.(2000)。M估计中的经验过程.剑桥统计与概率数学系列剑桥大学出版社·Zbl 0953.62049号
[29] VAN DER VAART,A.W.和WELLNER,J.A.(1996)。弱收敛与经验过程:及其在统计学中的应用纽约施普林格·Zbl 0862.60002号
[30] VAN ERVEN,T.和HARREMOS,P.(2014)。雷尼散度和库尔贝克-莱布勒散度。IEEE信息理论汇刊60 3797-3820. ·Zbl 1360.94180号
[31] Wong,W.H.和Severini,T.A.(1991年)。无穷维参数空间中的极大似然估计。安。统计师。19 603-632. ·Zbl 0732.62026号 ·doi:10.1214/aos/1176348113
[32] Wong,W.H.和Shen,X.(1995)。筛MLE的似然比和收敛速度的概率不等式。安。统计师。23 339-362·兹比尔0829.62002 ·doi:10.1214/aos/1176324524
[33] YANG,Y.和BARRON,A.(1999)。最小最大收敛速度的信息论确定。统计年鉴27 1564-1599. ·Zbl 0978.62008号
[34] YAROTSKY,D.(2017)。深度ReLU网络近似的误差界。神经网络94 103-114. ·Zbl 1429.68260号 ·doi:10.1016/j.neunet.2017.07.002
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。