×

针对Lipschitz和凸损失的稳健高维学习。 (英语) 兹伯利07307489

摘要:当损失为Lipschitz凸且正则函数为范数时,我们建立了正则经验风险最小化器(RERM)的风险界。在第一部分中,我们在设计的亚高斯假设下,在i.i.d.设置中获得了这些结果。在第二部分中,考虑了更一般的框架,其中设计可能具有更重的尾部,数据可能会被设计和响应变量中的异常值破坏。在这种情况下,RERM总体表现不佳。我们分析了一种基于中位数原则的替代程序,称为“最小最大MOM”。我们展示了这些估计量在放松设置下的最优次高斯偏差率。主要结果是元理论,允许广泛应用于学习理论中的各种问题。为了展示这些潜在应用的非穷尽样本,将其应用于由LASSO和SLOPE正则化的逻辑损失函数的分类问题,以及由群LASSO正则化的Huber损失和总变差的回归问题。minmax MOM公式的另一个优点是,它提供了一种系统化的方法,可以稍微修改高维统计中使用的基于下降的算法,使其对异常值具有鲁棒性。我们在仿真部分中说明了这一原理,其中经典的最近点下降算法的“minmax MOM”版本被转化为对离群值鲁棒的算法。

MSC公司:

68T05型 人工智能中的学习和自适应系统

软件:

格拉索
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] 诺加·阿隆、尤西·马蒂亚斯和马里奥·塞格迪。近似频率矩的空间复杂性。J.计算。系统科学。,58(1,第2部分):137-1471999.ISSN 0022-0000。doi:10.1006/jcss.1997.1545。统一资源定位地址http://dx.doi.org/10.1006/jcss.1997.1545。第二十八届美国计算机学会计算理论年度研讨会(宾夕法尼亚州费城,1996年)·Zbl 0938.68153号
[2] P.Alquier、V.Cottet和G.Lecu´e。带有lipschitz损失函数的正则过程的估计界和尖锐的预言不等式。,arXiv预印arXiv:1702.014022017。
[3] 丹尼斯·阿梅伦森(Dennis Amelunxen)、马丁·洛茨(Martin Lotz)、迈克尔·麦考伊(Michael B.McCoy)和乔尔·特罗普(Joel A.Tropp)。生活在边缘:随机数据凸程序中的相变。信息推断,3(3):224-2942014。ISSN 20498764。doi:10.1093/imaiai/iau005。统一资源定位地址https://doi.org/10.1093/imaiai/iau005。 ·Zbl 1339.90251号
[4] 安德烈亚斯·阿吉里奥(Andreas Argyriou)、卢卡·巴尔达萨雷(Luca Baldassarre)、查尔斯·米切利(Charles A.Michelli)和马西米利亚诺·蓬蒂尔(Massimiliano Pontil)。关于机器学习的稀疏性诱导正则化方法。经验推断,第205-216页。施普林格,海德堡,2013年。doi:10.1007/978-3-642-41136-618。统一资源定位地址https://doi.org/ 10.1007/978-3-642-41136-6_18. ·Zbl 1330.68245号
[5] Jean-Yves Audibert和Olivier Catoni。稳健线性最小二乘回归。安.统计师。,39(5): 2766-2794, 2011. ISSN 0090-5364。doi:10.1214/11-AOS918。统一资源定位地址http://dx.doi.org/10.1214/11-AOS918·Zbl 1231.62126号
[6] 弗朗西斯·巴赫、鲁道夫·杰纳顿、朱利安·迈拉尔和纪尧姆·奥博金斯基。通过凸优化实现结构化稀疏性。统计师。科学。,27(4):450-468, 2012. ISSN 0883-4237。doi:10.1214/12-STS394。统一资源定位地址https://doi.org/10.1214/12-STS394。 ·Zbl 1331.90050号
[7] Y.Baraud、L.Birgée和M.Sart。一种新的估计和模型选择方法:ρ估计。发明。数学。,207(2):425-517, 2017. ISSN 0020-9910。doi:10.1007/s00222-016-0673-5。统一资源定位地址https://doi.org/10.1007/s00222-016-0673-5。 ·兹比尔1373.62141
[8] Peter L.Bartlett和Shahar Mendelson。经验最小化。普罗巴伯。理论相关领域,135(3):311-3342006.ISSN 0178-8051.URLhttps://doi.org/10.1007网址/s00440-005-0462-3·Zbl 1142.62348号
[9] Peter L.Bartlett、Olivier Bousquet和Shahar Mendelson。本地化Rademacher复杂性。InComputational learning theory(悉尼,2002),《计算课堂讲稿》第2375卷。科学。,第44-58页。施普林格,柏林,2002年。doi:10.1007/3-540-445435-7 4。统一资源定位地址https://doi。org/10.1007/3-540-45435-7_4。
[10] Peter L Bartlett、Olivier Bousquet、Shahar Mendelson等,《局部雷达复杂性》。《统计年鉴》,33(4):1497-15372005·Zbl 1083.62034号
[11] Peter L.Bartlett、Michael I.Jordan和Jon D.McAuliffe。凸性、分类和风险边界。J.Amer。统计师。协会,101(473):138-1562006。ISSN 0162-1459。doi:10.1198/01621450000000907。统一资源定位地址https://doi.org/10.1198/01621450000000907。 ·兹比尔1118.62330
[12] 皮埃尔·C·贝莱克。局部高斯宽度的m-凸壳及其套索和凸聚合应用。arXiv预印本arXiv:1705.106962017。
[13] Pierre C Bellec、Guillaume Lecu´e和Alexandre B Tsybakov。凸惩罚最小二乘估计的研究。在《S’eminaire et Congr'es》中,第31页。法国数学协会,2017年·Zbl 1409.62133号
[14] Pierre C.Bellec、Guillaume Lecu´e和Alexandre B.Tsybakov。斜率符合拉索:改进了预言界和优化。安.统计师。,46(6B):3603-3642,2018年。ISSN 0090-5364。doi:10.1214/17-AOS1670。统一资源定位地址https://doi.org/10.1214/17-AOS1670。 ·Zbl 1405.62056号
[15] Badri Narayan Bhaskar、Gongguo Tang和Benjamin Recht。原子范数去噪及其在线谱估计中的应用。IEEE传输。信号处理。,61(23):5987-5999, 2013. ISSN 1053-587X。doi:10.1109/TSP.2013.2273443。统一资源定位地址https://doi.org/10.1109/TSP。 2013.2273443. ·Zbl 1394.94079号
[16] 彼得·比克尔(Peter J.Bickel)、亚奥科夫·里托夫(Ya’acov Ritov)和亚历山大·谢巴科夫(Alexandre B.Tsybakov)。同时分析套索和Dantzig选择器。安.统计师。,37(4):1705-17322009.ISSN 0090-5364.doi:10.1214/08-AOS620。统一资源定位地址https://doi.org/10.1214/08-AOS620。 ·Zbl 1173.62022号
[17] Lucien Birg´e。风险最小极大值的稳定性和不稳定性反映了“相关性”均匀分布的变量。Ann.Inst.H.Poincar´e Probab公司。统计人员。,20(3):201-223, 1984. ISSN 0246-0203·Zbl 0542.62018号
[18] Małgorzata Bogdan、Ewout van den Berg、Chiara Sabatti、Weijie Su和Emmanuel J.Cand’es。SLOPE——通过凸优化进行自适应变量选择。附录申请。《法律总汇》,9(3):1103-11402015。ISSN 1932-6157。doi:10.1214/15-AOAS842。统一资源定位地址https://doi.org/10.1214/15-AOAS842·Zbl 1454.62212号
[19] 彼得·贝鲁曼(Peter B–uhlmann)和萨拉·范德格尔(Sara van de Geer)。高维数据统计。统计学中的斯普林格系列。斯普林格,海德堡,2011.ISBN 978-3-642-20191-2.doi:10.1007/978-3642-20192-9。统一资源定位地址https://doi.org/10.1007/978-3-642-20192-9。方法、理论和应用·Zbl 1273.62015年
[20] T Tony Cai,Zhao Ren,Harrison H Zhou,等。结构高维协方差和精度矩阵的估计:最优速率和自适应估计。《电子统计杂志》,10(1):1-592016·Zbl 1331.62272号
[21] 贾利尔·查法昂、奥利维尔·古伊登、纪尧姆·勒库埃和阿兰·帕约尔。压缩传感随机矩阵和高维几何体之间的相互作用。Citeseer,2012年·Zbl 1396.94015号
[22] 杰弗里·奇诺特。正则化问题的鲁棒学习和复杂性相关边界。arXiv预印本arXiv:1902.022382019。
[23] 杰弗里·奇诺特(Geoffrey Chinot)、纪尧姆·勒库埃(Guillaume Lecu´e)和马蒂厄·勒拉塞尔(Matthieu Lerasle)。具有lipschitz和凸损失函数的稳健统计学习。出现在概率论及相关领域,2018年。
[24] 当恶意离群值损坏标签时,Geoffrey Chinot等人。Erm和rerm是回归问题的最佳估计值。《电子统计杂志》,14(2):3563-36052020·Zbl 1453.62484号
[25] Luc Devroye、Matthieu Lerasle、Gabor Lugosi、Roberto I Oliveira等,《亚高斯平均估计量》。《统计年鉴》,44(6):2695-27252016·Zbl 1360.62115号
[26] 安德烈亚斯·埃尔塞纳(Andreas Elsener)和萨拉·范德格尔(Sara van de Geer)。稳健的低秩矩阵估计。安.统计师。,46(6B):3481-35092018年。ISSN 0090-5364。doi:10.1214/17-AOS1666。统一资源定位地址https://doi.org/10.1214/17-AOS1666·兹比尔1412.62068
[27] 克里斯托夫·吉拉德。《高维统计导论》,《统计学和应用概率专著》第139卷。CRC出版社,佛罗里达州博卡拉顿,2015年。是978-1-4822-37948·Zbl 1341.62011年
[28] Gene H Golub、Per Christian Hansen和Dianne P O’Leary。Tikhonov正则化和总最小二乘法。SIAM矩阵分析与应用杂志,21(1):185-1941999·Zbl 0945.65042号
[29] 叶霍拉姆·戈登、亚历山大·利特瓦克、沙哈·门德尔森和阿兰·帕约尔。插值体的高斯平均值及其在近似重建中的应用。近似理论杂志,149(1):59-732007·Zbl 1148.60003号
[30] P.J.Huber和E.Ronchetti。稳健的统计数据。《国际统计科学百科全书》,第1248-1251页。施普林格,2011年。
[31] Mark R.Jerrum、Leslie G.Valiant和Vijay V.Vazirani。从均匀分布中随机生成组合结构。理论。计算。科学。,43(2-3):169-188, 1986. ISSN 0304-3975。doi:10.1016/0304-3975(86)90174-X.网址http://dx.doi.org/10.1016/0304-3975(86)90174-X·Zbl 0597.68056号
[32] 弗拉基米尔·科尔钦斯基。风险最小化中的局部Rademacher复杂性和oracle不等式。安.统计师。,34(6):2593-2656, 2006. ISSN 0090-5364。doi:10.1214/009053606000001019。统一资源定位地址https://doi.org/10.1214/009053606000001019。
[33] 弗拉基米尔·科尔钦斯基。经验风险最小化和稀疏恢复问题中的Oracle不等式,《数学体系结构笔记》第2033卷。斯普林格,海德堡,2011a。国际标准图书编号9783-642-22146-0。统一资源定位地址https://doi.org/10.1007/978-3-642-22147-7。2008年在圣弗洛尔举行的第38届概率暑期学校的讲座,“圣弗洛尔概率学院”。【圣弗洛尔概率暑期学校】·Zbl 1223.91002号
[34] 弗拉基米尔·科尔钦斯基。经验过程和rademacher过程。《经验风险最小化和稀疏恢复问题中的InOracle不等式》,第17-32页。施普林格,2011年b·兹比尔1223.91002
[35] 弗拉基米尔·科尔钦斯基(Vladimir Koltchinskii)、卡里姆·卢尼奇(Karim Lounici)和亚历山大·谢巴科夫(Alexandre B.Tsybakov)。噪声低秩矩阵补全的核形式惩罚和最优速率。安.统计师。,39(5):2302-2329, 2011. ISSN 0090-5364。doi:10.1214/11-AOS894。统一资源定位地址http://dx.doi.org/10.1214/11-AOS894·Zbl 1231.62097号
[36] 纪尧姆·勒库埃和马蒂厄·勒拉塞尔。学习妈妈的原则:Le-cam的方法。发表于《随机过程及其应用》,2017a。
[37] 纪尧姆·勒库埃和马蒂厄·勒拉塞尔。由中间人进行的稳健机器学习:理论与实践。发表于《统计年鉴》,2017b。
[38] 纪尧姆·勒库埃和沙哈·门德尔森。学习亚高斯类:Upper and minimax bounds.arXiv预印本arXiv:1305.48252013。
[39] 纪尧姆·勒库和沙哈尔·门德尔松。正则化和小球方法II:依赖于复杂性的错误率。J.马赫。学习。决议,18:第146、48号论文,2017年。ISSN 1532-4435·Zbl 1444.62051号
[40] 纪尧姆·勒库埃和沙哈·门德尔森。规则化和小球方法I:稀疏回收。安.统计师。,46(2):611-641, 2018. ISSN 0090-5364。doi:10.1214/17-AOS1562。统一资源定位地址https://doi.org/10.1214/17-AOS1562。 ·Zbl 1403.60085号
[41] 米歇尔·勒杜和米歇尔·塔拉格兰德。巴拿赫空间中的概率:等周和过程。施普林格科学与商业媒体,2013年。
[42] Enno Mammen和Alexandre B.Tsybakov。平滑判别分析。安.统计师。,27(6): 1808-1829, 1999. ISSN 0090-5364。doi:10.1214/aos/1017939240。统一资源定位地址https://doi。org/10.1214/aos/1017939240·兹比尔0961.62058
[43] 卢卡斯·迈耶(Lukas Meier)、萨拉·范·德格尔(Sara Van De Geer)和彼得·贝鲁曼(Peter B–uhlmann)。该组套索用于逻辑回归。英国皇家统计学会杂志:B辑(统计方法),70(1):53-712008·Zbl 1400.62276号
[44] 沙哈尔·门德尔森。学习不专心。InConference on Learning Theory,第25-39页,2014年。
[45] 沙哈尔·门德尔森。弱力矩假设下的乘数过程。功能分析的几何方面,第301-318页。施普林格,2017年·Zbl 1366.60044号
[46] 斯坦尼斯拉夫·明斯克和内特·斯特朗。正态近似下的分布式统计估计和收敛速度。arXiv预印本arXiv:1704.026582017。
[47] A.S.内米洛夫斯基和D.B.尤丁。优化中的问题复杂性和方法效率。Wiley Interscience出版。John Wiley&Sons,Inc.,纽约,1983年。国际标准书号0-471-10345-4。由E.R.Dawson译自俄语,并附有序言,《威利-离散数学交叉科学系列》·Zbl 0501.90062号
[48] 斯坦利·奥舍、马丁·汉堡包、唐纳德·戈德法布、徐金军和尹沃涛。基于全变分的图像复原的迭代正则化方法。多尺度建模与仿真,4(2):460-4892005·1090.94003赞比亚比索
[49] Shai Shalev-Shwartz和Ambuj Tewari。l1-正则化损失最小化的随机方法。机器学习研究杂志,12(6月):1865-18922011·Zbl 1280.62081号
[50] Noah Simon、Jerome Friedman、Trevor Hastie和Robert Tibshirani。稀疏的套索。计算与图形统计杂志,22(2):231-2452013。
[51] 米歇尔·塔拉格兰德。随机过程的上下限,Ergebnisse der Mathematik and ihrer Grenzgebiete第60卷。3.佛尔吉。数学现代调查系列[数学及相关领域的结果。第三系列。数学现代调查丛书]。斯普林格,海德堡,2014年。国际标准图书编号978-3-642-54074-5;978-3-642-54075-2. doi:10。1007/978-3-642-54075-2. 统一资源定位地址https://doi.org/10.1007/978-3-642-54075-2。现代方法和经典问题·兹比尔1293.60001
[52] 罗伯特·提比拉尼(Robert Tibshirani)。通过套索回归收缩和选择。英国皇家统计学会杂志。B系列(方法学),第267-288页,1996年·Zbl 0850.62538号
[53] Robert Tibshirani、Michael Saunders、Saharon Rosset、Ji Zhu和Keith Knight。通过融合套索实现轻盈流畅。英国皇家统计学会杂志:B辑(统计方法),67(1):91-1082005·Zbl 1060.62049号
[54] 亚历山大·谢巴科夫(Alexandre B.Tsybakov)。统计学习中分类器的最优聚合。安.统计师。,32 (1):135-166, 2004. ISSN 0090-5364。doi:10.1214/aos/1079120131。统一资源定位地址https://doi。org/10.1214/aos/1079120131·Zbl 1105.62353号
[55] 萨拉·范德格尔(Sara van de Geer)。稀疏性下的估计和测试,《数学结构笔记》第2159卷。施普林格,【查姆】,2016年。国际标准图书编号978-3-319-32773-0;978-3-319-32774-7. doi:10.1007/978-3-319-3274-7。统一资源定位地址https://doi.org/10.1007/978-3-319-3274-7。圣福第45届概率暑期学校的课堂讲稿,2015年,“圣福概率学院”。【圣弗洛尔概率暑期学校】·Zbl 1362.62006年
[56] 萨拉·范德格尔(Sara van de Geer)。带总变异正则化的Logistic回归。arXiv预印本arXiv:2003.026782020。
[57] V.N.Vapnik和A.Ja。Cervonenkis。事件出现频率与其概率的一致收敛。特奥。维罗贾诺斯特。i Primenen。,16:264-279, 1971. 国际标准编号0040-361x·Zbl 0247.60005号
[58] 弗拉基米尔·诺莫维奇·瓦普尼克(Vladimir Naumovich Vapnik)。统计学习理论,第1卷。威利纽约,1998年·Zbl 0935.62007号
[59] 杨毅和邹慧。一种用于解决群体套索惩罚学习问题的快速统一算法。统计与计算,25(6):1129-11412015·Zbl 1331.62343号
[60] 张彤。基于凸风险最小化的分类方法的统计行为和一致性。安.统计师。,32(1):56-85, 2004. ISSN 0090-5364。doi:10.1214/aos/1079120130。统一资源定位地址https://doi.org/10.1214/aos/1079120130。 ·Zbl 1105.62323号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。