×

当恶意异常值损坏标签时,ERM和RERM是回归问题的最佳估计值。 (英语) Zbl 1453.62484号

作者研究标签可能受到敌对污染的回归问题。
设\(\左(X,Y\右)\)是一个随机变量,取\(\mathcal{X}\times\mathcal{Y}\)中的值,其中\(\mathcal{X}\)表示输入的可测空间,\(\mathcal{Y}\subset\mathbb{R}\)是输出的可测空间。(左(X,Y,右)的联合分布(P\)未知。相反,给出了一个(N)随机变量的数据集\(\mathcal{D}=\左(X_{i},Y_{i{right){i=1}^{N}\),这些随机变量的值取自\(\mathcal{X}\times\mathcal{Y}\)。
让\(F\)表示一类函数\(F:\mathcal{X}\mapsto\mathcal{Y}\)。据说,f中的f是一个预测器。让函数\(\ell:\mathcal{Y}\times\mathcal{Y}\mapsto\mathbb{R}^{+}\)是一个损失函数,这样\。
将经验风险最小化器和规范化经验风险最小器分别定义为\[\hat(帽子){f}_{N} \ in \ underset{f\ in f}{\operatorname{argmin}}\frac{1}{N}\sum_{i=1}^{N}\ell\left(f\ left(X_{i}\right),Y_{i{right)\]\[\hat(帽子){f}_{N} 在f}{\operatorname{argmin}}\frac{1}{N}\sum_{i=1}^{N}\ell\left(f\左(X_{i}\右),Y_{i{\右)+\lambda\left\|f\右其中,\(\lambda>0\)是一个转向参数,\(\左\ | \ cdot\右\ | \)是范数。
根据本文中的假设,可以使用凸优化工具计算极小值。
摘要:“我们研究凸回归问题的经验风险最小化器(ERM)和正则经验风险最小器(RERM)和\(L\)-Lipschitz损失函数。我们考虑一种设置,其中\(\left|\mathcal{O}\right|\)恶意离群值会污染标签。在这种情况下,在当地伯恩斯坦条件下,我们证明了(L_{2})-错误率有界于(r_{N}+AL\left|\mathcal{O}\right|/N\),其中\(N)是观测的总数,(L_{N})是未受污染的setting和\(A\)是来自本地Bernstein的参数条件。当\(r_{N}\)在无污染环境中为最小速率最优时,当(left|mathcal{O}\right|\)离群值污染标签时,速率\(r_{N}+AL\left|\mathcal}\right |/N\)也是最小速率最优的。本文的主要结果可用于许多弱假设下的非正则和正则程序噪音。我们给出了Huber(M)估计的结果(没有惩罚或由\(\ell_{1}\)-范数正则化)和广义学习问题在可重跟踪噪声的可复制内核希尔伯特空间中。”

MSC公司:

62G35型 非参数稳健性
62G08号 非参数回归和分位数回归
62C20个 统计决策理论中的Minimax过程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Pierre Alquier,Vincent Cottet,Guillaume Lecué,等。带Lipschitz损失函数的正则化过程的估计界和尖锐的预言不等式。,《统计年鉴》,47(4):2117-21442019·Zbl 1466.62289号 ·doi:10.1214/18-AOS1742
[2] Peter L.Bartlett、Olivier Bousquet、Shahar Mendelson等人,《局部Rademacher复杂性》。,《统计年鉴》,33(4):1497-15372005·Zbl 1083.62034号 ·doi:10.1214/009053605000000282
[3] Peter L.Bartlett和Shahar Mendelson。经验最小化。,概率论及相关领域,135(3):311-3342006·Zbl 1142.62348号 ·doi:10.1007/s00440-005-0462-3
[4] Peter L.Bartlett和Shahar Mendelson。经验最小化。,普罗巴伯。理论相关领域,135(3):311-3342006·Zbl 1142.62348号 ·doi:10.1007/s00440-005-0462-3
[5] Pierre C.Bellec、Guillaume Lecué、Alexandre B.Tsybakov等,《斜率与套索相遇:改进的预言界和最优性》。,《统计年鉴》,46(6B):3603-36422018·Zbl 1405.62056号 ·doi:10.1214/17-AOS1670
[6] Kush Bhatia、Pratek Jain和Purushottam Kar。通过硬阈值进行稳健回归。在《神经信息处理系统进展》中,第721-7292015页。
[7] 奥利维尔·布斯奎特(Olivier Bousquet)、弗拉基米尔·科尔钦斯基(Vladimir Koltchinskii)和德米特里·潘琴科(Dmitriy Panchenko)。凸壳复杂性和推广界的一些局部测度。年,计算学习理论国际会议,第59-73页。斯普林格,2002年·兹比尔1050.68055
[8] 斯蒂芬·博伊德(Stephen Boyd)、斯蒂芬·波伊德(史蒂芬·P·博伊德)和利文·范登伯格(Lieven Vandenberghe)。,凸优化。剑桥大学出版社,2004年·Zbl 1058.90049号
[9] 皮埃尔·C·贝莱克。凸壳的局部高斯宽度及其在套索和凸聚集中的应用。,伯努利,25(4A):3016-30402019年·Zbl 1428.62328号 ·doi:10.3150/18-BEJ1078
[10] 安德烈亚·卡蓬内托(Andrea Caponetto)和埃内斯托·德维托(Ernesto De Vito)。正则化最小二乘算法的最优速率。,计算数学基础,7(3):331-3682007·Zbl 1129.68058号 ·doi:10.1007/s10208-006-0196-8
[11] 贾利尔·查法伊、奥利维尔·盖登、纪尧姆·勒库埃和阿兰·帕约尔。,压缩传感随机矩阵和高维几何体之间的相互作用。Citeser,2012年·Zbl 1396.94015号
[12] 陈梦洁,高超,赵仁,等。胡贝尔ε污染模型的一般决策理论。,《电子统计杂志》,10(2):3752-37742016·Zbl 1357.62038号 ·doi:10.1214/16-EJS1216
[13] 陈梦洁,高超,赵仁,等。胡贝尔污染模型下的稳健协方差和散布矩阵估计。,《统计年鉴》,46(5):1932-1960,2018年·Zbl 1408.62104号 ·doi:10.1214/17-AOS1607
[14] 陈玉东、苏丽丽和徐嘉明。对抗环境中的分布式统计机器学习:拜占庭梯度下降。,ACM计算机系统测量与分析会议记录,1(2):442017。
[15] Yu Cheng,Ilias Diakonikolas,Rong Ge.近线性时间下的高维稳健均值估计。年,第三十届ACM-SIAM离散算法年会论文集,第2755-2771页。SIAM,2019年·兹比尔1432.68615
[16] 杰弗里·奇诺特。正则化问题的鲁棒学习和复杂性相关边界。,arXiv预印arXiv:1902.022382019·Zbl 1453.62484号 ·doi:10.1214/20-EJS1754文件
[17] 杰弗里·奇诺特(Geoffrey Chinot)、纪尧姆·勒库埃(Guillaume Lecué)和马蒂厄·勒拉塞尔(Matthieu Lerasle)。Lipschitz和凸损失的鲁棒高维学习。,arXiv:1905.042812019年。
[18] 杰弗里·奇诺特(Geoffrey Chinot)、纪尧姆·勒库埃(Guillaume Lecué)和马蒂厄·勒拉塞尔(Matthieu Lerasle)。基于Lipschitz和凸损失函数的稳健统计学习。,概率论及相关领域,2019年7月·Zbl 1436.62178号 ·doi:10.1007/s00440-019-00931-3
[19] 阿纳克·达拉扬和菲利普·汤普森。使用l1-惩罚Huber的M估计量对稀疏线性模型进行的Outlier-ro-bast估计。在《神经信息处理系统的进展》中,第13188-131982019页。
[20] Arnak S.Dalalyan、Mohamed Hebiri、Johannes Lederer等,关于套索的预测性能。,伯努利,23(1):552-5812017·Zbl 1359.62295号 ·doi:10.3150/15-BEJ756
[21] 伊利亚斯·迪亚科尼科拉斯、乔塔姆·卡马特、丹尼尔·凯恩、杰里·李、安库尔·莫伊特拉和阿利斯泰尔·斯图尔特。高维稳健估计,无计算困难。,SIAM计算机杂志,48(2):742-8642019年·Zbl 1421.68149号 ·doi:10.1137/17M1126680
[22] 伊利亚斯·迪亚科尼科拉斯(Ilias Diakonikolas)、孔伟浩(Weihao Kong)和阿利斯泰尔·斯图尔特(Alistair Stewart)。稳健线性回归的有效算法和下限。年,第三十届ACM-SIAM离散算法年会论文集,第2745-2754页。SIAM,2019年·Zbl 1432.68616号
[23] 弗兰克·汉佩尔(Frank R.Hampel)。稳健性的一般定性定义。,《数理统计年鉴》,第1887-1896页,1971年·Zbl 0229.62041号 ·doi:10.1214/aoms/1177693054
[24] 弗兰克·汉佩尔(Frank R.Hampel)。影响曲线及其在稳健估计中的作用。,《美国统计协会杂志》,69(346):383-3931974·Zbl 0305.62031号 ·doi:10.1080/016214519974.10482962
[25] 塞缪尔·霍普金斯(Samuel B.Hopkins)等。多项式时间内亚高斯率的平均估计。,《统计年鉴》,48(2):1193-12132020·兹比尔1454.62162 ·doi:10.1214/19-AOS1843
[26] P.J.Huber和E.Ronchetti。稳健的统计数据。年,《国际统计科学百科全书》,第1248-1251页。施普林格,2011年。
[27] 彼得·胡贝尔(Peter J.Huber)。位置参数的稳健估计。,《统计学的突破》,第492-518页,1992年。
[28] Peter J.Huber等人。非标准条件下最大似然估计的行为。年,《第五届伯克利数理统计与概率研讨会论文集》,第1卷,第221-233页。加利福尼亚大学出版社,1967年·Zbl 0212.21504号
[29] 弗拉基米尔·科尔钦斯基。经验过程和Rademacher过程。在《经验风险最小化和稀疏恢复问题中的Oracle不等式》中,第17-32页。施普林格,2011年·Zbl 1223.91002号
[30] 弗拉基米尔·科尔钦斯基。,经验风险最小化和稀疏恢复问题中的Oracle不等式,数学课堂讲稿第2033卷。施普林格,海德堡,2011年。2008年在圣弗洛尔举行的第38届概率暑期学校的讲座,圣弗洛尔概率学院。【圣弗洛尔概率暑期学校】·Zbl 1223.91002号
[31] Vladimir Koltchinskii等人。风险最小化中的局部Rademacher复杂性和预言不等式。,《统计年鉴》,34(6):2593-26562006·Zbl 1118.62065号 ·doi:10.1214/009053606000001019
[32] 纪尧姆·勒奎(Guillaume Lecué)和朱尔斯·德珀森(Jules Depersin)。近似线性时间内平均向量的鲁棒次高斯估计。,arXiv预印arXiv:1906.030582019。
[33] Guillaume Lecué,Matthieu Lerasle,et al.基于中间人的鲁棒机器学习:理论与实践。,《统计年鉴》,48(2):906-9312020·Zbl 1487.62034号 ·doi:10.1214/19-AOS1828
[34] 纪尧姆·勒库埃、马蒂厄·勒拉塞尔和蒂姆洛特·马蒂厄。通过妈妈最小化进行稳健分类。,机器学习,第1-31页,2020年。
[35] 纪尧姆·勒库埃(Guillaume Lecué)和沙哈·门德尔森(Shahar Mendelson)。正则化和小球法I:稀疏恢复。,安.统计师。,46(2):611-641, 2018. ·Zbl 1403.60085号 ·doi:10.1214/17-AOS1562
[36] 米歇尔·勒杜和米歇尔·塔拉格兰德。,巴拿赫空间中的概率:等高线和过程。施普林格科学与商业媒体,2013年·Zbl 1226.60003号
[37] Lei Zhixian、Kyle Luh、Prayaag Venkat和Fred Zhang。亚高斯率均值估计的快速谱算法。,arXiv预印arXiv:1908.044682019。
[38] 刘柳、沈延尧、李天阳和康斯坦丁·卡拉马尼斯。高维稳健稀疏回归。,arXiv预印arXiv:1805.116432018。
[39] Gábor Lugosi,Shahar Mendelson,et al.随机向量平均值的亚高斯估计。,《统计年鉴》,47(2):783-7942019年·Zbl 1417.62192号 ·doi:10.1214/17-AOS1639
[40] Enno Mammen和Alexandre B.Tsybakov。平滑判别分析。,安.统计师。,27(6) :1808-1829, 1999. ·Zbl 0961.62058号 ·doi:10.1214/aos/1017939240
[41] 里卡多·安东尼奥·马隆纳(Ricardo Antonio Maronna)。多元位置和散布的稳健m-估计。,《统计年鉴》,第51-67页,1976年·Zbl 0322.62054号 ·doi:10.1214/aos/1176343347
[42] 沙哈尔·门德尔森。关于内核类的性能。,机器学习研究杂志,4(10月):759-7712003·兹比尔1083.68097
[43] Shahar Mendelson,Joseph Neeman等,《内核学习中的正则化》。,《统计年鉴》,38(1):526-5652010·Zbl 1191.68356号 ·doi:10.1214/09-AOS728
[44] Stanislav Minsker等人,Banach空间中的几何中值和鲁棒估计。,伯努利,21(4):2308-23352015·Zbl 1348.60041号 ·doi:10.3150/14-BEJ645
[45] 亚历山大·纳金(Alexander V.Nazin)、阿卡迪·内米洛夫斯基(Arkadi S.Nemirovsky)、亚历山大·茨巴科夫(Alexandre B.Tsybakov)和安纳托利·朱迪茨基(Anatoli B.Juditsky)。基于镜像下降法的鲁棒随机优化算法。,自动化和远程控制,80(9):1607-16272019·Zbl 1431.93064号 ·doi:10.1134/S0005117919090042
[46] 史蒂夫·斯梅尔(Steve Smale)和丁宣周(Ding Xuan Zhou)。通过积分算子及其近似值进行学习理论估计。,构造近似,26(2):153-1722007·Zbl 1127.68088号 ·doi:10.1007/s00365-006-0659-y
[47] 英戈·斯坦沃特和安德烈亚斯·克里斯特曼。,支持向量机。施普林格科学与商业媒体,2008年·Zbl 1203.68171号
[48] 米歇尔·塔拉格兰德。,随机过程的上下限:现代方法和经典问题,第60卷。施普林格科学与商业媒体,2014年·Zbl 1293.60001号
[49] 罗伯特·提比拉尼(Robert Tibshirani)。通过套索进行回归收缩和选择。,英国皇家统计学会杂志。B系列(方法学),第267-288页,1996年·Zbl 0850.62538号 ·doi:10.1111/j.2517-6161.1996.tb02080.x
[50] 亚历山大·谢巴科夫(Alexandre B.Tsybakov)。统计学习中分类器的最优聚合。,安.统计师。,32(1):135-166, 2004. ·Zbl 1105.62353号 ·doi:10.1214/aos/1079120131
[51] 约翰·W·图基。污染分布抽样调查。,《概率论与统计学》,第448-485页,1960年·Zbl 0201.52803号
[52] 约翰·杜基(John W.Tukey)。数据分析的未来。,《数理统计年鉴》,33(1):1-671962年·Zbl 0107.36401号 ·doi:10.1214/aoms/1177704711
[53] 萨拉·范德格尔(Sara Van de Geer)。稀疏度下的估计和测试。,数学课堂讲稿,第2159卷,2016年·Zbl 1362.62006年
[54] 萨拉·范德格尔。,稀疏性下的估计和测试,数学课堂笔记第2159卷。斯普林格,查姆,2016年。圣福第45届概率暑期学校的讲稿,2015年,圣福概率学院。【圣弗洛尔概率暑期学校】。
[55] Sara A.Van De Geer,Peter Bühlmann等人。关于证明套索预言结果的条件。,《电子统计杂志》,3:1360-13922009·Zbl 1327.62425号 ·doi:10.1214/09-EJS506
[56] 弗拉基米尔·诺莫维奇·瓦普尼克。,统计学习理论,第1卷。威利纽约,1998年·Zbl 0935.62007号
[57] 罗曼·弗什宁。高维概率:数据科学应用简介。,剑桥统计与概率数学系列,2018年·Zbl 1430.60005号
[58] 维克多·J··Zbl 0408.62027号 ·doi:10.1214/aos/1176344610
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。