×

通过MOM最小化实现稳健分类。 (英语) Zbl 1522.68470号

摘要:我们提出了Chervonenkis和Vapnik经典经验风险最小化(ERM)的扩展,其中经验风险被风险的中位数(MOM)估计值所取代。由此产生的新估计量称为MOM极小值。虽然ERM对分类中使用的许多经典损失函数的数据集损坏很敏感,但我们表明,MOM最小化器在理论上表现良好,在实现Vapnik(慢)的意义上弱假设下的收敛速度:假设类中的函数只需要有有限的二阶矩,一些离群值也可能破坏了数据集。我们提出了受MOM最小化器启发的算法,可以解释为块随机梯度下降(BSGD)的MOM版本。这些算法的关键点是,执行下降步骤的数据块是根据其在其他块中的“中心性”来选择的。这种“下降块”的选择使得这些算法对异常值具有鲁棒性;此外,这是对经典BSGD算法添加的唯一额外步骤。因此,经典的BSGD算法可以很容易地转换为健壮的MOM版本。此外,当应用于非线性算法时,MOM算法执行智能子采样,这可能有助于大幅减少时间计算和内存资源。这些经验性能在模拟和实际数据集上都得到了说明。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aggarwal,CC,离群值分析(2013),柏林:施普林格,柏林·Zbl 1291.68004号
[2] Alon,N.、Matias,Y.和Szegedy,M.(1999)。近似频率矩的空间复杂性。计算机与系统科学杂志,58(1,第2部分),137-147。第二十八届美国计算机学会计算理论年会(宾夕法尼亚州费城,1996年)·Zbl 0938.68153号
[3] Arora,S。;Barak,B.,计算复杂性(2009),剑桥:剑桥大学出版社,剑桥·Zbl 1193.68112号
[4] 奥迪伯特,J-Y;Catoni,O.,《稳健线性最小二乘回归》,《统计年鉴》,39,5,2766-2794(2011)·Zbl 1231.62126号
[5] 巴赫,F。;Jenatton,R。;Mairal,J。;Obozinski,G.,《通过凸优化实现结构化稀疏性》,《统计科学》,第27、4、450-468页(2012年)·Zbl 1331.90050号
[6] 巴拉德,Y。;Birgé,L。;Sart,M.,《估算和模型选择的新方法:(\rho)-估算》,《发明数学》,207,2,425-517(2017)·Zbl 1373.62141号
[7] Bartlett,P.L.和Mendelson,S.(2002年)。Rademacher和Gaussian复杂性:风险边界和结构结果。《机器学习研究杂志》,第3期(计算机学习理论专刊),463-482·Zbl 1084.68549号
[8] 巴特利特,PL;Mendelson,S.,经验最小化,概率理论及相关领域,135,3,311-334(2006)·Zbl 1142.62348号
[9] 比兰特,D。;Kut,A.,St-dbscan:时空数据聚类算法,数据与知识工程,60,1,208-221(2007)
[10] Boucheron,S。;O.布斯克。;Lugosi,G.,《分类理论:一些最新进展的调查》,ESAIM:概率与统计,9,323-375(2005)·Zbl 1136.62355号
[11] Boucheron,S.、Lugosi,G.和Massart,P.(2013)。集中不等式:独立性的非共鸣理论。牛津大学出版社·Zbl 1279.60005号
[12] 博伊德,S。;Vandenberghe,L.,凸优化(2004),剑桥:剑桥大学出版社,剑桥·Zbl 1058.90049号
[13] Breiman,L.,打包预测,机器学习,24,2,123-140(1996)·Zbl 0858.68080号
[14] 布朗利斯,C。;Joly,E。;Lugosi,G.,《重大损失的经验风险最小化》,《统计年鉴》,第43、6、2507-2536页(2015年)·Zbl 1326.62066号
[15] Bubeck,S.,《凸优化:算法和复杂性,机器学习的基础和趋势》,8,3-4,231-357(2015)·Zbl 1365.90196号
[16] Bühlmann,P。;Bin,Y.,分析装袋,《统计年鉴》,30,4,927-961(2002)·兹比尔1029.62037
[17] Catoni,O.,《挑战经验平均值和经验方差:偏差研究》,《亨利·庞加莱概率统计研究年鉴》,48,4,1148-1185(2012)·Zbl 1282.62070号
[18] Chen,M.、Gao,C.和Ren,Z.(2017)。huber污染模型下的稳健协方差和散布矩阵估计。芝加哥大学和匹兹堡大学的技术报告。可在arXiv上获取预印本:1506.00691·Zbl 1408.62104号
[19] 陈,M。;高,C。;Ren,Z.,Huber污染模型下的稳健协方差和散布矩阵估计,统计年鉴,46,5,1932-1960(2018)·Zbl 1408.62104号
[20] Cheng,Y.、Diakonikolas,I.和Ge,R.(2019)。近线性时间内的高维稳健均值估计。第三十届ACM-SIAM离散算法研讨会论文集(第2755-2771页)。SIAM公司·兹比尔1432.68615
[21] Chinot,G.、Lecué,G.和Lerasle,M.(2019年)。具有Lipschitz和凸损失函数的稳健统计学习。概率论和相关领域(即将出版)·Zbl 1436.62178号
[22] Christophe,C.和Catherine,D.(2001年)。使用s-估计量的鲁棒线性判别分析。《加拿大统计杂志》/《加拿大统计评论》,29(3),473-493·Zbl 0987.62044号
[23] Devroye,L.、Györfi,L.和Lugosi,G.(1997)。模式识别的概率理论,《数学应用》第31卷。斯普林格,第二版修订,缺失·Zbl 0853.68150号
[24] Devroye,L。;勒拉塞尔,M。;卢戈西,G。;Oliveira,RI,Sub-Gaussian平均估计值,《统计年鉴》,44,6,2695-2725(2016)·兹比尔1360.62115
[25] Devroye,L。;勒拉塞尔,M。;卢戈西,G。;Oliveira,RI,Sub-Gaussian平均估计值,《统计年鉴》,44,6,2695-2725(2016)·兹比尔1360.62115
[26] Diakonikolas,I.、Kamath,G.、Kane,D.M.、Li,J.、Moitra,A.和Stewart,A.(2016)。高维稳健估计,无计算困难。第57届IEEE计算机科学基础年会-FOCS 2016(第655-664页)。IEEE计算机协会,加利福尼亚州洛斯阿拉米托斯·Zbl 1421.68149号
[27] Diakonikolas,I.、Kamath,G.、Kane,D.M.、Li,J.、Moitra,A.和Stewart,A.(2017)。健壮(在高维度上)是可行的。第34届国际机器学习会议论文集——第70卷(第999-1008页)。JMLR.org。
[28] Donoho,D.和Montanari,A.(2015)。huber(m)-估计量的方差分解:(n/p\rightarrow m\in(1,+\infty))。斯坦福大学技术报告,预印本可在arXiv上获取:1503.02106。
[29] 范,J。;Kim,D.,高频因子模型的稳健高维波动矩阵估计,美国统计协会杂志,113,523,1268-1283(2018)·Zbl 1402.62250号
[30] 费尔德曼,V。;古鲁斯瓦米,V。;Raghavendra,P。;Yi,W.,通过半空间对单项式的不可知学习很难,SIAM计算机杂志,41,6,1558-1590(2012)·Zbl 1261.68063号
[31] Gao,C.(2017)。通过多元回归深度进行稳健回归。芝加哥大学技术报告,预印本,arXiv:1702.04656·Zbl 1466.62368号
[32] Gao,C.,Liu,J.,Yao,Y.,&Zhu,W.(2018)。稳健估计和生成对抗网。arXiv:1810.02030。
[33] 古鲁斯瓦米,V。;Raghavendra,P.,《带噪声学习半空间的硬度》,SIAM计算机杂志,39,2,742-765(2009)·Zbl 1198.68157号
[34] Gunduz,N.和Fokoué,E.(2015)。高维低样本数据的稳健分类。arXiv:1501.00592。
[35] Hampel,FR,稳健性的一般定性定义,《数理统计年鉴》,第42、6期,1887-1896页(1971年)·Zbl 0229.62041号
[36] 《影响曲线及其在稳健估计中的作用》,《美国统计协会杂志》,第69、346、383-393页(1974年)·Zbl 0305.62031号
[37] Han,Q.和Wellner,J.(2017)。一个尖锐的乘数不等式,用于重尾回归问题。arXiv:1706.02410。
[38] 何,X。;Fung,WK,多人群的高分解估计及其在判别分析中的应用,多元分析杂志,72,2,151-162(2000)·Zbl 0969.62045号
[39] Hoare,CAR,Quicksort,《计算机杂志》,5,1,10-16(1962)·Zbl 0108.13601号
[40] Huber,PJ,位置参数的稳健估计,《数理统计年鉴》,3573-101(1964)·Zbl 0136.39805号
[41] Huber,P.J.(1967年)。最大似然估计在非标准条件下的行为。第五届伯克利数理统计与概率研讨会论文集(第1卷,第221-233页)。加利福尼亚州伯克利·Zbl 0212.21504号
[42] Huber,P.J和Ronchetti,E.M.(2009年)。稳健统计学,第二版,《概率统计中的威利级数》。新泽西州霍博肯威利·Zbl 1276.62022号
[43] 休伯特,M。;Van Driessen,K.,《快速稳健判别分析》,计算统计与数据分析,45,2,301-320(2004)·Zbl 1429.62247号
[44] 休伯特,M。;Van Der Veeken,S.,《倾斜数据的稳健分类》,数据分析和分类进展,4,4,239-254(2010)·Zbl 1284.62378号
[45] Jerrum,MR;LG Valiant公司;Vazirani,VV,从均匀分布中随机生成组合结构,理论计算机科学,43,2-3,169-188(1986)·Zbl 0597.68056号
[46] Jordan,MI,《关于统计、计算和可伸缩性》,Bernoulli,19,4,1378-1390(2013)·Zbl 1273.62030
[47] Koltchinskii,V.(2008)。Oracle在经验风险最小化和稀疏恢复问题中的不等式,数学讲义2033卷。施普林格,海德堡,2011年。2008年在圣弗洛尔举行的第38届概率暑期学校的讲座,圣弗洛尔概率学院。【圣弗洛尔概率暑期学校】·Zbl 1223.91002号
[48] Koltchinskii,V.(2011)。Oracle在经验风险最小化和稀疏恢复问题中的不等式·Zbl 1223.91002号
[49] 科尔钦斯基,V。;Mendelson,S.,《在没有集中的情况下限制随机矩阵的最小奇异值》,《国际数学研究通告》,23,12991-13008(2015)·兹比尔1331.15027
[50] Lecué,G.和Lerasle,M.(2017)。中位数鲁棒机器学习:理论与实践。技术报告,CNRS,ENSAE,巴黎南部。arXiv:1711.10306上提供预打印·Zbl 1487.62034号
[51] Lecué,G.和Lerasle,M.(2019)。学习妈妈的原则:勒卡姆的方法。技术报告,CNRS,ENSAE,Paris-sud。arXiv:1701.01961提供预印本·Zbl 1435.62175号
[52] Lecué,G.和Mendelson,S.(2013)。学习亚高斯类:上限和极小极大界。技术报告、CNRS、Ecole polytechnique和Technion。
[53] Ledoux,M.和Talagrand,M.(2011年)。Banach空间中的概率。数学经典。柏林施普林格,2011年。等周测量和过程,1991年版再版·Zbl 1226.60003号
[54] Le Gall,F.(2014)。张量的幂和快速矩阵乘法。CoRR,arXiv:1401.7714·Zbl 1325.65061号
[55] Liu,F.T.,Ting,K.M.和Zhou,Z.-H.(2008)。隔离林。在2008年第八届IEEE数据挖掘国际会议上。ICDM’08(第413-422页)。电气与电子工程师协会。
[56] Lugosi,G.和Mendelson,S.(2017年)。通过中位数比赛将风险降至最低。arXiv:1608.00757上提供预打印·Zbl 1436.62312号
[57] Lugosi,G.和Mendelson,S.(2019a)。规则化、稀疏恢复和中位数比赛。arXiv上提供预打印:1701.04112·兹比尔1467.62131
[58] Lugosi,G.和Mendelson,S.(2019b)。随机向量平均值的次高斯估计。arXiv上提供预打印:1702.00482·Zbl 1417.62192号
[59] 里昂,RJ;订书机,BW;库珀,S。;Brooke,JD;Knowles,JM,《脉冲星候选选择五十年:从简单滤波器到新的原则性实时分类方法》,MNRAS,000000-000(2015)
[60] Mammen,E。;Tsybakov,AB,平滑歧视分析,《统计年鉴》,27,6,1808-1829(1999)·Zbl 0961.62058号
[61] Mendelson,S.(2014)。学习时注意力不集中。第27届学习理论COLT14年会论文集(第25-39页)·Zbl 1333.68232号
[62] Mendelson,S.(2015)。学习不专心。《美国医学会杂志》,62(3):第21、25条·Zbl 1333.68232号
[63] Mendelson,S.(2017)。最佳的无限制学习过程。预印本可在arXiv:11707.05342上获得·Zbl 1473.68156号
[64] Minsker,S.,《Banach空间中的几何中值和稳健估计》,Bernoulli,21,4,2308-2335(2015)·Zbl 1348.60041号
[65] Minsker,S.,《正态近似下的分布式统计估计和收敛速度》,《电子统计杂志》,第13、2、5213-5252页(2019年)·Zbl 1434.62046号
[66] Moulines,E.和Bach,F.R.(2011年)。机器学习随机近似算法的非症状分析。《神经信息处理系统进展》(第451-459页)。
[67] Nemirovsky,A.S.和Yudin,D.B.(1983年)。优化中的问题复杂性和方法效率。Wiley-Interscience出版物。纽约威利出版社,《威利-离散数学交叉科学丛书》(Wiley-Interscience Series in Discrete Mathematics),俄文译本,由E.R.Dawson作序·Zbl 0501.90062号
[68] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍弗,P。;韦斯,R。;杜堡,V。;范德普拉斯,J。;帕索斯,A。;库纳波,D。;布鲁彻,M。;佩罗,M。;Duchesnay,E.,Scikit-learn:Python中的机器学习,《机器学习研究杂志》,第12期,第2825-2830页(2011年)·Zbl 1280.68189号
[69] Rosenblatt,F.(1958年)。感知器:认知系统中的统计可分性理论。康奈尔航空实验室有限公司,报告编号VG-1196-G-1。美国商务部技术服务办公室,PB 151247。
[70] Roth,V.(2001)。多类问题的概率鉴别核分类器。在联合模式识别研讨会上(第246-253页)。斯普林格·Zbl 1038.68842号
[71] Saumard,A.,《关于线性聚合中经验风险最小化的最优性》,Bernoulli,24,3,2176-2203(2018)·Zbl 1419.62094号
[72] Tukey,JW,《污染分布抽样调查》,《概率与统计贡献》,2448-485(1960)·Zbl 0201.52803号
[73] Tukey,JW,《数据分析的未来》,《数理统计年鉴》,33,1,1-67(1962)·Zbl 0107.36401号
[74] Vapnik,V.N.(1998)。统计学习理论。信号处理、通信和控制的自适应和学习系统。纽约威利·兹比尔0935.62007
[75] Vapnik,VN,统计学习理论的本质。工程和信息科学统计(2000),纽约:Springer,纽约·兹比尔0934.62009
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。