×

具有鲁棒梯度下降的高效学习。 (英文) Zbl 1431.68108号

梯度下降是一种非常流行的优化方法,在许多机器学习问题中有着广泛的应用。然而,如果训练数据有噪声或重尾,梯度下降可能无法很好地推广。针对这一缺陷,本文提出了一种有效的鲁棒梯度下降方法。其想法是使用风险梯度的稳健估计,而不是风险本身,这是通过错误值的软处理实现的。该算法具有梯度下降的计算简单性,并得到了理论和实验分析的支持。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abramowitz,M.和Stegun,I.A.(1964年)。《数学函数与公式、图表和数学表手册》,国家标准局应用数学系列,第55卷。美国国家标准局·Zbl 0171.38503号
[2] Alon,N。;Ben-David,S。;塞萨·比安奇,N。;Haussler,D.,尺度敏感维数,一致收敛性和可学习性,ACM杂志,44,4,615-631(1997)·兹伯利0891.68086 ·数字对象标识代码:10.1145/263867.263927
[3] 灰分,RB;Doleans-Dae,C.,概率与测度理论(2000),剑桥:学术出版社,剑桥·Zbl 0944.60004号
[4] 巴特利特,PL;长,PM;Williamson,RC,脂肪粉碎和实值函数的可学习性,《计算机与系统科学杂志》,52,3343-452(1996)·Zbl 0858.68076号 ·doi:10.1006/jcss.1996.0033
[5] 巴特利特,PL;Mendelson,S.,《Rademacher和高斯复杂性:风险边界和结构结果》,《机器学习研究杂志》,3463-482(2003)·Zbl 1084.68549号
[6] 布朗利斯,C。;Joly,E。;Lugosi,G.,《重大损失的经验风险最小化》,《统计年鉴》,第43、6、2507-2536页(2015年)·Zbl 1326.62066号 ·doi:10.1214/15-AOS1350
[7] Catoni,O.(2009)。重尾实际随机变量平均值的高置信度估计。arXiv预打印arXiv:0909.5366。
[8] Catoni,O.,《挑战经验均值和经验方差:一项偏差研究》,《亨利·庞加莱研究所年鉴》,《概率与统计》,48,4,1148-1185(2012)·Zbl 1282.62070号 ·doi:10.1214/11-AIHP454
[9] Chen,Y.、Su,L.和Xu,J.(2017a)。对抗环境中的分布式统计机器学习:拜占庭梯度下降。arXiv预印本arXiv:1705.05491。
[10] 陈,Y。;苏·L。;Xu,J.,《对抗环境中的分布式统计机器学习:拜占庭梯度下降》,《计算机系统测量与分析ACM会议录》,1,2,44(2017)
[11] Daniely,A.和Shalev-Shwartz,S.(2014)。多类问题的最佳学习者。在第27届学习理论年会上,机器学习研究论文集(第35卷,第287-316页)。
[12] Devroye,L.、Lerasle,M.、Lugosi,G.和Oliveira,R.I.(2015)。亚高斯平均估计量。arXiv预印arXiv:1509.05845·Zbl 1360.62115号
[13] 杜奇,J。;哈赞,E。;Singer,Y.,在线学习和随机优化的自适应次梯度方法,机器学习研究杂志,12,2121-2159(2011)·Zbl 1280.68164号
[14] Feldman,V.,随机凸优化中ERM的推广:维数回击,神经信息处理系统的进展,293576-3584(2016)
[15] Finkenstädt,B。;Rootzén,H.,《金融、电信和环境中的极端价值》(2003),博卡拉顿:CRC出版社,博卡拉通
[16] Frostig,R.、Ge,R.,Kakade,S.M.和Sidford,A.(2015)。在一次通过中与经验风险最小化器竞争。arXiv预印本arXiv:1412.6606。
[17] Holland,M.J.和Ikeda,K.(2017a)。具有鲁棒梯度下降的高效学习。arXiv预印本arXiv:1706.00182·Zbl 1431.68108号
[18] 荷兰,MJ;池田,K.,使用有偏目标的稳健回归,机器学习,106,9,1643-1679(2017)·Zbl 1460.62105号 ·doi:10.1007/s10994-017-5653-5
[19] 徐,D。;Sabato,S.,《重尾损失最小化和参数估计》,《机器学习研究杂志》,17,18,1-40(2016)·Zbl 1360.62380号
[20] 休伯,PJ;Ronchetti,EM,稳健统计(2009),纽约:威利,纽约·Zbl 1276.62022号 ·doi:10.1002/9780470434697
[21] 约翰逊,R。;Zhang,T.,使用预测方差减少加速随机梯度下降,神经信息处理系统进展,26,315-323(2013)
[22] MJ卡恩斯;Schapire,RE,概率概念的高效无分布学习,《计算机与系统科学杂志》,48464-497(1994)·Zbl 0822.68093号 ·doi:10.1016/S0022-0000(05)80062-5
[23] Kingma,D.P.和Ba,J.(2014)。亚当:一种随机优化方法。arXiv预打印arXiv:1412.6980。
[24] Kolmogorov,A.N.(1993)\函数空间中集合的(varepsilon)-熵和(varepsilon)–容量。A.N.Shiryayev(编辑),A.N.Kolmogorov的作品选集,第三卷:信息理论和算法理论(第86-170页)。柏林:斯普林格·Zbl 0785.01030号
[25] Le Roux,N。;施密特,M。;Bach,FR,有限训练集的指数收敛率随机梯度方法,神经信息处理系统进展,252663-2671(2012)
[26] Lecué,G.和Lerasle,M.(2017)。学习MOM的原则。arXiv预印本arXiv:1701.01961·Zbl 1435.62175号
[27] Lecué,G.、Lerasle,M.和Mathieu,T.(2018年)。通过MOM最小化实现稳健分类。arXiv预打印arXiv:1808.03106·Zbl 1522.68470号
[28] Lerasle,M.和Oliveira,R.I.(2011年)。稳健的经验平均估值器。arXiv预打印arXiv:1112.3914。
[29] 林,J。;Rosasco,L.,多程随机梯度方法的最优学习,神经信息处理系统进展,29,4556-4564(2016)
[30] Luenberger,DG,向量空间法优化(1969),纽约:威利·Zbl 0176.12701号
[31] Lugosi,G.和Mendelson,S.(2016年)。通过中位数比赛将风险降至最低。arXiv预印本arXiv:1608.00757·Zbl 1467.62131号
[32] Minsker,S.和Strawn,N.(2017年)。正态近似下的分布统计估计和收敛速度。arXiv预打印arXiv:1704.02658。
[33] Minsker,S.,《Banach空间中的几何中值和稳健估计》,Bernoulli,21,4,2308-2335(2015)·Zbl 1348.60041号 ·doi:10.3150/14-BEJ645
[34] Murata,T.和Suzuki,T.(2016)。正则化经验风险最小化问题中使用方差减少技术的随机对偶平均方法。arXiv预打印arXiv:1603.02412。
[35] Nesterov,Y.,《凸优化导论:基础课程》(2004),柏林:施普林格出版社,柏林·Zbl 1086.90045号 ·doi:10.1007/978-1-4419-8853-9
[36] Nocedal,J。;Wright,S.,《数值优化》(1999),柏林:施普林格出版社,柏林·Zbl 0930.65067号 ·doi:10.1007/b98874
[37] Prasad,A.、Suggala,A.S.、Balakrishnan,S.和Ravikumar,P.(2018年)。通过稳健梯度估计进行稳健估计。arXiv预打印arXiv:1802.06485·Zbl 07554767号
[38] Rakhlin,A.、Shamir,O.和Sridharan,K.(2012)。使强凸随机优化的梯度下降最优。第29届机器学习国际会议论文集(第449-456页)。
[39] 沙列夫·施瓦茨,S。;Zhang,T.,正则化损失最小化的随机双坐标提升方法,机器学习研究杂志,14,567-599(2013)·Zbl 1307.68073号
[40] Talvila,E.,积分符号下微分的充要条件,美国数学月刊,108,6,544-548(2001)·Zbl 0990.26008号 ·doi:10.1080/00029890.2001.11919782
[41] van der Vaart,AW,渐近统计学(1998),剑桥:剑桥大学出版社,剑桥·Zbl 0910.62001号 ·doi:10.1017/CBO978051180225
[42] 瓦尔迪,Y。;张,CH,多元(L_1)-中值和相关数据深度,《国家科学院学报》,97,4,1423-1426(2000)·Zbl 1054.62067号 ·doi:10.1073/pnas.97.4.1423
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。