×

复合惩罚正则化经验风险最小化的近似平均近似增量梯度下降。 (英语) Zbl 1459.62156号

摘要:在机器学习的经验风险最小化(ERM)框架中,复合惩罚被广泛用于诱导结构化属性。尽管这种复合正则化器在掌握结构稀疏性方面具有优异的性能,但它们通常是非光滑的,甚至是非凸的,这使得问题很难优化。近似平均(PA)是最近提出的针对这些正则化子的近似技术,其特点是易于实现和理论分析。然而,尽管当前基于PA的方法相对于传统技术在处理复合惩罚方面表现良好,但它们要么收敛缓慢,要么无法很好地扩展到大型数据集。为了使PA成为具有复合惩罚的ERM优化的理想技术,本文通过将PA近似纳入增量梯度框架,提出了一种新的基于PA的算法IncrePA迭代代价更低,凸复合罚函数的收敛速度更快,并且保证了偶数非凸复合罚的收敛。在合成数据集和实际数据集上的实验证明了该方法在具有复合惩罚的凸和非凸ERM优化中的有效性。

MSC公司:

62L20型 随机近似
68T05年 人工智能中的学习和自适应系统
90摄氏52度 减少梯度类型的方法

软件:

菲尼托;传奇
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Azadi,S.和Sra,S.(2014)。探讨乘数的最优随机交替方向法。第31届机器学习国际会议论文集(第620-628页)。
[2] Bauschke,H.H.、Goebel,R.、Lucet,Y.和Wang,X.(2008)。近似平均值:基本理论。SIAM优化杂志,19(2),766-785·Zbl 1172.26003号 ·doi:10.1137/070687542
[3] Beck,A.和Teboulle,M.(2009年)。线性反问题的快速迭代收缩阈值算法。SIAM成像科学杂志,2(1),183-202·Zbl 1175.94009号 ·doi:10.1137/080716542
[4] Borwein,J.M.和Lewis,A.S.(2010年)。凸分析与非线性优化:理论与实例。柏林:斯普林格。
[5] Bottou,L.(2010)。具有随机梯度下降的大规模机器学习。2010年COMPSTAT会议记录(第177-186页)。柏林:斯普林格·Zbl 1436.68293号
[6] Boyd,S.、Parikh,N.、Chu,E.、Peleato,B.和Eckstein,J.(2011年)。通过交替方向乘数法进行分布式优化和统计学习。机器学习的基础和趋势,3(1),1-122·Zbl 1229.90122号 ·doi:10.1561/220000016
[7] Defazio,A.、Bach,F.和Lacoste-Julien,S.(2014a)。Saga:支持非强凸复合目标的快速增量梯度方法。以NIPS为单位。arXiv:1407.0202。
[8] Defazio,A.、Domke,J.和Caetano,T.(2014b)。Finito:一种用于大数据问题的更快、可置换的增量梯度方法。《第31届机器学习国际会议论文集》(ICML-14)(第1125-1133页)。
[9] Ghadimi,S.和Lan,G.(2012年)。强凸随机组合优化的最优随机逼近算法。一: 通用算法框架。SIAM优化杂志,22(4),1469-1492·Zbl 1301.62077号 ·数字对象标识代码:10.1137/10848864
[10] Gong,P.、Zhang,C.、Lu,Z.、Huang,J.和Ye,J.(2013)。非凸正则优化问题的一种通用迭代收缩和阈值算法。第30届机器学习国际会议论文集(第37-45页)。
[11] Jacob,L.、Vert,J.和Obozinski,G.R.(2009)。用重叠和图形套索将套索分组。第26届机器学习国际会议论文集(ICML-09)(第55页)。
[12] Johnson,R.和Zhang,T.(2013)。使用预测方差减少加速随机梯度下降。《神经信息处理系统进展》(第315-323页)。
[13] Kim,S.和Xing,E.P.(2009年)。数量性状网络相关基因组关联的统计估计。《公共科学图书馆·遗传学》,5(8),e1000587·doi:10.1371/journal.pgen.1000587
[14] 科内肯ỳ, J.,&Richtárik,P.(2013)。半随机梯度下降法。arXiv:1312.1666·Zbl 1386.90080号
[15] Lacoste-Julien,S.、Schmidt,M.和Bach,F.(2012)。对于投影随机次梯度方法,获得o(1/t)收敛速度的一种更简单的方法。arXiv:1212.2002。
[16] 鲁政(2012)。一类结构化非线性规划的序列凸规划方法。arXiv:1210.3039。
[17] Mairal,J.(2014)。增量优化最小化优化及其在大规模机器学习中的应用。arXiv:1402.4419·Zbl 1320.90047号
[18] Nesterov,Y.和Nesterof,I.U.E.(2004)。凸优化入门讲座:基础课程(第87卷)。伦敦:斯普林格·Zbl 1086.90045号
[19] Ouyang,H.、He,N.、Tran,L.和Gray,A.(2013)。乘数的随机交替方向法。第30届机器学习国际会议论文集(第80-88页)。
[20] Roux,荷兰;施密特,M。;巴赫,法国;Pereira,F.(编辑);Burges,CJC(编辑);Bottou,L.(编辑);Weinberger,KQ(ed.),有限训练集的指数收敛率随机梯度方法,第25期,2663-2671(2012),纽瑞
[21] Shalev-Shwartz,S.和Zhang,T.(2013)。正则化损失的随机双坐标上升方法。机器学习研究杂志,14(1),567-599·Zbl 1307.68073号
[22] Shamir,O.和Zhang,T.(2013)。非光滑优化的随机梯度下降:收敛结果和最优平均方案。第30届机器学习国际会议论文集(第71-79页)。
[23] Shen,X.和Huang,H.-C.(2010)。通过正则化解曲面进行分组追求。《美国统计协会杂志》,105(490),727-739·Zbl 1392.62192号 ·doi:10.1198/jasa.2010.tm09380
[24] 铃木,T.(2013)。在线交替方向乘法器方法的双重平均和近似梯度下降。第30届机器学习国际会议论文集(ICML-13)(第392-400页)。
[25] 铃木,T.(2014)。交替方向乘子法随机双坐标上升。在第31届机器学习国际会议论文集(第736-744页)。
[26] Xiang,S.,Tong,X.,&Ye,J.(2013)。通过非凸优化实现高效的稀疏组特征选择。第30届机器学习国际会议论文集(ICML-13)(第284-292页)。
[27] 肖林(2010)。正则化随机学习和在线优化的双重平均方法。机器学习研究杂志,112543-2596·Zbl 1242.62011年
[28] Xiao,L.,&Zhang,T.(2014)。具有逐步方差减少的近似随机梯度法。arXiv:1403.4699·Zbl 1321.65016号
[29] Yu,Y.-L.(2013)。使用近似平均值可以获得更好的近似值和更快的算法。《神经信息处理系统进展》(第458-466页)。
[30] Zhang,C.-H.(2010)。极小极大凹惩罚下的几乎无偏变量选择。《统计年鉴》,38894-942·Zbl 1183.62120号 ·doi:10.1214/09-AOS729
[31] 张涛(2010)。稀疏正则化的多级凸松弛分析。机器学习研究杂志,111081-1107·Zbl 1242.68262号
[32] Zheng,S.和Kwok J.T.(2016)。快速轻便的随机ADMM。arXiv:1604.07070。
[33] Zhong,W.和Kwok,J.(2014a)。乘数的快速随机交替方向法。第31届机器学习国际会议论文集(第46-54页)。
[34] Zhong,W.和Kwok,J.(2014b)。非凸和复合正则化的梯度下降与近似平均。在AAAI人工智能会议上。
[35] Zhong,L.W.,&Kwok,J.T.(2014c)。复合正则化的加速随机梯度方法。第十七届国际人工智能与统计会议记录(第1086-1094页)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。