×

成对学习随机梯度下降的稳定性和优化误差。 (英语) Zbl 1490.68191号

摘要:本文研究了随机梯度下降(SGD)算法在两两学习环境下的稳定性及其与优化误差的权衡。成对学习是指一种学习任务,它涉及一个损失函数,依赖于成对的实例,其中值得注意的实例有二分排序、度量学习、ROC曲线下面积(AUC)最大化和最小误差熵(MEE)原则。我们的贡献是双重的。首先,我们建立了SGD在凸、强凸和非凸环境下两两学习的稳定性结果,由此可以自然地导出泛化误差。其次,我们建立了用于成对学习的SGD算法的稳定性和优化误差之间的权衡。这是通过在指定的成对损失函数类上通过最小最大统计误差将稳定性和优化误差之和下界来实现的。从这个基本的权衡中,我们得到了SGD算法的优化误差和一类成对损失的超额期望风险的下界。此外,我们通过给出AUC最大化、度量学习和MEE的一些具体例子来说明我们的稳定性结果。

MSC公司:

68T05型 人工智能中的学习和自适应系统
90立方厘米 随机规划
90立方厘米 灵敏度、稳定性、参数优化
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agarwal,S.和Niyogi,P.,《二部排名算法的稳定性和泛化》,载于《国际计算学习理论》(Springer,2005),第32-47页·Zbl 1137.68513号
[2] Agarwal,S.和Niyogi,P.,《通过算法稳定性实现排名算法的推广界限》,J.Mach。学习。第10号决议(2009)441-474·Zbl 1235.68123号
[3] Bellet,A.和Habrard,A.,《度量学习的稳健性和泛化》,《神经计算》151(2015)259-267。
[4] C.L.Blake和C.J.Merz,Uci机器学习数据库库[网址:http://www.ics.uci.edu/\({}_\sim\)mlearn/mlrepository.html]。加利福尼亚州欧文:加利福尼亚大学信息与计算机科学系,55(1998)。
[5] Bousquet,O.和Elisseeff,A.,稳定性和泛化,J.Mach。学习。第2号决议(2002)499-526·Zbl 1007.68083号
[6] Bradley,A.P.,《机器学习算法评估中roc曲线下面积的使用》,《模式设计》30(7)(1997)1145-1159。
[7] Cesa-Bianchi,N.、Conconi,A.和Gentile,C.,《在线学习算法的泛化能力》,IEEE Trans。信息。Theory50(9)(2004)2050-2057·Zbl 1295.68182号
[8] Y.Chen,C.Jin和B.Yu,迭代优化算法的稳定性和收敛性权衡,预印本(2018),arXiv:1804.01619。
[9] Christmann,A.和Zhou,D.X.,关于基于核的正则化成对学习方法的鲁棒性,J.Complex.37(2016)1-33·Zbl 1403.62089号
[10] Clémençon,S.、Lugosi,G.和Vayatis,N.,《美国统计的排名和经验最小化》,《统计年鉴》36(2)(2008)844-874·Zbl 1181.68160号
[11] Davis,J.V.,Kulis,B.,Jain,P.,Sra,S.和Dhillon,I.S.,《信息论度量学习》,收录于Proc。第24届国际机器学习会议(ICML'07)(ACM,2007),第209-216页。
[12] Devroye,L.和Wagner,T.,潜在函数规则的无分布性能界限,IEEE Trans。信息。Theory25(5)(1979)601-604·Zbl 0432.62040号
[13] Elisseeff,A.、Evgeniou,T.和Pontil,M.,《随机学习算法的稳定性》,J.Mach。学习。第6号决议(2005)55-79·Zbl 1222.68192号
[14] Fawcett,T.,Prie:生成规则列表以最大化roc性能的系统,Data Min.Knowl。发现17(2)(2008)207-224。
[15] Gao,W.,Jin,R.,Zhu,S.和Zhou,Z.H.,单程AUC优化,载于《机器学习国际会议》(ICML’13),第28卷(美国佐治亚州亚特兰大,2013年),第906-914页·Zbl 1357.68168号
[16] Guillaumin,M.,Verbeek,J.和Schmid,C.,是你吗?人脸识别的度量学习方法,载于ICCV 2009-计算机视觉会议(IEEE,2009),第498-505页。
[17] Hanley,J.A.和McNeil,B.J.,《接收器工作特性(roc)曲线下面积的含义和使用》,放射学143(1)(1982)29-36。
[18] M.Hardt、B.Recht和Y.Singer,《训练更快,概括更好:随机梯度下降的稳定性》,预印本(2015),arXiv:1509.01240。
[19] Hu,T.,Fan,J.,Wu,Q.和Zhou,D.X.,最小误差熵准则的学习理论方法,J.Mach。学习。第14号决议(2013)377-397·Zbl 1320.62096号
[20] Hu,T.,Wu,Q.和Zhou,D.X.,线性回归中最小误差熵原理梯度下降的收敛性,IEEE Trans。信号处理。64(24)(2016)6571-6579·Zbl 1414.94263号
[21] Joachims,T.,多元性能度量的支持向量方法,见Proc。第22届国际机器学习大会(ICML'05)(ACM,纽约,纽约,美国,2005),第377-384页。
[22] Kar,P.和Karnick,H.,点积核的随机特征图,《人工智能与统计国际会议》(2012),第583-591页。
[23] Kar,P.、Sriperumbudur,B.、Jain,P.和Karnick,H.,《关于在线学习算法对成对损失函数的泛化能力》,国际机器学习会议(ICML'13),第28卷(美国佐治亚州亚特兰大,2013年),第441-449页。
[24] Kearns,M.和Ron,D.,离开交叉验证的算法稳定性和健全性检查界限,《神经计算》11(6)(1999)1427-1453。
[25] S.Kutin和P.Niyogi,Almost-everwhere算法稳定性和泛化误差,预印本(2012),arXiv:1301.0579。
[26] I.Kuzborskij和C.H.Lampert,随机梯度下降的数据依赖稳定性,预印本(2017),arXiv:1703.01678。
[27] Le Cam,L.,《统计决策理论中的渐近方法》(Springer Science&Business Media,2012)·Zbl 0605.62002号
[28] Lin,J.,Lei,Y.,Zhang,B.和Zhou,D.X.,带凸损失函数的在线成对学习算法,Infor。科学406(2017)57-70·Zbl 1429.68230号
[29] Mukherjee,S.、Niyogi,P.、Poggio,T.和Rifkin,R.,《学习理论:稳定性对于泛化是充分的,对于经验风险最小化的一致性是必要的和充分的,高级计算》。数学25(1-3)(2006)161-193·Zbl 1099.68693号
[30] Nemirovski,A.、Juditsky,A.、Lan,G.和Shapiro,A.,随机规划的稳健随机近似方法,SIAM J.Optim.19(4)(2009)1574-1609·兹比尔1189.90109
[31] A.Pensia,V.Jog和P.L.Loh,含噪迭代算法的泛化误差界,预印本(2018),arXiv:1801.04295。
[32] Principe,J.C.,《信息理论学习:Renyi的熵和核心观点》(Springer Science&Business Media,2010)·兹比尔1206.94003
[33] Rakhlin,A.,Shamir,O.和Sridharan,K.,《使强凸随机优化的梯度下降最优》。第29届国际机器学习大会(2012年),第449-456页。
[34] Rejchel,W.,《关于排名和泛化界限》,J.Mach。学习。第13号决议(2012)1373-1392·Zbl 1303.62026号
[35] Rogers,W.H.和Wagner,T.J.,局部歧视规则约束的有限样本无分布性能,《统计年鉴》。(1978年),第506-514页·Zbl 0385.62041号
[36] Rosasco,L.、Belkin,M.和Vito,E.,《关于积分算子的学习》,J.Mach。学习。第11号决议(2010)905-934·Zbl 1242.62059号
[37] Smale,S.和Zhou,D.X.,通过积分算子及其近似值进行学习理论估计,Constr。约26(2)(2007)153-172·Zbl 1127.68088号
[38] Tsybakov,A.B.,《非参数估计导论》(Springer Science&Business Media,2009)·Zbl 1176.62032号
[39] Wainwright,M.J.,《高维统计:非症状观点》,第48卷(剑桥大学出版社,2019年)·Zbl 1457.62011年
[40] C.Wang和T.Hu,无界采样在线最小误差熵算法,发表于Ana。申请。(2018). ·Zbl 1410.68327号
[41] Wang,Y.、Khardon,R.、Pechyony,D.和Jones,R.,具有成对损失函数的在线学习算法的泛化界限,见Proc。第25届学习理论年会,第23卷(2012年),第13-1-13-22页。
[42] Weinberger,K.Q.和Saul,L.K.,大幅度最近邻分类的距离度量学习,J.Mach。学习。第10号决议(2009)207-244·Zbl 1235.68204号
[43] Xing,E.P.、Ng,A.Y.、Jordan,M.I.和Russell,S.J.,《神经信息处理系统的进展》(麻省理工学院出版社,2003年)中的远程度量学习及其在附带信息聚类中的应用。
[44] Ying,Y.和Li,P.,特征值优化的距离度量学习,J.Mach。学习。第13号决议(2012)1-26·Zbl 1283.68309号
[45] Ying,Y.,Wen,L.和Lyu,S.,《随机在线auc最大化》,摘自《神经信息处理系统进展》(Curran Associates,Inc.,2016)。
[46] Ying,Y.和Zhou,D.X.,在线正则化分类算法,IEEE Trans。信息。Theory52(11)(2006)4775-4788·Zbl 1323.68450号
[47] Ying,Y.和Zhou,D.X.,在线成对学习算法,神经计算。28(4)(2016)743-777·兹比尔1472.68221
[48] Zhang,X.,Saha,A.和Vishwanathan,S.V.N.,《平滑多元绩效衡量》,J.Mach。学习。第13号决议(2012)3623-3680·Zbl 1433.68386号
[49] Zhao,P.,Jin,R.,Yang,T.和Hoi,S.C.,在线auc最大化,收录于Proc。第28届国际机器学习大会(ICML-11)(Omnipress,贝尔维尤,美国华盛顿,2011年)。
[50] Zinkevich,M.,在线凸规划和广义无穷小梯度上升,Proc。第20届国际机器学习会议(ICML-03)(AAAI出版社,华盛顿特区,美国,2003年),第928-936页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。