×

距离度量学习的快速泛化率。光滑强凸距离度量学习的改进理论分析。 (英语) Zbl 1483.68326号

摘要:距离度量学习(DML)旨在找到一个合适的度量来计算实例之间的距离。在附带信息的帮助下,学习的度量通常可以提高基于相似性或距离的方法(例如,(k)NN)的性能。DML的理论分析侧重于平方马氏距离的学习有效性。具体来说,从经验抽样成对约束中学习的马氏度量是否符合根据真实分布生成的成对样本优化的最优度量,以及该过程的样本复杂性。超额风险可以衡量泛化的质量,即从具有凸损失函数的正则化目标学习到的经验度量的期望目标与具有最优度量的目标之间的差距。给定\(N\)个训练示例,现有对该非i.i.d.学习问题的分析已经证明,DML的超额风险以\({\mathcal{O}}\left(\frac{1}{\sqrt{N}}}\right)\的速率收敛到零。本文在学习具有光滑损失函数和强凸目标的距离度量时,获得了DML({mathcal{O}}左(frac{1}{N}右))的更快的收敛速度。此外,当问题相对容易,并且训练样本的数量足够大时,这个比率可以进一步提高到\({mathcal{O}}\左(\frac{1}{N^2}\右)\)。合成实验验证了DML可以达到指定的更快的泛化率,并且在不同设置下的结果有助于探索DML的理论性质。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Agarwal,S.和Niyogi,P.(2009年)。通过算法稳定性对排序算法进行推广。机器学习研究杂志,10(2月),441-474·Zbl 1235.68123号
[2] Bartlett,P.L.、Bousquet,O.和Mendelson,S.(2005)。局部雷达的复杂性。《统计年鉴》,33(4),1497-1537·Zbl 1083.62034号 ·doi:10.1214/009053605000000282
[3] Bartlett,P.L.和Mendelson,S.(2002年)。Rademacher和高斯复杂性:风险边界和结构结果。机器学习研究杂志,3(11月),463-482·Zbl 1084.68549号
[4] Beck,A.和Teboulle,M.(2009年)。线性反问题的快速迭代收缩阈值算法。SIAM成像科学杂志,2(1),183-202·Zbl 1175.94009号 ·doi:10.1137/080716542
[5] Bellet,A.和Habrard,A.(2015年)。度量学习的鲁棒性和泛化。神经计算,151259-267·doi:10.1016/j.neucom.2014.09.044
[6] Bellet,A.、Habrard,A.和Sebban,M.(2012年)。用于可证明精确的稀疏线性分类的相似性学习。第29届机器学习国际会议论文集,苏格兰爱丁堡(1871-1878页)。
[7] Bellet,A.、Habrard,A.和Sebban,M.(2015)。量度学习。人工智能和机器学习综合讲座。Rafael:Morgan&Claypool出版社·Zbl 1308.68005号
[8] Bian,W.和Tao,D.(2011年)。通过经验损失最小化学习距离度量。西班牙巴塞罗那第22届国际人工智能联合会议记录(第1186-1191页)。
[9] Bousquet,O.和Elisseeff,A.(2002)。稳定性和泛化。机器学习研究杂志,2(3月),499-526·Zbl 1007.68083号
[10] Boyd,S.和Vandenberghe,L.(2004)。凸优化。剑桥:剑桥大学出版社·Zbl 1058.90049号 ·doi:10.1017/CBO9780511804441
[11] 曹琦,郭,Z.,&Ying,Y.(2016)。度量和相似性学习的泛化界。机器学习,102(1),115-132·Zbl 1345.68250号 ·doi:10.1007/s10994-015-5499-7
[12] 昌平约,S。;刘凯。;Sha,F.,相似成分分析,第26期,1511-1519(2013),剑桥
[13] Chechik,G.、Sharma,V.、Shalit,U.和Bengio,S.(2010年)。通过排名大规模在线学习图像相似性。机器学习研究杂志,11109-1135·Zbl 1242.68212号
[14] Clémençon,S.、Lugosi,G.和Vayatis,N.(2008年)。u统计量的排序和经验最小化。《统计年鉴》,36(2),844-874·Zbl 1181.68160号 ·doi:10.1214/00905260700000910
[15] Davis,J.V.、Kulis,B.、Jain,P.、Sra,S.和Dhillon,I.S.(2007年)。信息论度量学习。《第24届机器学习国际会议论文集》,科尔瓦利斯,俄勒冈州(第209-216页)。
[16] Do,H.、Kalousis,A.、Wang,J.和Woznica,A.(2012)。SVM的度量学习视角:LMNN与SVM的关系。2012年4月21日至23日在加那利群岛拉帕尔马举行的第15届国际人工智能和统计会议记录(第308-317页)。
[17] 弗洛姆,A。;辛格,Y。;Malik,J.,《使用局部距离函数的图像检索和分类》,第19期,417-424(2007),马萨诸塞州剑桥
[18] Guo,Z.,&Ying,Y.(2014)。通过正则化相似学习保证分类。神经计算,26(3),497-522·Zbl 1410.68316号 ·doi:10.1116/NECO_a_00556
[19] Xieh,C.K.、Yang,L.、Cui,Y.、Lin,T.Y.、Belongie,S.J.和Estrin,D.(2017)。协作度量学习。第26届万维网国际会议论文集,澳大利亚珀斯(第193-201页)。
[20] Huang,K.、Ying,Y.和Campbell,C.(2009)。Gsml:稀疏度量学习的统一框架。第九届IEEE数据挖掘国际会议论文集,佛罗里达州迈阿密(第189-198页)。
[21] Hwang,S.J.、Grauman,K.和Sha,F.(2013)。用于视觉对象分类的保持相似性的语义嵌入。《第30届机器学习国际会议论文集》,佐治亚州亚特兰大(第639-647页)。
[22] Jin,R。;王,S。;Zhou,Y.,《正则化距离度量学习:理论与算法》,第23期,862-870(2010),马萨诸塞州剑桥
[23] Kulis,B.(2012)。量度学习:一项调查。机器学习的基础和趋势,5(4),287-364·Zbl 1278.68014号 ·doi:10.1561/220000019
[24] Law,M.T.、Thome,N.和Cord,M.(2016a)。从四组图像之间的相对比较中学习距离度量。国际计算机视觉杂志,121(1),65-94·Zbl 1435.68268号 ·doi:10.1007/s11263-016-0923-4
[25] Law,M.T.,Yu,Y.,Cord,M.,&Xing,E.P.(2016b)。用于监督聚类的马氏距离封闭式训练。摘自美国内华达州拉斯维加斯IEEE计算机学会计算机视觉和模式识别会议论文集(第3909-3917页)
[26] Lim,D.、Lanckriet,G.和McFee,B.(2013年)。稳健的结构度量学习。《第30届机器学习国际会议论文集》,佐治亚州亚特兰大(第615-623页)。
[27] 梅森,B。;Jain,L。;Nowak,RD,《学习低维指标》,第30期,4142-4150(2017),剑桥
[28] McDiarmid,C.(1989)。关于有界差分法。组合学调查,141(1),148-188·Zbl 0712.05012号
[29] McFee,B.,Lanckriet,G.R.(2010年)。衡量学习排名。第27届国际机器学习会议论文集,以色列海法(第775-782页)。
[30] Meir,R.和Zhang,T.(2003)。贝叶斯混合算法的广义误差界。《机器学习研究杂志》,4期(10月),839-860·Zbl 1083.68096号
[31] 帕克,M。;吉特克里特姆,W。;卡马尔,A。;萨博,Z。;Buesing,L。;Sahani,M.,贝叶斯流形学习:局部线性潜在变量模型(LL-LVM),第28期,154-162(2015),剑桥
[32] Perrot,M.和Habrard,A.(2015)。计量假设迁移学习的理论分析。第32届机器学习国际会议论文集,法国里尔(第1708-1717页)。
[33] Perrot,M.、Habrard,A.、Muselet,D.和Sebban,M.(2014)。通过局部度量学习建模感知颜色差异。在欧洲计算机视觉会议上,Springer(第96-111页)。
[34] Qian,Q.,Jin,R.,Zhu,S.,Lin,Y.(2015)。通过多阶段度量学习实现细粒度视觉分类。《IEEE计算机学会计算机视觉和模式识别会议论文集》,马萨诸塞州波士顿(第3716-3724页)。
[35] Qian,Q.,Jin,R.,Yi,J.,Zhang,L.,&Zhu,S.(2013)。通过自适应采样和微型随机梯度下降(sgd)实现有效的距离度量学习。机器学习,99(3),353-372·Zbl 1338.68237号 ·doi:10.1007/s10994-014-5456-x
[36] Rejchel,W.(2012年)。关于排序和泛化边界。机器学习研究杂志,13(5月),1373-1392·Zbl 1303.62026号
[37] Rejchel,W.(2015)。在大家庭中排名的快速费率。神经计算,1681104-1110·doi:10.1016/j.neucom.2015.05.013
[38] Shalev-Shwartz,S.和Ben-David,S.(2014年)。理解机器学习:从理论到算法。剑桥:剑桥大学出版社·Zbl 1305.68005号 ·文件编号:10.1017/CBO9781107298019
[39] Shalev-Shwartz,S.、Singer,Y.和Ng,A.Y.(2004)。伪测量的在线和批量学习。加拿大阿尔伯塔省第21届机器学习国际会议论文集(第94-102页)。
[40] 斯雷布罗,N。;Sridharan,K。;Tewari,A.,《平滑度、低噪音和快速率》,2199-2207(2010),剑桥
[41] 斯里达兰,K。;沙列夫·施瓦茨,S。;Srebro,N.,《正规化目标的快速率》,1545-1552(2009),剑桥
[42] 北弗尔马。;Branson,K.,《学习马氏距离度量的样本复杂性》,第28期,2584-2592(2015),剑桥
[43] KQ温伯格;布利泽,J。;Saul,LK,《大幅度最近邻分类的距离度量学习》,第18期,1473-1480(2006),马萨诸塞州剑桥
[44] Weinberger,K.Q.和Saul,L.K.(2009年)。大幅度最近邻分类的距离度量学习。机器学习研究杂志,10207-244·Zbl 1235.68204号
[45] 邢,EP;Ng、AY;密歇根州约旦;Russell,S.,《应用于带有副信息的聚类的距离度量学习》,第15期,505-512(2003),马萨诸塞州剑桥
[46] Ye.H.J.、Zhan,D.C.、Si,X.M.和Jiang,Y.(2016a)学习特征感知度量。《第八届亚洲机器学习会议论文集》,新西兰汉密尔顿(第286-301页)。
[47] 叶,HJ;詹,DC;Si,XM;江,Y。;Zhou,ZH,《什么使对象相似:统一的多尺度学习方法》,第29期,1235-1243(2016),剑桥
[48] Ying,Y。;黄,K。;Campbell,C.,《通过平滑优化实现稀疏度量学习》,第22期,2214-2222(2009),剑桥
[49] 詹D.C.、李M.、李Y.F.和周Z.H.(2009)。使用度量传播学习实例特定距离。《第26届机器学习国际会议论文集》,加拿大蒙特利尔(第1225-1232页)。
[50] Zhang,L.、Yang,T.和Jin,R.(2017)。随机凸优化的经验风险最小化:\[O(1/n)O\](1/n。荷兰阿姆斯特丹第30届学习理论会议记录(第1954-1979页)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。