×

变分Gram函数:凸分析和优化。 (英语) Zbl 1387.49039号

摘要:我们引入了一类新的凸罚函数,称为变分Gram函数(VGFs),它可以促进向量空间中向量集之间的成对关系,例如正交性。这些函数可以在层次分类、多任务学习和不相交支持向量估计等应用中产生的凸优化问题中充当正则化器。我们研究了VGF的凸性,并给出了它们的凸共轭、次微分、近端算子和相关量的刻画。我们讨论了正则化损失最小化问题的有效优化算法,其中损失允许一个通用但简单的变分表示,正则化子是VGF。这些算法具有简单的内核技巧、高效的线搜索,并且与基于次微分或近似映射的一阶方法相比具有计算优势。我们还建立了这类学习问题的一般表示定理。最后,对一个分层分类问题进行了数值实验,以证明VGFs及其相关优化算法的有效性。

MSC公司:

49K35型 极小极大问题的最优性条件
68T05型 人工智能中的学习和自适应系统
90C25型 凸面编程
49号45 最优控制中的逆问题
90立方厘米 数学规划中的最优性条件和对偶性

软件:

RCV1型
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] A.Albert,{用伪逆表示正定和非负定的条件},SIAM J.Appl。数学。,17(1969年),第434-440页·Zbl 0265.15002号
[2] A.Argyriou、R.Foygel和N.Srebro,《神经信息处理系统进展》,Curran Associates,Red Hook,NY,2012年,第1457-1465页。
[3] F.Bach、R.Jenatton、J.Mairal和G.Obozinski,{稀疏诱导惩罚的优化},发现。趋势马赫数。学习。,4(2012),第1-106页·Zbl 06064248号
[4] H.H.Bauschke和P.L.Combettes,{希尔伯特空间中的凸分析和单调算子理论},Springer,纽约,2011年·Zbl 1218.47001号
[5] A.Beck和M.Teboulle,{线性反问题的快速迭代收缩阈值算法},SIAM J.成像科学。,2(2009年),第183-202页·Zbl 1175.94009号
[6] A.Beck和M.Teboulle,《基于梯度的算法及其在信号恢复问题中的应用》,摘自《信号处理与通信中的凸优化》,剑桥大学出版社,2009年,第42-88页·Zbl 1211.90290号
[7] A.Ben-Tal、L.El Ghaoui和A.Nemirovski,《稳健优化》,普林斯顿州立大学。申请。数学。,普林斯顿大学出版社,新泽西州普林斯顿,2009年·Zbl 1221.90001号
[8] K.H.V.Booth和D.R.Cox,《一些系统过饱和设计》,《技术计量学》,第4期(1962年),第489-495页·Zbl 0109.12201号
[9] S.Boyd和L.Vandenberghe,{凸优化},剑桥大学出版社,剑桥,2004年·Zbl 1058.90049号
[10] J.V.Burke,Y.Gao和T.Hoheisel,{广义矩阵分数函数的凸几何},预印本,arxiv.org/abs/1703.013632017·Zbl 1402.90175号
[11] 蔡晓霞,王晓霞,{关于符号模式矩阵}的半正定最小秩的注记,电子。《线性代数杂志》,26(2013),第345-356页·Zbl 1282.05105号
[12] C.-S.Cheng,《最优过饱和设计》,统计学。Sinica,7(1997),第929-939页·Zbl 1067.62560号
[13] O.Dekel、J.Keshet和Y.Singer,《第21届机器学习国际会议论文集》,纽约ACM,2004年,第27-34页。
[14] X.V.Doan和S.Vavasis,{发现最大的低秩星团,具有Ky Fan 2-k范数和\(ℓ_1)-规范},SIAM J.Optim。,26(2016),第274-312页·Zbl 1332.15032号
[15] J.Duchi、S.Shalev-Shwartz、Y.Singer和T.Chandra,{有效投影到\(ℓ_1)-高维学习球,载于《第25届国际机器学习会议论文集》,美国计算机学会,纽约,2008年,第272-279页。
[16] C.Giraud,{低秩多元回归},Electron。《J Stat.》,第5卷(2011年),第775-799页·Zbl 1274.62434号
[17] T.Hastie、R.Tibshirani和J.Friedman,《统计学习的要素》,第二版,Springer Ser。统计学。,施普林格,纽约,2009年·Zbl 1273.62005年
[18] R.A.Horn和C.R.Johnson,《矩阵分析》,第二版,剑桥大学出版社,剑桥,2013年·Zbl 1267.15001号
[19] R.Iyer和J.Bilmes,{机器学习应用的子模点过程},《第十八届人工智能与统计国际会议论文集》,Proc。机器。学习。Res.38,《机器学习研究院刊》,2015年,第388-397页。
[20] L.Jacob、F.Bach和J.-P.Vert,《集群式多任务学习:凸公式》,摘自《神经信息处理系统进展》,Curran Associates,Red Hook,NY,2008年,第745-752页。
[21] A.Jalali,{学习结构化模型的凸优化算法和统计界限},华盛顿大学博士论文,西雅图,2016年,第57-95页。
[22] D.Jayaraman、F.Sha和K.Grauman,《通过抵制分享欲望来消除语义视觉属性的相关性》,《2014年IEEE计算机视觉和模式识别会议》,俄亥俄州哥伦布,IEEE,新泽西州皮斯卡塔韦,2014年,第1629-1636页。
[23] A.Juditsky和A.Nemirovski,{非光滑凸大规模优化的一阶方法,II:利用问题的结构},《机器学习优化》,s.Sra、s.Nowozin和s.J.Wright编辑,麻省理工学院出版社,马萨诸塞州剑桥,2011年,第149-184页。
[24] A.Juditsky和A.Nemirovski,{在线性极小化预言给出的域上用单调算子求解变分不等式},数学。程序。,156(2016),第221-256页·Zbl 1333.65074号
[25] K.C.Kiwiel,{连续二次背包问题的断点搜索算法},数学。程序。,112(2008),第473-491页·Zbl 1190.90121号
[26] G.M.Korpelevič,{一种求鞍点和其他问题的外梯度方法},Ekonom。Mat.Metody,12(1976),第747-756页·Zbl 0342.90044号
[27] A.Kulesza和B.Taskar,机器学习的决定点过程,发现。趋势马赫数。学习。,5(2012年),第123-286页·Zbl 1278.68240号
[28] V.L.Levin,{\it E.Helly定理在凸规划、最佳逼近问题及相关问题中的应用},Mat.Sb.(N.s.),79(1969),pp.250-263·Zbl 0187.17602号
[29] A.S.Lewis,{酉不变矩阵函数的凸分析},J.凸分析。,2(1995年),第173-183页·Zbl 0860.15026号
[30] D.D.Lewis、Y.Yang、T.G.Rose和F.Li,《RCV1:文本分类研究的新基准集》,J.Mach。学习。Res.,5(2004),第361-397页。
[31] J.Malkin和J.Bilmes,{比率半定分类器},《IEEE声学、语音和信号处理国际会议论文集》,内华达州拉斯维加斯,IEEE,新泽西州皮斯卡塔韦,2008年,第4113-4116页。
[32] B.Martinet,{it Regularisation d'ineкquations variationnelles par approximations sequessives},Rev.Francaise Inform。里奇。Opeír.,作品。,4(1970年),第154-158页·Zbl 0215.21103号
[33] A.M.McDonald、M.Pontil和D.Stamos,《关于k支持和集群规范的新观点》,J.Mach。学习。研究,17(2016),第5376-5413页·Zbl 1392.68356号
[34] C.A.Micchelli、J.M.Morales和M.Pontil,结构稀疏性的正则化器,高级计算。数学。,38(2013),第455-489页·Zbl 1297.62153号
[35] L.Mirsky,{it约翰·冯·诺依曼的迹不等式},莫纳什。数学。,79(1975),第303-306页·Zbl 0316.15009号
[36] A.Nemirovski,求解Lipschitz连续单调算子变分不等式和光滑凹凸鞍点问题的{收敛速度为O(1/t)的Prox方法},SIAM J.Optim。,15(2004),第229-251页·兹比尔1106.90059
[37] 于。Nesterov,{\it最小化复合函数的梯度方法},数学。程序。,140(2013),第125-161页·Zbl 1287.90067号
[38] R.T.Rockafellar,{凸分析},普林斯顿数学。序列号。28,普林斯顿大学出版社,新泽西州普林斯顿,1970年·Zbl 0193.18401号
[39] R.T.Rockafellar,{单调算子和近点算法},SIAM J.控制优化。,14(1976年),第877-898页·Zbl 0358.90053号
[40] R.T.Rockafellar和Roger J.-B.Wets,{变分分析},施普林格,柏林,1998年·Zbl 0888.49001号
[41] B.Scho¨lkopf、R.Herbrich和A.J.Smola,{广义代表定理},《第十四届计算学习理论年会论文集》,荷兰阿姆斯特丹,柏林斯普林格,2001年,第416-426页·Zbl 0992.68088号
[42] A.J.Smola和B.Scho¨lkopf,《支持向量回归教程》,统计。计算。,14(2004),第199-222页。
[43] L.Vandenberghe和S.Boyd,{半定规划},SIAM Rev.,38(1996),第49-95页·Zbl 0845.65023号
[44] K.Vervier,P.Maheí,A.D'Aspremont,J.-B.Veyrieras和J.-P.Vert,{关于具有正交列或不相交支持的学习矩阵},《数据库中的机器学习和知识发现》,瑞士查姆斯普林格,2014年,第274-289页。
[45] J.Weston和C.Watkins,{多类模式识别的支持向量机},《第六届欧洲人工神经网络研讨会论文集》,D-FAC70,布鲁塞尔,1998年,第219-224页。
[46] H.Wolkowicz,R.Saigal,和L.Vandenberghe,eds.,{半定规划手册},国际。序列号。操作。资源管理科学。27,Kluwer学术,马萨诸塞州波士顿,2000年·Zbl 0951.90001号
[47] D.Zhou、L.Xiao和M.Wu,{通过正交变换进行层次分类},《第28届国际机器学习会议论文集》,华盛顿州贝尔维尤,国际机器学习协会,威斯康星州麦迪逊,2011年,第801-808页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。