×

凸多任务特征学习。 (英语) Zbl 1470.68073号

摘要:我们提出了一种学习多任务共享稀疏表示的方法。该方法是著名的单任务1-范数正则化的推广。它基于一种新的非凸正则化器,该正则化器控制任务中常见的学习特征的数量。我们证明了该方法等价于求解一个凸优化问题,其中存在一个收敛于最优解的迭代算法。该算法有一个简单的解释:它交替执行有监督和无监督步骤,在前一步中它学习特定于任务的函数,在后一步中,它学习这些函数的通用跨任务稀疏表示。我们还提供了使用核学习稀疏非线性表示的算法的扩展。我们在模拟数据集和实际数据集上进行了实验,结果表明,该方法既可以提高独立学习每个任务的性能,又可以产生一些相关任务中常见的学习特征。作为一种特殊情况,我们的算法还可以用于简单地选择(而不是学习)任务中的一些常见变量。

MSC公司:

68T05型 人工智能中的学习和自适应系统
90C25型 凸面编程
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aaker,D.A.、Kumar,V.和Day,G.S.(2004年)。营销研究(第8版)。纽约:Wiley。
[2] Abernethy,J.、Bach,F.、Evgeniou,T.和Vert,J.-P.(2006)。具有属性的低秩矩阵分解(技术报告2006/68/TOM/DS)。欧洲工商管理学院,工作文件。
[3] Ando,R.K.和Zhang,T.(2005)。一种用于从多个任务和未标记数据中学习预测结构的框架。机器学习研究杂志,1817-1853年6月·Zbl 1222.68133号
[4] Argyriou,A.、Miccelli,C.A.和Pontil,M.(2005)。学习连续参数化基本核的凸组合。人工智能讲义:第3559卷。第18届学习理论年会(COLT)会议记录(第338-352页)。柏林:斯普林格·Zbl 1137.68517号
[5] Argyriou,A.、Evgeniou,T.和Pontil,M.(2007a)。多任务特征学习。Schölkopf,B.Platt,J.Hoffman,T.(编辑),《神经信息处理系统的进展》(第19卷,第41-48页)。剑桥:麻省理工学院出版社。
[6] Argyriou,A.、Miccelli,C.A.和Pontil,M.(2007b)。谱范数的表示定理。工作论文,伦敦大学学院计算机科学系。
[7] Aronszajn,N.(1950)。再生核理论。美国数学学会学报,686337-404·Zbl 0037.20701号 ·doi:10.1090/S0002-9947-1950-0051437-7
[8] Bakker,B.和Heskes,T.(2003年)。贝叶斯多任务学习的任务聚类和门控。机器学习研究杂志,4,83–99·Zbl 1085.68612号 ·doi:10.1162/153244304322765658
[9] Baxter,J.(2000)。归纳偏差学习模型。《人工智能研究杂志》,第12期,149-198页·Zbl 0940.68106号
[10] Ben David,S.和Schuller,R.(2003年)。利用任务相关性进行多任务学习。计算机科学讲义:第2777卷。第16届学习理论年会(COLT)会议记录(第567-580页)。柏林:斯普林格·Zbl 1274.68289号
[11] Bennett,K.P.和Embrechts,M.J.(2003年)。对偏最小二乘法的优化观点。J.A.K.Suykens、G.Horvath、S.Basu、C.Michelli、J.Vandewalle(编辑),《北约科学系列III:计算机与系统科学:第190卷》。学习理论的进展:方法、模型和应用(第227-250页)。阿姆斯特丹:IOS出版社。
[12] 巴蒂亚·R(1997)。矩阵分析。施普林格:数学研究生课本·Zbl 0863.15001号
[13] Borga,M.(1998年)。学习多维信号处理。瑞典林雪平大学电气工程系博士论文。
[14] Borwein,J.M.和Lewis,A.S.(2005年)。CMS数学书籍。凸分析与非线性优化:理论与实例。柏林:斯普林格。
[15] Boyd,S.P.和Vandenberghe,L.(2004)。凸优化。剑桥:剑桥大学出版社·Zbl 1058.90049号
[16] Breiman,L.和Friedman,J.H.(1997)。在多元线性回归中预测多元反应。英国皇家统计学会杂志,B辑,59(1),3–54·Zbl 0897.62068号 ·doi:10.1111/1467-9868.00054
[17] Caponetto,A.和De Vito,E.(2006年)。正则化最小二乘算法的最优速率。计算数学基础,2006年8月·Zbl 1129.68058号
[18] Caruana,R.(1997)。多任务学习。机器学习,28,41–75·doi:10.1023/A:1007379606734
[19] Chapelle,O.和Harchaoui,Z.(2005年)。联合分析的机器学习方法。L.K.Saul、Y.Weiss和L.Bottou(编辑),《神经信息处理系统的进展》(第17卷,第257-264页)。剑桥:麻省理工学院出版社。
[20] Donoho,D.(2004)。对于大多数大型欠定线性方程组,最小l1范数近解逼近最稀疏的近解。斯坦福大学统计系预印本。
[21] Evgeniou,T.、Miccelli,C.A.和Pontil,M.(2005)。使用内核方法学习多个任务。《机器学习研究杂志》,615–637·Zbl 1222.68197号
[22] Evgeniou,T.、Pontil,M.和Toubia,O.(2006)。在联合估计中建模消费者异质性的凸优化方法(技术报告)。欧洲工商管理学院。
[23] Fazel,M.、Hindi,H.和Boyd,S.P.(2001年)。应用于最小阶系统逼近的秩最小化启发式算法。《美国控制会议论文集》(第6卷,第4734-4739页)。
[24] Goldstein,H.(1991)。调查数据的多级建模。统计学家,40235-244·doi:10.2307/2348496
[25] Golub,G.H.和van Loan,C.F.(1996年)。矩阵计算。巴尔的摩:约翰·霍普金斯大学出版社·Zbl 0865.65009号
[26] Hardoon,D.R.、Szedmak,S.和Shawe-Taylor,J.(2004)。典型相关分析:学习方法应用概述。神经计算,16(12),2639–2664·Zbl 1062.68134号 ·doi:10.1162/0899766042321814
[27] Hastie,T.、Tibshirani,R.和Friedman,J.(2001)。统计学中的斯普林格系列。统计学习的要素:数据挖掘、推理和预测。柏林:斯普林格·Zbl 0973.62007号
[28] Heisele,B.、Serre,T.、Pontil,M.、Vetter,T.和Poggio,T.(2002年)。通过学习和组合对象部分进行分类。《神经信息处理系统进展》(第14卷,第1239-1245页)。剑桥:麻省理工学院出版社。
[29] 霍特林,H.(1936)。两组变量之间的关系。《生物统计学》,第28期,第321-377页·Zbl 0015.40705号
[30] Izenman,A.J.(1975年)。多元线性模型的降秩回归。《多变量分析杂志》,5248-264·Zbl 0313.62042号 ·doi:10.1016/0047-259X(75)90042-1
[31] Jebara,T.(2004年)。SVM的多任务功能和内核选择。第21届机器学习国际会议论文集·Zbl 1078.68703号
[32] Lawrence,N.D.和Platt,J.C.(2004)。学习使用信息向量机进行学习。R.Greiner(Ed.),机器学习国际会议论文集。赫尔辛基:无所不在。
[33] Lenk,P.J.、DeSarbo,W.S.、Green,P.E.和Young,M.R.(1996年)。层次Bayes联合分析:从简化的实验设计中恢复partworth异质性。市场营销学,15(2),173-191·doi:10.1287/mksc.15.2.173
[34] Lewis,A.S.(1995)。酉不变矩阵函数的凸分析。凸分析杂志,2(1),173-183·Zbl 0860.15026号
[35] Maurer,A.(2006年)。线性多任务学习的界限。机器学习研究杂志,7,117–139·Zbl 1222.68260号
[36] Micchelli,C.A.和Pinkus,A.(1994年)。平衡多个错误标准引起的变化问题。Rendiconti di Matematica,Serie VII,14,37–86·Zbl 0809.49021号
[37] Micchelli,C.A.和Pontil,M.(2005)。关于向量值函数的学习。神经计算,17,177-204·Zbl 1092.93045号 ·doi:10.1162/0899766052530802
[38] Neve,M.、De Nicolao,G.和Marchesi,L.(2007年)。通过高斯过程对种群模型进行非参数识别。Automatica(IFAC杂志),43(7),1134–1144·Zbl 1123.93319号 ·doi:10.1016/j.automatica.2006.12.024
[39] Obozinski,G.、Taskar,B.和Jordan,M.I.(2006年)。多任务功能选择(技术报告)。加州大学伯克利分校统计系,2006年6月。
[40] Poggio,T.和Girosi,F.(1998年)。函数近似的稀疏表示。神经计算,1011445–1454·doi:10.1162/08997669830017250
[41] Serre,T.、Kouh,M.、Cadieu,C.、Knoblich,U.、Kreiman,G.和Poggio,T.(2005)。物体识别理论:灵长类视觉皮层腹侧流前馈路径中的计算和电路(AI Memo 2005-036)。麻省理工学院。
[42] Srebro,N.、Rennie,J.D.M.和Jaakkola,T.S.(2005)。最大边际矩阵分解。《神经信息处理系统进展》(第17卷,第1329-1336页)。剑桥:麻省理工学院出版社。
[43] Torralba,A.、Murphy,K.P.和Freeman,W.T.(2004)。共享功能:用于多类对象检测的高效增强程序。《IEEE计算机视觉和模式识别会议论文集》(第2卷,第762-769页)。
[44] Wahba,G.(1990年)。应用数学系列:第59卷。观测数据的样条模型。费城:SIAM·Zbl 0813.62001号
[45] Wold,S.、Ruhe,A.、Wold,H.和Dunn III,W.J.(1984)。线性回归中的共线性问题。广义逆的偏最小二乘(PLS)方法。SIAM科学计算杂志,3735–743·Zbl 0545.62044号
[46] Xue,Y.、Liao,X.、Carin,L.和Krishnapuram,B.(2007)。基于Dirichlet过程先验的多任务分类学习。机器学习研究杂志,8,35–63·Zbl 1222.68338号
[47] Yu,K.、Tresp,V.和Schwaighofer,A.(2005)。从多个任务中学习高斯过程。第22届机器学习国际会议论文集。
[48] Zhang,J.、Ghahramani,Z.和Yang,Y.(2006)。使用潜在独立成分分析学习多个相关任务。《神经信息处理系统进展》(第18卷,第1585-1592页)。剑桥:麻省理工学院出版社。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。