×

基于核岭回归的成对学习方法的比较研究。 (英语) Zbl 1472.68158号

总结:许多机器学习问题可以表述为预测一对对象的标签。这类问题通常被称为两两学习、二元预测或网络推理问题。在过去的十年中,核方法在两两学习中发挥了主导作用。它们仍然获得了最先进的预测性能,但机器学习文献中对其行为的理论分析尚未得到充分研究。在这项工作中,我们回顾并统一了常见于不同成对学习设置中的基于内核的算法,从矩阵滤波到零次学习。为此,我们重点研究了Kronecker核岭回归的闭式高效实例化。我们证明了独立任务核岭回归、两步核岭回归和线性矩阵滤波器作为Kronecker核岭回归的特例自然出现,这意味着所有这些方法都隐式地最小化了平方损失。此外,我们还分析了通用性、一致性和光谱滤波特性。我们的理论结果为评估现有两两学习方法的优势和局限性提供了有价值的见解。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62G08号 非参数回归和分位数回归
62J07型 岭回归;收缩估计器(拉索)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abernethy,J.、Bach,F.、Evgeniou,T.和Vert,J.-P.(2008)。协作滤波的一种新方法:带谱正则化的算子估计。《机器学习研究杂志》,10803-826·Zbl 1235.68122号
[2] Adams,R.P.、Dahl,G.E.和Murray,I.(2010年)。使用高斯过程将边信息合并到概率矩阵分解中。第26届人工智能不确定性会议论文集。科尔瓦利斯,俄勒冈州:AUAI出版社。
[3] Airola,A.和Pahikkala,T.(2018年)。基于广义vec技巧的快速Kronecker积核方法。IEEE神经网络和学习系统汇刊(即将出版)。
[4] Akata,Z.、Perronnin,F.、Harchaoui,Z.和Schmid,C.(2016)。用于图像分类的标签嵌入。IEEE事务模式分析与机器智能,38(7),1425-1438,
[5] Akata,Z.、Reed,S.E.、Walter,D.、Lee,H.和Schiele,B.(2015)。用于细粒度图像分类的输出嵌入的评估。《IEEE计算机视觉和模式识别会议记录》(第2927-2936页)。新泽西州皮斯卡塔韦:IEEE。
[6] Alipanahi,B.、Delong,A.、Weirauch,M.T.和Frey,B.J.(2015)。通过深度学习预测DNA和RNA-结合蛋白的序列特异性。《自然生物技术》,33(8),831-838,
[7] 阿尔瓦雷斯,M.、罗萨斯科,L.和劳伦斯,N.(2012)。向量值函数的内核:综述。机器学习基础与趋势,4(3),195-266·Zbl 1301.68212号
[8] Argyriou,A.、Miccelli,C.A.、Pontil,M.和Massimiliano,Y.(2010年)。关于频谱学习。《机器学习研究杂志》,11935-953·Zbl 1242.68201号
[9] Argyriou,A.、Miccelli,C.A.、Pontil,M.和Ying,Y.(2007年)。多任务结构学习的谱正则化框架。J.C.Platt、D.Koller、Y.Singer和S.T.Roweis(编辑),《神经信息处理系统的进展》,20(第25-32页)。马萨诸塞州剑桥:麻省理工学院出版社。
[10] Baldassarre,L.、Rosasco,L.,Barla,A.和Verri,A.(2012年)。通过频谱滤波进行多输出学习。机器学习,87(3),259-301·Zbl 1243.68233号
[11] Basilico,J.和Hofmann,T.(2004)。统一协作和基于内容的过滤。《第21届机器学习国际会议论文集》(第9-16页)。纽约:ACM。
[12] Basnou,C.、Vicente,P.、Espelta,J.M.和Pino,J.(2015)。从共现数据推断物种关联的网络方法。《生态学》,39(12),1139-1150。
[13] Bauer,F.、Pereverzev,S.和Rosasco,L.(2007年)。学习理论中的正则化算法。复杂性杂志,23(1),52-72·Zbl 1109.68088号
[14] Ben-Hur,A.和Noble,W.S.(2005年)。预测蛋白质相互作用的核方法。生物信息学,21(补遗1),i38-i46,
[15] Bertero,M.和Boccacci,P.(1998年)。成像逆问题简介。佛罗里达州博卡拉顿:CRC出版社·Zbl 0914.65060号
[16] Bishop,C.M.(2006年)。模式识别和机器学习。纽约:Springer-Verlag·Zbl 1107.68072号
[17] Bleakley,K.和Yamanishi,Y.(2009年)。使用二分局部模型对药物-靶标相互作用进行监督预测。生物信息学,25(18),2397-2403,
[18] Blondel,M.、Ishihata,M.,Fujino,A.和Ueda,N.(2016年)。多项式网络和因式分解机:新见解和有效的训练算法。第33届机器学习国际会议论文集。
[19] Bollen,K.A.(1996年)。潜在变量方程的替代两阶段最小二乘(2SLS)估计。《心理测量学》,61(1),109-121·Zbl 0875.62369号
[20] Bollen,K.A.和Bauer,D.J.(2004)。自动选择模型简化的工具变量。社会学方法与研究,32(4),425-452,
[21] Bonilla,E.V.、Agakov,F.和Williams,C.(2007年)。使用任务特定功能的内核多任务学习。《第十一届国际人工智能与统计会议论文集》(第43-50页)。
[22] Brunner,C.和Fischer,A.(2012年)。成对支持向量机及其在大规模问题中的应用。机器学习研究杂志,13,2279-2292·Zbl 1433.68329号
[23] Cai,D.、He,X.、Han,J.和Huang,T.S.(2011)。用于数据表示的广义图正则化非负矩阵分解。IEEE模式分析和机器智能汇刊,33(8),1548-1560,
[24] Candes,E.和Recht,B.(2008年)。通过凸优化精确完成低秩矩阵。计算数学基础,9717-772·Zbl 1219.90124号
[25] Cao,D.-S.、Liu,S.、Xu,Q.-S.、Lu,H.-M.、Huang,J.-H.、Hu,Q.-N.和Liang,Y.-Z.(2012)。使用蛋白质序列和药物拓扑结构对药物-靶点相互作用进行大规模预测。《分析化学学报》,752,1-10,
[26] Chapelle,O.、Schölkopf,B.和Zien,A.(2006年)。半监督学习。马萨诸塞州剑桥:麻省理工学院出版社,
[27] Dembczyñski,K.、Kotłowski,W.、Gawel,P.、Szarecki,A.和Jaszkiewicz,A.(2013)。大型交通网络中出行时间估计的矩阵分解。计算机科学讲义:第7895卷。第12届国际人工智能和软计算会议记录(第500-510页)。柏林:Springer-Verlag,
[28] Ding,H.、Takigawa,I.、Mamitsuka,H.和Zhu,S.(2013)。预测药物-靶点相互作用的基于相似性的机器学习方法:简要综述。生物信息学简报,14(5),734-747,
[29] Duvenaud,D.、Maclaurin,D.、Aguilera-Iparraguirre,J.、Gómez-Bombarelli,R.、Hirzel,T.、Aspuru-Guzik,A.和Adams,R.P.(2015)。用于学习分子指纹的图上卷积网络。《第28届神经信息处理系统国际会议记录》(第2卷,第2224-2232页)。
[30] Elkan,C.和Noto,K.(2008年)。仅从正面和未标记的数据学习分类器。第14届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第213-220页)。纽约:ACM,
[31] Ezzat,A.、Zhao,P.、Wu,M.、Li,X.L.和Kwoh,C.K.(2017)。用图正则化矩阵分解预测药物与靶标的相互作用。IEEE/ACM计算生物学和生物信息学汇刊,14(3),646-656,
[32] Fang,Y.,&Si,L.(2011)。矩阵联合分解,用于具有丰富侧面信息和隐含反馈的推荐。在第二届推荐系统信息异质性与融合国际研讨会论文集(第65-69页)。纽约:ACM。
[33] Frome,A.、Corrado,G.S.、Shlens,J.、Bengio,S.、Dean,J.,Ranzato,M.和Mikolov,T.(2013)。设计:一个深度视觉-语义嵌入模型。C.J.C.Burges、L.Bottou、M.Welling、Z.Ghahramani和K.Q.Weinberger(编辑),《神经信息处理系统的进展》(第2121-2129页)。纽约州红钩市:Curran。
[34] Fu,Y.、Hospedales,T.、Xiang,T.和Gong,S.(2013)。学习多模态潜在属性。IEEE模式分析和机器智能汇刊,36(2),303-316。
[35] Gaujoux,R.和Seoighe,C.(2010年)。非负矩阵分解的灵活R包。BMC生物信息学,11,367,
[36] Geurts,P.、Touleimat,N.、Dutreix,M.和D'Alché-Buc,F.(2007年)。用输出核树推断生物网络。BMC生物信息学,8(2),S4。
[37] Gittens,A.和Mahoney,M.W.(2013)。重温用于改进大规模机器学习的Nyström方法。机器学习研究杂志,28(3),567-575。
[38] Gönen,M.(2012)。使用贝叶斯矩阵分解从化学和基因组核预测药物-靶点相互作用。生物信息学,28(18),2304-2310,
[39] Hastie,T.、Tibshirani,R.和Friedman,J.(2001)。统计学习的要素。纽约:斯普林格·Zbl 0973.62007号
[40] Hayashi,K.、Takenouchi,T.、Tomioka,R.和Kashima,H.(2012)。多任务高斯过程的自度量相似性。日本人工智能学会学报,27,103-110,
[41] Huynh Thu,V.A.、Irrthum,A.、Wehenkel,L.和Geurts,P.(2010年)。使用基于树的方法从表达数据推断调控网络。公共科学图书馆一期,5(9),1-10,
[42] Isinkaye,F.、Folajimi,Y.和Ojokoh,B.(2015)。推荐系统:原则、方法和评价。埃及信息学杂志,16(3),261-273,
[43] Jain,P.、Netrapalli,P.和Sanghavi,S.(2013)。使用交替最小化完成低秩矩阵。第四十五届ACM计算机理论年会论文集(第665-674页)。纽约:ACM·Zbl 1293.65073号
[44] Jo,T.、Hou,J.、Eickholt,J.和Cheng,J.(2015)。通过深度学习网络改进蛋白质折叠识别。科学报告,5(1),17573,
[45] Johnson,R.和Zhang,T.(2008年)。基于图的半监督学习和谱核设计。IEEE信息理论汇刊,54(1),275-288·Zbl 1304.68147号
[46] Jordano,P.(2016)。生态相互作用的取样网络。功能生态学,30(12),1883-1893,
[47] Jung,S.(2013)。使用两阶段岭最小二乘估计的小样本结构方程建模。行为研究方法,45(1),75-81,
[48] Kashima,H.、Kato,T.、Yamanishi,Y.、Sugiyama,M.和Tsuda,K.(2009年)。链路传播:用于链路预测的快速半监督学习算法。SIAM国际数据挖掘会议(第1099-1110页)。费城:SIAM。
[49] Kashima,H.、Oyama,S.、Yamanishi,Y.和Tsuda,K.(2010)。笛卡尔核:成对核的有效替代。IEICE信息与系统交易,93(10),2672-2679,
[50] Lampert,C.H.、Nickisch,H.和Harmeling,S.(2009年)。学习通过betweenclass属性转移来检测不可见的对象类。计算机视觉和模式识别会议论文集。华盛顿特区:IEEE计算机协会。
[51] Lampert,C.H.、Nickisch,H.和Harmeling,S.(2014年)。基于属性的分类用于零快照视觉对象分类。IEEE模式分析和机器智能汇刊,36(3),453-465,
[52] Lawrence,N.和Urtasun,R.(2009年)。高斯过程的非线性矩阵分解。第26届机器学习国际年会论文集。纽约:ACM。
[53] Liu,H.,Sun,J.,Guan,J.、Zheng,J.和Zhou,S.(2015)。通过建立高度可信的阴性样本来改进复合蛋白相互作用的预测。生物信息学,31(12),i221-i229,
[54] Liu,H.,&Yang,Y.(2015)。基于乘积图的传递学习的二分边预测。第32届机器学习国际会议记录(第37卷,第1880-1888页)。纽约:ACM。
[55] Liu,J.、Kuipers,B.和Savarese,S.(2011年)。通过属性识别人类行为。2011年IEEE计算机视觉和模式识别会议记录(第3337-3344页)。华盛顿特区:IEEE计算机协会。
[56] Lo Gerfo,L.、Rosasco,L.,Odone,F.、De Vito,E.和Verri,A.(2008)。监督学习的谱算法。神经计算,20(7),1873-1897·Zbl 1147.68643号
[57] 马奥尼,M.M.W.(2011)。矩阵和数据的随机算法。机器学习的基础和趋势,3(2),123-224·Zbl 1232.68173号
[58] Martin,C.D.和Van Loan,C.F.(2006)。改变了Kronecker产品系统。SIAM矩阵分析与应用杂志,29(1),184-198·Zbl 1141.65021号
[59] Mazumder,R.、Hastie,T.和Tibshirani,R.(2010年)。用于学习大型不完备矩阵的谱正则化算法。机器学习研究杂志,112287-2322·Zbl 1242.68237号
[60] Menon,A.和Elkan,C.(2010年)。具有潜在特征的二进预测对数线性模型。在第十届IEEE国际数据挖掘会议论文集(第364-373页)。新泽西州皮斯卡塔韦:IEEE。
[61] Menon,A.和Elkan,C.(2011年)。通过矩阵分解进行链接预测。数据库中的机器学习和知识发现,6912,437-452。
[62] Mikolov,T.、Chen,K.、Corrado,G.和Dean,J.(2013)。向量空间中单词表示的有效估计。CoRR,abs/1301.3781。
[63] Nam,J.、Loza Mencía,E.和Fürnkranz,J.(2016)。全方位文本:联合学习文档、标签和单词表示。第三十届AAAI人工智能会议记录(第1948-1954页)。加利福尼亚州帕洛阿尔托:AAAI出版社。
[64] Oyama,S.和Manning,C.(2004)。使用跨示例的特征连词来学习成对分类器。计算机科学课堂讲稿:第3201卷。《欧洲数据库机器学习和知识发现会议记录》(第322-333页)。柏林:Springer-Verlag·Zbl 1132.68581号
[65] Pahikkala,T.、Airola,A.、Stock,M.、De Baets,B.和Waegeman,W.(2013年)。用于关系数据条件排序的高效正则化最小二乘算法。机器学习,93(2-3),321-356·Zbl 1300.68045号
[66] Pahikkala,T.、Stock,M.、Airola,A.、Aittokalio,T.,De Baets,B.和Waegeman,W.(2014)。解决二进预测中完全和几乎完全冷启动问题的两步学习方法。计算机科学讲义:第8725卷(第517-532页)。柏林:斯普林格,
[67] Pahikkala,T.、Waegeman,W.、Tsivtsivadze,E.、Salakoski,T.和De Baets,B.(2010年)。使用核方法学习不及物互惠关系。欧洲运筹学杂志,206(3),676-685·Zbl 1188.68234号
[68] Palatucci,M.、Hinton,G.、Pomerleau,D.和Mitchell,T.M.(2009)。使用语义输出代码进行零炮学习。Y.Bengio、D.Schuurmans、C.K.I.Williams和A.Culotta(编辑),《神经信息处理系统的进展》,22(第1410-1418页)。马萨诸塞州剑桥:麻省理工学院出版社。
[69] Park,S.-T.,&Chu,W.(2009年)。冷启动推荐的成对偏好回归。《第三届ACM推荐系统会议记录》(第21-28页)。纽约:ACM。
[70] Park,Y.和Marcotte,E.M.(2012年)。对输入计算预测评估方案中的缺陷。自然方法,9(12),1134-1136,
[71] Raymond,R.和Kashima,H.(2010年)。用于静态和动态图上的半监督链路预测的快速且可扩展的算法。J.L.Balcázar、F.Bonchi、A.Gionis和M.Sebag(编辑),《计算机科学讲义:第6323卷》。欧洲数据库机器学习和知识发现会议(第131-147页)。柏林:斯普林格,
[72] Rendle,S.(2010)。保理机。《IEEE数据挖掘国际会议论文集》(第995-1000页)。新泽西州皮斯卡塔韦:IEEE。
[73] Rifkin,R.和Lippert,R.(2007)。价值正则化与芬切尔对偶。机器学习研究杂志,8,441-479·Zbl 1222.49052号
[74] Romera--Paredes,B.和Torr,P.(2015)。一种令人尴尬的简单零快照学习方法。《第32届国际机器学习大会论文集》(第37卷,第2152-2161页)。纽约:ACM。
[75] Schrynemackers,M.、Küffner,R.和Geurts,P.(2013)。生物网络推理监督方法验证的协议和措施。遗传学前沿,4262,
[76] Schrynemackers,M.、Wehenkel,L.、Babu,M.和Geurts,P.(2015)。利用树对进行监督生物网络推理。分子生物系统,11(8),2116-2125,
[77] Shan,H.和Banerjee,A.(2010年)。协作过滤的广义概率矩阵分解。G.I.Webb,B.Liu,C.Zhang,D.Gunopulos,&X.Wu(编辑),第十届IEEE数据挖掘国际会议(第1025-1030页)。华盛顿特区:IEEE计算机协会,
[78] Shen,J.,Zhang,J.、Luo,X.、Zhu,W.、Yu,K.、Chen,K.…Jiang,H.(2007)。仅基于序列信息预测蛋白质相互作用。《美国国家科学院院刊》,104(11),4337-4341,
[79] Socher,R.、Ganjoo,M.、Sridhar,H.、Bastani,O.、Manning,C.D.和Ng,A.Y.(2013)。通过交叉模式传输进行零炮学习。CoRR,abs/1301.3666。
[80] Steffen,R.(2012)。带有libFM的分解机。ACM智能系统与技术汇刊,3(3),1-22,
[81] Steinwart,I.(2002)。关于核对支持向量机一致性的影响。机器学习研究杂志,2,67-93·Zbl 1009.68143号
[82] Stekhoven,D.和Bühlmann,P.(2012)。MissForest——混合类型数据的非参数缺失值插补。生物信息学,28(2001),1-7。
[83] Stock,M.(2017)。成对学习的精确有效算法。博士学位。,根特大学。
[84] Stock,M.、De Baets,B.和Waegeman,W.(2017年)。一种精确的两两预测迭代算法。《第二十六届比荷卢联盟机器学习会议记录》(第98-101页)。埃因霍温:埃因霍芬理工大学。
[85] Stock,M.、Pahikkala,T.、Airola,A.、Waegeman,W.和De Baets,B.(2018年)。监督网络推理中遗漏交叉验证的代数捷径。提交出版的手稿。https://doi.org/10.1101/24232。
[86] Stock,M.、Poisot,T.、Waegeman,W.和De Baets,B.(2017年)。线性滤波揭示了物种相互作用数据中的假阴性。科学报告,7(45908),1-8。
[87] Su,X.,&Khoshgoftaar,T.M.(2009)。协作过滤技术综述。《人工智能进展》,2009年,第4条,
[88] Takács,G.、Pilászy,I.、Németh,B.和Tikk,D.(2008)。netflix prize问题的矩阵分解和基于邻居的算法。《2008年ACM推荐系统会议记录》(第267-274页),纽约:ACM出版社,
[89] van Laarhoven,T.、Nabuurs,S.B.和Marchiori,E.(2011年)。用于预测药物-靶点相互作用的高斯相互作用轮廓核。生物信息学,27(21),3036-3043,
[90] Van Loan,C.F.(2000)。无处不在的克罗内克产品。计算与应用数学杂志,123(1-2),85-100·Zbl 0966.65039号
[91] Vert,J.-P.(2008)。利用监督机器学习方法重建生物网络。H.M.Lodhi和S.H.Muggleton(编辑),《计算系统生物学的要素》(第165-188页)。纽约:Wiley。
[92] Vert,J.-P.,Qiu,J.,&Noble,W.S.(2007年)。一种新的基于支持向量机的生物网络对核推理方法。BMC生物信息学,8(S-10),1-10。
[93] Vert,J.-P.和Yamanishi,Y.(2005年)。监督图推理。L.K.Saul、Y.Weiss和L.Bottou(编辑),《神经信息处理系统的进展》,17(第1433-1440页)。马萨诸塞州剑桥:麻省理工学院出版社。
[94] Volkovs,M.和Zemel,R.S.(2012年)。具有17个参数的协作排名。F.Pereira,C.J.C.Burges,L.Bottou,K.Q.Weinberger(编辑),《神经信息处理系统的进展》,25(第2303-2311页)。纽约州红钩市:Curran。
[95] Waegeman,W.、Dembczynski,K.和Hüllermier,E.(2018年)。多目标预测:对问题和方法的统一看法。提交出版的手稿。
[96] Waegeman,W.、Pahikkala,T.、Airola,A.、Salakoski,T.,Stock,M.和De Baets,B.(2012)。一个基于内核的框架,用于从数据中学习分级关系。IEEE模糊系统汇刊,20(6),1090-1101,
[97] Wahba,G.(1990年)。观测数据的样条模型。费城:SIAM·Zbl 0813.62001号
[98] Xian,Y.、Akata,Z.、Sharma,G.、Nguyen,Q.N.、Hein,M.和Schiele,B.(2016)。零快照分类的潜在嵌入。在IEEE计算机视觉和模式识别会议上(第69-77页)。新泽西州皮斯卡塔韦:IEEE。
[99] Zachariah,D.和Sundin,M.(2012年)。低秩矩阵重建的交替最小二乘法。IEEE信号处理信件,19(4),231-234,
[100] Zaki,N.、Lazarova-Molnar,S.、El-Hajj,W.和Campbell,P.(2009年)。基于成对相似性的蛋白质相互作用。BMC生物信息学,10(150),1-12。
[101] Zhou,J.、Chen,J.和Ye,J.(2011)。基于交替结构优化的聚类多任务学习。J.Shawe-Taylor、R.S.Zemel、P.L.Bartlett、F.Pereira和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,24。纽约州红钩市:Curran。
[102] Zhou,T.、Shan,H.、Banerjee,A.和Sapiro,G.(2012)。核概率矩阵分解:利用图和边信息。第十二届SIAM国际数据挖掘会议记录(第403-414页)。费城:SIAM。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。