×

用于关系数据条件排序的高效正则化最小二乘算法。 (英语) Zbl 1300.68045号

摘要:在生物信息学、信息检索和社会网络分析等领域,人们可以发现学习任务的目标是根据特定目标对象推断对象的等级。我们提出了一个通用的内核框架,用于从各种类型的关系数据中学习条件排名,其中排名可以基于看不见的数据对象。我们通过优化平方回归和排序损失函数,提出了有效的条件排序算法。我们从理论上证明,排名损失的学习可能比回归损失的学习更容易泛化。此外,我们证明了在学习的模型中可以有效地增强关系的对称性或互易性。对合成数据和真实数据的实验表明,所提出的方法在预测能力和计算效率方面具有最先进的性能。此外,我们还实证地表明,引入对称性或互易性可以提高泛化性能。

MSC公司:

68T05型 人工智能中的学习和自适应系统

软件:

SVM结构
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abadir,M.和Magnus,J.(2005)。矩阵代数。剑桥:剑桥大学出版社·Zbl 1084.15001号 ·doi:10.1017/CBO9780511810800
[2] 阿加瓦尔,S。;Cohen,W.W.(编辑);Moore,A.(编辑),图表数据排名,第148期,25-32(2006),纽约
[3] Airola,A.、Pahikkala,T.和Salakoski,T.(2011年A)。关于核矩阵分解Nyström近似的学习和交叉验证。《神经处理快报》,33(1),17-30·doi:10.1007/s11063-010-9159-4
[4] Airola,A.、Pahikkala,T.和Salakoski,T.(2011年b)。使用红黑树在线性时间内训练线性排序SVM。模式识别字母,32(9),1328-1336·doi:10.1016/j.patrec.2011.03.014
[5] 巴西利科,J。;霍夫曼,T。;Brodley,C.E.(编辑),《统一协作和基于内容的过滤》,第69期(2004年),纽约
[6] Ben-Hur,A.和Noble,W.(2005年)。预测蛋白质相互作用的核方法。生物信息学,21(1),38-46·doi:10.1093/bioinformatics/bti1016
[7] Brunner,C.、Fischer,A.、Luig,K.和Thies,T.(2012年)。成对支持向量机及其在大规模问题中的应用。机器学习研究杂志,13,2279-2292·Zbl 1433.68329号
[8] Caetano,T.、McAuley,J.、Cheng,L.、Le,Q.和Smola,A.(2009)。学习图匹配。IEEE模式分析和机器智能汇刊,31(6),1048-1058·doi:10.1109/TPAMI.2009.28
[9] 曹毅。;徐,J。;Liu,T.Y。;李,H。;黄,Y。;尊敬的H.W。;Efthimiadis,E.N.(编辑);Dumais,S.T.(编辑);霍金,D.(编辑);Järvelin,K.(编辑),《将排序支持向量机应用于文档检索》,186-193(2006),纽约·doi:10.145/1148170.1148205
[10] Chapelle,O.和Keerthi,S.S.(2010年)。使用SVM进行排名的高效算法。信息检索,13(3),201-215·doi:10.1007/s10791-009-9109-9
[11] De Baets,B.、De Meyer,H.、De Schuymer,B.和Jenei,S.(2006年)。互惠关系及物性的循环评估。《社会选择与福利》,26,217-238·兹比尔1158.91338 ·文件编号:10.1007/s00355-006-0093-3
[12] De Vito,E.、Rosasco,L.、Caponetto,A.、De Giovannini,U.和Odone,F.(2005)。从例子中学习是一个反问题。机器学习研究杂志,6883-904·Zbl 1222.68180号
[13] Engl,H.、Hanke,M.和Neubauer,A.(1996年)。数学及其应用:第375卷。反问题的正则化。多德雷赫特:克鲁沃学院·Zbl 0859.65054号 ·doi:10.1007/978-94-009-1740-8
[14] Evgeniou,T.、Pontil,M.和Poggio,T.(2000)。正则化网络和支持向量机。计算数学进展,13(1),1-50·Zbl 0939.68098号 ·doi:10.1023/A:1018946025316
[15] Fisher,L.(2008)。石头,纸,剪刀:日常生活中的博弈论。纽约:基础图书。
[16] Freund,Y.、Yier,R.、Schapire,R.和Singer,Y.(2003)。用于组合偏好的有效增强算法。机器学习研究杂志,4933-969·Zbl 1098.68652号
[17] Fürnkranz,J。;Hüllermier,E。;南卡罗来纳州范德罗伊。;Buntine,W.L.(编辑);Grobelnik,M.(编辑);Mladenic,D.(编辑);Shawe-Taylor,J.(编辑),多部分排名的二进制分解方法,第5781、359-374号(2009),柏林·doi:10.1007/978-3-642-04180-841
[18] Geerts,F。;Mannila,H。;Terzi,E。;Nascimento,M.A.(编辑);奥兹苏,M.T.(编辑);Kossmann,D.(编辑);Miller,R.J.(编辑);布莱克利,J.A.(编辑);Schiefer,K.B.(编辑),基于关系链接的排名,552-563(2004),圣马特奥
[19] Geurts,P.、Touleimat,N.、Dutreix,M.和d'Alché-Buc,F.(2007年)。用输出核树推断生物网络。BMC生物信息学,8(2),S4·doi:10.1186/1471-2105-8-S2-S4
[20] Grangier,D.和Bengio,S.(2008年)。一种基于鉴别核的方法,用于对文本查询中的图像进行排序。IEEE模式分析和机器智能汇刊,30(8),1371-1384·doi:10.1109/TPAMI.2007.70791
[21] Henderson,H.V.和Searle,S.R.(1981年)。关于求矩阵和的逆。SIAM评论,23(1),53-60·Zbl 0451.15005号 ·数字对象标识代码:10.1137/1023004
[22] Horn,R.A.和Johnson,C.R.(1985)。矩阵分析。剑桥:剑桥大学出版社·Zbl 0576.15001号 ·doi:10.1017/CBO9780511810817
[23] Horn,R.A.和Johnson,C.R.(1991)。矩阵分析主题。纽约:剑桥大学出版社·Zbl 0729.15001号 ·doi:10.1017/CBO9780511840371
[24] Hüllermier,E.、Fürnkranz,J.、Cheng,W.和Brinker,K.(2008)。通过学习成对偏好进行排名。人工智能,172(16-17),1897-1916·Zbl 1184.68403号 ·doi:10.1016/j.artint.2008.08.002
[25] Joachims,T。;Hand,D.(编辑);Keim,D.(编辑);Ng,R.(编辑),使用点击数据优化搜索引擎,133-142(2002),纽约
[26] Joachims,T。;Eliassi-Rad,T.(编辑);Ungar,L.H.(编辑);Craven,M.(编辑);Gunopulos,D.(编辑),《在线性时间内训练线性SVM》,217-226(2006),纽约·数字对象标识代码:10.1145/1150402.1150429
[27] 鹿岛,H。;加藤,T。;Yamanishi,Y。;杉山,M。;Tsuda,K.,《链路传播:用于链路预测的快速半监督学习算法》,1099-1110(2009),费城
[28] 鹿岛,H。;Oyama,S。;Yamanishi,Y。;Tsuda,K。;Theeramunkong,T.(编辑);Kijsirikul,B.(编辑);Cercone,N.(编辑);Ho,T.B.(编辑),《论成对核:一种有效的替代和泛化分析》,第5476期,1030-1037页(2009年),柏林·doi:10.1007/978-3642-01307-2_110
[29] Kersting,K。;徐,Z。;Buntine,W.L.(编辑);Grobelnik,M.(编辑);Mladenic,D.(编辑);Shawe-Taylor,J.(编辑),《隐藏共同原因关系的学习偏好》,第5781、676-691号(2009年),柏林·doi:10.1007/978-3642-04180-861
[30] Kimeldorf,G.和Wahba,G.(1971)。关于切比雪夫样条函数的一些结果。数学分析与应用杂志,33(1),82-95·Zbl 0201.39702号 ·doi:10.1016/0022-247X(71)90184-3
[31] 科特洛夫斯基,W。;Dembczynski,K。;Hüllermier,E。;Getoor,L.(编辑);Scheffer,T.(编辑),通过最小化单变量损失的二元排名,1113-1120(2011),纽约
[32] Liu,T.Y.(2009)。学习为信息检索进行排名。信息检索的基础和趋势,3(3),225-331·doi:10.1561/1500000016
[33] 卢斯,R。;Suppes,P.,《偏好、效用和主观概率》,249-410(1965),纽约
[34] MacLeod,N.、Benfield,M.和Culverhouse,P.(2010年)。是时候自动识别了。《自然》,467,154-155·doi:10.1038/467154a
[35] Martin,C.D.和Van Loan,C.F.(2006)。改变了Kronecker产品系统。SIAM矩阵分析与应用杂志,29(1),184-198·Zbl 1141.65021号 ·数字对象标识代码:10.1137/050631707
[36] Menon,A.和Elkan,C.(2010年)。预测二元数据的标签。数据挖掘和知识发现,21(2),327-343·doi:10.1007/s10618-010-0189-3
[37] Ng,M.K.P。;李,X。;Ye,Y。;Apté,C.(编辑);Ghosh,J.(编辑);Smyth,P.(编辑),《Multirank:多关系数据中对象和关系的联合排名》,1217-1225(2011),纽约
[38] Oyama,S。;曼宁,C。;Boulicaut,J.F.(编辑);Esposito,F.(编辑);Giannotti,F.(编辑);Pedreschi,D.(编辑),《跨示例使用特征连词学习成对分类器》,第3201号,第322-333页(2004年),柏林·Zbl 1132.68581号
[39] Pahikkala,T.、Tsivtsivadze,E.、Airola,A.、Järvinen,J.和Boberg,J.(2009)。一种从偏好图中学习排序的有效算法。机器学习,75(1),129-165·Zbl 1470.68155号 ·doi:10.1007/s10994-008-5097-z
[40] Pahikkala,T。;Waegeman,W。;艾罗拉,A。;Salakoski,T。;贝茨,B。;Balcázar,J.L.(编辑);Bonchi,F.(编辑);Gionis,A.(编辑);Sebag,M.(编辑),《关系数据的条件排名》,第6322、499-514号(2010年),柏林·doi:10.1007/978-3-642-15883-4_32
[41] Pahikkala,T.、Waegeman,W.、Tsivtsivadze,E.、Salakoski,T.和De Baets,B.(2010年B)。用核方法学习不及物互惠关系。《欧洲运筹学杂志》,206(3),676-685·Zbl 1188.68234号 ·doi:10.1016/j.ejor.2010.03.018
[42] Park,Y.和Marcotte,E.M.(2012年)。对输入计算预测评估方案中的缺陷。《自然方法》,9(12),1134-1136·doi:10.1038/nmeth.2259
[43] 秦,T。;Liu,T.Y。;张晓东。;Wang,D.S。;Xiong,W.Y。;李,H。;Huai,J.(编辑);Chen,R.(编辑);Hon,H.W.(编辑);Liu,Y.(编辑);Ma,W.Y.(编辑);Tomkins,A.(编辑);Zhang,X.(编辑),学习对关系对象进行排序及其在网络搜索中的应用,407-416(2008),纽约·doi:10.1145/1367497.1367553
[44] Raymond,R。;鹿岛,H。;Balcázar,J.L.(编辑);Bonchi,F.(编辑);Gionis,A.(编辑);Sebag,M.(ed.),《静态和动态图上半监督链接预测的快速可扩展算法》,第6323号,第131-147页(2010年),柏林
[45] Rudin,W.(1991)。纯数学和应用数学国际系列:函数分析(第二版)。纽约:McGraw-Hill·Zbl 0867.46001号
[46] 桑德斯,C。;Gammerman,A。;沃夫克,V。;Shavlik,J.W.(编辑),双变量岭回归学习算法,515-521(1998),圣马特奥
[47] Shawe-Taylor,J.和Cristianini,N.(2004)。模式分析的核心方法。剑桥:剑桥大学出版社·Zbl 0994.68074号 ·doi:10.1017/CBO9780511809682
[48] Slabbinck,B.、Waegeman,W.、Dawyndt,P.、De Vos,P.和De Baets,B.(2010年)。从学习分类到系统发育学习:将16S rRNA基因数据整合到基于FAME的细菌分类中。BMC生物信息学,11(1),69·doi:10.186/1471-2105-11-69
[49] 北斯雷布罗。;Rennie,J.D.M。;Jaakkola,T.S。;Saul,L.K.(编辑);Weiss,Y.(编辑);Bottou,L.(编辑),最大边际矩阵分解,第17期,1433-1440(2005),剑桥
[50] Steinwart,I.(2002)。关于核对支持向量机一致性的影响。机器学习研究杂志,2,67-93·Zbl 1009.68143号
[51] Steinwart,I.和Christmann,A.(2008年)。信息科学与统计:支持向量机。纽约:斯普林格·Zbl 1203.68171号
[52] 库存,M。;Pahikkala,T。;艾罗拉,A。;Salakoski,T。;贝茨,B。;Waegeman,W.,《学习一元和二元关系:系统生物学中的三个案例研究》,74-84(2012)
[53] Suykens,J.、Van Gestel,T.、De Brabanter,J.,De Moor,B.和Vandewalle,J.(2002)。最小二乘支持向量机。新加坡:世界科学·Zbl 1017.93004号 ·doi:10.1142/9789812776655
[54] Tsochantaridis,Y.、Joachims,T.、Hofmann,T.和Altun,Y.(2005)。结构化和独立输出变量的大幅度方法。机器学习研究杂志,61453-1484·兹比尔1222.68321
[55] 范德沃斯特,H.A.(1992)。BI-CGSTAB:用于求解非对称线性系统的BI-CG的一种快速且平滑收敛的变体。SIAM科学与统计计算杂志,13(2),631-644·Zbl 0761.65023号 ·doi:10.1137/0913035
[56] van Laarhoven,T.、Nabuurs,S.B.和Marchiori,E.(2011年)。用于预测药物-靶点相互作用的高斯相互作用轮廓核。生物信息学,27(21),3036-3043·doi:10.1093/bioinformatics/btr500
[57] Van Loan,C.F.(2000)。无处不在的Kronecker产品。计算与应用数学杂志,123(1-2),85-100·Zbl 0966.65039号 ·doi:10.1016/S0377-0427(00)00393-9
[58] Varma,S.和Simon,R.(2006年)。使用交叉验证进行模型选择时的误差估计偏差。生物信息学,7(1),91。
[59] Vert,J.、Qiu,J.和Noble,W.S.(2007年)。一种新的基于支持向量机的生物网络对核推理方法。BMC生物信息学,8,S8·doi:10.1186/1471-2105-8-S10-S8
[60] Waegeman,W.、Pahikkala,T.、Airola,A.、Salakoski,T.,Stock,M.和De Baets,B.(2012)。一个基于内核的框架,用于从数据中学习分级关系。IEEE模糊系统汇刊,20(6),1090-1101·doi:10.1109/TFUZZ.2012.2194151
[61] Weston,J.、Eliseeff,A.、Zhou,D.、Leslie,C.和Noble,W.S.(2004)。蛋白质排名:蛋白质相似性网络中从局部到全局的结构。美国国家科学院学报,101(17),6559-6563·doi:10.1073/pnas.0308067101
[62] 韦斯顿,J。;Schölkopf,B。;O.布斯克。;Mann,T。;诺布尔,W。;Bakir,G.(编辑);Hofmann,T.(编辑);Schölkopf,B.(编辑);Smola,A.(编辑);Taskar,B.(编辑);Vishwanathan,S.(编辑),联合内核映射,67-83(2007),剑桥
[63] 夏,F。;Liu,T.Y。;Wang,J。;张伟。;李,H。;Cohen,W.W.(编辑);McCallum,A.(编辑);Roweis,S.T.(编辑),Listwise方法学习排名:理论和算法,编号3071192-1199(2008),纽约·数字对象标识代码:10.1145/1390156.1390306
[64] 徐,Z。;Kersting,K。;Joachims,T。;Balcázar,J.L.(编辑);Bonchi,F.(编辑);Gionis,A.(编辑);Sebag,M.(编辑),使用高斯过程快速主动探索基于链接的偏好学习,第6323号,499-514(2010),柏林·doi:10.1007/978-3-642-15939-8_32
[65] Yamanishi,Y.、Vert,J.P.和Kanehisa,M.(2004)。从多基因组数据推断蛋白质网络:一种有监督的方法。生物信息学,20(1),i363-i370·doi:10.1093/bioinformatics/bth910
[66] Yang,Y。;北班萨尔。;Dakka,W。;伊佩罗提斯,P。;北卡罗来纳州库达斯。;Papadias,D。;Baeza-Yates,R.A.(编辑);Boldi,P.(编辑);Ribeiro-Neto,B.A.(编辑);Cambazoglu,B.B.(编辑),文件查询,34-43(2009),纽约·数字对象标识代码:10.1145/1498759.1498806
[67] Yue,Y。;Finley,T。;拉德林斯基,F。;Joachims,T。;Kraaij,W.(编辑);Vries,A.P.(编辑);Clarke,C.L.A.(编辑);Fuhr,N.(编辑);Kando,N.(编辑),用于优化平均精度的支持向量方法,271-278(2007),纽约·数字对象标识代码:10.1145/1277741.1277790
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。