×

张量聚类的近似算法。 (英语) Zbl 1262.68151号

Gavaldá,Ricard(编辑)等,算法学习理论。第20届国际会议,ALT 2009,葡萄牙波尔图,2009年10月3-5日。诉讼程序。柏林:施普林格出版社(ISBN 978-3-642-04413-7/pbk)。计算机科学课程讲稿5809。人工智能课堂讲稿,368-383(2009)。
摘要:我们提出了张量聚类的第一个(据我们所知)近似算法,这是对基本一维聚类的有力推广。张量在处理复杂异构数据的现代应用中越来越常见,而对其进行聚类是数据分析和模式发现的基本工具。与一维相似,常用的张量聚类公式需要优化。但是,与一维情况不同,似乎没有已知的近似算法。我们解决了这种不平衡,并基于最近的联合聚类工作,推导出一种具有近似保证的张量聚类算法,允许度量和偏差(例如Bregman)作为目标函数。因此,我们通过以下方式回答了两个开放性问题A.阿纳格诺斯托普洛斯等人[“联合聚类的近似算法”,载于:第27届ACM数据库系统原理研讨会论文集,PODS 2008。纽约州纽约市:ACM。201–210 (2008;doi:10.1145/1376916.1376945)]. 我们的分析得出了一个与数据大小无关的常数近似因子;一个最坏的例子表明,对于欧几里德共聚类来说,这个因子是紧的。然而,从经验上看,近似因子是保守的,因此我们的方法也可以在实践中使用。
关于整个系列,请参见[Zbl 1176.68006号].

MSC公司:

68T05年 人工智能中的学习和自适应系统
68周25 近似算法

软件:

k平均值++
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Banerjee,A.,Basu,S.,Merugu,S.:关系图上的多向聚类。在:SIAM Conf.数据挖掘,SDM(2007)·doi:10.1137/1.9781611972771.14
[2] Shashua,A.,Zass,R.,Hazan,T.:使用超对称非负张量因子分解的多向聚类。收录:Leonardis,A.,Bischof,H.,Pinz,A.(编辑)ECCV 2006。LNCS,第3954卷,第595-608页。斯普林格,海德堡(2006)·doi:10.1007/11744085_46
[3] Dhillon,I.S.,Mallela,S.,Modha,D.S.:信息论联合聚类。摘自:KDD,第89–98页(2003)·doi:10.1145/956750.956764
[4] Banerjee,A.、Dhillon,I.S.、Ghosh,J.、Merugu,S.、Modha,D.S.:Bregman协聚类和矩阵近似的广义最大熵方法。JMLR 81919-1986(2007)·兹比尔1222.68139
[5] Ackermann,M.R.,Blömer,J.:Bregman发散的核集和近似聚类。收录:ACM-SIAM Symp。在光盘上。藻类。,SODA(2009)·doi:10.1137/1.9781611973068.118
[6] Ackermann,M.R.,Blömer,J.,Sohler,C.:公制和非公制距离度量的聚类。收录:ACM-SIAM Symp。在光盘上。藻类。(SODA)(2008年4月)·Zbl 1192.68633号
[7] Arthur,D.,Vassilvitskii,S.:k-means++:谨慎播种的优势。收录:ACM-SIAM Symp。关于Discete算法(SODA),第1027–1035页(2007年)·Zbl 1302.68273号
[8] Nock,R.,Luosto,P.,Kivinen,J.:具有近似保证的混合Bregman聚类。收录:Daelemans,W.、Goethals,B.、Morik,K.(编辑)ECML/PKDD 2008,第二部分。LNCS(LNAI),第5212卷,第154-169页。斯普林格,海德堡(2008)·doi:10.1007/978-3-540-87481-2_11
[9] Sra,S.、Jegelka,S.和Banerjee,A.:Bregman聚类、联合聚类和张量聚类的近似算法。技术报告177,生物控制论MPI(2008)·Zbl 1262.68151号
[10] Ben-David,S.:一个统计聚类框架,具有K-median和K-means聚类的常数时间近似算法。学习。 66(2-3), 243–257 (2007) ·Zbl 1470.62080号 ·doi:10.1007/s10994-006-0587-3
[11] Puolamäki,K.,Hanhijärvi,S.,Garriga,G.C.:双聚类的近似比率。Inf.过程。信件108(2),45–49(2008)·兹比尔1191.68873 ·doi:10.1016/j.ipl.2008.03.013
[12] Anagostopoulos,A.,Dasgupta,A.,Kumar,R.:联合聚类的近似算法。摘自:Symp。数据库系统原理,PODS(2008)·Zbl 1297.68256号 ·doi:10.1145/1376916.1376945
[13] 查,H.,丁,C.,李,T.,朱,S.:使用矩阵和张量的数据挖掘研讨会。In:KDD(2008)
[14] Hasan,M.,Velazquez-Amendariz,E.,Pellacini,F.,Bala,K.:渲染多灯光动画的张量聚类。欧洲图形交响乐团。关于渲染,第27卷(2008)
[15] Kolda,T.G.,Bader,B.W.:张量分解与应用。SIAM评论51(3)(将于2009年发布)·Zbl 1173.65029号 ·doi:10.1137/07070111X
[16] Hartigan,J.A.:《数据矩阵的直接聚类》,美国统计协会期刊,67(337),123–129(1972)·网址:10.1080/01621459.1972.10481214
[17] Cheng,Y.,Church,G.:表达数据的双聚类。In:程序。ISMB,第93-103页。AAAI出版社,门罗公园(2000)
[18] Dhillon,I.S.:使用二部谱图划分对文档和单词进行共聚类。收录于:KDD,第269-274页(2001年)·doi:10.1145/502512.502550
[19] Bekkerman,R.、El-Yaniv,R.和McCallum,A.:通过成对交互的多向分布聚类。In:ICML(2005)·数字对象标识代码:10.1145/102351.1102357
[20] Agarwal,S.,Lim,J.,Zelnik-Manor,L.,Perona,P.,Kriegman,D.,Belongie,S.:超越成对聚类。收录:IEEE CVPR(2005)·doi:10.1109/CVPR.2005.89
[21] Govindu,V.M.:用于几何分组和分割的张量分解。In:IEEE CVPR(2005)·doi:10.1109/CVPR.2005.50
[22] Schölkopf,B.,Smola,A.:用内核学习。麻省理工学院出版社,剑桥(2001)·Zbl 1019.68094号
[23] Hein,M.,Bousquet,O.:希尔伯特度量和概率测度的正定核。In:AISTATS(2005)
[24] Censor,Y.,Zenios,S.A.:并行优化:理论、算法和应用。牛津大学出版社,牛津(1997)·Zbl 0945.90064号
[25] Banerjee,A.、Merugu,S.、Dhillon,I.S.、Ghosh,J.:具有Bregman分歧的聚类。JMLR 6(6),1705–1749(2005)·Zbl 1190.62117号
[26] de Silva,V.,Lim,L.H.:张量秩和最佳低秩近似问题的病态性。SIAM J.矩阵分析与申请。 30(3), 1084–1127 (2008) ·Zbl 1167.14038号 ·数字对象标识码:10.1137/06066518X
[27] Jegelka,S.、Sra,S.和Banerjee,A.:Bregman联合聚类和张量聚类的近似算法(2009);arX输入:cs。DS/0812.0389v3·Zbl 1262.68151号
[28] Chaudhuri,K.,McGregor,A.:在信息理论聚类中发现度量结构。收录:学习理论会议,COLT(2008年7月)
[29] Cho,H.,Dhillon,I.S.,Guan,Y.,Sra,S.:基因表达数据的基于最小平方残差的共聚类。在:传感和诊断模块,114–125(2004)
[30] Kluger,Y.,Basri,R.,Chang,J.T.:微阵列数据的光谱双聚类:共聚类基因和条件。基因组研究13,703–716(2003)·doi:10.1101/gr.648603
[31] Cho,H.,Dhillon,I.:使用最小平方和残差共聚类法对人类癌症微阵列进行共聚类。IEEE/ACM Tran。计算。生物信息学。 5(3), 385–400 (2008) ·doi:10.1109/TCBB.2007.70268
[32] Baranzini,S.E.等人:使用监督计算方法基于转录的IFN{\(β\)}反应预测。《公共科学图书馆·生物学》3(1)(2004)·doi:10.1371/journal.pbio.0030002
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。