×

基于平方损失互信息的信息最大化聚类。 (英语) Zbl 1418.62257号

摘要:信息最大化聚类以无监督的方式学习概率分类器,从而最大化特征向量和聚类分配之间的互信息。这种方法的一个显著优点是它只涉及模型参数的连续优化,这比离散优化集群分配要简单得多。然而,现有的方法仍然涉及非凸优化问题,因此在实践中寻找一个好的局部最优解并不容易。在这封信中,我们提出了一种基于互信息平方损失变量的替代信息最大化聚类方法。这种新方法通过核特征值分解以计算效率高的方式解析地给出了聚类解。此外,我们还提供了一个实用的模型选择过程,使我们能够客观地优化内核函数中包含的调整参数。通过实验,我们证明了该方法的有效性。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统

软件:

衍射PRMLT公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agakov,F.和Barber,D.(2006年)。核化infomax聚类。Y.Weiss,B.Schölkopf,&J.Platt(编辑),《神经信息处理系统进展》,18(第17-24页)。马萨诸塞州剑桥:麻省理工学院出版社。
[2] Ali,S.M.和Silvey,S.D.(1966年)。一种分布与另一种分布的散度系数的一般类别。英国皇家统计学会杂志,B辑,28131-142·Zbl 0203.19902号
[3] Aloise,D.、Deshpande,A.、Hansen,P.和Popat,P.(2009年)。欧几里德平方和聚类的NP-hardness。机器学习,75,245-249·Zbl 1378.68047号
[4] Amari,S.(1967年)。自适应模式分类器理论。IEEE电子计算机汇刊,EC-16,299-307·Zbl 0189.50101号
[5] Andrieu,C.、de Freitas,N.、Doucet,A.和Jordan,M.I.(2003年)。机器学习MCMC简介。机器学习,50,5-43·Zbl 1033.68081号
[6] Antoniak,C.(1974)。Dirichlet过程与贝叶斯非参数问题应用的混合。统计年鉴,21152-1174·Zbl 0335.60034号
[7] Aronszajn,N.(1950)。再生核理论。美国数学学会学报,68,337-404·Zbl 0037.20701号
[8] Attias,H.(2000)。图形模型的变分Baysian框架。S.A.Solla、T.K.Leen和K.-R.Hüller(编辑),《神经信息处理系统的进展》,12(第209-215页)。马萨诸塞州剑桥:麻省理工学院出版社。
[9] 巴赫·F·和哈查伊·Z·(2008)。DIFFRAC:一种区分性和灵活的聚类框架。J.C.Platt、D.Koller、Y.Singer和S.Roweis(编辑),《神经信息处理系统的进展》,20(第49-56页)。马萨诸塞州剑桥:麻省理工学院出版社。
[10] 巴赫,F.和乔丹,M.I.(2006)。学习频谱聚类,并应用于语音分离。机器学习研究杂志,7,1963-2001·兹比尔1222.68138
[11] Bao,L.和Intille,S.S.(2004)。从用户通告的加速数据中识别活动。第二届IEEE普及计算国际会议论文集(第1-17页)。新泽西州皮斯卡塔韦:IEEE,
[12] Bharatula,N.B.、Stager,M.、Lukowicz,P.和Troster,G.(2005年)。多传感器上下文识别中设计选择的实证研究。《应用可穿戴计算国际论坛论文集》(第79-93页)。柏林:VDE Verlag。
[13] Bishop,C.M.(2006年)。模式识别和机器学习。纽约:斯普林格·Zbl 1107.68072号
[14] 布莱,D.M.和乔丹,M.I.(2006)。Dirichlet过程混合物的变分推理。贝叶斯分析,121-144·Zbl 1331.62259号
[15] Carreira-Perpiñán,M.A.(2006年)。高斯模糊均值漂移快速非参数聚类。第23届国际机器学习会议记录(ICML2006)(第153-160页)。威斯康星州麦迪逊:无所不在,
[16] Carreira-Perpiñán,M.A.(2007年)。高斯均值漂移是一种EM算法。IEEE模式分析和机器智能汇刊,29,767-776,
[17] Cheng,Y.(1995)。均值转移、模式搜索和聚类。IEEE模式分析和机器智能汇刊,17290-799,
[18] Chung,F.R.K.(1997年)。谱图理论。普罗维登斯,RI:美国数学学会·Zbl 0867.05046号
[19] Cour,T.、Gogin,N.和Shi,J.(2005)。学习频谱图分割。第十届人工智能与统计国际研讨会论文集(第65-72页)。人工智能与统计学会。
[20] Cover,T.M.和Thomas,J.A.(2006年)。信息论要素(第2版)。新泽西州霍博肯:威利·Zbl 1140.94001号
[21] Csiszár,I.(1967年)。概率分布差异和间接观测的信息型度量。匈牙利科学研究所,229-318·Zbl 0157.25802号
[22] Dempster,A.P.、Laird,N.M.和Rubin,D.B.(1977年)。通过EM算法从不完整数据中获得最大似然。英国皇家统计学会杂志,B辑,39,1-38·Zbl 0364.62022号
[23] Dhillon,I.S.、Guan,Y.和Kulis,B.(2004)。核k均值、谱聚类和归一化切割。第十届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第551-556页)。纽约:ACM出版社。
[24] 丁,C.,和何,X.(2004)。K-表示通过主成分分析进行聚类。在《第二十一届国际机器学习大会论文集》(ICML2004)(第225-232页)。纽约:ACM出版社,
[25] Duda,R.O.、Hart,P.E.和Stork,D.G.(2001)。模式分类(第二版)。纽约:Wiley·Zbl 0968.68140号
[26] Duffy,N.和Collins,M.(2002年)。自然语言的卷积核。T.G.Dietterich、S.Becker和Z.Ghahramani(编辑),《神经信息处理系统的进展》,14(第625-632页)。马萨诸塞州剑桥:麻省理工学院出版社。
[27] Faivishevsky,L.和Goldberger,J.(2010年)。一种非参数信息论聚类算法。第27届国际机器学习会议记录(ICML2010)(第351-358页)。威斯康星州麦迪逊:无所不在。
[28] Ferguson,T.S.(1973)。一些非参数问题的贝叶斯分析。《统计年鉴》,1209-230·Zbl 0255.62037号
[29] Fukunaga,K.和Hostetler,L.D.(1975)。密度函数梯度的估计及其在模式识别中的应用。IEEE信息理论汇刊,21,32-40·Zbl 0297.62025号
[30] Gärtner,T.(2003)。对结构化数据内核的调查。SIGKDD勘探,5,S268-S275,
[31] Gärtner,T.、Flach,P.和Wrobel,S.(2003)。关于图核:硬度结果和有效的替代品。《第十六届计算学习理论年会论文集》(第129-143页)。纽约:斯普林格·Zbl 1274.68312号
[32] Ghahramani,Z.和Beal,M.J.(2000)。因子分析贝叶斯混合的变分推理。S.A.Solla、T.K.Leen和K.-R.Hüller(编辑),《神经信息处理系统的进展》,12(第449-455页)。马萨诸塞州剑桥:麻省理工学院出版社。
[33] Girolma,M.(2002)。特征空间中基于Mercer核的聚类。IEEE神经网络汇刊,13,780-784,
[34] Golub,G.H.,&Loan,C.F.V.(1989)。矩阵计算(第二版)。马里兰州巴尔的摩:约翰·霍普金斯大学出版社·Zbl 0733.65016号
[35] Gomes,R.、Krause,A.和Perona,P.(2010年)。基于正则化信息最大化的判别聚类。在J.Lafferty(编辑),《神经信息处理系统的进展》,23(第766-774页)。纽约州红钩市:Curran。
[36] Gretton,A.、Bousquet,O.、Smola,A.和Schölkopf,B.(2005)。使用Hilbert-Schmidt规范测量统计相关性。S.Jain、H.U.Simon和E.Tomita(编辑),《算法学习理论》(第63-77页)。柏林:Springer-Verlag·兹比尔1168.62354
[37] Hachiya,H.、Sugiyama,M.和Ueda,N.(2012年)。重要性加权最小二乘概率分类器用于协变量移位自适应,并应用于人类活动识别。神经计算,80,93-101,
[38] Härdle,W.、Müller,M.、Sperlich,S.和Werwatz,A.(2004)。非参数和半参数模型。柏林:斯普林格·Zbl 1059.62032号
[39] Horn,R.A.和Johnson,C.A.(1985年)。矩阵分析。剑桥:剑桥大学出版社·Zbl 0576.15001号
[40] Hubert,L.和Arabie,P.(1985)。比较分区。分类杂志,2193-218·Zbl 0587.62128号
[41] Joachims,T.(2002)。学习使用支持向量机对文本进行分类:方法、理论和算法。波士顿:克鲁沃,
[42] Jolliffe,I.T.(1986)。主成分分析。纽约:Springer-Verlag·Zbl 1011.62064号
[43] Kain,A.和Macon,M.W.(1988年)。用于文本到语音合成的光谱语音转换。1998年IEEE声学、语音和信号处理国际会议论文集(ICASSP1998)(第285-288页)。新泽西州皮斯卡塔韦:IEEE。
[44] Kashima,H.和Koyanagi,T.(2002年)。半结构化数据的内核。《第十九届国际机器学习会议论文集》(第291-298页)。旧金山:摩根考夫曼。
[45] Kashima,H.、Tsuda,K.和Inokuchi,A.(2003)。标记图之间的边缘化核。《第二十届机器学习国际会议论文集》(第321-328页)。旧金山:摩根考夫曼。
[46] Koltchinskii,V.(1998年)。一些近似积分算子的随机矩阵的谱投影的渐近性。D.Khoshnevisan、A.Kyprianov和R.Sidney(编辑),可能性进展(第191-227页)。纽约:斯普林格·Zbl 0905.60003号
[47] Koltchinskii,V.和Giné,E.(2000)。积分算子谱的随机矩阵近似。伯努利,6113-167·Zbl 0949.60078号
[48] Kondor,R.I.和Lafferty,J.(2002年)。图和其他离散输入空间上的扩散核。《第十九届机器学习国际会议论文集》(第315-322页)。旧金山:摩根考夫曼。
[49] Kozachenko,L.F.和Leonenko,N.N.(1987)。随机向量熵的样本估计。信息传输问题,23,95-101·Zbl 0633.62005号
[50] Kullback,S.和Leibler,R.A.(1951年)。关于信息和充分性。《数理统计年鉴》,22,79-86·Zbl 0042.38403号
[51] Kurihara,K.和Welling,M.(2009年)。贝叶斯k-means是一种“最大化期望”算法。神经计算,21,1145-1172·Zbl 1178.68425号
[52] Lee,Y.K.,&Ng,H.T.(2002年)。词义消歧的知识源和学习算法的实证评估。《自然语言处理经验方法会议录》(第41-48页)。宾夕法尼亚州斯特劳德斯堡:计算语言学协会,
[53] Li,Y.F.,Tsang,I.W.,Kwok,J.T.,&Zhou,Z.-H.(2009)。《第十二届国际人工智能与统计会议论文集》(AISTATS2009)(第344-351页)。
[54] Lin,D.、Grimson,E.和Fisher,J.(2010年)。基于泊松过程的依赖狄利克雷过程的构造。J.Lafferty(编辑),《神经信息处理系统的进展》,23(第1387-1395页)。纽约州红钩市:Curran。
[55] Lodhi,H.、Saunders,C.、Shawe-Taylor,J.、Cristianini,N.和Watkins,C.(2002)。使用字符串内核进行文本分类。机器学习研究杂志,2419-444·Zbl 1013.68176号
[56] 麦凯,D.J.C.(2003)。信息理论、推理和学习算法。剑桥:剑桥大学出版社·Zbl 1055.94001号
[57] MacQueen,J.B.(1967)。多元观测值分类和分析的一些方法。第五届伯克利数理统计与概率研讨会论文集(第281-297页)。伯克利:加利福尼亚大学出版社·Zbl 0214.46201号
[58] Meila,M.和Shi,J.(2001)。通过随机行走学习分段。T.K.Leen、T.G.Dietterich和V.Tresp(编辑),《神经信息处理系统的进展》,13(第873-879页)。马萨诸塞州剑桥:麻省理工学院出版社。
[59] Neal,R.M.(2000)。Dirichlet过程混合模型的马尔可夫链抽样方法。计算与图形统计杂志,9,249-265。
[60] Ng,A.Y.、Jordan,M.I.和Weiss,Y.(2002年)。关于谱聚类:分析和算法。在T.G.Dietterich、S.Becker和Z.Gahramani(编辑),《神经信息处理系统的进展》,14(第849-856页)。马萨诸塞州剑桥:麻省理工学院出版社。
[61] Niu,G.,Dai,B.,Shang,L.,&Sugiyama,M.(出版中)。最大容量聚类:一种新的区分聚类方法。机器学习研究杂志·兹比尔1318.62213
[62] 牛志勇、季德华和谭春兰(2005)。一种半监督特征聚类算法及其在词义消歧中的应用。《人类语言技术会议论文集》和《自然语言处理经验方法会议》(第907-914页)。宾夕法尼亚州斯特劳德斯堡:计算语言学协会,
[63] Pearson,K.(1900)。基于这样一个准则,即在相关变量系统的情况下,给定的偏离概率系统可以合理地假设是由随机抽样引起的。哲学杂志系列5,50,157-175·JFM 31.0238.04号
[64] Pearson,K.(1901年)。在与空间中的点系统最接近的直线和平面上。哲学杂志,2559-572·JFM 32.0246.07号文件
[65] Rand,W.M.(1971)。评价聚类方法的客观标准。《美国统计协会杂志》,66,846-850,
[66] Rodríguez,A.、Dunson,D.B.和Gelfand,A.E.(2008年)。嵌套的Dirichlet进程。美国统计协会杂志,103,1131-1154·Zbl 1205.62062号
[67] Schölkopf,B.和Smola,A.J.(2002年)。用内核学习。马萨诸塞州剑桥:麻省理工学院出版社·Zbl 1019.68094号
[68] Shental,N.、Zomet,A.、Hertz,T.和Weiss,Y.(2003)。使用GBP典型切割算法学习和推断图像分割。IEEE计算机视觉国际会议论文集(第1243-1250页)。新泽西州皮斯卡塔韦:IEEE,
[69] Shi,J.和Malik,J.(2000)。标准化切割和图像分割。IEEE模式分析和机器智能汇刊,22888-905,
[70] Silverman,B.W.(1986)。统计和数据分析的密度估计。伦敦:查普曼和霍尔·Zbl 0617.62042号
[71] Song,L.、Smola,A.、Gretton,A.和Borgwardt,K.(2007年)。聚类的依赖性最大化观点,载于《第24届国际机器学习年会论文集》(ICML2007)(第815-822页)。纽约:ACM,
[72] Sugiyama,M.(2007年)。通过局部Fisher判别分析对多模态标记数据进行降维。机器学习研究杂志,81027-1061·兹比尔1222.68312
[73] Sugiyama,M.(2013)。具有平方损失互信息的机器学习。熵,15,80-112·Zbl 1371.68241号
[74] Sugiyama,M.、Suzuki,T.和Kanamori,T.(2012年)。机器学习中的密度比估计。剑桥:剑桥大学出版社·Zbl 1274.62037号
[75] Sugiyama,M.、Suzuki,T.、Nakajima,S.、Kashima,H.、von Bünau,P.和Kawanabe,M.(2008)。协变量移位自适应的直接重要性估计。统计数学研究所年鉴,60,699-746·Zbl 1294.62069号
[76] Sugiyama,M.、Yamada,M.,Kimura,M.和Hachiya,H.(2011年)。关于信息最大化聚类:调整参数选择和解析解。第28届国际机器学习会议记录(ICML2011)(第65-72页)。威斯康星州麦迪逊:无所不在。
[77] 铃木,T.,杉山,M.,卡纳莫利,T.和塞斯,J.(2009)。相互信息估计揭示了刺激和生物过程之间的全局关联。BMC生物信息学,10,S52,
[78] 铃木,T.、杉山,M.、塞斯,J.和卡纳莫利,T.(2008)。通过最大似然密度比估计来逼近互信息。《2008年ECML-PKDD2008数据挖掘和知识发现中特征选择的新挑战研讨会论文集》(FSDM2008)(第5-20页)。比利时安特卫普。
[79] Teh,Y.W.、Jordan,M.I.、Boal,M.J.和Blei,D.M.(2007)。分层Dirichlet过程。美国统计协会杂志,101,1566-1581·Zbl 1171.62349号
[80] Ueda,N.、Nakano,R.、Ghahramani,Z.和Hinton,G.E.(2000)。混合模型的SMEM算法。神经计算,122109-2128,
[81] Valizadegan,H.和Jin,R.(2007)。广义最大边缘聚类和无监督核学习。B.Schölkopf、J.Platt和T.Hoffman(编辑),《神经信息处理系统的进展》,19(第1417-1424页)。马萨诸塞州剑桥:麻省理工学院出版社。
[82] Vapnik,V.N.(1995)。统计学习理论的本质。柏林:Springer-Verlag·Zbl 0833.62008号
[83] von Luxburg,U.(2004年)。具有相似性和差异性函数的统计学习。德国柏林技术大学博士论文。
[84] Wang,F.、Zhao,B.和Zhang,C.(2010)。线性时间最大裕度聚类。IEEE神经网络汇刊,21319-332,
[85] Xu,L.、Neufeld,J.、Larson,B.和Schuurmans,D.(2005)。最大边际聚类。L.K.Saul、Y.Weiss和L.Bottou(编辑),《神经信息处理系统的进展》,17(第1537-1544页)。马萨诸塞州剑桥:麻省理工学院出版社。
[86] Yang,W.-Y.,Kwok,J.T.,&Lu,B.-L.(2010)。CLUHSIC算法的谱松弛和半定松弛。2010年SIAM国际数据挖掘会议记录(第106-117页)。费城:SIAM,
[87] Zelnik-Manor,L.和Perona,P.(2005)。自校正谱聚类。L.K.Saul、Y.Weiss和L.Bottou(编辑),《神经信息处理系统的进展》,17(第1601-1608页)。马萨诸塞州剑桥:麻省理工学院出版社。
[88] 查H、何X、丁C、顾M和西蒙H(2002)。k均值聚类的谱松弛。T.G.Dietterich、S.Becker和Z.Ghahramani(编辑),《神经信息处理系统的进展》,14(第1057-1064页)。马萨诸塞州剑桥:麻省理工学院出版社。
[89] Zhang,K.,Tsang,I.W.和Kwok,J.T.(2009年)。最大利润聚类变得切实可行。IEEE神经网络汇刊,20583-596,
[90] Zhao,B.、Wang,F.和Zhang,C.(2008)。通过切割平面算法实现最大边缘聚类。2007年SIAM国际数据挖掘会议记录(第751-762页)。费城:SIAM,
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。