×

具有自动可变权重的分布式数据的协同聚类算法。 (英语) Zbl 1474.62220号

摘要:本文研究分布值数据的联合聚类,即同时划分输入数据表的行和列,其中的元素是表示聚合数据的分布(或直方图)。第一种方法将双k均值算法扩展到分布式数据。(L_2)Wasserstein距离,也称为Mallow距离,用于比较分布。为了考虑表征聚类的变量的不同相关性,提出了四种自适应分布双k均值。因此,在联合聚类过程中,引入了一个额外的步骤来计算与变量关联的相关权重。特别是,四种算法中的每一种都为变量提供了i)一组权重;ii)变量的不同权重集,每个簇一个(簇状);iii)根据(L_2)Wasserstein距离分解为两个分量,为变量设置双重权重;iv)变量和距离分量的不同双重权重集,每个簇一个(集群)。使用模拟数据和实际数据的应用证明了所提算法的有效性,以及根据数据结构,相关性权重对联合聚类过程的贡献。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] J.阿罗约,C.马特。用k近邻法预测直方图时间序列。《国际预测杂志》25(1),192-2072009年。ISSN 0169-2070。doi:10.1016/j.ijforecast.2008.07.003。
[2] H.H.Bock,E.Diday,《符号数据分析》,《从复杂数据中提取统计信息的探索方法》,施普林格出版社,柏林,2000年·Zbl 1039.62501号
[3] C.Bouveyron、L.Bozzi、J.Jacques、F.-X.Jollois。耗电曲线联合聚类的功能潜在块模型,《皇家统计学会杂志:C辑(应用统计学)》,67(4):897-9152018。ISSN 0035-9254。doi:10.1111/rssc.12260。
[4] Cha,S.-H.,概率密度函数之间距离/相似性度量的综合调查,国际数学模型和方法杂志,科学应用,4300-307(2007)
[5] Cha,S.-H。;Srihari,S.N.,关于测量直方图之间的距离,模式识别,35,1355-1370(2002)·Zbl 0997.68123号
[6] M.Charrad,Y.Lechevallier,M.Ben Ahmed,G.Saporta,《关于块聚类算法中的簇数》,载于《第二十届国际佛罗里达人工智能研究会会议论文集》(FLAIRS 2010),2010年,第392-397页。
[7] Y.Chen,L.Wang,M.Dong,半监督异构数据协同聚类的非负矩阵分解,收录于:IEEE知识与数据工程学报,2010年第22卷,第1459-1474页。
[8] Cho,H。;Dhillon,I.S.,使用最小平方和残差共聚类法对人类癌症微阵列进行共聚类,IEEE/ACM计算生物学和生物信息学汇刊,5,3,385-400(2008)
[9] 德卡瓦略,F.A.T。;Lechevallier,Y.,基于单个自适应距离的符号区间数据的分区聚类算法,模式识别,42,7,1223-1236(2009)·Zbl 1183.68527号
[10] Del Buono,N。;Pio,G.,《用于联合聚类的非负矩阵三因子化:块矩阵分析》,《信息科学》,301,13-26(2015)
[11] Delicado,P.,《数据为密度函数时的维数缩减》,计算统计与数据分析,55,1,401-420(2011)·Zbl 1247.62148号
[12] Diday,E。;Govaert,G.,《自动分类与距离适应》,R.A.I.R.O.信息计算机科学,11,4,329-349(1977)·Zbl 0375.62061号
[13] Diday,E。;Simon,J.C.,聚类分析,(Fu,K.S.,数字模式分类(1976),施普林格:施普林格柏林),47-94·Zbl 0331.62043号
[14] 丁,C。;何,X。;Simon,H.D.,关于非负矩阵分解和谱聚类的等价性,(SIAM数据挖掘会议论文集,2005(2005)),869-876
[15] Doreian,P。;巴塔格尔,V。;Ferligoj,A.,双模网络数据的广义块建模,社交网络,26,1,29-53(2004)
[16] 弗里德曼,J.H。;Meulman,J.J.,《属性子集上的聚类对象》,《皇家统计学会杂志》,B辑,66,815-849(2004)·Zbl 1060.62064号
[17] Gibbs,A.L。;Su,F.E.,《关于选择和限定概率指标》,《国际统计评论》,70,3,419-435(2002)·Zbl 1217.62014年
[18] 佐丹奴,G。;Brito,P.,《作为符号数据的社会网络》(Vicari,D.等人,《行为与社会科学中复杂数据的分析与建模》(2014),施普林格:施普林格-海德堡出版社),133-142
[19] 戈瓦特,G。;Nadif,M.,用块混合模型聚类,模式识别,36,463-473(2003)
[20] 戈瓦特,G。;Nadif,M.,《联合聚类:模型、算法和应用》(2015),威利:威利纽约·Zbl 0910.62021号
[21] Q.Gu,J.Zhou,流形上的共聚类,in:Proc。第15届ACM SIGKDD国际知识发现和数据挖掘会议,ACM,纽约州纽约市,美国,2009年,第359-368页。
[22] 古普塔,N。;Aggarwal,S.,将互信息用于双聚类基因表达数据,模式识别,43,2692-2697(2010)·Zbl 1207.68281号
[23] Hartigan,J.,《聚类算法》(1975),威利·Zbl 0321.62069号
[24] 黄J.Z。;Ng,M.K。;荣,H。;Li,Z.,k均值聚类中的自动变量加权,IEEE模式分析和机器智能汇刊,27,5,657-668(2005)
[25] 休伯特,L。;Arabie,P.,比较分区,分类杂志,2193-218(1985)
[26] A.Irpino,E.Romano,大数据集的最佳直方图表示:Fisher与分段线性近似。《新技术信息评论》,RNTI-E-9:99-1102007年。
[27] A.Irpino,R.Verde,《分布符号变量的基本统计:基于度量的新方法》,《数据分析和分类进展》,9(2),143-1752015年。ISSN 1862-5347·Zbl 1414.62017年
[28] 埃尔皮诺,A。;Verde,R。;De Carvalho,F.A.T.,基于自适应平方Wasserstein距离的直方图数据动态聚类,应用专家系统,41,7,3351-3366(2014)
[29] A.Irpino,R.Verde,F.A.T.de Carvalho,分配数据的模糊聚类与可变成分的自动加权,信息科学,406-407(2017)248-268。ISSN 0020-0255。doi:10.1016/j.ins.2017.04.040·Zbl 1429.62249号
[30] C.Keribin,C.Biernacki,《协同聚类:基于模型或无模型的方法》,载于:2019年第62届ISI世界统计大会。
[31] Kim,J。;Billard,L.,《直方图值观测的差异性度量》,《统计学中的传播——理论和方法》,42,2,283-303(2013)·Zbl 1298.62100号
[32] 科伦雅克-乔恩,南部。;Batagelj,V.,《聚类大型数据集的符号数据分析方法》,319-327(2002),施普林格-柏林-海德堡:施普林格
[33] 拉克劳,C。;Nadif,M.,用于文档术语划分的硬和模糊对角共聚类,神经计算,1933,133-147(2016)
[34] Mallows,C.L.,关于渐近联合正态性的注记,《数理统计年鉴》,43,2,508-515(1972)·Zbl 0238.60017号
[35] L.Mi,W.Zhang,X.Gu,Y.Wang,Variational Wasserstein聚类,摘自:Cham Springer(编辑),《计算机视觉-ECCV 2018》。计算机科学课堂讲稿,第11219卷,2018年,第336-352页。
[36] Mirkin,B.,《数学分类和聚类》(1996),Kluwer:Kluwer-Dordrecht·Zbl 0874.90198号
[37] 佩雷拉,A.L.V。;Hruschka,E.R.,同步联合聚类和学习解决推荐系统中的冷启动问题,基于知识的系统,82,11-19(2015)
[38] Rocci,R。;Vichi,M.,双模多分区,计算统计与数据分析,521984-2003(2008)·兹比尔1452.62463
[39] 角色,F。;Morbieu,S。;Nadif,M.,Coclust:用于协同聚类的Python包,《统计软件杂志》,88,7,1-29(2019)
[40] L.Rüshendorff,Wasserstein metric,收录于:数学百科全书,Springer,2001年。
[41] T.Sarazin,M.Lebbah,H.Azzag,A.Chaibi,特征组加权和拓扑双聚类,收录于:《国际神经信息处理会议论文集》,2014年,第369-376页。
[42] 塞洛西,M。;雅克·J。;Biernacki,C.,混合类型数据的基于模型的联合聚类,计算统计与数据分析,144106866(2020)·Zbl 1504.62084号
[43] 斯特雷尔,A。;Ghosh,J.,《集群集成——用于组合多个分区的知识重用框架》,《机器学习研究杂志》,3583-617(2003)·Zbl 1084.68759号
[44] T.Terada,H.Yadohisa,《分布值数据的非层次聚类》,载于:Y.Lechevallier,G.Saporta,(编辑),《2010年COMPSTAT会议录》,施普林格,柏林,2010年,第1653-1660页。
[45] R.Verde,A.Irpino,Y.Lechevallier,使用Wasserstein度量的直方图动态聚类,载于:A.Rizzi,M.Vichi,(编辑),2006年《COMPSTAT学报》,海德堡,2006年。Compstat 2006,Physica Verlag,第869-876页。
[46] 维拉尼,C.,《最佳交通》,第338卷(2009年),《施普林格:施普林格-柏林-海德堡》·Zbl 1156.53003号
[47] 弗拉克,M。;Billard,L。;Diday,E。;Chedin,A.,混合模型的Copula分析,计算统计学,27427-457(2012)·Zbl 1304.65087号
[48] 魏,Z。;赵,H。;赵,L。;Yan,H.,基于正则多元分解和分层因式分解的张量数据多尺度联合聚类,信息科学,503,503和72-91(2019)·Zbl 1453.62555号
[49] G.Xu,Y.Zong,P.Dolog,Y.Zhang,使用二部谱投影方法对博客进行共聚类分析,载于:《基于知识和智能的信息与工程系统》,2010年,第398-407页。
[50] Yang,S。;刘,Y。;李强。;杨伟(Yang,W.)。;Zhang,Y。;Wen,C.,带对称流形正则化的非负矩阵因式分解,神经过程函,51,723-748(2020)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。