文件Zbl 1474.62220-zbMATH打开

de A.T.de Carvalho，弗朗西斯科;安东尼奥·巴尔扎内拉;安东尼奥·埃尔皮诺;罗莎娜·威尔德

具有自动可变权重的分布式数据的协同聚类算法。（英语） Zbl 1474.62220号

信息科学。 549, 87-115 (2021).

摘要：本文研究分布值数据的联合聚类，即同时划分输入数据表的行和列，其中的元素是表示聚合数据的分布（或直方图）。第一种方法将双k均值算法扩展到分布式数据。（L_2）Wasserstein距离，也称为Mallow距离，用于比较分布。为了考虑表征聚类的变量的不同相关性，提出了四种自适应分布双k均值。因此，在联合聚类过程中，引入了一个额外的步骤来计算与变量关联的相关权重。特别是，四种算法中的每一种都为变量提供了i）一组权重；ii）变量的不同权重集，每个簇一个（簇状）；iii）根据（L_2）Wasserstein距离分解为两个分量，为变量设置双重权重；iv）变量和距离分量的不同双重权重集，每个簇一个（集群）。使用模拟数据和实际数据的应用证明了所提算法的有效性，以及根据数据结构，相关性权重对联合聚类过程的贡献。

引用于1文件

MSC公司：

62H30型

分类和区分；聚类分析（统计方面）

关键词：

分布值数据;瓦瑟斯坦距离;联合群集;双k均值;相关性权重;自适应距离

软件：

CoClust公司;COSA公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	J.阿罗约，C.马特。用k近邻法预测直方图时间序列。《国际预测杂志》25（1），192-2072009年。ISSN 0169-2070。doi:10.1016/j.ijforecast.2008.07.003。
[2]	H.H.Bock，E.Diday，《符号数据分析》，《从复杂数据中提取统计信息的探索方法》，施普林格出版社，柏林，2000年·Zbl 1039.62501号
[3]	C.Bouveyron、L.Bozzi、J.Jacques、F.-X.Jollois。耗电曲线联合聚类的功能潜在块模型，《皇家统计学会杂志：C辑（应用统计学）》，67（4）：897-9152018。ISSN 0035-9254。doi:10.1111/rssc.12260。
[4]	Cha，S.-H.，概率密度函数之间距离/相似性度量的综合调查，国际数学模型和方法杂志，科学应用，4300-307（2007）
[5]	Cha，S.-H。；Srihari，S.N.，关于测量直方图之间的距离，模式识别，35，1355-1370（2002）·Zbl 0997.68123号
[6]	M.Charrad，Y.Lechevallier，M.Ben Ahmed，G.Saporta，《关于块聚类算法中的簇数》，载于《第二十届国际佛罗里达人工智能研究会会议论文集》（FLAIRS 2010），2010年，第392-397页。
[7]	Y.Chen，L.Wang，M.Dong，半监督异构数据协同聚类的非负矩阵分解，收录于：IEEE知识与数据工程学报，2010年第22卷，第1459-1474页。
[8]	Cho，H。；Dhillon，I.S.，使用最小平方和残差共聚类法对人类癌症微阵列进行共聚类，IEEE/ACM计算生物学和生物信息学汇刊，5，3，385-400（2008）
[9]	德卡瓦略，F.A.T。；Lechevallier，Y.，基于单个自适应距离的符号区间数据的分区聚类算法，模式识别，42，7，1223-1236（2009）·Zbl 1183.68527号
[10]	Del Buono，N。；Pio，G.，《用于联合聚类的非负矩阵三因子化：块矩阵分析》，《信息科学》，301，13-26（2015）
[11]	Delicado，P.，《数据为密度函数时的维数缩减》，计算统计与数据分析，55，1，401-420（2011）·Zbl 1247.62148号
[12]	Diday，E。；Govaert，G.，《自动分类与距离适应》，R.A.I.R.O.信息计算机科学，11，4，329-349（1977）·Zbl 0375.62061号
[13]	Diday，E。；Simon，J.C.，聚类分析，（Fu，K.S.，数字模式分类（1976），施普林格：施普林格柏林），47-94·Zbl 0331.62043号
[14]	丁，C。；何，X。；Simon，H.D.，关于非负矩阵分解和谱聚类的等价性，（SIAM数据挖掘会议论文集，2005（2005）），869-876
[15]	Doreian，P。；巴塔格尔，V。；Ferligoj，A.，双模网络数据的广义块建模，社交网络，26，1，29-53（2004）
[16]	弗里德曼，J.H。；Meulman，J.J.，《属性子集上的聚类对象》，《皇家统计学会杂志》，B辑，66，815-849（2004）·Zbl 1060.62064号
[17]	Gibbs，A.L。；Su，F.E.，《关于选择和限定概率指标》，《国际统计评论》，70，3，419-435（2002）·Zbl 1217.62014年
[18]	佐丹奴，G。；Brito，P.，《作为符号数据的社会网络》（Vicari，D.等人，《行为与社会科学中复杂数据的分析与建模》（2014），施普林格：施普林格-海德堡出版社），133-142
[19]	戈瓦特，G。；Nadif，M.，用块混合模型聚类，模式识别，36，463-473（2003）
[20]	戈瓦特，G。；Nadif，M.，《联合聚类：模型、算法和应用》（2015），威利：威利纽约·Zbl 0910.62021号
[21]	Q.Gu，J.Zhou，流形上的共聚类，in：Proc。第15届ACM SIGKDD国际知识发现和数据挖掘会议，ACM，纽约州纽约市，美国，2009年，第359-368页。
[22]	古普塔，N。；Aggarwal，S.，将互信息用于双聚类基因表达数据，模式识别，43，2692-2697（2010）·Zbl 1207.68281号
[23]	Hartigan，J.，《聚类算法》（1975），威利·Zbl 0321.62069号
[24]	黄J.Z。；Ng，M.K。；荣，H。；Li，Z.，k均值聚类中的自动变量加权，IEEE模式分析和机器智能汇刊，27，5，657-668（2005）
[25]	休伯特，L。；Arabie，P.，比较分区，分类杂志，2193-218（1985）
[26]	A.Irpino，E.Romano，大数据集的最佳直方图表示：Fisher与分段线性近似。《新技术信息评论》，RNTI-E-9:99-1102007年。
[27]	A.Irpino，R.Verde，《分布符号变量的基本统计：基于度量的新方法》，《数据分析和分类进展》，9（2），143-1752015年。ISSN 1862-5347·Zbl 1414.62017年
[28]	埃尔皮诺，A。；Verde，R。；De Carvalho，F.A.T.，基于自适应平方Wasserstein距离的直方图数据动态聚类，应用专家系统，41，7，3351-3366（2014）
[29]	A.Irpino，R.Verde，F.A.T.de Carvalho，分配数据的模糊聚类与可变成分的自动加权，信息科学，406-407（2017）248-268。ISSN 0020-0255。doi:10.1016/j.ins.2017.04.040·Zbl 1429.62249号
[30]	C.Keribin，C.Biernacki，《协同聚类：基于模型或无模型的方法》，载于：2019年第62届ISI世界统计大会。
[31]	Kim，J。；Billard，L.，《直方图值观测的差异性度量》，《统计学中的传播——理论和方法》，42，2，283-303（2013）·Zbl 1298.62100号
[32]	科伦雅克-乔恩，南部。；Batagelj，V.，《聚类大型数据集的符号数据分析方法》，319-327（2002），施普林格-柏林-海德堡：施普林格
[33]	拉克劳，C。；Nadif，M.，用于文档术语划分的硬和模糊对角共聚类，神经计算，1933，133-147（2016）
[34]	Mallows，C.L.，关于渐近联合正态性的注记，《数理统计年鉴》，43，2，508-515（1972）·Zbl 0238.60017号
[35]	L.Mi，W.Zhang，X.Gu，Y.Wang，Variational Wasserstein聚类，摘自：Cham Springer（编辑），《计算机视觉-ECCV 2018》。计算机科学课堂讲稿，第11219卷，2018年，第336-352页。
[36]	Mirkin，B.，《数学分类和聚类》（1996），Kluwer:Kluwer-Dordrecht·Zbl 0874.90198号
[37]	佩雷拉，A.L.V。；Hruschka，E.R.，同步联合聚类和学习解决推荐系统中的冷启动问题，基于知识的系统，82，11-19（2015）
[38]	Rocci，R。；Vichi，M.，双模多分区，计算统计与数据分析，521984-2003（2008）·兹比尔1452.62463
[39]	角色，F。；Morbieu，S。；Nadif，M.，Coclust:用于协同聚类的Python包，《统计软件杂志》，88，7，1-29（2019）
[40]	L.Rüshendorff，Wasserstein metric，收录于：数学百科全书，Springer，2001年。
[41]	T.Sarazin，M.Lebbah，H.Azzag，A.Chaibi，特征组加权和拓扑双聚类，收录于：《国际神经信息处理会议论文集》，2014年，第369-376页。
[42]	塞洛西，M。；雅克·J。；Biernacki，C.，混合类型数据的基于模型的联合聚类，计算统计与数据分析，144106866（2020）·Zbl 1504.62084号
[43]	斯特雷尔，A。；Ghosh，J.，《集群集成——用于组合多个分区的知识重用框架》，《机器学习研究杂志》，3583-617（2003）·Zbl 1084.68759号
[44]	T.Terada，H.Yadohisa，《分布值数据的非层次聚类》，载于：Y.Lechevallier，G.Saporta，（编辑），《2010年COMPSTAT会议录》，施普林格，柏林，2010年，第1653-1660页。
[45]	R.Verde，A.Irpino，Y.Lechevallier，使用Wasserstein度量的直方图动态聚类，载于：A.Rizzi，M.Vichi，（编辑），2006年《COMPSTAT学报》，海德堡，2006年。Compstat 2006，Physica Verlag，第869-876页。
[46]	维拉尼，C.，《最佳交通》，第338卷（2009年），《施普林格：施普林格-柏林-海德堡》·Zbl 1156.53003号
[47]	弗拉克，M。；Billard，L。；Diday，E。；Chedin，A.，混合模型的Copula分析，计算统计学，27427-457（2012）·Zbl 1304.65087号
[48]	魏，Z。；赵，H。；赵，L。；Yan，H.，基于正则多元分解和分层因式分解的张量数据多尺度联合聚类，信息科学，503，503和72-91（2019）·Zbl 1453.62555号
[49]	G.Xu，Y.Zong，P.Dolog，Y.Zhang，使用二部谱投影方法对博客进行共聚类分析，载于：《基于知识和智能的信息与工程系统》，2010年，第398-407页。
[50]	Yang，S。；刘，Y。；李强。；杨伟（Yang，W.）。；Zhang，Y。；Wen，C.，带对称流形正则化的非负矩阵因式分解，神经过程函，51，723-748（2020）

此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配，并且可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
拉	语言
所以	来源
ab公司	综述，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

具有自动可变权重的分布式数据的协同聚类算法。（英语） Zbl 1474.62220号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

具有自动可变权重的分布式数据的协同聚类算法。 （英语） Zbl 1474.62220号

MSC公司：

关键词：

软件：

参考文献：

具有自动可变权重的分布式数据的协同聚类算法。（英语） Zbl 1474.62220号