×

因子概率距离聚类(FPDC):一种新的聚类方法。 (英语) Zbl 1414.62279号

摘要:由于计算能力的提高,近年来发展了因子聚类方法。这些方法对数据进行线性转换,并对转换后的数据进行聚类,从而优化通用标准。概率距离聚类是一种迭代的、无分布的概率聚类方法。因子PD-聚类(FPDC)是基于PD-聚类的,涉及使用PD-聚类通用准则将原始变量线性变换为减少数量的正交变量。本文证明了Tucker3分解可以用于完成此变换。因子PD-聚类交替利用Tucker3分解和变换数据上的PD-聚类,直到实现收敛。该方法可以显著提高PD-聚类算法的性能;因此,可以将大型数据集划分为簇,从而提高结果的稳定性和鲁棒性。实际和模拟数据集用于将FPDC与其主要竞争对手进行比较,在这些竞争对手中,当集群呈椭圆形状时,FPDC表现同样好,但在非高斯形状的集群或噪声数据方面优于其竞争对手。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Andersson CA,Bro R(2000)MATLAB的N向工具箱。化学智能实验室系统52(1):1-4·doi:10.1016/S0169-7439(00)00071-X
[2] Andrews JL,McNicholas PD(2011)《多元t因子分析仪的扩展混合物》。统计计算21(3):361-373·Zbl 1255.62171号 ·doi:10.1007/s11222-010-9175-2
[3] Arabie,P。;休伯特,L。;Bagozzi,R.(编辑),市场营销研究中的聚类分析,160-189(1994),牛津
[4] Ben-Israel A,Iyigun C(2008)概率d-聚类。J Classif 25(1):5-26·Zbl 1260.62039号 ·doi:10.1007/s00357-008-9002-z
[5] Bezdek J(1974)《模糊集数值分类》。数学生物学杂志1(1):57-71·Zbl 0403.62039号 ·doi:10.1007/BF02339490
[6] Bock HH(1987)关于聚类分析、主成分分析和多维尺度之间的接口。多变量统计模型数据分析8:17-34·Zbl 0627.62068号 ·doi:10.1007/978-94-009-3977-6_2
[7] Bouveyron C,Brunet C(2012)Fisher判别子空间中基于模型的同时聚类和可视化。统计计算22(1):301-324·Zbl 1322.62162号 ·doi:10.1007/s11222-011-9249-9
[8] Bouveyron C,Brunet-Saumard C(2014),基于模型的高维数据聚类:综述。计算统计数据分析71:52-78·Zbl 1306.65033号 ·doi:10.1016/j.csda.2012.12.008
[9] Campbell JG,Fraley F,Murtagh F,Raftery AE(1997),使用基于模型的聚类法对机织物进行线性缺陷检测。图案识别信函18:1539-1548
[10] Ceulemans E,Kiers HAL(2006)在不同类型和复杂性的三模态主成分模型中进行选择:基于数值凸壳的方法。Br J数学统计心理学59(1):133-150·doi:10.1348/000711005X64817
[11] Chiang M,Mirkin B(2010)《k均值聚类中簇数的智能选择:不同簇间距的实验研究》。J类27(1):3-40·Zbl 1337.62127号 ·doi:10.1007/s00357-010-9049-5
[12] 核心团队R(2014)R:统计计算的语言和环境。R统计计算基金会,维也纳
[13] Craen S,Commandeur J,Frank L,Heiser W(2006),k-means聚类分析中群体规模和缺乏球形性对聚类恢复的影响。Multivar Behav Res 41(2):127-145·doi:10.1207/s15327906mbr4102_2
[14] De Sarbo WS,Manrai AK(1992)一种新的多维标度方法,用于分析营销研究中的不对称接近度数据。《科学标志》11(1):1-20·doi:10.1287/mksc.11.1.1
[15] De Soete,G.和J.D.Carroll(1994年)。k表示低维欧氏空间中的聚类。收录:Diday E、Lechevallier Y、Schader M等人(编辑)分类和数据分析的新方法。海德堡施普林格,第212-219页
[16] Franczak BC,McNicholas PD,Browne RB,Murray PM(2013)解析位移不对称拉普拉斯混合物。arXiv:1311:0317
[17] Franczak BC、Tortora C、Browne RP、McNicholas PD(2015)《通过混合偏态分布和超立方体轮廓进行无监督学习》。图案识别信58:69-76·doi:10.1016/j.patrec.2015.02.011
[18] Ghahramani Z,Hinton GE(1997)混合因子分析仪的EM算法。多伦多多伦多大学Crg-tr-96-1
[19] Hwang H,Dillon WR,Takane Y(2006)《识别受访者异质亚群的多重对应分析的扩展》。心理学71:161-171·Zbl 1306.62435号 ·doi:10.1007/s11336-004-1173-x
[20] Iodice D’Enza A,Palumbo F,Greenacre M(2008)探索性数据分析,得出最有趣的简单关联规则。计算统计数据分析52(6):3269-3281·Zbl 1452.62051号 ·doi:10.1016/j.csda.2007.10.06
[21] Iyigun C(2007)概率距离聚类。新泽西州立大学新不伦瑞克罗格斯分校博士论文
[22] Jain AK(2009)数据聚类:超越k-means 50年。图案识别信31(8):651-666·doi:10.1016/j.patrec.2009.09.011
[23] Karlis D,Santourian A(2009),基于模型的非椭圆轮廓分布聚类。统计计算19(1):73-83·doi:10.1007/s11222-008-9072-0
[24] Kiers HAL,Der Kinderen A(2003)Tucker3分析中选择成分数量的快速方法。英国数学统计心理学杂志56(1):119-125·doi:10.1348/000711003321645386
[25] Kroonenberg PM(2008)应用多元数据分析。霍博肯Ebooks公司·Zbl 1160.62002号 ·数字对象标识代码:10.1002/9780470238004
[26] Kroonenberg PM,Van der Voort THA(1987)乘法分解Van interacties bij oordelen over de werkelijkheidswarde Van televiefilms[乘法分解交互以判断电视电影的真实性]。宽泰提夫方法8:117-144
[27] Lebart A,Morineau A,Warwick K(1984)多变量统计描述性分析。纽约威利·Zbl 0658.62069号
[28] Lee SX,McLachlan GJ(2013),关于斜正态分布和斜t分布的混合。高级数据分析分类7(3):241-266·Zbl 1273.62115号 ·doi:10.1007/s11634-013-0132-8
[29] Lin T-I,McLachlan GJ,Lee SX(2013)使用受限多元偏态分布扩展因子模型的混合。阿西夫:1307:1748·Zbl 1328.62378号
[30] Lin T-I(2009)多元正态混合模型的最大似然估计。多变量分析杂志100:257-265·Zbl 1152.62034号 ·doi:10.1016/j.jmva.2008.04.010
[31] Lin T-I(2010)使用多元斜T分布的稳健混合建模。统计计算20(3):343-356·doi:10.1007/s11222-009-9128-9
[32] Lin T-I,McNicholas PD,Hsiu JH(2014)通过节约型T混合模型捕获模式。统计概率Lett 88:80-87·Zbl 1369.62131号 ·doi:10.1016/j.spl.2014.01.015
[33] Markos A、Iodice D’Enza A、Van de Velden M(2013)clustrd:联合降维和聚类方法。R包版本0.1.2
[34] Maronna RA,Zamar RH(2002)高维数据集位置和离散度的稳健估计。技术计量学44(4):307-317·doi:10.1198/004017002188618509
[35] McLachlan GJ,Peel D(2000b)因子分析仪混合物。收录:Morgan Kaufman SF(ed)第十七届机器学习国际会议的会议记录,第599-606页
[36] McLachlan GJ,Peel D,Bean RW(2003),利用混合因子分析仪模拟高维数据。计算统计数据分析41:379-388·Zbl 1256.62036号 ·doi:10.1016/S0167-9473(02)00183-4
[37] McLachlan GJ,Peel D(2000a)有限混合模型。Wiley Interscience,纽约·Zbl 0963.62061号 ·doi:10.1002/0471721182
[38] McNicholas PD、Jampani KR、McDaid AF、Murphy TB、Banks L(2011)pgmm:简约高斯混合模型。R包版本1:1
[39] McNicholas SM、McNichoras PD、Browne RP(2013)《方差-γ分布的混合》。arXiv公司:1309.2695·Zbl 1381.62187号
[40] McNicholas PD,Murphy T(2008)简约高斯混合模型。统计计算18(3):285-296·doi:10.1007/s11222-008-9056-0
[41] Murray PM、Browne RB、McNicholas PD(2014)《偏态因子分析仪的混合物》。计算统计数据分析77:326-335·Zbl 1506.62132号 ·doi:10.1016/j.csda.2014.03.012
[42] Palumbo F、Vistocco D、Morineau A(2008)《巨大多维数据可视化:回到新计算机时代主坐标和树状图的优点》。In:Chun-houh Chen WH,Unwin A(编辑)数据可视化手册。施普林格,第349-387页·Zbl 1147.68464号
[43] Rachev ST、Klebanov LB、Stoyanov SV、Fabozzi FJ(2013)概率统计理论中的距离方法。施普林格·Zbl 1280.60005号
[44] Rocci R,Gattone SA,Vichi M(2011)一种新的降维方法:因子判别k-均值。J类28(2):210-226·Zbl 1226.62062号 ·doi:10.1007/s00357-011-9085-9
[45] Steane MA、McNicholas PD、Yada R(2012)通过多元t因子分析仪的混合物进行基于模型的分类。公共统计模拟计算41(4):510-523·Zbl 1294.62142号 ·doi:10.1080/03610918.2011.595984
[46] Stute W,Zhu LX(1995)基于投影寻踪的k-means聚类的渐近性。Sankhyá57(3):462-471·Zbl 0857.62064号
[47] Subedi S,McNicholas PD(2014)通过正态逆高斯分布的混合物进行聚类的变分贝叶斯近似。高级数据分析分类8(2):167-193·Zbl 1459.62122号 ·doi:10.1007/s11634-014-0165-7
[48] MathWorks Inc.(2007)MATLAB-技术计算语言,7.5版。Natick MathWorks公司
[49] Timmerman ME、Ceulemans E、Roover K、Leeuwen K(2013)子空间K-means聚类。行为研究方法研究45(4):1011-1023
[50] Timmerman ME、Ceulemans E、Kiers HAL、Vichi M(2010)重新考虑了因子和约化k均值。计算统计数据分析54(7):1858-1871·Zbl 1284.62396号 ·doi:10.1016/j.csda.2010.02.009
[51] Timmerman ME,Kiers HAL(2000)三模主成分分析:选择成分数量和对局部最优的敏感性。英国数学统计心理学杂志53(1):1-16·doi:10.1348/000711000159132
[52] Tortora,C.和M.Marino(2014年)。大型社会数据集上因子PD-聚类的稳健性和稳定性分析。D.Vicari、A.Okada、G.Ragozini和C.Weihs(编辑),《行为和社会科学中复杂数据的分析和建模》,第273-281页。施普林格
[53] Tortora C、Gettler Summa M、Palumbo F(2013)因子PD-聚类。收录:Berthold UL、Dirk V(ed)《自然与生命的算法》,第115-123页
[54] Tortora C、McNicholas PD、Browne RP(2015)广义双曲因子分析仪的混合物。高级数据分析分类(出版中)·Zbl 1414.62278号
[55] Tortora C,McNicholas PD(2014)FPD聚类:PD聚类和因子PD聚类。R包版本1.0
[56] Tortora C,Palumbo F(2014)FPDC。MATLAB和统计工具箱发行版(2012a)The MathWorks Inc.Natick
[57] Tucker LR(1966)关于三模式因子分析的一些数学注释。《心理测量学》31(3):279-311·doi:10.1007/BF02289464
[58] Vermunt JK(2011)K-means的表现可能与混合模型聚类一样好,但也可能更差:Steinley和Brusco(2011)的评论。心理学方法16(1):82-88·doi:10.1037/a0020144
[59] Vichi M,Kiers HAL(2001)双向数据的因子k均值分析。计算统计数据分析37:29-64·Zbl 1051.62056号 ·doi:10.1016/S0167-9473(00)00064-5
[60] Vichi M,Saporta G(2009),聚类和不相交主成分分析。计算统计数据分析53(8):3194-3208·Zbl 1453.62230号 ·doi:10.1016/j.csda.2008.05.028
[61] Vrbik I,McNicholas PD(2014)基于模型的聚类和分类的简约斜交混合模型。计算统计数据分析71:196-210·Zbl 1471.62202号 ·doi:10.1016/j.csda.2013.07.008
[62] Yamamoto M,Hwang H(2014)具有降维和子空间分离的聚类分析的一般公式。行为测量学41:115-129·doi:10.2333/bhmk.41.115
[63] Zadeh LA(1965)模糊集。信息控制8(3):338-353·兹伯利0139.24606 ·doi:10.1016/S0019-9958(65)90241-X
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。