文件Zbl 1414.62279-zbMATH打开

因子概率距离聚类（FPDC）：一种新的聚类方法。（英语） Zbl 1414.62279号

高级数据分析。分类。，阿达克 10，第4期，441-464（2016）.

摘要：由于计算能力的提高，近年来发展了因子聚类方法。这些方法对数据进行线性转换，并对转换后的数据进行聚类，从而优化通用标准。概率距离聚类是一种迭代的、无分布的概率聚类方法。因子PD-聚类（FPDC）是基于PD-聚类的，涉及使用PD-聚类通用准则将原始变量线性变换为减少数量的正交变量。本文证明了Tucker3分解可以用于完成此变换。因子PD-聚类交替利用Tucker3分解和变换数据上的PD-聚类，直到实现收敛。该方法可以显著提高PD-聚类算法的性能；因此，可以将大型数据集划分为簇，从而提高结果的稳定性和鲁棒性。实际和模拟数据集用于将FPDC与其主要竞争对手进行比较，在这些竞争对手中，当集群呈椭圆形状时，FPDC表现同样好，但在非高斯形状的集群或噪声数据方面优于其竞争对手。

引用于1文件

MSC公司：

62H30型

分类和区分；聚类分析（统计方面）

关键词：

因子聚类;概率距离聚类;塔克3;\（k）-表示

软件：

百万像素;对;FPD集群;N向工具箱;集群;Matlab公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Andersson CA，Bro R（2000）MATLAB的N向工具箱。化学智能实验室系统52（1）：1-4·doi:10.1016/S0169-7439（00）00071-X
[2]	Andrews JL，McNicholas PD（2011）《多元t因子分析仪的扩展混合物》。统计计算21（3）：361-373·Zbl 1255.62171号 ·doi:10.1007/s11222-010-9175-2
[3]	Arabie，P。；休伯特，L。；Bagozzi，R.（编辑），市场营销研究中的聚类分析，160-189（1994），牛津
[4]	Ben-Israel A，Iyigun C（2008）概率d-聚类。J Classif 25（1）：5-26·Zbl 1260.62039号 ·doi:10.1007/s00357-008-9002-z
[5]	Bezdek J（1974）《模糊集数值分类》。数学生物学杂志1（1）：57-71·Zbl 0403.62039号 ·doi:10.1007/BF02339490
[6]	Bock HH（1987）关于聚类分析、主成分分析和多维尺度之间的接口。多变量统计模型数据分析8:17-34·Zbl 0627.62068号 ·doi:10.1007/978-94-009-3977-6_2
[7]	Bouveyron C，Brunet C（2012）Fisher判别子空间中基于模型的同时聚类和可视化。统计计算22（1）：301-324·Zbl 1322.62162号 ·doi:10.1007/s11222-011-9249-9
[8]	Bouveyron C，Brunet-Saumard C（2014），基于模型的高维数据聚类：综述。计算统计数据分析71:52-78·Zbl 1306.65033号 ·doi:10.1016/j.csda.2012.12.008
[9]	Campbell JG，Fraley F，Murtagh F，Raftery AE（1997），使用基于模型的聚类法对机织物进行线性缺陷检测。图案识别信函18:1539-1548
[10]	Ceulemans E，Kiers HAL（2006）在不同类型和复杂性的三模态主成分模型中进行选择：基于数值凸壳的方法。Br J数学统计心理学59（1）：133-150·doi:10.1348/000711005X64817
[11]	Chiang M，Mirkin B（2010）《k均值聚类中簇数的智能选择：不同簇间距的实验研究》。J类27（1）：3-40·Zbl 1337.62127号 ·doi:10.1007/s00357-010-9049-5
[12]	核心团队R（2014）R：统计计算的语言和环境。R统计计算基金会，维也纳
[13]	Craen S，Commandeur J，Frank L，Heiser W（2006），k-means聚类分析中群体规模和缺乏球形性对聚类恢复的影响。Multivar Behav Res 41（2）：127-145·doi:10.1207/s15327906mbr4102_2
[14]	De Sarbo WS，Manrai AK（1992）一种新的多维标度方法，用于分析营销研究中的不对称接近度数据。《科学标志》11（1）：1-20·doi:10.1287/mksc.11.1.1
[15]	De Soete，G.和J.D.Carroll（1994年）。k表示低维欧氏空间中的聚类。收录：Diday E、Lechevallier Y、Schader M等人（编辑）分类和数据分析的新方法。海德堡施普林格，第212-219页
[16]	Franczak BC，McNicholas PD，Browne RB，Murray PM（2013）解析位移不对称拉普拉斯混合物。arXiv:1311:0317
[17]	Franczak BC、Tortora C、Browne RP、McNicholas PD（2015）《通过混合偏态分布和超立方体轮廓进行无监督学习》。图案识别信58:69-76·doi:10.1016/j.patrec.2015.02.011
[18]	Ghahramani Z，Hinton GE（1997）混合因子分析仪的EM算法。多伦多多伦多大学Crg-tr-96-1
[19]	Hwang H，Dillon WR，Takane Y（2006）《识别受访者异质亚群的多重对应分析的扩展》。心理学71:161-171·Zbl 1306.62435号 ·doi:10.1007/s11336-004-1173-x
[20]	Iodice D’Enza A，Palumbo F，Greenacre M（2008）探索性数据分析，得出最有趣的简单关联规则。计算统计数据分析52（6）：3269-3281·Zbl 1452.62051号 ·doi:10.1016/j.csda.2007.10.06
[21]	Iyigun C（2007）概率距离聚类。新泽西州立大学新不伦瑞克罗格斯分校博士论文
[22]	Jain AK（2009）数据聚类：超越k-means 50年。图案识别信31（8）：651-666·doi:10.1016/j.patrec.2009.09.011
[23]	Karlis D，Santourian A（2009），基于模型的非椭圆轮廓分布聚类。统计计算19（1）：73-83·doi:10.1007/s11222-008-9072-0
[24]	Kiers HAL，Der Kinderen A（2003）Tucker3分析中选择成分数量的快速方法。英国数学统计心理学杂志56（1）：119-125·doi:10.1348/000711003321645386
[25]	Kroonenberg PM（2008）应用多元数据分析。霍博肯Ebooks公司·Zbl 1160.62002号 ·数字对象标识代码：10.1002/9780470238004
[26]	Kroonenberg PM，Van der Voort THA（1987）乘法分解Van interacties bij oordelen over de werkelijkheidswarde Van televiefilms[乘法分解交互以判断电视电影的真实性]。宽泰提夫方法8:117-144
[27]	Lebart A，Morineau A，Warwick K（1984）多变量统计描述性分析。纽约威利·Zbl 0658.62069号
[28]	Lee SX，McLachlan GJ（2013），关于斜正态分布和斜t分布的混合。高级数据分析分类7（3）：241-266·Zbl 1273.62115号 ·doi:10.1007/s11634-013-0132-8
[29]	Lin T-I，McLachlan GJ，Lee SX（2013）使用受限多元偏态分布扩展因子模型的混合。阿西夫：1307:1748·Zbl 1328.62378号
[30]	Lin T-I（2009）多元正态混合模型的最大似然估计。多变量分析杂志100:257-265·Zbl 1152.62034号 ·doi:10.1016/j.jmva.2008.04.010
[31]	Lin T-I（2010）使用多元斜T分布的稳健混合建模。统计计算20（3）：343-356·doi:10.1007/s11222-009-9128-9
[32]	Lin T-I，McNicholas PD，Hsiu JH（2014）通过节约型T混合模型捕获模式。统计概率Lett 88:80-87·Zbl 1369.62131号 ·doi:10.1016/j.spl.2014.01.015
[33]	Markos A、Iodice D’Enza A、Van de Velden M（2013）clustrd:联合降维和聚类方法。R包版本0.1.2
[34]	Maronna RA，Zamar RH（2002）高维数据集位置和离散度的稳健估计。技术计量学44（4）：307-317·doi:10.1198/004017002188618509
[35]	McLachlan GJ，Peel D（2000b）因子分析仪混合物。收录：Morgan Kaufman SF（ed）第十七届机器学习国际会议的会议记录，第599-606页
[36]	McLachlan GJ，Peel D，Bean RW（2003），利用混合因子分析仪模拟高维数据。计算统计数据分析41:379-388·Zbl 1256.62036号 ·doi:10.1016/S0167-9473（02）00183-4
[37]	McLachlan GJ，Peel D（2000a）有限混合模型。Wiley Interscience，纽约·Zbl 0963.62061号 ·doi:10.1002/0471721182
[38]	McNicholas PD、Jampani KR、McDaid AF、Murphy TB、Banks L（2011）pgmm:简约高斯混合模型。R包版本1:1
[39]	McNicholas SM、McNichoras PD、Browne RP（2013）《方差-γ分布的混合》。arXiv公司：1309.2695·Zbl 1381.62187号
[40]	McNicholas PD，Murphy T（2008）简约高斯混合模型。统计计算18（3）：285-296·doi:10.1007/s11222-008-9056-0
[41]	Murray PM、Browne RB、McNicholas PD（2014）《偏态因子分析仪的混合物》。计算统计数据分析77:326-335·Zbl 1506.62132号 ·doi:10.1016/j.csda.2014.03.012
[42]	Palumbo F、Vistocco D、Morineau A（2008）《巨大多维数据可视化：回到新计算机时代主坐标和树状图的优点》。In:Chun-houh Chen WH，Unwin A（编辑）数据可视化手册。施普林格，第349-387页·Zbl 1147.68464号
[43]	Rachev ST、Klebanov LB、Stoyanov SV、Fabozzi FJ（2013）概率统计理论中的距离方法。施普林格·Zbl 1280.60005号
[44]	Rocci R，Gattone SA，Vichi M（2011）一种新的降维方法：因子判别k-均值。J类28（2）：210-226·Zbl 1226.62062号 ·doi:10.1007/s00357-011-9085-9
[45]	Steane MA、McNicholas PD、Yada R（2012）通过多元t因子分析仪的混合物进行基于模型的分类。公共统计模拟计算41（4）：510-523·Zbl 1294.62142号 ·doi:10.1080/03610918.2011.595984
[46]	Stute W，Zhu LX（1995）基于投影寻踪的k-means聚类的渐近性。Sankhyá57（3）：462-471·Zbl 0857.62064号
[47]	Subedi S，McNicholas PD（2014）通过正态逆高斯分布的混合物进行聚类的变分贝叶斯近似。高级数据分析分类8（2）：167-193·Zbl 1459.62122号 ·doi:10.1007/s11634-014-0165-7
[48]	MathWorks Inc.（2007）MATLAB-技术计算语言，7.5版。Natick MathWorks公司
[49]	Timmerman ME、Ceulemans E、Roover K、Leeuwen K（2013）子空间K-means聚类。行为研究方法研究45（4）：1011-1023
[50]	Timmerman ME、Ceulemans E、Kiers HAL、Vichi M（2010）重新考虑了因子和约化k均值。计算统计数据分析54（7）：1858-1871·Zbl 1284.62396号 ·doi:10.1016/j.csda.2010.02.009
[51]	Timmerman ME，Kiers HAL（2000）三模主成分分析：选择成分数量和对局部最优的敏感性。英国数学统计心理学杂志53（1）：1-16·doi:10.1348/000711000159132
[52]	Tortora，C.和M.Marino（2014年）。大型社会数据集上因子PD-聚类的稳健性和稳定性分析。D.Vicari、A.Okada、G.Ragozini和C.Weihs（编辑），《行为和社会科学中复杂数据的分析和建模》，第273-281页。施普林格
[53]	Tortora C、Gettler Summa M、Palumbo F（2013）因子PD-聚类。收录：Berthold UL、Dirk V（ed）《自然与生命的算法》，第115-123页
[54]	Tortora C、McNicholas PD、Browne RP（2015）广义双曲因子分析仪的混合物。高级数据分析分类（出版中）·Zbl 1414.62278号
[55]	Tortora C，McNicholas PD（2014）FPD聚类：PD聚类和因子PD聚类。R包版本1.0
[56]	Tortora C，Palumbo F（2014）FPDC。MATLAB和统计工具箱发行版（2012a）The MathWorks Inc.Natick
[57]	Tucker LR（1966）关于三模式因子分析的一些数学注释。《心理测量学》31（3）：279-311·doi:10.1007/BF02289464
[58]	Vermunt JK（2011）K-means的表现可能与混合模型聚类一样好，但也可能更差：Steinley和Brusco（2011）的评论。心理学方法16（1）：82-88·doi:10.1037/a0020144
[59]	Vichi M，Kiers HAL（2001）双向数据的因子k均值分析。计算统计数据分析37:29-64·Zbl 1051.62056号 ·doi:10.1016/S0167-9473（00）00064-5
[60]	Vichi M，Saporta G（2009），聚类和不相交主成分分析。计算统计数据分析53（8）：3194-3208·Zbl 1453.62230号 ·doi:10.1016/j.csda.2008.05.028
[61]	Vrbik I，McNicholas PD（2014）基于模型的聚类和分类的简约斜交混合模型。计算统计数据分析71:196-210·Zbl 1471.62202号 ·doi:10.1016/j.csda.2013.07.008
[62]	Yamamoto M，Hwang H（2014）具有降维和子空间分离的聚类分析的一般公式。行为测量学41:115-129·doi:10.2333/bhmk.41.115
[63]	Zadeh LA（1965）模糊集。信息控制8（3）：338-353·兹伯利0139.24606 ·doi:10.1016/S0019-9958（65）90241-X

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文件类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

因子概率距离聚类（FPDC）：一种新的聚类方法。（英语） Zbl 1414.62279号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

因子概率距离聚类（FPDC）：一种新的聚类方法。 （英语） Zbl 1414.62279号

MSC公司：

关键词：

软件：

参考文献：

因子概率距离聚类（FPDC）：一种新的聚类方法。（英语） Zbl 1414.62279号