×

一种用于聚类多元数据的自动稳健算法。 (英语) 兹比尔1518.62010

摘要:聚类分析广泛应用于市场营销、生物学、医学、金融、数据挖掘、图像处理、数据分析和模式识别等领域。例如,聚类可以用于:通过发现客户群中不同的群体,根据他们的购买模式来表征客户群体;推导动植物分类法,对具有类似功能的基因进行分类,并深入了解种群的固有结构;识别癌细胞;并检测信用卡欺诈。k-means、Hierarchical和自组织(Kohonen)映射是广泛使用的聚类算法。实践证明,这些聚类算法有一些明显的局限性和缺点。这篇手稿给出了一个自动的稳健算法,用于聚类多变量数据,而不需要关于聚类数的先验信息。利用位置稳健估计和协方差矩阵定义马氏距离和相应的聚类半径。该算法的设计可以控制掩蔽和淹没效果。它自动将给定的数据集划分为多个簇。演示了与该算法相关的一些属性,这些属性有助于找到能够容纳大偏差观测值的簇。讨论了一种避免使用固定截止值来确定异常值的方法。将该算法与现有的聚类算法和鲁棒多离群点检测方法进行了性能比较。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62J05型 线性回归;混合模型
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Forgy,E.W.,《多元数据的聚类分析:分类的效率与可解释性》,生物统计学,21768-769(1965)
[2] J.MacQueen,《多元观测分类和分析的一些方法》,载于《第五届伯克利数理统计与概率研讨会论文集》,第1卷,第14期,1967年,第281-297页·Zbl 0214.46201号
[3] 约翰逊·R·A。;Wichern,D.W.,《应用多元统计分析》,第6卷(2002年),培生出版社,普伦蒂斯·霍尔
[4] 北卡罗来纳州博尔沙科娃。;阿祖阿杰,F。;坎宁安,P.,《集群有效性评估的知识驱动方法》,生物信息学,21,10,2546-2547(2005)
[5] 考夫曼,L。;Rousseeuw,P.J.,《在数据中发现群体:聚类分析导论》,第344卷(2009年),John Wiley and Sons
[6] Posse,C.,《基于层次模型的大型数据集聚类》,J.Comput。图表。统计人员。,10, 3, 464-486 (2001)
[7] Soffriti,G.,《识别数据矩阵中的多个聚类结构》,Comm.Statist。仿真计算。,32, 4, 1151-1177 (2003) ·Zbl 1100.62581号
[8] Meilă,M.,《比较聚类——一种基于信息的距离》,J.Multivariate Anal。,98, 5, 873-895 (2007) ·Zbl 1298.91124号
[9] Du,K.L.,《聚类:神经网络方法》,神经网络。,23, 89-107 (2010) ·Zbl 1397.62219号
[10] 佩尼亚,D。;普列托·F·J。;Viladomat,J.,峰度矩阵的特征向量是揭示集群结构的有趣方向,J.多元分析。,101, 9, 1995-2007 (2010) ·Zbl 1203.62114号
[11] Hartigan,J.A。;Wong,M.A.,《k均值聚类算法》,应用。《统计》,第28卷,第100-108页(1979年)·Zbl 0447.62062号
[12] 麦克拉克伦,G.J。;Khan,N.,《关于用基于混合模型的组织样本聚类测试聚类数的重采样方法》,J.Multivariate Anal。,90, 1, 90-105 (2004) ·Zbl 1052.65006号
[13] 佩克·R。;费希尔,L。;Ness,J.V.,集群数量的近似置信区间,J.Amer。统计师。协会,84,184-191(2012)·Zbl 0676.62052号
[14] Kohonen,T.,拓扑正确特征图的自组织形成,Biol。网络。,43, 1, 59-69 (1982) ·Zbl 0466.9202号
[15] Kohonen,T.,《记忆的各个方面》(In Self Organization and Association memory,1989),施普林格-柏林-海德堡出版社,1-29
[16] Rousseeuw,P.J。;Leroy,A.M.,《稳健回归与异常检测》,第589卷(2005),John Wiley&Sons
[17] Wisnowski,J.W。;蒙哥马利特区。;Simpson,J.R.,线性回归模型中多个离群值检测程序的比较分析,计算。统计师。数据分析。,36, 3, 351-382 (2001) ·Zbl 1038.62062号
[18] 维多利亚,H.J。;Austin,J.,《离群值检测方法的调查》,Artif。智力。修订版,22,85-126(2004)·Zbl 1101.68023号
[19] Rousseeuw,P.J.,最小二乘回归中值,J.Amer。统计师。协会,79871-880(1984)·Zbl 0547.62046号
[20] Hadi,A.S.,《识别多元数据中的多个离群值》,J.R.Stat.Soc.Ser。《美国统计年鉴》。,761-771 (1992)
[21] Hadi,A.S.,《多元样本中异常值检测方法的改进》,J.R.Stat.Soc.Ser。《美国统计年鉴》。,39, 3-396 (1994) ·Zbl 0800.62347号
[22] Walczak,B。;Massart,D.L.,《稳健主成分回归作为异常值检测工具》,Chemmeter。智力。实验室系统。,27, 1, 41-54 (1995)
[23] 哈迪,A.S。;Simonoff,J.S.,回归数据的一个更稳健的离群值标识符,Bull。国际统计保险。,14, 281-282 (1997)
[24] Alih,E。;Ong,H.C.,《回归分析中基于稳健聚类的多元离群值诊断和参数估计》,Comm.Statist。仿真计算。,46, 1, 244-260 (2014) ·Zbl 1359.62230号
[25] Alih,E。;Ong,H.C.,线性模型中异方差的抗离群检验,J.Appl。Stat.,42,8,1617-1634(2015)·Zbl 1514.62396号
[26] Chatterjee,S。;Roy,A.,《web软件故障预测的新算法》,Qual。Reliab公司。《工程国际》,31,8,1517-1535(2015)
[27] Rousseeuw,P.J。;van Zomeren,B.C.,《揭示多元异常值和杠杆点》,J.Amer。统计师。协会,85、411、633-639(1990)
[28] 汉佩尔,F.R。;Ronchetti,E.M。;Rousseeuw,P.J。;Stahel,W.,《稳健统计》(The Approach Based on Influence Functions,1986),威利出版社:纽约威利出版社)·Zbl 0593.62027号
[29] Maronna,R.A。;Yohai,V.J.,多元位置和散布的稳健估计,(Kotz,S.;Read,C.;Banks,D.,《统计科学百科全书更新》,第2卷(1998年),Wiley:Wiley New York,NY),589-596
[30] Rousseeuw,P.J.,高崩溃点多元估计,数学。Stat.应用。,8, 283-297 (1985) ·兹比尔0609.62054
[31] Rousseeuw,P.J。;Driessen,K.V.,最小协方差行列式估计的快速算法,《技术计量学》,41,3,212-223(1999)
[32] Billor,N。;哈迪,A.S。;Velleman,P.F.,BACON:块自适应计算效率离群值提名器,计算。统计师。数据分析。,34, 279-298 (2000) ·Zbl 1145.62314号
[33] Vishwakarma,G.K。;保罗,C。;Elsawah,A.M.,《使用反向传播神经网络在时间序列模型中检测离群值的算法》,J.King Saud Univ.,Eng.Sci。,32, 8, 3328-3336 (2020)
[34] Vishwakarma,G.K。;保罗,C。;Elsawah,A.M.,检测非平稳多元时间序列中异常值的混合前馈神经网络算法,专家系统。申请。,184,第115545条pp.(2021)
[35] 黄,S。;康,Z。;徐,Z。;Liu,Q.,Robust deep K-means:一种有效且简单的数据聚类方法,模式识别。,117,第107996条pp.(2021)
[36] 南达尔,P。;Bura,D。;Singh,M.,《使用启发式方法设计的高效数据聚类算法》,《国际数据分析》。技术战略。,13, 1/2, 3-14 (2021)
[37] 萨哈,J。;Mukherjee,J.,CNAK:聚类数辅助的K-means,模式识别。,110,第107625条pp.(2021)
[38] Hadi,A.S.,不同位置、椭圆形状和方向的多元簇之间的新距离,模式识别。,129,第108780条pp.(2022)
[39] Elsawah,A.M。;Vishwakarma,G.K.,通过四元线性码进行非规则分数阶乘四层设计的系统构建方法,计算。申请。数学。,41, 323 (2022) ·Zbl 1513.62156号
[40] Elsawah,A.M.,《多重加倍:优化两级实验设计的一种简单有效的构造技术》,Statist。论文,622923-2967(2021)·Zbl 1483.62137号
[41] Kondylis,A。;哈迪,A.S。;Werner,M.,《等级缺陷数据的培根方法》,Pak。J.Stat.运营商。Res.,8,359-379(2012),《二十一世纪的统计:纪念Mir Masoom Ali博士七十五岁生日的特别卷》·Zbl 1509.62250号
[42] Kohonen,T.,通过自组织映射探索超大数据库,(国际神经网络会议,第1卷(1997)),PL1-PL6
[43] Malsburg,C.,《纹状体皮层中方向敏感细胞的自组织》,Biol。网络。,14, 2, 85-100 (1973)
[44] Tamayo,P。;斯隆,D。;梅西洛夫,J。;朱,Q。;Kitareewan,S。;德米特罗夫斯基,E。;兰德,E.S。;Golub,T.R.和,用自组织图解释基因表达模式:造血分化的方法和应用,Proc。国家。阿卡德。科学。,96, 6, 2907-2912 (1999)
[45] 霍金斯博士。;Bradu,D。;Kass,G.V.,使用元素集确定多元回归数据中几个离群值的位置,技术计量学,26,3,197-208(1984)
[46] 巴塔切吉,V。;Mukhopadhyay,P。;辛格,S。;约翰逊,C。;Philipose,J.T。;华纳公司。;Greene,R.M。;Pisano,M.M.,《口腔面部发育中的神经嵴和中胚层谱系依赖性基因表达,分化》,75,5,463-477(2007)
[47] Dunn,J.C.,《分离良好的簇和模糊划分》,J.Cybern。,4, 95-104 (1974) ·Zbl 0304.68093号
[48] Filzmoser,P。;加勒特,R.G。;Reimann,C.,勘探地球化学中的多元异常值检测,计算。地质科学。,31, 5, 579-587 (2005)
[49] 新泽西州德莱尼。;Chatterjee,S.,《自举和交叉验证在岭回归中的应用》,J.Bus。经济。统计人员。,4, 2, 255-262 (1986)
[50] 彭德尔顿,O.J。;Hocking,R.R.,使用过程矩阵的多元线性回归诊断技术,SAS用户组国际,6197-208(1981)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。