×

鲁棒双聚类:一种基于交替浓缩步骤的方法。 (英语) Zbl 1276.62040号

摘要:我们提出了两种算法,用于在存在离群值的情况下对数据矩阵进行稳健的双模划分。首先,我们将稳健(k)-均值过程扩展到双聚类的情况,然后我们稍微放宽了离群值的定义,并提出了一种更灵活和简约的策略,但无论如何,该策略本身就不那么稳健。我们讨论了算法的分解特性,并通过仿真和三个实际例子说明了这些方法。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] ATKINSON,A.C.、RIANI,M.和CERIOLI,A.(2004),用正向搜索探索多元数据,纽约:施普林格出版社·Zbl 1049.62057号
[2] BENNET,C.A.(1954),“测量误差对化学过程控制的影响”,工业质量控制11:17-20。
[3] BITTNER,M.,MELTZER,P.,CHEN,Y.,姜瑜,SEFTOR,E.,HENDRIX,M.和SONDAK,V.(2000),“通过基因表达谱对皮肤恶性黑色素瘤进行分子分类”,《自然》406:536–540·doi:10.1038/35020115
[4] BOCK,H.-H.(1996),“聚类分析中的概率模型”,计算统计与数据分析23:5-28·Zbl 0900.62324号 ·doi:10.1016/0167-9473(96)88919-5
[5] CHO,H.、DHILLON,I.S.、GUAN,Y.和SRA,S.(2004),“基因表达数据的最小平方和残留物共聚类”,第四届SIAM国际数据挖掘会议论文集,114-125。
[6] CLIMER,S.和ZHANG,W.(2006)《重新安排聚类:陷阱、补救和应用》,《机器学习研究杂志》7:919-943·Zbl 1222.68172号
[7] CUESTA-ALBERTOS,J.,GORDALIZA,A.和MATRàN,C.(1997),“修剪的k-均值:试图使量化器合理化”,《统计年鉴》25:553-576·Zbl 0878.62045号 ·doi:10.1214/aos/1031833664
[8] DONOHO,D.L.和HUBER,P.J.(1983年),《崩溃点的概念》,为埃里希·莱曼(Erich L.Lehmann)编辑,P.Bickel,K.Doksum和J.L.Jr.Hodges,加利福尼亚州贝尔蒙特:沃兹沃斯,157–184。
[9] FELLNER,W.H.(1986),“方差分量的稳健估计”,技术计量学28:51–60·Zbl 0597.62018号 ·doi:10.2307/1269603
[10] FISHER,W.(1969),《经济学中的聚类与聚合》,巴尔的摩:约翰·霍普金斯大学。
[11] FRALEY,C.和RAFTERY,A.E.(2002),“基于模型的聚类、判别分析和密度估计”,《美国统计协会杂志》97:611-631·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[12] GALLEGOS,M.T.和RITTER,G.(2005)“稳健的聚类分析方法”,《统计年鉴》33:347–380·Zbl 1064.62074号 ·doi:10.1214/009053604000000940
[13] GARCIA-ESCUDERO,L.A.和GORDALIZA,A.(1999),“k均值和修剪k均值的稳健性”,美国统计协会杂志94:956-969·Zbl 1072.62547号 ·数字对象标识代码:10.2307/2670010
[14] GARCIA-ESCUDERO,L.A.、GORDALIZA,A.和MATR ali N,C.(2003),“勘探数据分析中的裁剪工具”,计算与图形统计杂志12:434–449·doi:10.1198/1061860031806
[15] GOLDSTEIN,D.、GHOSH,D.和CONLON,E.(2002),“基因表达数据聚类中的统计问题”,《中国统计》12:219-241·Zbl 0997.62088号
[16] HAMPEL,F.R.(1971),“稳健性的一般定性定义”,《数理统计年鉴》42:1887-1896·Zbl 0229.62041号 ·doi:10.1214/aoms/1177693054
[17] HAMPEL,F.R.、ROUSSEUW,P.J.、RONCHETTI,E.和STAHEL,W.A.(1986),稳健统计:基于影响函数的方法,纽约:Wiley·Zbl 0593.62027号
[18] HARDIN,J.和ROCKE,D.(2004),“使用最小协方差行列式估计在多聚类环境中检测异常值”,计算统计与数据分析44:625–638·Zbl 1430.62133号 ·doi:10.1016/S0167-9473(02)00280-3
[19] HARTIGAN,J.A.(1972),“数据矩阵的直接聚类”,《美国统计协会杂志》67:123-129·doi:10.2307/2284710
[20] HODGES,J.L.Jr.(1967),“正态样本的效率和某些位置估计的极值容差”,载于《第五届伯克利数理统计与概率研讨会论文集》(第1卷),加州伯克利:加州大学出版社,第163-186页。
[21] HUBER,P.J.(1981),《稳健统计》,纽约:Wiley出版社·Zbl 0536.62025号
[22] HUBERT,L.和ARABIE,P.(1985年),“比较分区”,分类杂志2:193-218·Zbl 0587.62128号 ·doi:10.1007/BF01908075
[23] KAUFMAN,L.和ROUSSEEUW,P.J.(1990),《在数据中寻找群体》,纽约:Wiley出版社·Zbl 1345.62009号
[24] MADEIRA,S.C.和OLIVEIRA,A.L.(2004),“生物数据分析的双聚类算法:一项调查”,IEEE/ACM计算生物学和生物信息学汇刊1:24–45·doi:10.1109/TCBB.2004.2
[25] ROCCI,R.和VICHI,M.(2008),“双模多分区”,计算统计学和数据分析52:1984–2003·Zbl 1452.62463号 ·doi:10.1016/j.csda.2007.06.025
[26] ROUSSEEUW,P.J.(1984),“最小二乘回归中值”,《美国统计协会杂志》79:851-857·兹伯利0547.62046 ·doi:10.2307/2288718
[27] ROUSSEUW,P.J.和VAN DRIESSEN,K.(1999),“最小协方差行列式估计的快速算法”,技术计量学41:212-223·doi:10.2307/1270566
[28] ROUSSEEUW,P.J.和VAN DRIESEN,K.(2006),“大型数据集的计算LTS回归”,数据挖掘和知识发现12:29-45·doi:10.1007/s10618-005-0024-4
[29] SCHEPERS,J.、CEULEMANS,E.和VAN MECHELEN,I.(2008),“在不同复杂性的多模式划分模型中进行选择:四种模型选择标准的比较”,分类杂志25:67–85·Zbl 1260.62048号 ·doi:10.1007/s00357-008-9005-9
[30] VAN MECHELEN,I.、BOCK,H.H.和DE BOECK,P.(2004),“双模聚类方法:结构化概述”,《医学研究中的统计方法》13:363–394·Zbl 1053.62078号 ·doi:10.1191/0962280204sm373ra
[31] VICHI,M.(2000),“双重k均值聚类法用于对象和变量的同时分类”,《分类和数据分析进展》。分类、数据分析和知识组织研究,edd。S.Borra、R.Rocci和M.Schader,海德堡:施普林格,43–52岁。
[32] ZEWOTIR,T.和GALPIN,J.S.(2007),“线性混合模型中残差、杠杆和异常值的统一方法”,测试16:58–75·Zbl 1119.62070号 ·doi:10.1007/s11749-006-0001-2
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。