×

增强主方向分裂聚类。 (英语) Zbl 1209.68489号

摘要:尽管数据聚类有着悠久的历史,大量的研究致力于众多聚类技术的发展,但仍然存在重大挑战。其中最重要的是与高数据维度相关。利用主成分分析驱动的信息,一类特殊的聚类算法在处理此类数据集方面非常成功。在这项工作中,我们试图加深我们对这种方法可以实现什么的理解。我们试图从理论上发现数据中真实簇与它们在主成分上的投影分布之间的关系。基于这些发现,我们为层次划分聚类中涉及的各个步骤提出了适当的标准,并将其编译为新的算法。所提出的算法需要最少的用户定义参数,并且具有理想的特性,能够为数据中存在的簇数提供近似值。实验结果表明,所提技术在模拟和实际数据场景中都是有效的。

理学硕士:

68吨10 模式识别、语音识别
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Tryon,C.,《聚类分析》(1939年),爱德华兄弟:密歇根州安娜堡爱德华兄弟·Zbl 0080.13203号
[2] M.Steinbach,G.Karypis,V.Kumar,《文档聚类技术的比较》,收录于:KDD文本挖掘研讨会,2000年。;M.Steinbach,G.Karypis,V.Kumar,《文档聚类技术的比较》,收录于:KDD文本挖掘研讨会,2000年。
[3] Hartigan,J。;Wong,M.,A\(k\)-均值聚类算法,应用统计学,28,100-108(1979)·Zbl 0447.62062号
[4] 迪伦,I.S。;Modha,D.S.,使用聚类对大型稀疏文本数据进行概念分解,机器学习,42,1,143-175(2001)·兹伯利0970.68167
[5] 麦克拉克伦,G。;Basford,K.,《混合模型:推断及其在聚类中的应用》(1988),马塞尔·德克尔·Zbl 0697.62050号
[6] 桑德,J。;埃斯特,M。;Kriegel,H.-P。;Xu,X.,空间数据库中基于密度的聚类:算法GDBSCAN及其应用,数据挖掘和知识发现,2,2,169-194(1998)
[7] Bellman,R.,《自适应控制过程:导览》(1961),普林斯顿大学出版社:普林斯顿大学出版,新泽西州普林斯顿·兹伯利0103.12901
[8] M.Steinbach,L.Ertöz,V.Kumar,《高维数据聚类的挑战》,《统计物理中的新视野:在经济物理、生物信息学和模式识别中的应用》,2003年。;M.Steinbach,L.Ertöz,V.Kumar,《高维数据聚类的挑战》,《统计物理学中的新视角:在经济学、生物信息学和模式识别中的应用》,2003年。
[9] 拜尔,K.S。;Goldstein,J。;Ramakrishnan,R。;《什么时候“最近的邻居”有意义》(第七届数据库理论国际会议(1999)),217-235
[10] A.K.Jain,R.C.Dubes,《聚类数据的算法》,新泽西州普伦蒂斯·霍尔,1988年。;A.K.Jain,R.C.Dubes,《聚类数据的算法》,新泽西州普伦蒂斯·霍尔,1988年·Zbl 0665.62061号
[11] Lax,P.D.,线性代数及其应用(2007),Wiley-Interscience:Wiley-Interscience纽约,美国·Zbl 1152.15001号
[12] Boley,D.,主方向分割,数据挖掘和知识发现,2,4,325-344(1998)
[13] Deerwester,S.公司。;Dumais,S。;Furnas,G。;Landauer,T。;Harshman,R.,《利用潜在语义分析进行索引》,《美国信息科学学会杂志》,41,6,391-407(1990)
[14] 斜槽,C。;Yang,Y.,《患者事件分类和检索的统计方法概述》,《医学信息方法》,34,1-2,104-110(1995)
[15] S.Tasoulis,D.Tasouli,《改进主方向分裂聚类》,载于:第14届ACM SIGKDD知识发现和数据挖掘国际会议(KDD 2008),使用矩阵和张量进行数据挖掘研讨会,美国拉斯维加斯,2008年。;S.Tasoulis,D.Tasouli,《改进主方向分裂聚类》,载于:第14届ACM SIGKDD知识发现和数据挖掘国际会议(KDD 2008),使用矩阵和张量进行数据挖掘研讨会,美国拉斯维加斯,2008年·Zbl 1209.68489号
[16] D.Zeimpekis,E.Gallopoulos,PDDP(l):走向灵活的主方向除法划分聚类算法,见:D.Boley,I.Dhillon,J.Ghosh,J.Kogan(编辑),IEEE ICDM’03大型数据集聚类研讨会论文集,佛罗里达州墨尔本,2003年,第26-35页。;D.Zeimpekis,E.Gallopoulos,PDDP(l):走向灵活的主方向除法划分聚类算法,见:D.Boley,I.Dhillon,J.Ghosh,J.Kogan(编辑),IEEE ICDM’03大型数据集聚类研讨会论文集,佛罗里达州墨尔本,2003年,第26-35页。
[17] I.S.Dhillon,《使用二部谱图划分对文档和单词进行共聚类》,载于:《第七届ACM SIGKDD国际知识发现和数据挖掘会议论文集》,美国纽约州纽约市ACM,2001年,第269-274页。;I.S.Dhillon,《使用二部谱图划分对文档和单词进行共聚类》,载于《第七届ACM SIGKDD国际知识发现和数据挖掘会议论文集》,美国纽约州纽约市ACM,2001年,第269-274页。
[18] I.Dhillon,J.Kogan,C.Nicholas,特征选择和文档聚类,收录于:文本挖掘综合调查,2003年,第73-100页。;I.Dhillon,J.Kogan,C.Nicholas,特征选择和文档聚类,收录于:文本挖掘综合调查,2003年,第73-100页。
[19] Nilsson,M.,使用非贪婪主方向分割的层次聚类,信息检索,5,4,311-321(2002)
[20] 泽Impukis,D。;Gallopoulos,E.,使用核和k-means指导的主方向划分,(文本挖掘综述II:聚类、分类和检索(2007)),45-64
[21] 盖恩,I。;von Luxburg,美国。;威廉姆森,R.,《集群:科学还是艺术?》?,(NIPS集群理论研讨会(2009年))
[22] Wand,M.P。;Jones,M.C.,Kernel Smoothing(1995),查普曼和霍尔/CRC:美国佛罗里达州查普曼与霍尔/CRC·Zbl 0854.62043号
[23] B.A.Turlach,《核密度估计中的带宽选择:综述》,收录于:CORE和统计研究所,1993年,第23-493页。;B.A.Turlach,《核密度估计中的带宽选择:综述》,收录于:CORE和统计研究所,1993年,第23-493页。
[24] Sarda,P.,平滑分布函数的平滑参数选择,《统计规划与推断杂志》,35,1,65-75(1993)·Zbl 0769.62030号
[25] 奥特曼,N。;Léger,C.,核分布函数估计的带宽选择,《统计规划与推理杂志》,46,2195-214(1995)·Zbl 0833.62035号
[26] B.E.Hansen,非参数分布估计的带宽选择,威斯康星大学博士论文,手稿,2004年。;B.E.Hansen,非参数分布估计的带宽选择,威斯康星大学博士论文,手稿,2004年。
[27] 西奥多里迪斯,S。;Koutroumbas,K.,模式识别(2006),学术出版社:美国圣地亚哥学术出版社·Zbl 1093.68103号
[28] 球,G.H。;Hall,D.J.,《多元数据汇总的聚类技术》,《行为科学》,第12期,第153-155页(1967年)
[29] 比尔纳基,C。;Celeux,G。;Govaert,G.,《用综合完全似然评估聚类的混合模型》,IEEE模式分析和机器智能汇刊,22,7,719-725(2000)
[30] Feng,Y。;哈默利,G。;Elkan,C.,PG-means:学习数据中簇的数量,神经信息处理系统进展,19393(2007)
[31] 佩利格,D。;Moore,A.,X-means:扩展k-means并有效估计聚类数,(第17届机器学习国际会议论文集(2000)),727-734
[32] 张,T。;Ramakrishnan,R。;Livny,M.,Birch:一种用于超大数据库的高效数据聚类方法,(ACM SIGMOD国际数据管理会议(1996)),103-114
[33] S.Guha,R.Rastogi,K.Shim,《CURE:大型数据库聚类的有效算法》,载《1998年ACM-SIGMOD国际数据管理会议论文集》,西雅图,1998年,第73-84页。;S.Guha,R.Rastogi,K.Shim,《CURE:大型数据库聚类的有效算法》,载《1998年ACM-SIGMOD国际数据管理会议论文集》,西雅图,1998年,第73-84页·Zbl 1006.68661号
[34] Karypis,G。;韩,E。;Kumar,V.,CHAMELEON:使用动态建模的分层聚类算法,IEEE Computer,32,8,68-75(1999)
[35] Hinneburg,A。;Keim,D.,《最优网格聚类:打破高维聚类中的维数诅咒》(《第25届超大数据库国际会议论文集》(1999)),506-517
[36] 阿格拉瓦尔,R。;Gehrke,J。;Gunopulos,D。;Raghavan,P.,高维数据的自动子空间聚类,数据挖掘和知识发现,11,1,5-33(2005)
[37] Kruengkrai,C。;索恩莱特拉姆瓦尼奇,V。;Isahara,H.,为无监督聚类改进除法分割算法,(第三届混合智能系统国际会议论文集(2003)),535-542
[38] Young,D.,线性最近邻统计,Biometric,69,2,477-480(1982)·Zbl 0494.62025号
[39] 杨,C。;杜蕾斯瓦米,R。;Gumerov,N.A。;Davis,L.,改进的快速高斯变换和有效的核密度估计,(第九届IEEE国际计算机视觉会议论文集(2003)),664-671
[40] Greengard,L。;应变,J.,快速高斯变换,SIAM科学与统计计算杂志,12,1,79-94(1991)·Zbl 0721.65089号
[41] Berkhin,P.,《聚类数据挖掘技术的调查》(Kogan,J.;Nicholas,C.;Teboulle,M.,《多维数据分组:聚类的最新进展》(2006),施普林格:施普林格柏林),25-72·兹比尔1087.68092
[42] Kogan,J.,《大型和高维数据聚类导论》(2007),剑桥大学出版社:剑桥大学出版社,美国纽约·Zbl 1183.62106号
[43] 罗森博格,A。;Hirschberg,J.,V-measure:一种基于条件熵的外部聚类评估方法,(2007年自然语言处理和计算自然语言学习实证方法联合会议(EMNLP-CoNLL)(2007)),410-420
[44] C.Blake,C.Merz,加州大学信息与计算机科学学院计算机学习数据库UCI知识库,加州欧文,1998年。;C.Blake,C.Merz,加州大学信息与计算机科学学院计算机学习数据库UCI知识库,加州欧文,1998年。
[45] Tasoulis,D.K。;Vrahatis,M.N.,在度量空间中推广k-Windows聚类算法,数学与计算机建模,46,1-2,268-277(2007)
[46] Huang,Z.,用分类值聚类大数据集的k-means算法的扩展,数据挖掘和知识发现,2,3,283-304(1998)
[47] Fisher,D.H.,通过增量概念聚类获取知识,机器学习,2,2,139-172(1987)
[48] Michalski,R.S。;Stepp,R.E.,分类的自动构建:概念聚类与数值分类,IEEE模式分析与机器智能汇刊,5,4,396-409(1983)
[49] R.J.Alcock,Y.Manolopoulos,《采用基于特征的方法的时间序列相似性查询》,载于:第七届希腊信息学会议,希腊伊奥安尼纳,1999年。;R.J.Alcock,Y.Manolopoulos,《采用基于特征的方法的时间序列相似性查询》,载于《第七届希腊信息学会议》,希腊伊奥安尼纳,1999年。
[50] 阿龙,美国。;北巴尔凯。;诺特曼,D。;Gish,K。;伊巴拉,S。;Mack博士。;Levine,A.,通过寡核苷酸阵列探测肿瘤和正常结肠组织的聚类分析揭示的广泛基因表达模式,美国国家科学院学报,96,12,6745-6750(1999)
[51] Alizadeh,A.A。;艾森,M.B。;Davis,R.E。;马,C。;Lossos,I.S。;罗森瓦尔德,A。;Boldrick,J.C。;萨贝特,H。;Tran,T。;Yu,X.,通过基因表达谱确定的弥漫性大b细胞淋巴瘤的不同类型,《自然》,403503-511(2000)
[52] 辛格,D。;Febbo,P.G。;Ross,K。;Jackson,D.G。;马诺拉,J。;拉德,C。;Tamayo,P。;Renshaw,A.A。;阿米科公司。;Richie,J.P.,《前列腺癌临床行为的基因表达相关性》,《癌细胞》,1,2,203-209(2002)
[53] Yeoh,E.J。;罗斯,M.E。;Shurtleff,S.A。;威廉姆斯,W.K。;帕特尔,D。;马赫福兹(Mahfouz,R.)。;贝姆,F.G。;雷蒙迪,南卡罗来纳州。;Relling,M.V.公司。;Patel,A.,通过基因表达谱对儿童急性淋巴细胞白血病的分类、亚型发现和预后预测,《癌症细胞》,1,2,133-143(2002)
[54] 塔苏利斯,D。;普拉吉亚科斯,V。;Vrahatis,M.,mRNA表达谱中的无监督聚类,生物和医学中的计算机,361126-1142(2006)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。