×

在不知道聚类数的情况下,基于统一相似性度量的类别和数字属性数据聚类。 (英语) Zbl 1316.68125号

摘要:现有的大多数聚类方法仅适用于纯数值或类别数据,但不适用于两者。一般来说,对由数值属性和类别属性组成的混合数据进行聚类是一项重要的任务,因为类别数据和数值数据的相似性度量之间存在着巨大的差距。因此,本文提出了一个基于对象聚类相似性概念的通用聚类框架,并给出了一个统一的相似性度量,它可以简单地应用于具有类别、数值和混合属性的数据。因此,开发了一种迭代聚类算法,并在不同的基准数据集上进行了实验验证。此外,为了避免聚类数的选择困难问题,我们在所提出的聚类框架内进一步开发了一种惩罚竞争学习算法。嵌入的竞争和惩罚机制使该改进算法能够通过逐步消除冗余簇来自动确定簇数。实验结果表明了该方法的有效性。

MSC公司:

68吨10 模式识别、语音识别
62小时30分 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Michalski,R.S。;I.布拉特科。;Kubat,M.,《机器学习和数据挖掘方法与应用》(1998年),威利出版社:威利纽约
[2] 蔡伟(Cai,W.)。;陈,S。;Zhang,D.,结合局部信息的快速鲁棒模糊c均值聚类算法,用于图像分割,模式识别,40,3,825-838(2007)·Zbl 1118.68133号
[3] Liew,A.W.-C。;Yan,H。;Yang,M.,生物信息学新兴领域的模式识别技术综述,模式识别,38,11,2055-2073(2005)
[5] Dempster,A.P。;莱尔德,新墨西哥州。;Rubin,D.B.,《通过EM算法从不完整数据中获取最大似然》,《皇家统计学会杂志》,B辑(方法学),39,1,1-38(1977)·Zbl 0364.62022号
[6] Hsu,C.C.,分类数据的广义自组织映射,IEEE神经网络汇刊,17,2,294-304(2006)
[7] 李,C。;Biswas,G.,混合数字和标称数据的无监督学习,IEEE知识与数据工程汇刊,14,4,673-690(2002)
[9] 徐,L。;Krzyzak,A。;Oja,E.,Rival惩罚竞争学习的聚类分析、RBF网络和曲线检测,IEEE神经网络学报,4,4,636-648(1993)
[10] 廖,H。;Ng,M.K.,聚类数自动选择的分类数据聚类,模糊信息与工程,1,1,5-25(2009)·Zbl 1275.62052号
[11] Cheung,Y.M.,基于竞争惩罚EM的最大加权似然法,用于具有自动模型选择的密度混合聚类,IEEE知识与数据工程汇刊,17,6,750-761(2005)
[13] Guha,S。;Rastogi,R。;Shim,K.,ROCKa分类属性鲁棒聚类算法,信息系统,25,5,345-366(2001)
[14] 塞萨里奥,E。;Manco,G。;Ortale,R.,高维分类数据的自顶向下无参数聚类,IEEE知识与数据工程学报,19,12,1607-1624(2007)
[19] Goodall,D.W.,《基于概率的新相似性指数》,《生物特征》,22,4,882-907(1966)
[20] 何,Z。;Xu,X。;Deng,S.,用可伸缩算法对具有混合类型属性的大型数据集进行聚类,《国际智能系统杂志》,201077-1089(2005)·Zbl 1101.68810号
[23] Huang,Z.,用分类值聚类大数据集的(k)模式算法的扩展,数据挖掘和知识发现,2,3,283-304(1998)
[24] 黄,Z。;Ng,M.,关于“(k)模式聚类”的注释,《分类杂志》,20,2,257-261(2003)·Zbl 1083.91064号
[26] 曹,F。;梁,J。;Bai,L.,分类数据聚类的新初始化方法,应用专家系统,36,7,10223-10228(2009)
[27] Ng,M.K.先生。;李,M.J。;黄J.Z。;He,Z.,《关于(k)模式聚类算法中差异性度量的影响》,IEEE模式分析和机器智能事务,29,3,503-507(2007)
[28] Akaike,H.,统计模型识别的新视角,IEEE自动控制汇刊,19,6716-723(1974)·Zbl 0314.62039号
[29] Schwarz,G.,估算模型的维度,《统计年鉴》,6,2,461-464(1978)·Zbl 0379.62005年
[31] Filippone,M。;卡马斯塔,F。;马苏利,F。;Rovetta,S.,《聚类的核和谱方法综述》,模式识别,41,1,176-190(2008)·Zbl 1122.68530号
[32] Jain,A.K.,《50年后的数据聚类——均值》,《模式识别字母》,31,8,651-666(2010)
[33] 巴萨克,J。;Krishnapuram,R.,通过构建无监督决策树进行可解释的层次聚类,IEEE知识与数据工程汇刊,17,1,121-132(2005)
[34] na,J.P。;Lozano,J。;naga,P.L.,“(k)均值算法四种初始化方法的实证比较”,《模式识别字母》,20,10,1027-1040(1999)
[35] Khan,S.S。;Ahmad,A.,《(k)均值聚类的聚类中心初始化算法》,《模式识别字母》,25,11,1293-1302(2004)
[36] Ahalt,南卡罗来纳州。;Krishnamurthy,A.K。;陈,P。;Melton,D.E.,矢量量化的竞争学习算法,神经网络,3,3,277-290(1990)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。