×

离散(k)-中值聚类的信息论特征选择。 (英语) Zbl 1478.62176号

摘要:我们提出了一种新的计算框架,将信息理论特征选择与离散中值聚类(DKM)相结合。DKM是一种与域相关的聚类算法,它需要样本之间的成对距离矩阵,可以任意定义为输入。在所提出的DKM聚类中,每个聚类的中心由一组样本表示,这些样本为每个特征维度导出一组单独的聚类。我们通过标准化互信息(NMI)得分评估每个特征的相关性基础使用所有功能和诱导该特征维度的簇。我们提出了一种光谱聚类分析(SCA)方法,利用相关NMI得分的平均值来确定聚类数。我们引入了基于过滤器和包装器的特征选择算法,该算法使用相关NMI得分生成特征的排名列表。我们创建一条信息增益曲线,并计算该曲线下的归一化面积,以量化信息增益并识别贡献特征。我们研究了我们用于聚类、SCA和模拟数据特征选择的信息理论框架的特性。我们证明SCA可以准确地识别模拟数据和公共基准数据集中的集群数量。我们还将该框架的聚类和特征选择性能与公共基准数据集和真实神经时间序列数据集上的其他域相关和域相关算法进行了比较。我们表明,DKM运行速度较快,性能更好。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Agrawal,R.、Gehrke,J.、Gunopulos,D.和Raghavan,P.(1998年)。用于数据挖掘应用的高维数据的自动子空间聚类。SIGMOD记录27(2), 94-105.
[2] Aloise,D.、Deshpande,A.、Hansen,P.和Popat,P.(2009年5月)。欧几里德平方和聚类的NP-hardness。机器学习75, 245-248. ·Zbl 1378.68047号
[3] Asuncion,A.和Newman,D.J.(2007年)。UCI机器学习库加利福尼亚州欧文:加利福尼亚大学·Zbl 0795.90060号
[4] 贝内特,KP;Mangasarian,OL,空间中两个集合的双线性分离,计算优化与应用,2207-227,(1993)·Zbl 0795.90060号 ·doi:10.1007/BF01299449
[5] Boutsidis C.、Mahoney M.W.、Drineas P.(2009年)。(k)-表示聚类问题的无监督特征选择。神经信息处理系统会议.
[6] 布莱德利,PS;Mangasarian,OL;Street,WN,通过凹最小化进行聚类,神经信息处理系统的进展,9,368-374,(1997)
[7] Chaovalitwingse,W.A.、Fan,Y.J.和Sachdeo,R.C.(2007年)。时间序列上的异常脑活动分类的最近邻。IEEE系统、人与控制论汇刊,A部分:系统与人37(6), 1005-1016.
[8] 华盛顿州Chaovalitwingse;范,YJ;Sachdeo,RC,《大脑异常活动分类的新型优化模型》,运筹学,561450-1460,(2008)·Zbl 1167.92325号 ·doi:10.1287/opre.1080.0573
[9] 华盛顿州Chaovalitwingse;Jeong,YS;Jeong,MK;丹麦语,SF;Wong,S,深部脑刺激手术中识别皮层下目标的模式识别方法,IEEE智能系统,26,54-63,(2011)·doi:10.1109/MIS.2011.56
[10] Charikar,M.、Guhab,S.、Tardos,E.和Shmoys,D.B.(2002年8月)。k中值问题的一个常数近似算法。计算机与系统科学杂志65(1), 129-149. ·Zbl 1023.90037号
[11] 查杰德,D;Lowe,TJ,\(m\)-具有相互通信的中值和\(m\)-中心问题:可解特例,运筹学,40,s56-s66,(1992)·Zbl 0761.90064号 ·doi:10.1287/opre.40.1.S56
[12] 电线,A;安布罗斯,C;Cockerez,J-P,基于Laplace混合的鲁棒聚类中的特征选择,模式识别快报,27627-635,(2006)·doi:10.1016/j.patrec.2005.09.028
[13] Dy、JG;Brodley,CE,《非监督学习的特征选择》,《机器学习研究杂志》,5845-889,(2004)·Zbl 1222.68187号
[14] 马里兰州弗雷德曼;Tarjan,RR,Fibonacci堆及其在改进网络优化算法中的应用,ACM杂志,34596-615,(1987)·Zbl 1412.68048号 ·doi:10.1145/28869.28874
[15] Garey,M.R.和Johnson,D.S.(1979年)。计算机与不相容性:NP完全性理论指南纽约:W.H.Freeman·Zbl 0411.68039号
[16] 霍雷尔,JA;米桑托内,LJ,颞叶连接切割导致的视觉辨别障碍,《科学》,193,336-338,(1976)·doi:10.1126/science.819992
[17] 拉塞米迪斯,LD;绍,D-S;Chaovalitwingse,W;Sackellares,JC;Pardalos,PM;Carney,公关;普林西比,JC;Prasad,A;维拉马尼,B;Tsakalis,K,自适应癫痫发作预测系统,IEEE生物医学工程学报,50616-627,(2003)·doi:10.1109/TBME.2003.810689
[18] Kullback,S;莱布勒,RA,《信息与充分性》,《数理统计年鉴》,22,49-86,(1951)·Zbl 0042.38403号 ·doi:10.1214/aoms/1177729694
[19] 法律,MHC;Figueiredo,MAT;Jain,AK,使用混合模型的同时特征选择和聚类,IEEE模式分析和机器智能汇刊,261154-1166,(2004)·doi:10.1109/TPAMI.2004.71
[20] Ledberg,A.、Bressler,S.L.、Ding,M.、Coppola,R.和Nakamura,R.(2007年1月)。大脑皮层的大规模视运动整合。大脑皮层17(1), 44-62.
[21] Lloyd,SP,PCM中的最小二乘量化,IEEE信息理论汇刊,28,129-137,(1982)·Zbl 0504.94015号 ·doi:10.1109/TIT.1982.1056489
[22] Mangasarian O.L.,Wild E.W.(2004)。在\(k\)-中值聚类中的特征选择。在:SIAM国际数据挖掘会议,高维数据聚类及其应用研讨会(第23-28页)。
[23] Manning,C.D.、Raghavan,P.和Schütze,H.(2008)。信息检索导论剑桥:剑桥大学出版社·Zbl 1160.68008号 ·doi:10.1017/CBO9780511809071
[24] MATLAB软件。(2011).MathWorks公司马萨诸塞州:Natick。
[25] 梅吉多,N;Supowit,KJ,关于一些常见几何位置问题的复杂性,SIAM计算杂志,13,182-196,(1984)·兹伯利0534.68032 ·数字对象标识代码:10.1137/0213014
[26] JD门多拉;Corkin,S,双侧颞叶病变后的视觉辨别和注意力:一项案例研究,《神经心理学》,37,91-102,(1999)·doi:10.1016/S0028-3932(98)00043-8
[27] Mitchell,T.M.(1997)。机器学习纽约:McGraw-Hill·Zbl 0913.68167号
[28] 罗斯,V;兰格,T;塞巴斯蒂安·特隆(编辑);劳伦斯·索尔(编辑);Schölkopf,Bernhard(编辑),聚类问题中的特征选择,(2004),马萨诸塞州剑桥
[29] öeref,O.、Fan,Y.-J.和Chaovalitwongse,W.A.(2014年)。时间序列数据离散k中值聚类的数学规划公式和算法。信息计算杂志26(1), 160-172. ·兹比尔1356.62082
[30] ⑩eref,O.、Kundakcioglu,O.E.、Prokopyev,O.A.和Pardalos,P.M.(2009年)。选择性支持向量机。组合优化期刊17(1), 3-20. ·Zbl 1172.90453号
[31] Sneath,P.H.A.和Sokal,R.R.(1973年)。数值分类:数值分类的原理与实践旧金山:W.H.Freeman·Zbl 0285.92001
[32] 王,S;CJ林;吴,C;Chaovalitwingse,W,《使用数据挖掘技术早期检测数字键入错误》,IEEE系统、人与控制论事务,A部分:系统与人,41,1199-1212,(2011)·doi:10.1109/TSMCA.2011.2116006
[33] 沃尔夫,L;Shashua,A,无监督和监督推理的特征选择:基于权重方法中稀疏性的出现,机器学习研究杂志,61855-1887,(2005)·Zbl 1222.68333号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。