×

KM-MIC:基于K-medoids聚类的改进最大信息系数。 (英语) Zbl 1493.62408号

摘要:为了衡量事物是否相关以及如何相关,统计相关分析应运而生。其中,皮尔逊系数、斯皮尔曼系数和肯德尔系数被广泛使用,但这些相关分析方法由于自身的局限性,无法检测出广泛的关系类型。因此,在2011年,Reshef等人引入了一种新的相关性分析方法——最大信息系数(MIC),但这种方法计算效率低,并且没有给出最佳的数据划分方法。在此基础上,我们提出了基于K-Medoids聚类的最大信息系数(KM-MIC),它结合K-Medoid聚类算法来优化数据划分的方式,并可以快速计算数据之间是否存在相关性。该方法具有通用性和公平性两大特点。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62B10型 信息理论主题的统计方面
94甲15 信息论(总论)

软件:

作为136
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Galton,F.,《遗传地位向平庸回归》,《人类学研究所G B Irel杂志》,第15期,第246-263页(1886年)
[2] Pearson,K.,《对进化数学理论的贡献》,Philos Trans R Soc Lond Ser A,185,71-110(1894)·JFM 25.0347.02号
[3] 斯皮尔曼,C.,《两个事物之间关联的证明和测量》,《美国心理学杂志》,100441-471(1987)
[4] Kendall,M.G.,等级相关性的一种新测量方法,《生物统计学》,3081-93(1938)·Zbl 0019.13001号
[5] Shannon,C.E.,《通信数学理论》,Bell Syst Tech J,27379-423(1948)·Zbl 1154.94303号
[6] Cover,T.M.,《信息理论的要素》(1999),John Wiley&Sons
[7] Kraskov,A。;Stögbauer,H。;Grassberger,P.,《估算相互信息》,Phys Rev E,69,第066138页(2004)
[8] Ciganović,N。;新泽西州博德里。;Renner,R.,Smooth max-information as one-shot generalization for mutual information,IEEE传输信息理论,60,1573-1581(2013)·Zbl 1360.94126号
[9] Darbellay,G.A。;Vajda,I.,通过观测空间的自适应分区估计信息,IEEE Trans Inform Theory,451315-1321(1999)·Zbl 0957.94006号
[10] 谢凯利,G.J。;Rizzo,M.L。;Bakirov,N.K.,《通过距离相关性测量和测试相关性》,Ann Statist,352769-2794(2007)·Zbl 1129.62059号
[11] 雷舍夫,D.N。;Reshef,Y.A。;香港Finucane。;Grossman,S.R。;McVean,G。;Turnbaugh,P.J.,《在大数据集中检测新关联》,《科学》,3341518-1524(2011)·Zbl 1359.62216号
[12] 邵,F。;李凯。;Xu,X.,基于最大信息系数改进算法的铁路事故分析,Intell Data Anal,20597-613(2016)
[13] MacQueen J等人。多元观测分类和分析的一些方法。收录:第五届伯克利数理统计与概率研讨会论文集,第1卷,(14):美国加利福尼亚州奥克兰;1967年,第281-97页·Zbl 0214.46201号
[14] Jain,A.K.,《数据聚类:超越K-means 50年》,《模式识别快报》,第31期,第651-666页(2010年)
[15] Figueiredo,M.A.T。;Jain,A.K.,有限混合模型的无监督学习,IEEE Trans-Pattern Ana Mach Intell,24381-396(2002)
[16] 拉斯穆森,C.E.,无限高斯混合模型。,(NIPS,第12卷(1999),Citeser),554-560
[17] Tibshirani,R。;Walther,G。;Hastie,T.,通过间隙统计估计数据集中的簇数,J R Stat Soc Ser B Stat Methodol,63,411-423(2001)·Zbl 0979.62046号
[18] 利卡斯,A。;弗拉西斯,N。;Verbeek,J.J.,《全局k-means聚类算法》,模式识别,36,451-461(2003)
[19] Steinley,D.,《K-means聚类:半个世纪的综合》,英国数学统计心理学杂志,59,1-34(2006)
[20] Hartigan,J.A。;Wong,M.A.,Algorithm AS 136:A k-means聚类算法,J R Stat Soc Ser C Appl Stat,28,100-108(1979)·兹比尔0447.62062
[21] 钠,S。;徐敏,L。;Yong,G.,《k均值聚类算法的研究:一种改进的k均值聚类方法》,(2010年第三届智能信息技术与安全信息学国际研讨会(2010),IEEE),63-67
[22] Wagstaff,K。;Cardie,C。;罗杰斯,S。;Schrödl,S.,带背景知识的约束k-means聚类,(ICML,第1卷(2001)),577-584
[23] 佩利格,D。;Moore,A.W.,《X-means:扩展k-means并有效估计簇数》,(ICML,第1卷(2000)),727-734
[24] Rezaee,M.R。;Lelieveldt,B.P.F。;Reiber,J.H.C.,模糊C-均值的新聚类有效性指数,模式识别Lett,19,237-246(1998)·Zbl 0905.68127号
[25] 阿罗拉,P。;Varshney,S.,《大数据的k-means和k-medoids算法分析》,Procedia Compute Sci,78,507-512(2016)
[26] 沙阿·S。;Singh,M.,《改进K-mean算法与K-mean和K-medoid算法的时间效率比较》,(2012年通信系统和网络技术国际会议(2012年),IEEE),435-437
[27] Han,L。;向,L。;刘,X。;Luan,J.,基于P系统优化初始中心的K-medoids算法,J Inf Compute Sci,11,1765-1773(2014)
[28] Peker,M.,使用基于k-medoids聚类的属性权重和SVM组合改进医疗诊断的决策支持系统,医学系统杂志,40,116(2016)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。