×

混合数据聚类的半参数方法。 (英语) Zbl 1432.62182号

摘要:尽管存在大量的聚类算法,聚类仍然是一个具有挑战性的问题。随着大数据集在许多不同领域中变得越来越普遍,常常需要将聚类算法应用于异构变量集,这就迫切需要针对混合连续和分类规模数据的健壮和可伸缩的聚类方法。我们发现,在没有强参数假设的情况下,现有的混合类型数据聚类方法通常无法平衡连续变量和分类变量的贡献。我们开发了KAMILA(混合大数据的KAMILA),一种直接解决这个基本问题的聚类方法。我们研究了我们的方法的理论方面,并在一系列蒙特卡罗模拟研究和一系列实际应用中证明了它的有效性。

理学硕士:

H3620小时 分类和区分;聚类分析(统计方面)
62分05秒 统计学在精算科学和金融数学中的应用
62页99页 统计学应用
68T05型 人工智能中的学习与自适应系统
PDF格式 BibTeX公司 XML 引用
全文: 内政部

参考文献:

[1] 艾哈迈德,A;戴伊,L,混合数值和分类数据的k-均值聚类算法,数据与知识工程,63503-527,(2007)
[2] 艺术,D;格纳德西坎,R;Kettenning,J.聚类分析的基于数据的度量,Utilitas Mathematica,21A,75-99,(1982)·Zbl 0501.62050
[3] 阿兹扎里尼,A;Menardi,G.通过非参数密度估计进行聚类:R包pdfcluster,统计软件杂志,57,1-26,(2014)·Zbl 1322.62175
[4] 阿兹扎里尼,A;Torelli,N.通过非参数密度估计进行聚类,统计与计算,17,71-80,(2007)
[5] 《n维球坐标的推导》,《美国数学月刊》,67,63-66,(1960)
[6] 博尔德斯,L;莫特莱特,S;范德克霍夫,P,双组分混合模型的半参数估计,统计年鉴,341204-1232,(2006)·Zbl 1112.62029
[7] Bowman,A.和Azzalini,A.(1997年)。数据分析中的应用平滑技术牛津:牛津科学出版物·Zbl 0889.62027
[8] 布朗,R;McNicholas,P.混合类型数据的基于模型的聚类、分类和判别分析,统计规划与推断杂志,1422976-2984,(2012)·Zbl 1335.62093
[9] Burnaby,T.关于用信息概念对相似系数进行加权的方法,国际数学地质协会期刊,2,25-38,(1970)
[10] 卡林斯基,T;Harabasz,J.聚类分析的枝晶方法,统计学通讯,3,1-27,(1974)·中银0273.62010
[11] 蔡,S;金,J;杨文华,混合型数据的平衡权聚类分析,韩国通信统计,13719-732,(2006)
[12] 朱棣文;金,S;林,Y;Yu,Y;布拉斯基,G;Ng,A;奥卢科顿,K;奥佩德(牛津);普拉特,JC(编辑);Hoffman,T(编辑),《多核机器学习的地图简化》,281-288,(2006),剑桥
[13] 科曼尼修,D;Meer,P,Mean-shift:特征空间分析的稳健方法,IEEE模式分析与机器智能汇刊,24603-619,(2002)
[14] 克鲁兹麦地那,我;Hettmansperger,T,半参数单变量混合模型中的非参数估计,统计计算与模拟杂志,74513-524,(2004)·Zbl 1060.62041
[15] 脱碳,W;卡罗尔,J;克拉克,我;Green,P.综合聚类:一种用变量的差分权重合并替代聚类基的方法,Psycometrika,49,57-78,(1984)·Zbl 0594.62067
[16] Dougherty,J.,Kohavi,R.和Sahami,M.(1995年)。连续特征的有监督和无监督离散化。机器学习:第十二届国际会议论文集(第194-202页)。摩根考夫曼·Zbl 1371.68235
[17] Duda,R.和Hart,P.(1973年)。模式分类与场景分析纽约:威利·中银0277.68056
[18] Ellis,S,噪声对称时的盲反褶积:解的存在性和实例,统计数学学会年鉴,54758-767,(2002)·Zbl 1047.62049
[19] Esther,M.,Kriegel,H.,Sander,J.和Xu,X.(1996年)。一种基于密度的带噪大型空间数据库聚类发现算法。KDD会议记录(第226-231页)·Zbl 0501.62050
[20] Everitt,B,混合模式数据聚类的有限混合模型,统计学和概率字母,6305-309,(1988)
[21] Fang,K.,Kotz,S.和Ng,K.(1989年)。统计学与应用概率论专著(第36卷)。纽约:查普曼和霍尔。
[22] 风扇,J;汉,F;刘洪,大数据分析的挑战,国家科学评论,1293-314,(2014)
[23] Forgy,E,多元数据的聚类分析:分类的效率与可解释性,生物识别,21768-769,(1965)
[24] Fraley,C.,Raftery,A.,Murphy,T.和Scrucca,L.(2012年)。mclust版本4 for r:基于模型的聚类、分类和密度估计的正常混合建模。技术报告597,华盛顿大学统计系。
[25] 弗雷,C;Raftery,A,基于模型的聚类、判别分析和密度估计,美国统计协会杂志,97611-631,(2002)·Zbl 1073.62545
[26] 弗里德曼,J;Meulman,J.在属性子集上聚类对象(与讨论),皇家统计学会期刊:B系列(统计方法),66815-849,(2004)·Zbl 1060.62064
[27] 格纳德西坎,R;哈维,J;Kettenning,J,Mahalanobis聚类分析指标,Sankhya,A系列,55494-505,(1993)·Zbl 0825.62544
[28] 格纳德西坎,R;凯特宁,J;曹,S,聚类分析中变量的加权和选择,分类杂志,12113-136,(1995)·Zbl 0825.62540
[29] Goodall,D.基于概率的新相似性指数,生物特征学,22882-907,(1966)
[30] 高尔,J.,《一般相似系数及其一些特性》,生物特征学,27857-871,(1971)
[31] 霍尔,P;沃森,G;卡布雷拉,J,用球形数据进行核密度估计,生物计量学,74751-762,(1987)·Zbl 0632.62033
[32] 哈蒂根,J;王明明,k-均值聚类算法,应用统计学,28100-108,(1979)·Zbl 0447.62062
[33] 赫钦,A;水蛭,M;福林,J(编辑);胡安,A(编辑);格拉斯曼,S(编辑);Fry,M(ed.),信息技术服务交付中的随机决策(2012),博卡拉顿
[34] Hennig,C.(2014年)。fpc:灵活的聚类过程。http://CRAN.R-project.org/package=fpc。第2.2版包。
[35] 亨尼格,C;廖,T,如何寻找混合型变量的适当聚类及其在社会经济分层中的应用,英国皇家统计学会期刊:C辑(应用统计学),62309-369,(2013)
[36] 霍尔兹曼H;芒克,A;片麻岩,T,椭圆分布有限混合物的可识别性,斯堪的纳维亚统计杂志,33753-763,(2006)·Zbl 1164.62354号
[37] 黄志明,大数据集分类聚类的k-means算法扩展,数据挖掘与知识发现,2283-304,(1998)
[38] 黄杰;Ng,M;荣,H;李志强,k-均值聚类中的自动变量加权,模式分析与机器智能IEEE汇刊,27657-668,(2005)
[39] 胡伯,G,n球体积的伽马函数推导,美国数学月刊,89301-302,(1982)
[40] 休伯特,L;Arabie,P.比较分区,分类杂志,2193-218,(1985)·Zbl 0587.62128
[41] 亨特,D;王,S;Hettmansperger,T,对称分布混合推理,统计年鉴,35224-251,(2007)·Zbl 1114.62035
[42] 亨特,我;Jorgensen,M.聚类混合数据,WIREs数据挖掘和知识发现,1352-361,(2011)
[43] 一野,M;江口,H,混合特征类型数据分析的广义Minkowski度量,IEEE系统论汇刊,人与控制论,24698-708,(1994)·Zbl 1371.68235
[44] 卡尔克,S;Richter,W,p-广义高斯分布的模拟,统计计算与模拟杂志,83641-667,(2013)·Zbl 1431.62017
[45] Kaufman,L.和Rousseeuw,P.(1990年)。在数据中查找组纽约:威利·Zbl 1345.62009
[46] 《球面分布的分布理论与位置尺度参数推广》,三亚:印度统计杂志,a辑(1961-2002),32419-430,(1970)·中银0223.60008
[47] Kotz,S.,Balakrishnan,N.和Johnson,N.(2004年)。连续多元分布,模型和应用。连续多元分布霍博肯:威利·Zbl 0946.62001
[48] 《分类与连续变量混合的定位模型》,《分类杂志》,10,25-49,(1993)·Zbl 0775.62153
[49] 劳伦斯,C;《混合模式数据的混合分离,统计与计算》,6,85-92,(1996)
[50] Lichman,M.UCI机器学习知识库。http://archive.ics.uci.edu/ml。2015年9月访问·Zbl 1112.62029
[51] 林赛,B.(1995年)。混合模型:理论,几何和应用海沃德:数理统计研究所·Zbl 1163.62326
[52] 李,J;射线,S;林赛,B,通过模式识别进行聚类的非参数统计方法,机器学习研究杂志,81687-1723,(2007)·Zbl 1222.62076
[53] Lloyd,S,pcm中的最小二乘量子化,IEEE信息论汇刊,28129-137,(1982)·Zbl 0504.94015
[54] 麦克奎因,J.(1967年)。多元观测值分类与分析的几种方法。第五届伯克利数理统计与概率研讨会论文集,第一卷:统计学(第281-297页)。伯克利:加州大学出版社·Zbl 0214.46201
[55] 迈特拉,R;Melnykov,V,模拟数据研究有限混合建模和聚类算法的性能,计算和图形统计杂志,19354-376,(2010)
[56] Manning,C.,Raghavan,P.和Schutze,H.(2008年)。信息检索概论剑桥:剑桥大学出版社·Zbl 1160.68008
[57] McLachlan,G.和Peel,D.(2000年)。有限混合模型纽约:威利·Zbl 0963.62061
[58] 米利根,G.,《对15种聚类算法的六种误差扰动效应的检验》,心理测量学,45325-342,(1980)
[59] 莫达,D;斯潘格勒,W,k-均值聚类中的特征加权,机器学习,52217-237,(2003)·68ZB1039
[60] 奥尔金,我;泰特,R,具有混合离散和连续变量的多元相关模型,数理统计年鉴,32448-465,(1961)·Zbl 0113.35101
[61] Schwarz,G.估计模型的维数,《统计年鉴》,6461-464,(1978)·Zbl 0379.62005
[62] 斯科特,D.(1992年)。多元密度估计霍博肯:威利·Zbl 0850.62006
[63] Silverman,B.(1986年)。密度估算伦敦:查普曼和霍尔·浙宝0617.62042
[64] 蒂比拉尼,R;Walther,G.预测强度的聚类验证,计算与图形统计杂志,14511-528,(2005)
〔65〕 蒂比拉尼,R;沃尔特,G;Hastie,T,通过差距统计估计数据集中的聚类数,皇家统计学会杂志:B系列(统计方法),63411-423,(2001)·Zbl 0979.62046
[66] Titterington,D.,Smith,A.和Makov,U.(1985年)。有限混合模型的统计分析奇切斯特:威利·Zbl 0646.62013
[67] Wolfe,J.,Haghigi,A.和Klein,D.(2008年)。对于非常大的数据集,完全分布式em。第25届机器学习国际会议论文集(第1184-1191页)。ICML'08纽约,纽约:ACM。
[68] 赵,Y;曾德;鲱鱼,A;伊辛,A;沃勒,A;理查森,D;Kosorok,M.,《使用当地时空方法检测疾病暴发》,《生物识别》,671508-1517,(2011)·Zbl 1274.62921
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。