×

通过采样技术构建初始分区。 (英语) Zbl 1135.90042号

摘要:各种迭代聚类算法都需要将数据集的初始分区作为输入参数。通常,良好的初始分区选择对于构建高质量的最终分区至关重要。在本说明中,我们使用小样本数据生成初始分区。报道了类k-均值聚类算法的数值实验。

MSC公司:

90C27型 组合优化

关键词:

数据挖掘;群集
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Forgy,E.,《多元数据的聚类分析:分类的效率与可解释性》,生物统计学,21,3,768(1965)
[2] P.Berkhin,J.D.Becher,《学习简单关系:理论和应用》,摘自:《第二届SIAM国际数据挖掘会议论文集》,2002年,第420-436页。;P.Berkhin,J.D.Becher,《学习简单关系:理论和应用》,载于《第二届SIAM国际数据挖掘会议论文集》,2002年,第420-436页。
[3] 迪伦,I.S。;Modha,D.S.,使用聚类对大型稀疏文本数据进行概念分解,机器学习,42,1,143-175(2001)·Zbl 0970.68167号
[4] Inderjit S.Dhillon,Subramanyam Mallela,Rahul Kumar,《用于分层文本分类的增强词聚类》,载于:《第八届ACM SIGKDD知识发现和数据挖掘国际会议论文集》(KDD-2002),2002年,第191-200页。;Inderjit S.Dhillon,Subramanyam Mallela,Rahul Kumar,《用于分层文本分类的增强词聚类》,载于《第八届ACM SIGKDD知识发现和数据挖掘国际会议论文集》(KDD-2002),2002年,第191-200页·Zbl 1102.68545号
[5] J.Kogan,M.Teboulle,C.Nicholas,《熵几何平均算法:为大文本数据集构建小簇的方法》,载于:D.Boley等人(编辑),《大数据集聚类研讨会论文集》(与第三届IEEE国际数据挖掘会议联合举行),2003年,第63-71页。;J.Kogan,M.Teboulle,C.Nicholas,《熵几何平均算法:为大文本数据集构建小簇的方法》,载于:D.Boley等人(编辑),《大数据集聚类研讨会论文集》(与第三届IEEE国际数据挖掘会议联合举行),2003年,第63-71页。
[6] Kogan,J。;特布尔,M。;Nicholas,C.,《类(k)均值聚类算法的数据驱动相似性度量》,信息检索,8,331-349(2005)
[7] Banerjee,A。;Merugu,S。;迪伦,I.S。;Ghosh,J.,带Bregman分歧的聚类,(2004年SIAM国际数据挖掘会议论文集(2004),SIAM),234-245·Zbl 1190.62117号
[8] 糖,C.A。;Gareth,J.M.,《发现数据集中的簇数:信息理论方法》,《美国统计协会杂志》,98,463,750-763(2003)·Zbl 1046.62064号
[9] 澳大利亚银行。;特布尔,M。;Ben-Tiba,S.,基于二阶齐次核的内部近似和乘数方法,运筹学数学,24645-668(1999)·Zbl 1039.90518号
[10] Teboulle,M.,熵近端映射及其在非线性规划中的应用,运筹学数学,17,670-690(1992)·兹比尔0766.90071
[11] Teboulle,M.,近似算法的收敛性,SIAM优化杂志,71069-1083(1997)·Zbl 0890.90151号
[12] I.Davidson,A.Satyanarayana,《加速》;I.Davidson,A.Satyanarayana,《加速》
[13] Epter,S.等人。;Krishnamoorthy,M。;Zaki,M.,聚类性检测和聚类初始化,(Dhillon,I.S.;Kogan,J.,《第二届SIAM国际数据挖掘会议(2002年)高维数据聚类及其应用研讨会论文集》,SIAM),47-58
[14] 共和国杜达。;哈特,体育。;斯托克·D·G,《模式分类》(2000),约翰·威利父子公司
[15] 迪伦,I.S。;关,Y。;Kogan,J.,《在高维文本数据中细化聚类》(Dhillon,I.S.;Kogan
[16] 迪伦,I.S。;Kogan,J。;Nicholas,C.,《特征选择和文档聚类》(Berry,M.W.,《文本挖掘综合调查》(2003),Springer-Verlag),73-100
[17] Teboulle,M.,《关于分歧及其应用》,(Phillips,F.Y.;Rousseau,J.,《极端方法的系统和管理科学——70岁时纪念亚伯拉罕·查恩斯的研究》(1992),克鲁沃学术出版社:克鲁沃学术出版商,马萨诸塞州诺维尔),255-273
[18] Csiszar,I.,概率分布差异和间接观测的信息型度量,匈牙利科学与数学研究所,2299-318(1967)·Zbl 0157.25802号
[19] Celeux,G。;Govaert,G.,聚类的分类EM算法和两个随机版本,计算统计学和数据分析,143315315-332(1992)·Zbl 0937.62605号
[20] 弗雷利,C。;Raftery,A.E.,多少簇?哪种聚类方法?基于模型的聚类分析的答案,《计算机杂志》,41,8,578-588(1998)·Zbl 0920.68038号
[21] Feller,W.,《概率论及其应用导论》,1(1968),Wiley:Wiley New York·Zbl 0155.23101号
[22] 科罗洛克,V.S。;新泽西州波滕科。;斯科罗霍德公司。;Turbin,A.F.,《概率论和数理统计手册》(1978),《科学:基辅科学》·Zbl 0412.60001号
[23] 迪伦,I.S。;关,Y。;Kogan,J.,通过局部搜索增强的高维文本数据的迭代聚类,(2002年IEEE数据挖掘国际会议论文集(2002),IEEE计算机社会出版社),131-138
[24] 约翰逊,N.L。;科茨,S。;Balakrishnan,N.,《连续单变量分布》,第2卷(1995年),John Wiley:John Wiley纽约·Zbl 0821.62001号
[25] Porter,M.F.,后缀剥离算法,程序,14,130-137(1980)
[26] E.Chisholm,T.Kolda,信息检索中向量空间方法的新项权重公式,ORNL/TM-13756报告,计算机科学和数学部,橡树岭国家实验室,1999年。;E.Chisholm,T.Kolda,信息检索中向量空间方法的新项权重公式,ORNL/TM-13756报告,计算机科学和数学部,橡树岭国家实验室,1999年。
[27] 贝里,M。;Browne,M.,《理解搜索引擎》(1999),SIAM·Zbl 0996.68500号
[28] 亚·卢梅尔斯基。P.,未知参数线性函数的置信限,概率论及其应用,14,364-367(1969)·兹比尔0195.19703
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。