文件Zbl 1135.90042-zbMATH Open

弗拉基米尔·沃尔科维奇;雅各布·科根;查尔斯·尼古拉斯

通过采样技术构建初始分区。（英语） Zbl 1135.90042号

欧洲药典。物件。 183，第3期，1097-1105（2007）。

摘要：各种迭代聚类算法都需要将数据集的初始分区作为输入参数。通常，良好的初始分区选择对于构建高质量的最终分区至关重要。在本说明中，我们使用小样本数据生成初始分区。报道了类k-均值聚类算法的数值实验。

引用于三文件

MSC公司：

90C27型

组合优化

关键词：

数据挖掘;群集

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Forgy，E.，《多元数据的聚类分析：分类的效率与可解释性》，生物统计学，21，3，768（1965）
[2]	P.Berkhin，J.D.Becher，《学习简单关系：理论和应用》，摘自：《第二届SIAM国际数据挖掘会议论文集》，2002年，第420-436页。；P.Berkhin，J.D.Becher，《学习简单关系：理论和应用》，载于《第二届SIAM国际数据挖掘会议论文集》，2002年，第420-436页。
[3]	迪伦，I.S。；Modha，D.S.，使用聚类对大型稀疏文本数据进行概念分解，机器学习，42，1，143-175（2001）·Zbl 0970.68167号
[4]	Inderjit S.Dhillon，Subramanyam Mallela，Rahul Kumar，《用于分层文本分类的增强词聚类》，载于：《第八届ACM SIGKDD知识发现和数据挖掘国际会议论文集》（KDD-2002），2002年，第191-200页。；Inderjit S.Dhillon，Subramanyam Mallela，Rahul Kumar，《用于分层文本分类的增强词聚类》，载于《第八届ACM SIGKDD知识发现和数据挖掘国际会议论文集》（KDD-2002），2002年，第191-200页·Zbl 1102.68545号
[5]	J.Kogan，M.Teboulle，C.Nicholas，《熵几何平均算法：为大文本数据集构建小簇的方法》，载于：D.Boley等人（编辑），《大数据集聚类研讨会论文集》（与第三届IEEE国际数据挖掘会议联合举行），2003年，第63-71页。；J.Kogan，M.Teboulle，C.Nicholas，《熵几何平均算法：为大文本数据集构建小簇的方法》，载于：D.Boley等人（编辑），《大数据集聚类研讨会论文集》（与第三届IEEE国际数据挖掘会议联合举行），2003年，第63-71页。
[6]	Kogan，J。；特布尔，M。；Nicholas，C.，《类（k）均值聚类算法的数据驱动相似性度量》，信息检索，8，331-349（2005）
[7]	Banerjee，A。；Merugu，S。；迪伦，I.S。；Ghosh，J.，带Bregman分歧的聚类，（2004年SIAM国际数据挖掘会议论文集（2004），SIAM），234-245·Zbl 1190.62117号
[8]	糖，C.A。；Gareth，J.M.，《发现数据集中的簇数：信息理论方法》，《美国统计协会杂志》，98，463，750-763（2003）·Zbl 1046.62064号
[9]	澳大利亚银行。；特布尔，M。；Ben-Tiba，S.，基于二阶齐次核的内部近似和乘数方法，运筹学数学，24645-668（1999）·Zbl 1039.90518号
[10]	Teboulle，M.，熵近端映射及其在非线性规划中的应用，运筹学数学，17，670-690（1992）·兹比尔0766.90071
[11]	Teboulle，M.，近似算法的收敛性，SIAM优化杂志，71069-1083（1997）·Zbl 0890.90151号
[12]	I.Davidson，A.Satyanarayana，《加速》；I.Davidson，A.Satyanarayana，《加速》
[13]	Epter，S.等人。；Krishnamoorthy，M。；Zaki，M.，聚类性检测和聚类初始化，（Dhillon，I.S.；Kogan，J.，《第二届SIAM国际数据挖掘会议（2002年）高维数据聚类及其应用研讨会论文集》，SIAM），47-58
[14]	共和国杜达。；哈特，体育。；斯托克·D·G，《模式分类》（2000），约翰·威利父子公司
[15]	迪伦，I.S。；关，Y。；Kogan，J.，《在高维文本数据中细化聚类》（Dhillon，I.S.；Kogan
[16]	迪伦，I.S。；Kogan，J。；Nicholas，C.，《特征选择和文档聚类》（Berry，M.W.，《文本挖掘综合调查》（2003），Springer-Verlag），73-100
[17]	Teboulle，M.，《关于分歧及其应用》，（Phillips，F.Y.；Rousseau，J.，《极端方法的系统和管理科学——70岁时纪念亚伯拉罕·查恩斯的研究》（1992），克鲁沃学术出版社：克鲁沃学术出版商，马萨诸塞州诺维尔），255-273
[18]	Csiszar，I.，概率分布差异和间接观测的信息型度量，匈牙利科学与数学研究所，2299-318（1967）·Zbl 0157.25802号
[19]	Celeux，G。；Govaert，G.，聚类的分类EM算法和两个随机版本，计算统计学和数据分析，143315315-332（1992）·Zbl 0937.62605号
[20]	弗雷利，C。；Raftery，A.E.，多少簇？哪种聚类方法？基于模型的聚类分析的答案，《计算机杂志》，41，8，578-588（1998）·Zbl 0920.68038号
[21]	Feller，W.，《概率论及其应用导论》，1（1968），Wiley:Wiley New York·Zbl 0155.23101号
[22]	科罗洛克，V.S。；新泽西州波滕科。；斯科罗霍德公司。；Turbin，A.F.，《概率论和数理统计手册》（1978），《科学：基辅科学》·Zbl 0412.60001号
[23]	迪伦，I.S。；关，Y。；Kogan，J.，通过局部搜索增强的高维文本数据的迭代聚类，（2002年IEEE数据挖掘国际会议论文集（2002），IEEE计算机社会出版社），131-138
[24]	约翰逊，N.L。；科茨，S。；Balakrishnan，N.，《连续单变量分布》，第2卷（1995年），John Wiley:John Wiley纽约·Zbl 0821.62001号
[25]	Porter，M.F.，后缀剥离算法，程序，14，130-137（1980）
[26]	E.Chisholm，T.Kolda，信息检索中向量空间方法的新项权重公式，ORNL/TM-13756报告，计算机科学和数学部，橡树岭国家实验室，1999年。；E.Chisholm，T.Kolda，信息检索中向量空间方法的新项权重公式，ORNL/TM-13756报告，计算机科学和数学部，橡树岭国家实验室，1999年。
[27]	贝里，M。；Browne，M.，《理解搜索引擎》（1999），SIAM·Zbl 0996.68500号
[28]	亚·卢梅尔斯基。P.，未知参数线性函数的置信限，概率论及其应用，14，364-367（1969）·兹比尔0195.19703

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
”ab c公司”	短语
(ab c公司)	圆括号

示例

领域

操作员

通过采样技术构建初始分区。（英语） Zbl 1135.90042号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

通过采样技术构建初始分区。 （英语） Zbl 1135.90042号

MSC公司：

关键词：

参考文献：

通过采样技术构建初始分区。（英语） Zbl 1135.90042号