×

最小生成树方法在簇稳定性问题中的应用。 (英语) 兹伯利1245.90137

摘要:在当今OR、科学、经济和技术中使用的数据和文本挖掘领域中,聚类理论是数据分析的预处理步骤。聚类理论的一个重要组成部分是确定聚类的真实数量。这个问题没有得到令人满意的解决。在本文中,这个问题是通过集群稳定性方法解决的。对于几个可能的簇数,我们估计了从样本聚类中获得的分区的稳定性。如果分区的簇是稳定的,则认为分区是一致的。聚类有效性是通过聚类最小生成树中不同样本的连接点的总边数来衡量的。实际上,我们使用了弗里德曼和拉夫斯基两个样本的测试统计数据。簇内混合良好的样本的同质性假设导致所考虑统计量的渐近正态分布。基于这一事实,设置了上述边数的标准分数,并用最差聚类来表示划分质量,对应于最小标准分数值。很自然,集群的真实数量可以通过具有最短左尾的经验分布来表征。提出的方法依次创建所描述的分布并估计其左不对称性。几个给出的数值实验证明了该方法检测真实簇数的能力。

MSC公司:

90立方厘米 涉及图形或网络的编程
62小时30分 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统

关键词:

群集;簇稳定性
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Akteke-Øztürk B,Weber G-W,Kropat E(2008)最小平方和的连续优化方法。In:第20届Mini-EURO会议ISI会议记录“持续优化和基于知识的技术”。立陶宛内林加,第253-258页
[2] Akume D,Weber G-W(2002)《聚类算法:理论和方法》。计算机技术杂志Vychils-Tekhnol 7(1):15–27·Zbl 1037.91042号
[3] Bagirov A(2009)数据挖掘中的大规模非光滑优化问题。在:第十三届国际会议论文集应用随机模型和数据分析(ASMDA)。维尔纽斯·兹比尔1402.92229
[4] Bagirov A,Ugon J,Webb D(2009)一种新的全局k-means算法,用于聚类大型数据集。在:第十三届国际会议论文集应用随机模型和数据分析(ASMDA)。维尔纽斯
[5] Baringhaus L,Franz C(2004)关于新的多元双样本检验。多变量分析杂志88(1):190–206·Zbl 1035.62052号 ·doi:10.1016/S0047-259X(03)00079-4
[6] Barzily Z,Volkovich Z,Akteke-Öztürk B,Weber G-W(2008)使用最小生成树的聚类稳定性。摘自:第20届小型会议“持续优化和基于知识的技术”的会议记录。EurOPT,立陶宛,第248-253页
[7] Barzily Z,Volkovich Z,Akteke-Øztürk B,Weber G-W(2009)关于集群验证问题中的最小生成树方法。Informatica信息20(2):187–202·Zbl 1194.68199号
[8] Ben-Hur A,Guyon I(2003)《利用分子生物学中的主成分分析方法检测稳定簇》。收录:Brownstein MJ,Kohodursky A(编辑)Humana Press,MJ,第159-182页
[9] Ben-Hur A,Elisseeff A,Guyon I(2002)一种基于稳定性的聚类数据结构发现方法。摘自:太平洋生物计算研讨会。第6-17页
[10] Büyükbebeci E(2009)《MARS、CMARS和CART在预测新兴市场违约概率方面的比较》,金融数学硕士,定期项目报告/论文。安卡拉METU应用数学研究所
[11] Calinski R,Harabasz J(1974):聚类分析的枝晶方法。公共统计3:1–27·Zbl 0273.62010 ·网址:10.1080/03610917408548446
[12] Celeux G,Govaert G(1992)一种分类EM算法和两种随机版本。计算统计数据分析14:315–332·Zbl 0937.62605号 ·doi:10.1016/0167-9473(92)90042-E
[13] Cheng R,Milligan G(1996)在聚类分析中测量单个数据点的影响。J类13:315–335·Zbl 1059.62554号 ·doi:10.1007/BF01246105
[14] Conover WJ,Johnson ME,Johnson MM(1981)《方差齐性检验的比较研究》,应用于外大陆架投标数据。技术计量学23:351–361·doi:10.1080/00401706.1981.10487680
[15] Dhillon I,Kogan J,Nicholas C(2003)特征选择和文档聚类,文本挖掘的综合调查。收录:Berry M(ed)Springer,柏林,第73-100页
[16] Dudoit S,Fridland J(2002)一种基于预测的重采样方法,用于估计数据集中的簇数。基因组生物学3(7):0036.1–0036.21
[17] Duran BS(1976)量表的非参数检验调查。公共统计理论方法5:1287–1312·Zbl 0362.62044号 ·doi:10.1080/03610927608827443
[18] Friedman JH,Rafsky LC(1979)Wolfowitz和Smirnov双样本检验的多元推广。安统计7:697–717·Zbl 0423.62034号 ·doi:10.1214操作系统/117634722
[19] Gordon AD(1999)分类。查普曼和霍尔,CRC,博卡拉顿
[20] Hartigan JA(1975)聚类算法。纽约威利·Zbl 0372.62040号
[21] Hartigan JA(1985)《聚类中的统计理论》,J Classif 2:63–76·Zbl 0575.62058号 ·doi:10.1007/BF01908064
[22] Hastie T、Tibshirani R、Friedman JH(2001)《统计学习的要素:数据挖掘、推理和预测》。柏林施普林格·Zbl 0973.62007号
[23] Henze N(1988)基于最近邻型重合数的多元双样本检验。安统计16:772–783·Zbl 0645.62062号 ·doi:10.1214/aos/1176350835
[24] Henze N,Penrose M(1999)关于多元游程检验。安统计27:290–298·Zbl 0944.62057号 ·doi:10.1214操作系统/1018031112
[25] Jain AK,Moreau JV(1987),聚类分析中的Bootstrap技术。图案识别20(5):547–568·doi:10.1016/0031-3203(87)90081-1
[26] Jain A,Xu X,Ho T,Xiao F(2002)使用最小生成树的均匀性测试。ICPR 4:281–284
[27] Karasözen B,Rubinov A,Weber G-W(2006)《数据挖掘中的优化》。欧洲运营研究杂志173(3):701–704·doi:10.1016/j.ejor.2005.10.005
[28] Kaufman L,Rousseeuw PJ(1990)《在数据中发现群体》。纽约威利
[29] Klebanov L(2005)N距离及其应用。卡罗林出版社:布拉格夏塞尔大学
[30] Klebanov L(2003)一类无分布多元检验。圣彼得堡数学学院预印本,3
[31] Kropat E,Weber G-W,Pedamallu CS(2009)椭球形不确定性优化理论和动力系统下的监管网络。在IAM、METU预打印·Zbl 1231.68208号
[32] Krzanowski W,Lai Y(1985)使用平方和聚类法确定数据集中组数的标准。生物统计学44:23–34·Zbl 0707.62122号 ·doi:10.2307/2531893
[33] Kuhn H(1955)分配问题的匈牙利方法。海军后勤问题2:83–97·Zbl 0143.41905号 ·doi:10.1002/nav.3800020109
[34] Lange T、Roth V、Braun M、Buhmann JM(2004)《基于稳定性的聚类解决方案验证》。神经计算15(6):1299–1323·兹比尔1089.68100 ·doi:10.1162/089976604773717621
[35] Levine E,Domany E(2001)无监督估计聚类有效性的重抽样方法。神经计算13:2573–2593·Zbl 0993.68113号 ·doi:10.1162/089976601753196030
[36] Milligan G,Cooper M(1985)《确定数据集中簇数的程序检查》。《心理测量学》50:159–179·doi:10.1007/BF02294245
[37] Mufti GB,Bertrand P,El-Moubarki L(2005)《从聚类有效性测量中确定组数》。收录:ASMDA 2005年会议记录。第404-414页
[38] Nesetril J,Milkova E,Nesetrilova H(2001)Otakar Boruvka关于最小生成树问题,1926年两篇论文的翻译,评论,历史。离散数学3–36
[39] Ùzögür-Akyüz S,Weber g-W(2009)通过无限和半无限编程进行无限内核学习。摘自:第二届全球功率控制与优化会议论文集,AIP会议论文集1159。印度尼西亚巴厘岛,6月1-3日,哈基姆AH,Vasant P,Barsoum N(嘉宾编辑)
[40] Roth V,Lange T,Braun M,Buhmann J(2002)集群验证的重新采样方法,COMPSTAT,可在网址:http://www.cs.uni-bonn.De/\(\sim\)勃拉姆
[41] Sezgin Alp、Büyükbebeci E、Iscanoglu Cekic A、Yerlikaya-zkurt F、Taylan P、Weber G-W、-CMARS和GAM&CQP–应用于国际信用违约预测的现代优化方法,在IAM、METU预印,提交出版
[42] Smith S,Jain A(1984)多维数据一致性测试。IEEE Trans-Pattern Ana Mach Intell 6:73–80·doi:10.1109/TPAMI.1984.4767477
[43] Sugar C,James G(2003)《数据集中簇的数量:信息论方法》。美国统计协会J Am Stat Assoc 98:750–763·Zbl 1046.62064号 ·doi:10.1198/0162145000000666
[44] Taylan P、Weber G-W、Yerlikaya F(2008)MARS中应用的连续优化,用于金融、科学和技术的现代应用。In:第20届Mini-EURO会议ISI会议记录-持续优化和基于知识的技术。EurOPT 2008 317-322,立陶宛内林加
[45] Tibshirani R,Walther G(2005)通过预测强度进行聚类验证。J计算图表统计14(3):511–528·doi:10.19198/106186005X59243
[46] Tibshirani R,Walther G,Hastie T(2001)通过间隙统计估算集群数量。皇家统计学会J B 63(2):411–423·Zbl 0979.62046号 ·数字对象标识代码:10.1111/1467-9868.00293
[47] Varma S,Simon R(2004)使用最小生成树进行迭代类发现和特征选择。BMC生物信息学5:126
[48] Volkovich Z、Barzily Z、Morozensky L(2006)基于双样本测试概念的集群稳定性标准。摘自:数据挖掘算法技术(ATDM)第二次研讨会。施普林格,第329-338页
[49] Volkovich Z,Barzily Z,Morozensky L(2008)集群稳定性的统计模型。图案识别41(7):2174–2188·Zbl 1138.68519号 ·doi:10.1016/j.patcog.2008.01.008
[50] Volkovich Z、Barzily Z、Avros R、Toledano-Kitai D(2009)《关于K近邻法在聚类验证中的应用》。在:第十三届国际会议上,应用随机模型和数据分析(ASMDA)。维尔纽斯·Zbl 1227.62045号
[51] Volkovich Z,Barzily Z,Weber G-W,Toledano-Kitai D(2009)基于最小生成树方法的聚类稳定性估计。第二届全球电力与优化会议(PCO)。印尼巴厘岛
[52] Weber G-W,Batmaz I,Köksal G,Taylan P,Yerlikaya-Øzkurt F CMARS:对非参数回归的新贡献,通过连续优化支持的多元自适应回归样条,IAM预印本,METU,提交出版·Zbl 1254.65020号
[53] Weber G-W、Taylan P、Yildirak K、GörgülüZK(2009)《金融回归与组织》。出现在金融最优化专题,连续、离散和脉冲系统动力学(B系列)
[54] Wishart D(1969)模式分析:减少连锁效应的最近邻的泛化。《数字分类学》76:282–311,AJ Cole,学术出版社,伦敦
[55] Xu Y,Olman V,Xu D(2002)使用图形理论方法聚类基因表达数据:最小生成树的应用。生物信息学18:535–545
[56] Zahn C(1971)检测和描述格式塔簇的图论方法。IEEE Trans Compute C-20(1):68–86·Zbl 0264.68040号 ·doi:10.1109/T-C.1971.223083
[57] Zech G,Aslan B(2005)基于最小能量概念的多元双样本问题的新检验。统计计算模拟杂志75(2):109–119·Zbl 1096.62037号 ·doi:10.1080/00949650410001661440
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。