×

通过帕累托解和显著性测试进行概率聚类。 (英语) Zbl 1414.62243号

摘要:本文提出了一种新的概率(通常称为基于模型)聚类策略。众所周知,混合可能性的局部极大值可以用于划分底层数据集。然而,局部最大值很少是唯一的。因此,仍然需要选择合理的解决方案,尤其是期望的解决方案。可信分区通常通过其集群的分离(和内聚)来识别。我们在这里使用Wilks、Hotelling和Behrens-Fisher经典测试提供的(p)值来挑选出那些良好的解决方案按位置分隔研究表明,聚类问题的合理解决方案与规模平衡图与所有局部极大值的模型拟合图中的帕累托点有关。我们简要回顾了这一理论,并提出了在上述意义上由位置分隔的局部极大值集合中所有合适的Pareto点的解。我们还为多元Behrens-Fisher问题设计了一种新的迭代无参数切割平面算法。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62-07 数据分析(统计)(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aitchison J,Silvey SD(1960)最大似然估计程序和相关显著性检验。J R Stat Soc系列B 22:154-171·Zbl 0096.34403号
[2] Bailey TA Jr,Dubes RC(1982),集群有效性配置文件。Patt记录15:61-83·doi:10.1016/0031-3203(82)90002-4
[3] Behrens WU,Ein Beitra zur Fehlerberechnung bei wenigen Beobachtungen。Landwirtschaftliche Jahrbücher公司。Zeitschrift für wissenschaftliche Landwirtschaft und Archiv des Königlich Preussischen Landes-Oekonomie-Kollegiums,68:807-8371929年。哈提信托数字图书馆原件
[4] Belloni A,Didier G(2008)关于Behrens-Fisher问题:一个全局收敛算法和Wald、LR和LM检验的有限样本研究。安统计36:2377-2408·Zbl 1274.62379号 ·doi:10.1214/07-AOS528
[5] Bock H-H(1985)关于聚类分析中的一些显著性检验。J类2:77-108·Zbl 0587.62048号 ·doi:10.1007/BF01908065
[6] Böhning D(2000)混合物和应用的计算机辅助分析。Chapman&Hall/CRC,博卡拉顿·Zbl 0951.62088号
[7] Bonnans J-F、Gilbert JC、Lemaréchal C、Sagastizábal CA(2006)《数值优化》。理论和实践方面,第2版。柏林施普林格·Zbl 1108.65060号
[8] Campbell NA,Mahon RJ(1974年),《薄抓蟹属两种岩蟹变异的多元研究》。澳大利亚动物园22:417-425·doi:10.1071/ZO9740417
[9] Cox DR,Hinkley DV(1974)理论统计。查普曼和霍尔,伦敦·Zbl 0334.62003号 ·doi:10.1007/978-1-4899-2887-0
[10] Day NE(1969)估算正态分布混合物的成分。生物特征56:463-474·Zbl 0183.48106号 ·doi:10.1093/biomet/56.3.463
[11] Devroye L,Györfi L,Lugosi G(1996)模式识别的概率理论。纽约州施普林格·Zbl 0853.68150号 ·doi:10.1007/978-1-4612-0711-5
[12] Fisher RA(1939)方差可能不相等的样本的比较。优生学年鉴9:174-180·JFM 65.0596.03号 ·文件编号:10.1111/j.1469-1809.1939.tb02205.x
[13] Fisher RA(1941)Behrens积分的渐近方法,以及显著性检验的进一步表格。优生学年鉴11:141-172·Zbl 0063.01385号 ·文件编号:10.1111/j.1469-1809.1941.tb02281.x
[14] Fraley C,Raftery AE(1999)MCLUST:基于模型的聚类分析软件。J类16:297-306·Zbl 0951.91500号 ·数字标识代码:10.1007/s003579900058
[15] Fritz H,García-Escudero LA,Mayo-Iscar a(2013)鲁棒约束聚类的快速算法。计算统计数据分析61:124-136·Zbl 1349.62264号 ·doi:10.1016/j.csda.2012.11.018
[16] Frühwirth-Schnatter S(2006)有限混合和马尔可夫切换模型。海德堡施普林格·Zbl 1108.6202号
[17] Gallegos MT,Ritter G(2009)修正了受污染混合物的ML估算。Sankhya Ser甲71:164-220·Zbl 1193.62021号
[18] Gallegos MT,Ritter G(2009)聚类污染分组数据的修剪算法及其稳健性。高级数据分析分类3:135-167·Zbl 1284.62372号 ·doi:10.1007/s11634-009-0044-9
[19] Gallegos MT,Ritter G(2010)在具有基数约束的基于模型的修剪聚类中使用组合优化。计算统计数据分析54:637-654。doi:10.1016/j.csda.2009.08.023·Zbl 1464.62075号 ·doi:10.1016/j.csda.2009.08.023
[20] Gallegos MT,Ritter G(2013)《k参数聚类的强一致性》,《多变量分析杂志》117:14-31·兹比尔1359.62239 ·doi:10.1016/j.jmva.2013.013.013
[21] Hathaway RJ(1985)正态混合分布最大似然估计的约束公式。安统计13:795-800·Zbl 0576.62039号 ·doi:10.1214操作系统/1176349557
[22] Kiefer J,Wolfowitz J(1956)存在无穷多个附带参数时最大似然估计的一致性。数学统计年鉴27:887-906·Zbl 0073.14701号 ·doi:10.1214/aoms/1177728066
[23] Kiefer NM(1978)离散参数变化:切换回归模型的有效估计。计量经济学46:427-434·Zbl 0408.62058号 ·doi:10.2307/1913910
[24] Lee SX,McLachlan GJ(2013),关于斜正态分布和斜t分布的混合。高级数据分析类7:241-266·Zbl 1273.62115号 ·doi:10.1007/s11634-013-0132-8
[25] Lee SX,McLachlan GJ(2014)多元斜交t分布的有限混合:一些最新结果。统计计算24:181-202·Zbl 1325.62107号 ·doi:10.1007/s11222-012-9362-4
[26] Lindsay BG(1995)混合模型:理论、几何和应用。NSF-CBMS概率与统计区域会议系列,第5卷。IMS和ASA,海沃德·兹比尔1163.62326
[27] Mardia KV,Kent T,Bibby JM(1997),多元分析,第6版。伦敦学术出版社·Zbl 0432.62029号
[28] McLachlan GJ,Peel D(2000a)有限混合模型。纽约威利·Zbl 0963.62061号 ·doi:10.1002/0471721182
[29] McLachlan GJ,Peel D(2000)《通过正态分量和t-分量的混合物进行聚类的计算方面》。摘自:《美国统计协会会刊》。美国统计协会,亚历山大
[30] Muirhead RJ(1982)《多元统计理论的若干方面》。,概率和数理统计中的威利级数·Zbl 0556.62028号 ·doi:10.1002/9780470316559
[31] Peters BC Jr,Walker HF(1978)用于获得正态分布混合物参数的最大似然估计的迭代过程。SIAM应用数学杂志35:362-378·Zbl 0443.65112号 ·数字对象标识代码:10.1137/0135032
[32] Ritter G(2015)稳健聚类分析和变量选择。统计学和应用概率专著,第137卷。查普曼和霍尔/CRC,博卡拉顿·Zbl 1341.62037号
[33] Rossant C、Kadir S、Goodman DFM、Harris KD(2016)大型密集电极阵列的尖峰分选。《自然神经科学》19:624-641·doi:10.1038/nn.4268
[34] Rousseeuw PJ(1987)《剪影:聚类分析解释和验证的图形辅助》。J计算应用数学20:53-65·Zbl 0636.62059号 ·doi:10.1016/0377-0427(87)90125-7
[35] Silvey SD(1970)统计推断。巴尔的摩企鹅·Zbl 0207.49001号
[36] Tukey JW(1977)探索性数据分析。Addison-Wesley,阅读·Zbl 0409.62003号
[37] Wilks SS(1932)方差分析中的某些推广。生物特征24:471-494·JFM 58.1172.02号 ·doi:10.1093/biomet/24.3-4.471
[38] Wilks SS(1938)检验复合假设的似然比的大样本分布。数学统计年鉴9:60-62·Zbl 0018.3203号 ·doi:10.1214/aoms/1177732360
[39] Yakowitz SJ,Spragins JD(1968)关于有限混合物的可识别性。安统计39:209-214·兹伯利0155.25703 ·doi:10.1214/aoms/1177698520
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。