文件Zbl 1520.62085-zbMATH Open

选择集群数量、集群模型和算法。基于二次判别分数的统一方法。（英语） Zbl 1520.62085号

《多元分析杂志》。 196，文章ID 105181，20 p.（2023）.

摘要：聚类分析需要确定聚类的数量，通常需要确定许多超参数。在实践中，一个人会产生几个分区，最后一个分区是根据验证或选择标准选择的。有很多验证方法，无论是隐式还是显式，都假设了某种聚类概念。在本文中，我们关注的是可以通过二次或线性边界很好地分离的组。参考簇的概念是通过二次判别函数和描述簇大小、中心和散布的参数来定义的。我们制定了两个与一类椭圆对称分布生成的群一致的聚类质量标准。使用所提标准的自举重采样，我们提出了一个选择规则，允许在多个聚类解决方案中进行选择，最终从不同的方法中获得。广泛的实验分析表明，与文献中确定的备选方案相比，该方法获得了更好的整体性能。

MSC公司：

62H30型	分类和区分；聚类分析（统计方面）
62-08	统计问题的计算方法

关键词：

群集验证;混合物模型;基于模型的聚类;重采样方法

软件：

麦克卢斯特;帕尔沃斯;MBC手册;奥特里姆

PDF格式 BibTeX公司 XML格式引用

全文： DOI程序 arXiv公司

OA许可证

参考文献：

[1]	Akaike，H.，信息理论和最大似然原理的扩展，（第二届信息理论国际研讨会（Tsahkatsor，1971）（1973），Akadémiai Kiadó：Akadémiai Kiadó布达佩斯），267-281·Zbl 0283.62006号
[2]	Akhanli，S.E。；Hennig，C.，通过聚集校准的聚类有效性指数比较聚类和聚类数，统计计算。，30, 5, 1523-1544 (2020) ·Zbl 1452.62430号
[3]	Anderson，E.，《密苏里州安那州爱丽丝的物种问题》（The species problem in Iris，Ann.Missouri Bot.Gard.）。，23, 3, 471-483 (1936), https://www.jstor.org/stable/pdf/2394164.pdf？seq=1#页面
[4]	贝茨，S。；哈斯蒂，T。；Tibshirani，R.，交叉验证：它估计了什么？它做得有多好？（2021），可从ArXiv:2104.00673获得。（2021年5月31日访问）
[5]	Baudry，J.-P.，《基于模型的条件分类似然聚类的估计和模型选择》，Electron。J.Stat.，9，1，1041-1077（2015）·Zbl 1325.62120号
[6]	Ben-David，S。；von Luxburg，美国。；Pál，D.，《冷静看待集群稳定性》（Lugosi，G.；Simon，H.U.，《学习理论》（2006），斯普林格-柏林-海德堡：斯普林格–柏林-海德堡-柏林，海德堡），5-19·Zbl 1143.68520号
[7]	Y.本吉奥。；Grandvalet，Y.，《K倍交叉验证方差的无偏估计》，J.Mach。学习。《决议》（JMLR），第5卷，第1089-1105页（2003年）·Zbl 1222.68145号
[8]	比尔纳基，C。；Celeux，G。；Govaert，G.，《用综合完全似然评估聚类的混合模型》，IEEE Trans。模式分析。机器。整数。，22, 7, 719-725 (2000)
[9]	Bouveyron，C。；Celeux，G。；墨菲，T.B。；Raftery，A.E.，数据科学的基于模型的聚类和分类，（剑桥统计与概率数学系列（2019），剑桥大学出版社：剑桥大学出版社），xvii+427，3967046·Zbl 1436.62006年
[10]	Caliánski，T。；Harabasz，J.，《聚类分析的枝晶方法》，Comm.Statist。理论方法，3，1，1-27（1974）·Zbl 0273.62010
[11]	科雷托，P。；Hennig，C.，《一致性、故障鲁棒性和鲁棒不适当最大似然聚类算法》，J.Mach。学习。决议，18，142，1-39（2017），http://jmlr.org/papers/v18/16-382.html ·Zbl 1442.62138号
[12]	科雷托，P。；Hennig，C.，OTRIMLE:健壮的基于模型的集群（2021），R包版本2.0
[13]	方，Y。；Wang，J.，通过bootstrap方法选择簇数，计算。统计人员。数据分析。，56, 3, 468-477 (2012) ·Zbl 1239.62076号
[14]	Fisher，R.A.，《分类问题中多重测量的使用》，Ann.Eugen。(1936), http://rcs.chemometrics.ru/Tutorials/classification/Fisher.pdf
[15]	Flury，B。；Riedwyl，H.，多元统计。《实用方法》（1988），查普曼和霍尔：查普曼与霍尔伦敦
[16]	福里纳，M。；阿玛尼诺，C。；Lanteri，S。；Tibrivia，E.，根据脂肪酸组成对橄榄油的分类，食品研究数据分析。，189-214 (1983)
[17]	福里纳，M。；里尔迪，R。；C、答：。；Lanteri，S.，PARVUS：数据探索的可扩展程序包（1988），Elsevier:Elsevier阿姆斯特丹
[18]	弗雷利，C。；Raftery，A.E.，多少簇？哪种聚类方法？通过基于模型的聚类分析，Comput。J.，41，8，578-588（1998）·Zbl 0920.68038号
[19]	混合物分析手册，（Frühwirth-Schnatter，S.；Celeux，G.；Robert，C.P.，Chapman&Hall/CRC现代统计方法手册（2019），CRC出版社：佛罗里达州博卡拉顿CRC出版社），xxiii+497·Zbl 1419.62001号
[20]	傅伟（Fu，W.）。；Perry，P.O.，《使用交叉验证估算集群数量》，J.Compute。图表。统计人员。，29, 1, 162-173 (2020) ·兹比尔07499280
[21]	哈尔基迪，M。；Vazirgiannis，M。；Hennig，C.，《用于聚类验证和估计聚类数的方法依赖指数》（Henning，C.；Meila，M.；Murtagh，F.；Rocci，R.，《聚类分析手册》（2015），CRC出版社：佛罗里达州博卡拉顿CRC出版社），595-618·Zbl 1396.62136号
[22]	哈斯蒂，T。；Tibshirani，R.J。；Friedman，J.，《统计学习的要素》（2009），纽约斯普林格出版社·Zbl 1273.62005年
[23]	哈斯蒂·T·J。；Zhu，M.，《判别分析中的降维和可视化讨论》，Cook和yin，Aust。N.Z.J.Stat.，43，2，147-199（2001）·Zbl 0992.62056号
[24]	Hennig，C.，集群稳定性的集群评估，计算。统计人员。数据分析。，52, 1, 258-271 (2007), https://www.sciencedirect.com/science/article/pii/S0167947306004622 ·Zbl 1452.62447号
[25]	Hennig，C.，《聚类策略和方法选择》（Henning，C.；Meila，M.；Murtagh，F.；Rocci，R.，《聚类分析手册》（2015），CRC出版社：佛罗里达州博卡拉顿CRC出版社），703-730·Zbl 1396.62138号
[26]	休伯特，L。；Arabie，P.，《分区比较》，分类杂志，2193-218（1985）
[27]	考夫曼，L。；Rousseeuw，P.J.R.，《在数据中发现群体》（Wiley Series in Probability and Mathematical Statistics:Applied Probability and Statistics（1990），John Wiley&Sons，Inc.：John Willey&Sons公司，纽约）·Zbl 1345.62009号
[28]	考夫曼，L。；Rousseeuw，P.J.R.，围绕medoids的分区（程序PAM），（概率和数学统计中的Wiley系列：应用概率和统计（1990），John Wiley&Sons公司：John Willey&Sons，公司，纽约），68-125
[29]	Keribin，C.，混合物模型阶数的一致估计，Compte。Rendus de L学院。设计科学。序列号。I数学。，326, 2, 243-248 (1998) ·Zbl 0954.62023号
[30]	von Luxburg，美国。；威廉姆森共和国。；Guyon，I.，集群：科学还是艺术？，（Guyon，I.；Dror，G.；Lemaire，V.；Taylor，G；Silver，D.，《ICML无监督和迁移学习研讨会论文集》，《ICNL无监督与迁移学习研讨会文献集》，机器学习研究论文集，第27卷（2012），PMLR:PMLR Bellevue，美国华盛顿），65-79，https://proceedings.mlr.press/v27/luxburg12a.html
[31]	麦克拉克伦，G。；Peel，D.，有限混合模型，（概率与统计中的Wiley级数：应用概率与统计（2000），John Wiley&Sons公司：John Willey&Sons，Inc.纽约），xxii+419·Zbl 0963.62061号
[32]	Mechelen，I.V。；布列斯特，A.-L。；丹格尔，R。；N.院长。；盖恩，I。；Hennig，C。；Leisch，F。；Steinley，D.，《集群分析中的基准：白皮书》（2018），可从arXiv:1809.10496获得
[33]	梅勒，M.，《比较聚类与基于信息的距离》，《多元分析杂志》。，98, 5, 873-895 (2007) ·兹比尔1298.91124
[34]	Nguyen，T.T。；Nguyen，H.博士。；Chamroukhi，F。；麦克拉克伦，G.J。；Liu，L.，无穷远处消失的连续密度函数的有限混合逼近，Cogent Math。Stat.，7，1，第1750861条pp.（2020）·Zbl 1486.62048号
[35]	Schwarz，G.，估算模型的维数，Ann.Statist。，6, 2, 461-464 (1978) ·Zbl 0379.62005年
[36]	Scrucca，L。；Fop先生。；墨菲，T.B。；Raftery，A.E.，mclust 5:使用高斯有限混合模型的聚类、分类和密度估计，《R J.》，8，1，205-233（2016），https://journal.r-project.org/archive/2016-1/scrucca-fop-murphy-etal.pdf
[37]	Smyth，P.，《使用交叉验证似然的概率聚类模型选择》，《统计计算》。，10, 1, 63-72 (2000)
[38]	乌尔曼，T。；Hennig，C。；Boulesteix，A.-L.，《验证数据的聚类分析结果验证：系统框架》，WIREs data Min.Knowl。发现。，第12、3条，第1444页（2022年）
[39]	韦利亚，S。；Hernández，A.，《关于线性和二次判别分析的一致性》，《多元分析杂志》。，96, 2, 219-236 (2005) ·Zbl 1096.62068号
[40]	王凯。；Ng，A。；McLachlan，G.J.，EMMIXSew:EM算法和斜交混合分布（2018），https://CRAN.R-project.org/package=EMMIXSew

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：书籍文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

选择集群数量、集群模型和算法。基于二次判别分数的统一方法。（英语） Zbl 1520.62085号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

选择集群数量、集群模型和算法。基于二次判别分数的统一方法。 （英语） Zbl 1520.62085号

MSC公司：

关键词：

软件：

参考文献：

选择集群数量、集群模型和算法。基于二次判别分数的统一方法。（英语） Zbl 1520.62085号