文件Zbl 1521.62100-zbMATH Open

一种确定OTRIMLE稳健高斯混合聚类簇数的充分性方法。（英语） Zbl 1521.62100号

澳大利亚。N.Z.J.统计。 64，编号2，230-254（2022）.

摘要：我们引入了一种新的方法来确定集群的数量。该方法适用于[P.科雷托和C.海宁，“稳健不适当最大似然：调整、计算，以及与稳健高斯聚类的其他方法的比较”，《美国统计协会期刊》第111期，第516期，1648–1659页（2016；doi:10.1080/01621459.2015.1100996)]高斯混合模型允许将观测值分类为“噪声”，但它也可以应用于其他聚类方法。聚类的质量是通过统计\（Q\）来评估的，该统计\（Q\）测量聚类内分布与平均值中唯一模式的椭圆单峰分布的接近程度。这种非参数测量允许非高斯簇，只要它们具有良好的质量（Q）。模型的简单性通过一种度量（S）来评估，该度量倾向于较少数量的簇，除非额外的簇可以显著降低估计的噪声比例。然后选择适合数据的最简单模型，即其观测值（Q）不明显大于拟合模型真正生成的数据的预期值，这可以通过参数引导进行评估。在仿真研究和两个实际数据集上，将该方法与使用贝叶斯信息准则（BIC）和集成完全似然（ICL）的基于模型的聚类进行了比较。

引用于1文件

理学硕士：

62H30型	分类和区分；聚类分析（统计方面）
62F40型	引导、折刀和其他重采样方法

关键词：

基于模型的聚类;噪声分量;参数自助法;单峰的

软件：

T欲望;特伊根;奥特里姆;麦克卢斯特

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

OA许可证

参考文献：

[1]	Akhanli，S.E.和Hennig，C.（2020）。通过聚集经校准的聚类有效性指标来比较聚类和聚类数量。统计与计算30，1523-1544·Zbl 1452.62430号
[2]	Amigo，E.、Gonzalo，J.、Artiles，J.和Verdejo，F.（2009年）。基于形式约束的外部聚类评估指标的比较。信息检索12，461-486。
[3]	Andrews，J.L.、Wickins，J.R.、Boers，N.M.和McNicholas，P.D.（2018年）。teigen：一个R包，用于通过多元t分布进行基于模型的聚类和分类。统计软件杂志83，1-32。
[4]	Banfield，J.D.和Raftery，A.E.（1993年）。基于模型的高斯和非高斯聚类。生物统计学49，803-821·Zbl 0794.62034号
[5]	Baudry，J.P.、Raftery，A.、Celeux，G.、Lo，K.和Gottardo，R.（2010年）。组合混合成分进行聚类。计算与图形统计杂志19，332-353。
[6]	Biernacki，C.、Celeux，G.和Govaert，G.（2000）。用综合完全似然法评估用于聚类的混合模型。IEEE模式分析和机器智能汇刊22，719-725。
[7]	Byers，S.&Raftery，A.E.（1998年）。用于估计空间点过程中特征的最近邻杂波消除。《美国统计协会杂志》93，577-584·Zbl 0926.62089号
[8]	Cerioli，A.、GarcíA‐Escudero，L.A.、Mayo‐Iscar，A.和Riani，M.（2018）。通过约束可能性在基于模型的聚类中查找正常组的数量。计算与图形统计杂志27，404-416·Zbl 07498957号
[9]	Chen，J.和Khalili，A.（2008）。具有非光滑罚分的有限混合模型中的阶数选择。《美国统计协会杂志》103，1674-1683·Zbl 1286.62057号
[10]	Chen，J.，Li，P.&Fu，Y.（2012）。正常混合物顺序的推断。《美国统计协会杂志》107，1096-1105·Zbl 1443.62055号
[11]	Coretto，P.&Hennig，C.（2011年）。高斯分布和均匀分布非均匀混合物的最大似然估计。《统计规划与推断杂志》141，462-473·Zbl 1203.62017年
[12]	Coretto，P.和Hennig，C.（2016）。稳健的不适当最大似然：调整、计算以及与其他稳健高斯聚类方法的比较。美国统计协会杂志1111648-1659。
[13]	Coretto，P.&Hennig，C.（2017年）。一致性、故障鲁棒性和鲁棒不适当最大似然聚类算法。机器学习研究杂志18，1-39·Zbl 1442.62138号
[14]	Coretto，P.&Hennig，C.（2019年）。otrimle：健壮的基于模型的集群。R包1.3版。可从URL:获取。
[15]	Davies，P.L.（1995）。数据功能。Neerlandica统计局49，185-245·Zbl 0831.62001号
[16]	Davies，P.L.和Kovac，A.（2001）。局部极值、运行、字符串和多分辨率。统计年鉴29，1-65·Zbl 1029.62038号
[17]	Feng，Z.D.和McCulloch，C.E.（1996）。在有限混合模型中使用bootstrap似然比。英国皇家统计学会杂志：B辑（方法学）58，609-617·Zbl 0906.62021号
[18]	Forina，M.、Armanino，C.、Lanteri，S.和Tiblispia，E.（1983年）。根据脂肪酸组成对橄榄油进行分类。《食品研究和数据分析》，H.Martens（编辑）和H.Russwurm（编辑），第189-214页。吠叫：应用科学出版社。
[19]	Fritz，H.、García‐Escudero，L.a.和Mayo‐Iscar，a.（2012）。tclust：一个R包，用于聚类分析的修剪方法。统计软件杂志，47，1-26。
[20]	Frühwirth‐Schnatter，S.、Celeux，G.和Robert，C.P.（编辑）（2020年）。混合物分析手册。佛罗里达州博卡拉顿：CRC/Chapman&Hall。
[21]	García‐Escudero，L.a.，Gordaliza，a.，Greselin，F.，Ingrassia，S.&Mayo‐Iscar，a.（2018）。混合建模中的特征值和约束：几何和计算问题。数据分析和分类进展12，203-233·Zbl 1414.62071号
[22]	Gelman，A.和Hennig，C.（2017年）。超越统计学中的客观和主观（通过讨论）。英国皇家统计学会杂志：A辑（社会统计）180，967-1033。
[23]	Gelman，A.、Meng，X.L.和Stern，H.（1996）。通过实现差异对模型适合性进行后验预测评估。中国统计局，733-807·Zbl 0859.62028号
[24]	霍尔，P.（1992）。关于非参数回归中的bootstrap置信区间。统计年鉴20，695-711·Zbl 0765.62049号
[25]	Hartigan，J.A.和Hartigan.P.M.（1985年）。单峰倾角测试。《统计年鉴》13，70-84·Zbl 0575.62045号
[26]	Hennig，C.（2004）。位置-尺度混合的最大似然估计的分解点。《统计年鉴》32，1313-1340·Zbl 1047.62063号
[27]	Hennig，C.（2007）。集群稳定性的集群评估。计算统计与数据分析52，258-271·Zbl 1452.62447号
[28]	Hennig，C.（2010年）。合并高斯混合成分的方法。数据分析和分类进展4，3-34·Zbl 1306.62141号
[29]	Hennig，C.和Lin，C.J.（2015）。针对集群测试同质性和评估集群数量的灵活参数引导。统计与计算25，821-833·Zbl 1331.62308号
[30]	Hubert，L.和Arabie，P.（1985）。比较分区。分类杂志2193-218。
[31]	Hui，F.K.C.，Warton，D.I.&Foster，S.D.（2015）。有限混合模型中的次序选择：完全的还是观察到的似然信息准则？生物特征102，724-730·Zbl 1452.62814号
[32]	Keribin，C.（2000年）。混合模型阶数的一致估计。Sankhyá：印度统计杂志，A62系列，49-66·Zbl 1081.62516号
[33]	Lee，S.X.和McLachlan，G.J.（2013）。关于斜正态分布和斜t分布的混合。数据分析和分类进展7，241-266·Zbl 1273.62115号
[34]	Malsiner‐Walli，G.，Frühwirth‐Schnatter，S.&Grün，B.（2017）。使用贝叶斯估计识别混合物。计算与图形统计杂志26285-295。
[35]	Maronna，R.A.和Zamar，R.H.（2002年）。高维数据集位置和离散度的稳健估计。技术计量学44，307-317。
[36]	McLachlan，G.J.（1987）。自举时，正常混合物中成分数量的似然比检验统计量。英国皇家统计学会杂志：C辑（应用统计学）36，318-324。
[37]	McLachlan，G.J.和Peel，D.（2000年）。有限混合模型。纽约：Wiley·Zbl 0963.62061号
[38]	Meila，M.（2007）。比较聚类–基于信息的距离。多元分析杂志98873-895·Zbl 1298.91124号
[39]	Meng，X.L.（1994）。后验预测值。《统计年鉴》22，1142-1160·兹比尔0820.62027
[40]	Nguyen，T.T.，Nguyen-H.D.，Chamroukhi，F.&McLachlan，G.J.（2020年）。无穷远处消失的连续密度函数的有限混合近似。Cogent数学与统计71750861·Zbl 1486.62048号
[41]	Peel，D.和McLachlan，G.J.（2000）。使用t分布的稳健混合建模。统计与计算10，339-348。
[42]	Pons，O.（2013）。非参数假设的统计检验：渐近理论。新加坡：世界科学。
[43]	Ritter，G.（2014）。稳健聚类分析和变量选择。统计学和应用概率专著。佛罗里达州博卡拉顿：查普曼和霍尔/CRC。
[44]	Scrucca，L.、Fop，M.、Murphy，T.B.和Raftery，A.E.（2016）。mclust 5：使用高斯有限混合模型进行聚类、分类和密度估计。R杂志8289-317。
[45]	Siffer，A.、Fouque，P.A.、Termier，A.和Largouöt，C.（2018年）。是否收集了您的数据？单峰的折叠试验。第24届ACM SIGKDD知识发现与数据挖掘国际会议论文集。伦敦：ACM。第2210-2218页。
[46]	Silverman，B.W.（1981）。使用核密度估计来研究多模态。英国皇家统计学会杂志：B辑（方法学）43，97-99。
[47]	Sommer，E.O.和Weihs，C.（2005年）。“多特蒙德的社交环境”比赛简介。分类——无处不在的挑战。编辑C.Weihs和W.Gaul，第667-673页。柏林：斯普林格。
[48]	Wagenmakers，E.J.、Ratcliff，R.、Gomez，P.和Iverson，G.J.（2004）。使用参数引导评估模型模仿。《数学心理学杂志》48，28-50·Zbl 1076.91537号
[49]	Wang，K.，Ng，S.K.和McLachlan，G.J.（2009）。多元斜t混合模型：荧光激活细胞分类数据的应用。2009年，《数字图像计算：技术与应用》，H.Shi，Y.C。Zhang，M.Bottema，B.Lovell和A.Maeder，第526-531页。纽约：IEEE。
[50]	Xie，F.&Xu，Y.（2020年）。贝叶斯排斥高斯混合模型。《美国统计协会杂志》115，187-203·Zbl 1437.62242号

此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配，并且可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：book；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

一种确定OTRIMLE稳健高斯混合聚类簇数的充分性方法。（英语） Zbl 1521.62100号

理学硕士：

关键词：

软件：

参考文献：

示例

领域

操作员

一种确定OTRIMLE稳健高斯混合聚类簇数的充分性方法。 （英语） Zbl 1521.62100号

理学硕士：

关键词：

软件：

参考文献：

一种确定OTRIMLE稳健高斯混合聚类簇数的充分性方法。（英语） Zbl 1521.62100号