文件Zbl 07538942-zbMATH Open

基于模型的聚类和缺失数据的离群点检测。（英语） Zbl 07538942号

高级数据分析。分类。，ADAC公司第16期，第1期，第5-30期（2022年）.

摘要：在基于模型的聚类中，建议使用多元污染正态分布（MCN）对具有轻微异常值的数据进行聚类，该模型可以自动检测异常值，并在每个聚类中产生稳健的参数估计。然而，这种方法的局限性之一是它需要完整的数据，即MCN不能直接用于缺少值的数据。在本文中，我们开发了一个框架，用于将混合MCN分布拟合到不完整数据集，即随机丢失某些值的数据集。参数估计是使用期望条件最大化算法获得的，期望条件最大化算法是期望最大化算法的变体，其中传统的最大化步骤被更简单的条件最大化步骤取代。我们进行了一项模拟研究，将我们的模型结果与不完全数据的多元正态分布和Student（t）分布的混合进行了比较。仿真还包括对丢失数据百分比对三种算法性能的影响的研究。然后将该模型应用于汽车数据集（UCI机器学习库）。结果表明，虽然Student’s（t）分布具有相似的分类性能，但MCN在检测离群值方面表现更好，且离群值检测的假阳性率更低。随着缺失值百分比的增加，所有技术的性能线性下降。

MSC公司：

62H30型

分类和歧视；聚类分析（统计方面）

关键词：

基于模型的聚类;数据随机丢失;污染正态分布;离群值

软件：

R（右）;集群（R）;集群生成;受污染混合物;混合GHD;老鼠;奥特里姆;混合物;mvtnorm公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	艾特肯，A.，代数方程和超越方程根的系列公式，Proc R Soc Edib，45，1，14-22（1926）·doi:10.1017/S0370164600024871
[2]	比尔纳基，C。；Celeux，G。；Govaert，G.，为EM算法选择初始值以获得多元高斯混合模型中的最大似然，计算统计数据分析，41，3-4，561-575（2003）·Zbl 1429.62235号 ·doi:10.1016/S0167-9473（02）00163-9
[3]	Böhning，D。；迪茨，E。；Schaub，R。；施拉特曼，P。；Lindsay，BG，单参数指数族密度混合物的似然比分布，Ann Inst Stat Math，46，2，373-388（1994）·Zbl 0802.62017年 ·doi:10.1007/BF01720593
[4]	Buck，S.，适用于电子计算机的多元数据中缺失值的估计方法，J R Stat Soc B，22，302-306（1960）·Zbl 0101.12701号
[5]	科雷托，P。；Hennig，C.，鲁棒不适当最大似然：鲁棒高斯聚类的调整、计算以及与其他方法的比较，美国统计协会，1115161648-1659（2016）·doi:10.1080/01621459.2015.1100996
[6]	阿联酋登普斯特；新墨西哥州莱尔德；Rubin，DB，通过EM算法从不完整数据中获得最大似然，J R Stat Soc Ser B（Methodol），39，1，1-22（1977）·Zbl 0364.62022号
[7]	加西亚·埃斯库德罗，洛杉矶；Gordaliza，A。；马特兰，C。；Mayo-Iscar，A.，稳健聚类分析的一般修正方法，Ann Stat，36，3，1324-1345（2008）·Zbl 1360.62328号 ·doi:10.1214/07-AOS515
[8]	Genz A、Bretz F、Miwa T、Mi X、Leisch F、Scheip F、Hothorn T（2019）mvtnorm:多元正态分布和T分布。R包版本1.0-10
[9]	Ghahramani Z，Jordan MI（1994），从不完整数据中学习。技术报告，美国
[10]	休伯特，L。；Arabie，P.，比较分区，J Classif，2，1，193-218（1985）·Zbl 0587.62128号 ·doi:10.1007/BF01908075
[11]	Karlis，D。；Xekalaki，E.，为有限混合物的EM算法选择初始值，计算统计数据分析，41，3-4，577-590（2003）·Zbl 1429.62082号 ·doi:10.1016/S0167-9473（02）00177-9
[12]	Kaufman L，Rousseeuw P（1987）通过medoids聚类。In:Dodge Y（ed）基于L1-形式和相关方法的统计数据分析，第405-416页
[13]	Lin，TI，通过特征值分解通过参数化t混合模型从不完整数据中学习，《计算统计数据分析》，71，183-195（2014）·Zbl 1471.62120号 ·doi:10.1016/j.csda.2013.02.020
[14]	刘，C。；Rubin，DB，《ECME算法：EM和ECM的简单扩展，具有更快的单调收敛性》，Biometrika，81，4，633-648（1994）·Zbl 0812.62028号 ·doi:10.1093/biomet/81.4.633
[15]	Maechler M、Rousseeuw P、Struyf A、Hubert M、Hornik K、Studer M和Roudier P（2016）聚类：聚类分析扩展了Rousseuw等人的R包版本2.0.4
[16]	McNicholas，PD，基于混合模型的分类（2016），博卡拉顿：CRC出版社，博卡拉顿·Zbl 1454.62005年 ·数字标识代码：10.1201/9781315373577
[17]	麦克尼古拉斯，PD；墨菲，TB；空军麦克戴德；Frost，D.，通过简约高斯混合模型实现基于模型的聚类的串行和并行实现，《计算统计数据分析》，54，3，711-723（2010）·兹比尔1464.62131 ·doi:10.1016/j.csda.2009.02.011
[18]	孟，XL；Rubin，DB，《通过ECM算法进行最大似然估计：一般框架》，Biometrika，80，2，267-278（1993）·Zbl 0778.62022号 ·doi:10.1093/biomet/80.2.267
[19]	Novi Inverardi，PL；Taufer，E.，通过含有不适当成分的混合物进行异常值检测，Electron J Appl Stat Anal，13，1146-163（2020）
[20]	皮，D。；McLachlan，GJ，使用t分布的稳健混合建模，统计计算，10，4，339-348（2000）·doi:10.1023/A:1008981510081
[21]	Punzo，A。；McNicholas，PD，多元污染正态分布的解析混合物，Biom J，58，61506-1537（2016）·Zbl 1353.62124号 ·doi:10.1002/bimj.201500144
[22]	Punzo A，Tortora C（2021）多尺度污染正态分布及其在聚类中的应用。统计模型21（4）：332-358·Zbl 07381254号
[23]	Punzo A，Mazza A，McNicholas PD（2016）污染混合：用于拟合多元污染正态分布的简约混合的R包。arXiv预打印arXiv:1606.03766
[24]	邱伟，乔H（2020）聚类生成：随机聚类生成（具有指定的分离度）。https://CRAN.R-project.org/package=clusterGeneration。R包版本1.3.7
[25]	R核心团队（2016）R：统计计算的语言和环境。R统计计算基金会，维也纳
[26]	Rand，WM，聚类方法评估的客观标准，美国统计协会，66846-850（1971）·doi:10.1080/01621459.1971.10482356
[27]	Ritter，G.，《稳健聚类分析和变量选择》（2014），博卡拉顿：CRC出版社，博卡拉顿·Zbl 1341.62037号 ·doi:10.1201/b17353
[28]	罗宾，DB，《推断和缺失数据》，《生物特征》，63，3，581-592（1976）·Zbl 0344.62034号 ·doi:10.1093/biomet/63.3.581
[29]	Rubin，DB，《调查中无应答的多重插补》（2004年），霍博肯：威利·2007年6月10日
[30]	Salgado CM、Azevedo C、Proença H、Vieira SM（2016）《噪音与异常值》，第163-183页。数字对象标识代码：10.1007/978-3-319-43742-2_14
[31]	Serafini A，Murphy TB，Scrucca L（2020）《基于模型聚类中缺失数据的处理》，arXiv预印本arXiv:2006.02954
[32]	Titterington，DM；史密斯，AFM；Makov，UE，有限混合分布的统计分析（1985），奇切斯特：威利·兹伯利0646.62013
[33]	Tortora C、ElSherbiny A、Browne RP、Franczak BC、McNicholas PD、Amos DD（2020）MixGHD：使用广义双曲分布的混合物进行基于模型的聚类、分类和判别分析。https://CRAN.R-project.org/package=MixGHD。R包版本2.3.4
[34]	van Buuren，S。；Groothuis-Oudshoorn，K.，《小鼠：通过R中的链式方程进行多元插补》，J Stat Softw，45，3，1-67（2011）·doi:10.18637/jss.v045.i03
[35]	Wang，WL；Lin，TI，《通过带有缺失信息的偏态t分布混合物实现基于稳健模型的聚类》，《高级数据分析分类》，9，4，423-445（2015）·Zbl 1414.62191号 ·doi:10.1007/s11634-015-0221-y
[36]	王，H。；张，Q。；Luo，B。；Wei，S.，使用具有缺失信息的多元分布的稳健混合建模，Pattern Recognict Lett，25，6701-710（2004）
[37]	魏毅。；唐，Y。；McNicholas，PD，基于模型的不完全数据聚类的广义双曲分布和偏态t分布的混合，计算统计数据分析，130，18-41（2019）·Zbl 1469.62162号 ·doi:10.1016/j.csda.2018.08.016
[38]	Wilks，SS，从零碎样本中估计种群参数的矩和分布，Ann Math Stat，3，3163-195（1932）·Zbl 0005.07301号 ·doi:10.1214/aoms/1177732885
[39]	Yu，C。；Chen，K。；Yao，W.，使用非凸惩罚似然的离群检测和稳健混合建模，J Stat Plan Inference，164，27-38（2015）·Zbl 1322.62180号 ·doi:10.1016/j.jspi.2015.03.003
[40]	Yu，C。；姚，W。；Chen，K.，稳健混合回归的新方法，Can J Stat，45，1，77-94（2017）·Zbl 1462.62198号 ·doi:10.1002/cjs.11310

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

基于模型的聚类和缺失数据的离群点检测。（英语） Zbl 07538942号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

基于模型的聚类和缺失数据的离群点检测。 （英语） Zbl 07538942号

MSC公司：

关键词：

软件：

参考文献：

基于模型的聚类和缺失数据的离群点检测。（英语） Zbl 07538942号