×

用比例协方差分离两条法线的混合。 (英语) Zbl 1433.62166号

摘要:基于最佳线性分类的思想,我们提出了一种简单的仿射等变聚类方法,用于来自具有不同均值向量但具有比例协方差矩阵的两个多元正态分布的混合样本。为了改善维数灾难,提出了一种寻找最佳线性判别函数候选函数的非参数方法。通过仿真研究和一个实例,我们表明,对于高维的大样本,该方法可以作为通用多元异常检测方法的有益补充。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Anderson TW,Bahadur RR(1962)用不同的协方差矩阵将其分类为两个多元正态分布。数学统计年鉴33:420–431·Zbl 0113.13702号 ·doi:10.1214/aoms/1177704568
[2] Becker C,Gather U(2001)最大不可识别离群值:多元同时离群值识别规则的比较。计算统计数据分析36:119–127·兹比尔1080.62519 ·doi:10.1016/S0167-9473(00)00032-3
[3] Béguin C(2002)多元数据中的异常检测。Neuchátel大学硕士论文
[4] Billor N,Hadi AS,Velleman PF(2000)BACON:阻塞自适应计算效率离群值提名器。计算统计数据分析34:279–298·Zbl 1145.62314号 ·doi:10.1016/S0167-9473(99)00101-2
[5] Caussinus H,Fekri M,Hakam S,Ruiz-Gazen A(2003)多元异常值的监测显示。计算统计数据分析44:237–252·Zbl 1429.62217号 ·doi:10.1016/S0167-9473(03)00059-8
[6] Ciuperca G,Ridolfi A,Idier J(2003)正态混合物的惩罚最大似然估计。扫描J统计30:45–59·Zbl 1034.62018年 ·doi:10.1111/1467-9469.00317
[7] Cohen AC(1967)两个正态分布的混合估计。技术指标9:15-28·Zbl 0147.18104号 ·网址:10.1080/00401706.1967.10490438
[8] Croux C,Haesbroeck G(2000)基于协方差或相关矩阵稳健估计的主成分分析:影响函数和效率。生物特征87:603–618·Zbl 0956.62047号 ·doi:10.1093/biomet/87.3.603
[9] Croux C,Haesbroeck G(2002)关于最小体积椭球体估计量的有限样本效率的注记。J Stat Comput Simul 72:585–596统计计算模拟·Zbl 1031.62043号 ·doi:10.1080/00949650213708
[10] Croux C,Haesbroeck G,Rousseeuw P(2002)最小体积椭球体估计器的位置调整。统计计算12:191–200·doi:10.1023/A:1020713207683
[11] Dunn CL(1992)算法AS 276:正常组合分类。应用统计41:483–496·doi:10.2307/2347585
[12] Fraley C,Raftery AE(2002),基于模型的聚类、判别分析和密度估计。美国统计协会J Am Stat Assoc 97:611–631·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[13] Furman WD,Linsay BG(1994)测量矩估计量作为最大化可能性的起始值的相对有效性。计算统计数据分析17:493–507·Zbl 0937.62532号 ·doi:10.1016/0167-9473(94)90145-7
[14] Gervini D(2003)多元位置和散布的稳健且有效的自适应加权估计。多变量分析杂志84:116–144·Zbl 1038.62051号 ·doi:10.1016/S0047-259X(02)00018-0
[15] Hadi AS(1994)多元样本中异常值检测方法的改进。J R Stat Soc B系列56:393–396·Zbl 0800.62347号
[16] Hardin J,Rocke DM(2004),使用最小协方差行列式估计器在多簇环境中检测异常值。计算统计数据分析44:625–638·Zbl 1430.62133号 ·doi:10.1016/S0167-9473(02)00280-3
[17] 霍金斯DM(1980)离群值的识别。查普曼和霍尔,伦敦·Zbl 0438.62022号
[18] Hawkins DM,Olive DJ(2002)高分解回归估计量重采样算法的不一致性和一种新算法。美国统计协会J Am Stat Assoc 97:136–159·Zbl 1073.62546号 ·doi:10.1198/016214502753479293
[19] Hoaglin DC、Mosteller F、Tukey JW(1983)了解稳健和探索性数据分析。威利,纽约·Zbl 0599.62007号
[20] Hubert M,Rousseeuw PJ,Vanden Branden K(2005)《ROBPCA:稳健主成分分析的新方法》。技术计量学47:64–79·doi:10.1198/00401700400000563
[21] Hubert M,Rousseeuw PJ,Verboven S(2002)《主成分快速稳健方法及其在化学计量学中的应用》。化学智能实验室系统60:101–111·doi:10.1016/S0169-7439(01)00188-5
[22] Juan J,Prieto FJ(1995)计算高崩溃点多元估计量的子抽样方法。J计算图统计4:319–334
[23] Juan J,Prieto FJ(2001)使用角度识别集中的多变量异常值。技术计量学43:311–322·doi:10.1198/004017001316975907
[24] Kosinski AS(1999)多元异常值检测程序。计算统计数据分析29:145–161·Zbl 1042.62549号 ·doi:10.1016/S0167-9473(98)00073-5
[25] Li G,Chen Z(1985)鲁棒色散矩阵和主分量的投影寻踪方法:基本理论和蒙特卡罗。美国统计学会期刊80:759–766·Zbl 0595.62060号 ·doi:10.1080/016214591985.10478181
[26] 李刚,张杰(1998)球面及其性质。桑基塞尔A 60:119–133·Zbl 0976.62062号
[27] LopuhaäHP(1989)关于多元位置和协方差的S-估计和M-估计之间的关系。Ann Stat 17:1662–1683年·兹比尔0702.62031 ·doi:10.1214/aos/1176347386
[28] LopuhaäHP(1999)多元位置和散布的加权估计量的渐近性。Ann Stat 27:1638–1665年·Zbl 0957.62017号 ·doi:10.1214/aos/1017939145
[29] Markatou M(2000)混合模型、稳健性和加权似然法。生物计量学56:483–486·Zbl 1060.62511号 ·doi:10.1111/j.0006-341X.2000.00483.x
[30] Maronna RA,Yohai VJ(1995)Stahel-Donoho鲁棒多变量估计器的行为。美国统计学会期刊90:330–341·Zbl 0820.62050号 ·doi:10.1080/01621459.1995.10476517
[31] Maronna RA,Zamar RH(2002)高维数据集位置和离散度的稳健估计。技术计量学44:307–317·doi:10.1198/004017002188618509
[32] Mehrotra DV(1995)《离散矩阵的稳健元素估计》,生物统计学51:1344–1351·Zbl 0875.62208号 ·doi:10.2307/2533265
[33] Merz P(2003)最小平方和聚类的迭代局部搜索方法。摘自:第五届智能数据分析国际研讨会论文集,柏林,第286-296页
[34] Olive DJ(2004)多元位置和离散度的抵抗估计。计算统计数据分析46:93–102·Zbl 1429.62189号 ·doi:10.1016/S0167-9473(03)00119-1
[35] Pearson K(1894)对进化数学理论的贡献。菲洛斯Trans R Soc 185:71–110·doi:10.1098/rsta.1894.0003
[36] Peña D,Prieto FJ(2000)峰度系数和线性判别函数。统计概率Lett 49:257–261·Zbl 0969.62044号 ·doi:10.1016/S0167-7152(00)00055-9
[37] Peña D,Prieto FJ(2001a)使用投影进行聚类识别。美国统计协会J Am Stat Assoc 96:1433–1445·Zbl 1051.62055号 ·doi:10.1198/016214501753382345
[38] Peña D,Prieto FJ(2001b)多元异常值检测和稳健协方差矩阵估计。技术计量学43:286–300·doi:10.19198/004017001316975899
[39] Priebe C,Marchette D,Healy D(2002)统计模式识别的集成传感和处理。收录:Rockmore D,Healy D Jr(编辑)《现代信号处理》。剑桥大学出版社,伦敦,第223-246页·Zbl 1103.68780号
[40] Reiners T(1998)使用多级并行启发式对数据集进行最大似然聚类。布伦瑞克理工大学硕士论文
[41] Reyen SS(2004)建设性聚类分析。乔治·梅森大学博士论文
[42] Reyen SS,Miller JJ(2005)转动惯量和线性判别函数。概率统计快报71:39-46·Zbl 1058.62053号 ·doi:10.1016/j.spl.2004.10.029
[43] Ridolfi A,Idier J(2000),单变量正态混合分布的惩罚最大似然估计。摘自:第20届科学与工程贝叶斯推断和最大熵方法国际研讨会(MaxEnt)论文集,美国物理研究所,法国吉夫·苏尔·伊维特
[44] Rocke DM(1996)高维多元位置和形状S-估计的稳健性。Ann Stat 24:1327–1345年·Zbl 0862.62049号 ·doi:10.1214/aos/1032526972
[45] Rocke DM(1998年a)《建设性统计:估计量、算法和渐近性》。In:第30届接口:计算科学与统计研讨会,明尼苏达州明尼阿波利斯,第30卷,第3-14页
[46] Rocke DM(1998年b)数据挖掘应用统计工具的观点。摘自:第二届知识发现和数据挖掘实际应用国际会议论文集,伦敦,第313–318页
[47] Rocke DM,Woodruff DL(1993a)多元位置和形状稳健估计的计算。统计Neerl 47:27–42·doi:10.1111/j.1467-9574.1993.tb01404.x
[48] Rocke DM,Woodruff DL(1993b)最小体积椭球体的启发式搜索算法。J计算图统计2:69–95
[49] Rocke DM,Woodruff DL(1994),使用复合估计量对高维中的多元位置和形状进行可计算稳健估计。J Am Stat Assoc 89:888–896美国统计协会·Zbl 0825.62485号 ·doi:10.1080/016214519994.10476821
[50] Rocke DM,Woodruff DL(1996)多元数据中异常值的识别。美国统计协会J Am Stat Assoc 91:1047–1061·Zbl 0882.62049号 ·doi:10.1080/01621459.1996.10476975
[51] Rocke DM,Woodruff DL(1997)多元位置和形状的稳健估计。J Stat Plann推断57:245–255·兹比尔0900.62281 ·doi:10.1016/S0378-3758(96)00047-X
[52] Rocke DM,Woodruff DL(1999)离群值检测和聚类识别的综合(预印本)
[53] Rocke DM,Woodruff DL(2001)《多元异常值检测和稳健协方差矩阵估计的讨论》。技术计量学43:300–303
[54] Rohlf FJ(1975)多元异常值检测的缺口检验的推广。生物计量学31:93–101·Zbl 0308.62024号 ·doi:10.2307/2529711
[55] Rousseeuw PJ,van Driessen K(1999)最小协方差行列式估计的快速算法。技术指标41:212–223·doi:10.1080/00401706.1999.10485670
[56] Ruppert D(1992)计算回归和多元位置/形状的S估计。J计算图统计1:253–270
[57] Schott JR(1997)统计矩阵分析。威利,纽约·Zbl 0872.15002号
[58] Werner M(2003)大数据集中多变量异常值的识别。科罗拉多大学丹佛分校博士论文
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。