×

使用非参数方法的高维线性判别分析。 (英语) Zbl 1493.62394号

摘要:高维数据的分类是一个研究了很长时间的重要问题。许多研究提出了基于Fisher线性判别规则(LDA)的线性分类器,它包括估计未知协方差矩阵和每组的平均向量。特别是,如果数据维数(p\)大于观察数(n\)(p>n\),则由于众所周知的秩亏,样本协方差矩阵不能很好地估计协方差矩阵。为了解决这个问题,许多研究提出了通过协方差矩阵的对角化或正则化来修改LDA分类器的方法。本文将现有方法分为三种情况,并讨论了每种方法的缺点。为了弥补这些不足,我们的基本思想是,我们将高维平均向量和协方差矩阵的估计一并考虑在内,而现有的方法侧重于平均向量或协方差阵的收缩估计。我们提供的理论结果表明,该方法在平均向量结构的稀疏和稠密情况下都是成功的。相比之下,一些现有方法仅在特定情况下有效。我们还通过各种模拟研究和实际数据示例,如脑电图(EEG)、基因表达微阵列和光谱数据集,进行了数值研究,结果表明我们的方法优于现有方法。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62G05型 非参数估计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 蔡,T。;Liu,W.,稀疏线性判别分析的直接估计方法,J.Amer。统计师。协会,106,496,1566-1577(2011)·Zbl 1233.62129号
[2] Dicker,L.H.(Dicker,L.H.)。;Zhao,S.D.,基于非参数经验贝叶斯和最大似然推断的高维分类,生物特征,103,1,21-34(2016)·Zbl 1452.62440号
[3] Donoho,D.L。;Johnstone,I.M.,小波收缩的理想空间自适应,Biometrika,81,32425-455(1994)·Zbl 0815.62019号
[4] Donoho,D.L。;Johnstone,I.M.,《通过小波收缩适应未知平滑度》,J.Amer。统计师。协会,90,432,1200-1224(1995)·Zbl 0869.62024号
[5] 范,J。;Fan,Y.,使用特征退火独立规则的高维分类,Ann.Statist。,36, 6, 2605-2637 (2008) ·Zbl 1360.62327号
[6] 范,J。;Feng,Y。;Tong,X.,《高维空间中的分类之路:正则化最优仿射鉴别算子》,J.R.Stat.Soc.Ser。B统计方法。,74, 4, 745-771 (2012) ·Zbl 1411.62167号
[7] 冯·L。;Dicker,L.H.,混合模型的近似非参数最大似然:拟合任意多元混合分布的凸优化方法,计算。统计师。数据分析。,122, 80-91 (2018) ·Zbl 1469.62061号
[8] 福斯特,D.P。;George,E.I.,《多元回归的风险通货膨胀标准》,Ann.Statist。,22, 4, 1947-1975 (1994) ·Zbl 0829.62066号
[9] 格雷维尔,E。;Pierron,G。;文森特·萨洛蒙,A。;粥,N。;雷纳,V。;萨维尼奥尼,A。;Rycke,Y.D。;皮尔加,J.-Y。;卢切西,C。;Reyal,F。;Fourquet,A。;罗曼·罗曼,S。;拉德瓦尼,F。;萨斯特·加劳,X。;阿塞林,B。;Delatter,O.,T1T2结节阴性乳腺癌患者的预后DNA特征,基因染色体癌,49,12,1125-1134(2010)
[10] Greenshtein,E。;Park,J.,非参数经验贝叶斯估计在高维分类中的应用,J.马赫。学习。第10号决议,1687-1704(2009年)·Zbl 1235.62010号
[11] 郭毅。;哈斯蒂,T。;Tibshirani,R.,正则化线性判别分析及其在微阵列中的应用,生物统计学,8,1,86-100(2007)·Zbl 1170.62382号
[12] Hand,D.J.,《分类器技术与进步幻觉》,统计师。科学。,2006年1月21日至14日·Zbl 1426.62188号
[13] 蒋伟,关于异方差IID正态均值的一般极大似然经验Bayes估计,电子。J.Stat.,14,1,2272-2297(2020)·兹比尔1442.62068
[14] 蒋伟(Jiang,W.)。;张春华,正态均值的广义极大似然经验贝叶斯估计,Ann.Statist。,37, 4, 1647-1684 (2009) ·Zbl 1168.62005号
[15] 基弗,J。;Wolfowitz,J.,无限多附带参数存在下最大似然估计的一致性,《数学年鉴》。Stat.,27,4,887-906(1956年)·Zbl 0073.14701号
[16] Kubokawa,T。;Srivastava,M.S.,奇异Wishart分布的精度矩阵估计及其在高维数据中的应用,《多元分析杂志》。,99, 9, 1906-1928 (2008) ·Zbl 1284.62092号
[17] Lam,C.,非参数特征值正则化精度或协方差矩阵估计,Ann.Statist。,44, 3, 928-953 (2016) ·Zbl 1341.62124号
[18] 李,M.H。;Ahn,J。;Jeon,Y.,自适应数据堆积的HDLSS判别,J.Compute。图表。统计学。,22, 2, 433-451 (2013)
[19] 奥利亚斯,R。;马尔多纳多,B。;Radreau,P。;加尔,G.L。;Mulholland,F。;科尔库洪,I.J。;Kemsley,E.K.,《干烤火腿蛋白质的十二烷基硫酸钠-聚丙烯酰胺凝胶电泳:多凝胶数据注册和多元分析》,电泳,27,7,1288-1299(2006)
[20] 萨哈,S。;Guntuboyina,A.,关于高斯位置混合密度的非参数最大似然估计及其在高斯去噪中的应用,Ann.Statist。,48, 2, 738-762 (2020) ·Zbl 1454.62120号
[21] Tibshirani,R。;哈斯蒂,T。;Narasimhan,B。;Chu,G.,通过最近收缩的质心进行分类预测,并应用于DNA微阵列,统计。科学。,18, 1, 104-117 (2003) ·Zbl 1048.62109号
[22] Witten,D.M。;Tibshirani,R.,使用Fisher线性判别法进行惩罚分类,J.R.Stat.Soc.Ser。B统计方法。,73, 5, 753-772 (2011) ·Zbl 1228.62079号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。