×

正则化线性判别分析的维数效应。 (英语) Zbl 1404.62070号

摘要:本文研究了线性判别分析(LDA)和正则化线性判别分析分类器对观测维数与样本大小具有相同阶次的大维数据的维数效应。更具体地说,基于Wishart分布的特性和随机矩阵理论中的最新结果,我们分别导出了LDA和RLDA的渐近误分类误差的显式表达式,从中我们了解了维数如何影响分类性能以及在什么意义上。基于这些结果,我们提出了通过修正样本大小不相等带来的偏差来调整分类器。偏差校正LDA和RLDA分类器的误分类率分别小于LDA和RLDA分类器。文中详细讨论了几个有趣的例子,并通过大量的仿真研究说明了尺寸效应的理论结果。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
60对20 随机矩阵(概率方面)
62E20型 统计学中的渐近分布理论

软件:

风险评估
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Anderson,T.(2003)。,多元统计分析导论。概率统计威利级数·Zbl 1039.62044号
[2] Aosima,M.和Yata,K.(2014)。一种基于距离、误分类率调整的多类高维数据分类器。,统计数学研究所年鉴66 983–1010·Zbl 1309.62108号 ·doi:10.1007/s10463-013-0435-8
[3] Bai,Z.,Liu,H.和Wong,W.-K.(2009年)。利用随机矩阵理论增强Markowitz投资组合优化的适用性。,数学金融19 639–667·Zbl 1185.91155号 ·文件编号:10.1111/j.1467-9965.2009.00383.x
[4] Bai,Z.、Liu,H.和Wong,W.(2011)。大样本协方差矩阵特征矩阵的渐近性质,《应用概率年鉴》,1994-2015年·Zbl 1234.15013号 ·doi:10.1214/10-AAP748
[5] Bai,Z.、Miao,B.和Pan,G.(2007)。关于大样本协方差矩阵特征向量的渐近性,《概率年鉴》35 1532–1572·兹比尔1162.15012 ·doi:10.1214/009117906000001079
[6] Bai,Z.和Saranadasa,H.(1996)。高维的影响:以一个两样本问题为例。,《中国统计》311–329·Zbl 0848.62030号
[7] Bai,Z.和Silverstein,J.W.(2010)。,大维随机矩阵的谱分析。斯普林格·Zbl 1301.60002号
[8] Bickel,P.J.和Levina,E.(2004)。Fisher线性判别函数、朴素贝叶斯的一些理论,以及当变量多于观测值时的一些替代方法。,伯努利10 989–1010·Zbl 1064.62073号 ·doi:10.3150/bj/1106314847
[9] Bühlmann,P.(2013)。高维线性模型的统计显著性。,伯努利19 1212–1242·Zbl 1273.62173号 ·doi:10.350/12-BEJSP11
[10] Cai,T.和Liu,W.(2011)。稀疏线性判别分析的直接估计方法。,美国统计协会杂志106 1566–1577·兹比尔1233.62129 ·doi:10.1198/jasa.2011.tm11199
[11] Cai,T.、Liu,W.和Luo,X.(2011)。受约束的\(ℓ _1)稀疏精度矩阵估计的最小化方法。,美国统计协会杂志106 594–607·Zbl 1232.62087号 ·doi:10.1198/jasa.2011.tm10155
[12] Cai,T.、Liu,W.和Xia,Y.(2014)。依赖性高维平均值的两样本测试。,英国皇家统计学会杂志,B76 349–372辑·Zbl 07555454号 ·doi:10.1111/rssb.12034
[13] Chan,Y.-B.和Hall,P.(2009年)。高维、低样本量设置中分类器的缩放调整。,生物特征96 469–478·Zbl 1163.62045号 ·doi:10.1093/biomet/asp007
[14] Chen,L.S.、Paul,D.、Prentice,R.L.和Wang,P.(2011)。蛋白质组研究中通路分析的正规Hotelling’s(T^2)检验。,美国统计协会杂志106·Zbl 1234.62082号 ·doi:10.1198/jasa.2011.ap10599
[15] Cheng,Y.(2004)。在高维数据的情况下,两个判别函数错误分类的渐近概率。,统计与概率信函67 9–17·Zbl 1081.62042号 ·doi:10.1016/j.spl.2003.12.001
[16] Collins,B.和niady,P.(2006年)。酉群、正交群和辛群上Haar测度的积分。,数学物理交流264 773–795·Zbl 1108.60004号 ·doi:10.1007/s00220-006-1554-3
[17] Cook,R.D.和Forzani,L.(2011年)。关于奇异Wishart矩阵广义逆的均值和方差,电子统计杂志5 146–158·Zbl 1274.62350号 ·doi:10.1214/11-EJS602
[18] Dobriban,E.和Wager,S.(2018年)。预测的高维渐近性:岭回归和分类。,统计年鉴46 247–279·Zbl 1428.62307号 ·doi:10.1214/17-AOS1549
[19] Dudoit,S.、Fridland,J.和Speed,T.P.(2002年)。利用基因表达数据进行肿瘤分类的鉴别方法比较。,美国统计协会杂志97 77–87·Zbl 1073.62576号 ·doi:10.1198/016214502753479248
[20] El Karoui,N.(2008年)。基于随机矩阵理论的大维协方差矩阵谱估计。,统计年鉴36 2757–2790·Zbl 1168.62052号 ·doi:10.1214/07-AOS581
[21] El Karoui,N.(2010年)。Markowitz问题和其他线性约束二次规划中的高维效应:风险低估。,统计年鉴38 3487–3566·Zbl 1274.62365号 ·doi:10.1214/10操作系统795
[22] El Karoui,N.和Holger,K.(2011年)。随机矩阵结果的几何敏感性:协方差收缩估计和相关统计方法的后果。,arXiv:11051404。
[23] Fan,J.、Feng,Y.和Tong,X.(2012)。高维空间中的分类之路:正则化最优仿射鉴别。,英国皇家统计学会杂志,B74 745-771系列·Zbl 1411.62167号
[24] Friedman,J.H.(1989)。正则判别分析。,美国统计协会杂志84 165–175。
[25] Guo,Y.、Hastie,T.和Tibshirani,R.(2007年)。正则化线性判别分析及其在微阵列中的应用。,生物统计8 86–100·Zbl 1170.62382号 ·doi:10.1093/biostatistics/kxj035
[26] Hand,D.(2006年)。分类器技术和进步的幻觉。,统计科学21 1–14·Zbl 1426.62188号 ·doi:10.1214/08834230600000060
[27] Huang,S.,Tong,T.和Zhao,H.(2010)。高维分类中的偏差修正对角判别规则。,生物统计学66 1096–1106·Zbl 1233.62130号 ·文件编号:10.1111/j.1541-0420.2010.01395.x
[28] Jiang,T.和Yang,F.(2013)。高维正态分布经典似然比检验的中心极限定理。,统计年鉴41 2029–2074·兹比尔1277.62149 ·doi:10.1214/13-AOS1134
[29] Kubokawa,T.和Srivastava,M.S.(2008)。奇异Wishart分布精度矩阵的估计及其在高维数据中的应用。,多元分析杂志99 1906–1928·Zbl 1284.62092号 ·doi:10.1016/j.jmva.2008.01.016
[30] Ledoit,O.和Péché,S.(2011)。一些大样本协方差矩阵系综的特征向量。,概率论及相关领域151 233–264·Zbl 1229.60009号 ·doi:10.1007/s00440-010-0298-3
[31] Ledoit,O.和Wolf,M.(2004)。亲爱的,我缩小了样本协方差矩阵。《投资组合管理杂志》30 110-119。
[32] Li,Z.和Yao,J.(2016)。关于一般种群高维分类的两种简单有效的方法。,统计论文57 381-405·Zbl 1336.62187号 ·doi:10.1007/s00362-015-0660-8
[33] Mai,Q.、Zou,H.和Yuan,M.(2012)。超高维稀疏判别分析的直接方法。,生物特征99 29–42·兹比尔1437.62550 ·doi:10.1093/biomet/asr066
[34] Marčenko,V.A.和Pastur,L.A.(1967年)。一些随机矩阵集的特征值分布。,苏联斯博尼克数学457·兹比尔0162.22501
[35] Matsumoto,S.(2012年)。逆实Wishart分布和正交Weingarten函数的一般矩。,理论概率杂志25 798–822·Zbl 1256.15019号 ·doi:10.1007/s10959-011-0340-0
[36] Moran,M.和Murphy,B.(1979年)。仔细研究两种替代的统计歧视方法。,应用统计3 223–232·Zbl 0426.62038号
[37] Pan,G.和Zhou,W.(2011年)。大维Hotellin(T^2)统计量的中心极限定理。,应用概率年鉴1860-1910·Zbl 1250.62030
[38] Saranadasa,H.(1993)。利用大维随机矩阵理论从两个高维总体中判别D和A准则的误分类概率的渐近展开。,《多变量分析杂志》46 154–174·Zbl 0778.62055号 ·doi:10.1006/jmva.1993.1054
[39] Shao,J.、Wang,Y.、Deng,X.和Wang,S.(2011)。高维数据的阈值稀疏线性判别分析。,统计年鉴39 1241–1265·Zbl 1215.62062号 ·doi:10.1214/10-AOS870
[40] von Rosen,D.(1988年)。逆Wishart分布的力矩。,《斯堪的纳维亚统计杂志》97–109·兹伯利0663.62063
[41] Wang,X.和Leng,C.(2016)。筛选变量的高维普通最小二乘投影。,英国皇家统计学会杂志,B78 589–611系列·Zbl 1414.62313号
[42] Wang,C.,Pan,G.,Tong,T.和Zhu,L.(2015)。基于随机矩阵理论的大维精度矩阵收缩估计。,中国统计局25 993–1008·Zbl 1415.62035号
[43] Zollanvari,A.和Dougherty,E.R.(2013)。双重渐近和随机矩阵理论在正则化线性判别分析误差估计中的应用。年,全球信号和信息处理会议(GlobalSIP),2013年IEEE 57–59。电气与电子工程师协会。
[44] Zollanvari,A.和Dougherty,E.R.(2015)。线性判别分析的广义一致误差估计。,IEEE信号处理汇刊63 2804–2814·Zbl 1394.94709号 ·doi:10.1109/TSP.2015.2419190
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。