×

使用Fisher线性判别法进行惩罚分类。 (英语) Zbl 1228.62079号

摘要:我们考虑监督分类设置,其中数据由n个观测值上测量的(p)特征组成,每个观测值都属于(K)类之一。线性判别分析(LDA)是解决这一问题的经典方法。然而,在高维环境中,LDA不适合,原因有二。首先,类内协方差矩阵的标准估计是奇异的,因此不能应用通常的判别规则。其次,当(p)较大时,很难解释从LDA获得的分类规则,因为它涉及所有(p)特征。我们提出了惩罚LDA,这是一种惩罚Fisher判别问题中的判别向量的通用方法,可以带来更大的可解释性。由于判别问题不是凸的,所以当对判别向量进行凸惩罚时,我们使用了一种最小化最大化方法来有效地对其进行优化。特别地,我们考虑使用(L_{1})和融合套索惩罚。我们的建议相当于将Fisher的判别问题重新定义为一个双凸问题。我们在模拟研究和三个基因表达数据集上评估了所得方法的性能。我们还调查了过去将LDA扩展到高维环境的方法,并探讨了它们与我们的提案之间的关系。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
90 C90 数学规划的应用
65C60个 统计中的计算问题(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Barrett,NCBI GEO:挖掘数百万表达谱-数据库和工具,《核酸研究》33 pp D562–(2005)·Zbl 05437509号 ·doi:10.1093/nar/gki022
[2] Bickel,Fisher线性判别函数的一些理论,“朴素贝叶斯”,以及变量多于观测值时的一些替代方法,Bernoulli 10 pp 989–(2004)·Zbl 1064.62073号 ·doi:10.3150/bj/1106314847
[3] Boyd,凸优化(2004)·doi:10.1017/CBO9780511804441
[4] Breiman,技术报告(1984)
[5] 克拉克,优化与非光滑分析(1990)·doi:10.1137/1.9781611971309
[6] Clemmensen,L.Hastie,T.Witten,D.Ersboll,B.2011稀疏判别分析
[7] Dudoit,《使用基因表达数据进行肿瘤分类的鉴别方法比较》,《美国统计学杂志》。评估96第1115页–(2001)
[8] Fan,使用特征退火独立规则的高维分类,Ann.Statist。第36页,2605页–(2008年)·Zbl 1360.62327号 ·doi:10.1214/07-AOS504
[9] 弗里德曼,正则化判别分析,美国统计学家杂志。评估84第165页–(1989)·doi:10.2307/2289860
[10] Friedman,Pathwise坐标优化,Ann.Appl。统计师。第1页302–(2007)·Zbl 1378.90064号 ·doi:10.1214/07-AOAS131
[11] Gorski,双凸集与双凸函数优化:综述与扩展,数学。方法。操作。第66号决议第373页–(2007年)·Zbl 1146.90495号 ·doi:10.1007/s00186-007-0161-1
[12] Grosenick,功能磁共振成像的可解释分类器改进了购买预测,IEEE Trans。诺尔。系统。Rehabilton Enging 16第539页–(2008年)·doi:10.1010/TNSRE.2008.926701
[13] Guo,正则化线性判别分析及其在微阵列中的应用,生物统计学8第86页–(2007)·兹比尔1170.62382 ·doi:10.1093/biostatistics/kxj035
[14] Hastie,Penalized判别分析,Ann.统计学。第23页,73页–(1995年)·Zbl 0821.62031号 ·doi:10.1214/aos/1176324456
[15] Hastie,《统计学习的要素》;数据挖掘、推断和预测(2009)·Zbl 1273.62005年
[16] Hoefling,融合套索信号近似器的路径算法,J.计算图。统计师。第19页,984页–(2010年)·doi:10.1198/jcgs.2010.09208
[17] Hunter,MM算法教程,《美国统计》58,第30页–(2004)·Zbl 05680564号 ·doi:10.1198/0003130042836
[18] Johnson,N.2010融合套索和10分割的动态规划算法
[19] Jolliffe,基于套索的改进主成分技术,J.Computenl Graph。统计师。第12页,531页–(2003年)·doi:10.1198/1061860032148
[20] Krzanowski,奇异协方差矩阵判别分析:光谱数据的方法和应用,应用。统计师。第44页101–(1995)·Zbl 0821.62032号 ·doi:10.2307/2986198
[21] Lange,优化(2004)·doi:10.1007/978-1-4757-4182-7
[22] 兰格,使用代理目标函数的优化传输,J.计算图。统计师。第9页第1页–(2000年)·doi:10.2307/1390605
[23] Leng,使用微阵列数据对多类癌症诊断和生物标记物检测进行稀疏最优评分,Computenl Biol。化学。第32页,417页–(2008年)·Zbl 1158.92316号 ·doi:10.1016/j.compbiochem.2008.07.015
[24] Mardia,多元分析(1979)
[25] 中山,软组织肉瘤的基因表达分析:恶性纤维组织细胞瘤的特征和重新分类,Mod。病态。第749页,共20页–(2007年)·doi:10.1038/modpathol.3800794
[26] Ramaswamy,使用肿瘤基因表达特征的多类癌症诊断,Proc。国家。阿卡德。科学。美国,第98页,第15149页–(2001年)·doi:10.1073/pnas.211566398
[27] 邵,高维数据的阈值稀疏线性判别分析,统计年鉴。第39页,第1241页–(2011年)·Zbl 1215.62062号 ·doi:10.1214/10-AOS870
[28] 沈,通过正则化低秩矩阵近似进行稀疏主成分分析,J.Multiv。分析。101第1015页–(2008年)·Zbl 1141.62049号 ·doi:10.1016/j.jmva.2007.06.007
[29] Sun,神经和胶质源性干细胞因子诱导脑内血管生成,《癌症细胞9》第287页–(2006)·doi:10.1016/j.ccr.2006.03.003
[30] Tebbens,针对高维/小样本问题改进线性判别分析的实现,Computenl Statist。数据分析。第52页,423页–(2007年)·Zbl 1452.62470号 ·doi:10.1016/j.csda.2007.02.001
[31] Tibshirani,《通过套索进行回归收缩和选择》,J.R.Statist。Soc.B 58第267页–(1996年)·Zbl 0850.62538号
[32] Tibshirani,通过基因表达的收缩中心诊断多种癌症类型,Proc。国家。阿卡德。科学。美国99 pp 6567–(2002)·doi:10.1073/pnas.082099299
[33] Tibshirani,通过最近收缩的质心进行分类预测,并应用于DNA微阵列,Statist。科学。第18页104–(2003)·Zbl 1048.62109号 ·doi:10.1214/ss/1056397488
[34] Tibshirani,《通过融合套索实现的稀疏与流畅》,J.R.Statist。Soc.B 67第91页–(2005年)·Zbl 1060.62049号 ·文件编号:10.1111/j.1467-9868.2005.00490.x
[35] Trendafilov,DALASS:通过LASSO,Computenl Statist进行判别分析的变量选择。数据分析。第51页,第3718页–(2007年)·Zbl 1161.62379号 ·doi:10.1016/j.csda.2006.12.046
[36] Witten,惩罚LDA:使用Fisher线性判别法的惩罚分类,R Package 1.0版(2011年)
[37] Witten,高维问题的协方差回归与分类,J.R.Statist。Soc.B 71第615页–(2009年)·兹比尔1250.62033 ·文件编号:10.1111/j.1467-9868.2009.00699.x
[38] Witten,惩罚矩阵分解,应用于稀疏主成分和规范相关性分析,生物统计学10第515页–(2009)·doi:10.1093/biostatistics/kxp008
[39] Xu,高维微阵列数据分类的改进线性判别分析方法,计算统计量。数据分析。第53页,1674页–(2009年)·Zbl 1453.62255号 ·doi:10.1016/j.csda.2008.02.005
[40] 朱,基因微阵列的惩罚logistic回归分类,生物统计学5 pp 427–(2004)·Zbl 1154.62406号 ·doi:10.1093/biostatistics/kxg046
[41] 邹,通过弹性网进行正则化和变量选择,J.R.Statist。Soc.B 67第301页–(2005年)·Zbl 1069.62054号 ·数字对象标识代码:10.1111/j.1467-9868.2005.0050.x
[42] 邹,稀疏主成分分析,J.计算图。统计师。第15页,第265页–(2006年)·doi:10.1198/106186006X113430
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。