×

基于图的稀疏线性鉴别分析用于高维分类。 (英语) Zbl 1417.62173号

摘要:线性判别分析(LDA)是一种著名的分类技术,在实际应用中取得了巨大成功。尽管它对传统的低维问题有效,但为了对高维数据进行分类,LDA的扩展是必要的。文献中提出了许多LDA变体。然而,当这些方法中的结构信息可用时,大多数方法并没有完全纳入预测因子之间的结构信息。本文介绍了一种新的高维LDA技术,即基于图的稀疏LDA(GSLDA),它利用了特征之间的图结构。特别地,我们将正则化回归公式用于惩罚LDA技术,并建议对判别向量(\boldsymbol{\beta})施加基于结构的稀疏惩罚。可以根据训练数据给出或估计图形结构。此外,我们还探讨了类内特征结构与整体特征结构之间的关系。基于这种关系,我们进一步提出了我们提出的GSLDA的一种变体,以有效地利用未标记数据,这些数据在半监督学习环境中非常丰富。使用新的正则化方法,我们可以获得(黑体符号{β})的稀疏估计,并且与许多现有方法相比,分类器更加准确和可解释。建立了(boldsymbol{beta})估计的选择一致性和分类器的收敛速度,得到的分类器具有渐近Bayes错误率。最后,我们在模拟和实际数据研究中证明了所提出的GSLDA的竞争性能。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
05C90年 图论的应用
62小时12分 多元分析中的估计
2012年12月62日 参数估计量的渐近性质
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Bickel,P.J。;Levina,E.,Fisher线性判别函数的一些理论,“朴素贝叶斯”,以及变量多于观测值时的一些替代方法,Bernoulli,10,6,989-1010(2004)·Zbl 1064.62073号
[2] Bishop,C.M.,模式识别和机器学习(信息科学和统计)(2006年),Springer-Verlag New York,Inc.:Springer-Verlag New Yeork,Inc,美国新泽西州Secaucus
[3] 邦德尔·H·D。;Reich,B.J.,《OSCAR预测因子的同步回归收缩、变量选择和监督聚类》,生物统计学,64,1,115-123(2008)·Zbl 1146.62051号
[4] 博伊德,S。;Vandenberghe,L.,《凸优化》(2004),剑桥大学出版社·Zbl 1058.90049号
[5] 蔡,D。;何,X。;Han,J.,半监督判别分析,2007年IEEE第11届计算机视觉国际会议,1-7(2007),IEEE
[6] 蔡,T。;Liu,W.,稀疏线性判别分析的直接估计方法,J.Amer。统计师。协会,106,496,1566-1577(2011)·Zbl 1233.62129号
[7] 蔡,T。;刘伟。;Luo,X.,稀疏精度矩阵估计的约束(ell 1)最小化方法,J.Amer。统计师。协会,106494594-607(2011年)·Zbl 1232.62087号
[8] 陈,J。;Chen,Z.,《大模型空间模型选择的扩展贝叶斯信息准则》,Biometrika,95,3,759-771(2008)·Zbl 1437.62415号
[9] 陈,S。;Witten,D.M。;Shojaie,A.,混合图形模型的选择和估计,Biometrika,102,1,47-64(2014)·Zbl 1345.62081号
[10] 克莱门森。;哈斯蒂,T。;维滕,D。;Ersböll,B.,稀疏判别分析,技术计量学,53,4,406-413(2011)
[11] 范,J。;Fan,Y.,使用特征退火独立规则的高维分类,Ann.Statist。,36, 6, 2605 (2008) ·Zbl 1360.62327号
[12] 范,J。;Feng,Y。;Tong,X.,《高维空间中的分类之路:正则化最优仿射鉴别算子》,J.R.Stat.Soc.Ser。B统计方法。,74, 4, 745-771 (2012) ·Zbl 1411.62167号
[13] Fisher,R.A.,《多重测量在分类问题中的应用》,《优生学年鉴》,第7、2、179-188页(1936年)
[14] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,用图形套索进行稀疏逆协方差估计,生物统计学,9,3,432-441(2008)·Zbl 1143.62076号
[15] Hand,D.J.,《分类器技术与进步幻觉》,《统计科学》。,21, 1, 1-14 (2006) ·Zbl 1426.62188号
[16] 哈斯蒂,T。;Tibshirani,R。;Buja,A.,通过最佳评分进行灵活的判别分析,J.Amer。统计师。协会,89,428,1255-1270(1994)·Zbl 0812.62067号
[17] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素:数据挖掘、推断和预测》(2009),纽约施普林格出版社:纽约施普林格出版社·Zbl 1273.62005年
[18] Kim,S。;潘·W。;Shen,X.,基于网络的惩罚回归及其在基因组数据中的应用,生物统计学,69,3,582-593(2013)·兹比尔1429.62294
[19] 李,C。;Li,H.,用于基因组数据分析的网络约束正则化和变量选择,生物信息学,24,9,1175-1182(2008)
[20] 刘,B。;沈,X。;Pan,W.,《半监督谱聚类及其在检测人口分层中的应用》,Front。遗传学,4215(2013)
[21] 刘,Y。;Yuan,M.,增强型多类别支持向量机,J.Compute。图表。统计人员。,20, 4, 901-919 (2011)
[22] 罗,S。;Chen,Z.,稀疏高斯图形模型中的边缘检测,计算。统计师。数据分析。,70, 138-152 (2014) ·Zbl 1471.62128号
[23] 罗,S。;Chen,Z.,用于超高维特征空间特征选择的序列拉索和EBIC,J.Amer。统计师。协会,109,507,1229-1240(2014)·Zbl 1368.62205号
[24] Q.Mai,Y.Yang,H.Zou,多类稀疏判别分析,2015,arXiv预印本arXiv:1504.05845;Q.Mai,Y.Yang,H.Zou,多类稀疏判别分析,2015,arXiv预印本arXiv:1504.05845·兹比尔1307.62166
[25] Mai,Q。;Zou,H.,关于三种稀疏线性判别分析方法的联系和等价性的注记,Technometrics,55,2,243-246(2013)
[26] Mai,Q。;邹,H。;Yuan,M.,超高维稀疏判别分析的直接方法,Biometrika,99,1,29-42(2012)·Zbl 1437.62550号
[27] Meier,L。;Van De Geer,S。;Bühlmann,P.,logistic回归的组套索,J.R.Stat.Soc.Ser。B统计方法。,70, 1, 53-71 (2008) ·Zbl 1400.62276号
[28] 明绍森,N。;Bühlmann,P.,《高维图和拉索变量选择》,Ann.Statist。,34, 3, 1436-1462 (2006) ·Zbl 1113.62082号
[29] 最小值,W。;刘杰。;Zhang,S.,用于临床风险预测和生物标志物发现的网络正则化稀疏逻辑回归模型,IEEE/ACM Trans。计算。生物信息。(TCBB),第15、3、944-953页(2018年)
[30] Negahban,S.N。;拉维库马尔,P。;温赖特,M.J。;Yu,B.,带可分解正则化器的M-估计的高维分析统一框架,统计学家。科学。,27, 4, 538-557 (2012) ·Zbl 1331.62350号
[31] G.Obozinski,L.Jacob,J.-P.Vert,《重叠的群套索:潜在群套索方法》,2011年,arXiv预印本arXiv:1110.0413;G.Obozinski,L.Jacob,J.-P.Vert,《重叠的群套索:潜在群套索方法》,2011年,arXiv预印本arXiv:1110.0413
[32] 潘·W。;Shen,X.,基于模型的聚类及其在变量选择中的应用,J.Mach。学习。第81145-1164号决议(2007年)·Zbl 1222.68279号
[33] 潘·W。;谢,B。;Shen,X.,将预测网络纳入惩罚回归并应用于微阵列数据,生物统计学,66,2,474-484(2010)·Zbl 1192.62235号
[34] Pang,H.等人。;刘,H。;Vanderbei,R.,《R,J.Mach中线性规划和大规模精度矩阵估计的fastclime包》。学习。第15号、第1号、第489-493号决议(2014年)·Zbl 1318.90002号
[35] 邵,J。;Wang,Y。;邓,X。;Wang,S.,高维数据阈值稀疏线性判别分析,Ann.Statist。,39, 2, 1241-1265 (2011) ·Zbl 1215.62062号
[36] Tibshirani,R。;哈斯蒂,T。;Narasimhan,B。;Chu,G.,通过基因表达的收缩质心诊断多种癌症,Proc。国家。阿卡德。科学。,99, 10, 6567-6572 (2002)
[37] Vanderbei,R.J.,《线性规划:基础与扩展》(2015),施普林格出版社
[38] 沃曼,A。;Shojaie,A。;Witten,D.,联合加性模型下的图形估计,Biometrika,101,1,85-101(2013)·Zbl 1285.62061号
[39] Witten,D.M。;Tibshirani,R.,使用Fisher线性判别法进行惩罚分类,J.R.Stat.Soc.Ser。B统计方法。,73, 5, 753-772 (2011) ·Zbl 1228.62079号
[40] 吴,M.C。;张,L。;王,Z。;哥伦比亚特区克里斯蒂安尼。;Lin,X.,基因集/通路和基因选择重要性同时测试的稀疏线性判别分析,生物信息学,25,9,1145-1151(2009)
[41] 吴,M。;朱,L。;Feng,X.,《基于网络的特征筛选及其在基因组数据中的应用》,Ann.Appl。统计,12,2,1250-1270(2018)·Zbl 1405.62217号
[42] Yang,S。;袁,L。;赖,Y.-C。;沈,X。;旺卡,P。;Ye,J.,无向图上的特征分组与选择,922-930(2012),ACM
[43] Yang,Y。;Zou,H.,一种求解群-随机惩罚学习问题的快速统一算法,统计计算。,25, 6, 1129-1141 (2015) ·Zbl 1331.62343号
[44] Yu,G。;Liu,Y.,《结合预测器图形结构的稀疏回归》,J.Amer。统计师。协会,111,514,707-720(2016)
[45] 袁,M。;Lin,Y.,《分组变量回归中的模型选择和估计》,J.R.Stat.Soc.Ser。B统计方法。,68, 1, 49-67 (2006) ·Zbl 1141.62030号
[46] 袁,M。;Lin,Y.,高斯图形模型中的模型选择和估计,生物统计学,94,1,19-35(2007)·Zbl 1142.62408号
[47] 张,C。;Liu,Y.,多类别大边缘统一机器,J.Mach。学习。第14、1、1349-1386号决议(2013年)·Zbl 1317.68200号
[48] 张,C。;刘,Y。;Wang,J。;Zhu,H.,基于增强角度的多类别支持向量机,J.Compute。图表。统计人员。,25, 3, 806-825 (2016)
[49] 张伟。;Wan,Y.-W。;艾伦,G.I。;Pang,K。;安德森,M.L。;Liu,Z.,使用生物网络再调节逻辑模型进行分子途径识别,BMC Genomics,14,8,S7(2013)
[50] 赵,S。;Shojaie,A.,图形约束估计的显著性检验,生物统计学,72,2,484-493(2016)·Zbl 1419.62493号
[51] 赵,P。;Yu,B.,关于Lasso,J.Mach的模型选择一致性。学习。决议,2541-2563(2006年),11月7日·Zbl 1222.62008年
[52] 周,H。;潘·W。;Shen,X.,基于模型的无约束协方差矩阵聚类,Electron。J.统计。,3, 1473 (2009) ·Zbl 1326.62143号
[53] Zhu,Y。;沈,X。;Pan,W.,无向图上的同时分组追踪和特征选择,J.Amer。统计师。协会,108,502,713-725(2013)·Zbl 06195973号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。