×

稀疏HDLSS鉴别与受限数据堆积。 (英语) Zbl 1468.62012号

摘要:规则化是高维数据分析中的一个关键组成部分。在二元类的高维判别中,当数据投影到判别向量上是两分的(每个类一个)时,就会出现数据堆积现象。规范化数据堆积的程度会产生一类新的高维-低样本数据的判别规则。提出了一种在实现稀疏性的同时正则化数据堆积程度的判别方法,并通过线性规划求解。通过符号保护正则化,使估计量的符号与平均差相同,从而进一步提高了计算效率。该分类器在模拟和实际数据示例(包括语音识别和基因表达)中表现出了良好的性能。

MSC公司:

62-08 统计学相关问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 亚伯拉罕·G。;科瓦尔奇克,A。;Loi,S。;I.哈维。;Zobel,J.,《利用基因集统计预测乳腺癌预后提供特征稳定性和生物背景》,BMC生物信息学,11,1,277,(2010)
[2] 安,J。;Marron,J.S.,《歧视的最大数据堆积方向》,Biometrika,97,1,254-259,(2010)·Zbl 1182.62134号
[3] 阿龙,美国。;北巴尔凯。;诺特曼,医学博士。;Gish,K。;伊巴拉,S。;麦克,D。;Levine,A.J.,通过寡核苷酸阵列探测肿瘤和正常结肠组织的聚类分析揭示的广泛基因表达模式,Proc。国家。阿卡德。科学。,96, 12, 6745-6750, (1999)
[4] Biau,G。;布尼亚,F。;Wegkamp,M.H.,希尔伯特空间中的函数分类,IEEE Trans。通知。理论,51,62163-2172,(2005)·Zbl 1285.94015号
[5] Bickel,P.J。;Levina,E.,fisher线性判别函数的一些理论,朴素贝叶斯,以及当变量多于观测值时的一些替代方法,Bernoulli,10,6,989-1010,(2004)·Zbl 1064.62073号
[6] 蔡,T。;Liu,W.,稀疏线性判别分析的直接估计方法,J.Amer。统计师。协会,106,1566-1577,(2011)·Zbl 1233.62129号
[7] 坎迪斯,E。;Tao,T.,Dantzig选择器:当(p)远大于(n)时的统计估计,Ann.Statist。,35, 6, 2313-2351, (2007) ·Zbl 1139.62019号
[8] 克莱门森。;哈斯蒂,T。;维滕,D。;Ersbll,B.,稀疏判别分析,技术计量学,53,4,406-413,(2011)
[9] Desmedt,C。;Piette,F。;Loi,S。;Wang,Y。;Lallemand,F。;海贝-凯恩斯,B。;小瓶,G。;Delorenzi先生。;Zhang,Y。;d’Assignies,M.S。;J.Bergh。;利德劳,R。;埃利斯,P。;哈里斯,A.L。;Klijn,J.G。;Foekens,J.A。;卡多佐,F。;Piccart,M.J。;Buyse,M。;Sotiriou,C.,在transbig多中心独立验证系列中,淋巴结阴性乳腺癌患者的76-基因预后特征具有很强的时间依赖性,临床。癌症研究,13,11,3207-3214,(2007)
[10] Dettling,M.,Bagboosting,利用基因表达数据进行肿瘤分类,生物信息学,20,18,3583-3593,(2004)
[11] Dudoit,S。;Fridlyand,J。;Speed,T.P.,使用基因表达数据对肿瘤分类的判别方法的比较,J.Amer。统计师。协会,97,457,77-87,(2002)·Zbl 1073.62576号
[12] Fisher,R.A.,《多重测量在分类问题中的应用》,《优生学年鉴》,第7、2、179-188页,(1936年)
[13] 郭毅。;哈斯蒂,T。;Tibshirani,R.,正则化线性判别分析及其在微阵列中的应用,生物统计学,8,1,86-100,(2007)·兹比尔1170.62382
[14] Haeb-Umbach,R。;Ney,H.,用于改进大词汇量连续语音识别的线性判别分析,(声学、语音和信号处理,1992年IEEE国际会议,第1卷,ICASPS-92,(1992),IEEE),13-16
[15] 伊夫希纳公司。;乔治·J。;森子,O。;Mow,B。;普提,T.C。;Smeds,J。;Lindahl,T。;帕维坦,Y。;霍尔,P。;Nordgren,H.,组织学分级的遗传重新分类描述了乳腺癌的新临床亚型,《癌症研究》,66,21,10292-10301,(2006)
[16] 李,M.H。;Ahn,J。;Jeon,Y.,自适应数据堆积的HDLSS判别,J.Compute。图表。统计学。,22, 2, 433-451, (2013)
[17] Leng,C.,《利用微阵列数据进行多类癌症诊断和生物标记物检测的稀疏最优评分》,计算机。生物化学。,32, 6, 417-425, (2010) ·Zbl 1158.92316号
[18] 卢,J。;Plataniotis,K.N。;Venetsanopoulos,A.N.,使用基于LDA的算法进行人脸识别,IEEE Trans。神经网络。,14, 1, 195-200, (2003)
[19] Mai,Q。;邹,H。;Yuan,M.,超高维稀疏判别分析的直接方法,Biometrika,99,1,29-42,(2012)·Zbl 1437.62550号
[20] 邵,J。;Wang,Y。;邓,X。;Wang,S.,高维数据阈值稀疏线性判别分析,Ann.Statist。,39, 2, 1241-1265, (2011) ·Zbl 1215.62062号
[21] 辛格,D。;费博,P.G。;Ross,K。;Jackson,D.G。;马诺拉,J。;拉德,C。;Tamayo,P。;Renshaw,A.A。;阿米科公司。;Richie,J.P.,《前列腺癌临床行为的基因表达相关性》,《癌细胞》,1,2,203-209,(2002)
[22] 北特伦达菲洛夫。;Jolliffe,I.,DALASS:通过套索进行判别分析的变量选择,计算。统计师。数据分析。,51, 8, 3718-3736, (2007) ·Zbl 1161.62379号
[23] Wang,Y。;Klijn,J.G。;Zhang,Y。;Sieuwerts,A.M。;看,M.P。;杨,F。;塔兰托夫,D。;蒂默曼斯,M。;Meijer van Gelder,医学博士。;Yu,J.,基因表达谱预测淋巴结阴性原发性乳腺癌远处转移,《柳叶刀》,365,9460,671-679,(2005)
[24] 韦斯特,M。;布兰切特,C。;Dressman,H。;黄,E。;石田,S。;斯潘,R。;Zuzan,H。;奥尔森·J·A。;马克斯,J.R。;Nevins,J.R.,利用基因表达谱预测人类乳腺癌的临床状态,Proc。国家。阿卡德。科学。,98, 20, 11462-11467, (2001)
[25] 维滕,D。;Tibshirani,R.,使用fisher线性判别法进行惩罚分类,J.R.Stat.Soc.Ser。B统计方法。,73, 5, 753-772, (2011) ·Zbl 1228.62079号
[26] 吴,M。;张,L。;王,Z。;Christiani,D。;Lin,X.,基因集/通路和基因选择重要性同时测试的稀疏线性判别分析,生物信息学,25,9,1145-1151,(2009)
[27] 邹,H。;袁,M.,(F_\infty)-范数支持向量机,统计。Sinica,18,379-398,(2008年)·Zbl 1416.62370号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。