×

高维数据特征选择的对角判别分析。 (英语) 07499ZB6号

摘要:介绍了一种新的高维判别分析方法,称之为multiDA。从避免高维协方差估计问题的多类对角DA分类器出发,构造了一个无缝集成特征选择组件的混合模型。我们的特征选择组件自然地简化为权值,权值是似然比检验统计量的简单函数,允许与传统假设检验方法进行自然比较。我们提供启发性的论据,建议我们的算法在特征选择方面的理想渐近性质。我们将我们的方法与其他几种方法进行了比较,显示出在预测精度、所选特征的可解释性和快速运行时间方面的显著改进。我们通过在公开可用的高维数据集上显示出强大的分类性能,以及通过多个模拟研究来展示我们模型的这些优势。我们提供了一个R包来实现我们的方法。这篇文章的补充材料可以在网上找到。

理学硕士:

62-XX号 统计
PDF格式 BibTeX公司 XML 引用

参考文献:

[1] Akaike,H.,“统计模型识别的新视角”,《IEEE自动控制学报》,19716-723(1974)·Zbl 0314.62039
[2] 本贾米尼,Y。;Hochberg,Y.,“控制错误发现率:一种实用而有效的多重测试方法”,《皇家统计学会期刊》,B辑,57289-300(1995)·Zbl 0809.62014
[3] 贝伦,D。;Tassa,T.,“贝尔数和随机变量和矩的改进界”,《概率与数理统计》,30185-205(2010)·Zbl 1230.60014
[4] 比克尔,P.J。;Levina,E.,“关于Fisher线性判别函数的一些理论,‘Näivebayes’,以及当变量多于观测值时的一些选择”,Bernoulli,10989-1010(2004)·Zbl 1064.62073
[5] Bonferroni,C.E.,“Teoria Statistica Delle Classi E Calcolo Delle Probabilitá”,公共图书馆高等科学经济研究所,第8期,第3-62页(1936年)·Zbl 0016.41103
[6] 布雷曼,L.,“随机森林”,机器学习,45,5-32(2001)·Zbl 1007.68152号
[7] 陈杰。;陈,Z.,“大模型空间模型选择的扩展贝叶斯信息准则”,生物计量学,95759-771(2008)·Zbl 1437.62415
[8] 克莱门森,L。;黑斯蒂,T。;维顿,D。;Ersbøll,B.,“稀疏判别分析”,技术计量学,53406-413(2011)
[9] 科尔特斯,C。;Vapnik,V.,“支持向量网络”,《机器学习》,第20期,第273-297页(1995年)·邮政编码:0831.68098
[10] 覆盖,T。;Hart,P.,“最近邻模式分类”,IEEE信息理论汇刊,13,21-27(1967)·Zbl 0154.44505
[11] 多诺霍,D。;金,J.,“检测稀疏非均匀混合物的更高批评”,《统计年鉴》,32962-994(2004)·Zbl 1092.62051
[12] 多诺霍,D。;Jin,J.,10514790-14795(2008年)
[13] Dudoit公司。;弗里德兰,J。;Speed,T.P.,“使用基因表达数据进行肿瘤分类的判别方法比较”,美国统计协会杂志,97,77-87(2002)·Zbl 1073.62576
[14] Fisher,R.A.,“分类问题中多重测量的使用”,《优生学年鉴》,7179-188(1936)
[15] Friedman,J.H.,“正则化判别分析”,美国统计协会杂志,84165-175(1989)
[16] 弗里德曼,J。;黑斯蒂,T。;Tibshirani,R.,“通过坐标下降实现广义线性模型的正则化路径”,统计软件杂志,33,1-22(2010)
[17] Hankin,R.,“R中的加法整数分区”,《统计软件杂志》,代码片段,16,1-3(2006)
[18] Hastie,T.,Tibshirani,R.,Narasimhan,B.和Chu,G.(2014),“pamr:PAM:微阵列预测分析”,R软件包1.55版。
[19] 《霍尔姆斯堪的纳维亚统计年鉴》,第6期,1979年·Zbl 0402.62058
[20] 可汗,J。;魏建新。;林奈,M。;萨尔,L.H。;拉达尼,M。;韦斯特曼,F。;伯托德,F。;施瓦布,M。;安东尼斯库,C.R。;彼得森,C。;Meltzer,P.S.,“使用基因表达谱和人工神经网络对癌症的分类和诊断预测”,《自然医学》,7673-679(2001)
[21] 克劳斯,B。;斯特里默,K.,15(2015年)
[22] Leng,C.,“使用微阵列数据进行多类癌症诊断和生物标记物检测的稀疏最优评分”,计算生物学和化学,32417-425(2008)·Zbl 1158.92316
[23] Liaw,A。;Wiener,M.,《随机森林分类与回归》,R News,2,18-22(2002)
[24] 伦德伯格,S.M。;奈尔,B。;瓦维拉拉,硕士。;霍里贝,M。;艾塞斯,M.J。;亚当斯,T。;利斯顿特区。;低,D.K.-W。;纽曼,S.-F。;金,J。;李,S.-I。,“可解释的机器学习预测有助于麻醉师预防手术期间的低氧血症”(2017年)
[25] 迈耶,D。;迪米特里阿杜。;霍尼克,K。;温格塞尔,A。;Leisch,F.,“e1071:统计系的其他功能,概率论组(原名:e1071)”,屠维恩。R包版本,1.6-8(2017)
[26] 庞,H。;唐,T。;赵,H.,“基于收缩的对角判别分析及其在高维数据中的应用”,生物特征学,651021-1029(2009)·Zbl 1181.62183
[27] R核心团队,R:统计计算的语言和环境(2014),奥地利维也纳:R统计计算基金会,奥地利维也纳
[28] Ramey,J.A.(2017年),“稀疏和正则化判别分析”,R软件包0.2.4版。
[29] 罗奇科娃。;George,E.I.,“EMVS:贝叶斯变量选择的EM方法”,美国统计协会杂志,109828-846(2014)·Zbl 1367.62049
[30] Schwarz,G.,“估计模型的维数”,《统计年鉴》,6461-464(1978)·Zbl 0379.62005
[31] 邵杰,数理统计(2003),《统计学中的施普林格文本:统计学中的施普林格文本》,纽约:施普林格
[32] 癌症基因组图谱网络,《人类乳腺肿瘤的综合分子画像》,《自然》,490,61-70(2012)
[33] Tibshirani,R.,“通过套索进行回归收缩和选择”,《皇家统计学会杂志》,B辑,58267-288(1996)·Zbl 0850.62538
[34] 蒂比拉尼,R。;黑斯蒂,T。;纳拉辛汉,B。;“最近收缩质心的类预测及其在DNA微阵列中的应用”,统计科学,18104-117(2003)·Zbl 1048.62109
[35] 维纳布尔斯,W.N。;里普利,B.D.,现代应用统计学与S(2002),纽约:斯普林格,纽约·Zbl 1006.62003
[36] 魏茨曼科学研究所,“基因卡人类基因数据库”(2019年)
[37] Wickham,H.,ggplot2:数据分析的优雅图形(2009),纽约:Springer Verlag,纽约·Zbl 1170.62004
[38] Witten,D.,“惩罚性数据分析:使用Fisher线性判别法的惩罚分类法”,(2015年)
[39] 维顿博士。;Tibshirani,R.,“使用Fisher线性判别式进行惩罚分类”,《皇家统计学会杂志》,B辑,73753-772(2011年)·Zbl 1228.62079
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。