×

变量选择的变分判别分析。 (英语) Zbl 1447.62077号

总结:开发了一种快速贝叶斯方法,通过判别分析无缝融合分类和假设测试。在原始判别分析分类器的基础上,添加建模组件以识别判别变量。蛋糕先验和一种新形式的变分贝叶斯的组合,我们称之为反向折叠变分贝叶斯,产生了变量选择,可以直接作为使用似然比统计的多假设检验方法。一些理论论据表明,所有假设都保持了Chernoff一致性(I型和II型误差渐近为零)。我们将我们的方法应用于一些公开的基因组数据集,并表明我们的方法在实际中的计算成本方面表现良好。Github上也提供了R包VaDA。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62F07型 统计排名和选择程序
62页第10页 统计学在生物学和医学科学中的应用;元分析
62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ahdesmäki,M。;Strimmer,K.,《使用CAT评分和错误发现率控制的经济学预测问题中的特征选择》,Ann.Appl。统计,4,1,503-519(2010)·Zbl 1189.62102号
[2] Alizadeh,A。;艾森,M。;Davis,R。;马,C。;Lossos,I。;罗森瓦尔德,A。;Boldrick,J。;萨贝特,H。;Tran,T。;余,X。;鲍威尔,J。;Yang,L。;马蒂·G。;摩尔,T。;JJ哈德森;卢,L。;刘易斯,D。;Tibshirani,R。;Sherlock,G。;Chan,W。;格雷纳,T。;维森伯格,D。;Armitage,J。;Warnke,R。;利维,R。;Wilson,W。;格雷弗,M。;Byrd,J。;博茨坦,D。;布朗,P。;Staudt,L.,通过基因表达谱确定的弥漫性大b细胞淋巴瘤的不同类型,《自然》,403,503-511(2000)
[3] 阿龙,美国。;北巴尔凯。;诺特曼,D。;Gish,K。;伊巴拉,S。;麦克,D。;AJ,L.,通过寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类分析揭示的基因表达的广泛模式,Proc。国家。阿卡德。科学。,96, 12, 6745-6750 (1999)
[4] Y.本杰米尼。;Daniel,Y.,《依赖性多重测试中错误发现率的控制》,《Ann.Stat.》,29,4,1165-1188(2001)·Zbl 1041.62061号
[5] Y.本杰米尼。;Hochberg,Y.,《控制错误发现率:一种实用且强大的多重测试方法》,J.R.Stat.Soc.Ser。B、 57、1、289-300(1995)·Zbl 0809.62014号
[6] PJ Bickel;Levina,E.,Fisher线性判别函数的一些理论,“朴素贝叶斯”和变量多于观测值时的一些替代方法,Bernoulli,10,6,989-1010(2004)·Zbl 1064.62073号
[7] 布莱,DM;Jordan,MI,Dirichlet过程的变分推理,贝叶斯分析。,1, 1, 121-144 (2006) ·Zbl 1331.62259号
[8] 布莱,DM;Kucukelbir,A。;McAuliffe,JD,《变量推断:统计学家评论》,《美国统计协会期刊》,第112、518、859-877页(2017年)
[9] Bonferroni,C.E.:Teoria statistica delle classi E calcolo delle概率。Pubblicazioni del R Istituto Superiore di Science Economiche e Commerciali di Firenze(1936年)·Zbl 0016.41103号
[10] Breiman,L.,《随机森林》,马赫。学习。,45, 1, 5-32 (2001) ·Zbl 1007.68152号
[11] 蔡,T。;刘伟,《稀疏线性判别分析的直接估计方法》,美国统计学会,106,496,1566-1577(2011)·Zbl 1233.62129号
[12] 卡瓦略,CM;Polson,NG;Scott,JG,稀疏信号的马蹄形估计器,Biometrika,97,2,465-480(2010)·Zbl 1406.62021号
[13] 陈,Y。;Feng,J.,基于群论的对称结构Moore-Penrose逆问题的有效方法,J.Compute。公民。工程,28,2,182-190(2014)
[14] Chicco,D.,计算生物学中机器学习的十大快速提示,BioData Min.,10,35,1-17(2017)
[15] Clemmensen,L.:高维判别分析技术和相关结构。技术报告-2013(4)。丹麦技术大学(DTU),Kgs。林比(2013)
[16] Clemmensen,L.,Kuhn,M.:稀疏LDA:稀疏判别分析。R包版本0.1-9(2016)
[17] 克莱门森,L。;维滕,D。;哈斯蒂,T。;Ersboll,B.,稀疏判别分析,技术计量学,53,4,406-413(2011)
[18] 科尔特斯,C。;Vapnik,V.,支持向量网络,马赫。学习。,20, 3, 273-297 (1995) ·Zbl 0831.68098号
[19] Courrieu,P.,Moore-Penrose逆矩阵的快速计算,神经信息处理。莱特。修订版,8、2、25-29(2005)
[20] Craig-Shapiro,R。;库恩,M。;熊,C。;皮克林,EH;刘杰。;Misko,TP;佩兰,RJ;捆数,KR;苏亚雷斯,H。;法根,AM;David,MH,多重免疫分析小组确定用于阿尔茨海默病诊断和预后的新型脑脊液生物标记物,《公共科学图书馆·综合》,6,e18850(2011)
[21] 多诺霍博士。;Jin,J.,《检测稀疏非均匀混合物的更高批评》,《Ann.Stat.》,32,3,962-994(2004)·兹比尔1092.62051
[22] 多诺霍,D。;Jin,J.,《更高的批评阈值》。当有用特征稀少且较弱时的最佳特征选择,Proc。国家。阿卡德。科学。,105, 39, 14790-14795 (2008) ·Zbl 1357.62212号
[23] Duarte Silva,PA,高维相关数据的两组分类:因子模型方法,计算。统计数据分析。,55, 11, 2975-2990 (2011) ·Zbl 1218.62064号
[24] Duarte Silva,P.A.:HiDimDA:高维判别分析。R包版本0.2-4(2015)
[25] Dudoit,S。;弗里迪兰德,J。;Speed,TP,《使用基因表达数据进行肿瘤分类的鉴别方法比较》,《美国统计协会杂志》,97,457,77-87(2002)·Zbl 1073.62576号
[26] Eddelbuettel,D.,《无缝R和C++与Rcpp的集成》(2013),柏林:施普林格出版社,柏林·Zbl 1283.62001号
[27] Erickson,B.J.,Kirk,S.,Lee,Y.,Bathe,O.,Kearns,M.,Gerdes,C.,Rieger-Christ,K.,Lemmerman,J.:来自癌症基因组图谱肝肝细胞癌[TCGA-LIHC]收集的放射学数据。癌症成像档案(2016)。doi:10.7937/K9/TCIA.2016.IMMQW8UQ
[28] 范,J。;Fan,Y.,《使用特征退火独立规则的高维分类》,《Ann.Stat.》,36,6,2605-2637(2008)·Zbl 1360.62327号
[29] 范,J。;Lv,J.,高维特征空间中变量选择的选择性概述,Stat.Sin。,20, 1, 101-148 (2010) ·Zbl 1180.62080号
[30] 费尔南德斯·德尔加多,M。;Cernadas,E。;Barro,S.,我们需要数百个分类器来解决现实世界的分类问题吗?,J.马赫。学习。,15, 3133-3181 (2014) ·兹比尔1319.62005
[31] Fisher,RA,《分类问题中多重测量的使用》,Ann.Eugen。,7, 2, 179-188 (1936)
[32] 费希尔,T。;Sun,X.,高维多元正态协方差矩阵的改进stein型收缩估计,计算。统计数据分析。,55, 1, 1909-1918 (2011) ·Zbl 1328.62336号
[33] Friedman,JH,正则化判别分析,美国统计协会,84,405,165-175(1989)
[34] 弗里格,C。;Kloareg,M。;Causeur,D.,《依赖性下多重测试的因子模型方法》,美国统计协会,104,488,1406-1415(2009)·Zbl 1205.62071号
[35] Genuer,R。;Poggi,J。;图洛·马洛特,C。;Villa-Vialaneix,N.,大数据随机森林,大数据研究,9,28-46(2017)
[36] Golub,T。;斯隆,D。;Tamayo,P。;华德,C。;加森贝克,M。;梅西洛夫,J.,《癌症的分子分类:通过基因表达监测进行分类发现和分类预测》,《科学》,2865439531-537(1999)
[37] 郭毅。;哈斯蒂,T。;Tibshirani,R.,正则化线性判别分析及其在微阵列中的应用,生物统计学,8,1,86-100(2007)·Zbl 1170.62382号
[38] Guo,Y.,Hastie,T.,Tibshirani,R.:RDA:收缩质心正则判别分析。R包版本1.0.2-2.1(2018)
[39] Hastie,T.、Tibshirani,R.、Narasimhan,B.、Chu,G.:PAMR:微阵列预测分析。R包版本1.55(2014)
[40] Helleputte,T.:LiblineaR:基于LiblineaR C/C++库的线性预测模型。R包版本2.10-8(2017)
[41] Jordan,MI,《关于统计、计算和可伸缩性》,Bernoulli,19,4,1378-1390(2013)·Zbl 1273.62030
[42] Jorissen,注册护士;利普顿,L。;Gibbs,P。;查普曼,M。;德赛,J。;琼斯,IT;叶特曼,TJ;东,P。;Tomlinson,IP;硬件版本;洛杉矶奥尔顿;Kruhoffer,M。;Orntoft,TF;安达信,CL;Sieber,OM,DNA拷贝数变化是微卫星稳定型和不稳定型结直肠癌之间基因表达差异的基础,临床。癌症研究,14,24,8061-8069(2008)
[43] Kuhn,M.、Wing,J.、Weston,S.、Williams,A.、Keefer,C.、Engelhardt,A.、Cooper,T.、Mayer,Z.、Kenkel,B.、Benesty,M.,Lescaboau,R.、Ziem,A.、Scrucca,L.、Tang,Y.、Candan,C.、Hunt,T.:插入符号:分类和回归训练。R套装版本6.0-84(2019)
[44] Lim,TS;卢、怀伊;Shih,YS,三十三种新旧分类算法的预测精度、复杂度和训练时间的比较,Mach。学习。,40, 203-229 (2000) ·兹比尔0969.68669
[45] 刘,JJ;卡特勒,G。;李伟(Li,W.)。;潘,Z。;彭,S。;Hoey,T。;Chen,L。;Ling,XB,使用基于遗传算法的多类癌症分类和生物标记物发现,生物信息学,21,11,2691-2697(2005)
[46] Luts,J。;Ormerod,JT,支持向量机分类的平均场变分贝叶斯推理,计算。统计数据分析。,73, 163-176 (2014) ·Zbl 1506.62120号
[47] Mai,Q。;邹,H。;Yuan,M.,超高维稀疏判别分析的直接方法,Biometrika,99,1,29-42(2012)·Zbl 1437.62550号
[48] Mai,Q.,Yang,Y.,Zou,H.:多类稀疏判别分析。arXiv(2015)·Zbl 1412.62081号
[49] 马克,S。;Dunn,O.,协方差矩阵不相等时的判别函数,《美国统计协会期刊》,69,346,555-559(1974)·Zbl 0291.62073号
[50] Matthews,BW,T4噬菌体溶菌酶的预测和观察二级结构的比较,Biochim。生物物理学。Acta(BBA)蛋白结构。,405, 2, 442-451 (1975)
[51] JT奥尔默罗德;Wand,MP,《解释变分近似》,《美国统计》,64,2,140-153(2010)·Zbl 1200.65007号
[52] Ormerod,J.T.,Stewart,M.,Yu,W.,Romanes,S.:分散先验的贝叶斯假设检验:我们可以既吃蛋糕又吃吗?arXiv(2017)
[53] 潘,R。;王,HO;Li,R.,通过两两确定独立筛选进行超高维多类线性判别分析,美国统计协会,111,513,169-179(2016)
[54] Perthame,E.公司。;弗里格,C。;Causeur,D.,高维相关数据分类问题中特征选择的稳定性,统计计算。,26, 4, 783-796 (2016) ·Zbl 1505.62317号
[55] Perthame,E.,Friguet,C.,Causeur,D.:FADA:高维监督分类的变量选择。R包版本1.3.3(2018)·Zbl 1505.62317号
[56] 雷夫,M。;沙法特,F。;Dengel,A.,《分类器训练时间预测,包括参数优化》,年。Conf.Artif公司。智力。,KI2011,260-271(2011)
[57] 东南部Safo;Ahn,J.,通用稀疏多类线性判别分析,计算机。统计数据分析。,99, 81-90 (2016) ·Zbl 1468.62170号
[58] Shaffer,JP,多重假设检验,年。心理学牧师。,46, 561-584 (1995)
[59] 邵,J。;Wang,Y。;邓,X。;Wang,S.,稀疏线性判别分析及其在高维数据中的应用,Ann.Stat.,39,2,1241-1265(2011)·Zbl 1215.62062号
[60] 辛格博士。;Febbo,P。;Ross,K。;Jackson,D。;马诺拉,J。;拉德,C。;Tamayo,P。;伦肖,A。;DAmico,A。;J.里奇。;兰德,E。;Loda,M。;坎托夫,P。;Golub,T.,基因表达与前列腺癌临床行为的相关性,《癌细胞》,1,2,203-209(2002)
[61] Srivastava,S。;古普塔,MR;Frigyik,BA,贝叶斯二次判别分析,J.Mach。学习。1277-1305年6月8日决议(2007年)·Zbl 1222.62043号
[62] Storey,JD,The positive false discovery rate:a Bayesian interpretation and The q value,Ann.Stat.,31,62013-2035(2003)·Zbl 1042.62026
[63] Teh,YW;纽曼,D。;韦林,M。;密歇根州约旦;LeCun,Y。;Solla,SA,潜在狄利克雷分配的崩溃变分贝叶斯推理算法,神经信息处理系统进展,1353-1360(2007),剑桥:麻省理工学院出版社,剑桥
[64] 托马斯,C。;Kitani,E。;Gillies,D.,基于最大不确定性lda的有限样本量问题方法——人脸识别应用,J.Braz。计算。Soc.,12,2,7-18(2006)
[65] Tibshirani,R。;哈斯蒂,T。;Narasimhan,B。;Chu,G.,通过最近的收缩质心进行分类预测,并应用于DNA微阵列,统计科学。,18, 1, 104-117 (2003) ·Zbl 1048.62109号
[66] 范德马滕,L。;Hinton,G.,使用t-sne可视化数据,J.Mach。学习。决议,92579-2605(2017)·兹比尔1225.68219
[67] Wang,Y。;Blei,D.,变分贝叶斯的频繁一致性,美国统计协会,9,1-15(2018)·Zbl 1428.62119号 ·doi:10.1080/01621459.2018.1473776
[68] Witten,D.,《使用泊松模型对测序数据进行分类和聚类》,Ann.Appl。《法律总汇》第5、4、2493-2518页(2011年)·Zbl 1234.62150号
[69] Witten,D.:惩罚LDA:使用Fisher线性判别法进行惩罚分类。R包版本1.1(2015)
[70] 维滕,D。;Tibshirani,R.,使用Fisher线性判别法进行惩罚分类,J.R.Stat.Soc.Ser。B、 73,5754-772(2011)·Zbl 1228.62079号
[71] 徐,P。;布洛克,GN;Parrish,RS,高维微阵列数据分类的改进线性判别分析方法,计算。统计数据分析。,53, 1674-1687 (2009) ·Zbl 1453.62255号
[72] 扎沃卡,S。;Perrett,J.,《稀有群体的两组线性和二次判别分析的最小样本量考虑》,Commun。统计模拟。计算。,43, 7, 1726-1739 (2014) ·Zbl 1333.62166号
[73] Zhang,A.,Zhou,H.:用于社区检测的平均场变分推断的理论和计算保证。arXiv(2017)
[74] 张,C。;刘,C。;张,X。;Almpanidis,G.,《先进分类算法的最新比较》,实验系统。申请。,82, 128-150 (2017)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。