×

逻辑回归和一般指数模型的稳健变量和交互选择。 (英语) Zbl 1478.62170号

总结:在逻辑回归框架下,我们提出了一种前向支持方法SODA,用于同时具有主交互项和二次交互项的变量选择。在前向阶段,SODA添加了具有显著总体效果的预测因子,而在后向阶段,SODA删除了不重要的术语,以优化扩展贝叶斯信息准则(EBIC)。与二次判别分析中现有的变量选择方法相比,SODA可以处理预测因子数量远大于样本量的高维数据,并且不需要对预测因子进行联合正态性假设,从而大大增强了鲁棒性。我们进一步扩展了SODA,对一般指数模型进行变量选择和模型拟合。与现有的基于分段逆回归(SIR)的变量选择方法相比,SODA既不需要线性条件,也不需要恒方差条件,因此具有更强的鲁棒性。我们的理论分析建立了高维设置下SODA变量选择的一致性,我们的仿真研究和实际数据应用表明,SODA在处理逻辑和一般指数模型中的非高斯设计矩阵方面具有优越的性能。

MSC公司:

62小时30分 分类和区分;聚类分析(统计方面)
62层35 鲁棒性和自适应程序(参数推断)
62G08号 非参数回归和分位数回归
62J12型 广义线性模型(逻辑模型)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Anderson,T.W.,《多元统计分析导论》(1958),纽约:威利,纽约·Zbl 0083.14601号
[2] 啤酒,D.G。;Kardia,S.L。;Huang,C.-C。;佐丹奴,T.J。;莱文,A.M。;Misek,D.E。;林,L。;陈,G。;Gharib,T.G。;托马斯·D·G。;Lizeness,M.L。;Kuick,R。;Hayasaka,S。;J.M.G.泰勒。;医学博士Ianettoni。;奥林格,M.B。;Hanash,S.,基因表达谱预测肺腺癌患者的生存率,自然医学,8816-824(2002)
[3] Bien,J。;泰勒,J。;Tibshirani,R.,《层次交互的套索》,《统计学年鉴》,41111-1141(2013)·Zbl 1292.62109号
[4] Boser,B.E。;盖恩,I.M。;Vapnik,V.N.,最佳边缘分类器的训练算法,第五届计算学习理论年度研讨会论文集,144-152(1992),ACM
[5] Breiman,L.,《随机森林,机器学习》,45,5-32(2001)·Zbl 1007.68152号
[6] Broman,K.W。;Speed,T.P.,《实验杂交中定量性状位点识别的模型选择方法》,英国皇家统计学会杂志,641-656(2002)·Zbl 1067.62108号
[7] 蔡,T。;刘伟,《稀疏线性判别分析的直接估计方法》,美国统计协会杂志,1061566-1577(2011)·Zbl 1233.62129号
[8] 陈,J。;Chen,Z.,大模型空间模型选择的扩展贝叶斯信息准则,生物特征,95759-771(2008)·Zbl 1437.62415号
[9] ---《小n大P稀疏GLM的扩展BIC》,《统计》,22,555-574(2012)·Zbl 1238.62080号
[10] 乔达里(Chowdhary,R.)。;张杰。;Liu,J.S.,《生物文献中蛋白质相互作用的贝叶斯推断》,生物信息学,251536-1542(2009)
[11] 克莱门森,L。;哈斯蒂,T。;维滕,D。;Ersböll,B.,稀疏判别分析,技术计量学,53,406-413(2011)
[12] Cook,R.D.,Fisher讲座:回归中的降维,统计科学,22,1-26(2007)·兹比尔1246.62148
[13] Efron,B.,《大尺度预测问题的经验贝叶斯估计》,美国统计协会杂志,1041015-1028(2009)·Zbl 1388.62009号
[14] ---,《大尺度推断:估计、测试和预测的经验贝叶斯方法》,1(2010),剑桥:剑桥大学出版社,剑桥·Zbl 1277.62016年
[15] 范,J。;Fan,Y.,使用特征退火独立规则的高维分类,《统计年鉴》,362605-2637(2008)·Zbl 1360.62327号
[16] 范,Y。;Jin,J。;姚,Z.,稀疏高斯图形模型中的最优分类,《统计年鉴》,412537-2571(2013)·Zbl 1294.62061号
[17] 范,Y。;孔,Y。;李,D。;Zheng,Z.,高维非线性分类的创新交互筛选,《统计年鉴》,431243-1272(2015)·兹比尔1328.62383
[18] Foygel,R。;Drton,M.,稀疏广义线性模型中的贝叶斯模型选择和信息准则,arXiv预印本arXiv:1112.5635(2011)
[19] 郭毅。;哈斯蒂,T。;Tibshirani,R.,正则化线性判别分析及其在微阵列中的应用,生物统计学,8,86-100(2007)·Zbl 1170.62382号
[20] Han,F。;Zhao,T。;Liu,H.,Coda:高维Copula判别分析,机器学习研究杂志,14,629-671(2013)·Zbl 1320.62145号
[21] 贾,J。;Yu,B.,关于弹性网络的模型选择一致性第页n个《中国统计》,20595-611(2010)·Zbl 1187.62125号
[22] 江,B。;Liu,J.S.,基于分段逆回归的一般指数模型变量选择,《统计学年鉴》,421751-1786(2014)·Zbl 1305.62234号
[23] Joachims,T.,《使用支持向量机进行文本分类:使用许多相关特征进行学习》(1998年),纽约:Springer出版社,纽约
[24] Li,K.-C.,用于降维的切片逆回归,美国统计协会杂志,86316-327(1991)·兹比尔07426/2044
[25] Li,L.,稀疏充分降维,生物统计学,94,603-613(2007)·Zbl 1135.62062号
[26] 李,L。;丹尼斯·库克,R。;Nachtsheim,C.J.,无模型变量选择,《皇家统计学会杂志》,67,285-299(2005)·Zbl 1069.62053号
[27] 李,R。;钟伟。;Zhu,L.,通过距离相关学习进行特征筛选,美国统计协会杂志,1071129-1139(2012)·Zbl 1443.62184号
[28] 林,Q。;赵,Z。;Liu,J.S.,《关于高维分段逆回归的一致性和稀疏性》,《统计学年鉴》,46,580-610(2018)·Zbl 1395.62196号
[29] ---,《高维数据的稀疏切片逆回归》,美国统计协会杂志(2018)
[30] Mai,Q。;邹,H。;Yuan,M.,超高维稀疏判别分析的直接方法,生物统计学,99,29-42(2012)·Zbl 1437.62550号
[31] 毛吉斯,C。;Celeux,G。;Martin-Magniette,M.-L.,基于模型的判别分析中的变量选择,多元分析杂志,1021374-1387(2011)·Zbl 1219.62103号
[32] 墨菲,T.B。;N.院长。;Raftery,A.E.,《食品真实性应用高维数据基于模型的判别分析中的变量选择和更新》,《应用统计学年鉴》,4396-421(2010)·Zbl 1189.62105号
[33] Phillips,P.J.,应用于人脸识别的支持向量机,285(1998),马里兰州盖瑟斯堡:NIST,马里兰州盖瑟斯堡
[34] 拉维库马尔,P。;Wainwright,M.J。;Lafferty,J.D.,使用l1-正则化Logistic回归选择高维Ising模型,《统计年鉴》,381287-1319(2010)·兹比尔1189.62115
[35] Schwarz,G.,估算模型的维度,《统计年鉴》,第6461-464页(1978年)·Zbl 0379.62005年
[36] 邵,J。;Wang,Y。;邓,X。;Wang,S.,高维数据阈值稀疏线性判别分析,统计年鉴,391241-1265(2011)·Zbl 1215.62062号
[37] 西蒙,N。;Tibshirani,R.,《测试多维度交互作用的排列方法》,《美国统计协会杂志》,110,1707-1716(2016)·Zbl 1373.62278号
[38] 辛格,D。;费博,P.G。;Ross,K。;Jackson,D.G。;马诺拉,J。;拉德,C。;Tamayo,P。;Renshaw,A.A。;德米科,A.V。;里奇,J.P。;兰德,E.S。;Loda,M。;坎托夫,P.W。;Golub,T.R。;Sellers,W.R.,《前列腺癌临床行为的基因表达相关性》,癌细胞,1203-209(2002)
[39] Szretter,M.E。;Yohai,V.J.,作为最大似然过程的分段逆回归算法,《统计规划与推断杂志》,139,3570-3578(2009)·Zbl 1167.62402号
[40] Tibshirani,R.,《通过拉索进行回归收缩和选择》,《皇家统计学会杂志》,58267-288(1996)·Zbl 0850.62538号
[41] Tibshirani,R。;哈斯蒂,T。;Narasimhan,B。;Chu,G.,通过基因表达的收缩质心诊断多种癌症类型,国家科学院学报,996567-6572(2002)
[42] Vershynin,R.,《随机矩阵非共鸣分析导论》,压缩传感:理论与应用,210-268(2012),剑桥:剑桥大学出版社,剑桥
[43] Waldmann,P。;梅萨罗斯,G。;格雷德勒,B。;Fuerst,C。;Sölkner,J.,《全基因组关联研究中拉索和弹性网的评估》,遗传学前沿,4270(2013)
[44] Wang,H.,超高维变量筛选的正向回归,美国统计协会杂志,1041512-1524(2009)·Zbl 1205.62103号
[45] Wasserman,L。;Roeder,K.,高维变量选择,统计年鉴,372178-2201(2009)·Zbl 1173.62054号
[46] Witten,D.M。;Tibshirani,R.,《使用Fisher线性判别法的惩罚分类》,英国皇家统计学会期刊,73753-772(2011)·Zbl 1228.62079号
[47] Yu,Y。;Feng,Y.,修正的惩罚高维线性回归模型交叉验证,计算与图形统计杂志,231009-1027(2014)
[48] 张,Q。;王宏,论BIC在判别分析中的选择一致性,《统计》2011年第21731-740页·Zbl 1286.62061号
[49] 赵,P。;Yu,B.,关于Lasso的模型选择一致性,机器学习研究杂志,7,2541-2563(2006)·Zbl 1222.62008年
[50] 钟伟。;张,T。;朱,Y。;Liu,J.S.,相关性追求:指数模型的正向逐步变量选择,英国皇家统计学会杂志,74849-870(2012)·Zbl 1411.62050号
[51] 邹,H。;Hastie,T.,《通过弹性网进行正则化和变量选择》,《皇家统计学会杂志》,67301-320(2005)·兹比尔1069.62054
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。