×

通过分段逆回归选择一般指数模型的变量。 (英语) Zbl 1305.62234号

概述:变量选择,也称为机器学习中的特征选择,在高维数据建模中起着重要作用,是数据驱动科学发现的关键。这里我们考虑在一般指数模型下检测影响变量的问题,其中响应通过一个或多个预测因子线性组合的未知函数依赖于预测因子。我们没有建立给定预测因子组合的响应预测模型,而是对给定响应的预测因子的条件分布建模。这种反向建模的观点促使我们提出一种基于似然比检验的逐步程序,该程序在识别重要变量时有效且计算效率高,而无需指定预测因子和响应之间的参数关系。例如,所提出的程序能够检测具有成对、三向甚至更高阶交互作用的变量,预测变量之间的计算时间为(O(p),而不是(O(p^{k})(交互作用的最高阶)。通过仿真研究和实际数据示例,证明了该方法与现有方法相比具有良好的经验性能。建立了当预测数和样本量都趋于无穷大时变量选择过程的一致性。

MSC公司:

62J02型 一般非线性回归
62H25个 因子分析和主成分;对应分析
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bien,J.、Taylor,J.和Tibshirani,R.(2013)。用于分层交互的LASSO。安。统计师。41 1111-1141. ·Zbl 1292.62109号 ·doi:10.1214/13-AOS1096
[2] Chen,C.-H和Li,K.-C(1998年)。SIR能像多元线性回归那样流行吗?统计师。Sinica 8 289-316号·Zbl 0897.62069号
[3] Chen,X.,Xu,H.,Yuan,P.,Fang,F.,Huss,M.,Vega,V.B.,Wong,E.,Orlov,Y.L.,Zhang,W.,Jiang,J.等人(2008)。胚胎干细胞中外部信号通路与核心转录网络的整合。手机133 1106-1117。
[4] Cloonan,N.、Forrest,A.R.、Kolle,G.、Gardiner,B.B.、Faulkner,G.J.、Brown,M.K.、Taylor,D.F.、Steptoe,A.L.、Wani,S.、Bethel,G.等人(2008年)。通过大规模mRNA测序进行干细胞转录组分析。自然方法5 613-619。
[5] 库克·R·D(2004)。测试预测器在充分降维中的贡献。安。统计师。32 1062-1092·Zbl 1092.62046号 ·doi:10.1214/09053604000000292
[6] 库克·R·D(2007)。费希尔讲座:回归中的降维。统计师。科学。22 1-26. ·Zbl 1246.62148号 ·doi:10.1214/0883423060000000682
[7] Efron,B.、Hastie,T.、Johnstone,I.和Tibshirani,R.(2004)。最小角度回归。安。统计师。32 407-499. ·兹比尔1091.62054 ·doi:10.1214/009053604000000067
[8] Fan,J.和Li,R.(2001)。通过非冲突惩罚似然及其oracle属性进行变量选择。J.Amer。统计师。协会96 1348-1360·Zbl 1073.62547号 ·doi:10.1198/016214501753382273
[9] Fan,J.和Lv,J.(2008)。确保超高维特征空间的独立筛选。J.R.统计社会服务。B统计方法。70 849-911. ·doi:10.1111/j.1467-9868.2008.00674.x
[10] Friedman,J.、Hastie,T.、Höfling,H.和Tibshirani,R.(2007)。路径坐标优化。附录申请。统计数字1 302-332·Zbl 1378.90064号 ·doi:10.1214/07-AOAS131
[11] Golub,T.R.、Slonim,D.K.、Tamayo,P.、Huard,C.、Gaasenbeek,M.、Mesirov,J.P.、Coller,H.、Loh,M.L.、Downing,J.R.和Caligiuri,M.A.等人(1999年)。《癌症的分子分类:通过基因表达监测进行分类发现和分类预测》,《科学》286 531-537。
[12] Jiang,B.和Liu,J.S.(2014)。补充“通过切片反向回归选择一般指数模型的变量”·Zbl 1305.62234号 ·doi:10.1214/14-AOS1233
[13] Li,K.-C.(1991)。用于降维的分段反向回归。J.Amer。统计师。协会86 316-342·Zbl 0742.62044号 ·doi:10.2307/2290563
[14] Li,L.(2007)。稀疏足够的尺寸缩减。生物特征94 603-613·Zbl 1135.62062号 ·doi:10.1093/biomet/asm044
[15] Li,L.,Cook,R.D.和Nachtsheim,C.J.(2005)。无模型变量选择。J.R.统计社会服务。B统计方法。67 285-299. ·Zbl 1069.62053号 ·doi:10.1111/j.1467-9868.2005020.x
[16] Li,R.、Zhong,W.和Zhu,L.(2012年)。通过远程相关学习进行特征筛选。J.Amer。统计师。协会107 1129-1139·Zbl 1443.62184号 ·doi:10.1080/01621459.2012.695654
[17] Miller,A.J.(1984)。选择回归变量子集。J.罗伊。统计师。Soc.序列号。A 147 389-425·Zbl 0584.62106号 ·doi:10.2307/2981576
[18] Murphy,T.B.,Dean,N.和Raftery,A.E.(2010年)。食品真实性应用中高维数据基于模型的鉴别分析中的变量选择和更新。附录申请。统计数字4 396-421·Zbl 1189.62105号 ·doi:10.1214/09-AOAS279
[19] Ouyang,Z.、Zhou,Q.和Wong,W.H.(2009)。转录因子的ChIP-Seq预测胚胎干细胞中的绝对和差异基因表达。程序。国家。阿卡德。科学。美国106 21521-21526。
[20] Ravikumar,P.、Lafferty,J.、Liu,H.和Wasserman,L.(2009年)。稀疏加性模型。J.R.统计社会服务。B统计方法。71 1009-1030. ·文件编号:10.1111/j.1467-9868.2009.00718.x
[21] Simon,N.和Tibshirani,R.(2012年)。测试多维度交互的置换方法。预打印。可从获取·Zbl 1257.62080号 ·doi:10.5705/ss.2011.075
[22] Szretter,M.E.和Yohai,V.J.(2009年)。作为最大似然过程的分段逆回归算法。J.统计。计划。推论139 3570-3578·Zbl 1167.62402号 ·doi:10.1016/j.jspi.2009.04.008
[23] Tibshirani,R.(1996)。通过套索回归收缩和选择。J.R.统计社会服务。B统计方法。58 267-288. ·Zbl 0850.62538号
[24] Tibshirani,R.、Hastie,T.、Narasimhan,B.和Chu,G.(2002)。通过基因表达的收缩质心诊断多种癌症类型。程序。国家。阿卡德。科学。美国99 6567-6572。
[25] Zhang,Y.和Liu,J.S.(2007)。病例对照研究中上位交互作用的贝叶斯推断。自然遗传学。39 1167-1173.
[26] Zhong,W.、Zeng,P.、Ma,P.、Liu,J.S.和Zhu,Y.(2005)。RSIR:用于基序发现的正则切片逆回归。生物信息学21 4169-4175。
[27] Zhong,W.、Zhang,T.、Zhu,Y.和Liu,J.S.(2012)。相关性追踪:指数模型的正向逐步变量选择。J.R.统计社会服务。B统计方法。74 849-870. ·文件编号:10.1111/j.1467-9868.2011.01026.x
[28] 邹华(2006)。自适应套索及其oracle属性。J.Amer。统计师。协会101 1418-1429·Zbl 1171.62326号 ·doi:10.1198/016214500000735
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。