×

BOLT-SSI:一种筛选超高维数据交互效应的统计方法。 (英语) Zbl 07764887号

摘要:在众多应用中,检测预测因子对响应变量的交互作用是至关重要的一步。我们首先提出了一种确定筛选交互作用(SSI)的简单方法。尽管SSI方法的计算复杂度为(O(p^2n)),但它对于中等维数的问题(例如,(p=10^3\sim 10^4))很有效,并且没有遗传假设。对于超高维问题(例如,(p=10^6)),受离散化相关布尔表示和运算以及离散变量列联表的激励,我们提出了一种称为“BOLT-SSI”的快速算法。为SSI和BOLT-SPI建立了统计理论,保证了它们的可靠屏蔽性。我们使用综合仿真和实际案例研究评估SSI和BOLT-SSI的性能。我们的数值结果表明,SSI和BOLT-SSI在计算效率和统计准确性方面通常优于其竞争对手。该方法可用于完全检测超过300000个预测因子的交互作用。基于我们的发现,我们认为有必要重新思考统计准确性和计算效率之间的关系。我们已经表明,通过探索计算体系结构的优点,在统计精度损失可以容忍的情况下,统计方法的计算性能通常可以大大提高。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agresti,A.和Kateri,M.(2011年)。分类数据分析。第3版。约翰·威利父子公司(John Wiley&Sons,Hoboken)。
[2] Barut,E.、Fan,J.和Verhasselt,A.(2016)。有条件的确定独立性筛选。《美国统计协会杂志》111,1266-1277。
[3] Bateson,W.(1909)。孟德尔的遗传原理。剑桥大学出版社,剑桥。
[4] Bien,J.、Taylor,J.和Tibshirani,R.(2013)。用于分层交互的套索。《统计年鉴》411111·Zbl 1292.62109号
[5] Chandrasekaran,V.和Jordan,M.I.(2013)。通过凸松弛进行计算和统计权衡。美国国家科学院院刊110,E1181-E1190·Zbl 1292.62019年
[6] Chang,J.、Tang,C.Y.和Wu,Y.(2013)。边际经验似然和确定独立性特征筛选。统计年鉴41·Zbl 1277.62109号
[7] Chen,R.-B.、Weng,J.-Z.和Chu,C.-H.(2013)。使用贝叶斯变量选择方法的过饱和设计筛选程序。国际质量与可靠性工程29,89-101。
[8] Choi,N.H.、Li,W.和Zhu,J.(2010)。具有强遗传约束的变量选择及其预言性质。《美国统计协会杂志》105,354-364·Zbl 1320.62171号
[9] Cordell,H.J.(2009)。检测人类疾病背后的基因相互作用。《自然评论遗传学》10,392-404。
[10] 考克斯,D.R.(1984)。互动。国际统计评论/国际统计评论,1-24。
[11] Culverhouse,R.、Suarez,B.K.、Lin,J.和Reich,T.(2002年)。上位性的观点:没有显示主要影响的模型的局限性。美国人类遗传学杂志70,461-471。
[12] Deming,W.E.和Stephan,F.F.(1940年)。当预期边际总和已知时,对采样频率表进行最小二乘调整。《数理统计年鉴》第11427-444页。
[13] Esscher,F.(1924)。关于从变量秩确定相关性的方法。斯堪的纳维亚精算杂志1924,201-219。
[14] Fan,J.、Feng,Y.和Song,R.(2011)。稀疏超高维可加模型中的非参数独立筛选。《美国统计协会杂志》106,544-557·Zbl 1232.62064号
[15] Fan,J.和Li,R.(2001)。通过非冲突惩罚似然及其oracle属性进行变量选择。《美国统计协会杂志》96,1348-1360·Zbl 1073.62547号
[16] Fan,J.和Lv,J.(2008)。确保超高维特征空间的独立筛选。英国皇家统计学会期刊:B系列(统计方法论)70,849-911·Zbl 1411.62187号
[17] Fan,J.和Peng,H.(2004)。参数数量不同的非凹陷惩罚可能性。统计年鉴32928-961·Zbl 1092.62031号
[18] Fan,J.、Samworth,R.和Wu,Y.(2009年)。超高维特征选择:超越线性模型。机器学习研究杂志2013-2038·Zbl 1235.62089号
[19] Fan,J.和Song,R.(2010年)。具有NP-维数的广义线性模型中的确定独立筛选。《统计年鉴》38,3567-3604·兹比尔1206.68157
[20] Fan,Y.、Kong,Y.,Li,D.和Lv,J.(2016)。与特征筛选和选择的交互追求。arXiv:1605.08933。
[21] Fan,Y.、Kong,Y.,Li,D.和Zheng,Z.(2015)。创新的交互筛选用于高维非线性分类。《统计年鉴》43,1243-1272·Zbl 1328.62383号
[22] Fienberg,S.E.(1970年)。列联表中估算的迭代过程。《数理统计年鉴》41907-917·Zbl 0198.23401号
[23] Fisher,R.A.(1918年)。十五、-孟德尔遗传假说中亲属间的相关性。爱丁堡皇家学会地球与环境科学学报52,399-433。
[24] 哈伯曼·S·J(1974)。频率数据分析。芝加哥大学出版社,芝加哥·Zbl 0325.62017号
[25] Hao,N.、Feng,Y.和Zhang,H.H.(2018)。通过正则化进行高维二次回归的模型选择。《美国统计协会杂志》113,615-625·Zbl 1398.62176号
[26] Hao,N.和Zhang,H.H.(2014)。超高维数据的交互筛选。《美国统计协会杂志》109,1285-1301·Zbl 1368.62193号
[27] 霍特林,H.(1953年)。关于相关系数及其变换的新观点。英国皇家统计学会杂志。B系列(方法学)15,193-232·Zbl 0052.14905号
[28] Jaccard,J.、Wan,C.K.和Turrisi,R.(1990年)。多元回归中连续变量之间相互作用效应的检测和解释。多元行为研究25,467-478。
[29] Kendall,M.G.(1949年)。排名和产品-动量相关性。《生物特征》36,177-193·Zbl 0035.21602号
[30] Kirkwood,J.G.(1935年)。流体混合物的统计力学。化学物理杂志3,300-313·Zbl 0012.04704号
[31] Kong,Y.、Li,D.、Fan,Y.和Lv,J.(2017)。基于距离相关的高维多响应回归中的交互追踪。《统计年鉴》45,897-922·Zbl 1368.62140号
[32] Lee,A.J.(1990)。U-统计学:理论与实践。纽约州劳特利奇·Zbl 0771.62001号
[33] Lees,P.、Cunningham,F.和Elliott,J.(2004)。药效学原理及其在兽医药理学中的应用。兽医药理学和治疗学杂志27,397-414。
[34] Li,D.,Kong,Y.,Fan,Y.和Lv,J.(2021)。具有伪符号率控制的高维交互检测。《商业与经济统计杂志》40,1234-1245。
[35] Li,G.,Peng,H.,Zhang,J.和Zhu,L.(2012)。基于稳健秩相关的筛选。《统计年鉴》第40卷,1846-1877年·兹比尔1257.62067
[36] Li,Y.和Liu,J.S.(2019年)。逻辑回归和一般指数模型的稳健变量和交互选择。《美国统计协会杂志》114,271-286·Zbl 1478.62170号
[37] Lim,M.和Hastie,T.(2015)。通过分层群-联想正则化学习交互。《计算与图形统计学杂志》24227-654。
[38] Liu,H.、Hussain,F.、Tan,C.L.和Dash,M.(2002)。离散化:一种使能技术。数据挖掘和知识发现6,393-423。
[39] Pan,W.,Wang,X.,Xiao,W.和Zhu,H.(2018)。通用的确定独立性筛选程序。美国统计协会杂志。
[40] Ritchie,M.D.、Hahn,L.W.、Roodi,N.、Bailey,L.R.、Dupont,W.D.、Parl,F.F.等人(2001年)。多因素降维揭示了散发性乳腺癌雌激素代谢基因之间的高阶相互作用。《美国人类遗传学杂志》69,138-147。
[41] Saldana,D.F.和Feng,Y.(2018年)。SIS:超高维统计模型中确定独立性筛选的R包。统计软件杂志83,1-25。
[42] Shah,R.D.(2016)。使用回溯对高维数据中的交互进行建模。机器学习研究杂志17,1-31·Zbl 1434.62158号
[43] She,Y.和Tang,S.(2019)。重温迭代比例缩放:现代优化视角。计算与图形统计杂志28,48-60·兹比尔07499011
[44] She,Y.,Wang,Z.和Jiang,H.(2018)。结构层次下的群正则估计。《美国统计协会杂志》113,445-454·Zbl 1398.62138号
[45] Tang,C.Y.、Fang,E.X.和Dong,Y.(2020)。稀疏主Hessian矩阵的高维交互检测。机器学习研究杂志21,665-689·Zbl 1498.62118号
[46] Thanei,G.-A.、Meinshausen,N.和Shah,R.D.(2018年)。用于高维数据中快速交互搜索的xyz算法。机器学习研究杂志19,1343-1384·兹比尔1467.62123
[47] Wan,X.、Yang,C.、Yang、Q.、Xue,H.、Fan,X.Tang,N.L.等人(2010年)。BOOST:在全基因组病例对照研究中检测基因-基因相互作用的快速ap-proach。美国人类遗传学杂志87,325-340。
[48] Wang,H.(2009)。超高维变量筛选的正向回归。《美国统计协会杂志》104,1512-1524·Zbl 1205.62103号
[49] Wang,J.-H.和Chen,Y.-H.(2018)。检测基因-基因相互作用的重叠组筛选:应用于具有生存特征的基因表达谱。BMC生物信息学19,335。
[50] Wang,J.-H.和Chen,Y.-H.(2020年)。通过Kendall偏相关对超高维数据与生存特征进行交互筛选。生物信息学36,2763-2769。
[51] Min Zhou女士
[52] 电子邮件:daimw@swufe.edu.cn
[53] 金柳杜克美国研究生医学院,新加坡169857。
[54] 电子邮件:jin.liu@duke-nus.edu.sg灿阳香港科技大学,香港九龙清水湾。
[55] 亨鹏
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。