×

等级:带有图形非线性仿冒的大规模推理。 (英语) Zbl 1437.62699号

摘要:在当代大数据应用中,利用一般高维非线性模型,力量和再现性是实现精细科学发现的关键。在本文中,我们为最近在Candès、Fan、Janson和Lv中引入的模型X仿冒程序在高维环境中的威力和鲁棒性提供了理论基础,当协变量分布由高斯图形模型表征时。我们建立了在温和的正则性条件下,当样本量趋于无穷大时,高维线性模型中已知协变量分布的预言机仿冒程序的威力是渐近的。当偏离理想情况时,我们建议使用被称为图形非线性仿冒(RANK)的修正模型X仿冒方法来适应未知协变量分布。我们通过证明错误发现率(FDR)在目标水平上是渐近控制的,并且功率在估计的协变量分布下是渐近的,从而从理论上证明了改进过程的鲁棒性。据我们所知,这是第一个关于仿冒程序威力的正式理论结果。仿真结果表明,与现有方法相比,我们的方法在FDR控制和功率方面都具有竞争力。对实际数据集进行分析,以进一步评估建议的仿冒程序的性能。

MSC公司:

62兰特 大数据和数据科学的统计方面
68T09号 数据分析和大数据的计算方面
2012年12月62日 参数估计量的渐近性质
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿布拉莫维奇,F。;Y.本杰米尼。;Donoho,D.L。;Johnstone,I.M.,“通过控制错误发现率来适应未知稀疏性”,《统计年鉴》,34584-653(2006)·Zbl 1092.62005年 ·doi:10.1214/00905360000000074
[2] 巴伯,R.F。;Candès,E.J.,“通过敲打控制虚假发现率”,《统计年鉴》,第43期,2055-2085年(2015年)·Zbl 1327.62082号 ·doi:10.1214/15-AOS1337
[3] Barber,R.F.和Candès,E.J.(2016),“高维选择性推理的Knockoff滤波器”,arXiv:1602.03574·Zbl 1444.62034号
[4] Y.本杰米尼。;Hochberg,Y.,“控制错误发现率:一种实用而有力的多重测试方法”,《皇家统计学会杂志》,B辑,57,289-300(1995)·Zbl 0809.62014号
[5] Y.本杰米尼。;Yekutieli,D.,“依赖性下多重测试中错误发现率的控制”,《统计年鉴》,29,1165-1188(2001)·Zbl 1041.62061号 ·doi:10.1214/aos/1013699998
[6] 比克尔,P.J。;Ritov,Y。;Tsybakov,A.B.,《Lasso和Dantzig选择器的同步分析》,《统计年鉴》,第37期,第1705-1732页(2009年)·Zbl 1173.62022号 ·doi:10.1214/08-AOS620
[7] Bühlmann,P。;van de Geer,S.,《高维数据统计:方法、理论和应用》(2011),柏林:施普林格出版社,柏林·Zbl 1273.62015年
[8] 坎迪斯,E.J。;范,Y。;Janson,L。;Lv,J.,“淘金:高维受控变量选择的‘ModelX’敲打”,《皇家统计学会杂志》,B辑,80,551-577(2018)·Zbl 1398.62335号
[9] 陈,M。;任,Z。;赵,H。;Zhou,H.H.,“协变量调整高斯图形模型的渐近正态有效估计”,《美国统计协会杂志》,111394-406(2016)·doi:10.1080/01621459.2015.1010039
[10] Chouldechova,A.和Hastie,T.(2015),“广义加法模型选择”,arXiv:1506.03850。
[11] 克拉克,S。;Hall,P.,“针对依赖性的多重测试程序的稳健性”,《统计年鉴》,37,332-358(2009)·Zbl 1155.62031号 ·doi:10.1214/07-AOS557
[12] Efron,B.,《相关性和大尺度同时显著性检验》,《美国统计协会杂志》,第102期,第93-103页(2007年)·Zbl 1284.62340号 ·doi:10.1198/0162145000001211
[13] Efron,B.,“规模、功率和错误发现率”,《统计年鉴》,351351-1377(2007)·Zbl 1123.62008年
[14] 埃夫隆,B。;Tibshirani,R.,“微阵列的经验贝叶斯方法和错误发现率”,《遗传流行病学》,23,70-86(2002)
[15] 恩格尔,R。;格兰杰,C。;赖斯,J。;Weiss,A.,“天气与电力销售关系的半参数估计”,《美国统计协会杂志》,81,310-320(1986)·doi:10.1080/01621459.1986.10478274
[16] 范,J。;Fan,Y.,“使用特征退火独立规则的高维分类”,《统计年鉴》,362605-2637(2008)·Zbl 1360.62327号 ·doi:10.1214/07-AOS504
[17] 范,J。;Gijbels,I.,局部多项式建模及其应用(1996),伦敦:查普曼和霍尔/CRC,伦敦·Zbl 0873.62037号
[18] 范,J。;郭,S。;Hao,N.,“超高维回归中使用重新拟合交叉验证的方差估计”,英国皇家统计学会杂志,B系列,74,37-65(2012)·Zbl 1411.62199号
[19] 范,J。;霍尔,P。;Yao,Q.,“对于多少同步假设测试可以正常、学生t或引导校准应用?”,《美国统计协会杂志》,1021282-1288(2007)·Zbl 1332.62063号
[20] 范,J。;韩,X。;Gu,W.,在任意协方差依赖下估计错误发现比例”,《美国统计协会杂志》,1071019-1035(2012)·Zbl 1395.62219号
[21] 范,J。;Li,R.,“基于非证实惩罚可能性的变量选择及其Oracle属性”,《美国统计协会杂志》,96,1348-1360(2001)·Zbl 1073.62547号
[22] 范,J。;Lv,J.,“超高维特征空间的确定独立性筛选(讨论)”,《皇家统计学会杂志》,B辑,70849-911(2008)·Zbl 1411.62187号
[23] 范,J。;Lv,J.,《高维特征空间中变量选择的选择性综述》(特邀评论文章),《统计》,2010年第20期,第101-148页·Zbl 1180.62080号
[24] 范,J。;R.J、Samworth;Wu,Y.,“超高维变量选择:超越线性模型”,《机器学习研究杂志》,101829-1853(2009)
[25] Fan,Y.、Demirkaya,E.和Lv,J.(2017),“p值的不均匀性可能在发散维度的早期发生”,arXiv:1705.03604·Zbl 1489.62225号
[26] 范,Y。;Fan,J.,“基于离散观测过程的跳跃测试与检测”,《计量经济学杂志》,164,331-344(2011)·Zbl 1441.62680号
[27] 范,Y。;孔,Y。;李,D。;Zheng,Z.,创新的高维非线性分类交互筛选”,《统计学年鉴》,第43期,第1243-1272页(2015年)·Zbl 1328.62383号 ·doi:10.1214/14-AOS1308
[28] 范,Y。;Lv,J.,阈值参数空间中正则化方法的渐近等价性”,《美国统计协会杂志》,1081044-1061(2013)·Zbl 06224986号 ·doi:10.1080/01621459.2013.803972
[29] 范,Y。;Lv,J.,“超大高斯图形模型中的创新可缩放有效估计”,《统计年鉴》,442098-2126(2016)·兹比尔1349.62206
[30] 霍尔,P。;Wang,Q.,与多假设检验相关的水平超越的强近似,“,Bernoulli,16,418-434(2010)·Zbl 1323.62049号
[31] Härdle,W。;Liang,H。;Gao,J.T.,《部分线性模型》(2000),海德堡:施普林格物理出版社,海德伯格·Zbl 0968.62006年
[32] Härdle,W。;Stoker,T.M.,“用平均导数方法研究平滑多元回归”,《美国统计协会杂志》,84,986-995(1989)·Zbl 0703.62052号 ·doi:10.1080/01621459.1989.10478863
[33] 哈斯蒂,T。;Tibshirani,R.,广义加性模型(1990),伦敦:查普曼和霍尔/CRC,伦敦·Zbl 0747.62061号
[34] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素:数据挖掘、推断和预测》(2009),柏林:施普林格出版社,柏林·Zbl 1273.62005年
[35] Horowitz,J.L.,《计量经济学中的半参数和非参数方法》(2009),柏林:施普林格出版社,柏林·Zbl 1278.62005号
[36] Horvath,D.P。;Schaffer,R。;Wisman,E.,“利用拟南芥微阵列鉴定野生燕麦(Avena fatua)新兴分蘖中诱导的基因”,《杂草科学》,51,503-508(2003)
[37] Huber,P.J.,“稳健回归:渐近、猜想和蒙特卡罗”,《统计年鉴》,1799-821(1973)·Zbl 0289.62033号 ·doi:10.1214/aos/1176342503
[38] Ichimura,H.,“单指标模型的半参数最小二乘(SLS)和加权SLS估计”,计量经济学杂志,58,71-120(1993)·Zbl 0816.62079号
[39] Lauritzen,S.L.,《图形模型》(1996),牛津:牛津大学出版社,牛津·Zbl 0907.62001
[40] 李强。;Racine,J.S.,《非参数计量经济学:理论与实践》(2007),新泽西州普林斯顿:普林斯顿大学出版社,新泽西普林斯顿·Zbl 1183.62200号
[41] Lin,Q.,Zhao,and Liu,J.S.(2016),“高维数据的稀疏切片逆回归”,arXiv:1611.06655。
[42] 刘伟。;Shao,Q.-M,“具有错误发现率控制的大规模t检验中的阶段转换和正则自举”,《统计年鉴》,第42期,2003-2025(2014)·Zbl 1305.62213号
[43] Lv,J.,“有限样本中高维的影响”,《统计年鉴》,412236-2262(2013)·兹比尔1277.62167 ·doi:10.1214/13-AOS1149
[44] McCullagh,P。;Nelder,J.A.,《广义线性模型》(1989),伦敦:查普曼和霍尔出版社,伦敦·Zbl 0744.62098号
[45] Meier,L。;van de Geer,S。;Bühlmann,P.,《高维加性建模》,《统计年鉴》,第37期,第3779-3821页(2009年)·Zbl 1360.62186号 ·doi:10.1214/09-AOS692
[46] 孟,L。;Sun,F。;张,X。;Waterman,M.S.,“序列比对作为假设检验”,《计算生物学杂志》,18,677-691(2011)·doi:10.1089/cmb.2010.0328
[47] Prelić,A。;布鲁勒,S。;齐默尔曼,P。;Wille,A。;Bühlmann,P。;格鲁伊斯姆,W。;Hennig,L。;Thiele,L。;Zitzler,E.,“基因表达数据双聚类方法的系统比较和评估”,生物信息学,2211122-1129(2006)·doi:10.1093/bioinformatics/btl060
[48] 拉梅尔,F。;苏尔蒙,C。;Bogard,M。;库埃,I。;Gouesbet,G.,),“拟南芥植株中阿特拉津损伤和蔗糖诱导耐受期间活性氧物种的差异模式和抗氧化机制”,BMC植物生物学,9,1-18(2009)
[49] 拉维库马尔,P。;刘,H。;Lafferty,J。;Wasserman,L.,“垃圾邮件:稀疏加性模型”,《皇家统计学会杂志》,B辑,711009-1030(2009)·Zbl 1411.62107号
[50] 任,Z。;Kang,Y。;范,Y。;Lv,J.,“大规模网络中的无调谐异质推断”,《美国统计协会杂志》(2018)·Zbl 1428.62098号 ·doi:10.1080/01621459.2018.1537920
[51] Schäfer,J。;Strimmer,K.,“大尺度协方差矩阵估计的收缩方法及其对功能基因组学的影响”,《遗传学和分子生物学的统计应用》,41544-1615(2005)
[52] Schmitt,B.A.,“矩阵平方根和勾股和的扰动界”,《线性代数及其应用》,174,215-227(1992)·Zbl 0758.15006号 ·doi:10.1016/0024-3795(92)90052-C
[53] 沙阿·R·D。;Samworth,R.J.,“带误差控制的变量选择:稳定性选择的另一种观点”,《皇家统计学会杂志》,B辑,75,55-80(2013)·Zbl 07555438号
[54] Stoker,T.M.,“标度系数的一致估计”,计量经济学,541461-1481(1986)·Zbl 0628.62105号
[55] Storey,J.D.,《错误发现率的直接方法》,《皇家统计学会期刊》,B辑,64,479-498(2002)·Zbl 1090.62073号
[56] Storey,J.D。;泰勒,J.E。;Siegmund,D.,“强控制、保守点估计和错误发现率的同时保守一致性:统一方法”,《皇家统计学会杂志》,B辑,66,187-205(2004)·Zbl 1061.62110号
[57] 苏·W。;Candès,E.J.,“坡度适应未知稀疏度和渐进最小值”,《统计年鉴》,441038-1068(2016)·Zbl 1338.62032号 ·doi:10.1214/15-AOS1397
[58] 苏尔,P。;陈,Y。;Candès,E.J.,“高维Logistic回归中的似然比检验是逐步重标度的Chi-Square,arXiv:1706.01191(2017)
[59] Tibshirani,R.,《通过拉索进行回归收缩和选择》,《皇家统计学会期刊》,B辑,58,267-288(1996)·Zbl 0850.62538号
[60] 维恩科普,S。;格林斯基,M。;田中,N。;托尔斯蒂科夫,V。;费恩,O。;Weckwerth,W.,《将蛋白质分馏与多维单片反相肽色谱/质谱联用可增强复杂混合物中蛋白质的鉴定,即使存在丰富的蛋白质》,《质谱快速通讯》,18,643-650(2004)
[61] Wille,A。;齐默尔曼,P。;弗拉诺娃,E。;Fürholz,A。;Laule,O。;布鲁勒,S。;Hennig,L。;Prelić,A。;冯·罗尔,P。;Thiele,L。;Zitzler,E。;格鲁伊斯姆,W。;Bühlmann,P.,《拟南芥类异戊二烯基因网络的稀疏图形高斯模型》,《基因组生物学》,5,R92(2004)·doi:10.1186/gb-2004-5-11-r92
[62] Wu,W.B.,“依赖下的虚假发现控制”,《统计年鉴》,第36期,第364-380页(2008年)·兹比尔1139.62040 ·doi:10.1214/009053607000000730
[63] Yang,E.、Lozano,A.和Ravikumar,P.(2014),“高维线性回归的基本估计”,《第31届机器学习国际会议论文集》(ICML-14),第388-396页。
[64] Zhang,Y。;Liu,J.S.,《全基因组关联研究中显著性检验的快速准确逼近》,《美国统计协会杂志》,106846-857(2011)·Zbl 1229.62150号 ·doi:10.1198/jasa.2011.ap10657
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。