×

通过数据拆分控制错误发现率。 (英语) Zbl 07784925号

摘要:选择与给定响应变量相关的相关特征是许多科学领域的一个重要问题。通过错误发现率(FDR)控制量化选择结果的质量和不确定性是最近的研究热点。本文介绍了一种数据分割方法(简称“DS”),在保持高功率的同时,对FDR进行渐近控制。对于每个特征,DS通过数据分割估计两个独立的回归系数来构建测试统计量。FDR控制是通过利用统计量的特性来实现的,即对于任何零特征,其采样分布都是关于零的对称分布;而对于相关特征,其采样分布具有正均值。此外,还提出了一种多数据分割(MDS)方法,以稳定选择结果并提高功率。令人惊讶的是,在FDR得到控制的情况下,MDS不仅有助于克服数据分裂造成的功率损失,而且与所有其他考虑中的方法相比,其错误发现比例(FDP)的方差更低。大量仿真研究和实际数据应用表明,所提出的方法对未知的特征分布具有鲁棒性,易于实现,计算效率高,通常是竞争对手中最强大的方法,特别是当信号较弱且特征之间的相关性或部分相关性较高时。本文的补充材料可在网上获得。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Barber,R.F.和Candès,E.J.(2015),“通过敲打控制虚假发现率”,《统计年鉴》,第43期,2055-2085年。内政部:·Zbl 1327.62082号
[2] Barber,R.F.和Candès,E.J.(2019年),“高维选择性推断的敲除过滤器”,《统计学年鉴》,第472504-2537页·Zbl 1444.62034号
[3] Barber,R.F.、Candès,E.J.和Samworth,R.J.(2020年),“用敲除进行稳健推断”,《统计年鉴》,第48期,第1409-1431页。内政部:·Zbl 1452.62193号
[4] Bates,S.、CandéS,E.J.、Janson,L.和Wang,W.(2020年),“都市敲落抽样”,《美国统计协会杂志》,1161413-1427。内政部:·2018年10月15日
[5] Benjamini,Y.和Gavrilov,Y.(2009),“基于错误发现率控制的简单正向选择程序”,《应用统计学年鉴》,3179-198。内政部:·Zbl 1160.62068号
[6] Benjamini,Y.和Hochberg,Y.(1995),“控制错误发现率:一种实用而有力的多重测试方法”,《皇家统计学会杂志》,B辑,57,289-300。内政部:·Zbl 0809.62014号
[7] Benjamini,Y.和Yekutieli,D.(2001),“依赖条件下多重测试中错误发现率的控制”,《统计年鉴》,291165-1188。内政部:·Zbl 1041.62061号
[8] Berk,R.、Brown,L.、Buja,A.、Zhang,K.和Zhao,L.(2013),“有效的‘选择后推断’”,《统计年鉴》,第41期,第802-837页。内政部:·Zbl 1267.62080号
[9] Bogdan,M.、Berg,E.、Sabatti,C.、Su,W.和Candès,E.J.(2015),“通过凸优化进行斜率自适应变量选择”,《应用统计学年鉴》,第9卷,第1103-1150页。内政部:·Zbl 1454.62212号
[10] Candès,E.J.,Fan,Y.,Janson,L.和Lv,J.(2018),“淘金:高维受控变量选择的‘X模型’淘汰”,英国皇家统计学会杂志,B辑,80551-577。内政部:·Zbl 1398.62335号
[11] Clarke,S.和Hall,P.(2009),“针对依赖性的多重测试程序的稳健性”,《统计年鉴》,第37、332-358页。内政部:·Zbl 1155.62031号
[12] Cox,D.R.(1975),“用于评估显著性水平的数据分割注释”,《生物特征》,62,441-444。内政部:·Zbl 0309.62014号
[13] Dai,C.,Lin,B.,Xing,X.和Liu,J.S.(2020),“广义线性模型中虚假发现率控制的无标度方法”,arXiv预印本:2007.01237·Zbl 07751785号
[14] Dezeure,R.、Bühlmann,P.、Meier,L.和Meinshausen,N.(2015),“高维推断:置信区间、P值和R软件hdi”,《统计科学》,第30期,第533-558页。内政部:·Zbl 1426.62183号
[15] Donoho,D.和Jin,J.(2004),“检测稀疏非均匀混合物的更高批评”,《统计年鉴》,32962-994。内政部:·Zbl 1092.62051号
[16] Efron,B.(2005),“本地错误发现率”,技术报告。
[17] Efron,B.、Tibshirani,R.、Storey,J.D.和Tusher,V.(2001),“微阵列实验的经验贝叶斯分析”,美国统计协会杂志,961151-1160。内政部:·Zbl 1073.62511号
[18] Efroymson,M.(1960),《多元回归分析》,收录于《数字计算机数学方法》,编辑:Ralston,A.和Wilf,H.S.,第191-203页,纽约:Wiley·Zbl 0089.12602号
[19] Fan,Y.、Demirkaya,E.、Li,G.和Lv,J.(2020),“等级:使用图形非线性剔除的大尺度推断”,美国统计协会杂志,115362-379。内政部:·Zbl 1437.62699号
[20] Hoffman,J.A.、Papas,B.N.、Trotter,K.W.和Archer,T.K.(2020年),“单细胞RNA测序揭示乳腺癌细胞对糖皮质激素的异质反应”,《通信生物学》,第3期,第1-11页。内政部:。
[21] Huang,D.和Janson,L.(2020年),“通过条件作用放松对敲除的假设”,《统计年鉴》,48,3021-3042。内政部:·Zbl 1454.62132号
[22] Ignatiadis,N.、Klaus,B.、Zaugg,J.B.和Huber,W.(2016),“数据驱动假设加权增加了基因组尺度多重测试的检测能力”,《自然方法》,第13期,第577-580页。内政部:。
[23] Javanmard,A.和Javadi,H.(2019),“通过借记套索控制错误发现率”,《电子统计杂志》,第13期,第1212-1253页。内政部:·Zbl 1418.62061号
[24] Javanmard,A.和Montanari,A.(2014),“高维回归的置信区间和假设检验”,《机器学习研究杂志》,第15期,第2869-2909页·Zbl 1319.62145号
[25] Jordon,J.、Yoon,J.和Schaar,M.V.D.(2019年),《KnockoffGAN:使用生成性对抗网络生成特征选择的KnockOff》,《学习表征国际会议》。
[26] Katsevich,E.和Sabatti,C.(2019年),“多层剔除过滤器:多分辨率下的受控变量选择”,《应用统计年鉴》,第13期,第1-33页。内政部:·Zbl 1417.62315号
[27] Ke,Z.T,Liu,J.S.和Ma,Y.(2020),“FDR控制方法的力量:排序算法、篡改设计和对称统计的影响”,arXiv预印本:2010.08132。
[28] Kim,S.(2015),“ppcor:快速计算半部分相关系数的R包”,《统计应用与方法通信》,22,665-674。内政部:。
[29] Kotz,S.、Balakrishnan,N.和Johnson,N.L.(2000),“二元和三元正态分布”,《连续多元分布》,1251-348·Zbl 0946.62001号
[30] Lauritzen,S.L.(1996),“图形模型”(第17卷),Clarendon出版社·Zbl 0907.62001
[31] Lee,J.D.、Sun,D.L.、Sun,Y.和Taylor,J.E.(2016年),“精确的选择后推断,及其在套索中的应用”,《统计年鉴》,第44907-927页。内政部:·Zbl 1341.62061号
[32] Li,J.和Maathuis,M.H.(2019),“Nodewise Knockoffs:高斯图形模型的错误发现率控制”,arXiv预印本:1908.11611。
[33] Liu,J.和Rigollet,P.(2019),“相关设计敲除滤波器的功率分析”,《神经信息处理系统进展》32,15446-15455。
[34] Liu,W.(2013),“带有错误发现率控制的高斯图形模型估计”,《统计年鉴》,第41期,第2948-2978页。内政部:·兹比尔1288.62094
[35] Lockhart,R.、Taylor,J.、Tibshirani,R.J.和Tibshirani,R.(2014),“拉索的显著性检验”,《统计年鉴》,第42期,第413-468页·Zbl 1305.62254号
[36] Lu,Y.,Fan,Y.、Lv,J.和Noble,W.S.(2018),“DeepPINK:深层神经网络中的可再现特征选择”,《神经信息处理系统进展》,8676-8686。
[37] Ma,R.,Cai,T.T.,and Li,H.(2020),“高维Logistic回归模型的全局和同步假设检验”,美国统计协会杂志,116984-998。内政部:·Zbl 1464.62306号
[38] Meinshausen,N.和Bühlmann,P.(2006),“高维图和拉索变量选择”,《统计年鉴》,341436-1462。内政部:·Zbl 1113.62082号
[39] Meinshausen,N.和Bühlmann,P.(2010),“稳定性选择”,《皇家统计学会杂志》,B辑,72,417-473·兹比尔1411.62142
[40] Meinshausen,N.、Meier,L.和Bühlmann,P.(2009),“高维回归的P值”,美国统计协会杂志,1041671-1681。内政部:·Zbl 1205.62089号
[41] Moran,P.A.P.(1973),“将样本分为两部分是一个统计难题”,桑基拉:印度统计杂志,A辑,35,329-333·Zbl 0284.62004号
[42] O'Hara,R.B.和Sillanpää,M.J.(2009),“贝叶斯变量选择方法综述:什么、如何以及是什么”,贝叶斯分析,485-117。内政部:·Zbl 1330.62291号
[43] Ren,Z.、Wei,Y.和Candès,E.(2021年),“去随机化敲除”,《美国统计协会杂志》,第1-11页。内政部:·Zbl 07707214号
[44] Rhee,S.Y.、Fessel,W.J.、Zolopa,A.R.、Hurley,L.、Liu,T.、Taylor,J.、Nguyen,D.P.、Slome,S.、Klein,D.和Horberg,M.(2005),“HIV-1蛋白酶和逆转录酶突变:与B亚型分离物中抗逆转录病毒治疗的相关性以及对药物耐药性监测的意义”,《传染病杂志》,192, 456-465. 内政部:。
[45] Rhee,S.Y.、Taylor,J.、Wadhera,G.、Ben-Hur,A.、Brutlag,D.L.和Shafer,R.W.(2006),“人类免疫缺陷病毒1型耐药性的基因型预测因子”,《美国国家科学院院刊》,103,17355-17360。
[46] Romano,J.P.和DiCiccio,C.(2019),“用于测试的多数据分割”,技术报告2019-03号,4月,斯坦福大学。
[47] Romano,Y.、Sesia,M.和Candès,E.J.(2019年),“深度敲打”,《美国统计协会杂志》,第115期,1861-1872页。内政部:·Zbl 1452.62710号
[48] Rubin,D.、Dudoit,S.和der Laan,M.V.(2006),“通过样本分割提高多重测试程序效力的方法”,《遗传学和分子生物学的统计应用》,第5卷,第19条。内政部:·Zbl 1166.62318号
[49] Sarkar,S.K.(2002),“逐步多重测试程序中错误发现率的一些结果”,《统计年鉴》,第30期,第239-257页。内政部:·Zbl 1101.62349号
[50] Sesia,M.、Katsevich,E.、Bates,S.、CandèS,E.J.和Sabatti,C.(2020年),“基因组中因果变异的多分辨率定位”,《自然通讯》,第11期,第1-10页。内政部:。
[51] Sesia,M.、Sabati,C.和Candès,E.J.(2018),“利用隐马尔可夫模型敲除进行基因搜索”,《生物特征》,106,1-18。内政部:·Zbl 1506.62463号
[52] Stone,M.(1974),“统计预测的交叉验证选择和评估”,《皇家统计学会期刊》,B辑,36,111-133。内政部:·Zbl 0308.62063号
[53] Storey,J.D.(2003),“正误发现率:贝叶斯解释和q值”,《统计年鉴》,第31期,2013-2035年。内政部:·Zbl 1042.62026
[54] Storey,J.D.、Taylor,J.E.和Siegmund,D.(2004),“错误发现率的强控制、保守点估计和同时保守一致性:统一方法”,《皇家统计学会杂志》,B辑,66187-205。内政部:·Zbl 1061.62110号
[55] Tibshirani,R.(1996),“通过拉索进行回归收缩和选择”,《皇家统计学会期刊》,B辑,58,267-288。内政部:·兹比尔0850.62538
[56] Tibshirani,R.J.、Taylor,J.、Lockhart,R.和Tibshirani,R.(2016),“序列回归程序的精确选择后推断”,美国统计协会杂志,111,600-620。内政部:。
[57] Van de Geer,S.A.和Bühlmann,P.(2009),“关于用于证明Oracle Lasso结果的条件”,《电子统计杂志》,第31360-1392页。内政部:·兹比尔1327.62425
[58] Van de Geer,S.A.、Bühlmann,P.、Ritov,Y.和Dezeure,R.(2014),“关于高维模型的渐近最优置信区域和测试”,《统计年鉴》,第42期,第1166-1202页。内政部:·Zbl 1305.62259号
[59] van de Wiel,M.A.、Berkhof,J.和van Wieringen,W.N.(2009),“测试两个预测值之间的预测误差差异”,《生物统计》,10550-560。内政部:·Zbl 1437.62637号
[60] Wang,W.和Janson,L.(2020),“条件随机化测试和淘汰的功效分析”,arXiv预印本:2010.02304·Zbl 07582643号
[61] Wasserman,L.和Roeder,K.(2009),“高维变量选择”,《统计年鉴》,第37期,第2178-2201页。内政部:·兹比尔1173.62054
[62] Weinstein,A.、Barber,R.F.和Candès,E.J.(2017年),“利用拉索统计法进行敲落的功率和预测分析”,arXiv预印本arXiv:1712.06465。
[63] Weinstein,A.,Su,W.J.,Bogdan,M.,Barber,R.F.,and Candès,E.J.(2020年),“拉索系数差异统计法的敲打功率分析”,arXiv预印本arXiv:2007.15346。
[64] Wu,W.B.(2008),“依赖下的虚假发现控制”,《统计年鉴》,第36期,第364-380页。内政部:·Zbl 1139.62040号
[65] Xing,X.,Zhao,and Liu,J.S.(2021),“使用高斯反射镜控制错误发现率”,美国统计协会杂志,1-20。内政部:·Zbl 1514.62093号
[66] Yuan,M.和Lin,Y.(2006),“分组变量回归中的模型选择和估计”,英国皇家统计学会期刊,B辑,68,49-67。内政部:·Zbl 1141.62030号
[67] Zhang,C.H.和Zhang and S.S.(2014),“高维线性模型中低维参数的置信区间”,《皇家统计学会杂志》,B辑,76,217-242。内政部:·Zbl 1411.62196号
[68] Zhang,R.,Ren,Z.和Chen,W.(2018),“SILGGM:大规模基因网络中高效统计推断的扩展R包”,《公共科学图书馆·计算生物学》,14,e1006369。内政部:。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。