×

Farmtest:具有近似错误发现控制的因子调整稳健多重测试。 (英文) Zbl 1428.62345号

摘要:从基因组学、医学成像到金融学,在广泛的研究领域都出现了使用相关和重尾数据的大规模多重测试。传统的错误发现比例(FDP)估计方法往往忽略了测试统计量之间的重尾性和依赖结构的影响,从而可能导致估计效率低下甚至不一致。此外,对于许多应用来说,通常强加的联合正态性假设可能过于严格。为了解决这些挑战,在本文中,我们提出了一种基于因子调整的稳健多重测试(FarmTest)方法,用于控制FDP的大规模同步推理。我们证明,稳健的因子调整对于控制FDP和提高功率都极为重要。我们确定了所提出方法产生FDP一致估计的一般条件。作为一个独立的副产品,我们在谱范数下建立了鲁棒(U)型协方差估计的指数型偏差不等式。大量的数值实验表明,与几种最先进的方法相比,该方法具有优势,尤其是当数据由重尾分布生成时。建议的程序在R包FarmTest中实施。对于本文,可以在线获取。

MSC公司:

62J15型 配对和多重比较;多次测试
62G10型 非参数假设检验
62G35型 非参数稳健性
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 安,S.C。;Horenstein,A.R.,“因子数量的特征值比率测试”,《计量经济学》,811203-1227(2013)·兹比尔1274.62403
[2] Bai,J.,“大维度因子模型的推理理论”,《计量经济学》,第71期,第135-171页(2003年)·Zbl 1136.62354号 ·数字对象标识代码:10.1111/1468-0262.00392
[3] Bai,J。;李坤,“高维因子模型的统计分析”,《统计年鉴》,第40期,第436-465页(2012年)·Zbl 1246.62144号 ·doi:10.1214/11-AOS966
[4] Bai,J。;Ng,S.,“确定近似因子模型中的因子数”,《计量经济学》,70191-221(2002)·Zbl 1103.91399号 ·数字对象标识代码:10.1111/1468-0262.00273
[5] Y.本杰米尼。;Hochberg,Y.,“控制错误发现率:一种实用而强大的多重测试方法”,《皇家统计学会杂志》,B辑,57289-300(1995)·Zbl 0809.62014号 ·doi:10.1111/j.2517-6161.1995.tb02031.x
[6] Y.本杰米尼。;Yekutieli,D.,《依赖条件下多重测试中错误发现率的控制》,《统计年鉴》,291165-1188(2001)·Zbl 1041.62061号 ·doi:10.1214/aos/1013699998
[7] 布兰查德,G。;Roquin,E.,“独立和依赖下的自适应错误发现率控制”,《机器学习研究杂志》,102837-2871(2009)·Zbl 1235.62093号
[8] Catoni,O.,“挑战经验平均值和经验方差:偏差研究”,《亨利·彭卡研究所年鉴——概率与统计》,48,1148-1185(2012)·Zbl 1282.62070号 ·doi:10.1214/11-AIHP454
[9] Chi,Z.,《关于FDR控制的性能:约束和部分解决方案》,《统计年鉴》,351409-1431(2007)·Zbl 1125.62075号 ·doi:10.1214/00905360000000037
[10] 克拉克,S。;Hall,P.,“针对依赖性的多重测试程序的稳健性”,《统计年鉴》,37,332-358(2009)·Zbl 1155.62031号 ·doi:10.1214/07-AOS557
[11] Cont,R.,“资产收益的经验特性:风格化事实和统计问题”,《定量金融》,第1223-236页(2001年)·Zbl 1408.62174号 ·doi:10.1080/713665670
[12] Delaigle,A。;霍尔,P。;Jin,J.,“基于学生t-统计量的高维数据分析方法的稳健性和准确性”,《皇家统计学会杂志》,B辑,73,283-301(2011)·Zbl 1411.62222号 ·doi:10.1111/j.1467-9868.2010.00761.x
[13] 德赛,K.H。;Storey,J.D.,“相关高维数据的跨维推断”,《美国统计协会杂志》,107,135-151(2012)·Zbl 1261.62048号 ·doi:10.1080/01621459.2011.645777
[14] Efron,B.,“相关性和大尺度同时显著性检验”,《美国统计协会杂志》,102,93-103(2007)·Zbl 1284.62340号 ·doi:10.1198/0162145000001211
[15] Efron,B.,“相关z值和大尺度统计估计的准确性”,《美国统计协会杂志》,105,1042-1055(2010)·Zbl 1390.62139号
[16] 埃克隆德,A。;Nichols,T。;Knutsson,H.,“集群故障:为什么fMRI对空间范围的推断增加了假阳性率”,《美国国家科学院院刊》,1137900-7905(2016)·doi:10.1073/pnas.1602413113
[17] Fama,E.F.,“Mandelbrot和稳定帕累托假设”,《商业杂志》,第36期,第420-429页(1963年)·数字对象标识代码:10.1086/294633
[18] 范,J。;Han,X.,“未知依赖项下虚假发现比例的估计”,《皇家统计学会杂志》,B辑,79,1143-1164(2017)·Zbl 1373.62272号 ·doi:10.1111/rssb.12204
[19] 范,J。;韩,X。;Gu,W.,“在任意协方差依赖下估计错误发现比例”,《美国统计协会杂志》,1071019-1035(2012)·兹比尔1395.62219 ·doi:10.1080/01621459.2012.720478
[20] 范,J。;李,Q。;Wang,Y.,“在没有对称性和轻尾假设的情况下估计高维平均回归”,《皇家统计学会杂志》,B辑,79,247-265(2017)·Zbl 1414.62178号 ·doi:10.1111/rssb.12166
[21] 范,J。;Liao,Y。;Mincheva,M.,“基于阈值主正交补体的大协方差估计”,《皇家统计学会杂志》,B辑,75,603-680(2013)·Zbl 1411.62138号 ·doi:10.1111/rssb.12016
[22] 费雷拉,J.A。;Zwinderman,A.H.,“关于Benjamini-Hochberg方法”,《统计年鉴》,341827-1849(2006)·Zbl 1246.62170号 ·doi:10.1214/009053600000425
[23] 弗里格,C。;Kloareg,M。;Causeur,D.,“依赖性下多重测试的因子模型方法”,《美国统计协会杂志》,1041406-1415(2009)·Zbl 1205.62071号 ·doi:10.1198/jasa.2009.tm08332
[24] Genovese,C。;Wasserman,L.,“错误发现控制的随机过程方法”,《统计年鉴》,32,1035-1061(2004)·Zbl 1092.62065号 ·doi:10.1214/009053604000000283
[25] Huber,P.J.,“位置参数的稳健估计”,《数理统计年鉴》,35,73-101(1964)·Zbl 0136.39805号 ·doi:10.1214/aoms/1177703732
[26] Jin,J.,“非零正态均值的比例:通用Oracle等价和一致一致估计”,《皇家统计学会杂志》,B辑,70,461-493(2008)·Zbl 05563355号 ·文件编号:10.1111/j.1467-9868.2007.00645.x
[27] Jin,J.等人。;Cai,T.T.,“在大规模多重比较中估计零效应和非零效应的比例”,《美国统计协会杂志》,102495-506(2007)·Zbl 1172.62319号 ·doi:10.1198/0162145000000167
[28] 库斯特拉(Kustra,R.)。;Shioda,R。;Zhu,M.,“功能基因组学的因子分析模型”,BMC生物信息学,7,216(2006)·doi:10.1186/1471-2105-7-216
[29] Lam,C。;姚强,“高维时间序列的因子建模:因子数量的推断”,《统计学年鉴》,第40期,第694-726页(2012年)·Zbl 1273.62214号 ·doi:10.1214/12-AOS970
[30] Langaas,M。;Lindqvist,B.,“利用DNA微阵列数据估算真零假设的比例”,《皇家统计学会期刊》,B辑,67,555-572(2005)·Zbl 1095.62037号 ·数字对象标识代码:10.1111/j.1467-9868.2005.00515.x
[31] 劳利,D.N。;Maxwell,A.E.,作为统计方法的因子分析(1971),纽约:Elsevier,纽约·Zbl 0251.62042号
[32] Leek,J.T。;Storey,J.D.,“多重测试依赖性的一般框架”,《国家科学院学报》,第105期,第18718-18723页(2008年)·Zbl 1359.62202号 ·doi:10.1073/pnas.0808709105
[33] 莱曼,E.L。;Romano,J.P.,“家庭错误率的一般化”,《统计年鉴》,331138-1154(2005)·Zbl 1072.62060号 ·doi:10.1214/009053605000000084
[34] 刘,W。;Shao,Q.-M,“具有错误发现率控制的大规模t检验中的阶段转换和正则自举”,《统计年鉴》,第42期,2003-2025(2014)·Zbl 1305.62213号 ·doi:10.1214/14-AOS1249
[35] Mandelbrot,B.,“某些投机价格的变化”,《商业杂志》,36,394-419(1963)·数字对象标识代码:10.1086/294632
[36] 南卡罗来纳州梅德兰。;北加汉沙德。;Neale,B。;汤普森,P.,《某些投机价格的变化》,《自然神经科学》,17,791-800(2014)·doi:10.1038/nn.3718
[37] 明绍森,N。;Rice,J.,“在大量独立测试的假设中估计假零假设的比例”,《统计年鉴》,34,373-393(2006)·Zbl 1091.62059号 ·doi:10.1214/009053605000000741
[38] Minsker,S.,“具有重尾项的随机矩阵平均值的次高斯估计”,《统计年鉴》,《统计年鉴》,46,2871-2903(2018)·Zbl 1418.62235号 ·doi:10.1214/17-AOS1642
[39] Oberthuer,A。;Berthold,F。;华纳,P。;英雄B。;Kahlert,Y。;斯皮茨,R。;Ernestus,K。;König,R。;哈斯,S。;艾尔斯,R。;施瓦布,M。;布罗斯,B。;韦斯特曼,F。;Fischer,M.,“神经母细胞瘤患者基于定制寡核苷酸基因表达的分类优于当前临床风险分层”,《临床肿瘤学杂志》,24,5070-5078(2006)·doi:10.1200/JCO.2006.06.1879
[40] Onatski,A.,“具有弱影响因素的大因子模型主成分估计的渐近性”,《计量经济学杂志》,168,244-258(2012)·Zbl 1443.62497号 ·doi:10.1016/j.jeconom.2012.01.034
[41] Owen,A.B.,“错误发现数量的差异”,《皇家统计学会期刊》,B辑,67,411-426(2005)·Zbl 1069.62102号 ·数字对象标识代码:10.1111/j.1467-9868.200500509.x
[42] Pournara,I。;Wernish,L.,“基因调控网络和转录因子活性谱的因子分析”,BMC生物信息学,8,61(2007)
[43] Purdom,E。;Holmes,S.P.,“基因表达数据的误差分布”,《遗传学和分子生物学的统计应用》,4,16(2005)·兹比尔1083.62114
[44] 施瓦茨曼,A。;Lin,X.,“错误发现率估计中的相关性效应”,Biometrika,98199-214(2011)·Zbl 1215.62071号 ·doi:10.1093/biomet/asq075
[45] 沈,D。;沈,H。;朱,H。;Marron,J.S.,“高维低样本量渐近的统计与数学”,《中国统计》,26,1747-1770(2016)·Zbl 1356.62077号 ·doi:10.5705/ss.202015.0088
[46] Sun,W。;Cai,T.T.,“依赖下的大规模多重测试”,《皇家统计学会杂志》,B辑,71,393-424(2009)·Zbl 1248.62005号 ·doi:10.1111/j.1467-9868.2008.00694.x
[47] 孙,Q。;周,W.-X。;Fan,J.,“自适应Huber回归:最优性和阶段转换”,《美国统计协会杂志》,即将出版,网址:arXiv:1706.06991(2017)·Zbl 1437.62250号 ·doi:10.1080/01621459.2018.1543124
[48] 股票,J。;Watson,M.,“利用大量预测值的主成分进行预测”,《美国统计协会期刊》,97,1167-1179(2002)·Zbl 1041.62081号 ·doi:10.1198/016214502388618960
[49] Storey,J.D.,“错误发现率的直接方法”,《皇家统计学会期刊》,B辑,64,479-498(2002)·Zbl 1090.62073号 ·doi:10.1111/1467-9868.00346
[50] Storey,J.D.,“正错误发现率:贝叶斯解释和q值”,《皇家统计学会杂志》,B辑,64,479-498(2003)
[51] Storey,J.D。;泰勒,J.E。;Siegmund,D.,“强控制、保守点估计和错误发现率的同时保守一致性:统一方法”,《皇家统计学会杂志》,B辑,66,187-205(2004)·Zbl 1061.62110号 ·文件编号:10.1111/j.1467-9868.2004.00439.x
[52] Storey,J.D。;Tibshirani,R。;Parmigiani,G。;加勒特,E.S。;爱尔兰共和国。;Zeger,S.L.,《基因表达数据分析:方法和软件》,“DNA微阵列中检测差异基因表达的SAM阈值和错误发现率”,272-290(2003),纽约:Springer,纽约·Zbl 1012.00021号
[53] Vershynin,R.,《高维概率:数据科学应用简介》(2018),剑桥:剑桥大学出版社,剑桥·Zbl 1430.60005号
[54] Wang,J。;赵(Q.Zhao)。;哈斯蒂,T。;Owen,A.B.,“多重假设检验中的混淆调整”,《统计年鉴》,451863-1894(2017)·Zbl 1486.62223号 ·doi:10.1214/16-AOS1511
[55] Wang,W。;Fan,J.,“高维尖峰协方差经验特征结构的渐近性”,《统计年鉴》,451342-1374(2017)·Zbl 1373.62299号 ·doi:10.1214/16-AOS1487
[56] Wu,W.B.,“依赖下的虚假发现控制”,《统计年鉴》,第36期,第364-380页(2008年)·Zbl 1139.62040号 ·doi:10.1214/09053607000000730
[57] Yu,Y。;Wang,T。;Samworth,R.J.,“Davis-Kahan定理对统计学家的有用变体”,Biometrika,102315-323(2015)·兹比尔1452.15010 ·doi:10.1093/biomet/asv008
[58] 周,W.-X。;Bose,K。;范,J。;Liu,H.,“稳健M-估计的新视角:有限样本理论及其在依赖调整多重检验中的应用”,《统计学年鉴》,46,1904-1931(2018)·Zbl 1409.62154号 ·doi:10.1214/17-AOS1606
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。