×

使用离群值选择估计最小影响。 (英语) Zbl 1461.62052号

小结:我们介绍了Huber污染模型的单边版本,在该模型中,腐蚀样品的值往往大于未腐蚀的样品。解决了两个相互交织的问题:未腐蚀样本平均值的估计(最小影响)和腐蚀样本的选择(离群值)。关于最小影响的估计,我们导出了最小最大风险,并引入了对未知污染数自适应的估计量。最优收敛速度与经典Huber污染模型不同。这一事实揭示了污染的片面结构假设的影响。对于选择离群值的问题,我们在一个多重测试框架中描述了该问题,其中零假设的位置和比例未知。我们严格证明,通过错误发现率(FDR)和事后界,在保持对错误选择的离群值数量的理论保证的同时估计零假设是可能的。作为副产品,我们解决了在等相关条件下FDR控制的一个长期未决问题,这增强了在这种情况下消除依赖性的兴趣。

MSC公司:

62G10型 非参数假设检验
62J15型 配对和多重比较;多次测试
62C20个 统计决策理论中的Minimax过程

软件:

FAMT公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Arias-Castro,E.和Chen,S.(2017年)。无分布多重测试。电子。《J Stat.11 1983-2001》·兹比尔1361.62023 ·doi:10.1214/17-EJS1277
[2] Baraud,Y.(2002)。信号检测中的非症状最小最大检测率。伯努利8 577-606·Zbl 1007.62042号
[3] Barber,R.F.和Candès,E.J.(2015)。通过仿冒品控制错误发现率。安。统计师。43 2055-2085. ·Zbl 1327.62082号 ·doi:10.1214/15-AOS1337
[4] Benjamini,Y.和Hochberg,Y.(1995年)。控制错误发现率:一种实用且强大的多重测试方法。J.罗伊。统计师。Soc.序列号。乙57 289-300·Zbl 0809.62014号 ·doi:10.1111/j.2517-6161.1995.tb02031.x
[5] Benjamini,Y.和Yekutieli,D.(2001年)。依赖下多重测试中错误发现率的控制。安。统计师。29 1165-1188. ·Zbl 1041.62061号 ·doi:10.1214/aos/1013699998
[6] Blanchard,G.、Neuvial,P.和Roquain,E.(2020年)。使用参考族对误报的事后置信界限。安。统计师。40 1281-1303. ·Zbl 1450.62038号 ·doi:10.1214/19-AOS1847
[7] Bogdan,M.、van den Berg,E.、Sabatti,C.、Su,W.和Candès,E.J.(2015)。SLOPE—通过凸优化进行自适应变量选择。附录申请。统计9 1103-1140·Zbl 1454.62212号 ·doi:10.1214/15-OAS842
[8] Cai,T.T.和Jin,J.(2010)。大规模多重测试中估计零密度和非零效应比例的最佳收敛速度。安。统计师。38 100-145. ·Zbl 1181.62040号 ·doi:10.1214/09-AOS696
[9] Cai,T.T.和Low,M.G.(2005)。二次函数的非二次估计。安。统计师。33 2930-2956. ·Zbl 1085.62055号 ·doi:10.1214/009053605000000147
[10] Cai,T.T.和Low,M.G.(2011年)。测试复合假设、Hermite多项式和非光滑泛函的最优估计。安。统计师。39 1012-1041. ·Zbl 1277.62101号 ·doi:10.1214/10-AOS849
[11] Carpentier,A.、Delattre,S.、Roquain,E.和Verzelen,N.(2021年)。补充“使用离群值选择估计最小影响”https://doi.org/10.1214/20-AOS1956SUPP网站
[12] Carpentier,A.和Kim,A.K.H.(2015)。尾部系数的自适应和极小极大最优估计。统计师。Sinica 25 1133-1144·兹比尔1415.62029
[13] Carpentier,A.和Verzelen,N.(2019年)。高斯向量模型中稀疏性的自适应估计。安。统计师。47 93-126. ·Zbl 1417.62113号 ·doi:10.1214/17-AOS1680
[14] Chen,M.、Gao,C.和Ren,Z.(2018)。Huber污染模型下的稳健协方差和散布矩阵估计。安。统计师。46 1932-1960. ·Zbl 1408.62104号 ·doi:10.1214/17-AOS1607
[15] Collier,O.、Comminges,L.和Tsybakov,A.B.(2017年)。稀疏类上线性泛函和二次泛函的极大极小估计。安。统计师。45 923-958. ·Zbl 1368.62191号 ·doi:10.1214/15-AOS1432
[16] Collier,O.、Comminges,L.和Tsybakov,A.B.(2018年)。稀疏正态均值非光滑泛函的估计。预印。arXiv:1805.10791提供·Zbl 1442.62078号 ·doi:10.3150/19-BEJ1180
[17] Collier,O.、Comminges,L.、Tsybakov,A.B.和Verzelen,N.(2018年)。稀疏性下线性泛函的最优自适应估计。安。统计师。46 3130-3150. ·Zbl 1456.62141号 ·doi:10.1214/17-AOS1653
[18] Delatre,S.和Roquain,E.(2011年)。高斯等相关下的假发现比例收敛性。统计师。普罗巴伯。莱特。81 111-115. ·Zbl 1206.62132号 ·doi:10.1016/j.spl.2010.09.025
[19] Delatre,S.和Roquain,E.(2015年)。通过Romano-Wolf的启发式控制错误发现比例的新程序。安。统计师。43 1141-1177. ·Zbl 1320.62128号 ·doi:10.1214/14-AOS1302
[20] Delatre,S.和Roquain,E.(2016年)。高维高斯向量分量的经验分布函数及其在多重测试中的应用。伯努利22 302-324·Zbl 1332.62057号 ·doi:10.3150/14-BEJ659
[21] Diakonikolas,I.、Kamath,G.、Kane,D.M.、Li,J.、Moitra,A.和Stewart,A.(2017)。健壮(在高维度上)是可行的。第34届机器学习国际会议论文集。机器学习研究论文集70 999-1008。
[22] Donoho,D.和Jin,J.(2004)。对检测稀疏非均匀混合物的批评更高。安。统计师。32 962-994. ·Zbl 1092.62051号 ·doi:10.1214/009053604000000265
[23] Donoho,D.L.和Nussbaum,M.(1990年)。二次泛函的极小极大二次估计。J.复杂性6 290-323·兹比尔0724.62039 ·doi:10.1016/0885-064X(90)90025-9
[24] Dudoit,S.和van der Laan,M.J.(2008)。基因组学应用的多重测试程序。统计学中的斯普林格系列。纽约州施普林格·Zbl 1261.62014年
[25] Efron,B.(2004)。大规模同步假设检验:选择一个无效假设。J.艾默。统计师。协会99 96-104·Zbl 1089.62502号 ·doi:10.1198/0162145000000089
[26] Efron,B.(2007)。相关性和大规模同时显著性检验。J.艾默。统计师。协会102 93-103·兹比尔1284.62340 ·doi:10.1198/0162145000001211
[27] Efron,B.(2007)。同时进行数千项假设测试。Metron LXV 3-21·Zbl 1202.62006年
[28] Efron,B.(2009年)。大规模预测问题的经验贝叶斯估计。J.艾默。统计师。协会104 1015-1028·Zbl 1388.62009号 ·doi:10.1198/jasa.2009.tm08523
[29] Efron,B.(2010年)。相关的(z)值和大规模统计估计的准确性。J.艾默。统计师。协会105 1042-1055·Zbl 1390.62140号 ·doi:10.1198/jasa.2010.tm10367
[30] Fan,J.和Han,X.(2017)。具有未知相关性的错误发现比例的估计。J.R.Stat.Soc.系列。B.统计方法。79 1143-1164. ·Zbl 1373.62272号 ·doi:10.1111/rssb.12204
[31] Fan,J.、Han,X.和Gu,W.(2012)。估计任意协方差依赖下的错误发现比例。J.艾默。统计师。协会107 1019-1035·兹比尔1395.62219
[32] Finner,H.、Dickhaus,T.和Roters,M.(2007年)。依赖性和错误发现率:渐近。安。统计师。35 1432-1455. ·Zbl 1125.62076号 ·doi:10.1214/00905360000000046
[33] Friguet,C.、Kloareg,M.和Causeur,D.(2009年)。依赖性下多重测试的因子模型方法。J.艾默。统计师。协会104 1406-1415·Zbl 1205.62071号 ·doi:10.1198/jasa.2009.tm08332
[34] Gavrilov,Y.、Benjamini,Y.和Sarkar,S.K.(2009年)。一种自适应降压程序,具有独立的FDR控制。安。统计师。37 619-629. ·兹比尔1162.62069 ·doi:10.1214/07-AOS586
[35] Genovese,C.和Wasserman,L.(2004)。错误发现控制的随机过程方法。安。统计师。32 1035-1061. ·Zbl 1092.62065号 ·doi:10.1214/009053604000000283
[36] Genovese,C.R.和Wasserman,L.(2006)。错误发现比例的超标控制。J.艾默。统计师。协会101 1408-1417·Zbl 1171.62338号 ·doi:10.1198/016214500000339
[37] Goeman,J.J.和Solari,A.(2011年)。探索性研究的多重测试。统计师。科学。26 584-597. ·Zbl 1331.62369号 ·doi:10.1214/11-STS356
[38] Goldenshluger,A.和Lepski,O.(2011年)。核密度估计中的带宽选择:Oracle不等式和自适应极小极大最优性。安。统计师。39 1608-1632. ·Zbl 1234.62035号 ·doi:10.1214/11-AOS883
[39] Guo,W.,He,L.和Sarkar,S.K.(2014)。关于控制错误发现比例的进一步结果。安。统计师。42 1070-1101. ·兹比尔1305.62271 ·doi:10.1214/14-AOS1214
[40] Han,Y.,Jiao,J.和Weissman,T.(2016)。离散分布之间KL散度的Minimax估计。预印本。可从arXiv:1605.09124获取。
[41] Huber,P.J.(1964年)。位置参数的稳健估计。安。数学。统计数字35 73-101·Zbl 0136.39805号 ·doi:10.1214/aoms/1177703732
[42] Huber,P.J.(2011)。稳健的统计数据。国际统计科学百科全书1248-1251。施普林格,柏林。
[43] Ibragimov,I.A.和Khasminskii,R.Z.(1985)。关于高斯白噪声中线性函数值的非参数估计。理论问题。申请。29 18-32. ·Zbl 0575.62076号 ·数字对象标识代码:10.1137/129002
[44] Ignatiadis,N.和Huber,W.(2017年)。协变量动力交叉加权多重测试。预印。可从arXiv:1701.05179获取。
[45] 于英格斯特(Yu Ingster)。I.和Suslina,I.A.(2012年)。高斯模型下的非参数拟合优度检验。统计学课堂讲稿169。纽约州施普林格·Zbl 1013.62049号
[46] Jiao,J.、Han,Y.和Weissman,T.(2016)。(L_1)距离的Minimax估计。2016年IEEE信息理论国际研讨会(ISIT)750-754。
[47] Jin,J.(2008)。非零正态均值的比例:通用预言等价和一致一致估计。J.R.Stat.Soc.系列。B.统计方法。70 461-493. ·Zbl 05563355号 ·文件编号:10.1111/j.1467-9868.2007.00645.x
[48] Jin,J.和Cai,T.T.(2007)。在大规模多重比较中估计零效应和非零效应的比例。J.艾默。统计师。协会102 495-506·Zbl 1172.62319号 ·doi:10.19198/0162114507000000167
[49] Juditsky,A.和Nemirovski,A.(2002年)。关于正性/单调性/凸性的非参数检验。安。统计师。30 498-527. ·Zbl 1012.62048号 ·doi:10.1214/aos/1021379863
[50] Jurecková,J.、Sen,P.K.和Picek,J.(2012)。稳健与非参数统计方法。佛罗里达州博卡拉顿CRC出版社·Zbl 1281.62127号
[51] Korn,E.L.、Troendle,J.F.、McShane,L.M.和Simon,R.(2004)。控制错误发现的数量:应用于高维基因组数据。J.统计。计划。推论124 379-398·Zbl 1074.62070号 ·doi:10.1016/S0378-3758(03)00211-8
[52] Lacour,C.和Massart,P.(2016年)。Goldenshluger-Lepski方法的最小惩罚。随机过程。申请。126 3774-3789. ·Zbl 1348.62124号 ·doi:10.1016/j.spa.2016.04.015
[53] Lancaster,T.(2000)。1948年以来的附带参数问题。《计量经济学杂志》95 391-413·Zbl 0967.62099号 ·doi:10.1016/S0304-4076(99)00044-5
[54] Leek,J.T.和Storey,J.D.(2008)。多重测试依赖性的通用框架。程序。国家。阿卡德。科学。美国105 18718-18723·Zbl 1359.62202号 ·doi:10.1073/pnas.0808709105
[55] Lepski,O.、Nemirovski,A.和Spokoiny,V.(1999年)。关于回归函数的(L_r)范数的估计。普罗巴伯。理论相关领域113 221-253·Zbl 0921.62103号 ·doi:10.1007/s004409970006
[56] Lepskii,O.V.(1990年)。高斯白噪声中的自适应估计问题。特奥。维罗亚特。Primen公司。35 459-470. ·Zbl 0725.62075号
[57] Li,A.和Barber,R.F.(2019年)。使用结构自适应Benjamini-Hochberg算法进行多次测试。J.R.Stat.Soc.系列。B.统计方法。81 45-74. ·Zbl 1407.62284号 ·doi:10.1111/rssb.12298
[58] Neyman,J.和Scott,E.L.(1948年)。基于部分一致观察结果的一致估计。计量经济学16 1-32·Zbl 0034.07602号 ·doi:10.2307/1914288
[59] Rabinovich,M.、Ramdas,A.、Jordan,M.I.和Wainwright,M.J.(2020年)。多重测试中的最佳速率和权衡。统计师。中国。30 741-762. ·Zbl 1439.62175号
[60] Romano,J.P.、Shaikh,A.M.和Wolf,M.(2008)。使用引导和子采样控制依赖性下的错误发现率。测试17 417-442·Zbl 1367.62233号 ·doi:10.1007/s11749-008-0126-6
[61] Romano,J.P.和Wolf,M.(2005)。多假设检验的精确和近似逐步下降法。J.艾默。统计师。协会100 94-108·Zbl 1117.62416号 ·doi:10.1198/016214500000539
[62] Romano,J.P.和Wolf,M.(2007)。多重测试中广义错误率的控制。安。统计师。35 1378-1408. ·Zbl 1127.62063号 ·doi:10.1214/009053600000001622
[63] Roquain,E.和van de Wiel,M.A.(2009年)。错误发现率控制的最佳加权。电子。《美国联邦法律大全》第3卷第678-711页·Zbl 1326.62164号 ·doi:10.1214/09-EJS430
[64] Sarkar,S.K.(2008)。再次陈述:关于控制错误发现率的方法[MR2551809;MR2551810;MR255811]。Sankhyā70,183-185年·Zbl 1193.62102号
[65] Spokoiny,V.G.(1996)。使用小波的自适应假设检验。安。统计师。24 2477-2498. ·Zbl 0898.62056号 ·doi:10.1214/aos/1032181163
[66] Verzelen,N.(2012年)。稀疏回归的极大极小风险:超高维现象。电子。《美国联邦法律大全》第6卷第38-90页·Zbl 1334.62120号 ·doi:10.1214/12-EJS666
[67] Westfall,P.H.和Young,S.S.(1993年)。基于重采样的多重测试:(P)值调整的示例和方法。纽约威利·Zbl 0850.62368号
[68] 吴,Y·Zbl 1418.62127号 ·doi:10.1214/17-AOS1665
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。