×

TFisher:一个强大的截断和加权过程,用于组合\(p\)-值。 (英语) Zbl 1439.62259号

摘要:(p)值组合方法是检验全局假设的一种重要统计策略,在信号检测、元分析、数据集成等方面有着广泛的应用。本文将经典的Fisher组合方法扩展到一个统一的统计量家族,称为TFisher,这允许输入\(p\)值的一般截断和加权方案。TFisher可以显著提高检测稀有和密集“信号”的Fisher方法和相关的仅截断方法的统计能力。为了解决广泛的应用,在零假设和替代假设中的任意两个连续分布下,推导了TFisher大小和功率的分析计算。还提供了相应的综合测试(oTFisher)及其大小计算,用于数据自适应分析。我们基于Bahadur效率(BE)研究了截断和加权的渐近最优参数。为了更好地反映统计数据在实际数据分析中的性能,还提出了一种新的渐近度量,称为渐近功率效率(APE)。有趣的是,在信号检测问题的高斯混合模型下,BE和APE都表明软阈值方案是最佳的,截断和加权参数应该相等。通过对各种信号模式的模拟,我们系统地比较了TFisher家族中的统计能力以及一些罕见的最优测试。我们说明了TFisher在外显子序列分析中的应用,以检测肌萎缩侧索硬化症的新基因。相关计算已在R包中实现T过滤器发布在综合R档案网络上,以满足应用需求。

MSC公司:

62兰特 大数据和数据科学的统计方面
62G10型 非参数假设检验
第60页 统计学在工程和工业中的应用;控制图
60G35型 信号检测和滤波(随机过程方面)
94甲12 信号理论(表征、重建、滤波等)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abramovich,F.、Benjamini,Y.、Donoho,D.L.和Johnstone,I.M.(2006)。通过控制错误发现率来适应未知稀疏性。安。统计师。34 584-653. ·Zbl 1092.62005年 ·doi:10.1214/00905360000000074
[2] Abu Dayyeh,W.A.、Al Momani,M.A.和Muttlak,H.A.(2003年)。结合正态分布和逻辑分布独立测试的精确巴哈杜尔斜率。申请。数学。计算。135 345-360. ·Zbl 1016.62049号 ·doi:10.1016/S0096-3003(01)00336-8
[3] Andrés-Benito,P.、Moreno,J.、Aso,E.、Povedano,M.和Ferrer,I.(2017)。肌萎缩性侧索硬化,脊髓前角和额叶皮质区域8的基因失调:额颞叶退行性变的意义。年龄9 823-851。
[4] Arias Castro,E.、Candès,E.J.和Plan,Y.(2011年)。稀疏替代方案下的全球测试:方差分析、多重比较和较高的批评。安。统计师。39 2533-2556. ·Zbl 1231.62136号 ·doi:10.1214/11-AOS910
[5] Ayers,K.L.、Mirshahi,U.L.,Wardeh,A.H.、Murray,M.F.、Hao,K.、Glicksberg,B.S.、Li,S.、Carey,D.J.和Chen,R.(2016)。在纯合子APOE(varepsilon 4)等位基因携带者中,CASP7中的功能缺失变体可预防阿尔茨海默病。BMC基因组学17 445。
[6] Azzalini,A.(1985)。包含正态分布的一类分布。扫描。《美国联邦法律大全》第12卷第171-178页·Zbl 0581.62014号
[7] Bahadur,R.R.(1960年)。测试的随机比较。安。数学。《美国联邦法律大全》第31卷第276-295页·兹比尔0201.52203 ·doi:10.1214/aoms/1177705894
[8] Barnett,I.J.和Lin,X.(2014)。有限(d)问题中更高批评检验的分析(p)值计算。生物特征101 964-970·Zbl 1306.62219号
[9] Biernacka,J.M.、Jenkins,G.D.、Wang,L.、Moyer,A.M.和Fridley,B.L.(2012)。使用伽马方法对SNP数据进行独立的基因集分析。《欧洲遗传学杂志》。20 565-571.
[10] Bonifati,V.(2006年)。帕金森病:LRRK2-G2019S突变:开启帕金森病遗传学的新时代。《欧洲遗传学杂志》。14 1061-1062.
[11] Bruce,A.G.和Gao,H.Y.(1996)。了解WaveShrink:方差和偏差估计。生物特征83 727-745·兹比尔0883.62038 ·doi:10.1093/biomet/83.4.727
[12] Cai,T.T.和Wu,Y.(2014)。针对给定零分布的稀疏混合的最佳检测。IEEE传输。通知。理论60 2217-2232·Zbl 1360.94108号 ·doi:10.1109/TIT.2014.2304295
[13] Carter,B.J.、Anklesaria,P.、Choi,S.和Engelhardt,J.F.(2009)。肌萎缩侧索硬化症中的氧化还原修饰基因和途径。抗氧化剂。氧化还原信号。11 1569-1586.
[14] Casella,G.和Berger,R.L.(2002年)。《统计推断》,第二版,达克斯伯里,加利福尼亚州太平洋格罗夫·Zbl 0699.62001号
[15] Cevikbas,F.、Wang,X.、Akiyama,T.、Kempkes,C.、Savinko,T.,Antal,A.、Kukova,G.、Buhl,T..、Ikoma,A.等人(2014年)。感觉神经元表达的IL-31受体介导T辅助细胞依赖性瘙痒:TRPV1和TRPA1的参与。过敏临床杂志。免疫学。133 448-460.
[16] Chapman,D.L.和Papaioannou,V.E.(1998年)。T盒基因Tbx6突变的小鼠胚胎中的三个神经管。自然391 695-697。
[17] Chen,C.-W.和Yang,H.-C.(2017)。OPAT:综合(P)值关联测试。简介。生物信息。20 1-14。
[18] Cox,L.E.,Ferraiuolo,L.,Goodall,E.F.,Heath,P.R.,Higginbottom,A.,Mortiboys,H.,Hollinger,H.C.,Hartley,J.A.,Brockington,A.等人(2010年)。低运动神经元为主的肌萎缩侧索硬化症(ALS)CHMP2B突变。公共科学图书馆ONE 5 e9872。
[19] Dai,H.、Leeder,J.S.和Cui,Y.(2014)。组合相依检验概率的修正广义Fisher方法。前面。遗传学。5 32.
[20] Daniels,H.E.(1954年)。统计学中的鞍点近似。安。数学。统计数字25 631-650·Zbl 0058.35404号 ·doi:10.1214/aoms/1177728652
[21] DasGupta,A.(2008)。统计学和概率的渐近理论。统计中的斯普林格文本。纽约州施普林格·Zbl 1154.62001年
[22] de Oliveira,G.P.、Maximino,J.R.、Maschietto,M.、Zanoteli,E.、Puga,R.D.、Lima,L.、Carraro,D.M.和Chadi,G.(2014)。SOD1G93A肌萎缩侧索硬化动物模型骨骼肌早期基因表达变化。细胞。摩尔神经生物学。34 451-462.
[23] Donoho,D.L.(1995)。通过软阈值去噪。IEEE传输。通知。理论41 613-627·Zbl 0820.62002号 ·doi:10.1109/18.382009年
[24] Donoho,D.和Jin,J.(2004)。对检测稀疏非均匀混合物的批评更高。安。统计师。32 962-994·Zbl 1092.62051号 ·doi:10.1214/009053604000000265
[25] Donoho,D.L.和Johnstone,I.M.(1994年)。通过小波收缩实现理想的空间自适应。生物特征81 425-455·Zbl 0815.62019号 ·doi:10.1093/biomet/81.3.425
[26] Dudbridge,F.和Koeleman,B.P.C.(2003)。对P值的截断乘积进行排序,并应用于全基因组关联扫描。遗传学。流行病。25 360-366.
[27] Duerr,R.H.、Taylor,K.D.、Brant,S.R.、Rioux,J.D.、Silverberg,M.S.、Daly,M.J.、Steinhart,A.H.、Abraham,C.、Regueiro,M.等人(2006年)。一项全基因组关联研究确定IL23R为炎症性肠病基因。科学。信号。314 1461.
[28] Fanning,S.、Xu,W.、Beaureaire,C.、Suhan,J.P.、Nantel,A.和Mitchell,A.P.(2012)。催化蛋白激酶A亚单位Tpk1对白色念珠菌细胞壁的功能控制。摩尔微生物。86 284-302.
[29] Fisher,R.A.(1932年)。研究人员的统计方法。奥利弗和博伊德,爱丁堡。
[30] Genz,A.(1992年)。多元正态概率的数值计算。J.计算。图表。统计师。1 141-149.
[31] 很好,I.J.(1955)。在显著性检验的wieghted组合中。J.罗伊。统计师。Soc.序列号。乙17 264-265·Zbl 0067.11802号 ·doi:10.1111/j.2517-6161.195.tb00201.x
[32] 郭,S.,Li,Z.-Z.,龚,J.,Xiang,M.,Zhang,P.,Zhao,G.-N.,Li(M.),Zheng,A.,Zhu,X.等人(2015)。Oncostatin M对缺血性中风具有神经保护作用。《神经科学杂志》。35 12047-12062.
[33] Hoh,J.、Wille,A.和Ott,J.(2001年)。人类病例对照关联研究中SNP的剪裁、加权和分组。基因组研究11 2115-2119。
[34] Ingster,Y.I.(2002)。尺寸增长信号的自适应检测。二、。数学。方法统计。11 37-68. ·Zbl 1005.62052号
[35] Ingster,Y.I.、Tsybakov,A.B.和Verzelen,N.(2010年)。稀疏回归中的检测边界。电子。《美国联邦法律大全》第4卷第1476-1526页·Zbl 1329.62314号 ·doi:10.1214/10-EJS589
[36] Kuo,C.-L.和Zaykin,D.V.(2011年)。全基因组关联研究中基于等级的发现和复制新方法。遗传学189 329-340。
[37] Lee,S.、Emond,M.J.、Bamshad,M.J、Barnes,K.C.、Rieder,M.J.、Nickerson,D.A.、Christiani,D.C.、Wurfel,M.M.和Lin,X.(2012)。应用于小样本病例对照全基因组测序研究的稀有变量关联检测的最佳统一方法。Am.J.Hum.Genet。91 224-237.
[38] Li,J.和Tseng,G.C.(2011年)。当结合多个转录组研究时,用于检测差异基因表达的自适应加权统计。附录申请。统计数字5 994-1019·兹比尔1454.62350 ·doi:10.1214/10-AOAS393
[39] Lin,X.、Lee,S.、Wu,M.C.、Wang,C.、Chen,H.、Li,Z.和Lin,X(2016)。测序关联研究中通过环境相互作用测试罕见变异。生物统计学72 156-164·Zbl 1393.62124号 ·doi:10.1111/biom.12368
[40] Littell,R.C.和Folks,J.L.(1971)。Fisher组合独立测试方法的渐近最优性。J.Amer。统计师。协会66 802-806·Zbl 0229.62011号 ·doi:10.1080/01621459.1971.10482347
[41] Littell,R.C.和Folks,J.L.(1973)。Fisher组合独立测试方法的渐近最优性。二、。J.Amer。统计师。协会68 193-194·Zbl 0259.62022号 ·doi:10.1080/01621459.1973.10481362
[42] Lugannani,R.和Rice,S.(1980年)。独立随机变量和分布的鞍点近似。申请中的预付款。普罗巴伯。12 475-490. ·Zbl 0425.60042号 ·doi:10.2307/1426607
[43] McCullagh,P.和Nelder,J.A.(1989)。广义线性模型,第二版,统计学和应用概率专著。CRC出版社,伦敦·Zbl 0744.62098号
[44] Morahan,J.M.、Yu,B.、Trent,R.J.和Pamphlett,R.(2009年)。脑DNA甲基化全基因组分析确定了散发性肌萎缩侧索硬化症的新候选基因。肌营养不良。侧向Scler。10 418-429.
[45] Nadarajah,S.(2005年)。广义正态分布。J.应用。统计数字32 685-694·Zbl 1121.62447号 ·网址:10.1080/02664760500079464
[46] Nikitin,Y.(1995年)。非参数检验的渐近效率。剑桥大学出版社,剑桥·Zbl 0879.62045号
[47] Schaid,D.J.、Rowland,C.M.、Tines,D.E.、Jacobson,R.M.和Poland,G.A.(2002年)。连锁阶段不明确时,性状和单倍型之间关联的得分测试。Am.J.Hum.Genet。70 425-434.
[48] Smith,B.N.、Ticozzi,N.、Fallini,C.、Gkazi,A.S.、Topp,S.、Kenna,K.P.、Scotter,E.L.、Kost,J.、Keagle,P.等人(2014年)。外显子罕见变异分析确定与家族性ALS相关的TUBA4A突变。神经元84 324-331。
[49] Song,C.和Tseng,G.C.(2014)。稳健基因组荟萃分析的假设设置和顺序统计。附录申请。统计数字8 777-800·Zbl 1454.62402号 ·doi:10.1214/13-AOAS683
[50] Stouffer,S.A.、Suchman,E.A.、DeVinney,L.C.、Star,S.A和Williams,R.M.(1949)。《美国士兵:军队生活中的调整》I.普林斯顿大学出版社,新泽西州普林斯顿。
[51] Su,Y.C.,Gauderman,W.J.,Berhane,K.和Lewinger,J.P.(2016)。关联测试的自适应集方法。遗传学。流行病。40 113-122.
[52] Szklarczyk,D.,Franceschini,A.,Wyder,S.,Forslund,K.,Heller,D.,Huerta-Cepas,J.,Simonovic,M.,Roth,A.,Santos,A.等人(2014)。STRING v10:蛋白质-蛋白质相互作用网络,整合在生命树上。核酸研究43 D447-D452。
[53] Pandya,S.、Mao,L.L.、Zhou,E.W.、Bowser,R.、Zhu,Z.、Zhu.,Y.和Wang,X.(2012)。肌萎缩侧索硬化症的神经保护:干细胞、生长因子和基因治疗的作用。美分。神经。系统。代理人。医药化学。12 15-27.
[54] Varanasi,M.K.和Aahang,B.(1989年)。参数广义高斯密度估计。J.声学。美国索契州,邮编:86 1404-1415。
[55] Whitlock,M.C.(2005)。结合独立测试的概率:加权Z方法优于Fisher方法。J.进化。生物学18 1368-1373。
[56] Wu,M.C.、Lee,S.、Cai,T.、Li,Y.、Boehnke,M.和Lin,X.(2011)。利用序列核关联测试对测序数据进行Rare-variant关联测试。Am.J.Hum.Genet。89 82-93.
[57] Wu,Z.、Sun,Y.、He,S.、Cho,J.、Zhao,H.和Jin,J.(2014)。罕见和微弱遗传效应的检测边界和更高的批评方法。附录申请。统计数字8 824-851·Zbl 1454.62420号 ·doi:10.1214/14-AOAS724
[58] Yu,K.,Li,Q.,Bergen,A.W.,Pfeiffer,R.M.,Rosenberg,P.S.,Caporaso,N.,Kraft,P.和Chatterjee,N.(2009年)。通过\(P\)值的自适应组合进行路径分析。遗传学。流行病。33 700-709.
[59] Zaykin,D.V.、Zhivotovsky,L.A.、Westfall,P.H.和Weir,B.S.(2002)。组合P值的截断乘积法。遗传学。流行病。22 170-185.
[60] Zaykin,D.V.、Zhivotovsky,L.A.、Czika,W.、Shao,S.和Wolfinger,R.D.(2007)。在大规模基因组学实验中结合p值。药学统计6 217-226。
[61] Zhang,J.和Huang,E.J.(2006)。神经营养因子受体在出生后脊髓运动神经元和ALS小鼠模型中的动态表达。《神经生物学杂志》。66 882-895.
[62] Zhang,H.,Tong,T.,Landers,J.E.和Wu,Z.(2020年)。对“TFisher:组合(p)值的截断和加权过程”的补充https://doi.org/10.1214/19-AOAS1302SUPP。 ·Zbl 1439.62259号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。