×

使用诱饵排列的无零错误发现率控制。 (英语) Zbl 1493.62220号

摘要:在多假设检验中,传统的错误发现率(FDR)控制方法通常基于检验统计量的零分布。然而,所有类型的零分布,包括理论的、基于排列的和经验的,都有一些固有的缺陷。例如,由于对样本分布的错误假设,理论零可能会失败。在这里,我们提出了一种无零分布的FDR控制方法,用于病例对照研究中的多假设检验。这种方法命名为目标恢复程序,简单地建立在通过一些统计数据或分数对测试进行排序的基础上,不需要知道这些数据或分数的零分布。竞争诱饵测试是根据原始样本的排列构造的,用于估计假目标发现。我们证明了当分数函数是对称的且不同测试之间的分数是独立的时,该方法可以控制FDR。仿真表明,即使存在依赖关系,它也比两种流行的传统方法更稳定、更强大。还对两个真实数据集进行了评估,包括拟南芥基因组数据集和COVID-19蛋白质组数据集。

MSC公司:

62G10型 非参数假设检验
62H15型 多元分析中的假设检验
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿尔穆德瓦尔,A。;Klebanov,LB;邱,X。;Salzman,P。;Yakovlev,AY,相关测量在基因表达分析中的应用,NeuroRx,3384-395(2006)·doi:10.1016/j.nurx.2006.05.037
[2] 理发师,RF;Candès,E.J.,《通过仿冒品控制虚假发现率》,《统计年鉴》,第43期,2055-2085年(2015年)·Zbl 1327.62082号 ·doi:10.1214/15-OS1337
[3] 理发师,RF;坎迪斯,EJ,高维选择性推理的仿冒过滤器,《统计年鉴》,472504-2537(2019)·Zbl 1444.62034号 ·doi:10.1214/18-AOS1755
[4] 理发师,RF;坎迪斯,EJ;RJ Samworth,《带有仿冒品的稳健推断》,《统计年鉴》,481409-1431(2020)·Zbl 1452.62193号 ·doi:10.1214/19-AOS1852
[5] 巴苏,P。;蔡,TT;Das,K。;Sun,W.,大规模多重测试中的加权错误发现率控制,美国统计协会杂志,1131172-1183(2018)·Zbl 1402.62050 ·doi:10.1080/01621459.2017.1336443
[6] Y.本杰米尼。;Hochberg,Y.,《控制错误发现率:一种实用而强大的多重测试方法》,英国皇家统计学会期刊:B系列(方法论),57289-300(1995)·Zbl 0809.62014号
[7] Y.本杰米尼。;克里格,AM;Yekutieli,D.,控制错误发现率的自适应线性加速程序,Biometrika,93,491-507(2006)·兹比尔1108.62069 ·doi:10.1093/biomet/93.3.491
[8] Y.本杰米尼。;Yekutieli,D.,《依赖性下多重测试中错误发现率的控制》,《统计年鉴》,291165-1188(2001)·Zbl 1041.62061号 ·doi:10.1214/aos/1013699998
[9] 坎迪斯,E。;范,Y。;Janson,L。;Lv,J.,《淘金:高维受控变量选择的模型x仿制品》,《皇家统计学会杂志:B辑(统计方法)》,80,551-577(2018)·Zbl 1398.62335号 ·doi:10.1111/rssb.12265
[10] Chow,Y.S.,Teicher,H.概率论:独立性,互换性,鞅。施普林格科学与商业媒体,2012年·兹比尔0652.60001
[11] Y.Couté。;布鲁利,C。;Burger,T.,《超越目标经济竞争:基于质谱的发现蛋白质组学中肽和蛋白质鉴定的稳定验证》,分析化学,92,14898-14906(2020)·doi:10.1021/acs.analchem.0c00328
[12] 丹尼洛娃,Y。;沃伦科娃,A。;苏里莫夫,P。;Kertsz-Farkas,A.,基于质谱的肽鉴定中错误发现率估计的偏差,蛋白质组研究杂志,18,2354-2358(2019)·doi:10.1021/acs.jproteome.8b00991
[13] 迪兹,美联社;卡瓦加尔·罗德里格斯,A。;Skibinski,DO,《蛋白质组学中的多重假设测试:实验工作策略》,分子与细胞蛋白质组学,10,M110-004374(2011)·doi:10.1074/mcp。M10.004374号
[14] Efron,B.,《大尺度同步假设检验:无效假设的选择》,《美国统计协会杂志》,99,96-104(2004)·Zbl 1089.62502号 ·doi:10.1198/0162145000000089
[15] Efron,B.,《规模、权力和错误发现率》,《统计年鉴》,351351-1377(2007)·Zbl 1123.62008年
[16] Efron,B.,《微阵列、经验贝叶斯和两组模型》,《统计科学》,23,1-22(2008)·兹比尔1327.62046
[17] 大尺度推断:估计、测试和预测的经验贝叶斯方法。剑桥大学出版社,2012·Zbl 1256.62007年
[18] 埃夫隆,B。;Tibshirani,R.,微阵列的经验贝叶斯方法和错误发现率,遗传流行病学,23,70-86(2002)·doi:10.1002/epi.124
[19] 埃夫隆,B。;Tibshirani,R。;Storey,JD;Tusher,V.,微阵列实验的经验贝叶斯分析,美国统计协会杂志,961151-1160(2001)·Zbl 1073.62511号 ·doi:10.1198/016214501753382129
[20] 以利亚,JE;Gygi,SP,通过质谱法提高大规模蛋白质鉴定可信度的目标经济搜索策略,《自然方法》,4207-214(2007)·doi:10.1038/nmeth1019
[21] Emery,K.通过多重竞争控制FDR。悉尼大学博士论文,2020年·Zbl 1468.62278号
[22] Emery,K.、Hasam,S.、Noble,W.S.、Keich,U.基于多竞争的fdr控制及其在肽检测中的应用。国际计算分子生物学研究会议,54-71(2020)·Zbl 1498.92138号
[23] Emery,K.,Keich,U.通过多个仿冒品控制变量选择中的fdr。arXiv:1911.09442(2019)
[24] 范,Y。;Demirkaya,E。;李·G。;Lv,J.,Rank:具有图形非线性仿制品的大规模推理,《美国统计协会杂志》,115362-379(2020)·Zbl 1437.62699号 ·doi:10.1080/01621459.2018.1546589
[25] 范,Y。;吕杰。;谢里夫瓦赫菲,M。;Uematsu,Y.,Ipad:《利用仿冒推理进行稳定的可解释预测》,《美国统计协会杂志》,1151822-1834(2020)·Zbl 1452.62694号 ·doi:10.1080/01621459.2019.1654878
[26] Gimenez,JR;邹,J.,《提高仿冒程序的稳定性:多重同时仿冒和熵最大化》,《机器学习研究论文集》,89,2184-2192(2019)
[27] He,K.计算蛋白质组学中大规模肽鉴定的多假设检验方法。2013年中国科学院大学硕士论文
[28] He,K.,Fu,Y.,Zeng,W.,Luo,L.,Chi,H.,Liu,C.,Qing,L.、Sun,R.,He,S.蛋白质组学中错误发现率控制的目标经济搜索策略的理论基础。arXiv:1501.00537(2015)
[29] He,K.,Li,M.,Fu,Y.,Gong,F.,Sun,X.通过诱饵置换直接研究错误发现率。arXiv:1804.08222(2018)
[30] Keich,U。;田村,K。;Noble,WS,减少错误发现率目标经济估计值的可变性的平均策略,蛋白质组研究杂志,18585-593(2019)·doi:10.1021/acs.jproteome.8b00802
[31] Kerr,KF,《关于不平衡微阵列数据分析的评论》,生物信息学,252035-2041(2009)·doi:10.1093/bioinformatics/btp363
[32] Langaas先生。;林克维斯特,伯克希尔哈撒韦;Ferkingstad,E.,估算真零假设的比例,并应用于dna微阵列数据,《皇家统计学会杂志:B辑(统计方法)》,67,555-572(2005)·Zbl 1095.62037号 ·数字对象标识代码:10.1111/j.1467-9868.2005.00515.x
[33] Lee,C-W;Efetova,M。;JC恩格曼;Kramell,R。;Wasternack,C。;路德维希·穆勒,J。;Hedrich,R。;Deeken,R.,农杆菌通过调节拟南芥的病原体防御促进肿瘤诱导,《植物细胞》,21,2948-2962(2009)·doi:10.1105/tpc.108.064576
[34] Lei,L。;Fithian,W.,有序假设检验的力量,机器学习国际会议,482924-2932(2016)
[35] 李列维斯基;伊万诺夫,MV;Lobas,AA;Gorshkov,MV,基于目标经济方法的鸟枪蛋白质组学无偏错误发现率估计,蛋白质组研究杂志,16,393-397(2017)·doi:10.1021/acs.jproteome.6b00144
[36] 李,J。;Maathuis,MH,Ggm仿冒过滤器:高斯图形模型的错误发现率控制,皇家统计学会杂志:B辑(统计方法),83,534-558(2021)·Zbl 07555495号 ·doi:10.1111/rssb.12430
[37] Liu,W.,Ke,Y.,Liu,J.,Li,R.无模型特征筛选和具有仿冒特征的fdr控制。《美国统计协会杂志》,即将出版(2020年)
[38] 刘伟。;Shao,Q.,具有错误发现率控制的大规模t检验中的阶段转换和正则自举,《统计年鉴》,422003-2025(2014)·Zbl 1305.62213号 ·doi:10.1214/14-AOS1249
[39] 明绍森,N。;Rice,J.,估计大量独立测试假设中假零假设的比例,《统计年鉴》,34,373-393(2006)·Zbl 1091.62059号
[40] 罗曼诺,Y。;塞西亚,M。;Cands,E.,《深度仿制品》,《美国统计协会杂志》,1151861-1872(2020)·Zbl 1452.62710号 ·doi:10.1080/01621459.2019.1660174
[41] Sarkar,SK,关于逐步多重测试过程中错误发现率的一些结果,统计年鉴,30,239-257(2002)·Zbl 1101.62349号 ·doi:10.1214操作系统/1015362192
[42] 斯科特,JG;Berger,JO,《变量选择问题中的贝叶斯和经验贝叶斯多重性调整》,《统计年鉴》,382587-2619(2010)·Zbl 1200.62020年 ·doi:10.1214/10-AOS792
[43] 沈,B。;Yi,X。;孙,Y。;Bi,X。;Guo,T.,covid-19患者血清的蛋白质组和代谢组特征,Cell,182,59-72(2020)·doi:10.1016/j.cell.2020.05.032
[44] Storey,JD,《错误发现率的直接方法》,《皇家统计学会杂志:B辑(统计方法)》,64,479-498(2002)·Zbl 1090.62073号 ·doi:10.1111/1467-9868.00346
[45] Storey,JD,《正错误发现率:贝叶斯解释和q值》,《统计年鉴》,2013年第31期至2035年(2003年)·Zbl 1042.62026 ·doi:10.1214/aos/1074290335
[46] Storey,JD;JE泰勒;Siegmund,D.,《错误发现率的强控制、保守点估计和同时保守一致性:统一方法》,《皇家统计学会杂志:B辑(统计方法)》,66187-205(2004)·Zbl 1061.62110号 ·文件编号:10.1111/j.1467-9868.2004.00439.x
[47] Storey,京东;Tibshirani,R.,《全基因组研究的统计意义》,《国家科学院学报》,1009440-9445(2003)·Zbl 1130.62385号 ·doi:10.1073/pnas.1530509100
[48] Strimmer,K.,《错误发现率估计的统一方法》,BMC生物信息学,9,1-14(2008)·doi:10.1186/1471-2105-9-303
[49] Tan,Y-D;Xu,H.,《识别差异表达基因时准确估计错误发现率的通用方法》,生物信息学,2018-2025年第30期(2014年)·doi:10.1093/bioinformatics/btu124
[50] 图瑟,VG;Tibshirani,R。;Chu,G.,应用于电离辐射反应的微阵列显著性分析,国家科学院学报,98,5116-5121(2001)·2014年12月10日 ·doi:10.1073/pnas.091062498
[51] AC Vergunst;van Lier,MC;den Dulk-Ras,A。;Hooykaas,PJ,通过virb/d4转运系统识别根癌农杆菌病毒2易位信号不需要病毒1,《植物生理学》,133978-988(2003)·doi:10.1104/pp.103.029223
[52] 谢毅。;潘·W。;Khodursky,AB,关于使用基于排列的错误发现率估计来比较微阵列数据的不同分析方法的注释,生物信息学,214280-4288(2005)·doi:10.1093/bioinformatics/bti685
[53] Yu,C。;Zelterman,D.,一个使用p值分布从真零估计比例的参数模型,计算统计学和数据分析,114105-118(2017)·Zbl 1464.62192号 ·doi:10.1016/j.csda.2017.04.008
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。