雅各布·M·绍尔。;凯特琳·G·菲茨杰拉德。;佩科·斯皮克(Sarah Peko-Spicer);梅纳·C·R·沃伦。;瑞塔·泽努拉希;赫奇斯,拉里·V。 复制失败聚合模式的统计方法评估。 (英语) Zbl 1475.62265号 Ann.应用。斯达。 15,第1号,208-229(2021). 摘要:一些研究项目试图评估不同领域(包括经济学和心理学)科学发现的可复制性。这些项目试图复制几个发现,并用这些结果来说明某一领域大规模的可复制性模式。然而,很少有人去理解用于实现这一目的的分析方法,包括它们正在评估什么以及它们的统计特性是什么。本文研究了用于研究社会科学中可复制性模式的几种方法。我们具体描述了每种方法如何操作“复制”的概念,并检查了各种统计特性,包括偏差、精度和统计能力。我们发现,一些分析方法依赖于复制的操作定义,这可能会产生误导。其他方法涉及到对复制的更合理定义,但大多数方法都有局限性,例如偏差大、不确定性大或功耗低。研究结果表明,我们应该谨慎解读此类分析的结果,研究更准确的方法可能对未来的复制研究工作有用。 MSC公司: 62页第10页 统计学在生物学和医学中的应用;元分析 62A01型 统计学基础和哲学主题 关键词:荟萃分析;复制;偏置功率 软件:佐维 PDF格式BibTeX公司 XML格式引用 \textit{J.M.Schauer}等人,Ann.Appl。Stat.15,No.1,208--229(2021;Zbl 1475.62265) 全文: 内政部 参考文献: [1] Bahadur,R.R.(1960年)。测试的随机比较。安。数学。斯达。31 276-295. ·Zbl 0201.52203号 ·doi:10.1214/aoms/1177705894 [2] Bishara,A.J.和Hittner,J.B.(2015)。减少因非正态性导致的相关系数偏差和误差。教育。精神病。测量。75 785-804. ·doi:10.177/013164414557639 [3] Bollen,K.、Cacioppo,J.T.、Kaplan,R.M.、Krosnick,J.A.和Olds,J.L.(2015)。社会、行为和经济科学中的再现性、可复制性和泛化。科学咨询委员会可复制性小组委员会向国家科学基金会社会、行为和经济科学理事会提交的报告。弗吉尼亚州阿灵顿国家科学基金会。 [4] Borenstein,M.、Hedges,L.V.、Higgins,J.P.T.和Rothstein,H.R.(2009)。元分析导论牛津大学威利-布拉克韦尔分校·Zbl 1178.62001号 [5] Brandt,M.J.、IJzerman,H.、Dijksterhuis,A.、Farach,F.J.、Geller,J.、Giner-Solla,R.、Grange,J.A.、Perugini,M.、Spies,J.R.等人(2014年)。复制食谱:如何进行令人信服的复制?心理实验学会。50 217-224. [6] Camerer,C.F.,Dreber,A.,Forsell,E.,Ho,T.-H.,Hüber,J.,Johannesson,M.,Kirchler,M.、Almenberg,J.、Altmejd,A.等人(2016年)。评估经济学实验室实验的可复制性。科学351 1433-1436. [7] Camerer,C.F.,Dreber,A.,Holzmeister,F.,Ho,T.-H.,Hüber,J.,Johannesson,M.,Kirchler,N.G.,Nosek,B.A.等人(2018年)。评估2010年至2015年间自然和科学社会科学实验的可复制性。Nat.Hum.行为。2 637-644. [8] 库珀·H·M(2011)。心理学报告研究以下为:如何满足期刊文章报道标准APA Books,华盛顿特区。 [9] Cooper,H.M.、Hedges,L.V.和Valentine,J.(2009)。研究综合与荟萃分析手册第二版,罗素·塞奇基金会,纽约。 [10] Cumming,G.、Fidler,F.、Kalinowski,P.和Lai,J.(2012)。美国心理协会出版手册的统计建议:效应大小、置信区间和荟萃分析。澳大利亚。《心理学杂志》。64 138-146. [11] DerSimonian,R.和Laird,N.M.(1986年)。临床试验的荟萃分析。控制。临床。试验7 [12] Diaz-Frances,E.和Rubio,F.J.(2013)。关于两个独立正态随机变量之比分布的正态近似的存在性。统计师。论文54 309-323. ·Zbl 1364.62039号 ·文件编号:10.1007/s00362-012-0429-2 [13] Etz,A.和Vandekerckhove,J.(2016)。再现性项目的贝叶斯视角:心理学。公共科学图书馆11电子0149794·doi:10.1371/journal.pone.0149794 [14] Fieller,E.C.(1932年)。指数在二元正态分布中的分布。生物特征24 3-4. ·Zbl 0006.02103号 ·doi:10.1093/biomet/24.3-4.428 [15] Fisher,R.A.(1915年)。无限大总体样本中相关系数值的频率分布。生物特征10 507-521. [16] 费舍尔,R.A.(1921)。关于从小样本推导出的相关系数的“可能误差”。Metron公司1 3-32. [17] Garren,S.T.(1998)。具有缺失数据的二元正态模型中相关系数的最大似然估计。统计师。普罗巴伯。莱特。38 281-288. ·Zbl 0903.62054号 ·doi:10.1016/S0167-7152(98)00035-2 [18] Geary,R.C.(1930)。两个正态变量商的频率分布。J.R.统计社会。93 442-446. ·合同格式56.1094.01 ·doi:10.2307/2342070 [19] Gilbert,D.T.、King,G.、Pettigrew,S.和Wilson,T.D.(2016)。评“心理科学再现性的评估”。科学351 1037-1037. [20] Gleser,L.J.和Olkin,I.(1994)。随机相关效应大小。研究综合手册H.Cooper&L.V.Hedges(编辑)。Russell Sage基金会339-355。 [21] Hartgerink,C.H.J.、Wicherts,J.M.和van Assen,M.A.L.M.(2017)。好到不能错:重温了无意义的结果。讨论组以下为:心理学3 9. [22] Hayya,J.、Armstrong,D.和Gressis,N.(1975年)。关于两个正态分布变量之比的注记。管理。科学。21 1338-1341·Zbl 0309.62011号 ·doi:10.1287/mnsc.211.1338 [23] Hedges,L.V.和Olkin,I.(1985)。荟萃分析的统计方法学术出版社,佛罗里达州奥兰多·Zbl 0666.6202号 [24] Hedges,L.V.和Pigott,T.D.(2001)。荟萃分析中统计检验的力量。精神病。方法6 203-217. ·数字对象标识代码:10.1037/1082-989x.6.3.203 [25] Hedges,L.V.和Schauer,J.M.(2019a)。为了进行明确的复制测试,需要进行多个复制研究。J.教育。行为。斯达。44 543-570. [26] Hedges,L.V.和Schauer,J.M.(2019b)。研究复制的统计分析:元分析视角。精神病。方法24 557-570. [27] Hedges,L.V.和Vevea,J.L.(1998)。元分析中的固定和随机效应模型。精神病。方法3 486-504. ·doi:10.1037/1082-989X.3.4.486 [28] Hsueh,H.-M.,Chen,J.J.和Kodell,R.L.(2003)。多重性检验中估计真零假设数量的方法比较。生物制药杂志。统计师。13 675-689. ·Zbl 1197.62095号 [29] Hung,H.M.J.、O'Neill,R.T.、Bauer,P.和Köhne,K.(1997)。当替代假设成立时,\(P\)-值的行为。生物计量学53 11-22. ·Zbl 0876.62015号 ·doi:10.2307/2533093 [30] Kalaian,H.K.和Raudenbush,S.W.(1986年)。用于荟萃分析的多元混合线性模型。精神病。方法1 227-235. ·doi:10.1037/1082-989X.1.3.227 [31] Klein,R.A.、Ratliff,K.A.、Vianello,M.、Adams,R.B.、BanhíK,Š.、。,Bernstein,M.J.、Bocian,K.、Brandt,M.J、Brooks,B.等人(2014年)。研究可复制性的变化:一个“多实验室”复制项目。Soc.精神科。45 142-152·doi:10.1027/1864-9335/a000178 [32] Klein,R.A.、Vianello,M.、Hasselman,F.、Adams,B.G.、Adam,R.B.、Alper,S.等人(2018年)。许多实验室2:调查样本和环境中可复制性的变化。高级方法实践。精神病。科学。1 443-490. [33] Klein,R.A.、Cook,C.L.、Ebersole,C.R.、Vitiello,C.A.、Nosek,B.A.、Chartier,C.R..、Christopherson,C.D.等人(2019年)。许多实验室4:在有或无原始作者参与的情况下,未能复制死亡率显著性效应。可在https://psyarxiv.com/vef2c。 [34] Lambert,D.和Hall,W.J.(1982年)。(P\)值的渐近对数正态性。安。统计师。10 44-64. ·兹伯利04846.2038 [35] Marsaglia,G.(2006)。正态变量的比率。J.统计软件。16 1-10. ·doi:10.18637/jss.v016.2004 [36] Maxwell,S.E.(2004)。心理学研究中持续存在的动力不足的研究:原因、后果和补救措施。精神病。方法9 147-163. [37] Muchinsky,P.M.(1996)。衰减校正。教育。精神病。测量。56 63-75. [38] Olkin,I.和Pratt,J.W.(1958年)。某些相关系数的无偏估计。安。数学。斯达。29 201-211. ·Zbl 0094.14403号 ·doi:10.1214/aoms/1177706717 [39] 开放科学合作(2015)。评估心理科学的再现性。科学349 aac4716。 [40] Patil,P.、Peng,R.D.和Leek,J.T.(2016)。研究人员在重复研究时应该期望什么?心理学中可复制性的统计观点。透视。精神病。科学。11 539-544. ·doi:10.1177/1745691616646366 [41] Riley,R.D.、Higgins,J.P.T.和Deeks,J.J.(2011)。随机效应荟萃分析的解释。BMJ公司342.第549页。 [42] Schauer,J.M.(2018)。《评估复制的统计方法:元分析框架》,伊利诺伊州埃文斯顿西北大学博士论文。 [43] Schauer,J.M.、Fitzgerald,K.G.、Peko-Spicer,S.、Whalen,M.C.R.、Zejnullahi,R.和Hedges,L.V.(2021年)。补充“复制失败聚合模式统计方法评估”https://doi.org/10.1214/20-AOAS1387SUPP网站 [44] Schweinsberg,M.、Madan,N.、Vianello,M.,Sommer,S.A.、Jordan,J.、Tierney,W.、Awtrey,E.、Zhu,L.L.、Diermeier,D.等人(2016)。管道项目:对单个实验室的研究管道进行独立的预发布复制。心理学实验杂志。66 55-67. [45] Shapin,S和Schaffer,S(1985)。利维坦和空气泵以下为:霍布斯、波义耳和实验生活普林斯顿大学出版社,新泽西州普林斯顿。 [46] Simonsohn,U.(2015)。小型望远镜:可探测性和复制结果评估。精神病。科学。26 559-569. [47] 斯皮尔曼,C.(1904)。两个事物之间联系的证明和测量。美国心理学杂志。15 72-101. [48] 斯皮尔曼(1910)。根据错误数据计算的相关性。英国心理学杂志。3 271-295。 [49] Storey,J.D.(2002)。错误发现率的直接方法。J.R.统计社会服务。B.统计方法。64 479-498. ·Zbl 1090.62073号 ·doi:10.1111/1467-9868.00346 [50] Tamhane,A.C.和Shi,J.(2009)。估计真零假设比例的参数混合模型和FDR的自适应控制。在最优化.数理统计研究所讲稿——专题丛书57 304-325. 俄亥俄州比奇伍德IMS·Zbl 1271.62034号 ·doi:10.1214/09-LNMS5718 [51] Valentine,J.C.、Biglan,A.、Boruch,R.F.、Castro,F.G.、Collins,L.M.、Flay,B.R.、Kellam,S.、Mościcki,E.K.和Schinke,S.P.(2011年)。预防科学中的复制。上一页。科学。12 103-117. [52] van Aert,R.C.M.和van Assen,M.A.L.M.(2017)。复制原始研究后对影响大小的贝叶斯评估。公共科学图书馆12 e0175302。 [53] Vankov,I.、Bowers,J.和Munafó,M.R.(2014)。论心理学低权力的持续存在。Q.J.实验心理学。67 1037-1040. [54] Veroniki,A.A.,Jackson,D.,Viechtbauer,W.,Bender,R.,Bowden,J.,Knapp,G.,Kuss,O.,Higgins,J.P.T.,Langan,D.等人(2016年)。方法在荟萃分析中估计研究间方差及其不确定性。Res.合成。方法7 55-79. [55] Wasserstein,R.L.和Lazar,N.A.(2016年)。ASA关于价值观的声明:背景、过程和目的【编辑】。阿默尔。统计师。70 129-133. ·Zbl 07665862号 ·doi:10.1080/00031305.2016.1154108 [56] Wood,P.和Randall,D.(2018年)。政府的科学水平有多差?华尔街J。可在https://www.wsj.com/articles/how-bad-is-the-governments-science-1523915765。 [57] Yong,E.(2016)。糟糕的科学不可避免的演变。大西洋。网址:https://www.thearelantic.com/science/archive/2016/09/the-inevitable-evolution-of-bad-science/500609/ 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。