×

复制失败聚合模式的统计方法评估。 (英语) Zbl 1475.62265号

摘要:一些研究项目试图评估不同领域(包括经济学和心理学)科学发现的可复制性。这些项目试图复制几个发现,并用这些结果来说明某一领域大规模的可复制性模式。然而,很少有人去理解用于实现这一目的的分析方法,包括它们正在评估什么以及它们的统计特性是什么。本文研究了用于研究社会科学中可复制性模式的几种方法。我们具体描述了每种方法如何操作“复制”的概念,并检查了各种统计特性,包括偏差、精度和统计能力。我们发现,一些分析方法依赖于复制的操作定义,这可能会产生误导。其他方法涉及到对复制的更合理定义,但大多数方法都有局限性,例如偏差大、不确定性大或功耗低。研究结果表明,我们应该谨慎解读此类分析的结果,研究更准确的方法可能对未来的复制研究工作有用。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62A01型 统计学基础和哲学主题

软件:

佐维
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bahadur,R.R.(1960年)。测试的随机比较。安。数学。斯达。31 276-295. ·Zbl 0201.52203号 ·doi:10.1214/aoms/1177705894
[2] Bishara,A.J.和Hittner,J.B.(2015)。减少因非正态性导致的相关系数偏差和误差。教育。精神病。测量。75 785-804. ·doi:10.177/013164414557639
[3] Bollen,K.、Cacioppo,J.T.、Kaplan,R.M.、Krosnick,J.A.和Olds,J.L.(2015)。社会、行为和经济科学中的再现性、可复制性和泛化。科学咨询委员会可复制性小组委员会向国家科学基金会社会、行为和经济科学理事会提交的报告。弗吉尼亚州阿灵顿国家科学基金会。
[4] Borenstein,M.、Hedges,L.V.、Higgins,J.P.T.和Rothstein,H.R.(2009)。元分析导论牛津大学威利-布拉克韦尔分校·Zbl 1178.62001号
[5] Brandt,M.J.、IJzerman,H.、Dijksterhuis,A.、Farach,F.J.、Geller,J.、Giner-Solla,R.、Grange,J.A.、Perugini,M.、Spies,J.R.等人(2014年)。复制食谱:如何进行令人信服的复制?心理实验学会。50 217-224.
[6] Camerer,C.F.,Dreber,A.,Forsell,E.,Ho,T.-H.,Hüber,J.,Johannesson,M.,Kirchler,M.、Almenberg,J.、Altmejd,A.等人(2016年)。评估经济学实验室实验的可复制性。科学351 1433-1436.
[7] Camerer,C.F.,Dreber,A.,Holzmeister,F.,Ho,T.-H.,Hüber,J.,Johannesson,M.,Kirchler,N.G.,Nosek,B.A.等人(2018年)。评估2010年至2015年间自然和科学社会科学实验的可复制性。Nat.Hum.行为。2 637-644.
[8] 库珀·H·M(2011)。心理学报告研究以下为:如何满足期刊文章报道标准APA Books,华盛顿特区。
[9] Cooper,H.M.、Hedges,L.V.和Valentine,J.(2009)。研究综合与荟萃分析手册第二版,罗素·塞奇基金会,纽约。
[10] Cumming,G.、Fidler,F.、Kalinowski,P.和Lai,J.(2012)。美国心理协会出版手册的统计建议:效应大小、置信区间和荟萃分析。澳大利亚。《心理学杂志》。64 138-146.
[11] DerSimonian,R.和Laird,N.M.(1986年)。临床试验的荟萃分析。控制。临床。试验7
[12] Diaz-Frances,E.和Rubio,F.J.(2013)。关于两个独立正态随机变量之比分布的正态近似的存在性。统计师。论文54 309-323. ·Zbl 1364.62039号 ·文件编号:10.1007/s00362-012-0429-2
[13] Etz,A.和Vandekerckhove,J.(2016)。再现性项目的贝叶斯视角:心理学。公共科学图书馆11电子0149794·doi:10.1371/journal.pone.0149794
[14] Fieller,E.C.(1932年)。指数在二元正态分布中的分布。生物特征24 3-4. ·Zbl 0006.02103号 ·doi:10.1093/biomet/24.3-4.428
[15] Fisher,R.A.(1915年)。无限大总体样本中相关系数值的频率分布。生物特征10 507-521.
[16] 费舍尔,R.A.(1921)。关于从小样本推导出的相关系数的“可能误差”。Metron公司1 3-32.
[17] Garren,S.T.(1998)。具有缺失数据的二元正态模型中相关系数的最大似然估计。统计师。普罗巴伯。莱特。38 281-288. ·Zbl 0903.62054号 ·doi:10.1016/S0167-7152(98)00035-2
[18] Geary,R.C.(1930)。两个正态变量商的频率分布。J.R.统计社会。93 442-446. ·合同格式56.1094.01 ·doi:10.2307/2342070
[19] Gilbert,D.T.、King,G.、Pettigrew,S.和Wilson,T.D.(2016)。评“心理科学再现性的评估”。科学351 1037-1037.
[20] Gleser,L.J.和Olkin,I.(1994)。随机相关效应大小。研究综合手册H.Cooper&L.V.Hedges(编辑)。Russell Sage基金会339-355。
[21] Hartgerink,C.H.J.、Wicherts,J.M.和van Assen,M.A.L.M.(2017)。好到不能错:重温了无意义的结果。讨论组以下为:心理学3 9.
[22] Hayya,J.、Armstrong,D.和Gressis,N.(1975年)。关于两个正态分布变量之比的注记。管理。科学。21 1338-1341·Zbl 0309.62011号 ·doi:10.1287/mnsc.211.1338
[23] Hedges,L.V.和Olkin,I.(1985)。荟萃分析的统计方法学术出版社,佛罗里达州奥兰多·Zbl 0666.6202号
[24] Hedges,L.V.和Pigott,T.D.(2001)。荟萃分析中统计检验的力量。精神病。方法6 203-217. ·数字对象标识代码:10.1037/1082-989x.6.3.203
[25] Hedges,L.V.和Schauer,J.M.(2019a)。为了进行明确的复制测试,需要进行多个复制研究。J.教育。行为。斯达。44 543-570.
[26] Hedges,L.V.和Schauer,J.M.(2019b)。研究复制的统计分析:元分析视角。精神病。方法24 557-570.
[27] Hedges,L.V.和Vevea,J.L.(1998)。元分析中的固定和随机效应模型。精神病。方法3 486-504. ·doi:10.1037/1082-989X.3.4.486
[28] Hsueh,H.-M.,Chen,J.J.和Kodell,R.L.(2003)。多重性检验中估计真零假设数量的方法比较。生物制药杂志。统计师。13 675-689. ·Zbl 1197.62095号
[29] Hung,H.M.J.、O'Neill,R.T.、Bauer,P.和Köhne,K.(1997)。当替代假设成立时,\(P\)-值的行为。生物计量学53 11-22. ·Zbl 0876.62015号 ·doi:10.2307/2533093
[30] Kalaian,H.K.和Raudenbush,S.W.(1986年)。用于荟萃分析的多元混合线性模型。精神病。方法1 227-235. ·doi:10.1037/1082-989X.1.3.227
[31] Klein,R.A.、Ratliff,K.A.、Vianello,M.、Adams,R.B.、BanhíK,Š.、。,Bernstein,M.J.、Bocian,K.、Brandt,M.J、Brooks,B.等人(2014年)。研究可复制性的变化:一个“多实验室”复制项目。Soc.精神科。45 142-152·doi:10.1027/1864-9335/a000178
[32] Klein,R.A.、Vianello,M.、Hasselman,F.、Adams,B.G.、Adam,R.B.、Alper,S.等人(2018年)。许多实验室2:调查样本和环境中可复制性的变化。高级方法实践。精神病。科学。1 443-490.
[33] Klein,R.A.、Cook,C.L.、Ebersole,C.R.、Vitiello,C.A.、Nosek,B.A.、Chartier,C.R..、Christopherson,C.D.等人(2019年)。许多实验室4:在有或无原始作者参与的情况下,未能复制死亡率显著性效应。可在https://psyarxiv.com/vef2c。
[34] Lambert,D.和Hall,W.J.(1982年)。(P\)值的渐近对数正态性。安。统计师。10 44-64. ·兹伯利04846.2038
[35] Marsaglia,G.(2006)。正态变量的比率。J.统计软件。16 1-10. ·doi:10.18637/jss.v016.2004
[36] Maxwell,S.E.(2004)。心理学研究中持续存在的动力不足的研究:原因、后果和补救措施。精神病。方法9 147-163.
[37] Muchinsky,P.M.(1996)。衰减校正。教育。精神病。测量。56 63-75.
[38] Olkin,I.和Pratt,J.W.(1958年)。某些相关系数的无偏估计。安。数学。斯达。29 201-211. ·Zbl 0094.14403号 ·doi:10.1214/aoms/1177706717
[39] 开放科学合作(2015)。评估心理科学的再现性。科学349 aac4716。
[40] Patil,P.、Peng,R.D.和Leek,J.T.(2016)。研究人员在重复研究时应该期望什么?心理学中可复制性的统计观点。透视。精神病。科学。11 539-544. ·doi:10.1177/1745691616646366
[41] Riley,R.D.、Higgins,J.P.T.和Deeks,J.J.(2011)。随机效应荟萃分析的解释。BMJ公司342.第549页。
[42] Schauer,J.M.(2018)。《评估复制的统计方法:元分析框架》,伊利诺伊州埃文斯顿西北大学博士论文。
[43] Schauer,J.M.、Fitzgerald,K.G.、Peko-Spicer,S.、Whalen,M.C.R.、Zejnullahi,R.和Hedges,L.V.(2021年)。补充“复制失败聚合模式统计方法评估”https://doi.org/10.1214/20-AOAS1387SUPP网站
[44] Schweinsberg,M.、Madan,N.、Vianello,M.,Sommer,S.A.、Jordan,J.、Tierney,W.、Awtrey,E.、Zhu,L.L.、Diermeier,D.等人(2016)。管道项目:对单个实验室的研究管道进行独立的预发布复制。心理学实验杂志。66 55-67.
[45] Shapin,S和Schaffer,S(1985)。利维坦和空气泵以下为:霍布斯、波义耳和实验生活普林斯顿大学出版社,新泽西州普林斯顿。
[46] Simonsohn,U.(2015)。小型望远镜:可探测性和复制结果评估。精神病。科学。26 559-569.
[47] 斯皮尔曼,C.(1904)。两个事物之间联系的证明和测量。美国心理学杂志。15 72-101.
[48] 斯皮尔曼(1910)。根据错误数据计算的相关性。英国心理学杂志。3 271-295。
[49] Storey,J.D.(2002)。错误发现率的直接方法。J.R.统计社会服务。B.统计方法。64 479-498. ·Zbl 1090.62073号 ·doi:10.1111/1467-9868.00346
[50] Tamhane,A.C.和Shi,J.(2009)。估计真零假设比例的参数混合模型和FDR的自适应控制。最优化.数理统计研究所讲稿——专题丛书57 304-325. 俄亥俄州比奇伍德IMS·Zbl 1271.62034号 ·doi:10.1214/09-LNMS5718
[51] Valentine,J.C.、Biglan,A.、Boruch,R.F.、Castro,F.G.、Collins,L.M.、Flay,B.R.、Kellam,S.、Mościcki,E.K.和Schinke,S.P.(2011年)。预防科学中的复制。上一页。科学。12 103-117.
[52] van Aert,R.C.M.和van Assen,M.A.L.M.(2017)。复制原始研究后对影响大小的贝叶斯评估。公共科学图书馆12 e0175302。
[53] Vankov,I.、Bowers,J.和Munafó,M.R.(2014)。论心理学低权力的持续存在。Q.J.实验心理学。67 1037-1040.
[54] Veroniki,A.A.,Jackson,D.,Viechtbauer,W.,Bender,R.,Bowden,J.,Knapp,G.,Kuss,O.,Higgins,J.P.T.,Langan,D.等人(2016年)。方法在荟萃分析中估计研究间方差及其不确定性。Res.合成。方法7 55-79.
[55] Wasserstein,R.L.和Lazar,N.A.(2016年)。ASA关于价值观的声明:背景、过程和目的【编辑】。阿默尔。统计师。70 129-133. ·Zbl 07665862号 ·doi:10.1080/00031305.2016.1154108
[56] Wood,P.和Randall,D.(2018年)。政府的科学水平有多差?华尔街J。可在https://www.wsj.com/articles/how-bad-is-the-governments-science-1523915765。
[57] Yong,E.(2016)。糟糕的科学不可避免的演变。大西洋。网址:https://www.thearelantic.com/science/archive/2016/09/the-inevitable-evolution-of-bad-science/500609/
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。