×

基于相对影响大小的复制成功评估。 (英语) 兹比尔1498.62220

摘要:为了证实最初的发现,复制研究越来越多。然而,如何评估复制的成功并没有既定的标准,在实践中,使用了许多不同的方法。本文的目的是改进和扩展最近提出的用于复制研究分析的反向分析方法。我们展示了这种方法如何与相对效应大小、复制与原始效应估计的比率直接相关。这一观点导致了一项新的建议,即重新校准复制成功的评估,即黄金水平。重新校准确保,对于临界重要的原始研究,只有当复制效果估计值大于原始值时,才能实现复制成功。如果原始研究意义重大且复制样本量足够大,那么复制成功的条件力量可以取任何期望值。与要求原始研究和复制研究具有统计显著性的标准方法相比,黄金级的复制成功提供了统一的项目能力增益,并在复制样本大小不小于原始样本大小的情况下控制了I型错误率。对四个大型复制项目的数据的应用表明,新方法可以产生更合适的推论,因为与原始方法相比,新方法会减少复制估计值的收缩,同时确保两种效果估计值本身都具有足够的说服力。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
2015年1月62日 贝叶斯推断
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 安德森·S.F.和麦克斯韦·S.E.(2017)。解决“复制危机”:利用原始研究设计具有适当统计能力的复制研究。多变量。行为。物件。52 305-324. ·doi:10.1080/00273171.2017.1289361
[2] BALAFOUTAS,L.和SUTTER,M.(2012年)。平权行动政策促进妇女的发展,不会损害实验室的效率。科学类335 579-582. https://doi.org/10.1126/science.1211180。
[3] BEGLEY,C.G.和IOANNIDIS,J.P.A.(2015)。科学的再现性。循环。物件。116 116至126。https://doi.org/10.1161/CIRCRESAHA.114.303819。
[4] 博克斯,G.E.P.(1980)。科学建模和稳健性中的抽样和贝叶斯推理(带讨论)。J.罗伊。统计师。Soc.序列号。A类143 383-430. ·兹伯利0471.62036 ·doi:10.2307/2982063
[5] CAMERER,C.F.,DREBER,A.,FORSELL,E.,HO,T.H.,HUBER,J.,JOHANNESSON,M.,KIRCHLER,M.、ALMENBERG,J.、ALTMEJD,A.等人(2016年)。评估经济学实验室实验的可复制性。科学类351 1433-1436. https://doi.org/10.1126/science.aaf0918。
[6] CAMERER,C.F.、DREBER,A.、HOLZMEISTER,F.、HO,T.-H.、HUBER,J.、JOHANNESSON,M.、KIRCHLER,M.,NAVE,G.、NOSEK,B.A.等人(2018年)。评估2010年至2015年间自然和科学社会科学实验的可复制性。Nat.Hum.行为。2 637-644. https://doi.org/10.1038/s41562-018-0399-z。
[7] COVA,F.、STRICKLAND,B.、ABATISTA,A.、ALLARD,A.、ANDOW,J.、ATTIE,M.、BEEBE,J.,BERNIŪNAS,R.、BOUDESSEUL,J.等人(2018年)。评估实验哲学的再现性。菲洛斯牧师。精神病。https://doi.org/10.1007/s13164-018-0400-9。
[8] DAWID,A.P.(1982)。校准良好的贝叶斯算法。J.Amer。统计师。协会。77 605-613. ·Zbl 0495.62005号 ·doi:10.1080/01621459.1982.10477856
[9] EBERSOLE,C.R.,ATHERTON,O.E.,BELANGER,A.L.,SKULBORSTAD,H.M.,ALLEN,J.M.,BANKS,J.B.,BARANSKI,E.,BERNSTEIN,M.J.,BONFIGLIO,D.B.V.等人(2016年)。许多实验3:通过复制评估整个学术学期的参与者库质量。心理学实验杂志。67 68-82. https://doi.org/10.1016/j.jesp.2015.10.012。
[10] ERRINGTON,T.M.、IORNS,E.、GUNN,W.、TAN,F.E.、LOMAX,J.和NOSEK,B.A.(2014)。癌症生物学研究再现性的公开调查。电子生活3. ·doi:10.7554/eLife.04333
[11] FDA(1998年)。为人类药物和生物制品的有效性提供临床证据。
[12] FISHER,R.A.(1921年)。关于从小样本推导出的相关系数的可能误差。Metron公司1 3-32。https://doi.org/10.2307/2331802。
[13] GRIEVE,A.P.(2016)。临床药物开发中“校准良好”贝叶斯的闲置想法。药物统计。15 96-108页·数字对象标识代码:10.1002/pst.1736
[14] HELD,L.(2020a)。复制研究分析和设计的新标准(含讨论)。J.罗伊。统计师。Soc.序列号。A类183 431-469. ·doi:10.1111/rssa.12493
[15] HELD,L.(2020b)。调和平均值检验证实了科学发现。J.R.Stat.Soc.系列。C.申请。斯达。69 697-708. ·doi:10.1111/rssc.12410
[16] IOANNIDIS,J.P.A.(2005年)。为什么大多数已发表的研究结果都是错误的。公共科学图书馆-医学。2 e124·doi:10.1371/journal.pmed.0020124
[17] JOHNSON,V.E.、PAYNE,R.D.、WANG,T.、ASHER,A.和MANDAL,S.(2017年)。论心理科学的再现性。J.Amer。统计师。协会。112 1-10. ·doi:10.1080/01621459.2016.1240079
[18] KAY,R.(2015)。药品监管中非统计人员的统计思考第二版,英国奇切斯特威利出版社。https://doi.org/10.1002/9781118451885。
[19] KLEIN,R.A.、RATLIFF,K.A.、VIANELLO,M.、ADAMS,R.B.、BAHNíK,Š.、。,BERNSTEIN,M.J.、BOCIAN,K.、BRANDT,M.J、BROOKS,B.等人(2014年)。研究可复制性的变化:一个“多实验室”复制项目。Soc.精神科。45 142-152. https://doi.org/10.1027/1864-9335/a000178。
[20] KLEIN,R.A.、VIANELLO,M.、HASSELMAN,F.、ADAMS,B.G.、ADAM,R.B.JR.、ALPER,S.、AVEYARD,M.,AXT,J.R.、BABALOLA,M.T.等人(2018年)。许多实验室2:调查样本和环境中可复制性的变化。高级方法实践。精神病。科学。1 443-490. https://doi.org/10.1177/2515245918810225。
[21] LY,A.和WAGENMAKERS,E.J.(2020年)。Leonhard Held关于“复制研究分析和设计的新标准”的讨论。J.罗伊。统计师。Soc.序列号。A类183 460-461. https://doi.org/10.1111/rssa.12544。
[22] MACA,J.、GALLO,P.、BRANSON,M.和MAURER,W.(2002年)。重新考虑双试验范式的某些方面。生物制药杂志。统计人员。12 107-119。https://doi.org/10.1081/bip-120006450。
[23] 马修斯·R·A·J(2001a)。临床试验结果可信度的评估方法。药物信息杂志。35 1469-1478. https://doi.org/10.1177/009286150103500442。
[24] 马修斯·R.A.J.(2001b)。为什么临床医生应该关心贝叶斯方法?J.统计。计划。推断94 43-58. ·Zbl 0971.62068号 ·doi:10.1016/S0378-3758(00)00232-9
[25] MATTHEWS,J.N.S.(2006年)。随机对照临床试验简介,第2版。统计科学系列教材CRC出版社/CRC,佛罗里达州博卡拉顿·Zbl 1277.62009年 ·doi:10.1201/9781420011302
[26] MICHELOUD,C.和HELD,L.(2021)。复制研究的功率计算。统计师。科学。出现。
[27] MURADCHANIAN,J.、HOEKSTRA,R.、KIERS,H.和VAN RAVENZWAAIJ,D.(2021年)。如何最好地量化复制成功?复制成功指标比较的模拟研究。R.Soc.开放科学。8 201697. https://doi.org/10.1098/rsos.201697。
[28] NICHOLS,S.(2006)。关于自由意志的民间直觉。J.认知。邪教。6 57-86. https://doi.org/10.1163/156853706776931385。
[29] OBERAUER,K.(2008)。如何说不:短期认知的单过程和双过程理论在消极探针上进行了测试。《心理学实验杂志》。学习。内存。认知。34 439-459。https://doi.org/10.1037/0278-7393.34.3.439。
[30] 开放科学合作(2015)。评估心理科学的再现性。科学类349 aac4716。
[31] PAWEL,S.和HELD,L.(2020)。复制研究的概率预测。公共科学图书馆15 e0231416·doi:10.1371/journal.pone.0231416
[32] PAYNE,B.K.,BURKLEY,M.A.和STOKES,M.B.(2008年)。为什么内隐和外显态度测试会出现分歧?结构配合的作用。心理学心理学杂志。94 16-31. ·doi:10.1037/0022-3514.94.1.16
[33] PYC,M.A.和RAWSON,K.A.(2010年)。为什么测试能提高记忆力:中介有效性假说。科学类330 335. ·doi:10.1126/science.1191465
[34] RUBIN,D.B.(1984)。应用统计学家的贝叶斯合理和相关频率计算。安。统计师。12 1151-1172. ·Zbl 0555.62010号 ·doi:10.1214/aos/1176346785
[35] SCHMIDT,J.R.和BESNER,D.(2008)。Stroop效应:为什么比例一致与一致无关,而与偶然性有关。《心理学实验杂志》。学习。内存。认知。34 514-523. https://doi.org/10.1037/0278-7393.34.3.514。
[36] SENN,S.(2007)。药物开发中的统计问题第二版,英国奇切斯特威利出版社·Zbl 1165.62086号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。