×

预处理的潜力和风险:建立新的基础。 (英语) Zbl 1440.62019

摘要:预处理为广泛的统计和科学分析奠定了经常被忽视的基础。然而,它充满了微妙之处和陷阱。预处理中所做的决定会约束所有后续分析,并且通常是不可逆的。因此,数据分析成为参与数据收集、预处理和管理以及下游推断的各方的合作努力。即使各方都尽了最大努力,提供了可用的信息和资源,最终结果仍可能低于传统单相推理框架中的最佳结果。这在我们进入“大数据”时代时尤为重要。推动这种数据爆炸的技术受到复杂的新形式的测量误差的影响。与此同时,我们正在积累越来越多的科学分析数据库。因此,预处理变得比以往任何时候都更加重要(而且可能更加危险)。
我们提出了一个在多相推理的旗帜下分析预处理的理论框架。我们在多重插补之前工作的基础上,为这一领域提供了一些初步的理论基础,包括分布式预处理。我们从生物学和天体物理学的两个问题出发,阐述了多相陷阱和潜在的解决方案,以此来推动这个基金会。这些例子还强调了多相分析背后的动机,包括实践和理论。我们证明,在某些情况下,多相推论在效率和稳健性方面甚至可以超过标准单相估计器。我们的工作为进一步研究预处理背后的统计原理提供了一些丰富的途径。为了处理日益复杂和庞大的数据,我们必须确保我们的推论建立在坚实的输入和合理的原则之上。因此,预处理的原则性研究是统计研究的一个重要方向。

MSC公司:

62A01型 统计学基础和哲学主题
62-08 统计学相关问题的计算方法
62D05型 抽样理论、抽样调查
62D10号 缺少数据
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Affymetrix,I.(2002年)。统计算法描述文档。Affymetrix,Inc.,加利福尼亚州圣克拉拉。网址:(2013年4月访问)。
[2] Anderson,L.D.、Zavagno,A.、Rodón,J.A.、Russeil,D.、Abergel,A.、Ade,P.、André,P.,Arab,H.、Baluteau、J.P.、Bernard,J.P.,Blagrave,K.、Bontemps,S.、Boulanger,F.、Cohen,M.、Compiègne,M.,Cox,P.和Dartois,E.、Davis,G.、Emery,R.、Fulton,T.、Gry,C.、Habart,E.、Huang,M.和Joblin,C.、Jones,S.C.、Kirk,J.M.、Lagache、G.、Lim、T.、。,Madden,S.、Makiwa,G.、Martin,P.、Miville-Deschánes,M.A.、Molinari,S.,Moseley,H.、Motte,F.、Naylor,D.A.、Okumura,K.、Pinheiro Gonçalves,D.、Polehampton,E.、Saraceno,P.,Sauvage,M.、Sidher,S.和Spencer,L.、Swinyard,B.、Ward-Thompson,D.和White,G.J.(2010)。Herschel观察到的RCW 120 H ii区域灰尘的物理特性。天文学和天体物理学518 L99。
[3] Benjamini,Y.和Hochberg,Y.(1995年)。控制错误发现率:一种实用且强大的多重测试方法。J.R.统计社会服务。B统计方法。57 289-300. ·Zbl 0809.62014号
[4] Berger,J.O.(1985)。统计决策理论和贝叶斯分析,第二版,《统计学中的斯普林格系列》。纽约:斯普林格·Zbl 0572.62008号
[5] Berger,J.O.和Bernardo,J.M.(1992年)。关于参考文献的发展。贝叶斯统计,4(佩尼·斯科拉,1991)35-60。纽约:牛津大学出版社。
[6] Blackwell,D.(1951年)。实验对比。第二届伯克利数理统计与概率研讨会论文集193-102。伯克利和洛杉矶:加州大学出版社·Zbl 0044.14203号
[7] Blackwell,D.(1953年)。实验的等效比较。安。数学。统计师。24 265-272. ·Zbl 0050.36004号 ·doi:10.1214/aoms/1177729032
[8] Blocker,A.W.和Protopapas,P.(2012年)。大规模时域数据库的半参数鲁棒事件检测。《现代天文学中的统计挑战V》(E.D.Feigelson和G.J.Babu主编)。统计学课堂讲稿902 177-187。纽约州纽约市:斯普林格。
[9] Bolstad,B.M.M.、Irizarry,R.A.A.、Astrand,M.和Speed,T.P.P.(2003)。基于方差和偏差的高密度寡核苷酸阵列数据归一化方法的比较。生物信息学19 185-193。
[10] Braverman,A.J.、Fetzer,E.J.、Kahn,B.H.、Manning,E.M.、Oliphant,R.B.和Teixeira,J.P.(2012年)。NASA大气红外探测器的大量数据集分析。技术计量54 1-15·doi:10.1080/00401706.2012.650504
[11] Brooks,S.、Gelman,A.、Jones,G.L.和Meng,X.L.编辑(2010年)。马尔可夫链蒙特卡罗手册:方法和应用。佛罗里达州博卡拉顿:查普曼和霍尔/CRC·Zbl 1218.65001号
[12] 考克斯·D.R.(1972)。回归模型和生命表。J.R.统计社会服务。B统计方法。34 187-220. ·Zbl 0243.62041号
[13] 考克斯·D.R.(1975)。部分可能性。生物特征62 269-276·Zbl 0312.62002号 ·doi:10.1093/biomet/62.2.269
[14] Davey,A.(2012年)。海量数据流。在2012年SolarStat上发表。
[15] Désert,F.X.、Macías-Pérez,J.F.、Mayet,F.、Giardino,G.、Renault,C.、Aumont,J.、Benoît,A.、Bernard,J.P.、Ponthieu,N.和Tristram,M.(2008)。来自Archeops实验的亚毫米级点源:银河平面上非常冷的团块。天文学和天体物理学481 411-421。
[16] Dupac,X.、Bernard,J.P.、Boudet,N.、Giard,M.、Lamarre,J.M.、Mény,C.、Pajot,F.、Ristorcelli,I.、Serra,G.、Stepnik,B.和Torre,J.P..(2003年)。尘埃亚毫米光谱指数的逆温度依赖性。天文学和天体物理学404 L11-L15。
[17] Evans,I.、Cresitell-Dittmar,M.、Doe,S.、Evans、J.、Fabbiano,G.、Germain,G.,Glotfelty,K.、Plummer,D.和Zografou,P.(2006年)。钱德拉X射线天文台数据处理系统。在光电仪器工程师学会(SPIE)会议系列。光学仪器工程师学会(SPIE)6270系列会议。
[18] Farrell,R.H.(1968年)。当使用严格凸损失时,关于估计可容许的一个充要条件。安。数学。统计师。39 23-28. ·兹比尔0187.15503 ·doi:10.1214/aoms/1177698502
[19] Geisser,S.和Eddy,W.F.(1979年)。模型选择的预测方法。J.Amer。统计师。协会74 153-160·Zbl 0401.62036号 ·doi:10.2307/2286745
[20] Geman,D.(2012年)。顺序统计和基因调控。联合统计会议奖章讲座。
[21] Geman,D.、D'Avignon,C.、Naiman,D.Q.和Winslow,R.L.(2004)。从两两mRNA比较中分类基因表达谱。Stat.应用。遗传学。分子生物学。3 21页(电子版)·Zbl 1072.62107号 ·数字对象标识代码:10.2202/1544-6115.071
[22] Goel,P.K.和DeGroot,M.H.(1979年)。实验和信息测量的比较。安。统计师。7 1066-1077. ·Zbl 0412.62004号 ·doi:10.1214/aos/1176344790
[23] Gray,R.M.和Neuhoff,D.L.(1998年)。量化。IEEE传输。通知。理论44 2325-2383·Zbl 1016.94016号 ·doi:10.109/18.720541
[24] Hartigan,J.(1964年)。不变的先验分布。安。数学。统计师。35 836-845. ·Zbl 0151.23003号 ·doi:10.1214/aoms/1177703583
[25] Ioannidis,J.P.A.和Khoury,M.J.(2011年)。改进“组学”研究中的验证实践。科学334 1230-1232。
[26] Irizarry,R.A.、Wu,Z.和Jaffee,H.A.(2006年)。Affymetrix基因芯片表达测量值的比较。生物信息学22 789-794。
[27] Irizarry,R.A.,Hobbs,B.,Collin,F.,Beazer-Barclay,Y.D.,Antonellis,K.J.,Scherf,U.和Speed,T.P.(2003)。高密度寡核苷酸阵列探针水平数据的探索、规范化和总结。生物统计学4 249-264·Zbl 1141.62348号 ·doi:10.1093/biostatistics/4.2.249
[28] Jeffreys,H.(1946年)。估计问题中先验概率的不变形式。程序。罗伊。Soc.伦敦。序列号。A.186 453-461·Zbl 0063.03050号 ·doi:10.1098/rspa.1946.0056
[29] Kadane,J.B.(1993年)。几位贝叶斯主义者:综述。测试2 1-32·Zbl 0812.62003号 ·doi:10.1007/BF02562668
[30] Kass,R.E.和Wasserman,L.(1996年)。通过形式规则选择先验分布。J.Amer。统计师。协会91 1343-1370·Zbl 0884.62007号 ·doi:10.2307/2291752
[31] Kelly,B.C.、Shetty,R.、Stutz,A.M.、Kauffmann,J.、Goodman,A.A.和Launhardt,R.(2012)。赫歇尔和普朗克时代的尘埃光谱能量分布:分层贝叶斯滤波技术。天体物理学杂志752 55。
[32] Le Cam,L.(1964年)。充分性和近似充分性。安。数学。统计师。35 1419-1455. ·Zbl 0129.11202号 ·doi:10.1214/aoms/1177700372
[33] Lehmann,E.L.和Casella,G.(1998年)。点估计理论,第二版,《统计学中的斯普林格文本》。纽约:斯普林格·Zbl 0916.62017号
[34] Lindley,D.V.、Tversky,A.和Brown,R.V.(1979)。关于概率评估的协调。J.罗伊。统计师。Soc.序列号。甲142 146-180·Zbl 0427.62003号 ·doi:10.2307/2345078
[35] McGee,M.和Chen,Z.(2006年)。用于Affymetrix基因芯片数据背景校正的指数正态卷积模型的参数估计。Stat.应用。遗传学。分子生物学。5 27页(电子版)·兹比尔1166.62355 ·doi:10.2202/1544-6115.1237
[36] Meng,X.L.(1994)。输入来源不一致的多重插补推论(讨论)。统计师。科学。9 538-558.
[37] Meng,X.L.和Romero,M.(2003)。讨论:效率和自我效能与多重插补推理。《国际统计评论》71 607-618。
[38] Meng,X.L.和Rubin,D.B.(1991)。使用EM获得渐近方差-方差矩阵:SEM算法。J.Amer。统计师。协会86 899-909。
[39] 孟晓乐、谢晓霞(2013)。我得到了更多的数据,我的模型更加精细,但我的估计值越来越差!我只是个傻瓜吗?计量经济学评论(贝叶斯推断和信息理论方法专刊:纪念阿诺德·泽尔纳)。
[40] Neyman,J.和Scott,E.L.(1948年)。基于部分一致观察结果的一致估计。计量经济学16 1-32·Zbl 0034.07602号 ·doi:10.2307/1914288
[41] Nguyen,X.、Wainwright,M.J.和Jordan,M.I.(2009年)。关于替代损失函数和(f)-发散。安。统计师。37 876-904. ·Zbl 1162.62060号 ·doi:10.1214/08-AOS595
[42] Nielsen,S.F.(2003年)。适当和不当多重插补。《国际统计评论》71 593-607·Zbl 1114.62323号 ·doi:10.1111/j.1751-5823.003.tb00214.x
[43] Paradis,D.,Veneziani,M.,Noriega-Crespo,A.,Paladini,R.,Piacentini,F.,Bernard,J.P.,de Bernardis,P.,Calzoletti,L.,Faustini,F.、Martin,P.、Masi,S.、Montier,L.、Natoli,P..、Ristorcelli,I.、Thompson,M.A.、Traficante,A.和Molinari,S.(2010)。银河平面Hi-GAL观测的尘埃发射率光谱指数变化。天文学和天体物理学520 L8。
[44] Quackenbush,J.(2002)。微阵列数据规范化和转换。自然遗传学。32补遗496-501。
[45] Ritchie,M.E.、Silver,J.、Oshlack,A.、Holmes,M.、Diyagama,D.、Holloway,A.和Smyth,G.K.(2007年)。双色微阵列背景校正方法的比较。生物信息学23 2700-2707。
[46] 鲁宾,D.B.(1976)。推断和缺失数据。生物特征63 581-592·Zbl 0344.62034号 ·doi:10.1093/biomet/63.3.581
[47] 鲁宾,D.B.(1987)。调查中无响应的多重推断。概率与数理统计威利级数:应用概率与统计学。纽约:Wiley·2007年6月10日
[48] 鲁宾,D.B.(1996)。18年以上的多重插补。J.Amer。统计师。协会91 473-489·Zbl 0869.62014年 ·doi:10.2307/2291635
[49] Savage,L.J.(1976年)。重读R.A.Fisher。安。统计师。4 441-500. ·Zbl 0325.62008号 ·doi:10.1214/aos/1176343456
[50] Shetty,R.、Kauffmann,J.、Schnee,S.、Goodman,A.A.和Ercolano,B.(2009年)。线面温度变化和噪声对尘埃连续观测的影响。天体物理学杂志696 2234-2251。
[51] Smyth,G.K.(2005年)。Limma:微阵列数据的线性模型。《使用R和生物导体的生物信息学和计算生物学解决方案》(R.Gentelman、V.Carey、S.Dudoit、R.Irizarry和W.Huber编辑)2005 397-420。柏林:斯普林格。
[52] Tan,A.C.、Naiman,D.Q.、Xu,L.、Winslow,R.L.和Geman,D.(2005)。根据基因表达谱对人类癌症进行分类的简单决策规则。生物信息学21 3896-3904。
[53] Tusher,V.G.、Tibshirani,R.和Chu,G.(2001)。微阵列用于电离辐射反应的显著性分析。程序。国家。阿卡德。科学。美国98 5116-5121·2014年12月10日 ·doi:10.1073/pnas.091062498
[54] Xie,X.和Meng,X.L.(2012)。探索多方推论:当涉及三个非协调模型时会发生什么?
[55] Xie,Y.,Wang,X.和Story,M.(2009)。Illumina BeadArray数据背景校正的统计方法。生物信息学25 751-757。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。