开放式访问
2013年9月 预处理的潜力和风险:建立新的基础
亚历山大·W·布洛克,孟晓丽
伯努利 19(4): 1176-1211 (2013年9月)。 内政部:10.3150/13-BEJSP16

摘要

预处理为广泛的统计和科学分析奠定了经常被忽视的基础。然而,它充满了微妙之处和陷阱。预处理中所做的决定会约束所有后续分析,并且通常是不可逆的。因此,数据分析成为参与数据收集、预处理和管理以及下游推断的各方的合作努力。即使各方都尽了最大努力,提供了可用的信息和资源,最终结果仍可能低于传统单相推理框架中的最佳结果。这在我们进入“大数据”时代时尤为重要。推动这种数据爆炸的技术受到复杂的新形式的测量误差的影响。与此同时,我们正在积累越来越多的科学分析数据库。因此,预处理变得比以往任何时候都更加重要(而且可能更加危险)。

我们提出了一个在多相推理的旗帜下分析预处理的理论框架。我们在多重插补之前工作的基础上,为这一领域提供了一些初步的理论基础,包括分布式预处理。我们从生物学和天体物理学的两个问题出发,阐述了多相陷阱和潜在的解决方案,以此来推动这个基金会。这些例子还强调了多相分析背后的动机,包括实践和理论。我们证明,在某些情况下,多相推论在效率和稳健性方面甚至可以超过标准单相估计器。我们的工作为进一步研究预处理背后的统计原理提供了一些丰富的途径。为了处理日益复杂和庞大的数据,我们必须确保我们的推论建立在坚实的输入和合理的原则之上。因此,预处理的原则性研究是统计研究的一个重要方向。

引用

下载引文

亚历山大·W·布洛克。 孟晓丽。 “预处理的潜力和风险:建立新的基础。” 伯努利 19 (4) 1176 - 1211, 2013年9月。 https://doi.org/10.3150/13-BEJP16

问询处

发布日期:2013年9月
欧几里德项目首次提供:2013年8月27日

zbMATH公司:06216073
数学科学网:MR3102548型
数字对象标识符:10.3150/13-BEJP16

关键词:数据压缩,数据存储库,测量误差,多相推理,多重插补,统计学原理

版权所有©2013伯努利数理统计与概率学会

第19卷•第4期•2013年9月
返回页首