统计学及其接口

第9卷(2016)

数字4

大数据统计计算理论与方法专刊

特邀编辑:陈明慧(康涅狄格大学);Radu V.Craiu(多伦多大学);Faming Liang(佛罗里达大学);和刘川海(普渡大学)

BIG-SIR:海量数据的分段逆回归方法

页:509 – 520

内政部:https://dx.doi.org/10.4310/SII.2016.v9.n4.a10

作者

Benoit Liquet(法国保罗大学数学与应用实验室;澳大利亚布里斯班昆士兰理工大学数学与统计前沿卓越中心)

Jerome Saracco(波尔多INP,波尔多南部,法国塔伦斯)

摘要

在海量数据环境中,我们重点研究了一个半参数回归模型,该模型涉及一个实因变量$Y$和一个$p$维协变量$X$(带有$p\geq 1$)。该模型包括通过索引$X^{\prime}\beta$降维$X$。由于数据量很大,有效降维(EDR)方向$\beta$无法通过分段逆回归(SIR)方法直接估计。为了应对分析海量数据集的主要挑战,即存储和计算效率,我们遵循“分而治之”的策略,提出了一种新的EDR方向SIR估计器。数据被划分为子集。每个子集是一个小数据集,估计EDR方向。重组步骤基于一个标准的优化,该标准评估每个子集的EDR方向之间的接近度。计算是并行运行的,它们之间没有通信。

建立了估计量的相合性,并给出了其渐近分布。多指标模型、$q$维响应变量和/或$\mathrm的扩展{安全气囊}_还讨论了基于{\alpha}$的方法。使用我们的$\texttt{edrGraphicalTools}$$\mathsf{R}$包进行的模拟研究表明,我们的方法能够减少计算时间并克服大规模数据集带来的内存约束问题。利用$\texttt{foreach}$和$\textt{bigmemory}$$\mathsf{R}$包的组合来提供速度和内存方面的执行效率。结果通过$\texttt{bigvis}$$\mathsf{R}$包使用bin-summarise-smooth方法可视化。最后,我们在大量航空公司数据集上演示了我们提出的方法。

关键词

高性能计算、有效降维(EDR)、并行编程、$\mathsf{R}$软件、切片反向回归(SIR)

2016年9月14日出版