BIG-SIR: a Sliced Inverse Regression approach for massive data

在海量数据环境中，我们重点研究了一个半参数回归模型，该模型涉及一个实因变量$Y$和一个$p$维协变量$X$（带有$p\geq 1$）。该模型包括通过索引$X^｛\prime｝\beta$降维$X$。由于数据量很大，有效降维（EDR）方向$\beta$无法通过分段逆回归（SIR）方法直接估计。为了应对分析海量数据集的主要挑战，即存储和计算效率，我们遵循“分而治之”的策略，提出了一种新的EDR方向SIR估计器。数据被划分为子集。每个子集是一个小数据集，估计EDR方向。重组步骤基于一个标准的优化，该标准评估每个子集的EDR方向之间的接近度。计算是并行运行的，它们之间没有通信。

建立了估计量的相合性，并给出了其渐近分布。多指标模型、$q$维响应变量和/或$\mathrm的扩展{安全气囊}_还讨论了基于{\alpha}$的方法。使用我们的$\texttt{edrGraphicalTools}$$\mathsf{R}$包进行的模拟研究表明，我们的方法能够减少计算时间并克服大规模数据集带来的内存约束问题。利用$\texttt{foreach}$和$\textt{bigmemory}$$\mathsf{R}$包的组合来提供速度和内存方面的执行效率。结果通过$\texttt{bigvis}$$\mathsf{R}$包使用bin-summarise-smooth方法可视化。最后，我们在大量航空公司数据集上演示了我们提出的方法。

关键词

高性能计算、有效降维（EDR）、并行编程、$\mathsf{R}$软件、切片反向回归（SIR）

全文（PDF格式）

2016年9月14日出版