×

统计优化的通信高效算法。 (英语) Zbl 1318.62016号

摘要:我们分析了在涉及大规模数据集的统计设置中用于分布式优化的两种高效通信算法。第一种算法是一种标准的平均方法,它将(N)个数据样本均匀地分布到(m)台机器上,对每个子集执行单独的最小化,然后平均估计值。我们对这种平均混合算法进行了深入的分析,结果表明,在合理的条件下,组合参数达到的均方误差(MSE)衰减为\(O(N^{-1}+(N/m)^{-2})\)。每当\(m\leq\sqrt{N}\)时,此保证都与访问所有\(N\)样本的集中式算法所能达到的最佳速率相匹配。第二种算法是一种基于适当形式的自举子采样的新方法。它只需要一轮通信,均方误差衰减为\(O(N^{-1}+(N/m)^{-3})\),因此对并行化的数量更为稳健。此外,我们还表明,基于随机梯度的方法获得了衰减为(O(N^{-1}+(N/m)^{-3/2})的均方误差,以可能较慢的MSE速率为代价简化了计算。我们还对我们的方法进行了实验评估,研究了它们在模拟数据和来自互联网搜索领域的大规模回归问题上的性能。特别是,我们证明了我们的方法可以有效地解决来自中国SoSo搜索引擎的广告预测问题,该问题涉及到具有(N约2.4倍10^8)样本和(d约740,000)协变量的逻辑回归。

MSC公司:

62C05型 统计决策理论的一般考虑
10层62层 点估计
62G09号 非参数统计重采样方法
62L20型 随机近似
90立方厘米15 随机规划
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接