Robust Distributed Learning

El Mhamdi, El Mahdi

doi:10.5075/epfl-thesis-7218

稳健的分布式学习

El Mhamdi、El Mahdi

2020

下载

格式

格式
BibTeX公司
MARCXML公司
文本MARC
MARC公司
都柏林核心
尾注
国家土地管理局
参考Works
RIS公司

文件夹

摘要

无论它发生在人工或生物基质中，{它学习}至少在两个方面是一种{分布}现象。首先，在一个地方很少能找到有意义的数据和经验，因此学习者有很强的合作动机。其次，学习者本身就是一个分布式系统，由更基本的过程组成；这些基本过程之间联系的变化是学习的基础。这一通用视图涵盖了大量学习情况，从大脑到生物体内的代谢网络，再到数据中心，在这些数据中心中，多台机器正在协作，为数十亿用户的社交媒体推荐个性化内容。在上述两个方面，学习系统应对某些组件故障的能力至关重要。本文从这两个方面探讨了学习系统的鲁棒性。第一个方面是{粗粒度}，因为失败的单位是一个完整的学习者。第二个方面是细粒度，因为失败的单位是学习者的基本组成部分（例如神经元或突触）。本文的第一部分也是更大的一部分集中在粗粒度方面。具体来说，我们研究了分布式随机梯度下降的稳健性（SGD是当今机器学习中最著名的成功背后的工作宿主算法）。我们首先要证明，目前SGD的标准部署是脆弱的，因为这种部署通常由每个学习者的输入平均值组成。这会导致有害的后果，因为机器学习中使用的数据来自不同且可能不可靠的来源。为了解释各种类型的故障（黑客数据中毒、软件错误、通信延迟等），我们采用分布式系统中任意故障的一般抽象，即{拜占庭故障}抽象。我们提供了SGD具有拜占庭弹性的充分条件，并给出了在不同配置下满足我们条件的三种算法。本文介绍的关键算法是（1）~Krum，一种梯度聚集规则（GAR），我们证明它是同步设置中平均值的稳健替代方法；（2） ~Bulyan，一种元算法，我们证明它可以在非常高维的情况下增强任何给定的GAR；（3）~Kardam，一种梯度滤波方案，我们证明在更具挑战性的异步设置中具有拜占庭式的弹性。对于我们的每一种算法，我们还提供了一些变体，并讨论了它们的实际局限性。本文的第二部分深入到细粒度方面。我们关注（人工）神经网络的特殊情况。我们将这些网络视为一个加权有向图，并证明了当基本组件（神经元和突触）发生故障时，{正向传播错误}的上界。我们还讨论了这些界限的局限性，它们如何应用于未来的神经形态硬件，以及它们如何通知其他系统，如生物（代谢）网络。