格式
格式
BibTeX公司
MARCXML公司
文本MARC
MARC公司
都柏林核心
尾注
国家土地管理局
参考Works
RIS公司

文件夹

摘要

无论它发生在人工或生物基质中,{它学习}至少在两个方面是一种{分布}现象。首先,在一个地方很少能找到有意义的数据和经验,因此学习者有很强的合作动机。其次,学习者本身就是一个分布式系统,由更基本的过程组成;这些基本过程之间联系的变化是学习的基础。这一通用视图涵盖了大量学习情况,从大脑到生物体内的代谢网络,再到数据中心,在这些数据中心中,多台机器正在协作,为数十亿用户的社交媒体推荐个性化内容。在上述两个方面,学习系统应对某些组件故障的能力至关重要。本文从这两个方面探讨了学习系统的鲁棒性。第一个方面是{粗粒度},因为失败的单位是一个完整的学习者。第二个方面是细粒度,因为失败的单位是学习者的基本组成部分(例如神经元或突触)。本文的第一部分也是更大的一部分集中在粗粒度方面。具体来说,我们研究了分布式随机梯度下降的稳健性(SGD是当今机器学习中最著名的成功背后的工作宿主算法)。我们首先要证明,目前SGD的标准部署是脆弱的,因为这种部署通常由每个学习者的输入平均值组成。这会导致有害的后果,因为机器学习中使用的数据来自不同且可能不可靠的来源。为了解释各种类型的故障(黑客数据中毒、软件错误、通信延迟等),我们采用分布式系统中任意故障的一般抽象,即{拜占庭故障}抽象。我们提供了SGD具有拜占庭弹性的充分条件,并给出了在不同配置下满足我们条件的三种算法。本文介绍的关键算法是(1)~Krum,一种梯度聚集规则(GAR),我们证明它是同步设置中平均值的稳健替代方法;(2) ~Bulyan,一种元算法,我们证明它可以在非常高维的情况下增强任何给定的GAR;(3)~Kardam,一种梯度滤波方案,我们证明在更具挑战性的异步设置中具有拜占庭式的弹性。对于我们的每一种算法,我们还提供了一些变体,并讨论了它们的实际局限性。本文的第二部分深入到细粒度方面。我们关注(人工)神经网络的特殊情况。我们将这些网络视为一个加权有向图,并证明了当基本组件(神经元和突触)发生故障时,{正向传播错误}的上界。我们还讨论了这些界限的局限性,它们如何应用于未来的神经形态硬件,以及它们如何通知其他系统,如生物(代谢)网络。

细节

PDF格式