文件Open Access徽标

AKSEL:快速拜占庭SGD

作者 阿明·布塞塔, El-Mahdi El-Mhamdi埃尔·马赫迪, 拉希德·格雷劳伊, 亚历山大·莫勒, 塞巴斯蒂安·鲁奥



PDF格式
缩略图PDF

文件

LIPIcs公司。OPODIS.2020.8.pdf
  • 文件大小:1.31 MB
  • 16页

文件标识符

作者详细信息

阿明·布塞塔
  • 摩洛哥Ben Guerir穆罕默德六世理工大学
El-Mahdi El-Mhamdi埃尔·马赫迪
  • 瑞士洛桑EPFL
拉希德·格雷劳伊
  • 瑞士洛桑EPFL
亚历山大·莫勒
  • 摩洛哥Ben Guerir穆罕默德六世理工大学
塞巴斯蒂安·鲁奥
  • 瑞士洛桑EPFL

引用为获取BibTex

阿明·布塞塔(Amine Boussetta)、艾尔·马赫迪·艾尔·穆罕默德(El-Mahdi El-Mhamdi)、拉希德·盖拉维(Rachid Guerraoui)、亚历山大·莫勒(Alexandre Maurer)和塞巴斯蒂安·鲁奥(Sébastien Rouault)。AKSEL:快速拜占庭SGD。第24届分布式系统原理国际会议(OPODIS 2020)。莱布尼茨国际信息学论文集(LIPIcs),第184卷,第8:1-8:16页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2021)
https://doi.org/10.4230/LIPIcs.OPODIS.2020.8

摘要

现代机器学习体系结构区分了服务器和工人。通常,d-维模型由服务器托管,由n个工作人员使用分布式随机梯度下降(SGD)优化方案进行训练。在每个SGD步骤中,目标是估计成本函数的梯度。最简单的方法是平均工人估计的梯度。然而,即使是一个工人的一次拜占庭式的失败,平均工资也没有弹性。最近提出了许多替代梯度聚合规则(GAR),以容纳最多数量的拜占庭工人。这些GAR的不同之处在于:(1)其计算时间的复杂性,(2)尽管仍能确保收敛的拜占庭工人的最大数量(崩溃点),以及(3)其精度,这可以通过(3.1)角度误差(即与真实梯度的角度)以及(3.2)获得他们聚集全梯度的能力。特别是,许多不是完全渐变,因为它们分别在每个维度上操作,这导致了协调的混合渐变,导致在实际情况下精确度较低,在实际执行中实际上是拜占庭式的工人人数很少(s<<f)。我们提出了Aksel,一种新的具有最佳时间复杂度的可扩展的基于媒体的GAR(𝒪(nd))、最佳击穿点(n>2f)和预期角度误差的最低上界(𝒪(√d))。我们还研究了当梯度分布为正态时Aksel的实际角度误差,并表明它只在𝒪(√dlog{n}),这是在假定最优崩溃点的情况下,首次证明了工人人数n的对数上界。我们还报告了Aksel在各种分类任务上的经验评估,我们将其与针对最先进攻击的替代GAR进行了比较。当拜占庭工人实际上没有或很少,而即使在极端情况下(s=f)也能保持良好的防守时,Aksel是唯一达到最高精度的GAR。为了表示的简单性,我们考虑使用单服务器的方案。然而,正如我们在论文中所解释的,Aksel也可以很容易地适应多服务器架构,这些架构可以容忍一小部分服务器的拜占庭行为。

主题分类

ACM科目分类
  • 计算方法批量学习
  • 安全和隐私分布式系统安全
  • 计算理论非凸优化
关键词
  • 机器学习
  • 随机梯度下降算法
  • 拜占庭式失败

韵律学

参考文献

  1. Martin Abadi等人,《Tensorflow:大规模机器学习系统》。在2016年第12届USENIX操作系统设计与实现研讨会(OSDI 16),第265-283页。谷歌学者
  2. Dan Alistarh、Zeyuan Allen Zhu和Jerry Li.拜占庭随机梯度下降。《神经信息处理系统进展》,第4613-46232018页。谷歌学者
  3. Moran Baruch、Gilad Baruch和Yoav Goldberg。一点点就够了:避开分布式学习的防御,2019年。网址:http://arxiv.org/abs/1902.06156.
  4. 佩瓦·布兰查德(Peva Blanchard)、马赫迪·穆罕默德(El Mahdi El Mhamdi)、拉希德·盖拉乌伊(Rachid Guerraoui)和朱利安·斯塔纳(Julien Stainer)。与对手的机器学习:拜占庭容忍梯度下降。神经信息处理系统进展30,第119-129页。Curran Associates,Inc.,2017年。谷歌学者
  5. 莱昂·博图。在线学习和随机近似,第9-42页。美国剑桥大学出版社,1999年。谷歌学者
  6. 莱昂·博图(Léon Bottou)、弗兰克·E·柯蒂斯(Frank E.Curtis)和豪尔赫·诺塞达尔(Jorge Nocedal)。大规模机器学习的优化方法。SIAM评论,60(2):223-3112018。谷歌学者
  7. 陈凌娇、王宏毅、查查里·查尔斯和迪米特里斯·帕皮利奥普洛斯。DRACO:通过冗余梯度进行拜占庭式的分布式训练。Jennifer Dy和Andreas Krause,编辑,《第35届国际机器学习会议论文集》,ICML 2018,Stockholmsmässan,瑞典斯德哥尔摩,2018年7月10日至15日,《机器学习研究论文集》第80卷,第903-912页。PMLR,2018年。谷歌学者
  8. 陈玉东、苏丽丽和徐嘉明。对抗环境中的分布式统计机器学习:拜占庭梯度下降。ACM计算机系统测量与分析会议记录,1(2):442017。谷歌学者
  9. 乔治奥斯·达马斯基诺斯(Georgios Damaskinos)、马赫迪·穆罕默德(El Mahdi El Mhamdi)、拉希德·格拉乌伊(Rachid Guerraoui)、阿尔萨尼·吉尔古斯(Arsany Guiguis)和塞巴斯蒂安·鲁奥。Aggregathor:通过强大的梯度聚合实现拜占庭式机器学习。2019年,SysML。谷歌学者
  10. Georgios Damaskinos、El Mahdi El Mhamdi、Rachid Guerraoui、Rhichek Patra、Mahsa Taziki等人。拜占庭异步机器学习(sgd案例)。在ICML中,第1153-1162页,2018年。谷歌学者
  11. El Mahdi El Mhamdi、Rachid Guerraoui、Arsany Guirguis和LêNguyên Hoang。天才分布式拜占庭机器学习。PODC,2020年。谷歌学者
  12. El Mahdi El Mhamdi、Rachid Guerraoui和Sébastien Rouault。拜占庭分布式学习的潜在漏洞。第35届国际机器学习会议记录,第3521-3530页。PMLR,2018年。谷歌学者
  13. 尤里·法蒂耶夫、弗拉基米尔·沙杜罗夫、叶夫根尼·加林、德米特里·德米特里耶夫和瓦列里·泰普金。非零数学期望中随机变量平方和的概率分布函数。西伯利亚联邦大学学报。数学与物理,2016年9月173-179日。谷歌学者
  14. 马蒂亚斯·福格尔和托马斯·诺瓦克。快速多维渐近和近似一致性。在第32届分布式计算国际研讨会(DISC 2018)上,莱布尼茨国际信息学论文集(LIPIcs)第121卷,第27:1-27:16页。Dagstuhl-Leibniz-Zentrum fuer Informatik学校,2018年。谷歌学者
  15. E.J.甘贝尔。极值统计。多本数学书籍。多佛出版社,2004年。谷歌学者
  16. 罗伯特·赫赫特·尼尔森。反向传播神经网络理论。感知神经网络,第65-93页。爱思唯尔,1992年。谷歌学者
  17. C.A.R.霍尔。算法65:查找。Commun公司。美国医学会,4(7):321–3221961年。谷歌学者
  18. 亚瑟·杰科特(Arthur Jacot)、弗兰克·加布里埃尔(Frank Gabriel)和克莱门特·洪勒(Clément Hongler)。神经切线核:神经网络中的收敛和泛化。《神经信息处理系统进展》,第8571-8580页,2018年。谷歌学者
  19. S.Kotz和S.Nadarajah。极值分布。世界科学出版公司,2000年。谷歌学者
  20. 汉谟拉比·门德斯(Hammurabi Mendes)、莫里斯·赫利希(Maurice Herlihy)、尼丁·维迪亚(Nitin Vaidya)和维杰·加格(Vijay Garg)。拜占庭体系中的多维协议。分布式计算,28:1-19,2015。谷歌学者
  21. F.Mosteller和J.W.Tukey。数据分析与回归:统计学第二课程。艾迪生-韦斯利行为科学系列,1977年。谷歌学者
  22. Lam M.Nguyen、Phuong Ha Ngueen、Marten van Dijk、Peter Richtárik、Katya Scheinberg和Martin Takánch。警长和霍格沃德!2018年,在没有有界梯度假设的情况下收敛。谷歌学者
  23. B.T.波利亚克和A.B.朱迪茨基。通过平均加速随机近似。SIAM控制与优化杂志,30(4):838–8551992年。谷歌学者
  24. 彼得·卢梭。高崩溃点的多元估计。数学统计与应用,8:283-2971985。谷歌学者
  25. David E Rumelhart、Geoffrey E Hinton和Ronald J Williams。通过错误传播学习内部表示。技术报告,加利福尼亚大学圣地亚哥拉荷亚认知科学研究所,1985年。谷歌学者
  26. 弗雷德·施耐德。使用状态机方法实现容错服务:教程。ACM计算机。调查。,22(4):299–3191990年。谷歌学者
  27. V.Vapnik。学习理论的风险最小化原则。J.E.Moody、S.J.Hanson和R.P.Lippmann主编,《神经信息处理系统进展》4,第831-838页。Morgan-Kaufmann,1992年。谷歌学者
  28. Cong Xie、Oluwasanmi Koyejo和Indranil Gupta。通用拜占庭容忍标准,2018年。谷歌学者
  29. Cong Xie、Oluwasanmi Koyejo和Indranil Gupta。福卡斯:维拜占庭恢复随机梯度下降,2018年。谷歌学者
  30. Cong Xie、Oluwasanmi Koyejo和Indranil Gupta。帝国的衰落:通过内部产品操纵打破拜占庭式的容忍战略。在UAI中,机器学习研究论文集第115卷,第261-270页。PMLR,2020年。谷歌学者
  31. 董寅、陈玉东、兰昌德兰·坎南和彼得·巴特利特。拜占庭式分布式学习:走向最佳统计率。《第35届国际机器学习会议论文集》,《机器学习研究论文集》第80卷,第5650-5659页。PMLR,2018年。谷歌学者
问题/备注/反馈
X(X)

Dagstuhl出版社反馈


感谢您的反馈!

已提交反馈

无法发送消息

请稍后再试或发送电子邮件