AKSEL: Fast Byzantine SGD

Boussetta, Amine; El-Mhamdi, El-Mahdi; Guerraoui, Rachid; Maurer, Alexandre; Rouault, Sébastien

doi:10.4230/LIPIcs.OPODIS.2020.8

文件

LIPIcs公司。OPODIS.2020.8.pdf

文件大小：1.31 MB
16页

文件标识符

内政部： 10.4230/LIPIcs公司。奥波迪斯2020.8
瓮： urn:nbn:de:0030-drops-134931

作者详细信息

阿明·布塞塔

摩洛哥Ben Guerir穆罕默德六世理工大学

El-Mahdi El-Mhamdi埃尔·马赫迪

瑞士洛桑EPFL

拉希德·格雷劳伊

瑞士洛桑EPFL

亚历山大·莫勒

摩洛哥Ben Guerir穆罕默德六世理工大学

塞巴斯蒂安·鲁奥

瑞士洛桑EPFL

引用为获取BibTex

阿明·布塞塔（Amine Boussetta）、艾尔·马赫迪·艾尔·穆罕默德（El-Mahdi El-Mhamdi）、拉希德·盖拉维（Rachid Guerraoui）、亚历山大·莫勒（Alexandre Maurer）和塞巴斯蒂安·鲁奥（Sébastien Rouault）。AKSEL：快速拜占庭SGD。第24届分布式系统原理国际会议（OPODIS 2020）。莱布尼茨国际信息学论文集（LIPIcs），第184卷，第8:1-8:16页，达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所（2021）
https://doi.org/10.4230/LIPIcs.OPODIS.2020.8

@会议记录{boussetta_et_al:LIPIcs.OPODIS.2020.8，author={布塞塔（Boussetta）、阿明（Amine）和埃尔·穆罕默德（El-Mhamdi{e} 巴斯蒂安},title＝｛｛AKSEL:快速拜占庭SGD｝｝，booktitle={第24届分布式系统原理国际会议（OPODIS 2020）}，页数={8:1--8:16}，series={莱布尼茨国际信息学论文集（LIPIcs）}，国际标准图书编号={978-3-95977-176-4}，ISSN={1868-8969}，年份＝{2021}，体积={184}，editor={Bramas、Quentin和Oshman、Rotem和Romano、Paolo}，publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik}，地址={Dagstuhl，德国}，URL={https://drops.dagstuhl.de/entities/documents/10.4230/LIPIcs.OPODIS.2020.8},URN={URN:nbn:de:0030-drops-134931}，doi={10.4230/LIPIcs.OPODIS.2020.8}，annote={关键词：机器学习，随机梯度下降，拜占庭失败}}

<trans data-src="@InProceedings{boussetta_et_al:LIPIcs.OPODIS.2020.8,">@会议记录{boussetta_et_al:LIPIcs.OPODIS.2020.8，</trans><trans data-src="author =	{Boussetta, Amine and El-Mhamdi, El-Mahdi and Guerraoui, Rachid and Maurer, Alexandre and Rouault, S\'">author={布塞塔（Boussetta）、阿明（Amine）和埃尔·穆罕默德（El-Mhamdi）、埃尔·马赫迪（El-Mahdi）和格雷劳伊（Guerraoui）、拉希德（Rachid）和莫雷尔（Maurer）、亚历山大（Alexandre）和卢奥（Rouault），S</trans><trans data-src="{e}bastien">{e} 巴斯蒂安</trans><trans data-src="},">},</trans><trans data-src="title =	{{AKSEL: Fast Byzantine SGD}},">title={{AKSEL:Fast Byzantine SGD}}，</trans><trans data-src="booktitle =	{24th International Conference on Principles of Distributed Systems (OPODIS 2020)},">booktitle＝{第24届分布式系统原理国际会议（OPODIS 2020）}，</trans><trans data-src="pages =	{8:1--8:16},">页数={8:1--8:16}，</trans><trans data-src="series =	{Leibniz International Proceedings in Informatics (LIPIcs)},">series={莱布尼茨国际信息学论文集（LIPIcs）}，</trans><trans data-src="ISBN =	{978-3-95977-176-4},">国际标准图书编号={978-3-95977-176-4}，</trans><trans data-src="ISSN =	{1868-8969},">ISSN={1868-8969}，</trans><trans data-src="year =	{2021},">年份={2021}，</trans><trans data-src="volume =	{184},">体积={184}，</trans><trans data-src="editor =	{Bramas, Quentin and Oshman, Rotem and Romano, Paolo},">editor={Bramas、Quentin和Oshman、Rotem和Romano、Paolo}，</trans><trans data-src="publisher =	{Schloss Dagstuhl -- Leibniz-Zentrum f{\"u}r Informatik},">publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik}，</trans><trans data-src="address =	{Dagstuhl, Germany},">地址={Dagstuhl，德国}，</trans><trans data-src="URL =		{">URL={</trans><trans data-src="https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.OPODIS.2020.8">https://drops.dagstuhl.de/entities/documents/10.4230/LIPIcs.OPODIS.2020.8</trans><trans data-src="},">},</trans><trans data-src="URN =		{urn:nbn:de:0030-drops-134931},">URN={URN:nbn:de:0030-drops-134931}，</trans><trans data-src="doi =		{10.4230/LIPIcs.OPODIS.2020.8},">doi={10.4230/LIPIcs.OPODIS.2020.8}，</trans><trans data-src="annote =	{Keywords: Machine learning, Stochastic gradient descent, Byzantine failures}">annote={关键词：机器学习，随机梯度下降，拜占庭失败}</trans><trans data-src="}">}</trans>

摘要

现代机器学习体系结构区分了服务器和工人。通常，d-维模型由服务器托管，由n个工作人员使用分布式随机梯度下降（SGD）优化方案进行训练。在每个SGD步骤中，目标是估计成本函数的梯度。最简单的方法是平均工人估计的梯度。然而，即使是一个工人的一次拜占庭式的失败，平均工资也没有弹性。最近提出了许多替代梯度聚合规则（GAR），以容纳最多数量的拜占庭工人。这些GAR的不同之处在于：（1）其计算时间的复杂性，（2）尽管仍能确保收敛的拜占庭工人的最大数量（崩溃点），以及（3）其精度，这可以通过（3.1）角度误差（即与真实梯度的角度）以及（3.2）获得他们聚集全梯度的能力。特别是，许多不是完全渐变，因为它们分别在每个维度上操作，这导致了协调的混合渐变，导致在实际情况下精确度较低，在实际执行中实际上是拜占庭式的工人人数很少（s<<f）。我们提出了Aksel，一种新的具有最佳时间复杂度的可扩展的基于媒体的GAR(𝒪（nd））、最佳击穿点（n>2f）和预期角度误差的最低上界(𝒪（√d））。我们还研究了当梯度分布为正态时Aksel的实际角度误差，并表明它只在𝒪（√dlog{n}），这是在假定最优崩溃点的情况下，首次证明了工人人数n的对数上界。我们还报告了Aksel在各种分类任务上的经验评估，我们将其与针对最先进攻击的替代GAR进行了比较。当拜占庭工人实际上没有或很少，而即使在极端情况下（s=f）也能保持良好的防守时，Aksel是唯一达到最高精度的GAR。为了表示的简单性，我们考虑使用单服务器的方案。然而，正如我们在论文中所解释的，Aksel也可以很容易地适应多服务器架构，这些架构可以容忍一小部分服务器的拜占庭行为。

主题分类

ACM科目分类

计算方法→ 批量学习
安全和隐私→ 分布式系统安全
计算理论→ 非凸优化

关键词

机器学习
随机梯度下降算法
拜占庭式失败

韵律学

访问统计信息
总访问次数（每周更新）

0

PDF下载

0

元数据视图

参考文献

Martin Abadi等人，《Tensorflow:大规模机器学习系统》。在2016年第12届USENIX操作系统设计与实现研讨会（OSDI 16），第265-283页。
Dan Alistarh、Zeyuan Allen Zhu和Jerry Li.拜占庭随机梯度下降。《神经信息处理系统进展》，第4613-46232018页。
Moran Baruch、Gilad Baruch和Yoav Goldberg。一点点就够了：避开分布式学习的防御，2019年。网址：http://arxiv.org/abs/1902.06156.
佩瓦·布兰查德（Peva Blanchard）、马赫迪·穆罕默德（El Mahdi El Mhamdi）、拉希德·盖拉乌伊（Rachid Guerraoui）和朱利安·斯塔纳（Julien Stainer）。与对手的机器学习：拜占庭容忍梯度下降。神经信息处理系统进展30，第119-129页。Curran Associates，Inc.，2017年。
莱昂·博图。在线学习和随机近似，第9-42页。美国剑桥大学出版社，1999年。
莱昂·博图（Léon Bottou）、弗兰克·E·柯蒂斯（Frank E.Curtis）和豪尔赫·诺塞达尔（Jorge Nocedal）。大规模机器学习的优化方法。SIAM评论，60（2）：223-3112018。
陈凌娇、王宏毅、查查里·查尔斯和迪米特里斯·帕皮利奥普洛斯。DRACO：通过冗余梯度进行拜占庭式的分布式训练。Jennifer Dy和Andreas Krause，编辑，《第35届国际机器学习会议论文集》，ICML 2018，Stockholmsmässan，瑞典斯德哥尔摩，2018年7月10日至15日，《机器学习研究论文集》第80卷，第903-912页。PMLR，2018年。
陈玉东、苏丽丽和徐嘉明。对抗环境中的分布式统计机器学习：拜占庭梯度下降。ACM计算机系统测量与分析会议记录，1（2）：442017。
乔治奥斯·达马斯基诺斯（Georgios Damaskinos）、马赫迪·穆罕默德（El Mahdi El Mhamdi）、拉希德·格拉乌伊（Rachid Guerraoui）、阿尔萨尼·吉尔古斯（Arsany Guiguis）和塞巴斯蒂安·鲁奥。Aggregathor：通过强大的梯度聚合实现拜占庭式机器学习。2019年，SysML。
Georgios Damaskinos、El Mahdi El Mhamdi、Rachid Guerraoui、Rhichek Patra、Mahsa Taziki等人。拜占庭异步机器学习（sgd案例）。在ICML中，第1153-1162页，2018年。
El Mahdi El Mhamdi、Rachid Guerraoui、Arsany Guirguis和LêNguyên Hoang。天才分布式拜占庭机器学习。PODC，2020年。
El Mahdi El Mhamdi、Rachid Guerraoui和Sébastien Rouault。拜占庭分布式学习的潜在漏洞。第35届国际机器学习会议记录，第3521-3530页。PMLR，2018年。
尤里·法蒂耶夫、弗拉基米尔·沙杜罗夫、叶夫根尼·加林、德米特里·德米特里耶夫和瓦列里·泰普金。非零数学期望中随机变量平方和的概率分布函数。西伯利亚联邦大学学报。数学与物理，2016年9月173-179日。
马蒂亚斯·福格尔和托马斯·诺瓦克。快速多维渐近和近似一致性。在第32届分布式计算国际研讨会（DISC 2018）上，莱布尼茨国际信息学论文集（LIPIcs）第121卷，第27:1-27:16页。Dagstuhl-Leibniz-Zentrum fuer Informatik学校，2018年。
E.J.甘贝尔。极值统计。多本数学书籍。多佛出版社，2004年。
罗伯特·赫赫特·尼尔森。反向传播神经网络理论。感知神经网络，第65-93页。爱思唯尔，1992年。
C.A.R.霍尔。算法65：查找。Commun公司。美国医学会，4（7）：321–3221961年。
亚瑟·杰科特（Arthur Jacot）、弗兰克·加布里埃尔（Frank Gabriel）和克莱门特·洪勒（Clément Hongler）。神经切线核：神经网络中的收敛和泛化。《神经信息处理系统进展》，第8571-8580页，2018年。
S.Kotz和S.Nadarajah。极值分布。世界科学出版公司，2000年。
汉谟拉比·门德斯（Hammurabi Mendes）、莫里斯·赫利希（Maurice Herlihy）、尼丁·维迪亚（Nitin Vaidya）和维杰·加格（Vijay Garg）。拜占庭体系中的多维协议。分布式计算，28:1-19，2015。
F.Mosteller和J.W.Tukey。数据分析与回归：统计学第二课程。艾迪生-韦斯利行为科学系列，1977年。
Lam M.Nguyen、Phuong Ha Ngueen、Marten van Dijk、Peter Richtárik、Katya Scheinberg和Martin Takánch。警长和霍格沃德！2018年，在没有有界梯度假设的情况下收敛。
B.T.波利亚克和A.B.朱迪茨基。通过平均加速随机近似。SIAM控制与优化杂志，30（4）：838–8551992年。
彼得·卢梭。高崩溃点的多元估计。数学统计与应用，8:283-2971985。
David E Rumelhart、Geoffrey E Hinton和Ronald J Williams。通过错误传播学习内部表示。技术报告，加利福尼亚大学圣地亚哥拉荷亚认知科学研究所，1985年。
弗雷德·施耐德。使用状态机方法实现容错服务：教程。ACM计算机。调查。，22（4）：299–3191990年。
V.Vapnik。学习理论的风险最小化原则。J.E.Moody、S.J.Hanson和R.P.Lippmann主编，《神经信息处理系统进展》4，第831-838页。Morgan-Kaufmann，1992年。
Cong Xie、Oluwasanmi Koyejo和Indranil Gupta。通用拜占庭容忍标准，2018年。
Cong Xie、Oluwasanmi Koyejo和Indranil Gupta。福卡斯：维拜占庭恢复随机梯度下降，2018年。
Cong Xie、Oluwasanmi Koyejo和Indranil Gupta。帝国的衰落：通过内部产品操纵打破拜占庭式的容忍战略。在UAI中，机器学习研究论文集第115卷，第261-270页。PMLR，2020年。
董寅、陈玉东、兰昌德兰·坎南和彼得·巴特利特。拜占庭式分布式学习：走向最佳统计率。《第35届国际机器学习会议论文集》，《机器学习研究论文集》第80卷，第5650-5659页。PMLR，2018年。

AKSEL：快速拜占庭SGD

作者阿明·布塞塔, El-Mahdi El-Mhamdi埃尔·马赫迪, 拉希德·格雷劳伊, 亚历山大·莫勒, 塞巴斯蒂安·鲁奥

文件

文件标识符

作者详细信息

引用为获取BibTex

摘要

主题分类

ACM科目分类

关键词

韵律学

参考文献

感谢您的反馈！

无法发送消息

AKSEL：快速拜占庭SGD

作者 阿明·布塞塔, El-Mahdi El-Mhamdi埃尔·马赫迪, 拉希德·格雷劳伊, 亚历山大·莫勒, 塞巴斯蒂安·鲁奥

文件

文件标识符

作者详细信息

引用为获取BibTex

摘要

主题分类

ACM科目分类

关键词

韵律学

参考文献

感谢您的反馈！

无法发送消息

作者阿明·布塞塔, El-Mahdi El-Mhamdi埃尔·马赫迪, 拉希德·格雷劳伊, 亚历山大·莫勒, 塞巴斯蒂安·鲁奥