×

神经网络并行和分布式训练的框架。 (英语) Zbl 1434.68523号

摘要:本文的目的是开发一个用于在分布式环境中训练神经网络(NN)的通用框架,其中训练数据在一组代理上进行分区,这些代理通过稀疏、可能时变的连接模式相互通信。在这种分布式场景中,训练问题可以表述为非凸社会成本函数的(正则化)优化,由局部(非凸)成本之和给出,其中每个代理贡献一个相对于其局部数据集定义的错误项。为了设计一个灵活有效的解决方案,我们定制了一个最近提出的网络非凸优化框架,该框架依赖于一种(原始)凸分解技术来处理非凸性,以及一个动态共识过程来在代理之间传播信息。该框架中包括了训练准则(如平方损失、交叉熵等)和正则化(如(ell_2)范数、稀疏性诱导惩罚等)的几种典型选择,并在本文中进行了探讨。在温和的假设下,可以保证收敛到社会非凸问题的平稳解。此外,我们还展示了一种原则性方法,允许每个代理利用可能的多核体系结构(例如,本地云),以并行化其本地优化步骤,从而产生本质上既分布式(跨代理)又并行(在每个代理内)的策略。一组全面的实验结果验证了该方法的有效性。

MSC公司:

68T07型 人工神经网络与深度学习
68宽15 分布式算法
90C26型 非凸规划,全局优化
PDF格式BibTeX公司 XML格式引用

参考文献:

[2] 贝克,A。;Teboulle,M.,线性逆问题的快速迭代收缩阈值算法,SIAM成像科学杂志,2,183-202(2009)·Zbl 1175.94009号
[3] Bengio,Y.,《基于梯度的深层架构培训实用建议》(Neural networks:Tricks of the trade,2012),施普林格出版社,437-478
[4] Bergstra,J。;Breuleux,O。;巴斯蒂安,F。;兰姆林,P。;帕斯卡努,R。;Desjardins,G。;Turian,J。;Warde-Farley,D。;Bengio,Y.,Theano:python中的cpu和gpu数学编译器(第九届python-科学会议论文集(2010)),1-7
[5] Bertin-Mahieux,T。;Ellis,D.P。;惠特曼,B。;Lamere,P.,The million song dataset,(第十二届国际音乐信息检索学会会议(2011)),1-6
[6] Bianchi,P。;Jakubowicz,J.,用于非凸优化的多智能体投影随机梯度算法的收敛性,IEEE自动控制事务,58,2,391-405(2013)·Zbl 1369.90131号
[7] Bishop,C.M.,模式识别和机器学习(2006),SpringerInternational·Zbl 1107.68072号
[8] Blackwell,W.J.,用于大气高分辨率剖面分析的神经网络雅可比分析,《信号处理进展杂志》,2012,1,1(2012)
[9] 鲍里克·卢贝克,O。;Lubecke,V.M.,《无线上门服务:将通信技术用于医疗保健和监测》,IEEE微波杂志,3,3,43-48(2002)
[10] 博伊德,S。;Vandenberghe,L.,《凸优化》(2004),剑桥大学出版社·Zbl 1058.90049号
[11] 伯德·R·H。;Lu,P。;Nocedal,J。;Zhu,C.,边界约束优化的有限内存算法,SIAM科学计算杂志,16,5,1190-1208(1995)·Zbl 0836.65080号
[12] Cevher,V。;贝克尔,S。;Schmidt,M.,《大数据的凸优化:大数据分析的可伸缩、随机和并行算法》,IEEE Signal Processing Magazine,31,5,32-43(2014)
[13] 科尔特斯,P。;Cerdeira,A。;阿尔梅达,F。;马托斯,T。;Reis,J.,通过物理化学性质的数据挖掘建模葡萄酒偏好,决策支持系统,47,4,547-553(2009)
[14] 迪安·J。;Corrado,G。;蒙加,R。;Chen,K。;德文,M。;Mao,M.,大型分布式深层网络,(神经信息处理系统进展(2012)),1223-1231
[15] Demšar,J.,多数据集上分类器的统计比较,机器学习研究杂志(JMLR),7,1-30(2006)·Zbl 1222.68184号
[16] Di Lorenzo,P。;Sayed,A.H.,基于扩散适应的稀疏分布式学习,IEEE信号处理汇刊,61,6,1419-1433(2013)·Zbl 1393.94026号
[17] Di Lorenzo,P。;Scardapane,S.,通过逐次凸近似对神经网络进行并行和分布式训练,(2016年IEEE信号处理机器学习国际研讨会(2016年),IEEE),1-6
[18] Di Lorenzo,P。;Scutari,G.,下一步:网络内非凸优化,IEEE网络信号和信息处理汇刊,2,2,120-136(2016)
[19] 杜奇,J。;哈赞,E。;Singer,Y.,在线学习和随机优化的自适应次梯度方法,机器学习研究杂志(JMLR),2011年7月12日,2121-2159·兹比尔1280.68164
[20] 法奇尼,F。;斯库塔里,G。;Sagratella,S.,非凸大数据优化的并行选择算法,IEEE Transactions on Signal Processing,63,7,1874-1889(2015)·Zbl 1394.94174号
[21] 福雷罗,P.A。;卡诺,A。;Giannakis,G.B.,基于Consensus的分布式支持向量机,机器学习研究杂志(JMLR),1663-1707年5月11日(2010)·兹比尔1242.68222
[22] 高,W。;陈,J。;理查德,C。;Huang,J.,核最小均方网络上的扩散自适应,(多传感器自适应处理的计算进展,2015年IEEE第六届国际研讨会(2015年),IEEE),217-220
[23] 乔治普洛斯。;Hasler,M.,《基于共识的网络分布式机器学习》,神经计算,124,2-12(2014)
[24] 格洛洛特,X。;Bengio,Y.,《理解深度前馈神经网络训练的困难》(AISTATS,第9卷(2010)),249-256
[25] 格洛洛特,X。;Bordes,A。;Bengio,Y.,《深度稀疏整流器神经网络》(Proc.14th International conference on artificial intelligence and statistics(2011)),第315-323页
[26] 古德费罗,I.J。;沃德·法利,D。;米尔扎,M。;科尔维尔,A。;Bengio,Y.,Maxout networks,(第30届机器学习国际会议(2013)),1319-1327
[27] Haykin,S.,《神经网络和学习机器》(2009),皮尔逊出版社
[28] Ho,C.-H。;Lin,C.-J.,大尺度线性支持向量回归,《机器学习研究杂志》(JMLR),11月13日,3323-3348(2012)·Zbl 1433.68349号
[29] 黄,S。;Li,C.,用于网络非线性学习的分布式极端学习机,熵,17,2,818-840(2015)
[30] 拉扎雷维奇,A。;Obradovic,Z.,并行和分布式学习的推进算法,分布式和并行数据库,11,2,203-229(2002)·Zbl 1057.68742号
[31] LeCun,Y。;Y.本吉奥。;Hinton,G.,《深度学习》,《自然》,521,7553,436-444(2015)
[32] Lopes,C.G。;Sayed,A.H.,自适应网络上的扩散最小均方:公式和性能分析,IEEE信号处理汇刊,56,7,3122-3136(2008)·Zbl 1390.94283号
[33] 卢,Y。;罗伊乔杜里,V。;Vandenberghe,L.,强连接网络中的分布式并行支持向量机,IEEE神经网络汇刊,19,7,1167-1178(2008)
[34] 马特奥斯,G。;巴泽尔克,J.A。;Giannakis,G.B.,分布式稀疏线性回归,IEEE信号处理汇刊,58,10,5262-5276(2010)·Zbl 1391.62133号
[36] 莫迪,P.J。;沈伟民。;Tambe,M。;Yokoo,M.,《采用:具有质量保证的异步分布式约束优化》,《人工智能》,161,1-2,149-180(2005)·Zbl 1132.68706号
[37] 穆迪,J。;Hanson,S。;克罗,A。;Hertz,J.A.,简单的重量衰减可以改善泛化,《神经信息处理系统的进展》,4950-957(1995)
[38] Navia-Vázquez,A。;Gutierrez Gonzalez博士。;帕拉多·埃尔南德斯,E。;Navarro-Abellan,J.,分布式支持向量机,IEEE神经网络汇刊,17,4,1091-1097(2006)
[39] Nocedal,J。;Wright,S.,数值优化(2006),施普林格科学与商业媒体·Zbl 1104.65059号
[40] Ochs,P。;Dosovitskiy,A。;布罗克斯,T。;Pock,T.,《计算机视觉中非光滑非凸优化的迭代重加权算法》,SIAM成像科学杂志,8,1,331-372(2015)·Zbl 1326.65078号
[41] Perez-Cruz,F。;Kulkarni,S.R.,传感器网络中的鲁棒和低复杂度分布式核最小二乘学习,IEEE信号处理快报,17,4,355-358(2010)
[42] 波蒂,G.J。;Kaiser,W.J.,无线集成网络传感器,ACM通信,43,5,51-58(2000)
[43] Predd,J。;库尔卡尼,S。;Poor,H.,《无线传感器网络中的分布式学习》,IEEE Signal Processing Magazine,23,4,56-69(2006)
[44] Predd,J.B。;Kulkarni,S.R。;Poor,H.V.,分布式学习的协作训练算法,IEEE信息理论汇刊,55,4,1856-1871(2009)·Zbl 1368.68285号
[45] Quinlan,J.R.,结合基于实例和基于模型的学习,(第十届机器学习国际会议论文集(1993)),236-243
[46] 罗杰斯,A。;Farinelli,A。;斯特兰德斯,R。;Jennings,N.R.,通过最大和算法的有界近似分散协调,人工智能,175,2,730-759(2011)·Zbl 1216.68305号
[47] Sak,H。;葡萄酒,O。;Heigold,G。;高级,A。;麦克德莫特,E。;蒙加,R。;Mao,M.,长短期记忆递归神经网络的序列鉴别分布式训练,(Interspeech 2014(2014))
[48] 萨梅特,S。;Miri,A.,《隐私保护反向传播和极端学习机器算法》,《数据与知识工程》,第79、40-61页(2012年)
[49] Sayed,A.H.,自适应网络,IEEE会议录,102,4,460-497(2014)
[50] Sayed,A.H.,《网络上的适应、学习和优化,机器学习的基础和趋势》,7,4-5,311-801(2014)·Zbl 1315.68212号
[51] 斯卡达潘,S。;Comminiello,D。;侯赛因,A。;Uncini,A.,深度神经网络的群稀疏正则化,神经计算,241,81-89(2017)
[52] 斯卡达潘,S。;费里蒙特,R。;Di Lorenzo,P。;Panella,M。;Uncini,A.,分布式半监督支持向量机,神经网络,80,43-52(2016)·Zbl 1414.68073号
[53] 斯卡达潘,S。;王,D。;Panella,M.,分布式大数据应用中回声状态网络的分散训练算法,神经网络,78,65-74(2016)·Zbl 1414.68074号
[54] 斯卡达潘,S。;王,D。;Panella,M。;Uncini,A.,《随机向量功能链路网络的分布式学习》,信息科学,301,271-284(2015)·Zbl 1360.68711号
[55] Schmidhuber,J.,神经网络中的深度学习:综述,神经网络,61,85-117(2015)
[56] Schmidt,M.,图模型结构学习与l1-正则化(2010),不列颠哥伦比亚大学(温哥华),(博士论文)
[57] 孙,Y。;Scutari,G。;Palomar,D.,时变网络上的分布式非凸多智能体优化,(第50届Asilomar信号、系统和计算机年会论文集(2016))
[58] Tibshirani,R.,通过套索进行回归收缩和选择,英国皇家统计学会期刊。B辑:统计方法,267-288(1996)·Zbl 0850.62538号
[59] Vieira-Marques,P.M。;罗伯斯,S。;库库鲁尔,J。;Navarro,G.,使用移动代理安全集成分布式医疗数据,IEEE智能系统,6,47-54(2006)
[60] 肖,L。;Boyd,S.,分布式平均的快速线性迭代,《系统与控制快报》,53,1,65-78(2004)·Zbl 1157.90347号
[61] 肖,L。;博伊德,S。;Kim,S.-J.,具有最小均方偏差的分布式平均共识,《并行与分布式计算杂志》,67,1,33-46(2007)·Zbl 1109.68019号
[63] Zhang,Y。;Zhong,S.,神经网络集成分布式训练的隐私保护算法,神经计算与应用,22,1,269-282(2013)
[64] 朱,M。;Martínez,S.,离散时间动态平均共识,Automatica,46,2,322-329(2010)·Zbl 1205.93014号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。