跳到主要内容
10.1145/3302424.3303954acm会议文章/章节视图摘要出版物页面欧罗西斯会议记录会议集合
研究论文
开放式访问

分布式共享存储器上机器学习训练的自动依赖感知并行化

出版:2019年3月25日 出版历史

摘要

机器学习(ML)训练通常使用数据并行进行并行化。数据并行性的一个基本限制是,在ML训练期间冲突(并发)的参数访问通常会减少甚至抵消额外并行计算资源提供的好处。虽然可以通过仔细调度计算来避免冲突的参数访问,但现有系统依赖于程序员手动并行化,并且这种并行化何时可能仍然是一个问题。
我们介绍了Orion,一个在分布式共享内存上自动并行串行命令式ML程序的系统。Orion的核心是一种静态依赖性分析机制,用于确定保持依赖性的并行化何时有效,并将循环计算映射到优化的分布式计算调度。我们的评估表明,对于许多ML应用程序,Orion可以在保持关键依赖性的同时并行化串行程序,从而实现比数据并行程序更快的收敛速度,以及与最先进的手动并行化(包括模型并行程序)相匹配的收敛速度和可比的计算吞吐量。

工具书类

[1]
2009年,网飞奖数据。https://www.kaggle.com/netflix-inc/netflix-prize-data/。
[2]
2013年,ClueWeb。https://lemurproject.org/clueweb12/。
[3]
上次访问时间:2018年12月。Julia Micro-Benchmark公司。https://julialang.org/bechenchmarks/。
[4]
上次访问时间:2018年12月。MATLAB并行For循环。https://www.mathworks.com/help/matlab/ref/parfor.html。
[5]
马丁·阿巴迪、保罗·巴勒姆、陈建民、陈志峰、安迪·戴维斯、杰弗里·迪恩、马蒂厄·德文、桑杰·盖马沃特、杰弗里·欧文、迈克尔·伊萨德、曼朱纳特·库德勒、乔什·利文伯格、拉贾特·蒙加、雪利·摩尔、德里克·穆雷、贝诺伊特·施泰纳、保罗·塔克、维杰伊·瓦苏德万、皮特·沃登、马丁·威克、袁宇和郑晓强。2016年,TensorFlow:大规模机器学习系统。在第12届USENIX操作系统设计与实现研讨会(OSDI 16)上。265--283. https://www.usenix.org/system/files/conference/osdi16/osdi6-abadi.pdf
[6]
兰迪·艾伦和肯·肯尼迪。1987年,《FORTRAN程序到向量形式的自动转换》,《程序设计语言和系统ACM汇刊》9(1987),491--542。
[7]
Jeff Bezanson、Alan Edelman、Stefan Karpinski和Viral B.Shah。2017.Julia:数值计算的新方法。SIAM第59版,第1版(2017年),65-98。
[8]
David M.Blei、Andrew Y.Ng和Michael I.Jordan。2003.潜在迪里克莱分配。J.马赫。学习。第3号决议(2003年3月),993--1022。http://dl.acm.org/citation.cfm?id=944919.944937
[9]
Simone Campanoni、Glenn Holloway、Gu-Yeon Wei和David Brooks。2015.HELIX-UP:放松程序语义以释放并行性。第13届IEEE/ACM国际代码生成与优化研讨会(CGO’15)会议记录。IEEE计算机协会,美国华盛顿特区,235-245。http://dl.acm.org/citation.cfm?id=2738600.2738630
[10]
陈荣、史嘉欣、陈燕哲和陈海波。2015.PowerLyra:微分图计算和斜图划分。《第十届欧洲计算机系统会议记录》(EuroSys’15)。
[11]
崔恒刚(Henggang Cui)、詹姆斯·西帕(James Cipar)、何启荣(Qirong Ho)、金桂金(Jin Kyu Kim)、李升浩(Seunghak Lee)、阿比马努·库马尔(Abhimanu Kumar)、魏金良(Jinliang Wei)、魏戴(Wei Dai)、格雷戈里·甘格(Gregory R。2014.利用有限的陈旧性加速大数据分析。2014年USENIX年度技术会议(USENIXATC 14)。宾夕法尼亚州费城USENIX协会,37-48。
[12]
崔恒刚(Henggang Cui)、阿列克谢·图马诺夫(Alexey Tumanov)、魏金良(Jinliang Wei)、徐良红(Lianghong Xu)、戴伟(Wei Dai)、杰西·哈伯·库查斯基(Jesse Haber-Kucharsky)、何其荣(Qirong Ho)、格雷戈里·甘格(Gregory R.Gange。2014.利用并行ML计算的迭代性。《ACM云计算研讨会论文集》(SOCC’14)。ACM,美国纽约州纽约市,第5条,共14页。
[13]
莱昂纳多·达贡和拉梅什·梅农。1998年。OpenMP:共享内存编程的行业标准API。IEEE计算。科学。Eng.5,1(1998年1月),46-55。
[14]
阿兰·达特和伊夫·罗伯特。1995.参数域上一致和仿射循环嵌套的仿射逐语句调度。J.平行分布计算。29 (08 1995), 43--59.
[15]
约翰·杜奇(John Duchi)、伊拉德·哈赞(Elad Hazan)和约拉姆·辛格(Yoram Singer)。2011年,在线学习和随机优化的自适应子梯度方法。J.马赫。学习。第12号决议(2011年7月),2121--2159。http://dl.acm.org/ticitation.cfm?id=1953048.2021068
[16]
保罗·费尤特里尔(Paul Feautrier)。仿射调度问题的一些有效解决方案。一、一维时间。国际并行程序设计杂志21,5(1992年10月1日),313--347。
[17]
Paul Feautrier。1992.仿射调度问题的一些有效解。第二部分。多维时间。国际并行程序设计杂志21,6(1992年12月1日),389--420。
[18]
项福瑜、卢鸿毅、谢勋平、楼敬凯、托德·麦肯齐、周正伟、彭汉忠、何家华、张春福、王觉瑜、颜恩寿、张车伟、郭宗廷、张伯祖、王建元、黄一鸿、阮玉勋、林玉石、林寿德、林宣天和林志仁。2011。2010 KDD Cup的特色工程和分类器组合。在JMLR研讨会和会议记录中。
[19]
雷纳·杰穆拉(Rainer Gemulla)、埃里克·尼坎普(Erik Nijkamp)、彼得·哈斯(Peter J.Haas)和亚尼斯·西斯马尼斯(Yannis Sismanis)。2011.具有分布式随机梯度下降的大规模矩阵分解。第17届ACM SIGKDD知识发现和数据挖掘国际会议(KDD’11)论文集。ACM,美国纽约州纽约市,69-77。
[20]
Joseph E.Gonzalez、Yucheng Low、Haijie Gu、Danny Bickson和Carlos Guestrin,2012年。PowerGraph:自然图上的分布式图并行计算。作为第十届USENIX操作系统设计与实现研讨会(OSDI 12)的一部分提交。加利福尼亚州好莱坞USENIX,17-30。
[21]
何开明、张湘玉、任少清、孙建军。2015.图像识别的深度剩余学习。CoRR abs/1512.03385(2015)。arXiv:1512.03385http://arxiv.org/abs/1512.03385
[22]
何启荣(Qirong Ho)、詹姆斯·西帕(James Cipar)、崔恒刚(Henggang Cui)、李升浩(Seunghak Lee)、金敬奎(Jin Kyu Kim)、菲利普·吉本斯(Phillip B.Gibbons)、加思·吉布森(Garth A Gibson)、格雷格·甘格(Greg Ganger)和埃里克·普。2013.通过过时的同步并行参数服务器实现更有效的分布式ML。《神经信息处理系统进展》26,C.J.C.Burges、L.Bottou、M.Welling、Z.Ghahramani和K.Q.Weinberger(编辑)。Curran Associates公司,1223--1231。
[23]
Elad Hoffer、Itay Hubara和Daniel Soudry。2017.训练时间越长,泛化效果越好:缩小神经网络大批量训练中泛化的差距。《神经信息处理系统的进展》第30期:2017年12月4-9日,美国加利福尼亚州长滩,2017年神经信息处理体系年会,1729-1739。
[24]
Ken Kennedy和John R.Allen。2002.为现代架构优化编译器:基于依赖的方法。Morgan Kaufmann Publishers Inc.,美国加利福尼亚州旧金山。
[25]
Nitish Shirish Keskar、Dheevata Mudigere、Jorge Nocedal、Mikhail Smelyanskiy和Ping Tak Peter Tang。2016年,关于深度学习的大批量培训:泛化差距和极大极小。CoRR abs/1609.04836(2016)。arXiv:1609.04836http://arxiv.org/abs/1609.04836
[26]
金桂金、何启荣、李升浩、荀政、魏岱、加思·吉布森和埃里克·P·星。2016年,STRADS:计划模型并行机器学习的分布式框架。第十一届欧洲计算机系统会议记录(EuroSys’16)。ACM,美国纽约州纽约市,第5条,16页。
[27]
Yehuda Koren、Robert Bell和Chris Volinsky。2009.推荐系统的矩阵分解技术。计算机42,8(2009年8月),30-37。
[28]
亚历克斯·克利舍夫斯基(Alex Krizhevsky)、伊利亚·萨茨克弗(Ilya Sutskever)和杰弗里·欣顿(Geoffrey E.Hinton)。2012.使用深度卷积神经网络进行ImageNet分类。第25届神经信息处理系统国际会议论文集-第1卷(NIPS’12)。美国柯兰联合公司,1097--1105。http://dl.acm.org/citation.cfm?id=2999134.2999257
[29]
Mu Li、David G.Andersen、Jun Woo Park、Alexander J.Smola、Amr Ahmed、Vanja Josifovski、James Long、Eugene J.Shekita和Bor-Ying Su.2014。使用参数服务器扩展分布式机器学习。在第11届USENIX操作系统设计与实现研讨会(OSDI 14)上。USENIX协会,科罗拉多州布鲁姆菲尔德,583-598。
[30]
Amy W.Lim和Monica S.Lam。1998.最大化并行性并最小化仿射分区的同步。在并行计算中。ACM出版社,201-214。
[31]
Yucheng Low、Danny Bickson、Joseph Gonzalez、Carlos Guestrin、Aapo Kyrola和Joseph M.Hellerstein。2012.分布式图形实验室:云中机器学习和数据挖掘框架。程序。荷兰VLDB。第5、8页(2012年4月),第716--727页。
[32]
Yucheng Low、Joseph Gonzalez、Aapo Kyrola、Danny Bickson、Carlos Guestrin和Joseph M.Hellerstein。2010.GraphLab:并行机器学习的新框架。在阿拉伯联合酋长国。
[33]
Dror E.Maydan、John L.Hennessy和Monica S.Lam。1991年。高效准确的数据相关性分析。《1991年ACM SIGPLAN编程语言设计与实现会议论文集》(PLDI’91)。ACM,美国纽约州纽约市,1-14。
[34]
H.Brendan McMahan和Matthew Streeter。2014.异步分布式在线学习的延迟容忍算法。神经信息处理系统进展(NIPS)(2014年)。
[35]
菲利普·莫里茨(Philipp Moritz)、罗伯特·西哈拉(Robert Nishihara)、伊恩·斯托伊卡(Ion Stoica)和迈克尔·乔丹(Michael I.Jordan)。2015年,《SparkNet:在Spark培训深度网络》,CoRR abs/1511.06051(2015)。arXiv:1511.06051号http://arxiv.org/abs/1511.06051
[36]
德里克·穆雷(Derek G.Murray)、马尔特·施瓦茨科普夫(Malte Schwarzkopf)、克里斯托弗·斯莫顿(Christopher Smowton)、史蒂文·史密斯(Steven Smith)、安妮尔·马达瓦佩迪(Anil Madhavapedy)和。2011.CIEL:分布式数据流计算的通用执行引擎。第八届USENIX网络系统设计与实现会议记录(NSDI’11)。USENIX协会,美国加利福尼亚州伯克利,113-126。http://dl.acm.org/citation.cfm?id=1972457.1972470
[37]
Dorit Nuzman和Ayal Zaks。2008.外环矢量化:针对短SIMD架构进行了重新审视。第17届并行体系结构和编译技术国际会议论文集(PACT'08)。ACM,美国纽约州纽约市,2-11。
[38]
Keshav Pingali、Donald Nguyen、Milind Kulkarni、Martin Burtscher、M.Amber Hassaan、Rashid Kaleem、Tung-Hien Lee、Andrew Lenharth、Roman Manevich、Mario Méndez-Lojo、Dimitrios Prountzos和Xin Sui。2011.算法中的并行之道。在第32届ACM SIGPLAN编程语言设计与实现会议(PLDI’11)的会议记录中。ACM,美国纽约州纽约市,12-25。
[39]
本杰明·雷克特、克里斯托弗·雷、斯蒂芬·赖特和冯牛。2011年,霍格沃德:一种并行化随机梯度下降的无锁方法。《神经信息处理系统进展》24,J.Shawe-Taylor、R.S.Zemel、P.L.Bartlett、F.Pereira和K.Q.Weinberger(编辑)。柯兰联合公司,693-701。
[40]
马丁·里纳德。2006.放弃任务的容错计算的概率精度界限。在第20届超级计算国际年会(ICS'06)的会议记录中。ACM,美国纽约州纽约市,324--334。
[41]
阿德里安·桑普森(Adrian Sampson)、沃纳·迪特尔(Werner Ditel)、艾米莉·福图纳(Emily Fortuna)、达努申·纳纳普拉加萨姆(Danushen Gnanapragasam)、路易斯·塞泽(Luis Ceze)和丹·格罗斯曼。2011年,EnerJ:安全和一般低功耗计算的近似数据类型。SIGPLAN不是。46,6(2011年6月),164--174。
[42]
诺姆·沙泽尔(Noam Shazeer)、郑友龙(Youlong Cheng。2018年,Mesh-TensorFlow:超级计算机的深度学习。神经信息处理系统进展31。Curran Associates公司,10435--10444。
[43]
斯特利奥斯·西迪罗格卢·杜斯科斯(Stelios Sidiroglou-Douskos)、萨萨·米塞洛维奇(Sasa Misailovic)、亨利·霍夫曼(Henry Hoffmann)和马丁·里纳德(Martin Rinard)。2011年,利用环形射孔技术管理绩效与准确性的权衡。在第19届ACM SIGSOFT研讨会和第13届欧洲软件工程基础会议(ESEC/FSE’11)的会议记录中。ACM,美国纽约州纽约市,124-134。
[44]
Suvrit Sra、Adams Wei Yu、Mu Li和Alexander J.Smola。2016.AdaDelay:延迟自适应分布式随机优化。2016年5月9日至11日,西班牙加的斯,AISTATS 2016,第19届国际人工智能与统计会议记录。957--965. http://jmlr.org/proceedings/papers/v51/sra16.html
[45]
魏金良、戴伟、乔奥瑞克、何其荣、崔恒刚、格雷戈里·甘格、菲利普·吉本斯、加思·吉布森和埃里克·邢。2015.快速数据并行迭代分析的管理通信和一致性。第六届ACM云计算研讨会论文集(SoCC’15)。ACM,美国纽约州纽约市,381-394。
[46]
迈克尔·E·沃尔夫和莫妮卡·S·拉姆。1991.循环变换理论和最大化并行性的算法。IEEE并行和分布式系统汇刊2,2(1991年10月),452--472。
[47]
迈克尔·沃尔夫。1986年。高级环路交换。在ICPP中。
[48]
迈克尔·沃尔夫。1986年。回路倾斜:波前方法重新审视。国际并行程序设计杂志15,4(1986年8月1日),279--293。
[49]
肖文聪、薛吉龙、苗友珊、甄莉、陈晨、吴明、李伟和周立东。2017.Tux2:机器学习的分布式图形计算。第14届USENIX网络系统设计与实现研讨会(NSDI 17)。USENIX协会,马萨诸塞州波士顿,669-682。https://www.usenix.org/conference/nsdi17/technical-sessions/presentation/xiao
[50]
袁瑜、马丁·阿巴迪、保罗·巴勒姆、尤金·布雷夫多、迈克·伯罗斯、安迪·戴维斯、杰夫·迪恩、桑杰·盖马沃特、蒂姆·哈雷、彼得·霍金斯、迈克尔·伊萨德、曼朱纳特·库德鲁、拉贾特·蒙加、德里克·戈登·穆雷和郑晓强。2018.大规模机器学习中的动态控制流。《第十三届EuroSys会议记录》,2018年4月23日至26日,葡萄牙波尔图,EuroSys2018。18:1--18:15.
[51]
袁瑜、迈克尔·伊萨德、丹尼斯·费特利、米海·布迪乌、乌尔法尔·埃尔林森、普拉迪普·库马尔·冈达和乔恩·库里。2008.DryadLINQ:使用高级语言的通用分布式数据并行计算系统。在第八届USENIX操作系统设计与实现会议(OSDI’08)的会议记录中。USENIX协会,美国加利福尼亚州伯克利,1-14。http://dl.acm.org/citation.cfm?id=1855741.1855742
[52]
马泰·扎哈里亚(Matei Zaharia)、摩沙拉夫·乔杜里(Mosharaf Chowdhury)、如来·达斯(Tathagata Das)、安库尔·戴夫(Ankur Dave)、贾斯汀·马(Justin Ma)、墨菲·麦考利(Murphy McCauly)、迈克尔·富兰。2012.弹性分布式数据集:内存集群计算的容错抽象。作为第九届USENIX网络系统设计与实现研讨会(NSDI 12)的一部分提交。加利福尼亚州圣何塞市USENIX,15-28。
[53]
张明兴、吴永伟、陈康、钱学海、李雪、郑伟民。2016.探索图形处理中的隐藏维度。在第12届USENIX操作系统设计与实现研讨会(OSDI 16)上。佐治亚州萨凡纳USENIX协会,285--300。https://www.usenix.org/conference/osdi16/technical-sessions/presentation/zhang-mingxing
[54]
朱晓伟,陈文光,郑伟民,马晓松,2016。双子座:一个以计算为中心的分布式图形处理系统。在第12届USENIX操作系统设计与实现研讨会(OSDI 16)上。佐治亚州萨凡纳USENIX协会,301-316。https://www.usenix.org/conference/osdi16/technical-sessions/presentation/zhu

引用人

查看全部
  • (2022)并行随机梯度下降中同步的影响分布式计算与智能技术10.1007/978-3-030-94876-4_4(60-75)在线发布日期:2022年1月17日
  • (2021)一致无锁并行随机梯度下降快速稳定收敛2021 IEEE国际并行和分布式处理研讨会(IPDPS)10.1109/IPDPS4936.2021.00051(423-432)在线发布日期:2021年5月
  • (2019)AP带2019年USENIX USENIX年度技术会议记录10.5555/3358807.3358826(207-221)在线发布日期:2019年7月10日
  • 显示更多引用者

建议

评论

信息和贡献者

问询处

发布于

封面图片ACM会议
EuroSys’19:2019年第十四届EuroSysConference会议记录
2019年3月
714页
十亿英镑:9781450362818
内政部:10.1145/3302424
如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布、在服务器上发布或重新分发到列表,需要事先获得特定许可和/或收取费用。从请求权限[电子邮件保护].

赞助商

出版商

计算机协会

美国纽约州纽约市

出版历史

出版:2019年3月25日

权限

请求对此文章的权限。

检查更新

限定符

  • 研究文章
  • 研究
  • 推荐有限公司

资金来源

会议

EuroSys’19
主办单位:
2019年第十四届EuroSys大会
2019年3月25日至28日
德国德累斯顿

验收费率

1308份提交文件中的总体接受率241份,18%

即将召开的会议

25年欧洲系统
第二十届欧洲计算机系统会议
2025年3月30日-4月3日
鹿特丹,荷兰

贡献者

其他指标

文献计量学和引文

文献计量学

文章指标

  • 下载次数(过去12个月)141
  • 下载次数(最近6周)18
反映截至2024年9月17日的下载量

其他指标

引文

引用人

查看全部
  • (2022)并行随机梯度下降中同步的影响分布式计算与智能技术10.1007/978-3-030-94876-4_4(60-75)在线发布日期:2022年1月17日
  • (2021)一致无锁并行随机梯度下降快速稳定收敛2021 IEEE国际并行和分布式处理研讨会(IPDPS)10.1109/IPDPS4936.2021.00051(423-432)在线发布日期:2021年5月
  • (2019)AP带2019年USENIX USENIX年度技术会议记录10.5555/3358807.3358826(207-221)在线发布日期:2019年7月10日
  • (2019)撤回文章:分布式传感器网络的延迟敏感分布式数据故障识别算法对等网络和应用2007年10月10日/12083-019-00804-513:4(1080-1090)在线发布日期:2019年8月24日

视图选项

查看选项

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用联机查看电子阅读器.

电子阅读器

获取访问权限

登录选项

完全访问权限

媒体

数字

其他

桌子

分享

分享

共享此出版物链接

在社交媒体上分享