{“status”:“ok”,“message type”:“work”,“message version”:“1.0.0”,“message”:{“indexed”:{“date parts”:[[2024,6,4]],“date-time”:“2024-06-04T11:13:21Z”,“timestamp”:1717499601311},“reference count”:33,“publisher”:“Association for Computing Machinery(ACM)”,“issue”:“7”,“content domain”:{“domain”:[],“crossmark restriction”:false},“short container title”:[“Proc.VLDB Endow.”],“published-print”:{“date-parts”:[[2014,3]]},“abstract”:“SystemML旨在MapReduce之上的声明式大规模机器学习(ML),其中将具有类似R语法的高级ML脚本编译为MR作业的程序。与现有的大规模机器学习库相比,ML算法的声明性规范能够实现自动优化。SystemML的主要关注点是数据并行性,但许多ML算法本身也有实现任务并行的机会。一个主要挑战是如何有效地将任意ML脚本和工作负载的两种并行性结合起来。本文提出了一种基于MapReduce的大规模机器学习任务和数据并行相结合的系统方法。我们使用了一种通用的并行FOR构造(ParFOR),这是从高性能计算(HPC)中获得的。我们的核心贡献是(1)利用多核和集群并行性的互补并行化策略,以及(2)自动创建最佳并行执行计划的新的基于成本的优化框架。在各种用例上的实验表明,由于自动适应特殊工作负载和未知数据特征,这实现了效率和可伸缩性<\/jats:p>“,”DOI“:”10.14778\/2732286.2732292“,”type“:”journal-article“,”created“:{”date-parts“:[[2015,5,12],”date-time“:”2015-05-12T15:37:52Z“,”timestamp“:1431445072000},”page“:“553-564”,“source”:“Crossref”,“is-referenced-by-count”:58,“title”:[“SystemML中大规模机器学习的混合并行化策略”],“前缀”:“10.14778”,“卷“:”7“,”作者“:[{“given”:“Matthias”,“family”:“Boehm”,“sequence”:“first”,“affiliation”:[{name”:“IBM Research,Almaden,San Jose,CA”}]},{given“giving”:“Shirish”,“家庭”:“Tatikonda”,“序列”:“additional”,“从属关系”:[[{name“:”IBM Researchs,Almaden,San Jose,CA“}]},{giving“:”Berthold“,”family“:“Reinwald”,“序列“:”附加“,”affiliation“:[{”name“:”IBM Research,Almaden,San Jose,CA“}]},{”given“:”Prithviraj“,”family“:”Sen“,”sequence“:”additional“,”affiliance“:[[{“name”:“IBM Researching,Almaden,San Jose,CA”}]}.,{“given”:“Yuan”,“family”:“Tian”,“sequence”:“additional”,“affiliationation”:[{“name”:“IBM Resourch,Almasden,圣何塞,CA”R.“,”家庭“:”Burdick“,”sequence“:”additional“,”affiliation“:[{”name“:”IBM Research,Almaden,San Jose,CA“}]},{”given“:”Shivakumar“,”family“:”Vaithyanathan“,“sequence”:“additional”,”affaliation“:[{“name”:“IBM Research:”320“,”published-on-line“:2_1_1_1“,”卷标签“:”NSDI“,”作者:“阿加瓦尔·S”,“年份”:“2012年”,“非结构化”:“S.阿加瓦尔、S.坎杜拉、N.布鲁诺、M.C.吴、I.斯托伊卡和J.周。重新优化数据并行计算。NSDI,2012年。S.Agarwal、S.Kandula、N.Bruno、M.-C.Wu、I.Stoica和J.Zhou。重新优化数据并行计算。在NSDI,2012年。“},{”key“:”e_1_1_2_1“,”unstructured“:”Apache.Mahout.Mahout.Apache.org.Apache.Mahout.mhout.Apache.org.“}”,{“key”:“e_2_1_3_1”,“doi-asserted-by”:“publisher”,”doi“:”10.14778\/340253402761“};{”issue“:”2“,”key:“e_ 1_4_1”、“首页”:“24”,“卷”:“35”,“作者”:“Borkar V.R.”,“年份”:“2012年”,“非结构化”:“V.R.Borkar,Y。Bu、M.J.Carey、J.Rosen、N.Polyzotis、T.Condie、M.Weimer和R.Ramakrishnan。大规模机器学习的声明性系统。IEEE数据工程出版社,35 ( 2 ): 24 -- 32 , 2012 . V.R.Borkar、Y.Bu、M.J.Carey、J.Rosen、N.Polyzotis、T.Condie、M.Weimer和R.Ramakrishnan。大规模机器学习的声明性系统。IEEE数据工程公告。,35(2):24-322012年。”,“新闻标题”:“大规模机器学习的声明性系统。IEEE数据工程牛。“},{”key“:”e_1_2_1_5_1“,”volume-title“:”NIPS“,”author“:”Chu C.-T.“,”year“:”2006“,”unstructured“:”C.-T.Chu,S.K.Kim,Y.-A.Lin,Y.Y.Yu,G.R.Bradski,A.Y.Ng,and K.Olukotun.Map-Reduce for Machine Learning on Multicore。In NIPS,2006.C.-T.Chu,S.K.Kim。奥卢科顿。多核机器学习的Map-Reduce。在NIPS,2006.“},{”key“:”e_1_1_6_1“,”doi-asserted-by“:”publisher“,“doi”:“10.14778\/1687553.1687576”},“key”:“e_2_1_7_1”,“doi-assert-by”:“publisher”,”doi“:”10.1145\/1807167.1807275“}非结构化“:”J.Dean和S。吉马瓦特。MapReduce:简化大型集群的数据处理。OSDI,2004年。J.Dean和S.Ghemawat。MapReduce:简化大型集群上的数据处理。在OSDI,2004年。“},{“key”:“e_1_2_1_9_1”,“volume-title”:“CRAN任务视图:R.R项目的高性能和并行计算”,“author”:“Eddelbuettel Dirk”,《year》:“2013”,“unstructured”:“Dirk Eddelbuetel。CRAN任务查看:R.R的高性能与并行计算。R项目,2013年。cran.r-project.org\/web\/views\/HighPerformanceComputing.html。德克·埃德布特尔。CRAN任务视图:R.R项目的高性能和并行计算,2013年。cran.r-project.org\/web\/views\/HighPerformanceComputing.html。“},{”key“:”e_1_1_11_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1109\/ICDE.2011.5767930”},“{”key“:“e_1_I_12_12_1”,“volume-title”:“NIPS”,“author”:“Graf H.P.”,”year“:”2004“,”unstructured“:”H.P.Graf,e.Cosatto,L.Bottou,I.Durdanovic,and V.Vapnik.并行支持向量机:级联SVM.In NIPS,2004.H.P.格拉夫、e。Cosatto、L.Bottou、I.Durdanovic和V.Vapnik。并行支持向量机:级联SVM。在NIPS,2004年。“},{”key“:”e_1_2_1_13_1“,”doi-asserted-by“:”publisher“,“doi”:“10.14778\/3402707.3402746”},“key”:“e_1_i_14_1”,“volume-title”:“CIDR”,“author”:“Herodotou H”,“year”:“2011”,“unstructured”:“H.Herodoo,H.Lim,G.Luo,N.Borisov,L.Dong,F.B.Cetin,and S。巴布。海星:大数据分析的自我调整系统。CIDR,2011年。H.Herodotou、H.Lim、G.Luo、N.Borisov、L.Dong、F.B.Cetin和S.Babu。海星:大数据分析的自我调整系统。在CIDR,2011年。“},{”key“:”e_1_2_1_18_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/125826.126137“},{“key”:“e_1_2_1_19_1”,“volume-title”:“现代架构的优化编译器:基于依赖的方法”,“author”:“Kennedy K.”,“year”:“2002”,“unstructured”:“K.Kennedy和J.R.Allen。《现代架构的最优化编译器:基于依存的方法》。Morgan Kaufmann Publishers Inc.,2002.K。肯尼迪和J.R.艾伦。为现代体系结构优化编译器:基于依赖的方法。Morgan Kaufmann Publishers Inc.,2002.“},{”key“:”e_1_2_1_20_1“,”volume-title“:”CIDR“,”author“:”Kraska T“,”year“:”2013“,”unstructured“:”T.Kraska,A.Talwalkar,J.Duchi,R.Griffith,M.J.Franklin,and M.Jordan。MLbase:分布式机器学习系统。在CIDR中,2013。富兰克林和M.乔丹。MLbase:一个分布式机器学习系统。在CIDR,2013年。“},{”key“:”e_1_1_21_1“,”doi-asserted-by“:”publisher“,“doi”:“10.14778\/2350229.2350239”},“key”:“e_2_1_22_1”,“doi-assert-by”:“publisher”,”doi“:”10.5555\/1390681.1390703“}”,{“},{”key“:”e_1_2_1_24_1“,”doi-asserted-by“:”publisher“,“doi”:“10.14778/2212351.2212354“},{“key”:“e_1_2_1_25_1”,“doi由”:“publisher”断言,“doi”:“10.14778\/1920841.1920906”},{“key”:“e_1_2_26_1”,“doi由”:“publisher”断言,“doi”:“10.1145\/13766.1376726”},{“key”:“e_1_2_1_27_1”,“doi由”:“publisher”断言,“doi”:“10.1109\/TC.1987.5009495”},{key“:”e_1_2_1_28_1“,”doi由“:”publisher“断言,”doi“:”10.1007\/s10766-008-0082-5“},{“key”:“e_1_2_1_29_1”,“unstructured”:“The MADlib Analytics Library.MADlib.net.The MADLab Analytics Library.MADlib.net.”},}“key:”e_1_i_1_30_1“,”doi-asserted-by“:”publisher“,“doi”:“10.14778\/1687553.1687609”}、{“密钥”:“e_1_2_1_31_31_1”、“doi-assert-by”:“publisher”,”doi“:”10.1109\/IC DE.2012.12“},{“键”:“e_1_2_1_32_1”,“volume-title“:”NSDI“,”author“:”Zaharia M.“,”year“:”2012“,”unstructured“:”M.Zaharia、M.Chowdhury、T.Das、A.Dave、J.Ma、M.McCauley、M.J.Franklin、S.Shenker和I.Stoica“。弹性分布式数据集:内存集群计算的容错抽象。NSDI,2012年。M.Zaharia、M.Chowdhury、T.Das、A.Dave、J.Ma、M.McCauley、M.J.Franklin、S.Shenker和I.Stoica。弹性分布式数据集:内存集群计算的容错抽象。在NSDI,2012年。“},{”key“:”e_1_2_1_33_1“,”volume-title“:”CIDR“,”author“:”Zhang Y.“,”year“:”2009“,”unstructured“:”Y.Zhang,H.Herodotou,and J.Yang。RIOT:I/O-Efficient Numerical Computing without SQL。在CIDR,2009年e_1_2_1_34_1“,”doi-asserted-by“:”publisher“,“doi”:“10.14778\/2212351.2212358”}],“container-title”:[“VLDB捐赠会议记录”],“原始标题”:[],“language”:“en”,“link”:[{“URL”:“https:\/\/dl.acm.org\/doi\/pdf\/10.14778\/2732286.2732292”,“内容类型”:“未指定”,“content-version”:“vor”,“意向应用程序“:”相似性检查“}],”存放“:{“date-parts”:[[2022,12,28]],“date-time”:“2022-12-28T11:01:01Z”,“timestamp”:1672225261000},“score”:1,“resource”:{”primary“:{”URL“:”https:\/\/dl.acm.org\/doi\/10.14778\/2732292“:33,”新闻发布“:{”发布“:”7“,”发布发布“:date-parts“:[[2014,3]]}},”alternative-id“:[”10.14778\/2732286.2732292“],”URL“:”http://\/dx.doi.org\/10.14778\/2732286.2732292]}}}