｛“status”：“ok”，“message type”：“work”，“message version”：“1.0.0”，“message”：｛“indexed”：｛“date parts”：[[2024,6,4]]，“date-time”：“2024-06-04T11:13:21Z”，“timestamp”：1717499601311｝，“reference count”：33，“publisher”：“Association for Computing Machinery（ACM）”，“issue”：“7”，“content domain”：｛“domain”：[]，“crossmark restriction”：false｝，“short container title”：[“Proc.VLDB Endow.”]，“published-print”：{“date-parts”：[[2014,3]]}，“abstract”：“SystemML旨在MapReduce之上的声明式大规模机器学习（ML），其中将具有类似R语法的高级ML脚本编译为MR作业的程序。与现有的大规模机器学习库相比，ML算法的声明性规范能够实现自动优化。SystemML的主要关注点是数据并行性，但许多ML算法本身也有实现任务并行的机会。一个主要挑战是如何有效地将任意ML脚本和工作负载的两种并行性结合起来。本文提出了一种基于MapReduce的大规模机器学习任务和数据并行相结合的系统方法。我们使用了一种通用的并行FOR构造（ParFOR），这是从高性能计算（HPC）中获得的。我们的核心贡献是（1）利用多核和集群并行性的互补并行化策略，以及（2）自动创建最佳并行执行计划的新的基于成本的优化框架。在各种用例上的实验表明，由于自动适应特殊工作负载和未知数据特征，这实现了效率和可伸缩性<\/jats:p>“，”DOI“：”10.14778\/2732286.2732292“，”type“：”journal-article“，”created“：{”date-parts“：[[2015,5,12]，”date-time“：”2015-05-12T15:37:52Z“，”timestamp“：1431445072000}，”page“：“553-564”，“source”：“Crossref”，“is-referenced-by-count”：58，“title”：[“SystemML中大规模机器学习的混合并行化策略”]，“前缀”：“10.14778”，“卷“：”7“，”作者“：[{“given”：“Matthias”，“family”：“Boehm”，“sequence”：“first”，“affiliation”：[{name”：“IBM Research，Almaden，San Jose，CA”}]}，{given“giving”：“Shirish”，“家庭”：“Tatikonda”，“序列”：“additional”，“从属关系”：[[{name“：”IBM Researchs，Almaden，San Jose，CA“}]}，{giving“：”Berthold“，”family“：“Reinwald”，“序列“：”附加“，”affiliation“：[{”name“：”IBM Research，Almaden，San Jose，CA“}]}，{”given“：”Prithviraj“，”family“：”Sen“，”sequence“：”additional“，”affiliance“：[[{“name”：“IBM Researching，Almaden，San Jose，CA”}]}.，{“given”：“Yuan”，“family”：“Tian”，“sequence”：“additional”，“affiliationation”：[{“name”:“IBM Resourch，Almasden，圣何塞，CA”R.“，”家庭“：”Burdick“，”sequence“：”additional“，”affiliation“：[{”name“：”IBM Research，Almaden，San Jose，CA“}]}，{”given“：”Shivakumar“，”family“：”Vaithyanathan“，“sequence”：“additional”，”affaliation“:[{“name”：“IBM Research:”320“，”published-on-line“：2_1_1_1“，”卷标签“：”NSDI“，”作者：“阿加瓦尔·S”，“年份”：“2012年”，“非结构化”：“S.阿加瓦尔、S.坎杜拉、N.布鲁诺、M.C.吴、I.斯托伊卡和J.周。重新优化数据并行计算。NSDI，2012年。S.Agarwal、S.Kandula、N.Bruno、M.-C.Wu、I.Stoica和J.Zhou。重新优化数据并行计算。在NSDI，2012年。“}，{”key“：”e_1_1_2_1“，”unstructured“：”Apache.Mahout.Mahout.Apache.org.Apache.Mahout.mhout.Apache.org.“}”，{“key”：“e_2_1_3_1”，“doi-asserted-by”：“publisher”，”doi“：”10.14778\/340253402761“}；{”issue“：”2“，”key：“e_ 1_4_1”、“首页”：“24”，“卷”：“35”，“作者”：“Borkar V.R.”，“年份”：“2012年”，“非结构化”：“V.R.Borkar，Y。Bu、M.J.Carey、J.Rosen、N.Polyzotis、T.Condie、M.Weimer和R.Ramakrishnan。大规模机器学习的声明性系统。IEEE数据工程出版社，35 ( 2 ): 24 -- 32 , 2012 . V.R.Borkar、Y.Bu、M.J.Carey、J.Rosen、N.Polyzotis、T.Condie、M.Weimer和R.Ramakrishnan。大规模机器学习的声明性系统。IEEE数据工程公告。，35（2）：24-322012年。”，“新闻标题”：“大规模机器学习的声明性系统。IEEE数据工程牛。“}，{”key“：”e_1_2_1_5_1“，”volume-title“：”NIPS“，”author“：”Chu C.-T.“，”year“：”2006“，”unstructured“：”C.-T.Chu，S.K.Kim，Y.-A.Lin，Y.Y.Yu，G.R.Bradski，A.Y.Ng，and K.Olukotun.Map-Reduce for Machine Learning on Multicore。In NIPS，2006.C.-T.Chu，S.K.Kim。奥卢科顿。多核机器学习的Map-Reduce。在NIPS，2006.“}，{”key“：”e_1_1_6_1“，”doi-asserted-by“：”publisher“，“doi”：“10.14778\/1687553.1687576”}，“key”：“e_2_1_7_1”，“doi-assert-by”：“publisher”，”doi“：”10.1145\/1807167.1807275“}非结构化“：”J.Dean和S。吉马瓦特。MapReduce：简化大型集群的数据处理。OSDI，2004年。J.Dean和S.Ghemawat。MapReduce：简化大型集群上的数据处理。在OSDI，2004年。“}，{“key”：“e_1_2_1_9_1”，“volume-title”：“CRAN任务视图：R.R项目的高性能和并行计算”，“author”：“Eddelbuettel Dirk”，《year》：“2013”，“unstructured”：“Dirk Eddelbuetel。CRAN任务查看：R.R的高性能与并行计算。R项目，2013年。cran.r-project.org\/web\/views\/HighPerformanceComputing.html。德克·埃德布特尔。CRAN任务视图：R.R项目的高性能和并行计算，2013年。cran.r-project.org\/web\/views\/HighPerformanceComputing.html。“}，{”key“：”e_1_1_11_1“，”doi-asserted-by“：”publisher“，“doi”：“10.1109\/ICDE.2011.5767930”}，“{”key“：“e_1_I_12_12_1”，“volume-title”：“NIPS”，“author”：“Graf H.P.”，”year“：”2004“，”unstructured“：”H.P.Graf，e.Cosatto，L.Bottou，I.Durdanovic，and V.Vapnik.并行支持向量机：级联SVM.In NIPS，2004.H.P.格拉夫、e。Cosatto、L.Bottou、I.Durdanovic和V.Vapnik。并行支持向量机：级联SVM。在NIPS，2004年。“}，{”key“：”e_1_2_1_13_1“，”doi-asserted-by“：”publisher“，“doi”：“10.14778\/3402707.3402746”}，“key”：“e_1_i_14_1”，“volume-title”：“CIDR”，“author”：“Herodotou H”，“year”：“2011”，“unstructured”：“H.Herodoo，H.Lim，G.Luo，N.Borisov，L.Dong，F.B.Cetin，and S。巴布。海星：大数据分析的自我调整系统。CIDR，2011年。H.Herodotou、H.Lim、G.Luo、N.Borisov、L.Dong、F.B.Cetin和S.Babu。海星：大数据分析的自我调整系统。在CIDR，2011年。“}，{”key“：”e_1_2_1_18_1“，”doi-asserted-by“：”publisher“，“doi”：“10.1145\/125826.126137“}，{“key”：“e_1_2_1_19_1”，“volume-title”：“现代架构的优化编译器：基于依赖的方法”，“author”：“Kennedy K.”，“year”：“2002”，“unstructured”：“K.Kennedy和J.R.Allen。《现代架构的最优化编译器：基于依存的方法》。Morgan Kaufmann Publishers Inc.，2002.K。肯尼迪和J.R.艾伦。为现代体系结构优化编译器：基于依赖的方法。Morgan Kaufmann Publishers Inc.，2002.“}，{”key“：”e_1_2_1_20_1“，”volume-title“：”CIDR“，”author“：”Kraska T“，”year“：”2013“，”unstructured“：”T.Kraska，A.Talwalkar，J.Duchi，R.Griffith，M.J.Franklin，and M.Jordan。MLbase：分布式机器学习系统。在CIDR中，2013。富兰克林和M.乔丹。MLbase：一个分布式机器学习系统。在CIDR，2013年。“}，{”key“：”e_1_1_21_1“，”doi-asserted-by“：”publisher“，“doi”：“10.14778\/2350229.2350239”}，“key”：“e_2_1_22_1”，“doi-assert-by”：“publisher”，”doi“：”10.5555\/1390681.1390703“}”，{“}，{”key“：”e_1_2_1_24_1“，”doi-asserted-by“：”publisher“，“doi”：“10.14778/2212351.2212354“｝，{“key”：“e_1_2_1_25_1”，“doi由”：“publisher”断言，“doi”：“10.14778\/1920841.1920906”}，{“key”：“e_1_2_26_1”，“doi由”：“publisher”断言，“doi”：“10.1145\/13766.1376726”}，{“key”：“e_1_2_1_27_1”，“doi由”：“publisher”断言，“doi”：“10.1109\/TC.1987.5009495”}，{key“：”e_1_2_1_28_1“，”doi由“：”publisher“断言，”doi“：”10.1007\/s10766-008-0082-5“}，{“key”：“e_1_2_1_29_1”，“unstructured”：“The MADlib Analytics Library.MADlib.net.The MADLab Analytics Library.MADlib.net.”}，}“key:”e_1_i_1_30_1“，”doi-asserted-by“：”publisher“，“doi”：“10.14778\/1687553.1687609”}、{“密钥”：“e_1_2_1_31_31_1”、“doi-assert-by”：“publisher”，”doi“：”10.1109\/IC DE.2012.12“}，{“键”：“e_1_2_1_32_1”，“volume-title“：”NSDI“，”author“：”Zaharia M.“，”year“：”2012“，”unstructured“：”M.Zaharia、M.Chowdhury、T.Das、A.Dave、J.Ma、M.McCauley、M.J.Franklin、S.Shenker和I.Stoica“。弹性分布式数据集：内存集群计算的容错抽象。NSDI，2012年。M.Zaharia、M.Chowdhury、T.Das、A.Dave、J.Ma、M.McCauley、M.J.Franklin、S.Shenker和I.Stoica。弹性分布式数据集：内存集群计算的容错抽象。在NSDI，2012年。“}，{”key“：”e_1_2_1_33_1“，”volume-title“：”CIDR“，”author“：”Zhang Y.“，”year“：”2009“，”unstructured“：”Y.Zhang，H.Herodotou，and J.Yang。RIOT:I/O-Efficient Numerical Computing without SQL。在CIDR，2009年e_1_2_1_34_1“，”doi-asserted-by“：”publisher“，“doi”：“10.14778\/2212351.2212358”}]，“container-title”：[“VLDB捐赠会议记录”]，“原始标题”：[]，“language”：“en”，“link”：[{“URL”：“https:\/\/dl.acm.org\/doi\/pdf\/10.14778\/2732286.2732292”，“内容类型”：“未指定”，“content-version”：“vor”，“意向应用程序“：”相似性检查“}]，”存放“：{“date-parts”：[[2022,12,28]]，“date-time”：“2022-12-28T11:01:01Z”，“timestamp”：1672225261000}，“score”：1，“resource”：{”primary“:{”URL“：”https:\/\/dl.acm.org\/doi\/10.14778\/2732292“：33，”新闻发布“：{”发布“：”7“，”发布发布“：date-parts“：[[2014,3]]}}，”alternative-id“：[”10.14778\/2732286.2732292“]，”URL“：”http://\/dx.doi.org\/10.14778\/2732286.2732292]}}}