跳到主要内容
10.5555/1855741.1855742交流会议文章/章节视图摘要出版物页面奥斯迪会议记录会议集合
第条

DryadLINQ:使用高级语言进行通用分布式数据并行计算的系统

出版:2008年12月8日出版历史

摘要

DryadLINQ是一个系统和一组语言扩展,可以为大规模分布式计算提供新的编程模型。它以两种方式概括了以前的执行环境,如SQL、MapReduce和Dryad:通过采用强类型的表达性数据模型。NET对象;并且通过在传统的高级编程语言中支持对数据集的通用命令式和声明式操作。

DryadLINQ程序是由LINQ表达式组成的顺序程序,对数据集执行任意无副作用的转换,可以使用标准编写和调试。NET开发工具。DryadLINQ系统自动且透明地将程序的数据并行部分转换为分布式执行计划,并将其传递给Dryad执行平台。Dryad在由数千台计算机组成的生产集群上连续运行了数年,确保了该计划的高效、可靠执行。

我们描述了DryadLINQ编译器和运行时的实现。我们对DryadLINQ进行了评估,评估对象是从诸如web-graph分析、大规模日志挖掘和机器学习等领域中提取的一组不同的程序。我们表明,可以获得优异的绝对性能--一种通用的1012在一个240台计算机、960个磁盘的集群上,字节的数据在319秒内执行,同时也展示了当我们改变一项工作所用计算机的数量时,在代表性应用程序上执行时间的近似线性缩放。

工具书类

  1. DryadLINQ项目。http://research.microsoft.com/research/sv/DryadLINQ/。谷歌学者谷歌学者
  2. LINQ项目。http://msdn.microsoft.com/netframework/fueture/linq/。谷歌学者谷歌学者
  3. 排序基准。http://research.microsoft.com/barc/SortBenchmark/。谷歌学者谷歌学者
  4. BARU,C.K.,FECTEAU,G.,GOYAL,A.,HSIAO,H.,JHINGRAN,A.,PADMANABHAN,S.,COPELAND,G.P.,AND WILSON,W.G.DB2并行版。IBM系统杂志34, 2, 1995.谷歌学者谷歌学者数字图书馆数字图书馆
  5. BECK,M.,DONGARRA,J.,AND PLANK,J.S.NetSolve/D:用于可扩展数据密集型协作的大规模并行网格执行系统。国际并行和分布式处理研讨会(IPDPS), 2005.谷歌学者谷歌学者数字图书馆数字图书馆
  6. BLELLOCH,G.E.编程并行算法。ACM(CACM)通信39, 3, 1996.谷歌学者谷歌学者数字图书馆数字图书馆
  7. BLUMOFE,R.D.、JOERG,C.F.、KUSZMAUL,B.、LEISERSON,C.E.、RANDALL,K.H.和ZHOU,Y.Cilk:一个高效的多线程运行时系统。ACM SIGPLAN并行编程原理与实践研讨会(PPoPP), 1995.谷歌学者谷歌学者数字图书馆数字图书馆
  8. BORAL,H.、ALEXANDER,W.、CLAY,L.、COPELAND,G.、DANFORTH,S.、FRANKLIN,M.、HART,B.、SMITH,M.和VALDURIEZ,P.原型化Bubba,一个高度并行的数据库系统。IEEE传输。在Knowl上。和数据工程2, 1, 1990.谷歌学者谷歌学者数字图书馆数字图书馆
  9. CARNAHAN,J.和DECOSTE,D.Pipelets:分布式计算框架。W4:在Web搜索中学习, 2005.谷歌学者谷歌学者
  10. CHAIKEN,R.、JENKINS,B.、LARSON,P.奥勒、。,RAMSEY,B.、SHAKIB,D.、WEAVER,S.和ZHOU,J.SCOPE:轻松高效地并行处理海量数据集。国际超大数据库会议(VLDB), 2008.谷歌学者谷歌学者数字图书馆数字图书馆
  11. CHANG,F.,DEAN,J.,GHEMAWAT,S.,HSIEH,W.C.,WALLACH,D.A.,BURROWS,M.,CHANDRA,T.,FIKES,A.,AND GRUBER,R.E.BigTable:结构化数据的分布式存储系统。操作系统设计与实现(OSDI)研讨会, 2006.谷歌学者谷歌学者数字图书馆数字图书馆
  12. CHIH YANG,H.,DASDAN,A.,HSIAO,R.-L.,AND PARKER,D.S.映射减少合并:简化大型集群上的关系数据处理。SIGMOD国际数据管理会议, 2007.谷歌学者谷歌学者数字图书馆数字图书馆
  13. CHU,L.、TANG,H.、YANG,T.和SHEN,K.为基于集群的互联网服务优化数据聚合。并行编程原理与实践研讨会,2003年。谷歌学者谷歌学者数字图书馆数字图书馆
  14. CRUANES,T.、DAGEVILLE,B.和GHOSH,B.Oracle 10g中的并行SQL执行。ACM SIGMOD公司, 2004.谷歌学者谷歌学者数字图书馆数字图书馆
  15. DEAN,J.和GHEMAWAT,S.MapReduce:大型集群上的简化数据处理。第六届操作系统设计与实现研讨会论文集, 2004.谷歌学者谷歌学者数字图书馆数字图书馆
  16. DESHPANDE,A.,IVES,Z.,AND RAMAN,V.自适应查询处理。数据库的基础和趋势1, 1, 2007.谷歌学者谷歌学者数字图书馆数字图书馆
  17. DEWITT,D.、GHANDEHARIZADEH,S.、SCHNEIDER,D.、HSIAO,H.、BRICKER,A.和RASMUSSEN,R.伽玛数据库机器项目。IEEE知识与数据工程汇刊2, 1, 1990.谷歌学者谷歌学者数字图书馆数字图书馆
  18. DEWITT,D.,AND GRAY,J.并行数据库系统:高性能数据库处理的未来。ACM通信36, 6, 1992.谷歌学者谷歌学者数字图书馆数字图书馆
  19. 数据并行编程的查询语言。2007年多核编程声明性方面研讨会会议记录, 2007.谷歌学者谷歌学者数字图书馆数字图书馆
  20. ENGLERT,S.,GLASSTONE,R.,AND HASAN,W.并行性及其代价:不间断SQL/MP的案例研究Sigmod记录, 1995.谷歌学者谷歌学者数字图书馆数字图书馆
  21. FENG,L.,LU,H.,TAY,Y.C.,AND TUNG,A.K.H.分布式数据库系统中的缓冲区管理:基于数据挖掘的方法。扩展数据库技术国际会议1998年,H.-J.Schek、F.Saltor、I.Ramos和G.Alonso编辑,第1377卷计算机科学课堂讲稿.谷歌学者谷歌学者数字图书馆数字图书馆
  22. GRAEFE,G.Volcano查询处理系统中并行性的封装。SIGMOD国际数据管理会议,1990年。谷歌学者谷歌学者数字图书馆数字图书馆
  23. GRAY,J.、SZALAY,A.、THAKAR,A.、KUNSZT,P.、STOUGHTON,C.、SLUTZ,D.和VANDENBERG,J.对SDSS SkyServer数据库进行数据挖掘。分布式数据和结构4:第四届国际会议记录,2002年。谷歌学者谷歌学者
  24. HASAN,W.、FLORESCU,D.和VALDURIEZ,P.并行查询优化中的开放性问题。SIGMOD记录25, 3, 1996.谷歌学者谷歌学者数字图书馆数字图书馆
  25. HELLERSTEIN,J.M.、STONEBRAKER,M.和HAMILTON,J.数据库系统的架构。数据库基础和趋势1, 2, 2007.谷歌学者谷歌学者数字图书馆数字图书馆
  26. ISARD,M.、BUDIU,M.,YU,Y.、BIRRELL,A.和FETTERLY,D.Dryad:来自顺序构建块的分布式数据并行程序。欧洲计算机系统会议记录(EuroSys), 2007.谷歌学者谷歌学者数字图书馆数字图书馆
  27. KABRA,N.,AND DEWITT,D.J.次优查询执行计划的高效查询中期重新优化。SIGMOD国际数据管理会议, 1998.谷歌学者谷歌学者数字图书馆数字图书馆
  28. KOSSMANN,D.分布式查询处理的最新技术。ACM计算。Surv公司。32, 4, 2000.谷歌学者谷歌学者数字图书馆数字图书馆
  29. MORVAN,F.和HAMEURLAIN,A.并行查询执行的动态内存分配策略。应用计算研讨会,2002年。谷歌学者谷歌学者数字图书馆数字图书馆
  30. OINN,T.,GREENWOOD,M.,ADDIS,M..,FERRIS,J.,GLOVER,K.,GOBLE,C.,HULL,D.,MARVIN,D.,LI,P.,LORD,P.、POCOCK,M.R.,SENGER,M.、WIPAT,A.和WROE,C.Taverna:为生命科学创建工作流环境的经验教训。并发与计算:实践与经验18, 10, 2005.谷歌学者谷歌学者数字图书馆数字图书馆
  31. OLSTON,C.、REED,B.、SRIVASTAVA,U.、KUMAR,R.和TOMKINS,A.猪拉丁语:数据处理的一种不太外语。国际数据管理会议(工业轨道), 2008.谷歌学者谷歌学者数字图书馆数字图书馆
  32. PIKE,R.、DORWARD,S.、GRIESEMER,R.和QUINLAN,S.解释数据:与Sawzall进行平行分析。科学规划13, 4, 2005.谷歌学者谷歌学者数字图书馆数字图书馆
  33. SIMMA,A.、GOLDSZMIDT,M.、MACCORMICK,J.、BARHAM,P.、BLACK,R.、ISAACS,R.和MORTIER,R.CT-NOR:表示和推理连续时间内的事件。人工智能不确定性国际会议, 2008.谷歌学者谷歌学者
  34. STONEBRAKER,M.、BEAR,C.、CHETINTEMEL,U.、CHERNIACK,M.,GE,T.、HACHEM,N.、HARIZOPOULOS,S.、LIFTER,J.、ROGERS,J.和ZDONIK,S.均码?第2部分:基准结果。创新数据系统研究会议, 2005.谷歌学者谷歌学者
  35. STONEBRAKER,M.,MADDEN,S.,ABADI,D.J.,HARIZOPOULOS,S.、HACHEM,N.和HELLAND,P.建筑时代的终结(是时候彻底改写了)。国际超大数据库会议(VLDB), 2007.谷歌学者谷歌学者数字图书馆数字图书馆
  36. TAYLOR,I.、SHIELDS,M.、WANG,I.和HARRISON,A。电子科学的工作流2007年,ch.The Triana Workflow Environment:Architecture and Applications,第320-339页。谷歌学者谷歌学者
  37. TRINDER,P.、LOIDL,H.-W.和POINTON,R.平行和分布式Haskells。函数编程杂志12, (4&5), 2002.谷歌学者谷歌学者数字图书馆数字图书馆
  38. YU,Y.,ISARD,M,infully,D,BUDIU,M,ERLINGSSON,Ú。,GUNDA,P.K.、CURREY,J.、MCSHERRY,F.和ACHAN,K.。一些用DryadLINQ编写的示例程序。技术代表MSR-TR-2008-74,Microsoft Research,2008年。谷歌学者谷歌学者
  39. ZHAO,Y.、HATEGAN,M.、CLIFFORD,B.、FOSTER,I.、VON LASZEWSKI,G.、NEFEDOVA,V.、RAICU,I.,STEF-PRAUN,T.和WILDE,M.Swift:快速、可靠、松散耦合的并行计算。IEEE服务大会, 2007.谷歌学者谷歌学者交叉引用交叉引用
  1. DryadLINQ:使用高级语言进行通用分布式数据并行计算的系统

    建议

    评论

    登录选项

    检查您是否可以通过登录凭据或您的机构访问本文。

    登录

    完全访问权限

    • 发布于

      封面图片ACM其他会议
      OSDI’08:第八届USENIX操作系统设计与实现会议记录
      2008年12月
      384页

      出版商

      USENIX协会

      美国

      出版历史

      • 出版:2008年12月8日

      检查更新

      限定符

      • 第条