跳到主要内容
10.1109/CCGRID.2018.00096acm会议文章/章节视图摘要出版物页面中央电网会议记录会议集合
研究论文

YARN上Spark的硬实时调度器

出版:2018年5月1日出版历史

摘要

Apache Spark是使用分布式内存进行大规模数据处理的快速通用引擎。它提供了不同的部署模式来满足不同用户的需求,而YARN上的Spark是最流行的部署模式。不同的部署模式具有不同的调度机制。YARN上的Spark有三种不同的调度程序,包括FIFO调度程序、公平调度程序和容量调度程序。然而,这三个调度程序无法适应硬实时应用程序场景。随着Apache Spark的应用越来越广泛,硬实时调度的需求将迅速增加。为了满足硬实时调度的要求,本文提出了一种新的硬实时调度算法DVDA(Deadline and Value Density-Aware)。与传统EDF(Earliest Deadline First)算法只考虑截止时间相比,DVDA算法同时考虑了应用程序的截止时间和值密度。此外,我们在YARN上实现了一个基于DVDA算法的Spark DVDA调度器。最后,通过实验验证了算法的有效性。实验结果表明,与默认容量调度器和EDF-Capacity调度器相比,该算法可以分别将应用程序完成率提高18%和6%,价值收益提高78%和32%。

参考文献

  1. J.Gantz,D.Reinsel:2020年的数字世界,“大数据、更大的数字阴影和远东最大的增长”,IDC报告,2012年。谷歌学者谷歌学者
  2. Apache Hadoop,http://hadoop.apache.org/,上次访问时间:2017/3/21。谷歌学者谷歌学者
  3. M.Zaharia、M.Chowdhury、M.J.Franklin、S.Shenker和I.Stoica,“火花:带工作集的集群计算”,In:第二届USENIX云计算热点会议的会议记录,美国马萨诸塞州波士顿,2010年,第1765-1773页。谷歌学者谷歌学者数字图书馆数字图书馆
  4. 阿帕奇风暴,http://storm.apache.org/,上次访问时间:2017/3/21。谷歌学者谷歌学者
  5. Apache Spark、,http://spark.apache.org/,上次访问时间:2017/3/21。谷歌学者谷歌学者
  6. T.Cucinotta,“多用户系统自适应预留的访问控制”,摘自:第14届IEEE实时和嵌入式技术与应用研讨会论文集,美国密苏里州圣路易斯,2008年,第387-396页。谷歌学者谷歌学者数字图书馆数字图书馆
  7. W.Gao,Y.Zhu,Z.Jia等,“Bigdatabench:来自Web搜索引擎的大数据基准套件”,摘自:第40届计算机架构国际研讨会论文集,Tel-Avi,2013年,第1307-1320页。谷歌学者谷歌学者
  8. V.K.Vavilapalli,C.Murthy,C.Douglas,S.Agarwal,M.Konar,R.Evans,T.Graves等人,“Apache Hadoop YARN:又一位资源谈判代表”,载于:ACM云计算研讨会论文集,美国加利福尼亚州圣克拉拉,2013年,第1-16页。谷歌学者谷歌学者数字图书馆数字图书馆
  9. M.Zaharia、D.Borthakur、J.S.Sarma、K.Elmeleegy、S.Shenker和I.Stoica,“多用户MapReduce集群的作业调度”,技术报告UCB/EECS-2009-55,加州大学伯克利分校EECS系,2009年。谷歌学者谷歌学者
  10. D.Chuntao,S.Qingni,C.Lijing,Y.Yahui,W.Zhonghai,“保密能力:YARN中的安全Capac-ity调度器”,载于:《第十八届国际信息与通信安全会议论文集》,新加坡,2016年,第184-194页。谷歌学者谷歌学者
  11. J.Lin,M.Lee,“Hadoop YARN上作业调度程序的性能评估”,并发与计算:实践与经验28(9):2711-27282016。谷歌学者谷歌学者数字图书馆数字图书馆
  12. M.Zaharia,D.Borthakur,J.S.Sarma,K.Elmelegy,S.Shenker,I.Stoica,“延迟调度:在集群调度中实现局部性和公平性的简单技术”,《in:第五届欧洲计算机系统会议论文集》,法国巴黎,2010年,第265-278页。谷歌学者谷歌学者数字图书馆数字图书馆
  13. K.Ousterhout,P.Wendell,M.Zaharia,I.Stoica,“麻雀:分布式、低延迟调度”,《In:第24届ACM操作系统原理研讨会论文集》,美国宾夕法尼亚州法明顿,2013年,第69-84页。谷歌学者谷歌学者数字图书馆数字图书馆
  14. D.Cheng,X.Zhou,P.Lama等,“YARN上Spark和MapReduce的跨平台资源调度”,IEEE计算机学报,2016年,第1-14页。谷歌学者谷歌学者
  15. J.Xu,G.Liu,B.Su,K.Meng,“异构Spark集群的自适应调度策略”,《计算机科学与应用》,2016年,第692-704页。谷歌学者谷歌学者交叉引用交叉引用
  16. D.Cheng,J.Rao,C.Jiang,X.Zhou,“动态Hadoop集群中的资源和截止时间-软件作业调度”,摘自:IEEE国际并行与分布式Pro-cessing研讨会论文集,印度海得拉巴,2015年,第956-965页。谷歌学者谷歌学者数字图书馆数字图书馆
  17. M.Taufer,L.Rosenberg,“在单云实例上调度基于DAG的工作流:使用静态调度器的高性能和成本效益”,《高性能计算应用国际期刊》,2015,5(5):266--272。谷歌学者谷歌学者数字图书馆数字图书馆
  18. Z.Yang,L.Zhu,H.Ding,Z.Guan,“无线传感器网络中基于优先级的并行调度轮询MAC”,《通信杂志》,2016,11(8):792--797。谷歌学者谷歌学者
  19. Q.Wang,J.Xu,H.Wang,G.Dai,“一种新的基于优先级表的实时调度算法”,ACTA ELECTRONICA SINICA,2004,32(2):310-313。谷歌学者谷歌学者
  20. H.Su,D.Zhu,S.Brandt,“弹性混合临界任务模型和早期释放EDF调度算法”,《ACM电子系统设计自动化汇刊》,2004,22(2):28:128:25。谷歌学者谷歌学者数字图书馆数字图书馆
  1. YARN上Spark的硬实时调度器

      建议

      评论

      登录选项

      检查您是否可以通过登录凭据或您的机构访问本文。

      登录

      完全访问权限

      PDF格式

      以PDF文件查看或下载。

      PDF格式

      电子阅读器

      使用eReader联机查看。

      电子阅读器