×

GEODIS:致力于优化地理分布数据中心中的数据位置感知作业调度。 (英语) Zbl 1386.68025号

摘要:如今,数据密集型应用程序依赖于地理分布的系统来利用数据收集、存储和处理。数据局部性已被视为一种突出的技术,可以通过直接在托管待处理数据的节点中调度作业来提高应用程序性能并减少网络延迟的影响。MapReduce和Dryad是一些框架的示例,它们通过将作业拆分为多个任务来利用局部性,这些任务被分派到本地处理部分数据。然而,随着大数据分析生态系统从单个集群转移到跨地理分布的数据中心,不可避免的是,数据仍可能通过网络传输,以缩短调度时间。然而,在现有调度技术中,缺乏有效地混合数据局部性和数据中心间数据传输要求的机制,以解决跨分散数据中心的数据密集型处理。因此,本工作的目标是提出并解决了地理分布式数据中心数据密集型作业调度的完工时间优化问题。为此,我们首先将任务布局和数据访问描述为一个线性规划,并使用GLPK求解器进行求解。然后,我们提出了一种称为GeoDis的低复杂度启发式调度算法,该算法允许数据局部性处理数据传输需求,以在makespan上获得更高的性能。各种真实轨迹和合成生成工作量的实验表明,与最先进的算法相比,GeoDis可以将处理作业的最大完工时间缩短44%,并与LP求解器的最优解保持在91%以内。

MSC公司:

68平方米 计算机系统环境下的性能评估、排队和调度
64岁以下 分布式系统
90B35型 运筹学中的确定性调度理论
90C05(二氧化碳) 线性规划
90C27型 组合优化
90立方厘米 数学规划中的最优性条件和对偶性
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abad CL,Lu Y,Campbell RH(2011)Dare:高效集群调度的自适应数据复制。2011年IEEE集群计算国际会议,第159-168页。doi:10.1109/CLUSTER.2011.26
[2] 阿巴瓦吉,JH;Deris,MM,《数据网格一致性保证的数据复制方法》,IEEE Trans-Comput,63,2975-2987,(2014)·Zbl 1364.68146号 ·doi:10.1109/TC.2013.183
[3] AWS:亚马逊网络服务(2006)。http://aws.amazon.com
[4] Ananthanarayanan G,Ghosi A,Shenker S,Stoica I(2013)《有效的散兵游勇缓解:克隆人的攻击》。在:作为第十届USENIX网络系统设计与实现研讨会(NSDI 13)的一部分提交。伊利诺伊州伦巴第USENIX,第185-198页。https://www.usenix.org/conference/nsdi13/technical-sessions/presentation/ananthanaarayanan
[5] Ananthanarayanan G,Kandula S,Greenberg A,Stoica I,Lu Y,Saha B,Harris E(2010)使用咒语控制地图还原集群中的异常值。摘自:第九届USENIX操作系统设计与实现会议记录,OSDI’10。USENIX协会,美国加利福尼亚州伯克利,第265-278页。http://dl.acm.org/citation.cfm?id=1924943.1924962
[6] Anikode LR,Tang B(2011)《在数据网格中集成调度和复制并保证性能》。摘自:全球电信会议(GLOBECOM 2011),2011 IEEE,第1-6页。doi:10.1109/GLOCOM.2011.6134492
[7] Breslau L、Cao P、Fan L、Phillips G、Shenker S(1999)《网络缓存和Zipf-like分发:证据和含义》。In:INFOCOM’99。IEEE计算机和通信协会第十八届年度联席会议。诉讼程序。IEEE,第1卷,第126-134页。doi:10.1109/INFCOM.1999.749260
[8] Cameron DG、Carvajal-Schiaffo R、Millar AP、Nicholson C、Stockinger K、Zini F(2003)《评估optorism中的调度和副本优化策略》。In:诉讼。第一届拉丁美洲网络大会,第52-59页(2003年)。doi:10.1109/GRID.2003.1261698
[9] Cardosa M,Wang C,Nangia A,Chandra A,Weissman J(2011)探索高度分布式数据的MapReduce效率。摘自:MapReduce及其应用第二届国际研讨会论文集,MapReduce'11,美国纽约州纽约市ACM,第27-34页。doi:10.1145/1996092.1996100
[10] Cavallo M、Modica GD、Polito C、Tomarchio O(2016)地理分布计算环境分层Hadoop中的应用程序分析。2016年IEEE计算机与通信研讨会(ISCC),第555-560页。doi:10.1010/ISCC.2016.7543796
[11] 陈,W;我,Paik;Li,Z,地理分布数据中心的成本软件流式工作流分配,IEEE Trans-Comput,66,256-271,(2016)·Zbl 1364.68106号 ·doi:10.1109/TC.2016.2595579
[12] Chen Y,Ganapathi A,Griffith R,Katz R(2011)使用工作负载套件评估mapreduce性能的案例。2011年IEEE第19届计算机和电信系统建模、分析和仿真年度国际研讨会,第390-399页。doi:10.1109/MASCOTS.2011.12·Zbl 1364.68146号
[13] 程,D;Rao,J;郭,Y;蒋,C;Zhou,X,通过自适应任务调整提高异构mapreduce集群的性能,IEEE跨并行分发系统,28774-786,(2017)·doi:10.1109/TPDS.2016.2594765
[14] J院长;Ghemawat,S,Mapreduce:大型集群的简化数据处理,Commun ACM,51,107-113,(2008)·数字对象标识代码:10.1145/1227452.1327492
[15] Elghirani A、Subrata R、Zomaya AY(2007)《数据网格中的智能调度和复制:协同方法》。摘自:第七届IEEE集群计算和网格国际研讨会(CCGrid’07),第179-182页。doi:10.1109/CCGRID.2007.65
[16] Garg N、Kumar A、Pandit V(2007)《订单调度模型:硬度和算法》。摘自:第27届软件技术和理论计算机科学基础国际会议论文集,FSTTCS’07,柏林斯普林格,第96-107页·Zbl 1135.90345号
[17] 谷歌计算引擎(2011)。https://cloud.google.com/compute网站/
[18] 格林伯格,A;J·汉密尔顿;陆军部马尔茨;Patel,P,《云的成本:数据中心网络中的研究问题》,SIGCOMM Compute Commun Rev,39,68-73,(2008)·doi:10.145/1496091.1496103
[19] Apache Hadoop项目(2013)。http://hadoop.apache.org ·Zbl 1243.68129号
[20] 海因茨,B;钱德拉,A;Sitaraman,RK;Weissman,J,地理分布mapreduce的端到端优化,IEEE跨云计算,4293-306,(2016)·doi:10.1109/TCC.2014.2355225
[21] Herodotou H,Dong F,Babu S(2011)没有一种(集群)规模适合所有人:数据密集型分析的自动集群规模。在:第二届ACM云计算研讨会论文集,SOCC'11,ACM,美国纽约州纽约市,第18:1-18:14页。数字对象标识代码:10.1145/2038916.2038934
[22] Hu Z,Li B,Luo J(2016)Flutter:跨地理分布数据中心调度更接近数据的任务。摘自:IEEE INFOCOM 2016——第35届IEEE计算机通信国际年会,第1-9页。doi:10.1109/INFOCOM.2016.7524469
[23] Hung CC、Golubchik L、Yu M(2015)跨地理分布数据中心调度作业。摘自:第六届acm云计算研讨会论文集,SoCC’15,acm,美国纽约州纽约市,第111-124页。doi:10.1145/2806777.2806780
[24] Isard M、Budiu M、Yu Y、Birrell A、Fetterly D(2007)Dryad:基于连续构建块的分布式数据并行程序。摘自:2007年Eurosys会议记录。葡萄牙里斯本计算机协会。http://research.microsoft.com/apps/pubs/default.aspx?id=63785
[25] Jalaparti V、Ballani H、Costa P、Karagiannis T、Rowstron A(2012)《弥合云服务中的租户-提供商差距》。摘自:第三届ACM云计算研讨会论文集,SoCC’12,ACM,美国纽约州纽约市,第10:1-10:14页。数字对象标识代码:10.1145/2391229.2391239
[26] 贾拉帕蒂,V;博迪克,P;Menache,I;Rao,S;马卡里切夫,K;Caesar,M,《数据并行作业的网络软件调度:尽可能计划》,SIGCOMM Compute Commun Rev,45,407-420,(2015)·doi:10.1145/2829988.2787488
[27] Jin Y,Gao Y,Qian Z,Zhai M,Peng H,Lu S(2016)跨地理分布数据中心的工作负载感知调度。2016年IEEE Trustcom/BigDataSE/ISPA,第1455-1462页。doi:10.1109/TrustCom.2016.0228
[28] Jolfaei F,Haghighat AT(2012)带宽和存储空间对数据网格中作业调度和数据复制策略的影响。In:计算技术和信息管理(ICCM),2012年第八届国际会议,第1卷,第283-288页
[29] Kloudas,K;马梅德,M;普雷古伊萨,N;Rodrigues,R,Pixida:优化广域数据分析中的数据并行作业,Proc VLDB Endow,9,72-83,(2015)·doi:10.14778/2850578.2850582
[30] Koshiba Y,Chen W,Yamada Y,Tanaka T,Paik I(2015)地理分布数据中心网络流量调查。在:2015年IEEE第七届国际认知科学与技术会议(iCAST),第174-179页(2015)。doi:10.1109/ICAwST.2015.7314042
[31] 郭,YK;Ahmad,I,Fastest:一种实用的低复杂度算法,用于将并行程序编译时分配给多处理器,IEEE跨并行分布系统,10,147-159,(1999)·doi:10.1109/71.752781
[32] 李,YC;Zomaya,AY,《具有动态弹性的网格上bag-of-task应用程序的实际调度》,IEEE Trans-Comput,56,815-825,(2007)·Zbl 1390.68135号 ·doi:10.1109/TC.2007.1042
[33] 李,P;郭,S;宫崎骏,T;廖,X;金,H;佐马亚,A;Wang,K,具有可预测作业完成时间的Trafficware地理分布大数据分析,IEEE Trans Parallel Distribute Syst,281785-1796,(2016)·doi:10.1109/TPDS.2016.2626285
[34] 李平,郭S,于S,庄W(2015)大数据的交叉云图还原。IEEE跨云计算26(3):1-14。doi:10.1109/TCC.2015.2474385
[35] Li S,Lu Q,Zhang W,Zhu L(2015)基于地理分布数据的mapreduce集群部署优化框架。收录于:2015年IEEE第12届国际通用智能与计算大会,2015年IEEE第12届自主与可信计算国际会议,2015年EEE第15届可扩展计算与通信国际会议及其相关研讨会(UIC-ATC-ScalCom),第943-949页。doi:10.1109/UIC-ATC-ScalCom-CBDCom-IoP.2015.179
[36] Li,W.,Yang,Y.,Yuan,D.:一种新的经济高效的动态数据复制策略,用于云数据中心的可靠性。摘自:可靠、自主和安全计算(DASC),2011年IEEE第九届国际会议,第496-502页。doi:10.1109/DASC.2011.95
[37] Liao X,Gao Z,Ji W,Wang Y(2015)火花流实时调度的实施。摘自:绿色计算会议和可持续计算会议(IGSC),2015年第六届国际会议,第1-6页。doi:10.1109/IGCC.2015.7393730
[38] Lin W,Qian Z,Xu J,Yang S,Zhou J,Zhow L(2016)Streamscope:大数据流的连续可靠分布式处理。摘自:第13届USENIX网络系统设计与实现研讨会(NSDI 16),USENIX协会,加利福尼亚州圣克拉拉,第439-453页。https://www.usenix.org/conference/nsdi16/technical-sessions/presentation/lin
[39] Makhorin A(2012)Gnu线性编程工具包,版本4.52。http://www.gnu.org/software/glpk/glpk.html
[40] Mandal A、Xin Y、Baldine I、Ruth P、Heerman C、Chase J、Orlikowski V、Yumerefendi A(2011)为基于Hadoop的应用程序提供和评估多域网络云。2011年:IEEE第三届云计算技术与科学国际会议,第690-697页。doi:10.1109/CloudCom.2011.107·Zbl 1390.68135号
[41] Microsoft Azure(2010)。https://azure.microsoft.com/
[42] Nguyen VH,Tuong NH,Tran VH,Thoai N(2013)一个基于MILP的具有可分割作业和可用性约束的单机调度问题的完工时间最小化模型。摘自:计算机、管理和电信(ComManTel),2013年国际会议,第397-400页。doi:10.1109/ComManTel.2013.6482427
[43] Pu,Q;Ananthanaarayanan,G;博迪克,P;坎杜拉,S;Akella,A;巴林,P;Stoica,I,《低延迟地理分布数据分析》,SIGCOMM Comput Commun Rev,45,421-434,(2015)·doi:10.1145/2829988.2787505
[44] Pu Q、Ananthanarayanan G、Bodik P、Kandula S、Akella A、Bahl P、Stoica I(2015)低延迟地理分布数据分析。摘自:2015年ACM数据通信特别利益集团会议记录,SIGCOMM’15,ACM,美国纽约州纽约市,第421-434页。doi:10.1145/2785956.2787505
[45] 机架空间(1998)。https://www.rackspace.com/
[46] Schrage L(1968)最短剩余处理时间准则的最优性证明。运营研究16(3):687-690。https://www.rackspace.com/ ·Zbl 0237.60039号
[47] Sih,GC;Lee,EA,互联受限异构处理器体系结构的编译时调度启发式算法,IEEE跨并行分布系统,4175-187,(1993)·数字对象标识代码:10.1109/71.207593
[48] Sooezi N、Abrishami S、Lotfian M(2015)《在多云环境中调度数据驱动的工作流》。2015年IEEE第七届云计算技术与科学国际会议(CloudCom),第163-167页。doi:10.1109/CloudCom.2015.95
[49] 阿帕奇火花?(2013). http://spark.apache.org/
[50] Toosi AN,Buyya R(2015)基于模糊逻辑的控制器,用于地理分布数据中心的成本和能源效率负载平衡。2015年IEEE/ACM第八届实用程序和云计算国际会议(UCC),第186-194页。doi:10.1109/UCC.2015.35·Zbl 1364.68106号
[51] 特里帕西,R;Vignesh,S;塔马拉帕利,V;Medhi,D,容错地理分布数据中心的成本效率设计,IEEE Trans Network Service Manag,14,289-301,(2017)·doi:10.1109/TNSM.2017.2691007
[52] 塔多兰,R;科斯坦,A;Antoniu,G,《溢出:云科学工作流的多站点感知大数据管理》,IEEE Trans Cloud Compute,4,76-89,(2016)·doi:10.1109/TCC.2015.2440254
[53] Venugopal,S;Buyya,R,《基于SCP的启发式方法在全球网格上调度分布式数据密集型应用程序》,J Parallel Distrib Compute,68,471-487,(2008)·兹比尔1243.68129 ·doi:10.1016/j.jpdc.2007.07.004
[54] Vulimiri A、Curino C、Godfrey PB、Jungblut T、Karanasos K、Padhye J、Varghese G(2015)《Wanalytics:数据密集型世界的地理分布分析》。摘自:2015年ACM SIGMOD国际数据管理会议记录,SIGMOD'15,美国纽约州纽约市ACM,第1087-1092页。doi:10.1145/2723372.2735365
[55] Vulimiri A、Curino C、Godfrey PB、Jungblut T、Padhye J、Varghese G(2015)《面对带宽和监管约束的全球分析》。摘自:第十二届usenix网络系统设计与实现研讨会(NSDI 15),usenix协会,加利福尼亚州奥克兰,第323-336页。https://www.usenix.org/conference/nsdi15/technical-sessions/presentation/vulimiri网站
[56] Wang L,Tao J,Ranjan R,Marten H,Streit A,Chen J,Chen D(2013)G-Hadoop:跨分布式数据中心进行数据密集型计算的mapreduce。未来通用计算系统29(3):739-750。doi:10.1016/j.future.2012.09.001。专题:高性能计算和安全的最新发展
[57] Zarina M,Ahmad F,bin Mohd Rose AN,Nordin M,Deris MM(2013)异构联邦数据网格系统中动态数据复制策略的作业调度。信息与应用(ICIA),2013年第二届国际会议,第203-206页。doi:10.1109/ICoIA.2013.6650256
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。