×

多核优化波前菱形块用于优化模具更新。 (英语) 兹比尔1331.68286

摘要:基于模板的算法在计算科学中的重要性使人们关注基于多级缓存处理器的优化并行实现。时间阻塞方案利用缓存的大带宽和低延迟来加速模具更新并接近理论峰值性能。一个关键因素是减少慢速数据路径上的数据流量,特别是主内存接口。在这项工作中,我们结合了多核波前时间分块和菱形拼接的思想,得出了模板更新方案,与现有方法相比,该方案大大降低了内存压力。由此产生的方案在带宽保护的情况下显示了性能优势,而可变系数的每格高字节更新情况加剧了这种优势。我们的线程组概念在并发和内存使用之间提供了可控的权衡,从而在内存接口和CPU之间转移压力。我们展示了当代英特尔处理器上的性能结果。

MSC公司:

68宽15 分布式算法
2005年5月 并行数值计算
64岁以下 分布式系统
68平方米 计算机系统环境下的性能评估、排队和调度
65年第68季度 算法和问题复杂性分析
68宽10 计算机科学中的并行算法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] V.Bandishti、I.Pananilath和U.Bondhugula,{\it Tiling stencil calculations to maximize parallelism},《高性能计算、网络、存储和分析国际会议论文集》,美国计算机学会,纽约,2012年,第40页。
[2] U.Bondhugula、A.Hartono、J.Ramanujam和P.Sadayappan,《实用自动多面体并行器和局部优化程序》,ACM SIGPLAN Notices,43(2008),第101-113页。
[3] M.Christen、O.Schenk和H.Burkhart,{it PATUS:现代微体系结构上并行迭代模板计算的代码生成和自动调整框架},国际并行和分布式处理研讨会,IEEE,新泽西州皮斯卡塔韦,2011年,第676-687页。
[4] K.Datta,{\it用于基于缓存的多核平台的自动调整模板代码},博士论文,加州大学伯克利分校,加州大学伯克利分校,加州大学伯克利分校,2009年。
[5] K.Datta、S.Kamil、S.Williams、L.Oliker、J.Shalf和K.Yelick,《现代微处理器模板计算的优化和性能建模》,SIAM Rev.,51(2009),第129-159页·Zbl 1160.65359号
[6] H.Dursun、M.Kunaseth、K.Nomura、J.Chame、R.F.Lucas、C.Chen、M.Hall、R.K.Kalia、A.Nakano和P.Vashishta,《多核簇上高阶模板计算的分层并行化和优化》,《超级计算》。,62(2012),第946-966页。
[7] M.Frigo和V.Strumpen,{\it Cache oblivious stencil calculations},《第19届超级计算国际年会论文集》,美国计算机学会,纽约,2005年,第361-366页。
[9] T.Grosser、A.Cohen、J.Holewinski、P.Sadayappan和S.Verdoolaege,{用于GPUS的混合六边形/经典瓷砖},《IEEE/ACM代码生成和优化年度国际研讨会论文集》,ACM,纽约,2014年,第66-75页。
[10] T.Grosser、S.Verdoolaege、A.Cohen和P.Sadayappan,《钻石瓷砖和六角形瓷砖之间的关系》,《平行工艺》。莱特。,24 (2014), 1441002. ·Zbl 1327.65289号
[11] G.Hager、J.Treibig、J.Habich和G.Wellein,{通过简单的机器模型探索现代多核芯片的性能和功率特性},并发计算。实践。专家。,出现。
[12] G.Hager和G.Wellein,《科学家和工程师高性能计算导论》,CRC出版社,佛罗里达州博卡拉顿,2010年。
[13] T.Henretty、R.Veras、F.Franchetti、L.N.Pouchet、J.Ramanujam和P.Sadayappan,{短向量SIMD架构的模板编译器},载于《第27届ACM国际超级计算会议论文集》,ACM,纽约,2013年,第13-24页。
[14] K.Yelick J.Demmel和S.Williams,《自动性能调优(autotuning)》},摘自《伯克利实验室:并行计算领域的进展》,M.Wrinn D.Patterson和D.Gannon主编,Microsoft Research,2013年,第337-376页。
[15] L.Lamport,《do循环的并行执行》,Commun。ACM,17(1974),第83-93页·Zbl 0273.68012号
[17] T.Malas、G.Hager、H.Ltaief和D.Keyes,{使用波前钻石时间块的掩模算法的能量效率和最大计算强度研究},预印本,arXiv:1410.55612014。
[18] N.Maruyama、T.Nomura、K.Sato和S.Matsuoka,{\it Physis:大型GPU加速超级计算机上模板计算的隐式并行编程模型},《高性能计算、网络、存储和分析国际会议论文集》,IEEE,新泽西州皮斯卡塔韦,2011年11月。
[19] J.D.McCalpin,《{it STREAM:高性能计算机中的可持续内存带宽》,弗吉尼亚大学技术报告,弗吉尼亚州夏洛茨维尔,1991-2007年。
[20] J.D.McCalpin,{当前高性能计算机中的内存带宽和机器平衡},IEEE计算。社会技术委员会成员。建筑师。《新闻稿》,1995年,第19-25页。
[21] A.Nguyen、N.Satish、J.Chhugani、C.Kim和P.Dubey,现代CPU和GPU上模板计算的{\it\(3.5\)-D分块优化},《高性能计算、网络、存储和分析国际会议论文集》,美国计算机学会,纽约,2010年,第1-13页。
[22] D.Orozco和G.Gao,{将FDTD应用映射到多核芯片架构},《并行处理国际会议论文集》,IEEE,新泽西州皮斯卡塔韦,2009年,第309-316页。
[23] D.Orozco、E.Garcia和G.Gao,{使用数据依赖关系图对模具应用程序进行位置优化},《并行计算的语言和编译器》,柏林施普林格出版社,2011年,第77-91页。
[24] W.Schoönauer,{科学超级计算:共享和分布式内存并行计算机的体系结构和使用},网址:http://www.rz.uni-karlsruhe.de/\string rx03/book(2000)。
[25] S.Shrestha、J.Manzano、A.Marquez、J.Feo和G.R.Gao,{用于时间内并行和细粒度多线程的交错拼接},《第27届并行计算语言和编译器国际研讨会论文集》,俄勒冈州希尔斯波罗,Springer-Verlag,纽约,2014年,第161-175页。
[26] H.Stengel、J.Treibig、G.Hager和G.Wellein,{使用执行-缓存-内存模型量化模板计算的性能瓶颈},第29届国际ACM超级计算会议论文集,ACM,纽约,2015年,第207-216页。
[27] R.Strzodka、M.Shaheen、D.Pajak和H.-P.Seidel,{在迭代模板计算中缓存不经意平行四边形},《第24届ACM超级计算国际会议论文集》,ACM,纽约,2010年,第49-59页。
[28] R.Strzodka、M.Shaheen、D.Pajak和H.-P.Seidel,{迭代模板计算中的缓存精确时间偏移},《并行处理国际会议论文集》,IEEE计算机学会,加利福尼亚州洛斯阿拉米托斯,2011年,第571-581页。
[29] Y.Tang,R.A.Chowdhury,B.C.Kuszmaul,C.-K.Luk,和C.E.Leiserson,{\it The Pochoir stencil compiler},《第二十届ACM算法和架构并行性研讨会论文集》,ACM,纽约,2011年,第117-128页。
[30] D.Unat、X.Cai和S.B.Baden,{it Mint:用注释C}实现CUDA在三维模板方法中的性能,《超级计算国际会议论文集》,美国计算机学会,纽约,2011年,第214-224页。
[31] G.Wellein、G.Hager、T.Zeiser、M.Wittmann和H.Fehske,{通过多核软件波前并行化实现模板计算的高效时间阻塞},第33届IEEE国际计算机软件和应用会议,第1卷,IEEE,新泽西州皮斯卡塔韦,2009年,第579-586页。
[32] S.Williams、A.Waterman和D.Patterson,{it Roofline:多核架构的有见地的视觉性能模型},Commun。ACM,52(2009),第65-76页。
[33] M.Wittmann、G.Hager、J.Treibig和G.Wellein,《利用共享缓存对多核处理器和集群上的模板代码进行并行时间阻塞》,《并行处理》。莱特。,20(2010年),第359-376页。
[34] D.G.Wonnacott,{利用时间倾斜消除由于内存带宽和网络限制造成的空闲时间},摘自国际并行和分布式处理研讨会,IEEE计算机学会,加利福尼亚州洛斯阿拉米托斯,2000年,第171-180页。
[35] D.G.Wonnacott和M.M.Strout,《论循环拼接技术的可扩展性》,第三届多面体编译技术国际研讨会论文集,柏林,帕索大学,德国帕索,2013年,第3-11页。
[36] X.Zhou,{模板计算的平铺优化},伊利诺伊大学厄本纳-香槟分校博士论文,伊利诺依州厄本纳–香槟,2013年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。