×

结构化AMR解算器的动态数据迁移。 (英语) Zbl 1129.68404号

摘要:在cc-NUMA多处理器上,主存延迟的不一致性激发了线程和数据共存的需要。我们将这种特殊形式的数据位置称为地理位置。在本文中,我们研究了具有自适应网格细化的并行PDE解算器的性能。解算器使用OpenMP进行并行化,自适应网格细化使动态负载平衡成为必要。由于运行时自适应导致内存访问模式的动态变化,实现高度的地理位置性是一项具有挑战性的任务。研究的主要结论是:(1)地理位置对求解器的性能非常重要,(2)使用错位数据的动态页面迁移可以显著提高性能,(3)\)migrate-on-next-touch指令工作良好,而first-touch策略对于表现出动态变化的内存访问模式的程序来说没有那么有利,并且(4)与总执行时间相比,这种迁移的开销很低。

MSC公司:

68M99型 计算机系统组织
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Wilson,K.M.Aglietti,B.B.:动态页面放置以改善TPC-C的CC-NUMA多处理器的局部性。in:Supercomputing'01:Proceedings of the 2001 ACM/IEEE Conference on Supercomputing,pp.33-33。ACM出版社,美国纽约州纽约市(2001年)
[2] Corbalan,J.、Martorell,X.、Labarta,J.:系统性能中内存页面迁移影响的评估:SGI O2000的案例。摘自:第17届超级计算国际年会会议记录,第121-129页。ACM出版社(2003)
[3] Holmgren S.、Nordén M.、Rantakokko J.、Wallin D.(2002)。PDE解算器在自优化NUMA体系结构上的性能。并行算法。申请。17(4): 285–299 ·Zbl 1043.65102号 ·doi:10.1080/1063719031000088067
[4] Mark Bull,J.、Johnson,C.:cc-NUMA体系结构上的数据分发、迁移和复制。摘自:第四届OpenMP欧洲研讨会会议记录。http://www.caspur.it/ewomp2002/(2002年)
[5] 伦德曼C.A.(2000)。结构化、分层自适应网格细化算法的并行化。计算机视觉科学3:147–157·Zbl 0971.65089号 ·doi:10.1007/PL00013544
[6] Deiterding,R.:分布式存储计算机的amr算法的构造和应用。In:自适应网格细化-理论与应用,Proc。芝加哥自适应网格细化方法研讨会,第361-372页。斯普林格(2003)·Zbl 1065.65114号
[7] MacNeice P.(2000)。Paramesh:一个并行自适应网格优化社区工具包。计算物理通信126:330–354·Zbl 0953.65088号 ·doi:10.1016/S0010-4655(99)00501-9
[8] Parashar,M.,Browne,J.:高性能计算软件的系统工程:用于实现并行结构自适应网格细化的hdda/dagh基础设施。In:IMA《结构化自适应网格细化(SAMR)网格方法》卷,第1-18页(2000年)·Zbl 0942.65099号
[9] Colella,P.,Graves,D.T.,Ligocki,T.J.,Martin,D.F.,Modiano,D.,Serafini,D.B.,Straalen,B.V.:AMR应用的Chombo软件包–设计文件。劳伦斯伯克利国家实验室NERSC部门应用数值算法组(2000年)
[10] Wissink,A.M.,Hornung,R.D.,Kohn,S.R.,Smith,S.S.,Elliott,N.:使用samrai框架的大规模并行结构amr计算。收录:SC2001(2001)会议记录
[11] Steensland,J.:结构化动态网格层次的有效划分。博士论文。乌普萨拉大学信息技术系科学计算。科学技术学院乌普萨拉学位论文44(2002)
[12] Schloegel,K.、Karypis,G.、Kumar,V.:用于负载平衡自适应科学模拟的统一算法。收录于:超级计算2000(2000)
[13] Dreher J.,Grauer R.(2005年)。浣熊:双曲守恒定律的平行网格自适应框架。并行计算。31: 913–932 ·doi:10.1016/j.parco.2005.04.011
[14] Maerten,B.:戏剧:有限元应用程序的并行动态负载平衡库。摘自:计算机科学课堂讲稿,第1685卷,第313–316页(1999)
[15] Walshaw C.、Cross M.、Everett M.G.(1997年)。自适应非结构化网格的并行动态图划分。并行分布式计算。47(2): 102–108 ·Zbl 05470851号 ·doi:10.1006/jpdc.1997.1407
[16] Rantakokko J.(2000年)。结构化多块网格的分区策略。并行计算。26: 1661–1680 ·Zbl 0948.68224号 ·doi:10.1016/S0167-8191(00)00044-2
[17] Steensland,J.,Söderberg,S.,Thuné,M.:分块并行samr算法的分区方案比较。收录于:计算机科学课堂讲稿,第1947卷,第160–169页(2001年)
[18] Balsara D.S.,Norton C.D.(2001年)。使用基于并行语言的方法进行高度并行结构的自适应网格优化。并行计算。27: 37–70 ·Zbl 0971.68017号 ·doi:10.1016/S0167-8191(00)00088-0
[19] Rantakokko,J.:结构化自适应网格细化的并行化模型比较。在:《计算机科学讲义》,第3149卷,第615–623页(2004年)·Zbl 1096.68587号
[20] Blikberg,R.:OpenMP中的嵌套并行性及其在自适应网格优化中的应用。挪威卑尔根大学信息学系视差博士论文,2003年2月(2003)
[21] Blikberg R.,Sörevik T.(2005)。负载平衡和嵌套并行的openmp实现。并行计算。31(10-12): 984–998 ·doi:10.1016/j.parco.2005.03.018
[22] Ferm L.,Lötsetdt P.(2006)。一阶偏微分方程的时空自适应解。科学杂志。计算。26(1): 83–110 ·Zbl 1089.76041号 ·doi:10.1007/s10915-004-4801-9
[23] Karypsis G.,Kumar V.(1999)。用于分割不规则图形的快速、高质量多级方案。SIAM J.科学。计算。20(1): 359–392 ·Zbl 0915.68129号 ·doi:10.1137/S1064827595287997
[24] Sun Microsystems,http://www.sun.com/servers/wp/docs/mpo_v7_CUSTOMER.pdf。Solaris内存放置优化和Sun Fire服务器,2003年1月(2003)
[25] Teller P.J.(1990)。翻译-保留缓冲区一致性。计算机23(6):26–36·Zbl 05089160号 ·doi:10.1109/2.55498
[26] Löf,H.,Holmgren,S.:Affinity-on-next-touch:提高cc-numa系统上工业pde解算器的性能。载于:ICS’05:第19届超级计算国际年会论文集,第387-392页。美国纽约州纽约市ACM出版社(2005)
[27] Bircsak J.、Craig P.、Crowell R.、Cvetanovic Z.、Harris J.、Alexander Nelson C.、Offner C.D.(2000)。为NUMA计算机扩展OpenMP。科学。程序,8:163–181
[28] Laudon,J.,Lenoski,D.:SGI起源:一个ccNUMA高度可伸缩的服务器。摘自:第24届计算机体系结构国际研讨会论文集,第241-251页。ACM出版社(1997)
[29] Tikir,M.M.,Hollingsworth,J.K.:使用硬件计数器自动提高内存性能。摘自:SC'04:2004 ACM/IEEE超级计算会议记录,第46页。IEEE计算机学会,华盛顿特区,美国(2004年)
[30] Spiegel,A.,an Mey,D.:在ccNUMA系统上使用动态线程平衡的混合并行。摘自:Brorson M.(编辑)《第六届OpenMP欧洲研讨会论文集》,第77-81页。瑞典皇家理工学院(KTH)(2004年)
[31] Löf H.、Nordén M.和Holmgren S.(2004年)。为PDE解算器的共享内存实现改进数据的地理位置。收录:Sloth,P.M.A.、Tan,C.J.K.、Dongarra,J.J.和Hoekstra,A.G.(编辑)《计算科学–ICCS 2004》第二部分,第9-16页。柏林斯普林格-Verlag·Zbl 1080.68533号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。