×

重新审视biCGStab方法在求解具有多个右手边的系统时的性能。 (英语) Zbl 1435.65052号

摘要:本文讨论了经典BiCGStab方法及其几种改进方法在求解具有多个右侧向量的系统时的效率。这些迭代方法被广泛用于求解具有大型稀疏矩阵的系统。本文提出了系统求解时间的执行时间分析模型。分析了BiCGStab方法和一些修改,包括重新排序的BiCGStap方法和流水线BiCGStad方法,并强调了提供最佳执行时间的每种方法的适用范围。数值实验验证了分析模型的结果,并与其他作者的结果进行了比较。所示结果表明,在使用多个右侧矢量进行模拟时,矢量运算的作用越来越大。所提出的矢量运算的合并允许减少存储器流量并将计算性能提高约30%。

MSC公司:

65层10 线性系统的迭代数值方法
65层50 稀疏矩阵的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Hestenes,M.R。;Stiefel,E.,求解线性系统的共轭梯度方法,J.Res.Natl。伯尔。支架。,49, 6, 409-436 (1952) ·Zbl 0048.09901号
[2] van der Vorst,H.A.,BI-CGSTAB:非对称线性系统解的BI-CG的一种快速平滑收敛变体,SIAM J.Sci。统计计算。,13, 2, 631-644 (1992) ·Zbl 0761.65023号
[3] 萨阿德,Y。;Schultz,M.H.,GMRES:求解非对称线性系统的广义最小残差算法,SIAM J.Sci。统计计算。,7, 3, 856-869 (1986) ·Zbl 0599.65018号
[4] 雅克·T。;尼古拉斯,L。;Vollaire,C.,MIMD系统上边界积分法的电磁散射,(高性能计算和网络,高性能计算与网络,计算机科学讲义,第1593卷(1999),施普林格-柏林/海德堡),1025-1031
[5] Yang,L。;Brent,R.,并行分布式存储体系结构上大型和稀疏非对称线性系统的改进BiCGStab方法,(第五届并行处理算法和体系结构国际会议,ICA3PP’02)。《IEEE计算机学会论文集》(2002),美国加利福尼亚州洛斯阿拉米托斯IEEE计算机协会,324-328
[6] Krasnopolsky,B.,分布式存储计算机系统的重新排序BiCGStab方法,Procedia Compute。科学。,1、1、213-218(2010),ICCS 2010
[7] Cools,S.公司。;Vanroose,W.,大型非对称线性系统并行解的通信管道化BiCGstab方法,并行计算。,65, 1-20 (2017)
[8] Carson,E。;奈特,N。;Demmel,J.,《避免基于非对称Lanczos的Krylov子空间方法中的通信》,SIAM J.Sci。计算。,35、5、S42-S61(2013)·Zbl 1281.65057号
[9] Naumov,M.,S-Step和通信-避免迭代方法(2016),URLhttps://research.nvidia.com/sites/default/files/pubs/2016-04-S-Step-and-Communication-Avoiding/nvr-2016-003.pdf
[10] Aliaga,J.I。;佩雷斯,J。;金塔纳-奥尔蒂,E.S。;Anzt,H.,GPU上线性系统能量感知解的重新计算共轭梯度,(国际并行处理会议论文集(2013)),320-329
[11] Anzt,H。;托莫夫,S。;Luszczek,P。;Sawyer,W。;Dongarra,J.,《通过数据传输减少加速基于GPU的Krylov解算器》,国际期刊《高性能计算》。申请。,29, 3, 366-383 (2015)
[12] Aliaga,J.I。;佩雷斯,J。;Quintana Ortí,E.S.,用于迭代稀疏线性系统解算器的CUDA核的系统融合,(Träff,J.L.;Hunold,S.;Versaci,F.,Euro Par 2015:并行处理(2015),施普林格-柏林-海德堡:施普林格-柏林-海德堡,海德堡),675-686
[13] 鲁普,K。;Weinbub,J。;Jüngel,A。;Grasser,T.,用于图形处理单元的带内核融合的流水线迭代求解器,ACM Trans。数学。软件,43,2,11:1-11:27(2016)·Zbl 1369.65055号
[14] 威廉姆斯。;沃特曼,A。;Patterson,D.,《Roofline:多核架构的一个有见地的视觉性能模型》,Commun。ACM,52,4,65-76(2009)
[15] 基本线性代数子程序技术(BLAST)论坛标准(2001),URLhttp://www.netlib.org/blast-frum/blas-report.pdf
[16] 高性能预处理程序,URLhttp://www.llnl.gov/CASC/hypre/。 ·Zbl 1056.65046号
[17] de Sturler,E。;van der Vorst,H.A.,并行计算机上Krylov方法的通信成本降低,(Gentzsch,W.;Harms,U.,《高性能计算和网络》(1994),施普林格-柏林-海德堡:施普林格/柏林-海德堡-柏林,海德堡),190-195
[18] 朱,S.-X。;顾,T.-X。;Liu,X.-P.,分布式超级计算机稀疏迭代解算器中最小化同步,计算。数学。申请。,67, 1, 199-209 (2014) ·Zbl 1381.68019号
[19] Zhang,S.,GPBi-CG:基于Bi-CG求解非对称线性系统的广义乘积型方法,SIAM J.Sci。计算。,18, 2, 537-551 (1997) ·兹伯利0872.65023
[20] Fujino,S.,GPBiCG(m,l):BiCGSTAB和GPBiCG方法的混合体,具有效率和稳健性,Appl。数字。数学。,41,1,107-117(2002),大型方程组迭代方法的发展和趋势-纪念Rudiger Weiss·Zbl 0993.65042号
[21] Saad,Y.,稀疏线性系统的迭代方法,528(2003),SIAM:SIAM Philadelpha,PA·兹比尔1031.65046
[22] Krasnopolsky,B.,基于多集合同步建模的加速不可压缩湍流模拟方法,计算。物理学。通信,229,8-19(2018)
[23] 英特尔MPI基准测试,URLhttps://software.intel.com/en-us/articles/intel-mpi-benchmarks。
[24] 消息传递接口论坛,B.,MPI:消息传递接口标准,3.1版(2015),田纳西大学:田纳西大学诺克斯维尔,网址https://www.mpi-forum.org/docs/mpi-3.1/mpi31-report.pdf
[25] 卡德里尼,V。;Fanfarillo,A。;Filippone,S.,《MPI应用中与计算的重叠通信》(2016),罗马大学“Tor Vergata”,URLhttps://art.torvergata.it/retrieve/handle/1208/140530/291158/mpiprog.pdf
[26] Hoefler,T。;Lumsdaine,A.,并行计算中的消息进展——到线程还是不到线程?,(2008年IEEE集群计算国际会议论文集(2008))
[27] Si,M。;na,A.J.P。;哈蒙德,J。;巴拉吉,P。;高木,M。;Ishikawa,Y.,MPI RMA多阶段应用的动态自适应异步进程模型,IEEE Trans。并行分配系统。,29, 9, 1975-1989 (2018)
[28] Ruhela,A。;Subramoni,H。;Chakraborty,S。;Bayatpour,M。;库沙,P。;Panda,D.K.,《MPI在没有专用资源的情况下实现高效异步通信的进展》,(第25届欧洲MPI用户小组会议记录。第25届欧盟MPI用户集团会议记录,EuroMPI’18(2018),ACM:美国纽约州纽约市ACM),14:1-14:11
[29] A.丹尼斯。;Jaeger,J。;Taboada,H.,使用同时多线程的重叠MPI非阻塞集合的进度线程放置,(Mencagli,G.;B.Heras,D.;Cardellini,V.;Casalicchio,E.;Jeannot,E.;Wolf,F.;Salis,A.;Schifanella,C.;Manumachu,R.R.;Ricci,L.;Beccuti,M.;Antonelli,L..;Garcia Sanchez,J.D.;Scott,S。L.,《2018年欧洲汽车展:平行加工研讨会》(2019),施普林格国际出版公司,123-133
[30] 梅德韦杰夫(Medvedev,A.),《面向非阻塞MPI点对点和集体操作的异步进度基准测试》(2019年),URLhttps://github.com/a-v-medvedev/mpi-benchmarks/blob/master/doc/progression-article_v2.pdf
[31] 骑士,C。;Pellegrini,F.,PT-Scotch:高效并行图排序工具,并行计算。,34,6,318-331(2008),并行矩阵算法和应用
[32] Karypis,G。;Schloegel,K.,并行图划分和稀疏矩阵排序库(2003)
[33] McCalpin,J.D.,《当前高性能计算机中的内存带宽和机器平衡》,IEEE Comp。Soc.技术通信计算。阿基特。新闻。,19-25(1995年)
[34] 巴莱,S。;Abhyankar,S。;M.F.亚当斯。;Brown,J.等人。;布鲁纳,P。;Buschelman,K。;达尔星。;Dener,A。;埃伊霍特,V。;格罗普,W.D。;考希克,D。;Knepley,M.G。;五月,D.A。;McInnes,L.C.公司。;Mills,R.T。;Munson,T。;鲁普,K。;萨南,P。;B.F.史密斯。;扎皮尼,S。;张,H。;Zhang,H.,PETSC网页(2018),URLhttp://www.mcs.anl.gov/petsc
[35] 布林斯基,M。;Supalov,A。;Chuvelev,M。;Leksikov,E.,《掌握新MPI-3标准带来的性能挑战》,《平行宇宙》,18,1,33-40(2014),URLhttps://software.intel.com/sites/default/files/managed/6a/78/parallel_mag_issue18.pdf
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。