×

使用GPU计算加速多体动力学中的隐式集成。 (英语) Zbl 1418.70010号

摘要:提出了一种新的GPU直接线性方程求解器。将所提出的求解器应用于机械系统分析。与超节点和多波前方法的常规实现中广泛使用的DFS后序遍历不同,BFS反向序遍历被用于获得更多并行性和更自适应的数据大小控制。提出的实现允许在多种GPU上有效地解决大型问题。分离器被分成更小的块,以进一步提高并行效率。数值实验表明,与CHOLMOD相比,该方法所需的分解时间更小,并且比SPQR具有更好的操作可用性。机械动力学分析表明了该方法的有效性。将计算时间、内存使用和求解精度与MKL中包含的DSS进行了比较。与实验CPU设备相比,GPU在数值分解步骤中被加速了约2.5-5.9倍,在整个分析过程中被加速约1.9-4.7倍。

MSC公司:

70欧元55欧元 多体系统动力学
65升80 微分代数方程的数值方法
65日元10 特定类别建筑的数值算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 500强:http://www.top500.org/ ·Zbl 0657.70019号
[2] Owens,J.D.、Houston,M.、Luebke,D.、Green,S.、Stone,J.E.、Phillips,J.C.:GPU计算。程序。IEEE 96(5),879-899(2008)。doi:10.1109/jproc.2008.917757·doi:10.10109/jproc.2008.917757
[3] Saad,Y.:稀疏线性系统的迭代方法。SIAM,费城(2003)。数字对象标识代码:10.1137/1.9780898718003·Zbl 1031.65046号 ·数字对象标识代码:10.1137/1.9780898718003
[4] 卢卡什,M。;鲁普,K。;Selberherr,S.,GPU上迭代求解器的稀疏近似逆预条件(2012)
[5] Serban,R.,Melanz,D.,Li,A.,Stanciulescu,I.,Jayakumar,P.,Negrut,D.:基于GPU的预处理Newton-Krylov求解器,用于柔性多体动力学。国际期刊数字。方法工程102(9),1585-1604(2015)。doi:10.1002/nme.4876·Zbl 1352.65369号 ·doi:10.1002/nme.4876
[6] Naumov,M.:使用CUSPARSE和CUBLAS的不完全-LU和Cholesky预处理迭代方法。英伟达白皮书(2011)
[7] Wong,J.,Kuhl,E.,Darve,E.:为有限元问题设计的一种新的稀疏矩阵向量乘法图形处理单元算法。国际期刊数字。方法工程102(12),1784-1814(2015)。doi:10.1002/nme.4865·兹比尔1352.65134 ·doi:10.1002/nme.4865
[8] Rodrigues,A.W.D.O.,Guyomarch,F.,Menach,Y.L.,Dekeyser,J.L.:应用于电机仿真的GPU上的并行稀疏矩阵求解器。arXiv:1010.4639(2010)
[9] 内格鲁特,D。;塔索拉。;Anitescu,M。;Mazhar,H。;Heyn,T。;Pazouki,A.,在GPU上解决大型多体动力学问题,第4期,269-280(2011)·doi:10.1016/b978-0-12-385963-100020-4
[10] Mazhar,H.,Heyn,T.,Negrut,D.:大型碰撞检测问题的可扩展并行方法。多体系统。动态。26(1), 37-55 (2011). doi:10.1007/s11044-011-9246-y·Zbl 1287.70004号 ·doi:10.1007/s11044-011-9246-y
[11] Negrut,D.,Tasora,A.,Mazhar,H.,Heyn,T.,Hahn,P.:在多体动力学中利用并行计算。多体系统。动态。27(1), 95-117 (2012). doi:10.1007/s11044-011-9262-y·Zbl 1344.70003号 ·doi:10.1007/s11044-011-9262-y
[12] Gaikwad,A。;Toke,I.M.,GPU上的并行迭代线性解算器:金融工程案例,607-614(2010)·doi:10.1109/pdp.2010.55
[13] Scott,J.A.,Hu,Y.:稀疏直接对称解算器的经验。ACM事务处理。数学。柔和。33(3), 18 (2007). 数字对象标识代码:10.1145/1268769.1268772·Zbl 1365.65133号 ·数字对象标识代码:10.1145/1268769.1268772
[14] Davis,T.A.:稀疏线性系统的直接方法。算法基础,第2卷。SIAM,费城(2006)。doi:10.1137/1.9780898718881·Zbl 1119.65021号 ·doi:10.1137/1.9780898718881
[15] Irons,B.M.:有限元分析的正面解程序。国际期刊数字。方法工程2(1),5-32(1970)。doi:10.1002/nme.1620020104·Zbl 0252.73050号 ·doi:10.1002/nme.1620020104
[16] Scott,J.A.:有限元应用的并行正面解算器。国际期刊数字。方法工程50(5),1131-1144(2001)。doi:10.1002/1097-0207(20010220)50:5<1131::aid-nme68>3.0.co;2倍·Zbl 1008.76043号 ·doi:10.1002/1097-0207(20010220)50:5<1131::aid-nme68>3.0.co;2倍
[17] Reid,J.K.,Scott,J.A.:大型非对称元素问题的高效堆外多前沿求解器。国际期刊数字。方法工程77(7),901-921(2009)。数字对象标识代码:10.1002/nme.2437·Zbl 1183.65149号 ·数字对象标识代码:10.1002/nme.2437
[18] 南卡罗来纳州雷尼奇。;斯托西奇,D。;Davis,T.A.,《加速GPU上的稀疏Cholesky因子分解》,9-16(2014),皮斯卡塔韦·doi:10.1109/IA3.2014.6
[19] Yeralan,S.N.,Davis,T.A.,Ranka,S.:算法9xx:GPU上的稀疏QR分解。ACM事务处理。数学。柔和。(2015) ·兹比尔1183.65149
[20] Bae,D.S.,Kim,H.W.,Yoo,H.H.,Suh,M.S.:约束机械系统隐式数值积分的解耦求解方法。机械。结构。机器。27(2), 129-141 (1999). doi:10.1080/08905459908915692·doi:10.1080/08905459908915692
[21] Horowitz,E.:C++中的数据结构基础。Galgotia Publications,新德里(2006)
[22] Brainman,I.,Toledo,S.:具有部分枢轴的稀疏LU的嵌套剖分顺序。SIAM J.矩阵分析。申请。23(4),998-1012(2002)。doi:10.1137/s0895479801385037·Zbl 1011.65012号 ·doi:10.1137/s0895479801385037
[23] Davis,T.A.,Hager,W.W.:稀疏Cholesky更新/停机和三角形解算中的动态超节点。ACM事务处理。数学。柔和。35(4), 27 (2009). 数字对象标识代码:10.1145/1462173.1462176·数字对象标识代码:10.1145/1462173.1462176
[24] Karypis,G.,Kumar,V.:METIS——用于划分非结构化图、划分网格和计算稀疏矩阵的填充-约简顺序的软件包,5.1.0版。明尼苏达大学(2013)
[25] L'Excellent,J.Y.:多前沿方法:并行性、内存使用和数字方面。里昂-ENS里昂师范学院(2012年)·Zbl 1287.70004号
[26] Padua,D.:并行计算百科全书。柏林施普林格(2011)。doi:10.1007/978-0-387-09766-4·Zbl 1231.68001号 ·数字对象标识代码:10.1007/978-0-387-09766-4
[27] A.盖尔穆切。;L'Excellent,J.Y。;Utard,G.,《并行多额叶解算器的内存使用》,8(2003)·doi:10.1109/ipdps.2003.1213187
[28] Guermouche,A.,L'Excellent,J.Y.,Utard,G.:多额叶解算器记忆使用的分析和改进(2003)
[29] NVIDIA开普勒GK110架构:http://www.nvidia.com/content/PDF/kepler/nvidia-kepler-GK110-Architecture-Whitepaper.PDF ·Zbl 1352.65369号
[30] Jung,J.H.,Bae,D.S.:使用OpenCL框架优化异质平台上固体元素的操作和组装质量特性。J.Mech。科学。Technol公司。29(7), 2631-2637 (2015). doi:10.1007/s12206-015-0508-0·doi:10.1007/s12206-015-0508-0
[31] Buttari,A.,Langou,J.,Kurzak,J.,Dongarra,J.:一类用于多核架构的并行平铺线性代数算法。并行计算。35(1), 38-53 (2009). doi:10.1016/j.parco.2008.10.02·doi:10.1016/j.parco.2008.10.02
[32] Wang,L。;Wu,W。;徐,Z。;肖,J。;Yang,Y.,BLASX:异构多GPU计算的高性能三级BLAS库,20:1-20:11(2016),纽约·doi:10.145/2925426.2926256
[33] Kurzak,J。;纳特·R。;杜,P。;Dongarra,J.,一个GPU和多个CPU的瓦片QR因子分解的实现,248-257(2010),柏林·doi:10.1007/978-3-642-28145-7_25
[34] 托莫夫,S。;纳特·R。;Ltaief,H。;Dongarra,J.,《使用GPU加速器的多核稠密线性代数解算器》,1-8(2010)·doi:10.1109/IPDPSW.2010.5470941
[35] Anderson,E.,Dongarra,J.J.,Ostrochov,S.:拉帕克工作说明41:拉帕克安装指南。田纳西大学计算机科学系(1992年)
[36] 英特尔数学内核库参考手册11.31575(2015)
[37] Amdahl,G.M.,实现大规模计算能力的单处理器方法的有效性,1967年4月18日至20日,纽约·doi:10.1109/N-SSC.2007.4785615
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。