×

用于优化CPU-GPU混合多前沿解算器的性能模型和工作负载分配算法。 (英语) Zbl 1416.65125号

摘要:涉及大型稀疏线性系统的问题在科学计算中普遍存在,迫切需要加快求解过程。CPU-GPU混合系统最近成为一种具有强大计算能力的新平台趋势。然而,尚不清楚此类系统如何加速求解器。我们研究了如何充分利用CPU和GPU,以最小化使用多波前方法求解对称正定系统所需的总时间。我们分析了这种混合系统的多波前方法的计算和通信成本,以建立定时性能模型。提出了工作负载分配算法,以确定是否应在CPU或GPU上考虑正面矩阵,以最小化总体计算的总执行时间。我们提供了理论分析和数值结果来说明所提算法的特点和效率。由于性能模型和工作负载分配算法可以自适应地适应不同的CPU和GPU,我们预计随着异构硬件和软件的发展,这些技术的适用性和重要性将继续增长。

MSC公司:

65层50 稀疏矩阵的计算方法
65平方英尺 线性系统和矩阵反演的直接数值方法
2005年5月 并行数值计算
65岁10岁 特定类别建筑的数值算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿梅斯托,P。;达夫,I。;L'Excellent,J.Y。;Koster,J.,《MUMPS:通用分布式内存稀疏求解器》,(应用并行计算。工业和学术界HPC的新范式(2001)),121-130
[2] 阿梅斯托,P。;达夫,I。;L'Excellent,J.,《多前沿并行分布式对称和非对称解算器》,计算。方法应用。机械。工程,184,2,501-520(2000)·Zbl 0956.65017号
[3] 阿梅斯托,P。;达夫,I。;卓越,J。;Koster,J.,《使用分布式动态调度的完全异步多前沿解算器》,SIAM J.Matrix Ana。申请。,23, 1, 15-41 (2001) ·Zbl 0992.65018号
[4] Davis,T.,非对称模式多面方法的列预排序策略,ACM Trans。数学。软件,30,2,165-195(2004)·Zbl 1072.65036号
[5] 达夫,I。;Reid,J.,《不定稀疏对称线性系统的多面解》,ACM Trans。数学。柔和。(TOMS),9,3,302-325(1983)·Zbl 0515.65022号
[6] 古普塔,A。;Karypis,G。;Kumar,V.,稀疏矩阵分解的高度可扩展并行算法,IEEE Trans。并行分配系统。,8, 5, 502-520 (1997)
[7] Liu,J.,《稀疏矩阵解的多波前方法:理论与实践》,SIAM Rev.,34,1,82-109(1992)·Zbl 0919.65019号
[8] Dongarra,J。;杜克罗兹,J。;Hammarling,S。;Duff,I.,一组三级基本线性代数子程序,ACM Trans。数学。柔和。(TOMS),16,1,1-17(1990)·Zbl 0900.65115号
[9] 乔治·T。;Saxena,V。;古普塔,A。;辛格,A。;Choudhury,A.,GPU上稀疏SPD矩阵的多前沿因子分解,(2011 IEEE国际并行与分布式处理研讨会(IPDPS)(2011),IEEE),372-383
[10] Vuduc,R。;Chandramowlishwaran,A。;Choi,J。;Guney,M。;Shringarpure,A.,《关于GPU加速的极限》,(第二届USENIX并行性热点会议论文集(2010年),USENIX协会),13-18
[11] 卢卡斯,R。;Wagenbreth,G。;Davis,D。;Grimes,R.,GPU及其多核主机上的多前沿计算,(计算科学高性能计算-VECPAR 2010(2011)),71-82·Zbl 1323.65136号
[13] 申克,O。;Christen,M。;Burkhart,H.,图形处理单元的算法性能研究,J.并行分布计算。,68, 10, 1360-1369 (2008)
[15] Parter,S.,《线性图在高斯消去中的应用》,SIAM Rev.,3,2,119-130(1961)·Zbl 0102.11302号
[17] Ashcraft,C。;Grimes,R.,松弛超节点划分对多锋面方法的影响,ACM Trans。数学。柔和。(汤姆斯),15291-309(1989)·Zbl 0900.65061号
[18] Lindholm,E。;Nickolls,J。;Oberman,S。;Montrym,J.,NVIDIA Tesla:统一图形和计算架构,IEEE Micro,28,2,39-55(2008)
[22] Ltaief,H.等人。;托莫夫,S。;纳特·R。;杜,P。;Dongarra,J.,《使用GPU加速器的多核可扩展高性能Cholesky因子分解》。技术报告、技术报告、LAPACK工作说明223(2009)
[23] Yu,C。;Wang,W。;Pierce,D.,非对称多线方法的CPU-GPU混合方法,并行计算。,37, 759-770 (2011)
[24] 塞德里克·奥贡奈特;塞缪尔·蒂鲍特(Samuel Thibault);雷蒙德·纳米斯特;Wacrenier、Pierre-André、StarPU:异构多核架构上任务调度的统一平台,Concurr。计算:实际。专家。,23, 2, 187-198 (2011)
[25] 乔治·博西尔卡;奥雷连·布特伊勒;安东尼·达纳利斯(Anthony Danalis);Thomas Herault;皮埃尔·勒马林耶(Pierre Lemarinier);Dongarra,Jack,DAGuE:用于高性能计算的通用分布式DAG引擎,并行计算。,38, 1, 37-51 (2012)
[29] 勒泰夫(Ltaief)、哈泰姆(Hatem);斯坦尼米尔·托莫夫;Nath,Rajib;Dongarra,Jack,具有多个gpu加速器的混合多核cholesky因子分解,IEEE Trans。平行配送系统。(2010) ·Zbl 1323.65135号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。