×

在基于GPU的并行计算机上解决大规模光能传递问题。 (英语) Zbl 1336.65025号

摘要:光能传递方程在计算机图形学和热工应用中得到了广泛的应用。该方程公式简单,但当与应用程序关联的Lambertian曲面数量增加时,求解该方程具有挑战性。本文提出了计算视图因子的算法,并使用非核心Cholesky分解方法求解光能传递方程组。这项工作详细介绍了视图因子的计算和Cholesky解算器的算法过程。光能传递矩阵的数据布局遵循ScaLAPACK中使用的块循环分解方案。GPU上视图因子的并行计算扩展了基于名为view3d的串行社区代码的算法。为了处理GPU上超过设备内存的大型矩阵,实现了并行Cholesky分解的核心外算法。本文展示并讨论了在Keeneland上进行的性能研究,该集群是美国国家计算科学研究所(National Institute for Computational Sciences)的CPU/GPU混合集群,由264个多核CPU和GPU节点组成。

MSC公司:

65平方英尺 线性系统和矩阵反演的直接数值方法
65平方米 含偏微分方程初值和初边值问题离散方程的数值解
2005年5月 并行数值计算
65日元10 特定类别建筑的数值算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[2] Walton,G.N.,《带障碍物的平面凸多边形之间辐射视点因子的计算算法》(技术代表NBSIR 86-34631987年——辐射传热基础和应用的简短报告,HTD-Vol.72(1986),美国机械工程师学会国家标准局)
[3] 阿古洛,E。;德梅尔,J。;Dongarra,J。;哈德里,B。;Kurzak,J。;Langou,J。;Ltaief,H。;Luszczek,P。;Tomov,S.,《新兴体系结构的数值线性代数:等离子和MAGMA项目》,J.Phys。Conf.序列号。,180, 012037 (2009)
[9] 纳特·R。;托莫夫,S。;Dongarra,J.,《Fermi GPU的改进MAGMA GEMM》,国际期刊《高性能计算》。申请。,24, 4, 511-515 (2010)
[10] 宋,F。;Dongarra,J.,异构GPU集群的可扩展框架,(第24届ACM算法和架构并行性研讨会论文集(2012),ACM),91-100
[11] 宋,F。;托莫夫,S。;Dongarra,J.,异构多核和多GPU系统上的启用和缩放矩阵计算,(第26届ACM超级计算国际会议论文集(2012),ACM),365-376
[12] D’Azevedo,E。;Hill,J.C.,GPU集群上的并行LU因子分解,Proc。计算。科学。,9, 67-75 (2012)
[13] 巴雷特,R.F。;Chan,T.H.F。;D'Azevedo,E.F。;耶格尔,E.F。;Wong,K。;Wong,R.Y.,高性能计算LINPACK基准测试(HPL)的复杂版本,Concurr。计算:实际。实验,22,537-587(2010)
[14] 巴赫,M。;Kretz,M。;林登斯特鲁夫。;Rohr,D.,针对amd GPU和多核CPU使用的优化HPL,Comput。科学-Res.Dev.,22,5,537-587(2010)
[16] 纳特·R。;托莫夫,S。;Dongarra,J.,《用于费米图形处理单元的改进型MAGMA GEMM》,国际期刊《高性能计算》。申请。,24, 4, 511-515 (2010)
[17] Ohmura,J。;三好,T。;Hidetsugu,I。;Yoshinaga,T.,计算-GPU加速PC集群上linpack的通信重叠,IIEICE Trans。信息系统。,94, 12, 2319-2327 (2011)
[18] 沃尔科夫,V。;Demmel,J.,LU,QR和Cholesky因子分解使用GPU的载体功能,技术代表UCB/EECS-2008-49(2008),加利福尼亚大学:加州大学伯克利分校
[19] Rohr,D。;巴赫,M。;Kretz,M。;Lindenstruth,V.,《高能效集群上的Multi-GPU DGEMM和HPL》,IEEE Micro,99,1(2011)
[20] Wang,F。;杨春秋。;杜玉凤。;陈,J。;Yi,H.Z。;Xu,W.X.,在GPU加速的千兆超级计算机上优化LINPACK基准,J.Compute。科学。技术,26,5,854-865(2011)
[22] Walton,G.N.,《通过自适应集成计算障碍视野因子》,技术代表NISTIR 6925(2002),国家标准与技术研究所:马里兰州盖瑟斯堡国家标准技术研究所
[23] Hottel,H.C。;Sarofim,A.,《辐射传输》(1967),McGraw-Hill:纽约州纽约市McGraw-Hill
[24] Walton,G.N.,《计算辐射交换因子的Fortran IV程序》,技术代表BDR-25(1966),加拿大国家研究委员会,建筑研究部:加拿大国家研究理事会,加拿大渥太华建筑研究部
[25] 山崎,I。;托莫夫,S。;Dongarra,J.,具有多个GPU加速器的多核上的单面密集矩阵分解,Proc。计算。科学。,9, 37-46 (2012)
[27] Dongarra,J。;Hammarling,S。;Walker,D.,并行核心外LU分解的关键概念,并行计算。,23, 49-70 (1997) ·Zbl 0906.68036号
[28] D’Azevedo,E。;Dongarra,J.,并行核心外scalapack LU、QR和Cholesky因式分解例程的设计和实现,Concurr。计算:实际。实验,121481-1493(2000)·兹比尔1008.68577
[29] 冈特,B。;莱利,W。;van de Geijn,R.,利用POOCLAPACK实现核心外Cholesky和QR因子分解,技术代表CS-TR-00-21(2000),德克萨斯大学奥斯汀分校:德克萨斯大学奥斯汀分校,美国德克萨斯州奥斯汀
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。