×

异构系统上的LU分解:实现高性能的节能方法。 (英语) Zbl 1372.65091号

摘要:稠密上下因式分解(LU)是一种重要的核,广泛用于解决稠密线性代数问题。混合LU算法设计得很好,可以充分利用异构系统的容量。然而,现有的异构实现通常以CPU为中心,高度依赖CPU内核,并通过PCIe总线进行大量数据传输,因此降低了整个计算机系统的整体能效。在本文中,我们为异构平台提供了LU的协处理器驻留实现,以通过减轻CPU执行重负载计算的负担和避免通过PCIe进行过多的数据传输来提高能效。为了保持性能,我们对CPU计算、协处理器计算、MPI通信以及CPU和协处理器之间的PCIe传输进行了管道优化。天河二号超级计算机上的实验表明,我们的LU实现可以与之竞争通过高度优化的“英特尔MKL”实现,在性能上克服了能效的限制。

MSC公司:

65平方英尺 线性系统和矩阵反演的直接数值方法
15A23型 矩阵的因式分解
2005年5月 并行数值计算
65日元10 特定类别建筑的数值算法
65年20月 数值算法的复杂性和性能
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Luciani X,Albera L(2015)基于LU因式分解的非缺陷矩阵联合特征值分解及其在ICA中的应用。IEEE传输信号处理63(17):1·Zbl 1394.94354号 ·doi:10.1109/TSP.2015.2440219
[2] Petitet A、Whaley RC、Dongarra J、Cleary A(2004)HPL—分布式内存计算机的高性能linpack基准的便携式实现。http://www.netlib.org/benchmark/hpl/
[3] http://www.top500.org
[4] Castaldo AM、Clint Whaley R、Samuel S(2010)使用并行缓存分配缩放LAPACK面板操作。ACM跨数学软件45(5):223-232·Zbl 1295.65135号
[5] Xu W,Lu Y,Li Q,Zhou E,Song Z,Dong Y,Zhang W(2014)MilkyWay-2超级计算机中的混合层次存储系统。前沿计算机科学8(3):367-377
[6] Kogge P、Borkar S、Dan C、Carlson W、Dally W、Denneau M、Franzon P、Harrod W、Hiller J、Stephen K(2008)《Exascale计算研究:实现Exascale系统的技术挑战》。DARPA信息处理技术办公室·Zbl 1295.65135号
[7] Heinecke A、Vaidyanathan K、Smelyanskiy M、Kobotov A、Dubtsov R、Henry G、Shet AG、Chrysos G、Dubey P(2013)基于Intel Xeon Phi协处理器的单节点和多节点系统Linpack基准测试的设计与实现。2013年IEEE第27届并行和分布式处理(IPDPS)国际研讨会,第126-137页
[8] Fatica M(2009)在异质集群上使用CUDA加速linpack。附:图形处理单元通用处理第二次研讨会会议记录,GPGPU-2,第46-51页
[9] Endo T、Matsuoka S、Nukada A、Maruyama N(2010)《使用异构加速器对超级计算机进行Linpack评估》。摘自:2010年IEEE并行和分布式处理(IPDPS)国际研讨会,第1-8页
[10] Jo Gangwon,Nah Jeongho,Lee Jun,Kim Jungwon,Lee Jaejin(2015)在多GPU节点集群上使用MPI OpenCL加速LINPACK。IEEE跨并行配电系统26:1·doi:10.1109/TPDS.2014.2321742
[11] Wang F,Yang CQ,Du YF,Chen J,Yi HZ,Xu WX(2011)在GPU加速的千兆超级计算机上优化linpack基准测试。计算机科学技术杂志26(5):854-865·doi:10.1007/s11390-011-0184-1
[12] Kurzak J、Luszczek P、Faverge M、Dongarra J(2013)带加速器的多核系统的部分枢轴LU因式分解。IEEE跨并联配电系统24(24):1613-1621·doi:10.1109/TPDS.2012.242
[13] Deisher M、Smelyanskiy M、Nickerson B、Lee VW、Chuvelev M、Dubey P(2011)《设计和动态负载平衡多核/多核混合逻辑单元》。计算机科学研究发展26(3-4):211-220·doi:10.1007/s00450-011-0169-x
[14] Chen X,Chang LW,Rodrigues CI,Lv J,Wang Z,Hwu WM(2015)节能GPU计算的自适应缓存管理。摘自:第47届IEEE/ACM微体系结构国际研讨会论文集,第343-355页
[15] Dongarra JJ,Duff LS,Sorensen DC,Vander Vorst HA(1998)高性能计算机的数值线性代数。暹罗工业和应用数学学会·Zbl 0914.65014号
[16] Gustavson FG(1997)递归导致稠密线性代数算法的自动变量阻塞。IBM J Res开发41(6):737-755·doi:10.1147/rd.416.0737
[17] Van De Velde EF(1990)多计算机LU分解实验。协和实践经验2(1):1-6·doi:10.1002/cpe.4330020102
[18] Fox GC、Johnson MA、Lyzenga GA、Otto SW、Salmon JK、Walker DW(1988)《解决并行处理器上的问题》。第1卷:一般技术和常规问题,普伦蒂斯·霍尔,老塔潘·Zbl 1394.94354号
[19] Hipes PG,Kuppermann A(1989)高斯-乔丹反演,以caltech mark ii超立方体为中心。包含:Hypercube并发计算机和应用程序,第1621-1634页
[20] Bach M、Kretz M、Lindenstruth V、Rohr D(2011)针对AMD GPU和多核CPU使用情况的优化HPL。计算科学研究发展26(3):153-164·doi:10.1007/s00450-011-0161-5
[21] Michael K、Gunnels J、Brokenshire D、Benton B(2009)《加速计算的Petascale》。摘自:第14届ACM SIGPLAN并行编程原理与实践研讨会论文集,PPoPP'09,第241-250页
[22] Dongarra J、Gates M、Haidar A、Jia Y、Kabir K、Luszczek P、Tomov S(2013)《利用MAGMA端口到Xeon Phi的英特尔多核集成硬件上的便携式HPC编程》。In:并行处理和应用数学国际会议,Springer,第571-581页
[23] Beckingsale D、Gaudin W、Herdman A、Jarvis S(2015)数千图形处理单元上的常驻块结构自适应网格优化。2015年第44届并行处理国际会议(ICPP),第61-70页
[24] Tan L、Kothapalli S、Chen L、Hussaini O、Bissiri R、Chen Z(2014)《高性能数值线性代数运算的节能技术调查》。In:并行计算,2014年12月
[25] Haidar A,Dong T,Luszczek P,Tomov S,Dongarra J(2015)GPU上批量矩阵计算的性能和能量优化。附:第八届通用加工uGPU研讨会会议记录,GPGPU-8,第59-69页
[26] Haidar A,Dong T,Tomov S,Luszczek P,Dongarra J(2015)用于阻止户主转换的批量和gpu驻留因子分解算法框架。In:ISC高性能,第07-25页
[27] Liu C,Li J,Huang W,Rubio J,Speight E,Lin X(2012)异构系统中的能效时间敏感映射。摘自:《第21届并行体系结构和编译技术国际会议论文集》,PACT’12,第23-32页
[28] Hong S,Kim H(2010)综合gpu功率和性能模型。摘自:第37届计算机体系结构国际研讨会论文集,ISCA’10,第280-289页
[29] Alonso P、Dolz MF、Igual FD、Mayo R、Quintana-Ort ES(2012)降低混合CPU-GPU平台上密集线性代数运算的能耗。2012年IEEE第十届应用程序并行和分布式处理国际研讨会,第56-62页
[30] 英特尔数学内核库(英特尔MKL)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。