文件Zbl 1372.65091-zbMATH Open

异构系统上的LU分解：实现高性能的节能方法。（英语） Zbl 1372.65091号

计算 99，第8期，791-811（2017）.

摘要：稠密上下因式分解（LU）是一种重要的核，广泛用于解决稠密线性代数问题。混合LU算法设计得很好，可以充分利用异构系统的容量。然而，现有的异构实现通常以CPU为中心，高度依赖CPU内核，并通过PCIe总线进行大量数据传输，因此降低了整个计算机系统的整体能效。在本文中，我们为异构平台提供了LU的协处理器驻留实现，以通过减轻CPU执行重负载计算的负担和避免通过PCIe进行过多的数据传输来提高能效。为了保持性能，我们对CPU计算、协处理器计算、MPI通信以及CPU和协处理器之间的PCIe传输进行了管道优化。天河二号超级计算机上的实验表明，我们的LU实现可以与之竞争通过高度优化的“英特尔MKL”实现，在性能上克服了能效的限制。

引用于1文件

MSC公司：

65平方英尺	线性系统和矩阵反演的直接数值方法
15A23型	矩阵的因式分解
2005年5月	并行数值计算
65日元10	特定类别建筑的数值算法
65年20月	数值算法的复杂性和性能

关键词：

LU因子分解;异质的;能源效率;工业界集团

软件：

库达;MAGMA公司;高功率激光器;LINPACK系列;MKL公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Luciani X，Albera L（2015）基于LU因式分解的非缺陷矩阵联合特征值分解及其在ICA中的应用。IEEE传输信号处理63（17）：1·Zbl 1394.94354号 ·doi:10.1109/TSP.2015.2440219
[2]	Petitet A、Whaley RC、Dongarra J、Cleary A（2004）HPL—分布式内存计算机的高性能linpack基准的便携式实现。http://www.netlib.org/benchmark/hpl/
[3]	http://www.top500.org
[4]	Castaldo AM、Clint Whaley R、Samuel S（2010）使用并行缓存分配缩放LAPACK面板操作。ACM跨数学软件45（5）：223-232·Zbl 1295.65135号
[5]	Xu W，Lu Y，Li Q，Zhou E，Song Z，Dong Y，Zhang W（2014）MilkyWay-2超级计算机中的混合层次存储系统。前沿计算机科学8（3）：367-377
[6]	Kogge P、Borkar S、Dan C、Carlson W、Dally W、Denneau M、Franzon P、Harrod W、Hiller J、Stephen K（2008）《Exascale计算研究：实现Exascale系统的技术挑战》。DARPA信息处理技术办公室·Zbl 1295.65135号
[7]	Heinecke A、Vaidyanathan K、Smelyanskiy M、Kobotov A、Dubtsov R、Henry G、Shet AG、Chrysos G、Dubey P（2013）基于Intel Xeon Phi协处理器的单节点和多节点系统Linpack基准测试的设计与实现。2013年IEEE第27届并行和分布式处理（IPDPS）国际研讨会，第126-137页
[8]	Fatica M（2009）在异质集群上使用CUDA加速linpack。附：图形处理单元通用处理第二次研讨会会议记录，GPGPU-2，第46-51页
[9]	Endo T、Matsuoka S、Nukada A、Maruyama N（2010）《使用异构加速器对超级计算机进行Linpack评估》。摘自：2010年IEEE并行和分布式处理（IPDPS）国际研讨会，第1-8页
[10]	Jo Gangwon，Nah Jeongho，Lee Jun，Kim Jungwon，Lee Jaejin（2015）在多GPU节点集群上使用MPI OpenCL加速LINPACK。IEEE跨并行配电系统26:1·doi:10.1109/TPDS.2014.2321742
[11]	Wang F，Yang CQ，Du YF，Chen J，Yi HZ，Xu WX（2011）在GPU加速的千兆超级计算机上优化linpack基准测试。计算机科学技术杂志26（5）：854-865·doi:10.1007/s11390-011-0184-1
[12]	Kurzak J、Luszczek P、Faverge M、Dongarra J（2013）带加速器的多核系统的部分枢轴LU因式分解。IEEE跨并联配电系统24（24）：1613-1621·doi:10.1109/TPDS.2012.242
[13]	Deisher M、Smelyanskiy M、Nickerson B、Lee VW、Chuvelev M、Dubey P（2011）《设计和动态负载平衡多核/多核混合逻辑单元》。计算机科学研究发展26（3-4）：211-220·doi:10.1007/s00450-011-0169-x
[14]	Chen X，Chang LW，Rodrigues CI，Lv J，Wang Z，Hwu WM（2015）节能GPU计算的自适应缓存管理。摘自：第47届IEEE/ACM微体系结构国际研讨会论文集，第343-355页
[15]	Dongarra JJ，Duff LS，Sorensen DC，Vander Vorst HA（1998）高性能计算机的数值线性代数。暹罗工业和应用数学学会·Zbl 0914.65014号
[16]	Gustavson FG（1997）递归导致稠密线性代数算法的自动变量阻塞。IBM J Res开发41（6）：737-755·doi:10.1147/rd.416.0737
[17]	Van De Velde EF（1990）多计算机LU分解实验。协和实践经验2（1）：1-6·doi:10.1002/cpe.4330020102
[18]	Fox GC、Johnson MA、Lyzenga GA、Otto SW、Salmon JK、Walker DW（1988）《解决并行处理器上的问题》。第1卷：一般技术和常规问题，普伦蒂斯·霍尔，老塔潘·Zbl 1394.94354号
[19]	Hipes PG，Kuppermann A（1989）高斯-乔丹反演，以caltech mark ii超立方体为中心。包含：Hypercube并发计算机和应用程序，第1621-1634页
[20]	Bach M、Kretz M、Lindenstruth V、Rohr D（2011）针对AMD GPU和多核CPU使用情况的优化HPL。计算科学研究发展26（3）：153-164·doi:10.1007/s00450-011-0161-5
[21]	Michael K、Gunnels J、Brokenshire D、Benton B（2009）《加速计算的Petascale》。摘自：第14届ACM SIGPLAN并行编程原理与实践研讨会论文集，PPoPP'09，第241-250页
[22]	Dongarra J、Gates M、Haidar A、Jia Y、Kabir K、Luszczek P、Tomov S（2013）《利用MAGMA端口到Xeon Phi的英特尔多核集成硬件上的便携式HPC编程》。In:并行处理和应用数学国际会议，Springer，第571-581页
[23]	Beckingsale D、Gaudin W、Herdman A、Jarvis S（2015）数千图形处理单元上的常驻块结构自适应网格优化。2015年第44届并行处理国际会议（ICPP），第61-70页
[24]	Tan L、Kothapalli S、Chen L、Hussaini O、Bissiri R、Chen Z（2014）《高性能数值线性代数运算的节能技术调查》。In：并行计算，2014年12月
[25]	Haidar A，Dong T，Luszczek P，Tomov S，Dongarra J（2015）GPU上批量矩阵计算的性能和能量优化。附：第八届通用加工uGPU研讨会会议记录，GPGPU-8，第59-69页
[26]	Haidar A，Dong T，Tomov S，Luszczek P，Dongarra J（2015）用于阻止户主转换的批量和gpu驻留因子分解算法框架。In:ISC高性能，第07-25页
[27]	Liu C，Li J，Huang W，Rubio J，Speight E，Lin X（2012）异构系统中的能效时间敏感映射。摘自：《第21届并行体系结构和编译技术国际会议论文集》，PACT’12，第23-32页
[28]	Hong S，Kim H（2010）综合gpu功率和性能模型。摘自：第37届计算机体系结构国际研讨会论文集，ISCA’10，第280-289页
[29]	Alonso P、Dolz MF、Igual FD、Mayo R、Quintana-Ort ES（2012）降低混合CPU-GPU平台上密集线性代数运算的能耗。2012年IEEE第十届应用程序并行和分布式处理国际研讨会，第56-62页
[30]	英特尔数学内核库（英特尔MKL）

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
右心室	评审员
立方厘米	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：书籍文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

异构系统上的LU分解：实现高性能的节能方法。（英语） Zbl 1372.65091号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

异构系统上的LU分解：实现高性能的节能方法。 （英语） Zbl 1372.65091号

MSC公司：

关键词：

软件：

参考文献：

异构系统上的LU分解：实现高性能的节能方法。（英语） Zbl 1372.65091号