文件Zbl 1204.68268-zbMATH打开

面向混合GPU加速多核系统的稠密线性代数。（英语） Zbl 1204.68268号

并行计算。 36，编号5-6，232-240（2010）.

摘要：我们强调了导致使用混合多核+GPU系统进行高性能计算的吸引力增加的趋势。我们提出了一组技术，可用于为这些系统开发高效的稠密线性代数算法。我们通过开发混合LU分解算法来说明主要思想，在该算法中，我们将计算拆分到多核和图形处理器上，并使用特定技术来减少混合组件之间的旋转和通信量。这就产生了一种高效的算法，可以平衡使用多核处理器和图形处理器。

引用于25文件

MSC公司：

68宽10	计算机科学中的并行算法
68M99型	计算机系统组织
65层99	数值线性代数
第65年	并行数值计算

关键词：

混合计算；稠密线性代数；并行算法；多核处理器；图形处理单元

软件：

LINPACK系列；CUDA公司；mctoolbox软件；LAPACK公司；GEMM公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部链接

参考文献：

[1]	E.Anderson，Z.Bai，C.Bischof，S.Blackford，J.Demmel，J.Dongarra，J.Du Croz，A.Greenbaum，S.Hammarling，A.McKenney，D.Sorensen，LAPACK用户指南，SIAM，第三版，1999年·Zbl 0934.65030号
[2]	M.Baboulin，J.Dongarra，S.Tomov，多核和特殊用途架构的稠密线性代数中的一些问题，技术报告UT-CS-08-615，田纳西大学，2008，LAPACK工作注释200。
[3]	G.Ballard，J.Demmel，O.Holtz，O.Schwartz，《线性代数中通信最小化》，技术报告，LAPACK工作注释2182009年5月·Zbl 1246.68128号
[4]	S.Barrachina、M.Castillo、F.Igual、R.Mayo、E.Quintana-Ortí，《在图形处理器上求解密集线性系统》，技术报告ICC 02-02-2008，詹姆大学，2008年2月。
[5]	A.Buttari，J.Dongarra，J.Kurzak，J.Langou，P.Luszczek，S.Tomov，《多核对数学软件的影响》，PARA 2006，收录于：B.Kágström等人（编辑），《计算机科学讲义》，第4699卷，Springer，2007年，第1-10页。
[6]	Buttari，A。；Dongarra，J。；Kurzak，J。；Luszczek，P。；Tomov，S.：使用混合精度进行稀疏矩阵计算，以提高性能，同时达到64位精度，ACM转换。数学。软件34，No.4（2008）·Zbl 1190.65117号 ·数字对象标识代码：10.1145/1377596.1377597
[7]	A.Buttari，J.Langou，J.Kurzak，J.Dongarra，一类用于多核架构的并行平铺线性代数算法，技术报告UT-CS-07-600，田纳西大学，2007年，LAPACK工作说明191。
[8]	J.Demmel，J.Dongarra，B.Parlett，W.Kahan，M.Gu，D.Bindel，Y.Hida，X.Li，O.Marques，E.Riedy，C.Vömel，J.Langou，P.Luszczek，J.Kurzak，A.Buttari，J.Longou，S.Tomov，下一个LAPACK和ScaLAPACK.库的招股说明书，收录于：PARA'06：科学和并行计算的最新技术（瑞典乌梅），高性能计算中心北（HPC2N）和计算科学系，乌梅大学，施普林格，2006年6月。
[9]	J.Demmel，L.Grigori，M.Hoemmen，J.Langou，通信-避免并行和顺序QR分解，CoRR abs/0806.2159，2008年·兹比尔1241.65028
[10]	Dongarra，J。；Luszczek，P。；Petitet，A.：LINPACK基准：过去、现在和未来，并发和计算：实践和经验15820（2003）
[11]	J.Dongarra、S.Moore、G.Peterson、S.Tomov、J.Allred、V.Natoli、D.Richie，《探索空军应用CFD加速的新架构》，载于《2008年HPCMP用户小组会议论文集》，2008年7月14日至17日&书信电报；网址：http://www.cs.utk.edu/tomov/ugc2008_final.pdf&gt；。
[12]	K.Fatahalian，J.Sugerman，P.Hanrahan，《了解矩阵乘法的GPU算法的效率》，载于：HWWS’04：ACM Siggraph/Eurographics图形硬件会议论文集（美国纽约州纽约市），ACM，2004年，第133-137页。
[13]	M.Fatica，用CUDA加速异构集群上的LINPACK，载于：GPGPU-2:图形处理单元通用处理第二次研讨会论文集（美国纽约州纽约市），美国计算机学会，2009年，第46-51页。
[14]	N.Galoppo，N.Govindaraju，M.Henson，D.Manocha，LU-GPU:图形硬件上求解密集线性系统的高效算法，收录于：SC'05:2005年ACM/IEEE超级计算会议论文集（美国华盛顿特区），IEEE计算机学会，2005年，第3页。
[15]	L.Grigori，J.Demmel，H.Xiang，《避免高斯消除的通信》，技术报告6523，INRIA，2008年。
[16]	Wolfgang Gruener、Larrabee、CUDA和TGDaily免费午餐的追求&书信电报；http://www.tgdaily.com/content/view/38750/113/2008年8月&gt；。
[17]	Higham，N.：数值算法的准确性和稳定性，（2002年）·Zbl 1011.65010号 ·数字对象标识代码：10.1137/1.9780898718027
[18]	Hruska，J.：AMD融合现在被推迟到2011年，Art technica（2008）
[19]	科格斯特罗姆，B。；Ling，P。；Van Loan，C.：基于GEMM的3级BLAS：高性能模型实现和性能评估基准，ACM trans。数学。软件24，No.3，268-302（1998）·Zbl 0930.65047号 ·doi:10.1145/292395.292412
[20]	Julie Langou、Julien Langou和P.Luszczek、J.Kurzak、A.Buttari和J.Dongarra，《利用32位浮点算法在获得64位精度方面的性能》（重新审视线性系统的迭代求精），载于：SC'06：2006年ACM/IEEE超级计算会议论文集（美国纽约州纽约市），ACM，2006年，第113页。
[21]	Y.Li，J.Dongarra，S.Tomov，关于GPU的GEMM自动调整的说明，技术报告，LAPACK工作说明2122009年1月。
[22]	NVIDIA，NVIDIA Tesla将CUDA开发人员的性能提高了一倍，《计算机图形世界》（2008年6月30日）。
[23]	NVIDIA，NVIDIA-CUDA编程指南，6/07/2008，2.0版。
[24]	J·欧文斯。；马萨诸塞州休斯顿。；Luebke，D。；格林，S。；斯通，J。；Phillips，J.：GPU计算，IEEE 96论文集，第5期，879-899（2008）
[25]	J·欧文斯。；Luebke，D。；Govindaraju，N。；哈里斯，M。；Krüger，J。；Lefohn，A。；Purcell，T.：图形硬件通用计算综述，计算。图形论坛26，第1期，80-113（2007）
[26]	D.Parker，《随机蝴蝶变换及其在计算线性代数中的应用》，技术报告CSD-950023，加州大学洛杉矶分校计算机科学系，1995年。
[27]	D.Parker，B.Pierce，《随机FFT：高斯消去法中旋转的替代方法》，技术报告CSD-950037，加州大学洛杉矶分校计算机科学系，1995年。
[28]	法尔，M。；Fernando，R.：GPU gems 2:高性能图形和通用计算的编程技术（GPU gems），（2005）
[29]	G.Quintana-Ortí，F.Igual，E.Quintana-Ortí，R.van de Geijn，用多个硬件加速器在平台上求解稠密线性系统，收录于：PPoPP’09：第14届ACM SIGPLAN并行编程原理与实践研讨会论文集（美国纽约州纽约市），ACM，2009年，第121-130页·Zbl 1201.68039号
[30]	G.Quintana-Orti、E.Quintana-Orti、E.Chan、F.van Zee、R.van de Geijn，多线程架构上矩阵计算的逐块编程算法，技术报告TR-08-04，德克萨斯大学奥斯汀分校，2008年，FLAME工作说明29。
[31]	塞勒，L。；Carmean，D。；Sprangle，E。；Forsyth，T。；M.Abrash。；杜贝，P。；Junkins，S。；A.湖。；苏格曼，J。；卡文，R。；Espasa，R。；Grochowski，E。；Juan，T。；Hanrahan，P.：Larrabee：视觉计算的多核（86倍）架构，ACM trans。图表。27，第3号，1-15（2008）
[32]	S.Tomov，M.Baboulin，J.Dongarra，S.Moore，V.Natoli，G.Peterson，D.Richie，《加速密集线性代数的专用硬件和算法》，收录于：科学计算的并行处理，亚特兰大，2008年3月12日至14日&书信电报；网址：http://www.cs.utk.edu/tomov/PP8_tomov.pdf格式&gt；。
[33]	S.Tomov，J.Dongarra，《通过基于GPU的混合计算加速向上Hessenberg形态的还原》，《219号技术报告》，LAPACK工作说明，2009年5月·Zbl 1214.65020号
[34]	V.Volkov，J.Demmel，《调整稠密线性代数的基准gpu》，收录于：SC'08：2008年ACM/IEEE超级计算会议论文集（美国新泽西州皮斯卡塔韦），IEEE出版社，2008年，第1-11页。
[35]	LU，QR，使用GPU向量功能的Cholesky因子分解，技术报告UCB/EECS-2008-49，加州大学伯克利分校EECS系，2008年5月。
[36]	《使用GPU加速线性代数例程》，2008年1月9日，PAR实验室冬季务虚会海报&书信电报；http://www.eecs.berkeley.edu/volkov/volkov08-parlab.pdf&gt；。
[37]	使用图形硬件的通用计算，&lt；http://www.gpgpu.org>.
[38]	Nvidia cuda区&书信电报；http://www.nvidia.com/object/cuda_home.html>.

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

面向混合GPU加速多核系统的稠密线性代数。（英语） Zbl 1204.68268号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

面向混合GPU加速多核系统的稠密线性代数。 （英语） Zbl 1204.68268号

MSC公司：

关键词：

软件：

参考文献：

面向混合GPU加速多核系统的稠密线性代数。（英语） Zbl 1204.68268号