×

图形处理器上线性系统的非核心解决方案。 (英语) Zbl 1201.68039号

摘要:我们使用当前图形处理器(GPU)将两个高级应用程序编程接口结合起来,用存储在磁盘上的数据解决大型线性系统。其结果是一个简单但功能强大的工具,可以快速开发面向对象的代码,实现为Matlab M脚本,用于线性代数操作。
该方法增强了该问题域中解决方案的可编程性,同时释放了GPU的高性能。实验结果来自Octave,与Nvidia实现基本线性代数子程序相关;作为另一个新奇之处,我们评估了Nvidia新型双精度图形硬件的方法性能。

MSC公司:

68N99型 软件理论
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] S.Balay、W.Gropp、L.C.McInnes和B.Smith,PETSc 2.0用户手册,技术代表ANL-95/11,阿贡国家实验室,1996年
[2] Barrachina S.,第九届IEEE并行和分布式科学与工程计算国际研讨会——2008年PDSEC
[3] S.Barrachina、M.Castillo、F.D.Igual、R.Mayo和E.S.Quintana-Ortí,实验室标记:用于图形处理器上线性代数操作的M脚本API。FLAME工作说明#30,技术代表ICC 01-02-2008,部门。2008年,西班牙尧姆一大学计算机科学研究所
[4] 内政部:10.1007/978-3-540-85451-7_79·doi:10.1007/978-3-540-85451-7_79
[5] 内政部:10.1145/1055531.1055532·Zbl 1073.65036号 ·数字对象标识代码:10.1145/1055531.1055532
[6] 内政部:10.1145/1055531.1055533·Zbl 1073.65037号 ·数字对象标识代码:10.1145/1055531.1055533
[7] DOI:10.1364/josa.11.001538·doi:10.1364/JOSAA.11.001538
[8] E.F.D'Azevedo和J.J.Dongarra,并行核心外scalapack LU、QR和Cholesky因式分解例程的设计和实现,LAPACK工作说明118 CS-97-247,田纳西大学,诺克斯维尔,1997
[9] 内政部:10.1016/0045-7825(92)90025-F·Zbl 0778.73081号 ·doi:10.1016/0045-7825(92)90025-F
[10] C.Edwards、P.Geng、A.Patra和R.van de Geijn,《平行矩阵分布:我们一直在做错事吗?德克萨斯大学奥斯汀分校计算机科学系技术代表TR-95-40,奥斯汀,1995年
[11] Gunter B.C.,第十五届国际并行和分布式处理研讨会(IPDPS)会议记录(2001)
[12] Joffrain T.,LNCS第3732号,载于《2004年PARA会议记录》第413页–(2005)
[13] 昆塔纳-奥尔蒂E.S.,ACM Trans。数学。柔软。(2009)
[14] W.C.Reiley和R.A.van de Geijn,POOCLAPACK:并行核心外线性代数包,技术代表CS-TR-99-33,德克萨斯大学奥斯汀分校计算机科学系,奥斯汀,1999
[15] 托莱多S.,《1996年IOPADS会议记录》(1996)
[16] van de Geijn R.A.,使用PLAPACK:并行线性代数包(1997)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。