×

多核结构上对称正定矩阵的高效矩阵求逆。 (英语) Zbl 1323.65022号

Palma,JoséM.Laginha M.(编辑)等人,《计算科学的高性能计算——VECPRA 2010》。第九届国际会议,2010年6月22日至25日,美国加利福尼亚州伯克利。修订了选定的论文。柏林:施普林格出版社(ISBN 978-3-642-19327-9/pbk)。计算机科学课堂讲稿6449129-138(2011)。
摘要:当前序列数字线性代数库(如LAPACK)中的算法在多核体系结构上没有很好的并行化。最近引入了一个新的算法家族,即tile算法。先前的研究表明,可以编写高效且可扩展的tile算法来执行Cholesky分解、(伪)LU分解、QR分解以及计算对称正定矩阵的逆,我们重新讨论了对称正定矩阵的逆的计算。我们观察到,使用动态任务调度器,翻译现有的LAPACK代码以获得准备执行的tile算法是相对无痛的。然而,我们证明,对于某些变体,需要应用非平凡的编译器技术(数组重命名、循环反转和流水线)来进一步提高应用程序的并行性。我们给出了初步的实验结果。
有关整个系列,请参见[Zbl 1207.68016号]。

MSC公司:

65平方英尺 线性系统和矩阵反演的直接数值方法
2005年5月 并行数值计算
65日元10 特定类别建筑的数值算法
15A09号 矩阵反演理论与广义逆
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] BLAS:基本线性代数子程序,http://www.netlib.org/blas/ ·Zbl 0614.65039号
[2] Agullo,E.,Dongarra,J.,Hadri,B.,Kurzak,J.、Langou,J.和Ltaief,H.:血浆用户指南。技术报告,ICL,UTK(2009)
[3] Agullo,E.,Hadri,B.,Ltaief,H.,Dongarrra,J.:在多核硬件上使用多个软件包进行单边因式分解的比较研究。摘自:SC 2009:高性能计算网络、存储和分析会议记录,第1-12页。ACM,纽约(2009)·数字对象标识代码:10.1145/1654059.1654080
[4] Allen,R.,Kennedy,K.:为现代架构优化编译器:基于依赖的方法。Morgan Kaufmann,旧金山(2001)
[5] Anderson,E.、Bai,Z.、Bischof,C.、Blackford,L.S.、Demmel,J.W.、Dongarra,J.、Du Croz,J.,Greenbaum,A.、Hammarling,S.、McKenney,A.、Sorensen,D.:LAPACK用户指南。SIAM,费城(1992)·Zbl 0934.65030号
[6] Bientinesi,P.,Gunter,B.,van de Geijn,R.:与对称正定矩阵求逆相关的算法系列。数学。柔和。 35(1), 1–22 (2008) ·数字对象标识代码:10.1145/1377603.1377606
[7] Blackford,L.S.、Choi,J.、Cleary,A.、D'Azevedo,E.、Demmel,J.和Dhillon,I.、Dongarra,J.,Hammarling,S.、Henry,G.、Petitet,A.、Stanley,K.、Walker,D.、Whaley,R.C.:ScaLAPACK用户指南。SIAM,费城(1997)·Zbl 0886.65022号 ·数字对象标识代码:10.1137/1.9780898719642
[8] Buttari,A.、Langou,J.、Kurzak,J.和Dongarra,J.:多核架构的并行平铺QR分解。并发计算:实际。专家。 20(13), 1573–1590 (2008) ·doi:10.1002/cpe.1301
[9] Buttari,A.、Langou,J.、Kurzak,J.和Dongarra,J.:多核架构的一类并行分片线性代数算法。并行计算35(1),38–53(2009)·doi:10.1016/j.parco.2008.10.02
[10] Chan,E.:矩阵计算的运行时数据流调度。FLAME工作说明#39。德克萨斯大学奥斯汀分校计算机科学系技术报告TR-09-22(2009年8月)
[11] Chan,E.,Van Zee,F.G.,Bientinesi,P.,Quintana-Ortí,E.S.,Quitana-Orí,G.,Van de Geijn,R.:超矩阵:一个多线程运行时调度系统,用于逐块算法。摘自:PPoPP 2008:第13届ACM SIGPLAN并行编程原理与实践研讨会论文集,第123–132页。ACM,纽约(2008)
[12] Christofides,N.:图论:算法方法(1975)·兹比尔0321.94011
[13] Du Croz,J.J.,Higham,N.J.:矩阵反演方法的稳定性。IMA数值分析杂志12,1-19(1992)·Zbl 0748.65021号 ·doi:10.1093/imanum/12.1.1
[14] Eigenmann,R.,Hoeflinger,J.,Padua,D.:关于完美基准的自动并行化®。IEEE传输。平行配送系统。9(1),5-23(1998)·数字对象标识代码:10.1109/71.655238
[15] 新泽西州海厄姆:《数值算法的准确性和稳定性》,第2版。费城工业和应用数学学会(2002年)·Zbl 1011.65010号 ·doi:10.137/1.9780898718027
[16] Kurzak,J.,Dongarra,J.:多核处理器上数值计算的全动态调度器。田纳西大学CS技术报告,UT-CS-09-643(2009)
[17] Kurzak,J.,Dongarra,J.:蜂窝宽带引擎的QR因子分解。科学。程序。 17(1-2), 31–42 (2009)
[18] Perez,J.M.、Badia,R.M.、Labarta,J.:多核架构的依赖软件任务编程环境。收录:IEEE集群计算2008年会议记录(2008)·doi:10.1109/CLUSTR.2008.4663765
[19] Quintana-Orti,G.,Quintana-Ortí,E.S.,van de Geijn,R.A.,van Zee,F.G.,Chan,E.:线程级并行的编程矩阵算法。ACM数学软件汇刊36(3)·Zbl 1364.65105号 ·doi:10.1145/1527286.1527288
[20] Rinard,M.C.,Scales,D.J.,Lam,M.S.:Jade:一种用于并行编程的高级机器依赖语言。计算机6,28–38(1993)·doi:10.1109/2.214440
[21] Sutter,H.:软件并发性的根本转变。Dobb's Journal博士30(3)(2005)
[22] Wolfe,M.:Doany:不仅仅是另一个并行循环。收录:Banerjee,U.,Gelernter,D.,Nicolau,A.,Padua,D.A.(编辑)LCPC 1992。LNCS,第757卷,第421-433页。斯普林格,海德堡(1993)·doi:10.1007/3-540-57502-2_62
[23] Van Zee,F.G.:《libflame:The Complete Reference》(2009年),网址:http://www.lulu.com
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。