×

PoLAPACK:带算法块的并行因式分解例程。 (英语) Zbl 1001.68204号

摘要:LU、QR和Cholesky因式分解是求解稠密线性方程组最常用的方法,在向量机和并行计算机上得到了广泛的研究和实现。大多数这些分解例程都是用块分割算法实现的,以便执行矩阵-矩阵运算,也就是说,通过最大限度地重用上层内存(如缓存)中的数据来获得最高性能。由于并行计算机具有不同的计算和通信性能比,因此为了获得算法的最大性能,最佳计算块大小会有所不同。因此,在计算之前,数据矩阵应按机器特定的最佳块大小分布。两个较小或较大的块大小使得在机器上实现良好性能几乎是不可能的。在这种情况下,要获得更好的性能,可能需要对数据矩阵进行完全重新分配。
我们提出了并行LU、QR和Cholesky因式分解例程,在二维块循环数据分布上使用“算法块”。使用算法块,无论物理块大小如何,都可以获得接近最佳的性能。这些例程在Intel Paragon和SGI/Cray T3E上实现,并与相应的ScaLAPACK因子分解例程进行了比较。

MSC公司:

68瓦30 符号计算和代数计算
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Choi,《科学规划》5,第173页–(1996年)·doi:10.1155/1996/483083
[2] Intel iPSC/860上的LAPACK块因子分解算法。LAPACK工作说明24,技术报告CS-90-115,田纳西大学,1990年10月。
[3] 分布式内存并发计算机可扩展软件库的设计。并行科学计算环境与工具研讨会论文集,法国图韦圣希莱尔,1992年9月7日至8日。爱思唯尔科学出版社,1992年;3-15.
[4] 并行计算导论。本杰明·卡明斯:加利福尼亚州红木市,1994年。
[5] ScaLAPACK用户指南。SIAM:宾夕法尼亚州费城,1997年·兹伯利0886.65022 ·数字对象标识代码:10.1137/1.9780898719642
[6] 使用PLAPACK。麻省理工学院出版社:剑桥,1997年。
[7] Agarwal,《IBM研究与开发杂志》38,第673页–(1994年)·数字对象标识代码:10.1147/rd.386.0673
[8] Choi,《并行:实践与经验》,第10页,第655页——(1998年)·Zbl 0903.68088号 ·doi:10.1002/(SICI)1096-9128(199807)10:8<655::AID-CPE369>3.0.CO;2-O型
[9] Choi,《并行:实践与经验》,第6页,543页——(1994年)·doi:10.1002/cpe.4330060702
[10] Huss-Lederman,《并行:实践与经验》,第6页,第571页–(1994年)·doi:10.1002/cpe.4330060703
[11] SUMMA可扩展通用矩阵乘法算法。LAPACK工作注释99,技术报告CS-95-286,田纳西大学,1995年。
[12] Lichtenstein,SIAM科学杂志。统计计算14 pp 1259–(1993)·Zbl 0925.65046号 ·数字对象标识代码:10.1137/0914075
[13] 可扩展并行库的独立于数据分布的方法。密西西比州立大学硕士论文,1995年。
[14] ScaLAPACK:用于分布式内存计算机的便携式线性代数库?设计问题和性能。1997年SIAM并行处理会议记录。
[15] LAPACK:用于高性能计算机的便携式线性代数库。90年超级计算会议录。IEEE出版社,1990年;1-10.
[16] Li,SIAM J.科学。统计计算9 pp 485–(1986)·Zbl 0644.65020号 ·doi:10.1137/0909032
[17] 一组并行基本线性代数子程序的建议。LAPACK工作说明100,技术报告CS-95-292,田纳西大学,1995年。
[18] 矩阵计算(第2版)。约翰·霍普金斯大学出版社:马里兰州巴尔的摩,1989年。
[19] 自动调谐线性代数软件(ATLAS)。98年SC会议记录。IEEE出版物,1998年。
[20] Whaley,并行计算(2000)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。