×

兹马思-数学第一资源

PoLAPACK:具有算法块的并行因子分解例程。(英语) Zbl 1001.68204
摘要:LU、QR和Cholesky因子分解是求解稠密线性方程组的最广泛的方法,并且在向量机和并行计算机上得到了广泛的研究和实现。这些分解例程中的大多数都是用块分区算法实现的,目的是执行矩阵矩阵运算,也就是说,通过最大限度地重用上层内存(如缓存)中的数据,以获得最高的性能。由于并行计算机具有不同的计算和通信性能比,为了使一个算法获得最大的性能,最佳的计算块大小也各不相同。因此,在计算前应将矩阵的大小与机器的最优大小相匹配。两个小或大的块大小使得在一台机器上获得良好的性能几乎是不可能的。在这种情况下,要获得更好的性能可能需要对数据矩阵进行完全的重新分配。
在二维块循环数据分布上,我们提出了并行LU、QR和Cholesky因式分解例程和“算法块”。通过算法分块,可以在不考虑物理块大小的情况下获得近似最优的性能。这些例程在Intel Paragon和SGI/Cray T3E上实现,并与相应的ScaLAPACK因子分解例程进行了比较。
理学硕士:
68立方厘米 符号计算与代数计算
PDF格式 BibTeX公司 XML 引用
全文: 多伊
参考文献:
[1] 崔,《科学规划》第5页173–(1996年)
[2] 英特尔iPSC/860上的LAPACK块分解算法。LAPACK工作说明24,技术报告CS-90-115,田纳西大学,1990年10月。
[3] 分布式内存并发计算机可扩展软件库的设计。并行科学计算研讨会环境与工具论文集,法国图韦圣希莱尔,1992年9月7日至8日,爱思唯尔科学出版社,1992年;3-15年。
[四] 并行计算导论。本杰明·卡明斯:加州红木城,1994年。
[5] ScaLAPACK用户指南。暹罗:费城,宾夕法尼亚州,1997年·Zbl 0886.65022
[6] 使用PLAPACK。麻省理工学院出版社:剑桥,1997年。
[7] Agarwal,IBM研发杂志38页673–(1994)
[8] 崔,并发:实践与经验10页655–(1998)·Zbl 0903.68088
[9] 崔,并行:实践与经验6页543–(1994)
[10] Huss Lederman,《并发:实践与经验》6页571–(1994)
[11] SUMMA可伸缩通用矩阵乘法算法。LAPACK工作注释99,技术报告CS-95-286,田纳西大学,1995年。
[12] 利希滕斯坦,暹罗J。Sci的。Stat.Computing 14 pp 1259——(1993年)·Zbl 0925.65046
[13] 独立于数据分布的可伸缩并行库方法。硕士论文,密西西比州立大学,1995年。
[14] ScaLAPACK:一个用于分布式内存计算机的可移植线性代数库?设计问题和性能。暹罗并行处理会议记录,1997年。
[15] LAPACK:一个用于高性能计算机的便携式线性代数库。《90年代超级计算学报》,IEEE出版社,1990年;1-10页。
[16] 李,暹罗。Sci的。统计计算9 pp 485–(1986)·Zbl 0644.65020
[17] 关于一组并行基本线性代数子程序的建议。LAPACK工作注释100,技术报告CS-95-292,田纳西大学,1995年。
[18] 矩阵计算(第二版)。约翰霍普金斯大学出版社:巴尔的摩,马里兰州,1989年。
[19] 自动调谐线性代数软件(ATLAS)。SC'98会议记录。IEEE出版物,1998年。
[20] Whaley,并行计算(2000)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。