×

兹马思-数学第一资源

并行核心外scaLAPACK LU、QR和Cholesky因式分解例程的设计与实现。(英语) Zbl 1008.68577
摘要:本文描述了ScaLAPACK的核心外扩展中包含的三个核心因子分解例程LU、QR和Cholesky的设计和实现。这些例程允许分解和解决一个太大而不能完全放入物理内存的密集系统。完整的矩阵存储在磁盘上,分解例程将子矩阵面板转移到内存中。为了减少磁盘I/O流量,实现了面向列的“左看”因子分解算法。这些例程使用可移植的I/O接口实现,并像核心计算内核一样利用高性能的ScaLAPACK因子分解例程。
我们将介绍核心外ScaLAPACK因子分解例程的实现细节,以及Beowulf Linux集群上的性能和可伸缩性结果。

理学硕士:
68U99 计算方法与应用
68N19 其他编程范例(面向对象、顺序、并发、自动等)
PDF格式 BibTeX公司 XML 引用
全文: 内政部
参考文献:
[1] Berry,物理评论快报82(1999)
[2] 杰格,等离子体物理学7(2000)
[3] 杰格,《等离子体物理学》第7卷第3319页–(2000年)
[4] Cwik,美国光学学会杂志A 11(1994)
[5] Demkowicz,应用力学与工程中的计算机方法(1992)
[6] 耿,声与振动杂志191(1996)·Zbl 1232.76033
[7] Semeraro,边界元工程分析19(1997)
[8] 《国际工程数值方法》第42期·Zbl 0904.73072
[9] 关于一组并行基本线性代数子程序的建议。技术报告CS-95-292,田纳西大学,诺克斯维尔,田纳西州,1995年5月(也可作为LAPACK工作注释#100)。
[10] 崔,并行:实践与经验8页517–(1996)
[11] 块循环分解的算法再分配方法。博士论文,田纳西大学,诺克斯维尔,田纳西州,1996年(也可作为LAPACK工作说明#128和#133)。
[12] 二维基本线性代数通信子程序。技术报告CS-91-138,田纳西州诺克斯维尔田纳西大学,1991年(也可作为LAPACK工作注释37提供)。
[13] 二维基本线性代数通信子程序。并行科学计算的环境和工具,第6卷。爱思唯尔科学出版社,1993年;31-40岁。
[14] 负载平衡LU和QR因子,并解决具有可扩展I/O的可扩展处理器的例程。1994年第17届iMac世界大会论文集。
[15] 一个并行的核心外稠密线性解算器的解剖。并行处理国际会议记录,1995年。
[16] 英特尔并行超级计算机上的核心外密集解算器。第四届大规模并行计算前沿研讨会论文集,1992年;484
[17] 并行I/O和求解核心外线性方程组。1993年达默斯高级研究生院DAGS/PC研讨会论文集,1993年;123
[18] POOCLAPACK:并行核外线性代数包。技术报告99-33,德克萨斯大学计算机科学系,奥斯汀,得克萨斯州,1999年(也可作为PLAPACK工作说明#10)。
[19] Dongarra,《计算机与数学与应用》第35页第13页——(1998年)·Zbl 1010.68539
[20] 局部旋转LU分解中的参考局部性。技术报告RC 20344(1996年1月19日),IBM研究部,T。J。沃森研究中心,约克敦高地,纽约,1996年。
[21] ScaLAPACK LU、QR和Cholesky因式分解例程的设计与实现。技术报告ORNL/TM-12470,橡树岭国家实验室,1994年。
[22] SOLAR,一个可扩展的核心外线性代数计算的可移植库的设计与实现。IOPADS第四届并行和分布式I/O年会。ACM出版社,1996年;28-40岁。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。