跳到主要内容
文章
免费访问

一组3级基本线性代数子程序

出版:1990年3月1日 出版历史

摘要

本文描述了对基本线性代数子程序集的一个扩展。这些扩展针对的是矩阵向量运算,应该为高性能计算机提供高效和便携的算法实现

工具书类

[1]
BARRON,D.W.和SWINNERTON-DYER,H.P.F.使用磁带存储求解联立线性方程组。计算。J.3(1960),28-33。
[2]
BERRY,M.、GALLIVAN,K.、HARROD,W.、JALBY,W.,LO,S.、MEIER,U.、PHILIPPE,B.和SAMEH,A.CEDAR系统上的并行算法。1986年CSRD报告581。
[3]
BISCHOF,C.和VAN LOAN,C.Householder矩阵乘积的WY表示。SIAM J.科学。星星。计算。8,1(1987年1月),s2-s13。
[4]
BRONLUND,O.E.,AND JOHNSEN,T.QR-分块矩阵的乘积化。计算。方法。申请。机械。《工程》,第3卷,第153-172页,1974年。
[5]
BUCHER,I.,AND JORDAN,T.在带有辅助固态存储设备的矢量计算机上使用的线性代数程序。《偏微分方程计算机方法的进展》,R.Vichnevetsky和R.Stepleman,编辑:IMACS,1984年,546-550。
[6]
CALAHAN,D.A.基于CRAY-2的面向块的局部内存线性方程解:单处理器算法。《并行处理国际会议论文集》(1986年8月)。IEEE计算机学会出版社,纽约,1986年。
[7]
CARNEVALI,P.,RADICATI DI BROZOLO,G.,ROBERT,Y.,AND SGUAZZERO,P.。在IBM 3090向量多处理器上高效实现高斯消去和Householder缩减算法的Fortran实现。IBM ECSEC Rep.ICE-00121987。
[8]
CHARTRES,B.将Jacobi和Givens方法应用于带有磁带备份存储的计算机。悉尼理工大学,众议员,1960年8月。
[9]
DAVE,A.K.和DUFF,I.S.CRAY-2上的稀疏矩阵计算。并行计算。5(1987年7月),55-64。
[10]
DEMMEL,J.、DONGARRA,J.J.、DU CROZ,J.,GREENBAUM,A.、HAMMARLING,S.和SORENSEN,D.高性能计算机线性代数库开发说明书。阿贡国家实验室代表ANL-MCS-TM-971987年9月。
[11]
DIETRICH,G.超矩阵Householder QR分解的一个新公式。计算。方法。附录I。机械。工程9(1976),273-280。
[12]
DODSON,D.和LEWIS,J.关于基本线性代数子程序扩展的问题。ACM SIGNUM新闻。20, 1 (1985), 2-18.
[13]
DONGARRA,J.J.、BUNCH,J.、MOLER,C.和STEWART,G.LINPACK用户指南。宾夕法尼亚州费城SIAM,1979年。
[14]
DONGARRA,J.J.、DuCRoz,J.、HAMMARLING,S.和HANSON,R.一组扩展的Fortran基本线性代数子程序。ACM事务处理。数学。柔和。14,i(1988年3月),1-17。
[15]
DONGARRA,J.J.、DuCRoz,Z.、HAMMARLING,S.和HANSON,R.一组扩展的Fortran基本线性代数子程序:模型实现和测试程序。ACM事务处理。数学。柔和。14,I(1988年3月),18-32。
[16]
DONGARRA,J.J.、DuCRoz,J.、DUFF,I.S.和HAMMARLING,S.一组三级基本线性代数子程序:模型实现和测试程序。本期,第18-37页。
[17]
DONGARRA,J.J.和DUFF,I.S.高级架构计算机。田纳西大学众议员CS-89-90,1989年11月。
[18]
DONGARRA,J.J.、GUSTAVSON,F.和KARP,A.在向量流水线机器上实现稠密矩阵的线性代数算法。SIAM第26版,第1版(1984年),第91-112页。
[19]
DONGARRA,J.J.、HAMMARLING,S.和SORENSEN,O.C.。矩阵的块化简为压缩形式,用于特征值计算。阿贡国家实验室代表ANL-MCS-TM-991987年9月。
[20]
DONGARRA,J.J.和HEWITT,T.在CRAY X-MP-4上使用多任务实现稠密线性代数。J.计算。申请。数学。27 (1989), 215-227.
[21]
DONGARRA,J.J.和SORENSEN,D.C.高性能计算机上的线性代数。《并行计算学报》85,U.Schendel,Ed.North Holland,Amsterdam,1986,113-136。
[22]
DuCRoz,J.、NUGENT,S.、REID,J.和TAYLOR,D.在分页虚拟存储中求解大型完整的线性方程组。ACM事务处理。数学。柔和。7, 4 (1981), 527-536.
[23]
DUFF,I.S.稀疏高斯消去中的全矩阵技术。《数值分析学报》,邓迪1981年,数学讲义912。Springer-Verlag,纽约,1981年,71-84。
[24]
GALLIVAN,K.、JALBV,W.和MEIER,U。BLAS3在具有分层内存的并行处理器上的线性代数中的使用。SIAM J.科学。星星。计算。1987年11月8日至6日,1079-1084。
[25]
GEORGE,A.和RASHWAN,S.求解有限元系统的辅助存储方法。SIAM J.科学。星星。计算。第6、4页(1985年10月),第882-910页。
[26]
IBM。工程和科学子程序库。计划5668-8631986年。
[27]
LAWSON,C.、HANSON,R.KINCAD,D.和KROGH,F.Fortran使用的基本线性代数子程序。ACM事务处理。数学。柔和。5 (1979), 308-323.
[28]
LAWSON,C.,HANSON,R.,KINCAD,D.,AND KROGH,F.算法539:Fortran使用的基本线性代数子程序。ACM事务处理。数学。柔和。5 (1979), 324-325.
[29]
MCKELLAR,A.C.和COFFMAN,E.G.,JR。为分页存储系统组织矩阵和矩阵操作。Commun公司。ACM 12,3(1969),153-165。
[30]
ROBERT,Y.和SGUAZZERO,P.LU分解算法及其在IBM 3090向量多处理器上的高效Fortran实现。IBM ECSEC报告ICE-00061987。
[31]
SCHRIEBER,R.模块设计规范(1.0版)。SAXPY Computer Corp.,加利福尼亚州桑尼维尔圣杰罗尼莫路255号,邮编940861986。
[32]
SCHRIEBER,R.和PARLETT,B.块反射器:理论和计算。SIAM J.数字。分析。25,1(1988年2月),189-205。

引用人

查看全部
  • (2024)神经-符号集成的计算视角神经符号人工智能10.3233/NAI-240672(1-12)在线发布日期:2024年7月18日
  • (2024)基于GPU架构的BLAS库的定量性能分析BLAS Kütüphanelerinin GPU Mimarilerindeki Nicel Performans AnaliziDeu Muhendislik Fakultesi Fen ve Muhendisslik(德乌·穆亨迪斯利克·法库尔特斯·芬维·穆亨德斯利克)10.21205/双份202426760626:76(40-48)在线发布日期:2024年1月23日
  • (2024)在多核处理器上使用可延展BLAS的任务并行应用程序中的嵌套并行经验国际高性能计算应用杂志10.1177/1094342023115765338:2(55-68)在线发布日期:2024年3月1日
  • 显示更多引用者

建议

评论

查亚·古维茨

FORTRAN基本线性代数子程序(即1级BLAS)的原始集合包括向量运算[1];随后添加了第2级BLAS中的例程,以提供矩阵-向量运算[2]。本文建议添加一组3级BLAS,用于执行矩阵矩阵运算。1级和2级BLAS已被数学编程社区采用为基本例程,用作软件开发的构建块。BLAS的高效机器代码实现可以利用特定的硬件功能,从而显著提高计算速度。使用BLAS可提供便携性和易维护性。建议的3级BLAS特别适合在具有内存层次结构的计算机和使用并行处理器的机器上进行编程。对于这些类型的计算机,如果将矩阵划分为块,并且对块执行矩阵-矩阵运算,则计算效率最高。在支持并行处理的体系结构上,可以并行执行不同块上的操作。建议纳入第3级BLAS的操作包括:矩阵-矩阵乘积、对称矩阵和Hermetian矩阵的秩-k和秩-2k更新、矩形矩阵与三角形矩阵的乘积,以及求解具有多个右手边的三角方程组。这些例程提供给四种不同的FORTRAN数据类型:实数、双精度、复数和双复数。本文描述了子程序的命名约定和调用序列,它们通常遵循二级BLAS中使用的约定。作者讨论了选择将纳入3级BLAS的操作时使用的推理。本文最后讨论了三级BLAS在求解数值线性代数问题中的应用,即子矩阵(块)运算。示例说明了如何使用第3级BLAS将Cholesky因子分解作为块算法来实现。

访问计算机文献的关键评论在这里

成为评论员计算评论。

评论

信息和贡献者

问询处

发布于

数学软件上的封面图像ACM事务
ACM数学软件汇刊 第16卷第1期
1990年3月
109页
国际标准编号:0098-3500
EISSN公司:1557-7295
内政部:10.1145/77626
  • 编辑:
  • 约翰·赖斯
期刊目录

出版商

计算机协会

美国纽约州纽约市

出版历史

出版:1990年3月1日
在TOMS中发布体积16,问题1

权限

请求对此文章的权限。

检查更新

限定符

  • 第条

贡献者

其他指标

文献计量学和引文

文献计量学

文章指标

  • 下载次数(过去12个月)430
  • 下载次数(最近6周)69
反映截至2024年9月20日的下载量

其他指标

引文

引用人

查看全部
  • (2024)神经-符号集成的计算视角神经符号人工智能10.3233/钉-240672(1-12)在线发布日期:2024年7月18日
  • (2024)基于GPU架构的BLAS库的定量性能分析BLAS Kütüphanelerinin GPU Mimarilerindeki Nicel Performans AnaliziDeu Muhendislik Fakultesi Fen ve Muhendisslik(德乌·穆亨迪斯利克·法库尔特斯·芬维·穆亨德斯利克)10.21205/双份202426760626:76(40-48)在线发布日期:2024年1月23日
  • (2024)在多核处理器上使用可延展BLAS的任务并行应用程序中的嵌套并行经验国际高性能计算应用杂志10.1177/1094342023115765338:2(55-68)在线发布日期:2024年3月1日
  • (2024)层次半可分矩阵超快速特征解的优化第53届并行处理国际会议记录10.1145/3673038.3673119(32-41)在线发布日期:2024年8月12日
  • (2024)最新一代Sunway处理器上的高性能3D卷积第53届并行处理国际会议记录10.1145/3673038.3673093(241-251)在线发布日期:2024年8月12日
  • (2024)CoActo:具有细粒度和并发执行的协同主动神经网络推理卸载第22届移动系统、应用和服务国际年会会议记录10.1145/3643832.3661885(412-424)在线发布日期:2024年6月3日
  • (2024)HPS Cholesky:具有自适应参数的分层并行超节点Cholesky:并行计算ACM事务10.1145/363005111:1(1-22)在线发布日期:2024年3月11日
  • (2024)使用两种基于Cholesky的TSQR算法重新正交化块经典Gram–SchmidtSIAM矩阵分析与应用杂志10.1137/23M1605387号45:3(1487-1517)在线发布日期:2024年8月9日
  • (2024)Big-PERCIVAL:探索64位Posit算法在科学计算中的本地使用电气电子工程师学会计算机期刊10.1109/TC2024.3377890号73:6(1472-1485)在线发布日期:24年3月18日
  • (2024)GEMM例程的可预测SIMD库2024年IEEE第30届实时和嵌入式技术与应用研讨会(RTAS)10.1109/RTAS61025.2024.00013(55-67)在线发布日期:2024年5月13日
  • 显示更多引用者

视图选项

查看选项

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用联机查看电子阅读器.

电子阅读器

获取访问权限

登录选项

完全访问权限

媒体

数字

其他

桌子

分享

分享

共享此出版物链接

在社交媒体上分享