斯鲁玛

高效可扩展的并行矩阵乘法算法利用先进的通信协议,在许多科学应用中,密集矩阵乘法是最重要的线性代数运算之一。由于优化后的矩阵乘法可以非常有效,计算科学家通常会尝试用矩阵乘法来重新制定其应用的数学描述。并行矩阵乘法算法已经被研究了二十多年,目前领先的SUMMA算法包含在ScaLAPACK中并被广泛使用。一种称为SRUMMA[1](基于共享和远程内存访问的通用矩阵乘法算法)的新算法被开发出来,因为它在各种计算机体系结构上比目前使用的主流算法具有更好的性能和可扩展性。与其他基于消息传递的算法不同,新算法依赖于ARMCI,一个在DoE PModels项目下开发的高性能远程内存访问通信(单边通信)库。除了快速通信(共享内存、远程内存访问无阻塞通信)外,新算法还依赖于仔细调度通信操作,以最小化对分布式矩阵块的访问的争用。ARMCI利用本机网络通信接口和系统资源(如共享内存、RDMA)来实现远程内存访问/单边通信的最佳性能。它在使用Myrinet、quadracs或Infiniband网络的集群系统上利用高性能网络协议。

此软件的关键字

这里的任何内容都将在支持canvas元素的浏览器上被替换