柚木

PUMMA:分布式内存并发计算机上的并行通用矩阵乘法算法。本文描述了分布式内存并发计算机上的并行通用矩阵乘法算法(PUMMA)。PUMMA软件包不仅包括非转置矩阵乘法例程C=A⋅B,还包括用于块循环数据分布的转置乘法例程C=AT⋅B、C=A⋅BT和C=AT⋅BT。对于各种处理器配置和块大小,这些例程都能有效地执行。PUMMA一起提供了与3级BLAS例程xGEMM相同的功能。文中给出了这些例程的并行实现细节,并给出了在英特尔Touchstone Delta计算机上运行的结果。