×

分布式内存矩阵乘法的通信下限。 (英语) Zbl 1114.68081号

摘要:我们给出了矩阵乘法算法在分布式内存并行计算机上必须执行的通信量的下限。我们用(P)表示处理器的数量,用(n)表示方阵的维数。我们表明,使用最广泛的一类算法,即所谓的二维(2D)算法是最优的,在每个处理器只使用\(O(n^2/P))个内存字的任何算法中,至少有一个处理器必须发送或接收\(Omega(n^2/P^{1/2})个字。我们还表明,来自另一类的算法,即所谓的三维(3D)算法,也是最优的。这些算法使用复制来减少通信。我们证明,在每个处理器使用\(O(n^2/P^{2/3})个字内存的任何算法中,至少有一个处理器必须发送或接收\(Omega(n^2/P^{2/3}))个字。此外,我们展示了本地存储器的大小和必须执行的通信量之间的连续权衡。2D和3D边界实质上是这种权衡的实例化。我们还表明,如果输入分布在多个节点的本地内存中,而没有进行复制,那么(Omega(n^2))单词必须穿过机器的任何二等分切割。我们的所有边界仅适用于传统的(Theta(n^3))算法。它们不适用于斯特拉森算法或其他(o(n^3))算法。

MSC公司:

68宽15 分布式算法
65年20月 数值算法的复杂性和性能
PDF格式BibTeX公司 XML格式引用
全文: 内政部