×

R合并2

swMATH ID: 25236
软件作者: 费利克斯·格雷姆斯;科尔斯汀·库珀;乌韦·诺曼
描述: 在多核体系结构上通过行合并实现节省内存的稀疏矩阵乘法。稀疏矩阵矩阵乘法(SpMM)用于许多计算任务,包括代数多网格求解器和图运算。我们的目标是为许多核心架构(如图形处理单元(GPU))提供快速SpMM实现(RMerge2),这些架构以可预测的低内存开销运行。RMerge2将稀疏矩阵乘积分解为多个稀疏向量矩阵乘积,并通过并行行合并进行计算。它使用多达32个线程的warps合并多达512行,其中每个线程维护寄存器中多行的状态。更大数量的行(最多为\(32K\),其中\(K=1024\))由使用共享内存的整个线程块合并。左侧的行根据非零的数量分为不同的情况,并使用使用C++模板实现的特定内核进行处理。这种方法计算SpMM时,左侧每行内存开销仅为5个字节,每行最多为\(32K)个非零。基于流的并发内核执行隐藏了较小但较长内核的延迟。性能测量表明,每个线程合并超过1行可以将同质矩阵的性能提高2.4倍。基于事例的内核和并发内核分别提高了1.6和3.7倍的性能,特别是对于异构矩阵。与并行CPU实现相比,RMerge2实现了4.5的平均加速比,与其他三种GPU实现相比,矩阵平方的加速比达到11.3、8.6和2.5,Galerkin产品的加速比为7.4、1.9和2.4。Pascal GPU在矩阵平方方面比Kepler GPU快3.6的平均因子,即高于标称峰值性能和内存带宽增加的预期,这表明其他改进,包括更快的内存分配、流创建和更多的扭曲混洗操作,有助于整体性能的提高。
主页: https://epubs.siam.org/doi/10.1137/17M1121378
关键词: 稀疏矩阵-矩阵乘法;GPU编程;Galerkin产品;代数多重网格;荧光介导断层扫描
相关软件: BoomerAMG公司;EVSL公司;库达;修订版X;货币基金组织;炒作;解析(CUSPARSE);推力;维也纳CL;Imalytics临床前;SpGEMM公司;SMMP公司;CUSP公司;稀疏矩阵;CUDA公司
引用于: 2文件

在1个字段中引用

2 数值分析(65-XX)

按年份列出的引文