R合并2 swMATH ID: 25236 软件作者: 费利克斯·格雷姆斯;科尔斯汀·库珀;乌韦·诺曼 描述: 在多核体系结构上通过行合并实现节省内存的稀疏矩阵乘法。稀疏矩阵矩阵乘法(SpMM)用于许多计算任务,包括代数多网格求解器和图运算。我们的目标是为许多核心架构(如图形处理单元(GPU))提供快速SpMM实现(RMerge2),这些架构以可预测的低内存开销运行。RMerge2将稀疏矩阵乘积分解为多个稀疏向量矩阵乘积,并通过并行行合并进行计算。它使用多达32个线程的warps合并多达512行,其中每个线程维护寄存器中多行的状态。更大数量的行(最多为\(32K\),其中\(K=1024\))由使用共享内存的整个线程块合并。左侧的行根据非零的数量分为不同的情况,并使用使用C++模板实现的特定内核进行处理。这种方法计算SpMM时,左侧每行内存开销仅为5个字节,每行最多为\(32K)个非零。基于流的并发内核执行隐藏了较小但较长内核的延迟。性能测量表明,每个线程合并超过1行可以将同质矩阵的性能提高2.4倍。基于事例的内核和并发内核分别提高了1.6和3.7倍的性能,特别是对于异构矩阵。与并行CPU实现相比,RMerge2实现了4.5的平均加速比,与其他三种GPU实现相比,矩阵平方的加速比达到11.3、8.6和2.5,Galerkin产品的加速比为7.4、1.9和2.4。Pascal GPU在矩阵平方方面比Kepler GPU快3.6的平均因子,即高于标称峰值性能和内存带宽增加的预期,这表明其他改进,包括更快的内存分配、流创建和更多的扭曲混洗操作,有助于整体性能的提高。 主页: https://epubs.siam.org/doi/10.1137/17M1121378 关键词: 稀疏矩阵-矩阵乘法;GPU编程;Galerkin产品;代数多重网格;荧光介导断层扫描 相关软件: BoomerAMG公司;EVSL公司;库达;修订版X;货币基金组织;炒作;解析(CUSPARSE);推力;维也纳CL;Imalytics临床前;SpGEMM公司;SMMP公司;CUSP公司;稀疏矩阵;CUDA公司 引用于: 2文件 标准条款 1出版物描述软件,包括1出版物以zbMATH为单位 年份 在多核体系结构上通过行合并实现节省内存的稀疏矩阵乘法。 Zbl 1391.65119号费利克斯·格雷姆斯;科尔斯汀·库珀;乌韦·诺曼 2018 全部的 前5名被6位作者引用 1 费利克斯·格雷姆斯 1 科尔斯汀·库珀 1 李瑞鹏 1 杨美儿,乌尔里克 1 乌韦·诺曼 1 比约恩·乔格林 连载1篇 2 SIAM科学计算杂志 在1个字段中引用 2 数值分析(65-XX) 按年份列出的引文