销售西格玛

一种统一的稀疏矩阵数据格式,用于在具有宽SIMD单元的现代处理器上高效的通用稀疏矩阵向量乘法。稀疏矩阵向量乘法(spMVM)是许多数值算法中最耗时的核心,在所有现代处理器和加速器体系结构中都得到了广泛的研究。然而,最佳稀疏矩阵数据存储格式是高度特定于硬件的,这可能成为使用异构系统时的一个障碍。此外,如果矩阵的稀疏模式中没有结构,那么目前的多核和多核处理器中的单指令多数据(SIMD)单元应该如何得到最有效的利用,目前还不清楚。我们建议SELL-C-σ,Sliced ELLPACK的一个变体,作为SIMD友好的数据格式,它结合了来自通用图形处理单元和矢量计算机编程的长期思想。我们讨论了SELL-C-σ与压缩行存储和ELLPACK等既定格式相比的优势,并展示了它在各种硬件平台(Intel Sandy Bridge、Intel Xeon Phi和Nvidia Tesla K20)上适用于不同应用领域的广泛测试矩阵。使用适当的性能模型,我们深入了解SELL-C-σspMVM内核的数据传输特性。SELL-C-σ有两个调整参数,研究了它们对测试矩阵范围内性能的影响,并提出了合理的选择。这导致了一种独立于硬件的稀疏矩阵格式(catch all),这种格式在所有硬件平台上实现了对所有测试矩阵的非常高的效率。


zbMATH中的参考文献(引用于,1标准件)

显示结果1到11,共11个。
按年份排序(引用)

  1. 安德烈亚斯·阿尔韦曼;阿希姆·巴塞曼;本加茨,汉斯·约阿希姆;卡博诺,克里斯蒂安;恩斯特,多米尼克;费斯克,霍尔格;富塔姆拉,安苏诺里;加尔贡,马丁;哈格,乔治;胡贝尔,萨拉;哈克尔,托马斯;伊达,秋弘;伊玛库拉,阿基拉;川井,Masatoshi;Köcher,西蒙尼;克鲁泽,莫里茨;库斯·帕维尔;朗,布鲁诺;莱德勒,赫尔曼;马宁,瓦莱丽;马雷克,Andreas;Nakajima,Kengo;Nemec,Lydia;Reuter,Karsten;Ripple,Michael;Röhrig-Zöllner,Melven;Sakurai,Tetsuya;Scheffler,Matthias;Scheurer,Christoph;Shahzad,Faisal;Simoes Brambila,Danilo;Thies,Jonas;Wellein,Gerhard:在ELPA-AEO和ESSEX-II特征解算器项目中使用混合精度计算的好处(2019年)
  2. Krasnopolsky,B.I.:在高性能计算系统上用系综平均模拟湍流流动的最佳策略(2018)
  3. Pikle,Nileshchandra K.;Sathe,Shailesh R.;Vyavhare,Arvind Y.:基于GPGPU的并行计算在使用共轭梯度算法的有限元法中的应用:综述(2018)
  4. Bauer,S.;Mohr,M.;Rüde,U.;Weismüller,J.;Wittmann,M.;Wohlmuth,B.:大规模并行高性能多网格代码中高效在线操作器装配的双尺度方法(2017)
  5. Bernaschi,Massimo;Bisson,Mauro;Fantozzi,Carlo;Janna,Carlo:图形处理单元上的分解稀疏近似逆预处理共轭梯度解算器(2016)
  6. 高佳泉;齐,潘潘;何桂霞:基于CSR的GPU稀疏矩阵向量乘法(2016)
  7. 何桂霞;高佳全:基于CSR的gpu稀疏矩阵向量乘法(2016)
  8. Rupp,Karl;Tillet,Philippe;Rudolf,Florian;Weinbub,Josef;Morhammer,Andreas;Grasser,Tibor;Jüngel,Ansgar;Selberherr,Siegfried:多核和多核架构的ViennaCL线性代数库(2016)
  9. Mironowicz,P.;Dziekonski,A.;Mrozowski,M.:GPU上高效稀疏对称矩阵向量乘法的任务调度方法(2015)
  10. Röhrig-Zöllner,Melven;Thies,Jonas;Kreutzer,Moritz;Alvermann,Andreas;Pieper,Andreas;Basermann,Achim;Hager,Georg;Wellein,Gerhard;Fehske,Holger:通过阻塞提高Jacobi-Davidson方法的性能(2015)
  11. Kreutzer,Moritz;Hager,Georg;Wellein,Gerhard;Fehske,Holger;Bishop,Alan R.:一种统一的稀疏矩阵数据格式,用于在具有宽SIMD单元的现代处理器上高效的通用稀疏矩阵向量乘法(2014)