库拉

混合GPU加速线性代数例程。现代图形处理单元(GPU)在许多标准个人计算机中都是一个高度并行的数学处理器,其峰值吞吐能力接近1tflops,其成本与高端CPU和出色的FLOPS/watt比类似。高级线性代数运算是计算密集型的,通常需要O(N3)运算,而且似乎很自然地适合GPU的处理能力。我们的工作是关于CULA,一个GPU加速实现的线性代数例程。我们给出因子分解的结果,如LU分解、奇异值分解和QR分解,以及系统解和最小二乘法等应用。基于CUDA的NVIDIA GPU的GPU执行模式要求非常强的并行性,需要数百到数千个并发操作才能获得高性能。一些从线性代数映射到GPU的构造非常好,而另一些映射得很差。另一方面,cpu在较小的并行度下表现良好,在低并行度代码段中的性能也可以接受。我们的工作通过混合a处理模型来解决这个问题,在这个模型中,CPU和GPU同时工作以产生结果。在许多情况下,这是通过允许每个平台完成其最自然地执行的工作来实现的


zbMATH中的参考文献(参考文献11条)

显示结果1到11,共11个。
按年份排序(引用)

  1. 佛多,萨比纳;Németh,ZoltáN:再结晶ABS方法并行实施的数值分析(2019年)
  2. 吴荣腾;谢晓红:基于基本列块统一分配策略的异构并行LU分解算法(2019)
  3. 皮奇尼尼,恩里科;贝内代蒂,克劳迪娅;西罗伊,伊拉里亚;巴黎,Matteo G.A。;2017年Borpaolo quantum walks,多个粒子加速算法
  4. 托基,艾哈迈德A。;Rashed,Youssef F.:平板剪切变形弯曲边界元法的GPU加速(2017)
  5. 艾哈迈德阿卜杜勒法塔赫;凯斯,大卫;Ltaief,Hatem:KBLAS:GPU加速器上密集矩阵向量乘法的优化库(2016)
  6. Benoît Liquet和Leonardo Bottolo、Gianluca Campanella、Sylvia Richardson和Marc Chadeau Hyam:R2GUESS:基于图形处理单元的多元响应贝叶斯变量选择回归R包(2016)不是zbMATH
  7. D'Azevedo,爱德华多;胡志刚;苏世全;Wong,Kwai:在基于GPU的并行计算机上解决大规模辐射问题(2014)
  8. 尼迈耶,凯尔·E。;Sung,Chih Jen:使用GPU加速反应流模拟中的中等刚性化学动力学(2014)
  9. 乔治斯库,塞尔维亚人;周,彼得;Okuda,Hiroshi:基于有限元结构分析的GPU加速度(2013)
  10. 王璐;胡晓哲;科恩,乔纳森;徐金超:图形处理单元的并行辅助网格代数多重网格方法(2013)
  11. 吻,我;Pávó,József;Gyimóthy,Szabolcs:使用CUDA的力矩加速度法(2011)