摘要:归约算法在科学计算和图像处理等领域有着十分广泛的应用,是并行计算的基本算法之一,因此对归约算法进行加速具有重要意义。为了充分挖掘异构计算平台下通用分组的计算能力以对归约算法进行加速,文中提出基于线程内归约、工作组内容和工作组个层面的归约优化方法,并打破以往相关工作将优化重心集中在工作组内归约上的传统思维,通过论证指出线程内归约才是归约算法的瓶颈所在。实验结果表明,在不同的数据规模下,所提归约算法与经过精心优化的OpenCV CPU、AMD W8000和NVIDIA特斯拉K20M平台上分别达到了3.91~15.93和2.97~20.24的加速比;相比于OpenCV CUDA OpenCL,NVIDIA特斯拉K20M平台上分别达到了2.25~5.97和1.25~1.75的加速比;相比于OpenCL、AMD W8000、1.24~5.15的加速比。文中工作不仅实现了归约算法在通用分组计算平台上的高性能,而且实现了在不同通用分组计算平台间的性能可移植。
中图分类号:
张逸然, 陈龙, 安向哲, 颜深根.面向通用分组计算平台的归约算法的性能优化研究[J] ●●●●。计算机科学, 2019, 46(2): 306-314. https://doi.org/10.11896/j.issn.1002-137X.2019.02.047
张怡然、陈龙、安向哲、严申根。面向GPU计算平台的约简算法性能优化研究[J] ●●●●。计算机科学,2019,46(2):306-314。https://doi.org/10.11896/j.issn.1002-137X.2019.02.047