研究论文

树划分约简：求解三对角系统的一种新的并行划分方法

作者：
阿德里安·迪盖兹

西班牙科鲁尼亚大学

西班牙科鲁尼亚大学
查看个人资料

,
玛格丽塔·阿莫尔

西班牙科鲁尼亚大学

西班牙科鲁尼亚大学
查看个人资料

,
拉蒙·多亚洛

西班牙科鲁尼亚大学

西班牙科鲁尼亚大学
查看个人资料

作者信息和声明

ACM数学软件汇刊第45卷第3版条款编号：31第1-26页https://doi.org/10.1145/3328731

出版：2019年8月8日出版历史

ACM数学软件汇刊

摘要

求解三对角线性方程组是广泛科学和工程应用中的一个基本计算核心，其计算可以用并行算法建模。这些并行求解器通常被设计用于计算数据适合公共共享内存空间的问题，在公共共享内存空间中，参与计算的所有核心都可以访问。然而，当问题规模较大时，数据不能完全存储在公共共享内存空间中，并且会执行大量高延迟通信。一种替代方法是在不同的内存空间之间划分问题。在这一点上，传统的并行算法不利于在独立块中划分计算，因为每个简化都取决于可能位于不同块中的方程。本文提出了一种基于树约简的算法，称为树分区缩减（TPR）方法，该方法将问题划分为独立的部分，这些部分可以在不同的公共共享内存空间中并行计算。TPR方法可以用于任何并行和分布式编程范式。此外，在这项工作中，为CUDA GPU有效地实现了TPR，以解决大型问题，相对于现有包提供了极具竞争力的性能结果，平均速度比CUSPARSE快22.03倍。

参考文献

A.Davidson、Y.Zhang和J.D.Owens。2011.在GPU上求解大型三对角系统的自动调谐方法。第25届IEEE国际并行和分布式处理研讨会（IPDPS’11）会议记录。956--965.谷歌学者数字图书馆
A.Davison和J.D.Owens。2011年，注册循环减少包装：案例研究。第四届图形处理单元通用处理研讨会论文集。4:1--4:6.谷歌学者数字图书馆
F.Argüello、D.B.Heras、M.Boo和J.Lamas-Rodríguez。2012.GPU通用计算中的拆分与合并方法。并行计算。38, 6--7 (2012), 277--288.谷歌学者数字图书馆
李文昌和文美武。2014.在GPU上实施三对角解算器的指南。《使用GPU进行数值计算》，V.Kindratenko（Ed.）。柏林施普林格，29-44。谷歌学者
L.-W.Chang和W.-W.Hwu。2013.将三对角解算器映射到线性递归。伊利诺伊大学香槟分校技术报告（2013年）。谷歌学者
A.P.Diéguez、M.Amor和R.Doallo。2015年，GPU架构上的新三对角系统求解器。2015年IEEE第22届高性能计算国际会议论文集（HiPC’15）。85--94.谷歌学者数字图书馆
A.P.Diéguez、M.Amor、J.Lobeiras和R.Doallo。2018.在GPU上解决索引-数字算法的大问题：FFT和三对角系统求解器。IEEE传输。计算。67, 1 (2018), 86--101.谷歌学者数字图书馆
H.-S.Kim、S.Wu、L.-W.Chang和W.W.Hwu。2011.适用于GPU的可缩放三对角解算器。《并行处理国际会议论文集》。444到453之间。谷歌学者数字图书馆
R.W.Hockney和C.R.Jesshope。1988年。并行计算机2：体系结构、编程和算法。泰勒·8·弗朗西斯。谷歌学者数字图书馆
R.W.霍克尼。1965.使用傅里叶分析快速直接求解泊松方程。《美国临床医学杂志》第12、1、1卷（1965年），第95-113页。谷歌学者数字图书馆
Michael A.Jandron、Anthony A.Ruffa和James Baglama。2017.带状线性系统的异步直接求解器。数字。阿尔戈。第76页、第1页（2017年9月）、第211页至第235页。谷歌学者数字图书馆
D.B.Kirk和W.W.Hwu。2012.大规模并行处理器编程：实践方法（第二版）。摩根·考夫曼。谷歌学者数字图书馆
L.-W.Chang，J.A.Stratton，H.-S.Kim，W.W.Hwu。2012.使用GPU的可扩展、数值稳定、高性能三对角解算器。《高性能计算、网络、存储和分析国际会议论文集》（SC'12）。27:1--27:11.谷歌学者数字图书馆
J.Lobeiras、M.Amor和R.Doallo。2015.BPLG：GPU架构的调优蝶形处理库。国际J并行程序。43, 6 (2015), 1078--1102.谷歌学者数字图书馆
雅各布·洛贝拉、玛格丽塔·阿莫尔和拉蒙·多阿洛。2016.为CUDA GPU架构设计高效的索引-数字算法。IEEE传输。平行配送系统。27, 5 (2016), 1331--1343.谷歌学者数字图书馆
NVIDIA公司。2012年CUDA CUSPARSE图书馆。谷歌学者
NVIDIA公司。2014.CUDPP：CUDA数据并行基元库。检索自http://cudpp.github.io/。谷歌学者
J.L.拉里巴·佩伊。1995年。向量计算机和并行计算机三对角解算器的设计和评估。博士论文。加泰罗尼亚政治大学。谷歌学者
A.H.Sameh和D.J.Kuck。1978。关于稳定的平行线性系统解算器。J.ACM 25，1（1978），81-91。谷歌学者数字图书馆
哈罗德·斯通。1973.求解三对角线性方程组的有效并行算法。J.ACM 20，1，1（1973），27-38。谷歌学者数字图书馆
L.H.托马斯。1949年。网络上线性差分方程中的椭圆问题。Watson Sci。计算。哥伦比亚大学实验室代表（1949年）。谷歌学者
I.E.Venetis、A.Kouris、A.Sobczyk、E.Gallopoulos和A.H.Sameh。2015.基于Givens旋转的GPU架构直接三对角解算器。并行计算。49，C（2015），101-116。谷歌学者数字图书馆
X.Wang和Z.G.Mou。1991年。在超立方体大规模并行计算机上求解三对角系统的分治方法。第三届IEEE并行和分布式处理研讨会论文集。810--817.谷歌学者数字图书馆
Y.Zhang、J.Cohen和J.D.Owens。2010年。GPU上的快速三对角解算器。第15届ACM SIGPLAN并行编程原理与实践研讨会（PPoPP'10）会议记录。127--136.谷歌学者数字图书馆
戴昭和余金杭。2015年，通过分块循环约简和单GPU共享内存有效解决三对角系统。J.超级计算机。71, 2 (2015), 369--390.谷歌学者数字图书馆

索引术语

树划分约简：求解三对角系统的一种新的并行划分方法

建议

在GPU上实现稀疏矩阵多矢量乘法
HPCC’14：2014 IEEE高性能计算和通信国际会议论文集，2014 IEEE第六届网络空间安全与保障国际研讨会，2014年IEEE第十一届嵌入式软件与系统国际会议（HPCC，CSS，ICESS）

稀疏矩阵向量和多向量乘法（SpMV和SpMM）是许多HPC应用程序中的性能瓶颈操作。已经开发了使用不同矩阵存储格式的各种SpMV GPU内核来加速这些。。。
阅读更多信息
GPU上的并行前缀操作：三对角系统解算器和扫描运算符

现代GPU可以以低成本实现高计算能力，但仍需要大量时间和精力。三对角系统和扫描求解器是广泛使用的算法的一个例子，可以利用这些设备。在本文中，一个三对角。。。
阅读更多信息
多核时代CS教育集群
SIGCSE’11：第42届ACM计算机科学教育技术研讨会论文集

传统的Beowulf集群是分布式内存MIMD并行的同构平台。然而，向多核体系结构的转变使得共享内存MIMD并行性变得越来越重要，而且廉价的多核GPGPU已经。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此文章

发布于
ACM数学软件汇刊第45卷第3期
2019年9月
357页
国际标准编号：0098-3500
EISSN公司：1557-7295
内政部：10.1145/3349340
编辑：
白昭君
美国加州大学戴维斯分校
,
沃尔夫冈·班格尔
美国科罗拉多州立大学
期刊目录
版权©2019 ACM
如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人拥有的本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2019年8月8日
- 认可的：2019年4月1日
- 修订过的：2018年11月1日
- 收到：2018年5月1日
发布于汤姆斯第45卷第3期

权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
CUDA公司
海关
通用分组
三对角系统
调谐
限定符
- 研究论文
- 研究
- 推荐
会议
资金来源
其他指标
查看文章指标

文章指标
- 三
  引文总数
  查看引文
- 212
  总下载次数
- 下载次数（过去12个月）20
- 下载次数（最近6周）1
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

HTML格式

以HTML格式查看本文。

查看HTML格式

树划分约简：求解三对角系统的一种新的并行划分方法

ACM数学软件汇刊

摘要

参考文献

引用人

索引术语

建议

在GPU上实现稀疏矩阵多矢量乘法

GPU上的并行前缀操作：三对角系统解算器和扫描运算符

多核时代CS教育集群

评论