摘要
A.Davidson、Y.Zhang和J.D.Owens。 2011.在GPU上求解大型三对角系统的自动调谐方法。 第25届IEEE国际并行和分布式处理研讨会(IPDPS’11)会议记录。 956--965. 谷歌学者 数字图书馆 A.Davison和J.D.Owens。 2011年,注册循环减少包装:案例研究。 第四届图形处理单元通用处理研讨会论文集。 4:1--4:6. 谷歌学者 数字图书馆 F.Argüello、D.B.Heras、M.Boo和J.Lamas-Rodríguez。 2012.GPU通用计算中的拆分与合并方法。 并行计算。 38, 6--7 (2012), 277--288. 谷歌学者 数字图书馆 李文昌和文美武。 2014.在GPU上实施三对角解算器的指南。 《使用GPU进行数值计算》,V.Kindratenko(Ed.)。 柏林施普林格,29-44。 谷歌学者 L.-W.Chang和W.-W.Hwu。 2013.将三对角解算器映射到线性递归。 伊利诺伊大学香槟分校技术报告(2013年)。 谷歌学者 A.P.Diéguez、M.Amor和R.Doallo。 2015年,GPU架构上的新三对角系统求解器。 2015年IEEE第22届高性能计算国际会议论文集(HiPC’15)。 85--94. 谷歌学者 数字图书馆 A.P.Diéguez、M.Amor、J.Lobeiras和R.Doallo。 2018.在GPU上解决索引-数字算法的大问题:FFT和三对角系统求解器。 IEEE传输。 计算。 67, 1 (2018), 86--101. 谷歌学者 数字图书馆 H.-S.Kim、S.Wu、L.-W.Chang和W.W.Hwu。 2011.适用于GPU的可缩放三对角解算器。 《并行处理国际会议论文集》。 444到453之间。 谷歌学者 数字图书馆 R.W.Hockney和C.R.Jesshope。 1988年。并行计算机2:体系结构、编程和算法。 泰勒·8·弗朗西斯。 谷歌学者 数字图书馆 R.W.霍克尼。 1965.使用傅里叶分析快速直接求解泊松方程。 《美国临床医学杂志》第12、1、1卷(1965年),第95-113页。 谷歌学者 数字图书馆 Michael A.Jandron、Anthony A.Ruffa和James Baglama。 2017.带状线性系统的异步直接求解器。 数字。 阿尔戈。 第76页、第1页(2017年9月)、第211页至第235页。 谷歌学者 数字图书馆 D.B.Kirk和W.W.Hwu。 2012.大规模并行处理器编程:实践方法(第二版)。 摩根·考夫曼。 谷歌学者 数字图书馆 L.-W.Chang,J.A.Stratton,H.-S.Kim,W.W.Hwu。 2012.使用GPU的可扩展、数值稳定、高性能三对角解算器。 《高性能计算、网络、存储和分析国际会议论文集》(SC'12)。 27:1--27:11. 谷歌学者 数字图书馆 J.Lobeiras、M.Amor和R.Doallo。 2015.BPLG:GPU架构的调优蝶形处理库。 国际J并行程序。 43, 6 (2015), 1078--1102. 谷歌学者 数字图书馆 雅各布·洛贝拉、玛格丽塔·阿莫尔和拉蒙·多阿洛。 2016.为CUDA GPU架构设计高效的索引-数字算法。 IEEE传输。 平行配送系统。 27, 5 (2016), 1331--1343. 谷歌学者 数字图书馆 NVIDIA公司。 2012年CUDA CUSPARSE图书馆。 谷歌学者 NVIDIA公司。 2014.CUDPP:CUDA数据并行基元库。 检索自 http://cudpp.github.io/。 谷歌学者 J.L.拉里巴·佩伊。 1995年。向量计算机和并行计算机三对角解算器的设计和评估。 博士论文。 加泰罗尼亚政治大学。 谷歌学者 A.H.Sameh和D.J.Kuck。 1978。关于稳定的平行线性系统解算器。 J.ACM 25,1(1978),81-91。 谷歌学者 数字图书馆 哈罗德·斯通。 1973.求解三对角线性方程组的有效并行算法。 J.ACM 20,1,1(1973),27-38。 谷歌学者 数字图书馆 L.H.托马斯。 1949年。网络上线性差分方程中的椭圆问题。Watson Sci。 计算。 哥伦比亚大学实验室代表(1949年)。 谷歌学者 I.E.Venetis、A.Kouris、A.Sobczyk、E.Gallopoulos和A.H.Sameh。 2015.基于Givens旋转的GPU架构直接三对角解算器。 并行计算。 49,C(2015),101-116。 谷歌学者 数字图书馆 X.Wang和Z.G.Mou。 1991年。在超立方体大规模并行计算机上求解三对角系统的分治方法。 第三届IEEE并行和分布式处理研讨会论文集。 810--817. 谷歌学者 数字图书馆 Y.Zhang、J.Cohen和J.D.Owens。 2010年。GPU上的快速三对角解算器。 第15届ACM SIGPLAN并行编程原理与实践研讨会(PPoPP'10)会议记录。 127--136. 谷歌学者 数字图书馆 戴昭和余金杭。 2015年,通过分块循环约简和单GPU共享内存有效解决三对角系统。 J.超级计算机。 71, 2 (2015), 369--390. 谷歌学者 数字图书馆
建议
在GPU上实现稀疏矩阵多矢量乘法 HPCC’14:2014 IEEE高性能计算和通信国际会议论文集,2014 IEEE第六届网络空间安全与保障国际研讨会,2014年IEEE第十一届嵌入式软件与系统国际会议(HPCC,CSS,ICESS) 稀疏矩阵向量和多向量乘法(SpMV和SpMM)是许多HPC应用程序中的性能瓶颈操作。 已经开发了使用不同矩阵存储格式的各种SpMV GPU内核来加速这些。。。 GPU上的并行前缀操作:三对角系统解算器和扫描运算符 现代GPU可以以低成本实现高计算能力,但仍需要大量时间和精力。 三对角系统和扫描求解器是广泛使用的算法的一个例子,可以利用这些设备。 在本文中,一个三对角。。。 多核时代CS教育集群 SIGCSE’11:第42届ACM计算机科学教育技术研讨会论文集 传统的Beowulf集群是分布式内存MIMD并行的同构平台。 然而,向多核体系结构的转变使得共享内存MIMD并行性变得越来越重要,而且廉价的多核GPGPU已经。。。