摘要
Alpatov,P.、Baker,G.、Edwards,C.、Gunnels,J.、Morrow,G.,Overfelt,J.,van de Geijn,R.和Wu,Y.-J.,1997年。 PLAPACK:并行线性代数软件包:设计概述。 在 超级计算会议记录 。 谷歌学者 数字图书馆 Anderson,E.、Benzani,A.、Dongarra,J.、Moulton,S.、Ostrochov,S.、Touranchau,B.和van de Geijn,R.,1992年。 分布式内存体系结构的LAPACK:进度报告。 在 第五届科学计算并行处理SIAM会议记录 宾夕法尼亚州费城SIAM,邮编:625--630。 谷歌学者 数字图书馆 Anderson,E.、Bai,Z.等人,1999年。 LAPACK用户指南 第三版SIAM,宾夕法尼亚州费城。 谷歌学者 数字图书馆 Bennighof,J.K.和Lehoucq,R.2003。 线性弹性动力学特征空间计算的自动多级子结构方法。 SIAM J.科学。 计算。 25 , 2084--2106. 谷歌学者 数字图书馆 Bientinesi,P.、Dhillon,I.S.和van de Geijn,R.A.2005a。 基于多个相对稳健表示的稠密对称矩阵的并行特征解算器。 SIAM J.科学。 计算。 27 , 1, 43--66. 谷歌学者 数字图书馆 Bientinesi,P.、Quintana-Ortí,E.S.和van de Geijn,R.A.2005b。 用代码表示线性代数算法:FLAME应用程序编程接口。 ACM事务处理。 数学。 柔和。 31 , 1, 27--59. 谷歌学者 数字图书馆 Blackford,L.S.,Choi,J.等人,1997年。 ScaLAPACK用户指南 .暹罗。 谷歌学者 Chan,E.,Heimlich,M.,Purkayastha,A.和van de Geijn,R.2007a。 集体交流:理论、实践和经验。 并发计算。 实际。 专家。 19 , 13, 1749--1783. 谷歌学者 数字图书馆 Chan,E.、Quintana-Orti,E.、Cuntana-Orty,G.和van de Geijn,R.2007b。 针对SMP和多核架构的矩阵操作的SuperMatrix无序调度。 在 第19届ACM算法和体系结构并行性研讨会论文集(SPAA'07) . 116--126. 谷歌学者 数字图书馆 Choi,J.、Dongarra,J.J.、Ostrouchov,L.S.、Petitet,A.P.、Walker,D.W.和Whaley,R.C.,1994年。 ScaLAPACK LU、QR和Cholesky因子分解例程的设计和实现。 田纳西大学LAPACK工作说明80 UT-CS-94-246。 谷歌学者 数字图书馆 Chtchelkanova,A.,Gunnels,J.,Morrow,G.,Overfelt,J.和van de Geijn,R.A.,1997年。 BLAS的并行实现:3级BLAS的通用技术。 并发:实际。 专家。 9 , 9, 837--857. 谷歌学者 交叉引用 Cuppen,J.J.M.,1981年。 对称三对角特征值问题的分治方法。 数字。 数学。 36 , 177--195. 谷歌学者 数字图书馆 Dhillon,《国际标准》,1997年。 一个新的 O(运行) ( n个 2 )对称三对角特征值/特征向量问题的算法。 加州大学伯克利分校EECS系博士论文。 谷歌学者 数字图书馆 Dongarra,J.和Ostrouchov,S.,1990年。 Intel iPSC/860上的LAPACK块因子分解算法。 LAPACK工作说明24,田纳西大学技术代表CS-90-115。 谷歌学者 数字图书馆 Dongarra,J.和van de Geijn,R.1992。 在分布式内存体系结构上简化为精简形式。 并行计算。 18 , 973--982. 谷歌学者 交叉引用 Dongarra,J.、van de Geijn,R.和Walker,D.,1994年。 影响密集线性代数库设计的可伸缩性问题。 J.平行分布计算。 22 , 3. 谷歌学者 数字图书馆 Dongarra,J.J.、Du Croz,J.、Hammarling,S.和Duff,I.1990年。 一组三级基本线性代数子程序。 ACM事务处理。 数学。 柔和。 16 , 1, 1--17. 谷歌学者 数字图书馆 Edwards,C.、Geng,P.、Patra,A.和van de Geijn,R.,1995年。 并行矩阵分布:我们做得都错了吗? 德克萨斯大学奥斯汀分校计算机科学系技术代表TR-95-40。 谷歌学者 福特,B.和霍尔,G.1974。 量子化学中的广义特征值问题。 计算。 物理学。 Commun公司。 8 , 5, 337--348. 谷歌学者 交叉引用 Golub,G.H.和Van Loan,C.F.1989。 矩阵计算 第二版,约翰霍普金斯大学出版社,马里兰州巴尔的摩。 谷歌学者 Goto,K.和van de Geijn,R.A.,2008年。 高性能矩阵乘法剖析。 ACM事务处理。 数学。 柔和。 34 ,3:第12条。 谷歌学者 数字图书馆 Gunnels,J.A.、Gustavson,F.G.、Henry,G.M.和van de Geijn,R.A.,2001年。 FLAME:形式线性代数方法环境。 ACM事务处理。 数学。 柔和。 27 , 4, 422--455. 谷歌学者 数字图书馆 Hendrickson,B.、Jessup,E.和Smith,C.,1999年。 面向稠密对称矩阵的高效并行特征解算器。 SIAM J.科学。 计算。 20 , 3, 1132--1154. 谷歌学者 数字图书馆 亨德里克森,B.A.和温布尔,D.E.1994。 大规模并行计算机上密集矩阵计算的环形映射。 SIAM J.科学。 统计计算。 15 , 5, 1201--1226. 谷歌学者 数字图书馆 Howard,J.、Dighe,S.等人,2010年。 48核IA-32消息传递处理器,采用45nm CMOS的DVFS。 在 国际固态电路会议记录 。 谷歌学者 交叉引用 Joffrain,T.、Low,T.M.、Quintana Ortí,E.S.、van de Geijn,R.和van Zee,F.G.,2006年。 不断积累的户主转变,重新审视。 ACM事务处理。 数学。 柔和。 32 ,2169-179。 谷歌学者 数字图书馆 Johnsson,S.L.1987年。 超立方体结构上的通信效率高的基本线性代数计算。 J.平行分布计算。 4 , 133--172. 谷歌学者 数字图书馆 Marker,B.、Terrel,A.、Poulson,J.、Batory,D.和van de Geijn,R.,2011年。 将专家稠密线性代数开发人员机械化。 FLAME工作说明#58 TR-11-18,德克萨斯大学奥斯汀分校计算机科学系。 谷歌学者 Marker,B.、Chan,E.、Poulson,J.、van de Geijn,R.、van der Wijngaart,R.F.、Mattson,T.G.和Kubaska,T.E.,2012年。 编程多核架构-案例研究:英特尔SCC处理器上的密集矩阵计算。 并发计算。 实际。 专家。 24 , 12, 1317--1333. 谷歌学者 数字图书馆 Mattson,T.G.、Van der Wijngaart,R.和FRUMKIN,M.,2008年。 为Intel 80核片上网络T级处理器编程。 在 ACM/IEEE超级计算会议记录(SC'08) IEEE出版社,1-11。 谷歌学者 数字图书馆 Petitet,A.、Whaley,R.C.、Dongarra,J.和Cleary,A.HPL算法。 http://netlib.org/benchmark/hpl/algorithm.html。 谷歌学者 Poulson,J.、van de Geijn,R.和Bennighof,J.,2011年。 简化广义厄米特定特征值问题的并行算法。 FLAME工作注释#56。 德克萨斯大学奥斯汀分校计算机科学系技术代表TR-11-05。 谷歌学者 金塔纳·奥尔蒂,G.,金塔纳·阿尔蒂,E.S.,van de Geijn,R.A.,van Zee,F.G.和Chan,E.,2009年。 线程级并行的逐块编程矩阵算法。 ACM事务处理。 数学。 柔和。 36 , 3, 14:1--14:26. 谷歌学者 数字图书馆 ScaLAPACK 2010。 主页。 http://www.netlib.org/scalapack/scalapack_home.html。 谷歌学者 Schreiber,R.1992年。 稀疏直接解算器的可伸缩性。 图论和稀疏矩阵计算56 。 谷歌学者 Sears,M.P.、Stanley,K.和Henry,G.1998年。 高性能并行特征值求解器在电子结构计算中的应用。 在 ACM/IEEE超级计算会议记录 IEEE计算机学会,1--1。 谷歌学者 数字图书馆 Stewart,G.1990年。 大型消息传递系统上的通信和矩阵计算。 并行计算。 16 ,27-40。 谷歌学者 交叉引用 斯图尔特,G.W.,1970年。 将原点偏移纳入对称三对角矩阵的qr算法。 通信ACM 13 , 365--367. 谷歌学者 数字图书馆 斯特拉兹丁斯,体育,1998年。 矩阵分解的块循环分解的最佳负载平衡技术。 在 第二届并行和分布式计算与网络国际会议论文集(PDCN'98) 。 谷歌学者 van de Geijn,R.1992年。 Intel touchstone delta系统上的密集线性解决方案。 在 第37届IEEE计算机学会国际会议记录 (论文摘要) 谷歌学者 数字图书馆 van de Geijn,R.A.1997年。 使用PLAPACK:并行线性代数包 麻省理工学院出版社。 谷歌学者 数字图书馆 van de Geijn,R.A.和Quintana-Ortí,E.S.,2008年。 编程矩阵计算的科学。 http://www.lulu.com/content/1911788。 谷歌学者 Van Zee,F.G.2009年。 libflame:完整参考 www.lulu.com。 谷歌学者 Whaley,R.C.和Dongarra,J.J.1998年。 自动调整线性代数软件。 在 超级计算会议记录(SC'98) 。 谷歌学者 数字图书馆 Wilkinson,J.H.1965年。 代数特征值问题 牛津大学出版社,英国牛津。 谷歌学者 Wu,Y.-J.J.、Alpatov,P.A.、Bischof,C.和van de Geijn,R.A.,1996年。 使用PLAPACK并行实现对称频带缩减。 在 密西西比州立大学可扩展并行图书馆会议记录 。 谷歌学者
建议
大型稀疏矩阵逆p次方根近似计算的大规模并行算法 PASC’18:高级科学计算平台会议记录 我们提出了子矩阵方法,这是一种高度并行化的方法,用于近似计算大型稀疏对称矩阵的逆p次根,这些矩阵在不同的科学应用中都有要求。 遵循近似计算的思想,。。。 STAPL并行容器框架 PPoPP’11:第16届ACM并行编程原理与实践研讨会会议记录 标准模板自适应并行库(Standard Template Adaptive Parallel Library,STAPL)是一个并行编程基础设施,它扩展了C++并支持并行。 它包括一组称为pContainers的分布式数据结构,这些数据结构是线程安全的、并发的。。。