摘要
Anderson,E.、Bai,Z.等人,1999年。 LAPACK用户指南 第三版SIAM。 谷歌学者 数字图书馆 Arioli,M.、Demmel,J.W.和Duff,I.S.1989年。 求解具有稀疏向后误差的稀疏线性系统。 SIAM J.矩阵分析。 申请。 10 , 2, 165--190. 谷歌学者 数字图书馆 Arioli,M.、Baboulin,M.和Gratton,S.,2007年。 线性最小二乘问题的部分条件数。 SIAM J.矩阵分析。 申请。 29 , 2, 413--433. 谷歌学者 数字图书馆 Buttari,A.、Langou,J.、Kurzak,J.和Dongarra,J.,2009年。 一类适用于多核体系结构的并行平铺线性代数算法。 并行计算。 35 , 38--53. 谷歌学者 数字图书馆 Dimov,I.2008年。 应用科学家的蒙特卡罗方法 Word Scientific。 谷歌学者 数字图书馆 Duff,I.S.、Erisman,A.M.和Reid,J.K.,1986年。 稀疏矩阵的直接方法。 牛津克拉伦登出版社。 谷歌学者 Edelman,A.1988年。 随机矩阵的特征值和条件数。 SIAM J.矩阵分析。 申请。 9 , 4, 543--560. 谷歌学者 数字图书馆 福斯特,L.V.1994年。 部分旋转高斯消去法在实践中可能会失败。 SIAM J.矩阵分析。 申请。 15 , 4, 1354--1362. 谷歌学者 数字图书馆 Grigori,L.、Demmel,J.W.和Xiang,H.,2008年。 避免高斯消去的通信。 在 IEEE/ACM超级计算会议记录 . 谷歌学者 数字图书馆 新泽西州海姆,2002年。 数值算法的准确性和稳定性 第2版SIAM。 谷歌学者 数字图书馆 新泽西州海姆和D.J.海姆,1989年。 旋转高斯消去中的大生长因子。 SIAM J.矩阵分析。 申请。 10 , 2, 155--164. 谷歌学者 数字图书馆 Kenney,C.S.、Laub,A.J.和Reese,M.S.1998年。 线性最小二乘的统计条件估计。 SIAM J.矩阵分析。 申请。 19 , 906--923. 谷歌学者 数字图书馆 Oettli,W.和Prager,W.1964年。 线性方程近似解与系数和右侧给定误差界的相容性。 数字数学6 , 405--409. 谷歌学者 数字图书馆 Parker,D.S.1995年。 随机蝴蝶变换及其在计算线性代数中的应用。 加州大学洛杉矶分校计算机科学系技术代表CSD-950023。 谷歌学者 Parker,D.S.和Pierce,B.1995年。 随机化FFT:高斯消去中旋转的替代方法。 加州大学洛杉矶分校计算机科学系技术代表CSD-950037。 谷歌学者 Quintana-Orti,G.、Quintana-Orti,E.S.、van de Geijn,R.A.、van Zee,F.G.和Chan,E.,2009年。 多线程体系结构上矩阵计算的块编程算法。 ACM事务处理。 数学。 柔和。 36 ,3,1-26。 谷歌学者 数字图书馆 Saad,Y.2000年。 稀疏线性系统的迭代方法 第2版SIAM。 谷歌学者 数字图书馆 Skeel,R.D.1980年。 迭代求精意味着高斯消去的数值稳定性。 数学。 计算。 35 , 817--832. 谷歌学者 交叉引用 Sorensen,D.C.1984年。 高斯消去中两两旋转的分析。 IEEE传输。 计算。 34 , 274--278. 谷歌学者 数字图书馆 Trefethen,L.N.和Schreiber,R.S.,1990年。 高斯消去的平均情况稳定性。 SIAM J.矩阵分析。 申请。 11 , 3, 335--360. 谷歌学者 数字图书馆 Volkov,V.和Demmel,J.W.,2008年。 使用GPU的矢量功能进行LU、QR和Cholesky因子分解。 加州大学伯克利分校技术代表UCB/EECS-2008-49。 LAPACK工作说明202。 谷歌学者 Wright,S.J.1993年。 部分旋转高斯消去不稳定的一组问题。 SIAM J.科学。 统计人员。 计算。 14 , 231--238. 谷歌学者 数字图书馆 Yarkhan,A.、Kurzak,J.和Dongarra,J.,2011年。 QUARK用户指南:内核的QUeueing和运行时。 田纳西大学创新计算实验室技术代表ICL-UT-11-02。 谷歌学者 Yeung,M.和Chan,T.F.1997年。 无旋转高斯消去的概率分析。 SIAM J.矩阵分析。 申请。 18 , 2, 499--517. 谷歌学者 数字图书馆
建议
多核/多核混合逻辑单元的设计与动态负载平衡 为现代混合多核/多核系统设计高性能LU因子分解需要高度调谐的BLAS子程序,隐藏通信延迟并在具有可变处理能力的设备之间平衡负载。 在本文中,我们展示了。。。 在图形处理器上求解密集线性系统 2008年欧洲专利局:第14届欧洲专利局并行处理国际会议记录 我们提出了几种在GPU上计算线性方程组解的算法,以及提高其性能的通用技术,如填充和混合GPU-CPU计算。 我们还展示了使用混合-。。。