跳到主要内容
研究论文

Elemental:一种新的分布式内存密集矩阵计算框架

出版:2013年2月1日出版历史
跳过抽象节

摘要

将密集矩阵计算并行化到分布式内存体系结构是一个研究得很好的课题,通常被认为是最容易理解的并行计算领域之一。20世纪90年代中期开发的两个软件包仍在正常使用:ScaLAPACK和PLAPACK。随着多核体系结构的出现,这些体系结构很可能在单个处理器中形成分布式内存体系结构,因此必须重新考虑这些包,因为传统的基于MPI的方法可能需要扩展。因此,这是一个很好的时间来回顾自引入这两个包以来吸取的经验教训,并提出一个简单但有效的替代方案。初步性能结果表明,新解决方案在大型集群上即使没有取得优异的性能,也具有竞争力。

工具书类

  1. Alpatov,P.、Baker,G.、Edwards,C.、Gunnels,J.、Morrow,G.,Overfelt,J.,van de Geijn,R.和Wu,Y.-J.,1997年。PLAPACK:并行线性代数软件包:设计概述。超级计算会议记录谷歌学者谷歌学者数字图书馆数字图书馆
  2. Anderson,E.、Benzani,A.、Dongarra,J.、Moulton,S.、Ostrochov,S.、Touranchau,B.和van de Geijn,R.,1992年。分布式内存体系结构的LAPACK:进度报告。第五届科学计算并行处理SIAM会议记录宾夕法尼亚州费城SIAM,邮编:625--630。谷歌学者谷歌学者数字图书馆数字图书馆
  3. Anderson,E.、Bai,Z.等人,1999年。LAPACK用户指南第三版SIAM,宾夕法尼亚州费城。谷歌学者谷歌学者数字图书馆数字图书馆
  4. Bennighof,J.K.和Lehoucq,R.2003。线性弹性动力学特征空间计算的自动多级子结构方法。SIAM J.科学。计算。25, 2084--2106.谷歌学者谷歌学者数字图书馆数字图书馆
  5. Bientinesi,P.、Dhillon,I.S.和van de Geijn,R.A.2005a。基于多个相对稳健表示的稠密对称矩阵的并行特征解算器。SIAM J.科学。计算。27, 1, 43--66.谷歌学者谷歌学者数字图书馆数字图书馆
  6. Bientinesi,P.、Quintana-Ortí,E.S.和van de Geijn,R.A.2005b。用代码表示线性代数算法:FLAME应用程序编程接口。ACM事务处理。数学。柔和。31, 1, 27--59.谷歌学者谷歌学者数字图书馆数字图书馆
  7. Blackford,L.S.,Choi,J.等人,1997年。ScaLAPACK用户指南.暹罗。谷歌学者谷歌学者
  8. Chan,E.,Heimlich,M.,Purkayastha,A.和van de Geijn,R.2007a。集体交流:理论、实践和经验。并发计算。实际。专家。19, 13, 1749--1783.谷歌学者谷歌学者数字图书馆数字图书馆
  9. Chan,E.、Quintana-Orti,E.、Cuntana-Orty,G.和van de Geijn,R.2007b。针对SMP和多核架构的矩阵操作的SuperMatrix无序调度。第19届ACM算法和体系结构并行性研讨会论文集(SPAA'07). 116--126.谷歌学者谷歌学者数字图书馆数字图书馆
  10. Choi,J.、Dongarra,J.J.、Ostrouchov,L.S.、Petitet,A.P.、Walker,D.W.和Whaley,R.C.,1994年。ScaLAPACK LU、QR和Cholesky因子分解例程的设计和实现。田纳西大学LAPACK工作说明80 UT-CS-94-246。谷歌学者谷歌学者数字图书馆数字图书馆
  11. Chtchelkanova,A.,Gunnels,J.,Morrow,G.,Overfelt,J.和van de Geijn,R.A.,1997年。BLAS的并行实现:3级BLAS的通用技术。并发:实际。专家。9, 9, 837--857.谷歌学者谷歌学者交叉引用交叉引用
  12. Cuppen,J.J.M.,1981年。对称三对角特征值问题的分治方法。数字。数学。36, 177--195.谷歌学者谷歌学者数字图书馆数字图书馆
  13. Dhillon,《国际标准》,1997年。一个新的O(运行)(n个2)对称三对角特征值/特征向量问题的算法。加州大学伯克利分校EECS系博士论文。谷歌学者谷歌学者数字图书馆数字图书馆
  14. Dongarra,J.和Ostrouchov,S.,1990年。Intel iPSC/860上的LAPACK块因子分解算法。LAPACK工作说明24,田纳西大学技术代表CS-90-115。谷歌学者谷歌学者数字图书馆数字图书馆
  15. Dongarra,J.和van de Geijn,R.1992。在分布式内存体系结构上简化为精简形式。并行计算。18, 973--982.谷歌学者谷歌学者交叉引用交叉引用
  16. Dongarra,J.、van de Geijn,R.和Walker,D.,1994年。影响密集线性代数库设计的可伸缩性问题。J.平行分布计算。22, 3.谷歌学者谷歌学者数字图书馆数字图书馆
  17. Dongarra,J.J.、Du Croz,J.、Hammarling,S.和Duff,I.1990年。一组三级基本线性代数子程序。ACM事务处理。数学。柔和。16, 1, 1--17.谷歌学者谷歌学者数字图书馆数字图书馆
  18. Edwards,C.、Geng,P.、Patra,A.和van de Geijn,R.,1995年。并行矩阵分布:我们做得都错了吗?德克萨斯大学奥斯汀分校计算机科学系技术代表TR-95-40。谷歌学者谷歌学者
  19. 福特,B.和霍尔,G.1974。量子化学中的广义特征值问题。计算。物理学。Commun公司。8, 5, 337--348.谷歌学者谷歌学者交叉引用交叉引用
  20. Golub,G.H.和Van Loan,C.F.1989。矩阵计算第二版,约翰霍普金斯大学出版社,马里兰州巴尔的摩。谷歌学者谷歌学者
  21. Goto,K.和van de Geijn,R.A.,2008年。高性能矩阵乘法剖析。ACM事务处理。数学。柔和。34,3:第12条。谷歌学者谷歌学者数字图书馆数字图书馆
  22. Gunnels,J.A.、Gustavson,F.G.、Henry,G.M.和van de Geijn,R.A.,2001年。FLAME:形式线性代数方法环境。ACM事务处理。数学。柔和。27, 4, 422--455.谷歌学者谷歌学者数字图书馆数字图书馆
  23. Hendrickson,B.、Jessup,E.和Smith,C.,1999年。面向稠密对称矩阵的高效并行特征解算器。SIAM J.科学。计算。20, 3, 1132--1154.谷歌学者谷歌学者数字图书馆数字图书馆
  24. 亨德里克森,B.A.和温布尔,D.E.1994。大规模并行计算机上密集矩阵计算的环形映射。SIAM J.科学。统计计算。15, 5, 1201--1226.谷歌学者谷歌学者数字图书馆数字图书馆
  25. Howard,J.、Dighe,S.等人,2010年。48核IA-32消息传递处理器,采用45nm CMOS的DVFS。国际固态电路会议记录谷歌学者谷歌学者交叉引用交叉引用
  26. Joffrain,T.、Low,T.M.、Quintana Ortí,E.S.、van de Geijn,R.和van Zee,F.G.,2006年。不断积累的户主转变,重新审视。ACM事务处理。数学。柔和。32,2169-179。谷歌学者谷歌学者数字图书馆数字图书馆
  27. Johnsson,S.L.1987年。超立方体结构上的通信效率高的基本线性代数计算。J.平行分布计算。4, 133--172.谷歌学者谷歌学者数字图书馆数字图书馆
  28. Marker,B.、Terrel,A.、Poulson,J.、Batory,D.和van de Geijn,R.,2011年。将专家稠密线性代数开发人员机械化。FLAME工作说明#58 TR-11-18,德克萨斯大学奥斯汀分校计算机科学系。谷歌学者谷歌学者
  29. Marker,B.、Chan,E.、Poulson,J.、van de Geijn,R.、van der Wijngaart,R.F.、Mattson,T.G.和Kubaska,T.E.,2012年。编程多核架构-案例研究:英特尔SCC处理器上的密集矩阵计算。并发计算。实际。专家。24, 12, 1317--1333.谷歌学者谷歌学者数字图书馆数字图书馆
  30. Mattson,T.G.、Van der Wijngaart,R.和FRUMKIN,M.,2008年。为Intel 80核片上网络T级处理器编程。ACM/IEEE超级计算会议记录(SC'08)IEEE出版社,1-11。谷歌学者谷歌学者数字图书馆数字图书馆
  31. Petitet,A.、Whaley,R.C.、Dongarra,J.和Cleary,A.HPL算法。http://netlib.org/benchmark/hpl/algorithm.html。谷歌学者谷歌学者
  32. Poulson,J.、van de Geijn,R.和Bennighof,J.,2011年。简化广义厄米特定特征值问题的并行算法。FLAME工作注释#56。德克萨斯大学奥斯汀分校计算机科学系技术代表TR-11-05。谷歌学者谷歌学者
  33. 金塔纳·奥尔蒂,G.,金塔纳·阿尔蒂,E.S.,van de Geijn,R.A.,van Zee,F.G.和Chan,E.,2009年。线程级并行的逐块编程矩阵算法。ACM事务处理。数学。柔和。36, 3, 14:1--14:26.谷歌学者谷歌学者数字图书馆数字图书馆
  34. ScaLAPACK 2010。主页。http://www.netlib.org/scalapack/scalapack_home.html。谷歌学者谷歌学者
  35. Schreiber,R.1992年。稀疏直接解算器的可伸缩性。图论和稀疏矩阵计算56谷歌学者谷歌学者
  36. Sears,M.P.、Stanley,K.和Henry,G.1998年。高性能并行特征值求解器在电子结构计算中的应用。ACM/IEEE超级计算会议记录IEEE计算机学会,1--1。谷歌学者谷歌学者数字图书馆数字图书馆
  37. Stewart,G.1990年。大型消息传递系统上的通信和矩阵计算。并行计算。16,27-40。谷歌学者谷歌学者交叉引用交叉引用
  38. 斯图尔特,G.W.,1970年。将原点偏移纳入对称三对角矩阵的qr算法。通信ACM 13, 365--367.谷歌学者谷歌学者数字图书馆数字图书馆
  39. 斯特拉兹丁斯,体育,1998年。矩阵分解的块循环分解的最佳负载平衡技术。第二届并行和分布式计算与网络国际会议论文集(PDCN'98)谷歌学者谷歌学者
  40. van de Geijn,R.1992年。Intel touchstone delta系统上的密集线性解决方案。第37届IEEE计算机学会国际会议记录(论文摘要)谷歌学者谷歌学者数字图书馆数字图书馆
  41. van de Geijn,R.A.1997年。使用PLAPACK:并行线性代数包麻省理工学院出版社。谷歌学者谷歌学者数字图书馆数字图书馆
  42. van de Geijn,R.A.和Quintana-Ortí,E.S.,2008年。编程矩阵计算的科学。http://www.lulu.com/content/1911788。谷歌学者谷歌学者
  43. Van Zee,F.G.2009年。libflame:完整参考www.lulu.com。谷歌学者谷歌学者
  44. Whaley,R.C.和Dongarra,J.J.1998年。自动调整线性代数软件。超级计算会议记录(SC'98)谷歌学者谷歌学者数字图书馆数字图书馆
  45. Wilkinson,J.H.1965年。代数特征值问题牛津大学出版社,英国牛津。谷歌学者谷歌学者
  46. Wu,Y.-J.J.、Alpatov,P.A.、Bischof,C.和van de Geijn,R.A.,1996年。使用PLAPACK并行实现对称频带缩减。密西西比州立大学可扩展并行图书馆会议记录谷歌学者谷歌学者

索引术语

  1. Elemental:一种新的分布式内存密集矩阵计算框架

    建议

    评论

    登录选项

    检查您是否可以通过登录凭据或您的机构访问本文。

    登录

    完全访问权限

    • 发布于

      数学软件上的封面图像ACM事务
      ACM数学软件汇刊 第39卷第2期
      2013年2月
      151页
      国际标准编号:0098-3500
      EISSN公司:1557-7295
      内政部:10.1145/2427023
      期刊目录

      版权所有©2013 ACM

      如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

      出版商

      计算机协会

      美国纽约州纽约市

      出版历史

      • 出版:2013年2月1日
      • 接受日期:2012年2月1日
      • 修订过的:2012年1月1日
      • 收到:2010年9月1日
      发布于汤姆斯第39卷第2期

      权限

      请求有关此文章的权限。

      请求权限

      检查更新

      限定符

      • 研究论文
      • 研究
      • 推荐

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用eReader联机查看。

    电子阅读器