跳到主要内容
研究论文

基于任务的可伸缩矩阵乘积算法并行编程

出版:2023年6月15日出版历史
跳过抽象节

摘要

基于任务的编程模型成功地获得了高性能数学软件社区的兴趣,因为它们以高效和可移植的方式减轻了开发和实现分布式内存并行算法的部分负担。在越来越大、越来越异构的计算机集群中,这些模型似乎是维护和增强更复杂算法的一种方法。然而,基于任务的编程模型缺乏以优雅紧凑的方式表达依赖于高级通信模式的可伸缩算法所必需的灵活性和功能。我们表明,序列任务流范式可以扩展为编写紧凑但高效且可扩展的线性代数计算例程。虽然这项工作的重点是密集的通用矩阵乘法,但所提出的功能可以实现更复杂的算法。我们描述了这些功能的实现以及由此产生的GEMM操作。最后,我们在两台同质超级计算机上进行了实验分析,结果表明,我们的方法在32768个CPU内核和最先进的库中具有竞争力,并且在某些问题方面可能优于它们。虽然我们的代码可以直接使用GPU,但我们不处理这种情况,因为这意味着其他问题超出了本工作的范围。

参考文献

  1. 阿加瓦尔·拉梅什C。,Balle Susanne M。,古斯塔夫森·弗雷德·G。,乔希·马赫什、和帕尔卡·普拉萨德.1995.并行矩阵乘法的三维方法.IBM研究与开发杂志 39,5(1995),575582。检索自http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.120.4575&rep=rep1&type=pdf.谷歌学者谷歌学者数字图书馆数字图书馆
  2. 阿加瓦尔·拉梅什C。,古斯塔夫森·弗雷德·G。、和祖拜尔·穆罕默德.1994.基于重叠通信的分布式内存并行计算机上的高性能矩阵乘法算法.IBM研究与开发杂志 38,6(1994),673681.内政部:内政部:谷歌学者谷歌学者数字图书馆数字图书馆
  3. 阿古洛·伊曼纽尔,奥玛格·奥利维尔,法厄里克·马修,福门托·纳塔利,普鲁沃斯特·弗洛伦特,Marc中士、和蒂博特·塞缪尔.2017年a.使用基于任务的顺序编程模型在超级计算机上实现高性能.IEEE并行和分布式系统汇刊(2017).内政部:内政部:谷歌学者谷歌学者交叉引用交叉引用
  4. 阿古洛·伊曼纽尔,博西尔卡·乔治,布塔里·阿尔弗雷多,Guermouche Abdou公司、和洛佩斯·弗洛伦特.2017年b.利用参数化任务图模型并行化稀疏直接多前沿解算器.英寸2016年欧洲-巴黎会议记录:平行处理研讨会:2016年欧洲/巴黎国际研讨会。Desprez Frédéric餐厅,杜托·皮埃尔·弗兰索瓦,卡克拉玛尼斯·克里斯托斯,马查尔·洛利斯,莫里托里斯·科尔比尼安,里奇·劳拉,斯卡拉诺·维托里奥,Vega-Rodríguez Miguel A。,瓦班斯库·安娜·露西亚,Hunold Sascha公司,斯科特·斯蒂芬·L。,Lankes Stefan公司、和韦登多弗·约瑟夫(编辑),施普林格国际出版公司,查姆,175186.内政部:内政部:谷歌学者谷歌学者交叉引用交叉引用
  5. 阿古洛·伊曼纽尔,布塔里·阿尔弗雷多,Guermouche Abdou公司、和洛佩斯·弗洛伦特.2016.用顺序任务流运行时系统实现多核体系结构的多前沿稀疏解算器.ACM数学软件汇刊 43,2(2016),22页。内政部:内政部:谷歌学者谷歌学者数字图书馆数字图书馆
  6. 阿古洛·伊曼纽尔,德梅尔·吉姆,东加拉杰克,哈德里·比雷尔,库尔扎克·贾库布,Langou Julien公司,勒泰夫·哈泰姆,Luszczek Piotr公司、和托莫夫·斯坦尼米尔.2009.新兴建筑上的数字线性代数:PLASMA和MAGMA项目.物理学杂志:会议系列 180,1(2009),012037。检索自http://stacks.iop.org/1742-6596/180/i=1/a=012037.谷歌学者谷歌学者交叉引用交叉引用
  7. Amestoy Patrick R。,达夫·伊恩·S。,科斯特·雅科、和L'Excellent牛仔裤.2001.基于分布式动态调度的全异步多前沿求解器.SIAM矩阵分析与应用杂志 23,1(2001),1541.谷歌学者谷歌学者数字图书馆数字图书馆
  8. 阿什克拉夫·克利夫.1993.基于列的fan-both系列分布式cholesky分解算法.英寸图论和稀疏矩阵计算论文集。乔治·艾伦,吉尔伯特·约翰·R。、和刘约瑟夫·W·H。(编辑),纽约施普林格,纽约,159190.谷歌学者谷歌学者交叉引用交叉引用
  9. 奥贡奈特·塞德里克,蒂鲍特·塞缪尔,纳米斯特·雷蒙德、和Wacrenier Pierre-André.2011.StarPU:异构多核架构上任务调度的统一平台.并发与计算:实践与经验,特刊:2009年欧洲政策 23, 2 (2011),187198.内政部:内政部:谷歌学者谷歌学者数字图书馆数字图书馆
  10. 巴拉德灰,德梅尔·詹姆斯,霍尔茨·奥尔加、和施瓦茨·奥德.2011.数字线性代数中的通信最小化.SIAM矩阵分析与应用杂志 32,(2011),866901.内政部:谷歌学者谷歌学者交叉引用交叉引用
  11. 布莱克福德·L·苏珊,Choi Jaeyong先生,克利里·安德鲁·J。,达泽维多·爱德华多·F·。,德梅尔·詹姆斯,Dhillon Inderjit S.公司。,Dongarra Jack J。,哈马林·斯文,亨利·格雷格,佩蒂特·安托万,斯坦利·肯,沃克·大卫·W·。、和惠利·克林顿.1997.ScaLAPACK:用于消息传递计算机的线性代数库.英寸第八届科学计算并行处理SIAM会议记录.暹罗.谷歌学者谷歌学者
  12. 博西尔卡·乔治,Bouteiller Aurelein公司,达纳利斯·安东尼,法厄里克·马修,赫罗特·托马斯、和Dongarra Jack J。.2013.PaRSEC:利用异构性增强可伸缩性.科学与工程计算 15,6(2013),3645.内政部:谷歌学者谷歌学者数字图书馆数字图书馆
  13. 布塔里·阿尔弗雷多,Langou Julien公司,库尔扎克·贾库布、和东加拉杰克.2009.一类多核结构的并行分片线性代数算法.并行计算。 35, 2 (2009),3853.内政部:内政部:谷歌学者谷歌学者数字图书馆数字图书馆
  14. 加农·林恩·埃利奥特.1969.实现卡尔曼滤波算法的蜂窝计算机.博士论文.蒙大拿州立大学.AAI7010025。谷歌学者谷歌学者数字图书馆数字图书馆
  15. 德梅尔·詹姆斯,格里戈里·劳拉,霍姆曼标记、和Langou Julien公司.2012.通信最优并行和序列QR和LU分解.SIAM科学计算杂志 34,1(2012),206239.内政部:谷歌学者谷歌学者数字图书馆数字图书馆
  16. 丹尼斯·亚历山大,Jeannot Emmanuel公司,斯瓦特瓦赫·菲利普、和蒂博特·塞缪尔.2020.使用动态广播提高基于任务的运行时性能.英寸《2020年欧洲-欧盟法案汇编:并行处理》。马拉夫斯基·马西耶Rzadca Krzysztof公司(编辑),施普林格国际出版公司,查姆,443457.谷歌学者谷歌学者数字图书馆数字图书馆
  17. 乔治安娜斯·伊万杰洛斯,冈萨雷斯-多明格斯-豪尔赫,所罗门尼克·埃德加,郑伊利,图里诺·胡安、和耶利克·凯瑟琳.2012.数值线性代数的通信避免和重叠.英寸SC'12:高性能计算、网络、存储和分析国际会议记录.111.内政部:内政部:谷歌学者谷歌学者数字图书馆数字图书馆
  18. 赫拉尔·托马斯,罗伯特·伊夫斯,博西尔卡·乔治、和东加拉杰克.2019.基于PaRSEC的多GPU加速分布式存储平台的通用矩阵乘法.英寸2019年ScalA会议记录-IEEE/ACM第十届大型系统可扩展算法最新进展研讨会.电气与电子工程师协会,丹佛,3341.内政部:谷歌学者谷歌学者交叉引用交叉引用
  19. 黄宗伟,林殿伦,林春霞、和林一波.2022.Taskflow:一个轻量级并行异构任务图计算系统.IEEE传输。平行配送系统。 33,6(2022年6月),1303-1320。谷歌学者谷歌学者数字图书馆数字图书馆
  20. Igual Francisco D。,金塔纳·奥蒂格雷戈里奥、和盖恩·罗伯特·范德.2013.小集群上按块调度算法.并发与计算:实践与经验。 25,(2013),367384.谷歌学者谷歌学者交叉引用交叉引用
  21. 讽刺Dror,托莱多·西万、和蒂斯金·亚历山大.2004.分布式内存矩阵乘法的通信下限.并行与分布式计算杂志 64,9(2004),10171026.内政部:内政部:谷歌学者谷歌学者数字图书馆数字图书馆
  22. 金正元(Kim Jungwon),李赛勇(Lee Seyong),约翰斯顿·博、和兽医Jeffrey S。.2021.IRIS:一个利用多个异构编程系统的可移植运行时系统.英寸HPEC会议记录.18.谷歌学者谷歌学者交叉引用交叉引用
  23. 佩雷斯·约塞普(Perez Josep M.)。,贝尔特兰·维琴察,拉巴塔耶稣、和爱德华·艾瓜德.2017.改进OpenMP中任务嵌套和依赖项的集成.英寸IPDPS的进展17.809818.谷歌学者谷歌学者
  24. 金塔纳·奥蒂格雷戈里奥,S.Quintana-OrtíEnrique公司,范德盖恩·罗伯特A。,范泽菲尔德G。、和陈恩妮(Chan Ernie).2009.线程级并行的逐块编程矩阵算法.ACM事务处理。数学。柔和。 36,,第14条(2009年7月),26页。谷歌学者谷歌学者数字图书馆数字图书馆
  25. 圣皮尤什,李小叶S。、和武杜克·理查德.2019.异构系统稀疏LU分解的一种避免通信的3D算法.并行与分布式计算杂志 131(2019),218234.内政部:谷歌学者谷歌学者数字图书馆数字图书馆
  26. 沙茨·马丁·D·。,盖恩·罗伯特·范德、和鲍尔森-杰克.2016.并行矩阵乘法:系统之旅.SIAM科学计算杂志 38,6(2016),748781。检索自http://www.cs.utexas.edu/users/flame/pubs/2D3DFinal.pdf.谷歌学者谷歌学者数字图书馆数字图书馆
  27. 所罗门尼克·埃德加德梅尔·詹姆斯.2011.通信最优并行2.5D矩阵乘法和LU分解算法.英寸第17届并行处理国际会议论文集-第二卷(2011年欧洲标准).Springer-Verlag公司,柏林,90109。检索自http://dl.acm.org/citation.cfm?id=2033408.2033420.谷歌学者谷歌学者数字图书馆数字图书馆
  28. 盖恩·罗伯特·范德瓦茨·杰雷尔.1997.SUMMA:可扩展通用矩阵乘法算法.并行:实践与经验 9,4(1997),255274。检索自http://www.netlib.org/lapack/lawnspdf/lawn96.pdf.谷歌学者谷歌学者交叉引用交叉引用
  29. 盖恩·罗伯特·范德.1997.使用PLAPACK-并行线性代数包.麻省理工学院出版社.谷歌学者谷歌学者
  30. 亚尔汗·阿西姆.2012.共享和分布式内存体系结构上的动态任务执行.博士论文.谷歌学者谷歌学者

索引术语

  1. 基于任务的可伸缩矩阵乘积算法并行编程

            建议

            评论

            登录选项

            检查您是否可以通过登录凭据或您的机构访问本文。

            登录

            完全访问权限

            • 发布于

              数学软件上的封面图像ACM事务
              ACM数学软件汇刊 第49卷第2期
              2023年6月
              275页
              国际标准编号:0098-3500
              EISSN公司:1557-7295
              内政部:10.1145/3604595
              期刊目录

              如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].

              出版商

              计算机协会

              美国纽约州纽约市

              出版历史

              • 出版:2023年6月15日
              • 在线AM:2023年2月24日
              • 认可的:2022年12月5日
              • 修订过的:2022年9月20日
              • 收到:2022年3月9日
              发布于汤姆斯第49卷第2期

              权限

              请求有关此文章的权限。

              请求权限

              检查更新

              限定符

              • 研究论文
            • 文章度量标准

              • 下载次数(过去12个月)192
              • 下载次数(最近6周)4

              其他指标

            PDF格式

            以PDF文件查看或下载。

            PDF格式

            电子阅读器

            使用eReader联机查看。

            电子阅读器

            全文

            以全文形式查看本文。

            查看全文