跳到主要内容
10.1145/3458817.3476167acm会议文章/章节视图摘要出版物页面供应链会议记录会议集合
研究论文

关于线性代数核的并行I/O最优性:近最优矩阵分解

出版:2021年11月13日 出版历史
  • 获取引文提醒
  • 摘要

    矩阵分解是科学计算最重要的组成部分之一。然而,最先进的库并不是通信最佳的,没有充分利用当前的并行架构。我们提出了一种新的Cholesky和LU分解算法,该算法利用了渐近通信优化的2.5D分解。我们首先建立了一个理论框架,用于推导线性代数内核的并行I/O下限,然后利用其见解推导出Cholesky和LU调度,这两个调度都是每个处理器传递[EQUATION]元素,其中M是本地内存大小。实证结果与我们的理论分析相吻合:我们的实现与“英特尔MKL”、“SLATE”以及渐近通信优化的CANDMC和CAPITAL库相比,通信量大大减少。我们的代码在几乎所有测试场景中都优于这些最先进的库,Piz-Daint超级计算机的512个CPU节点上的矩阵大小从2048到524288不等,将解决时间缩短了三倍。我们的代码与ScaLAPACK兼容,可以作为开源库使用。

    补充材料

    MP4文件 (关于线性代数核的并行I_O最优性——近最优矩阵分解.mp4.mp4)
    演示视频

    工具书类

    [1]
    Alok Aggarwal和S Vitter,Jeffrey。1988年。排序的输入/输出复杂性和相关问题。Commun公司。ACM公司31, 9 (1988), 1116--1127.
    [2]
    埃曼纽尔·阿古洛、塞德里克·奥贡纳、杰克·多加拉、马修·法尔奇、朱利安·兰古、哈泰姆·勒泰夫和斯坦尼米尔·托莫夫。2011.加速器系统的LU因子分解。2011年第九届IEEE/ACS国际计算机系统和应用会议(AICCSA)IEEE,217--224。
    [3]
    埃曼纽尔·阿古洛、塞德里克·奥贡内、杰克·多加拉、哈泰姆·利泰夫、雷蒙德·纳米斯特、塞缪尔·蒂鲍特和斯坦尼米尔·托莫夫。2010年,更快、更便宜、更好——为GPU开发线性代数软件的杂交方法。GPU计算宝石温梅W.Hwu(编辑)。第2卷。摩根·考夫曼。https://hal.inia.fr/inia-00547847
    [4]
    Emmanuel Agullo、Jack Dongarra、Billel Hadri、Jakub Kurzak、Julie Langou、Julien Langou,Hatem Ltaief、Piotr Luszczek和Asim YarKhan。2011年,《等离子体用户指南》。多核结构的并行线性代数软件。田纳西大学创新计算实验室融洽技术(2011).
    [5]
    乔尔·阿尔文和弗拉基米尔·塞尔维连科。2015.高并行复杂度图形和内存函数。美国计算机学会第四十七届年度计算理论研讨会论文集。595--603.
    [6]
    爱德华·安德森(Edward Anderson)、白昭君(Zhaojun Bai)、克里斯蒂安·比肖夫(Christian Bischof)、苏珊·布莱克福德(Susan Blackford)、杰克·多加拉(Jack Dongarra)、杰里米·杜克罗斯(Jeremy Du Croz)、安妮·格林鲍姆(Anne。1999LAPACK用户指南。第9卷。暹罗。
    [7]
    格雷·巴拉德(Grey Ballard)、詹姆斯·德梅尔(James Demmel)、奥尔加·霍尔茨(Olga Holtz)和奥德·施瓦茨(Oded Schwartz)。2010年,通信优化并行和顺序Cholesky分解。SIAM科学计算杂志32, 6 (2010), 3495--3523.
    [8]
    格雷·巴拉德(Grey Ballard)、詹姆斯·德梅尔(James Demmel)、奥尔加·霍尔茨(Olga Holtz)和奥德·施瓦茨(Oded Schwartz)。2011.最小化数字线性代数中的通信。SIAM J.矩阵分析。应用。32, 3 (2011), 866--901.
    [9]
    穆罕默德·瓦利德·本阿卜杜拉赫曼(Mohamed-Walid Benabderrahmane)、路易斯·诺埃尔·普切特(Louis-Noöl Pouchet)、阿尔伯特·科恩(Albert Cohen)和塞德里克·巴斯托尔(Cédric Bastoul)。2010年,多面体模型的适用范围比你想象的更广。编译器构造国际会议。施普林格,283--303。
    [10]
    L.S.Blackford、J.Choi、A.Cleary、E.D'Azevedo、J.Demmel、I.Dhillon、J.Dongarra、S.Hammarling、G.Henry、A.Petitet、K.Stanley、D.Walker和R.C.Whaley。1997ScaLAPACK用户指南。宾夕法尼亚州费城工业和应用数学学会。
    [11]
    乌代·邦杜古拉(Uday Bondhugula)、穆图·巴斯卡兰(Muthu Baskaran)、斯里拉姆·克里希纳莫奥斯蒂(Sriram Krishnamoorthy)、J.拉马努贾姆(J.Ramanujam)、阿塔纳斯·鲁恩特夫(Atanas Rountev)。2008多面体模型中通信最小化并行化和局部优化的自动转换。施普林格-柏林-海德堡,柏林,海德堡。
    [12]
    G.Bosilca、A.Bouteiller、A.Danalis、M.Faverge、A.Haidar、T.Herault、J.Kurzak、J.Langou、P.Lemarinier、H.Ltaief、P.Luszczek、A.YarKhan和J.Dongarra。2011.使用DPLASMA在大规模并行架构上灵活开发密集线性代数算法。2011年IEEE并行和分布式处理研讨会国际研讨会和博士论坛。1432--1441.
    [13]
    约翰·布鲁诺和拉维·塞蒂。1976.单寄存器机器的代码生成。美国医学会杂志23, 3 (1976), 502--510.
    [14]
    J.Choi等人,1996年。ScaLAPACK:用于分布式内存计算机的便携式线性代数库——设计问题和性能。公司。物理学。通信。(1996).
    [15]
    迈克尔·克里斯特、詹姆斯·德梅尔、尼古拉斯·奈特、托马斯·斯坎隆和凯瑟琳·耶利克。2013.引用数组的程序的通信下限和优化算法第1部分。arXiv预打印arXiv:1308.0068(2013).
    [16]
    克雷。2020年。LibSci:克雷科学图书馆。(2020). https://olcf.ornl.gov/software_package/libsci/
    [17]
    阿兰·达特。1999.关于环路融合的复杂性。1999年并行体系结构和编译技术国际会议(目录号:PR00425)IEEE,149--157。
    [18]
    Mauro Del Ben等人,2015年。在DFT的第五级实现模拟:大规模RPA计算,解决时间极短。公司。物理学。通信。(2015).
    [19]
    毛罗·德尔·本(Mauro Del Ben)、朱尔·赫特(Jurg Hutter)和乔斯特·范德冯代尔(Joost VandeVondele)。2013年。基于高斯波和平面波方案的单位分解方法的凝聚相电子关联。化学理论与计算杂志9, 6 (2013), 2654--2671.
    [20]
    詹姆斯·德梅尔和格蕾丝·丁。2018年,通信优化卷积神经网络。arXiv预打印arXiv:1802.06905(2018).
    [21]
    詹姆斯·德梅尔和亚历克斯·鲁西亚诺。2016年,平行管获得HBL下限。arXiv预打印arXiv:1611.05944(2016).
    [22]
    Robert H Dennard、Fritz H Gaensslen、Hwa-Nien Yu、V Leo Rideout、Ernest Bassous和Andre R LeBlanc。1974年。设计物理尺寸非常小的离子注入MOSFET。IEEE固态电路杂志9, 5 (1974), 256--268.
    [23]
    格雷斯·丁和詹姆斯·德梅尔。2020年。通信——具有任意边界的投影嵌套回路的最佳平铺。arXiv预打印arXiv:2003.00119(2020).
    [24]
    杰克·东加拉(Jack Dongarra)、马蒂厄·法瑞奇(Mathieu Faverge)、哈泰姆·勒泰夫(Hatem Ltaief)和彼得·卢斯科(Piotr Luszczek)。2014.使用带部分旋转的递归tile LU分解实现数值精度和高性能。并行与计算:实践与经验26, 7 (2014), 1408--1431.
    [25]
    Jack Dongarra和Piotr Luszczek。2011排名前500。斯普林格美国,马萨诸塞州波士顿,2055-2057。
    [26]
    V.Elango等人,2013年。数据访问的复杂性:重新审视红/蓝卵石游戏。技术报告。
    [27]
    保罗·费尤特里尔(Paul Feautrier)。1992.仿射调度问题的一些有效解。一、一维时间。国际并行程序设计杂志21, 5 (1992), 313--347.
    [28]
    马克·盖茨(Mark Gates)、雅库布·库扎克(Jakub Kurzak)、阿里·查拉拉(Ali Charara)、阿西姆·亚尔汗(Asim YarKhan)和杰克·多加拉(Jack Dongarra)。2019.SLATE:现代分布式加速线性代数库的设计。高性能计算、网络、存储和分析国际会议论文集。1--18.
    [29]
    劳拉·格里戈里(Laura Grigori)、詹姆斯·德梅尔(James W Demmel)和华翔(Hua Xiang)。2008.避免高斯消去的通信。SC'08:2008 ACM/IEEE超级计算会议记录。IEEE,1-12。
    [30]
    阿扎姆·海达尔(Azzam Haidar)、斯坦尼米尔·托莫夫(Stanimire Tomov)、杰克·多加拉(Jack Dongarra)和尼古拉斯·J·海姆(Nicholas J Higham)。2018.利用GPU张量核实现快速FP16算法,以加快混合精度迭代精化求解器的速度。SC18:高性能计算、网络、存储和分析国际会议。IEEE标准,603-613。
    [31]
    T.Hoefler等人,2015年。MPI-3中的远程内存访问编程。TOPC公司(2015).
    [32]
    爱德华·赫特。[未注明日期]。通信-避免并行-增加maTrix功能库。([日期])。https://github.com/huttered40/capital
    [33]
    Edward Hutter和Edgar Solomonik。2019.通信-避免矩形矩阵的Cholesky-QR2。2019 IEEE国际并行和分布式处理研讨会(IPDPS)IEEE,89--100。
    [34]
    英特尔。2020年,数学内核库。(2020). https://software.intel.com/en-us/mkl
    [35]
    阿尔贝托·因弗尼齐(Alberto Invernizzi)、特奥多尔·尼科洛夫(Teodor Nikolov)、劳拉·奎尔西亚格罗萨(Lara Querciagrossa)和拉斐尔·索尔卡(Raffaele Solcá)。2021.带(HPX)期货的分布式线性代数(即将出版)。高级科学计算平台会议记录。
    [36]
    Dror Irony等人,2004年。分布式内存矩阵乘法的通信下限。JPDC公司(2004).
    [37]
    洪家伟和熊成功。1981.I/O复杂性:红蓝卵石游戏。斯托克。
    [38]
    Marko Kabić、Simon Pintarelli、Anton Kozhevnikov和Joost VandeVondele。2021.COSTA:通信-带进程重新标记的最佳洗牌和转置算法。高性能计算国际会议。施普林格,217-236。
    [39]
    理查德·卡普(Richard M Karp)。1988年。共享内存机器并行算法调查。(1988).
    [40]
    戈克肯·凯斯托尔、罗伯特·乔奥萨、达伦·克比森和阿道夫·霍西。2013.量化科学应用中数据移动的能源成本。2013年IEEE工作负载特性国际研讨会(IISWC)IEEE,56-65。
    [41]
    安德烈亚斯·克努普费尔(Andreas Knüpfer)、克里斯蒂安·罗塞尔(Christian Rössel)、迪特尔·安·梅伊(Dieter an Mey)、斯科特·比尔斯多夫(Scott Biersdorff)、凯·迪特尔姆(Kai Diethelm)、多米尼克·埃什韦勒(Dominic Eschweiler)、马克斯·盖默(Markus Geimer)、迈克尔·格恩特(Michael Gerndt)、丹尼尔·洛伦茨(Daniel Lorenz)、艾伦·马洛尼(Allen Malony)、沃尔夫冈·内格尔(Wolf。2012.Score-P:潜望镜、Scalasca、TAU和Vampir的联合性能度量运行时基础设施。2011年高性能计算工具霍尔格·布伦斯特(Holger Brunst)、马蒂亚斯·穆勒(Matthias S.Muller)、沃尔夫冈·内格尔(Wolfgang E.Nagel)和迈克尔·里施(Michael M.Resch)(编辑)。施普林格-柏林-海德堡,柏林,海德堡。
    [42]
    Aravindh Krishnamoorthy和Deepak Menon。2013.使用Cholesky分解进行矩阵反演。2013年信号处理:算法、架构、安排和应用(SPA)IEEE,70-72。
    [43]
    哈罗德·W·库恩和阿尔伯特·W·塔克。2014.非线性规划。非线性规划的痕迹和出现。施普林格,247-258。
    [44]
    托马斯·杜赫内(Thomas Dühne)、马塞拉·伊努齐(Marcella Iannuzzi)、毛罗·德尔·本(Mauro Del Ben)、弗拉基米尔·弗里布金(Vladimir V Rybkin)、帕特里克·西瓦尔德(Patrick Seewald)、弗雷德里克·斯坦因(Frederick Stein)、特奥多罗·莱诺(Teodro Laino)、鲁斯塔姆·Z·。CP2K:电子结构和分子动力学软件包Quickstep:高效准确的电子结构计算。化学物理杂志152, 19 (2020), 194103.
    [45]
    格列戈兹·克瓦希涅夫斯基(Grzegorz Kwasniewski)、马尔科·卡比奇(Marko Kabić)、马西耶·贝斯塔(Maciej Besta)、乔斯特·范德冯德勒(Joost VandeVondele)、拉斐尔·索尔卡(Raffaele Solcá)和托。2019.重新审视红蓝卵石:近似最优并行矩阵乘法。高性能计算、网络、存储和分析国际会议记录(SC19)。可在以下网址获取扩展技术报告:https://arxiv.org/abs/1908.09606。
    [46]
    刘全泉。2018年。红蓝和标准卵石游戏:顺序和并行模型中的复杂性和应用。
    [47]
    L.H.Loomis和H.Whitney。1949年,一个与等周不等式相关的不等式。牛。阿默尔。数学。Soc公司。55, 10 (10 1949), 961--962.
    [48]
    Sanyam Mehta、Pei Hung Lin和Pen Chung Yew。2014.在多面体框架中重新审视环路融合第19届ACM SIGPLAN并行编程原理与实践研讨会论文集。233--246.
    [49]
    卡尔·D·梅耶。2000矩阵分析和应用线性代数。暹罗。
    [50]
    英伟达。2020年CUSOLVER参考指南。(2020). https://docs.nvidia.com/cuda/cusolver网站
    [51]
    奥古斯特·奥利弗利(Auguste Olivry)、朱利安·兰古(Julien Langou)、路易斯·诺埃尔·普切特(Louis-Noöl Pouchet)、P Sadayappan和法布里斯·拉斯特罗(Fabrice Rastello)。2020年。仿射程序参数数据移动下限的自动推导。第41届ACM SIGPLAN编程语言设计与实现会议记录。808--822.
    [52]
    大川和贵、津津洋平、上野裕一郎、Naruse、Rio Yokota和松冈佐治。2019.使用kronecker因子近似曲率对深度卷积神经网络进行大规模分布式二阶优化。IEEE/CVF计算机视觉和模式识别会议论文集。12359--12367.
    [53]
    Jack Poulson、Bryan Marker、Robert A Van de Geijn、Jeff R Hammond和Nichols A Romero。2013.Elemental:分布式内存密集矩阵计算的新框架。ACM数学软件交易(TOMS)39, 2 (2013), 1--24.
    [54]
    格雷戈里奥·金塔纳·奥尔蒂、恩里克·斯金塔纳·奥尔蒂、罗伯特·范·德盖恩、菲尔德·G·范·泽和厄尼·陈。2009.线程级并行的逐块编程矩阵算法。ACM数学软件交易(TOMS)36, 3 (2009), 1--26.
    [55]
    罗尔夫·拉本塞夫纳(Rolf Rabenseifner)和杰斯佩·拉尔松(Jesper Larsson Träff)。2004.消息传递并行系统中两个处理器中无功耗的更有效简化算法。欧洲并行虚拟机/消息传递接口用户小组会议。施普林格,36-46岁。
    [56]
    拉维·塞蒂。1975.完全寄存器分配问题。SIAM计算机杂志4, 3 (1975), 226--248.
    [57]
    埃德加·索洛莫尼克。2014数值张量代数的有效算法。博士论文。加州大学伯克利分校。
    [58]
    埃德加·索洛莫尼克。2021.避免数字密集矩阵计算的通信。(2021). https://github.com/solomonik/CANDMC
    [59]
    Edgar Solomonik等人,2016年。并行线性代数计算中同步、通信和计算之间的权衡。顶部c(2016).
    [60]
    E.Solomonik等人,2017年。使用通信高效稀疏矩阵乘法缩放中心度。SC.公司。
    [61]
    埃德加·所罗门尼克和詹姆斯·德梅尔。2011.通信-最佳并行2.5D矩阵乘法和LU分解算法。2011年Euro-Par并行处理、Emmanuel Jeannot、Raymond Namyst和Jean Roman(编辑)。计算机科学讲义,第6853卷。施普林格-柏林-海德堡,90-109。
    [62]
    TOP500榜单。2020年,2019年11月,TOP500榜单。https://www.top500.org/lists/2019/11/(2020年4月)。(2020).
    [63]
    D.Unat、A.Dubey、T.Hoefler、J.Shalf、M.Abraham、M.Bianco、B.L.Chamberlain、R.Cledat、H.C.Edwards、H.Finkel、K.Fuerlinger、F.Hannig、E.Jeannot、A.Kamil、J.Keasler、P.H.J.Kelly、V.Leung、H.Ltaief、N.Maruyama、C.J.Newburn和M.Pericás。2017年,HPC系统数据位置提取趋势。IEEE并行和分布式系统汇刊28, 10 (2017), 3007--3020.
    [64]
    杰弗里·斯科特·维特。1998年。外部存储器算法。欧洲算法研讨会。施普林格,1-25。
    [65]
    郑庆庆(Qinqing Zheng)和约翰·D·拉弗蒂(John D.Lafferty)。2016.使用Burr-Monteiro因子分解和梯度下降的矩形矩阵完成的收敛性分析。CoRR公司(2016).
    [66]
    亚历山德罗斯·尼古拉·齐奥加斯、塔尔·本·努恩、吉列尔莫·因达莱西奥·费尔南德斯、蒂莫·施奈德、马修·路易斯尔和托尔斯滕·霍夫勒。2019.以数据为中心的极端尺度从头算耗散量子输运模拟方法。高性能计算、网络、存储和分析国际会议论文集。1--13.

    引用人

    查看全部
    • (2023)在LU分解中使用加法修改代替旋转第37届超级计算国际会议记录10.1145/3577193.3593731(14-24)在线发布日期:2023年6月21日
    • (2023)SYRK的并行存储器无关通信边界第35届ACM算法和体系结构并行性研讨会论文集10.1145/3558481.3591072(391-401)在线发布日期:2023年6月17日
    • (2022)对称块循环分布高性能计算、网络、存储和分析国际会议记录10.5555/3571885.3571923(1-15)在线发布日期:2022年11月13日
    • 显示更多引用者

    建议

    评论

    信息和贡献者

    问询处

    发布于

    封面图片ACM会议
    SC’21:高性能计算、网络、存储和分析国际会议记录
    2021年11月
    1493页
    十亿英镑:9781450384421
    内政部:10.1145/3458817
    如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

    赞助商

    合作中

    • IEEE CS标准

    出版商

    计算机协会

    美国纽约州纽约市

    出版历史

    出版:2021年11月13日

    权限

    请求对此文章的权限。

    检查更新

    徽章

    作者标记

    1. 通信复杂性
    2. 分布式线性代数算法
    3. 矩阵分解

    限定符

    • 研究文章

    资金来源

    会议

    21号南卡罗来纳州
    主办单位:
    SC’21:高性能计算、网络、存储和分析国际会议
    2021年11月14日至19日
    密苏里州圣路易斯

    接受率

    6373份提交文件的总体接受率为1516份,24%

    贡献者

    其他指标

    文献计量学和引文

    文献计量学

    文章指标

    • 下载次数(过去12个月)92
    • 下载次数(最近6周)8

    其他指标

    引文

    引用人

    查看全部
    • (2023)在LU分解中使用加法修改而不是数据透视第37届超级计算国际会议记录10.1145/3577193.3593731(14-24)在线发布日期:2023年6月21日
    • (2023)SYRK的并行存储器无关通信边界第35届ACM算法和体系结构并行性研讨会论文集10.1145/3558481.3591072(391-401)在线发布日期:2023年6月17日
    • (2022)对称块循环分布高性能计算、网络、存储和分析国际会议记录10.5555/3571885.3571923(1-15)在线发布日期:2022年11月13日
    • (2022)HammingMesh公司高性能计算、网络、存储和分析国际会议记录10.5555/3571885.3571899(1-18)在线发布日期:2022年11月13日
    • (2022)对称线性代数核的I/O优化算法第34届ACM算法和体系结构并行性研讨会论文集10.1145/3490148.3538587(423-433)在线发布日期:2022年7月11日
    • (2022)稠密LU分解的阈值旋转2022年IEEE/ACM大型异构系统可扩展算法最新进展研讨会(ScalAH)10.1109/天平AH56622.2022.00010(34-42)在线发布日期:2022年11月
    • (2022)对称的块循环分布:更少的通信导致更快的密集Cholesky分解SC22:高性能计算、网络、存储和分析国际会议10.1109/SC41404.2022.00034号(1-15)在线发布日期:2022年11月
    • (2022)Deinsom:实用I/O最优多线性代数SC22:高性能计算、网络、存储和分析国际会议10.1109/SC41404.2022.00030号(1-15)在线发布日期:2022年11月
    • (2022)HammingMesh:一种用于大规模深度学习的网络拓扑SC22:高性能计算、网络、存储和分析国际会议10.1109/SC41404.2022.00016(1-18)在线发布日期:2022年11月
    • (2022)I/O最优缓存遗忘稀疏矩阵稀疏矩阵乘法2022 IEEE国际并行和分布式处理研讨会(IPDPS)10.1109/IPDPS53621.2022.00013(36-46)在线发布日期:2022年5月

    视图选项

    获取访问权限

    登录选项

    完全访问权限

    视图选项

    PDF格式

    以PDF文件的形式查看或下载。

    PDF格式

    电子阅读器

    使用联机查看电子阅读器.

    电子阅读器

    媒体

    数字

    其他

    桌子

    分享

    分享

    共享此出版物链接

    在社交媒体上分享