研究论文

关于线性代数核的并行I/O最优性：近最优矩阵分解

作者:

格热戈日克瓦希涅夫斯基,

马尔科卡比奇,

塔尔 Ben-Nun公司,

亚历山大·尼古拉斯齐奥加斯,

延斯·埃里克 Saethre公司,

安德烈盖拉德,

蒂莫施耐德,

马西耶贝斯塔,

安东科热夫尼科夫,

乔斯特范德冯代尔、和

托尔斯滕赫夫勒作者信息和声明

SC’21：高性能计算、网络、存储和分析国际会议记录

2021年11月

文章编号：70，页数1-15

https://doi.org/10.1145/3458817.3476167

出版:2021年11月13日出版历史

获取访问权限

摘要

矩阵分解是科学计算最重要的组成部分之一。然而，最先进的库并不是通信最佳的，没有充分利用当前的并行架构。我们提出了一种新的Cholesky和LU分解算法，该算法利用了渐近通信优化的2.5D分解。我们首先建立了一个理论框架，用于推导线性代数内核的并行I/O下限，然后利用其见解推导出Cholesky和LU调度，这两个调度都是每个处理器传递[EQUATION]元素，其中M是本地内存大小。实证结果与我们的理论分析相吻合：我们的实现与“英特尔MKL”、“SLATE”以及渐近通信优化的CANDMC和CAPITAL库相比，通信量大大减少。我们的代码在几乎所有测试场景中都优于这些最先进的库，Piz-Daint超级计算机的512个CPU节点上的矩阵大小从2048到524288不等，将解决时间缩短了三倍。我们的代码与ScaLAPACK兼容，可以作为开源库使用。

补充材料

MP4文件（关于线性代数核的并行I_O最优性——近最优矩阵分解.mp4.mp4）

演示视频

下载
246.42 MB

工具书类

[1]

Alok Aggarwal和S Vitter，Jeffrey。1988年。排序的输入/输出复杂性和相关问题。Commun公司。ACM公司31, 9 (1988), 1116--1127.

数字图书馆

[2]

埃曼纽尔·阿古洛、塞德里克·奥贡纳、杰克·多加拉、马修·法尔奇、朱利安·兰古、哈泰姆·勒泰夫和斯坦尼米尔·托莫夫。2011.加速器系统的LU因子分解。在2011年第九届IEEE/ACS国际计算机系统和应用会议（AICCSA）IEEE，217--224。

数字图书馆

[3]

埃曼纽尔·阿古洛、塞德里克·奥贡内、杰克·多加拉、哈泰姆·利泰夫、雷蒙德·纳米斯特、塞缪尔·蒂鲍特和斯坦尼米尔·托莫夫。2010年，更快、更便宜、更好——为GPU开发线性代数软件的杂交方法。在GPU计算宝石温梅W.Hwu（编辑）。第2卷。摩根·考夫曼。https://hal.inia.fr/inia-00547847

[4]

Emmanuel Agullo、Jack Dongarra、Billel Hadri、Jakub Kurzak、Julie Langou、Julien Langou，Hatem Ltaief、Piotr Luszczek和Asim YarKhan。2011年，《等离子体用户指南》。多核结构的并行线性代数软件。田纳西大学创新计算实验室融洽技术(2011).

[5]

乔尔·阿尔文和弗拉基米尔·塞尔维连科。2015.高并行复杂度图形和内存函数。在美国计算机学会第四十七届年度计算理论研讨会论文集。595--603.

数字图书馆

[6]

爱德华·安德森（Edward Anderson）、白昭君（Zhaojun Bai）、克里斯蒂安·比肖夫（Christian Bischof）、苏珊·布莱克福德（Susan Blackford）、杰克·多加拉（Jack Dongarra）、杰里米·杜克罗斯（Jeremy Du Croz）、安妮·格林鲍姆（Anne。1999LAPACK用户指南。第9卷。暹罗。

[7]

格雷·巴拉德（Grey Ballard）、詹姆斯·德梅尔（James Demmel）、奥尔加·霍尔茨（Olga Holtz）和奥德·施瓦茨（Oded Schwartz）。2010年，通信优化并行和顺序Cholesky分解。SIAM科学计算杂志32, 6 (2010), 3495--3523.

数字图书馆

[8]

格雷·巴拉德（Grey Ballard）、詹姆斯·德梅尔（James Demmel）、奥尔加·霍尔茨（Olga Holtz）和奥德·施瓦茨（Oded Schwartz）。2011.最小化数字线性代数中的通信。SIAM J.矩阵分析。应用。32, 3 (2011), 866--901.

[9]

穆罕默德·瓦利德·本阿卜杜拉赫曼（Mohamed-Walid Benabderrahmane）、路易斯·诺埃尔·普切特（Louis-Noöl Pouchet）、阿尔伯特·科恩（Albert Cohen）和塞德里克·巴斯托尔（Cédric Bastoul）。2010年，多面体模型的适用范围比你想象的更广。在编译器构造国际会议。施普林格，283--303。

数字图书馆

[10]

L.S.Blackford、J.Choi、A.Cleary、E.D'Azevedo、J.Demmel、I.Dhillon、J.Dongarra、S.Hammarling、G.Henry、A.Petitet、K.Stanley、D.Walker和R.C.Whaley。1997ScaLAPACK用户指南。宾夕法尼亚州费城工业和应用数学学会。

[11]

乌代·邦杜古拉（Uday Bondhugula）、穆图·巴斯卡兰（Muthu Baskaran）、斯里拉姆·克里希纳莫奥斯蒂（Sriram Krishnamoorthy）、J.拉马努贾姆（J.Ramanujam）、阿塔纳斯·鲁恩特夫（Atanas Rountev）。2008多面体模型中通信最小化并行化和局部优化的自动转换。施普林格-柏林-海德堡，柏林，海德堡。

[12]

G.Bosilca、A.Bouteiller、A.Danalis、M.Faverge、A.Haidar、T.Herault、J.Kurzak、J.Langou、P.Lemarinier、H.Ltaief、P.Luszczek、A.YarKhan和J.Dongarra。2011.使用DPLASMA在大规模并行架构上灵活开发密集线性代数算法。在2011年IEEE并行和分布式处理研讨会国际研讨会和博士论坛。1432--1441.

[13]

约翰·布鲁诺和拉维·塞蒂。1976.单寄存器机器的代码生成。美国医学会杂志23, 3 (1976), 502--510.

数字图书馆

[14]

J.Choi等人，1996年。ScaLAPACK：用于分布式内存计算机的便携式线性代数库——设计问题和性能。公司。物理学。通信。(1996).

[15]

迈克尔·克里斯特、詹姆斯·德梅尔、尼古拉斯·奈特、托马斯·斯坎隆和凯瑟琳·耶利克。2013.引用数组的程序的通信下限和优化算法第1部分。arXiv预打印arXiv:1308.0068(2013).

[16]

克雷。2020年。LibSci：克雷科学图书馆。(2020). https://olcf.ornl.gov/software_package/libsci/

[17]

阿兰·达特。1999.关于环路融合的复杂性。在1999年并行体系结构和编译技术国际会议（目录号：PR00425）IEEE，149--157。

[18]

Mauro Del Ben等人，2015年。在DFT的第五级实现模拟：大规模RPA计算，解决时间极短。公司。物理学。通信。(2015).

[19]

毛罗·德尔·本（Mauro Del Ben）、朱尔·赫特（Jurg Hutter）和乔斯特·范德冯代尔（Joost VandeVondele）。2013年。基于高斯波和平面波方案的单位分解方法的凝聚相电子关联。化学理论与计算杂志9, 6 (2013), 2654--2671.

[20]

詹姆斯·德梅尔和格蕾丝·丁。2018年，通信优化卷积神经网络。arXiv预打印arXiv:1802.06905(2018).

[21]

詹姆斯·德梅尔和亚历克斯·鲁西亚诺。2016年，平行管获得HBL下限。arXiv预打印arXiv:1611.05944(2016).

[22]

Robert H Dennard、Fritz H Gaensslen、Hwa-Nien Yu、V Leo Rideout、Ernest Bassous和Andre R LeBlanc。1974年。设计物理尺寸非常小的离子注入MOSFET。IEEE固态电路杂志9, 5 (1974), 256--268.

[23]

格雷斯·丁和詹姆斯·德梅尔。2020年。通信——具有任意边界的投影嵌套回路的最佳平铺。arXiv预打印arXiv:2003.00119(2020).

[24]

杰克·东加拉（Jack Dongarra）、马蒂厄·法瑞奇（Mathieu Faverge）、哈泰姆·勒泰夫（Hatem Ltaief）和彼得·卢斯科（Piotr Luszczek）。2014.使用带部分旋转的递归tile LU分解实现数值精度和高性能。并行与计算：实践与经验26, 7 (2014), 1408--1431.

数字图书馆

[25]

Jack Dongarra和Piotr Luszczek。2011排名前500。斯普林格美国，马萨诸塞州波士顿，2055-2057。

[26]

V.Elango等人，2013年。数据访问的复杂性：重新审视红/蓝卵石游戏。技术报告。

[27]

保罗·费尤特里尔（Paul Feautrier）。1992.仿射调度问题的一些有效解。一、一维时间。国际并行程序设计杂志21, 5 (1992), 313--347.

数字图书馆

[28]

马克·盖茨（Mark Gates）、雅库布·库扎克（Jakub Kurzak）、阿里·查拉拉（Ali Charara）、阿西姆·亚尔汗（Asim YarKhan）和杰克·多加拉（Jack Dongarra）。2019.SLATE：现代分布式加速线性代数库的设计。在高性能计算、网络、存储和分析国际会议论文集。1--18.

数字图书馆

[29]

劳拉·格里戈里（Laura Grigori）、詹姆斯·德梅尔（James W Demmel）和华翔（Hua Xiang）。2008.避免高斯消去的通信。在SC'08：2008 ACM/IEEE超级计算会议记录。IEEE，1-12。

数字图书馆

[30]

阿扎姆·海达尔（Azzam Haidar）、斯坦尼米尔·托莫夫（Stanimire Tomov）、杰克·多加拉（Jack Dongarra）和尼古拉斯·J·海姆（Nicholas J Higham）。2018.利用GPU张量核实现快速FP16算法，以加快混合精度迭代精化求解器的速度。在SC18：高性能计算、网络、存储和分析国际会议。IEEE标准，603-613。

数字图书馆

[31]

T.Hoefler等人，2015年。MPI-3中的远程内存访问编程。TOPC公司(2015).

[32]

爱德华·赫特。[未注明日期]。通信-避免并行-增加maTrix功能库。（[日期]）。https://github.com/huttered40/capital

[33]

Edward Hutter和Edgar Solomonik。2019.通信-避免矩形矩阵的Cholesky-QR2。在2019 IEEE国际并行和分布式处理研讨会（IPDPS）IEEE，89--100。

[34]

英特尔。2020年，数学内核库。(2020). https://software.intel.com/en-us/mkl

[35]

阿尔贝托·因弗尼齐（Alberto Invernizzi）、特奥多尔·尼科洛夫（Teodor Nikolov）、劳拉·奎尔西亚格罗萨（Lara Querciagrossa）和拉斐尔·索尔卡（Raffaele Solcá）。2021.带（HPX）期货的分布式线性代数（即将出版）。在高级科学计算平台会议记录。

[36]

Dror Irony等人，2004年。分布式内存矩阵乘法的通信下限。JPDC公司(2004).

[37]

洪家伟和熊成功。1981.I/O复杂性：红蓝卵石游戏。在斯托克。

[38]

Marko Kabić、Simon Pintarelli、Anton Kozhevnikov和Joost VandeVondele。2021.COSTA:通信-带进程重新标记的最佳洗牌和转置算法。在高性能计算国际会议。施普林格，217-236。

[39]

理查德·卡普（Richard M Karp）。1988年。共享内存机器并行算法调查。(1988).

[40]

戈克肯·凯斯托尔、罗伯特·乔奥萨、达伦·克比森和阿道夫·霍西。2013.量化科学应用中数据移动的能源成本。在2013年IEEE工作负载特性国际研讨会（IISWC）IEEE，56-65。

[41]

安德烈亚斯·克努普费尔（Andreas Knüpfer）、克里斯蒂安·罗塞尔（Christian Rössel）、迪特尔·安·梅伊（Dieter an Mey）、斯科特·比尔斯多夫（Scott Biersdorff）、凯·迪特尔姆（Kai Diethelm）、多米尼克·埃什韦勒（Dominic Eschweiler）、马克斯·盖默（Markus Geimer）、迈克尔·格恩特（Michael Gerndt）、丹尼尔·洛伦茨（Daniel Lorenz）、艾伦·马洛尼（Allen Malony）、沃尔夫冈·内格尔（Wolf。2012.Score-P：潜望镜、Scalasca、TAU和Vampir的联合性能度量运行时基础设施。在2011年高性能计算工具霍尔格·布伦斯特（Holger Brunst）、马蒂亚斯·穆勒（Matthias S.Muller）、沃尔夫冈·内格尔（Wolfgang E.Nagel）和迈克尔·里施（Michael M.Resch）（编辑）。施普林格-柏林-海德堡，柏林，海德堡。

[42]

Aravindh Krishnamoorthy和Deepak Menon。2013.使用Cholesky分解进行矩阵反演。在2013年信号处理：算法、架构、安排和应用（SPA）IEEE，70-72。

[43]

哈罗德·W·库恩和阿尔伯特·W·塔克。2014.非线性规划。在非线性规划的痕迹和出现。施普林格，247-258。

[44]

托马斯·杜赫内（Thomas Dühne）、马塞拉·伊努齐（Marcella Iannuzzi）、毛罗·德尔·本（Mauro Del Ben）、弗拉基米尔·弗里布金（Vladimir V Rybkin）、帕特里克·西瓦尔德（Patrick Seewald）、弗雷德里克·斯坦因（Frederick Stein）、特奥多罗·莱诺（Teodro Laino）、鲁斯塔姆·Z·。CP2K：电子结构和分子动力学软件包Quickstep：高效准确的电子结构计算。化学物理杂志152, 19 (2020), 194103.

[45]

格列戈兹·克瓦希涅夫斯基（Grzegorz Kwasniewski）、马尔科·卡比奇（Marko Kabić）、马西耶·贝斯塔（Maciej Besta）、乔斯特·范德冯德勒（Joost VandeVondele）、拉斐尔·索尔卡（Raffaele Solcá）和托。2019.重新审视红蓝卵石：近似最优并行矩阵乘法。在高性能计算、网络、存储和分析国际会议记录（SC19）。可在以下网址获取扩展技术报告：https://arxiv.org/abs/1908.09606。

数字图书馆

[46]

刘全泉。2018年。红蓝和标准卵石游戏：顺序和并行模型中的复杂性和应用。

[47]

L.H.Loomis和H.Whitney。1949年，一个与等周不等式相关的不等式。牛。阿默尔。数学。Soc公司。55, 10 (10 1949), 961--962.

[48]

Sanyam Mehta、Pei Hung Lin和Pen Chung Yew。2014.在多面体框架中重新审视环路融合第19届ACM SIGPLAN并行编程原理与实践研讨会论文集。233--246.

数字图书馆

[49]

卡尔·D·梅耶。2000矩阵分析和应用线性代数。暹罗。

[50]

英伟达。2020年CUSOLVER参考指南。(2020). https://docs.nvidia.com/cuda/cusolver网站

[51]

奥古斯特·奥利弗利（Auguste Olivry）、朱利安·兰古（Julien Langou）、路易斯·诺埃尔·普切特（Louis-Noöl Pouchet）、P Sadayappan和法布里斯·拉斯特罗（Fabrice Rastello）。2020年。仿射程序参数数据移动下限的自动推导。在第41届ACM SIGPLAN编程语言设计与实现会议记录。808--822.

数字图书馆

[52]

大川和贵、津津洋平、上野裕一郎、Naruse、Rio Yokota和松冈佐治。2019.使用kronecker因子近似曲率对深度卷积神经网络进行大规模分布式二阶优化。在IEEE/CVF计算机视觉和模式识别会议论文集。12359--12367.

[53]

Jack Poulson、Bryan Marker、Robert A Van de Geijn、Jeff R Hammond和Nichols A Romero。2013.Elemental：分布式内存密集矩阵计算的新框架。ACM数学软件交易（TOMS）39, 2 (2013), 1--24.

数字图书馆

[54]

格雷戈里奥·金塔纳·奥尔蒂、恩里克·斯金塔纳·奥尔蒂、罗伯特·范·德盖恩、菲尔德·G·范·泽和厄尼·陈。2009.线程级并行的逐块编程矩阵算法。ACM数学软件交易（TOMS）36, 3 (2009), 1--26.

数字图书馆

[55]

罗尔夫·拉本塞夫纳（Rolf Rabenseifner）和杰斯佩·拉尔松（Jesper Larsson Träff）。2004.消息传递并行系统中两个处理器中无功耗的更有效简化算法。在欧洲并行虚拟机/消息传递接口用户小组会议。施普林格，36-46岁。

[56]

拉维·塞蒂。1975.完全寄存器分配问题。SIAM计算机杂志4, 3 (1975), 226--248.

数字图书馆

[57]

埃德加·索洛莫尼克。2014数值张量代数的有效算法。博士论文。加州大学伯克利分校。

[58]

埃德加·索洛莫尼克。2021.避免数字密集矩阵计算的通信。(2021). https://github.com/solomonik/CANDMC

[59]

Edgar Solomonik等人，2016年。并行线性代数计算中同步、通信和计算之间的权衡。顶部c(2016).

[60]

E.Solomonik等人，2017年。使用通信高效稀疏矩阵乘法缩放中心度。在SC.公司。

[61]

埃德加·所罗门尼克和詹姆斯·德梅尔。2011.通信-最佳并行2.5D矩阵乘法和LU分解算法。在2011年Euro-Par并行处理、Emmanuel Jeannot、Raymond Namyst和Jean Roman（编辑）。计算机科学讲义，第6853卷。施普林格-柏林-海德堡，90-109。

[62]

TOP500榜单。2020年，2019年11月，TOP500榜单。https://www.top500.org/lists/2019/11/（2020年4月）。(2020).

[63]

D.Unat、A.Dubey、T.Hoefler、J.Shalf、M.Abraham、M.Bianco、B.L.Chamberlain、R.Cledat、H.C.Edwards、H.Finkel、K.Fuerlinger、F.Hannig、E.Jeannot、A.Kamil、J.Keasler、P.H.J.Kelly、V.Leung、H.Ltaief、N.Maruyama、C.J.Newburn和M.Pericás。2017年，HPC系统数据位置提取趋势。IEEE并行和分布式系统汇刊28, 10 (2017), 3007--3020.

数字图书馆

[64]

杰弗里·斯科特·维特。1998年。外部存储器算法。在欧洲算法研讨会。施普林格，1-25。

数字图书馆

[65]

郑庆庆（Qinqing Zheng）和约翰·D·拉弗蒂（John D.Lafferty）。2016.使用Burr-Monteiro因子分解和梯度下降的矩形矩阵完成的收敛性分析。CoRR公司(2016).

[66]

亚历山德罗斯·尼古拉·齐奥加斯、塔尔·本·努恩、吉列尔莫·因达莱西奥·费尔南德斯、蒂莫·施奈德、马修·路易斯尔和托尔斯滕·霍夫勒。2019.以数据为中心的极端尺度从头算耗散量子输运模拟方法。在高性能计算、网络、存储和分析国际会议论文集。1--13.

数字图书馆

引用人

林德奎斯特NLuszczek P公司东加拉J盖利凡·K尼科洛普洛斯D贝维德R加洛普洛斯E(2023)在LU分解中使用加法修改代替旋转第37届超级计算国际会议记录10.1145/3577193.3593731(14-24)在线发布日期：2023年6月21日
https://dl.acm.org/doi/10.1145/3577193.3593731网址
Al Daas H公司巴拉德G格里戈里L库马尔S劳斯K阿格拉瓦尔K顺J(2023)SYRK的并行存储器无关通信边界第35届ACM算法和体系结构并行性研讨会论文集10.1145/3558481.3591072(391-401)在线发布日期：2023年6月17日
https://dl.acm.org/doi/10.1145/3558481.3591072
博蒙特O杜雄PEyraud-Dubois L公司Langou J公司VéritéM沃尔夫F申德SCulhane C公司阿拉姆S贾戈德H(2022)对称块循环分布高性能计算、网络、存储和分析国际会议记录10.5555/3571885.3571923(1-15)在线发布日期：2022年11月13日
https://dl.acm.org/doi/10.5555/3571885.3571923
显示更多引用者

索引术语

线性代数核的并行I/O最优性：近最优矩阵分解

建议

字长素数域上的稠密线性代数：FFLAS和FFPACK包

在过去的二十年中，人们做出了一些重大努力，将精确（例如整数、有理、多项式）线性代数问题简化为矩阵乘法，以提供具有最佳渐近复杂性的算法。为了提供高效。。。
阅读更多信息
数值线性代数研究
阅读更多信息
在多核处理器上调度密集线性代数操作

最先进的密集线性代数软件，如LAPACK和ScaLAPACK库，由于无法充分利用线程级并行性，因此在多核处理器上性能下降。与此同时，粗粒度数据流。。。
阅读更多信息

评论

信息和贡献者

问询处

发布于

封面图片ACM会议

SC’21：高性能计算、网络、存储和分析国际会议记录

2021年11月

1493页

十亿英镑：9781450384421

内政部：10.1145/3458817

总主席：
布朗尼斯·德苏宾斯基,
课程主席：
玛丽·霍尔,
托德·甘布林

版权所有©2021 ACM。

如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

赞助商

SIGHPC:ACM高性能计算特别兴趣小组、高性能计算特殊兴趣小组

合作中

IEEE CS标准

出版商

计算机协会

美国纽约州纽约市

出版历史

出版：2021年11月13日

权限

请求对此文章的权限。

检查更新

徽章

作者标记

限定符

研究文章

资金来源

地平线2020框架计划
瑞士国家科学基金会
高级科学计算平台

会议

21号南卡罗来纳州

主办单位：

SIGHPC公司

SC’21：高性能计算、网络、存储和分析国际会议

2021年11月14日至19日

密苏里州圣路易斯

接受率

6373份提交文件的总体接受率为1516份，24%

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

10
引文总数
查看引文
482
总下载次数

下载次数（过去12个月）92
下载次数（最近6周）8

其他指标

查看作者指标

引文

引用人

林德奎斯特NLuszczek P公司东加拉J盖利凡·K尼科洛普洛斯D贝维德R加洛普洛斯E(2023)在LU分解中使用加法修改而不是数据透视第37届超级计算国际会议记录10.1145/3577193.3593731(14-24)在线发布日期：2023年6月21日
https://dl.acm.org/doi/10.1145/3577193.3593731
Al Daas H公司巴拉德G格里戈里L库马尔S劳斯K阿格拉瓦尔K顺J(2023)SYRK的并行存储器无关通信边界第35届ACM算法和体系结构并行性研讨会论文集10.1145/3558481.3591072(391-401)在线发布日期：2023年6月17日
https://dl.acm.org/doi/10.1145/3558481.3591072
博蒙特ODuchon P公司Eyraud-Dubois L公司Langou J公司VéritéM沃尔夫F申德SCulhane C公司阿拉姆S贾戈德H(2022)对称块循环分布高性能计算、网络、存储和分析国际会议记录10.5555/3571885.3571923(1-15)在线发布日期：2022年11月13日
https://dl.acm.org/doi/10.5555/3571885.3571923
霍夫勒T博纳托T德森西DDi Girolamo S公司李斯（Li S）海迪斯·M贝尔克J戈尔·D卡斯特罗M斯科特·S沃尔夫F申德SCulhane C公司阿拉姆S贾戈德H(2022)HammingMesh公司高性能计算、网络、存储和分析国际会议记录10.5555/3571885.3571899(1-18)在线发布日期：2022年11月13日
https://dl.acm.org/doi/10.5555/3571885.3571899
博蒙特OEyraud-Dubois L公司Langou J公司VéritéM阿格拉瓦尔K李一世(2022)对称线性代数核的I/O优化算法第34届ACM算法和体系结构并行性研讨会论文集10.1145/3490148.3538587(423-433)在线发布日期：2022年7月11日
https://dl.acm.org/doi/10.1145/3490148.3538587
林德奎斯特N大门MLuszczek P公司东加拉J(2022)稠密LU分解的阈值旋转2022年IEEE/ACM大型异构系统可扩展算法最新进展研讨会（ScalAH）10.1109/天平AH56622.2022.00010(34-42)在线发布日期：2022年11月
https://doi.org/10.1109/ScalAH56622.2022.00010
博蒙特ODuchon P公司埃劳德·杜波依斯LLangou J公司VéritéM(2022)对称的块循环分布：更少的通信导致更快的密集Cholesky分解SC22：高性能计算、网络、存储和分析国际会议10.1109/SC41404.2022.00034号(1-15)在线发布日期：2022年11月
https://doi.org/10.109/SC41404.2022.00034
齐奥加斯A克瓦希涅夫斯基GBen-Nun T公司施耐德T霍夫勒T(2022)Deinsom：实用I/O最优多线性代数SC22：高性能计算、网络、存储和分析国际会议10.1109/SC41404.2022.00030号(1-15)在线发布日期：2022年11月
https://doi.org/10.109/SC41404.2022.00030
霍夫勒T博纳托TDe Sensi D公司Di Girolamo S公司李斯（Li S）海迪斯·M贝尔克J戈尔·D卡斯特罗M斯科特·S(2022)HammingMesh：一种用于大规模深度学习的网络拓扑SC22：高性能计算、网络、存储和分析国际会议10.1109/SC41404.2022.00016(1-18)在线发布日期：2022年11月
https://doi.org/10.109/SC41404.2022.00016
格列尼格N贝斯塔M霍夫勒T(2022)I/O最优缓存遗忘稀疏矩阵稀疏矩阵乘法2022 IEEE国际并行和分布式处理研讨会（IPDPS）10.1109/IPDPS53621.2022.00013(36-46)在线发布日期：2022年5月
https://doi.org/10.109/IPDPS53621.2022.00013

视图选项

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

视图选项

PDF格式

以PDF文件的形式查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

媒体

数字

其他

桌子