×

对称张量压缩双线性算法的通信下界。 (英语) Zbl 1487.65051号

摘要:我们介绍了一个新的理论框架,用于推导双线性算法中数据移动的下限。双线性算法是双线性函数快速算法的一般表示,包括矩阵乘法、卷积和对称张量收缩的计算。双线性算法由三个矩阵描述。我们的通信下界是基于量化这些矩阵的列的匹配子集的最小矩阵秩。该基础设施为对称张量收缩算法提供了新的下限,从而提供了新定性见解。张量对称性(模式排列下的不变性)在张量计算的许多应用中是常见的(例如,超图的张量表示、数据中高阶矩的分析,以及计算化学中电子相互作用的张量建模)。张量对称可以通过与等效排列数量成比例的因子来减少表示大小和收缩成本。然而,我们推导出的下限表明,这些成本和内存的减少可能导致数据移动量的增加,增加的因素会随着张量的大小而变化。

MSC公司:

65层99 数值线性代数
15A69号 多线性代数,张量演算
2005年5月 并行数值计算
65年第68季度 算法和问题复杂性分析

软件:

BLAS公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] A.Aggarwal、A.K.Chandra和M.Snir,《关于PRAM计算中的通信延迟》,载于《第一届ACM并行算法和架构研讨会论文集》,ACM,1989年,第11-21页。
[2] A.Alexandrov、M.F.Ionescu、K.E.Schauser和C.Scheiman,《LogGP:将长消息合并到LogP模型中,朝着并行计算的现实模型迈进了一步》,载于《第七届ACM并行算法和架构研讨会论文集》(SPAA’95),加利福尼亚州圣巴巴拉,1995年,ACM,第95-105页。
[3] G.Ballard、J.Demmel、O.Holtz和O.Schwartz,《数字线性代数中的通信最小化》,SIAM J.矩阵分析。申请。,32(2011),第866-901页,https://doi.org/10.1137/090769156。 ·Zbl 1246.68128号
[4] G.Ballard、J.Demmel、O.Holtz和O.Schwartz,快速矩阵乘法的图形扩展和通信成本,J.ACM,59(2013),32·Zbl 1281.68241号
[5] G.Ballard、N.Knight和K.Rouse,矩阵化张量乘以Khatri-Rao乘积的通信下限,载于2018年IEEE国际并行与分布式处理研讨会(IPDPS)会议记录,IEEE,2018年,第557-567页。
[6] R.J.Bartlett,分子中电子关联的多体微扰理论和耦合团簇理论,32(1981),第359-401页。
[7] J.Bennett、A.Carbery、M.Christ和T.Tao,《Brascamp-Lieb不等式:有限性、结构和极值》,Geom。功能。分析。,17(2008),第1343-1415页·Zbl 1132.26006号
[8] G.Bilardi和L.De Stefani,Strassen矩阵乘法与重新计算的I/O复杂性,预印本,https://arxiv.org/abs/1605.02224, 2016. ·Zbl 1491.68274号
[9] Y.Chen,L.Qi,X.Zhang,用于超图划分的拉普拉斯张量的菲德勒向量,SIAM J.Sci。计算。,39(2017),第A2508-A2537页,https://doi.org/10.1137/16M1094828。 ·Zbl 1375.05184号
[10] M.Christ、J.Demmel、N.Knight、T.Scanlon和K.Yelick,参考数组的程序的通信下限和优化算法,第1部分,预打印,https://arxiv.org/abs/1208.0068, 2013.
[11] P.Comon、G.Golub、L.-H.Lim和B.Mourrain,对称张量和对称张量秩,SIAM J.矩阵分析。申请。,30(2008),第1254-1279页,https://doi.org/10.1137/060661569。 ·Zbl 1181.15014号
[12] D.Culler、R.Karp、D.Patterson、A.Sahay、K.E.Schauser、E.Santos、R.Subramonian和T.von Eicken,《LogP:走向并行计算的现实模型》,载于《第四届ACM SIGPLAN并行编程原理与实践研讨会论文集》(PPOPP’93),加州圣地亚哥,1993年,ACM,第1-12页。
[13] J.Demmel、D.Eliahu、A.Fox、S.Kamil、B.Lipshitz、O.Schwartz和O.Spillinger,《通信优化并行递归矩形矩阵乘法》,摘自2013年IEEE第27届并行与分布式处理国际研讨会(IPDPS)论文集,IEEE,2013年,第261-272页。
[14] E.Di Napoli、D.Fabregat-Traver、G.Quintana-Ortií和P.Bientinesi,《有效使用BLAS库进行多线性张量收缩》,应用。数学。计算。,235(2014),第454-468页·Zbl 1336.65076号
[15] E.Epifanovsky、M.Wormit、T.Kus、A.Landau、D.Zuev、K.Khistyaev、P.Manohar、I.Kaliman、A.Dreuw和A.I.Krylov,使用通用块张量库进行高性能电子结构计算的高水平相关方法的新实现,J.Compute。化学。,34(2013),第2293-2309页。
[16] O.Hoõlder,纳赫州Mittelwertsatz的Uüber einen。格式。威斯。戈廷根(1889),第38-47页。
[17] J.-W.Hong和H.T.Kung,《I/O复杂性:红蓝卵石游戏》,摘自《第十三届美国计算机学会计算理论研讨会论文集》(STOC’81),密尔沃基,威斯康星州,1981年,美国计算机学会,第326-333页。
[18] D.Irony、S.Toledo和A.Tiskin,分布式内存矩阵乘法的通信下限,J.并行分布式计算。,64(2004),第1017-1026页·Zbl 1114.68081号
[19] T.G.Kolda和B.W.Bader,张量分解和应用,SIAM Rev.,51(2009),第455-500页,https://doi.org/10.1137/07070111X。 ·Zbl 1173.65029号
[20] C.L.Lawson、R.J.Hanson、D.R.Kincaid和F.T.Krogh,Fortran使用的基本线性代数子程序,ACM Trans。数学。软件(TOMS),5(1979),第308-323页·Zbl 0412.65022号
[21] L.H.Loomis和H.Whitney,与等周不等式相关的不等式,布尔。AMS,55(1949),第961-962页·Zbl 0035.38302号
[22] J.Noga和P.Valiron,耦合簇方法中三重激发贡献的改进算法,分子物理,103(2005),第2123-2130页。
[23] 潘,我们如何加快矩阵乘法的速度?,SIAM Rev.,26(1984),第393-415页,https://doi.org/10.1137/1026076。 ·Zbl 0563.65028号
[24] S.Rajbhandari、A.Nikam、P.-W.Lai、K.Stock、S.Krishnamoorthy和P.Sadayappan,《收缩分布式张量的通信优化框架》,《高性能计算、网络、存储和分析国际会议论文集》(SC'14),新奥尔良,洛杉矶,IEEE,2014年,第375-386页。
[25] J.N.Scott,《基于路径路由的所有递归矩阵乘法算法的I/O复杂性下限》,加州大学伯克利分校博士论文,2015年。
[26] S.Sherman和T.G.Kolda,使用对称张量分解估计高阶矩,SIAM J.矩阵分析。申请。,41(2020年),第1369-1387页,https://doi.org/10.1137/19M1299633。 ·Zbl 1467.15022号
[27] E.Solomonik,《数值张量代数的Provably Efficient Algorithms for Numerical Tensor Algebra》,加州大学伯克利分校博士论文,2014年。
[28] E.Solomonik、E.Carson、N.Knight和J.Demmel,并行线性代数计算中同步、通信和计算之间的权衡,ACM Trans。并行计算。3(2016),3。
[29] E.Solomonik和J.Demmel,《使用较少乘法收缩对称张量》,《技术报告》,ETH Zu¨rich,2015年。
[30] E.Solomonik和J.Demmel,对称张量收缩的快速双线性算法,计算。方法应用。数学。,21(2021),第211-231页·Zbl 1487.65051号
[31] E.Solomonik、D.Matthews、J.Hammond和J.Demmel,《Cyclops张量框架:减少大规模并行收缩中的通信和消除负载不平衡》,《2013年IEEE第27届并行分布式处理国际研讨会论文集》,马萨诸塞州坎布里奇,2013年,第813-824页。
[32] E.Solomonik、D.Matthews、J.R.Hammond、J.F.Stanton和J.Demmel,耦合簇计算的大规模并行张量收缩框架,J.并行分布计算。,74(2014),第3176–3190页。
[33] V.斯特拉森,高斯消去不是最优的,数值。数学。,13(1969年),第354-356页·Zbl 0185.40101号
[34] A.Tiskin,《Bulk-Synchronous并行算法的设计与分析》,牛津大学博士论文,1998年·Zbl 0902.68072号
[35] L.G.Valiant,《并行计算的桥接模型》,美国计算机学会,33(1990),第103-111页。
[36] J.Čížek,关于原子和分子系统中的关联问题:使用量子场论方法计算Ursell型展开中的波函数分量,J.Chem。物理。,45(1966年),第4256-4266页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。