×

现代多核CPU上大密度张量低秩TT-SVD的性能。 (英语) Zbl 1501.65162号

摘要:多维张量有几种分解为低维分量的方法,称为“张量网络”。我们考虑了流行的“张量-应变”(TT)格式,并问道,我们如何有效地从当前多核CPU上的全张量计算低阶近似值?与稀疏和稠密线性代数相比,多线性代数的核库很少,通常也没有得到很好的优化。BLAS和LAPACK等线性代数库原则上可以提供所需的操作,但通常会以重新安排内存布局的额外数据移动为代价。此外,这些库通常针对计算受限的情况(例如,平方矩阵运算)进行优化,而低秩张量分解导致内存带宽受限的运算。我们提出了一种基于两个构建块的“TT奇异值分解”(TT-SVD)算法:“Q-less tall-skinny QR”分解和融合tall-skin矩阵乘法和重塑操作。我们使用屋顶线性能模型分析了得到的TT-SVD算法的性能。此外,我们还介绍了共享内存和分布式内存架构的不同算法变体的性能结果。我们的实验表明,常用的TT-SVD实现遭受了严重的性能损失。我们的结论是,张量因式分解核的专用库将使社区受益:计算低阶近似值的成本可能与从主内存读取两次数据的成本一样低。因此,实现实际性能的实现将改变只能使用只处理部分数据的随机方法的限制。

MSC公司:

2005年5月 并行数值计算
65年20月 数值算法的复杂性和性能
65层99 数值线性代数
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] I.阿弗莱克,({SU}(n))量子“自旋”链的大极限,物理学。修订稿。,54(1985),第966-969页,https://doi.org/10.103/PhysRevLett.54.966。
[2] I.Affleck,T.Kennedy,E.H.Lieb和H.Tasaki,反铁磁体中价键基态的严格结果,Phys。修订稿。,59(1987),第799-802页,https://doi.org/10.103/PhysRevLett.59.799。
[3] E.Anderson、Z.Bai、C.Bischof、L.S.Blackford、J.Demmel、J.Dongarra、J.D.Croz、A.Greenbaum、S.Hammarling、A.McKenney和D.Sorensen,《LAPACK用户指南》,SIAM,费城,1999年,https://doi.org/10.1137/1.9780898719604。 ·Zbl 0934.65030号
[4] G.Ballard、E.Carson、J.Demmel、M.Hoemmen、N.Knight和O.Schwartz,《数值线性代数的通信下限和优化算法》,《数值学报》。,23(2014),第1-155页,https://doi.org/10.1017/s0962492914000038。 ·兹比尔1396.65082
[5] R.Ballester-Ripoll,tntorch-Tensor Network Learning with PyTorch,第8c8lalcb版,2019年,https://tntorch.readthedocs.io。
[6] M.W.Berry、S.A.Pulatova和G.W.Stewart,《844算法:计算稀疏矩阵的稀疏缩减秩近似》,ACM Trans。数学。《软件》,31(2005),第252-269页,https://doi.org/10.1145/1067967.10679972。 ·Zbl 1070.65539号
[7] D.Bigoni、A.P.Engsig-Karup和Y.M.Marzouk,谱张量-应变分解,SIAM J.Sci。计算。,38(2016),第A2405-A2439页,https://doi.org/10.1137/15m1036919。 ·Zbl 1347.41006号
[8] E.Carson、J.Demmel、L.Grigori、N.Knight、P.Koananatool、O.Schwartz和H.V.Simhadri,《避免写入算法》,载于《2016年IEEE国际并行和分布式处理研讨会论文集》,IEEE,2016,第648-658页,https://doi.org/10.109/ipdps.2016.114。
[9] C.Chen、K.Batselier、C.-Y.Ko和N.Wong,支持张量训练机,《2019年国际神经网络联合会议(IJCNN)论文集》,IEEE,2019年,https://doi.org/10.109/ijcnn.2019.8851985。
[10] C.Chen、K.Batselier、W.Yu和N.Wong,核化支持张量训练机,模式识别。,122(2022),第108337页,https://doi.org/10.1016/j.patcog.2021.108337。
[11] P.G.Constantine、D.F.Gleich、Y.Hou和J.Templeton,使用MapReduce进行模型简化,支持高瘦奇异值分解,SIAM J.Sci。计算。,36(2014),第S166-S191页,https://doi.org/10.1137/10925219。 ·Zbl 1307.65045号
[12] H.A.Daas、G.Ballard和P.Benner,张量序列算法的并行算法,SIAM J.Sci。计算。,44(2022年),第C25-C53页,https://doi.org/10.1137/20m1387158。 ·Zbl 1484.65088号
[13] J.Demmel、L.Grigori、M.Hoemmen和J.Langou,通信优化并行和序列QR及LU因子分解,SIAM J.Sci。计算。,34(2012),第A206-A239页,https://doi.org/10.1137/080731992。 ·Zbl 1241.65028号
[14] J.W.Demmel、L.Grigori、M.Gu和H.Xiang,《通信避免秩揭示QR因式分解与列旋转》,SIAM J.矩阵分析。申请。,36(2015),第55-89页,https://doi.org/10.1137/1092157x。 ·Zbl 1327.65078号
[15] S.Dolgov和B.Khoromskij,优化张量演算的两级QTT-Tucker格式,SIAM J.矩阵分析。申请。,34(2013),第593-623页,https://doi.org/10.1137/120882597。 ·兹比尔1273.65169
[16] 范洪云,张丽萍,朱永伟,内积空间中的Q-less QR分解,线性代数应用。,491(2016),第292-316页,https://doi.org/10.1016/j.laa.2015.08.035。 ·Zbl 1391.65102号
[17] P.Gelß、S.Klus、M.Scherer、F.Nu¨ske和M.Lu¨cke,《Python中的Scikit-TT张力计算》,修订版idfd64a,2019年,https://github.com/PGels/scikit_tt2019年,修订版1dfd64a。
[18] L.Grasedyck和W.Hackbusch,张量的层次(H-)秩和TT-秩介绍及示例,计算。方法应用。数学。,11(2011),第291-304页,https://doi.org/10.2478/cmam-2011-0016。 ·Zbl 1283.15075号
[19] L.Grasedyck、D.Kressner和C.Tobler,低阶张量近似技术的文献综述,GAMM-Mitt。,36(2013),第53-78页,https://doi.org/10.1002/gamm.2012310004。 ·Zbl 1279.65045号
[20] G.Guennebaud、B.Jacob等人,Eigen v3,第3.3.9版,2010年,http://eigen.tuxfamily.org。
[21] G.Hager和G.Wellein,《科学家和工程师高性能计算导论》,CRC出版社,佛罗里达州博卡拉顿,2010年,https://doi.org/10.1201/ebk1439811924。
[22] C.R.Harris、K.J.Millman、S.J.van der Walt、R.Gommers、P.Virtanen、D.Cournapeau、E.Wieser、J.Taylor、S.Berg、N.J.Smith、R.Kern、M.Picus、S.Hoyer、M.H.van Kerkwijk、M.Brett、A.Haldane、J.F.del Riío、M.Wiebe、P.Peterson、P.Ge rard-Marchant、K.Sheppard、T.Reddy、W.Weckesser、H.Abbasi、C.Gohlke和T.E.Oliphant,《使用NumPy进行数组编程》,《自然》,585(2020),第357-362页,https://doi.org/10.1038/s41586-020-2649-2。
[23] A.S.Householder,非对称矩阵的酉三角化,J.ACM,5(1958),第339-342页,https://doi.org/10.1145/320941.320947。 ·Zbl 0121.33802号
[24] Intel,一个API数学内核库,版本2020.3,https://software.intel.com/mkl。
[25] B.N.Khoromskij,(O(d\log N))-高维数值建模中N-d张量的量化近似,Constr。约,34(2011),第257-280页,https://doi.org/10.1007/s00365-011-9131-1。 ·Zbl 1228.65069号
[26] S.Klus和P.Gelß,基于张量的图像分类算法,算法,12(2019),240,https://doi.org/10.3390/a12110240。
[27] T.G.Kolda和D.Hong,大规模张量分解的随机梯度,SIAM J.Math。数据科学。,2(2020年),第1066-1095页,https://doi.org/10.1137/19m1266265。 ·Zbl 1485.65054号
[28] K.Kour、S.Dolgov、M.Stoll和P.Benner,《高效结构保持支撑张拉机》,预印本,arXiv:2002.050792020,https://arxiv.org/abs/2002.05079。
[29] B.W.Larsen和T.G.Kolda,低秩张量分解的实际基于杠杆的采样,预印本,arXiv:2006.16438,2020,https://arxiv.org/abs/2006.16438。
[30] J.D.McCalpin,《当前高性能计算机中的内存带宽和机器平衡》,IEEE计算机学会计算机体系结构技术委员会通讯,2(1995),第19-25页。
[31] A.Novikov、P.Izmailov、V.Khrulkov、M.Figurnov和I.Oseledets,张量流(T3F)上的张量列分解,J.马赫。学习。决议,21(2020),第1-7页,http://jmlr.org/papers/v21/18-008.html。
[32] I.V.Oseledets,一种新的张量分解,Dokl。数学。,80(2009),第495-496页,https://doi.org/10.1134/S1064562409040115。 ·Zbl 1183.15023号
[33] I.V.Oseledets,张量-应变分解,SIAM J.Sci。计算。,33(2011),第2295-2317页,https://doi.org/10.1137/090752286。 ·Zbl 1232.15018号
[34] I.V.Oseledets和E.E.Trytyshnikov,《打破维度诅咒,或如何在多个维度中使用SVD》,SIAM J.Sci。计算。,31(2009),第3744-3759页,https://doi.org/10.1137/090748330。 ·Zbl 1200.65028号
[35] C.Psarras、H.Barthels和P.Bientinesi,线性代数映射问题。线性代数语言和库的现状,预印本,arXiv:1911.094212019,https://arxiv.org/abs/1911.09421。 ·Zbl 07467953号
[36] M.Ro­hrig-Zo­llner,PITTS-并行迭代张量-应变求解器,2021,https://doi.org/10.5281/zenodo.55344544。
[37] M.Ro­hrig-Zo­llner、J.Thies、M.Kreutzer、A.Alvermann、A.Pieper、A.Basermann、G.Hager、G.Wellein和H.Fehske,通过阻塞提高Jacobi-Davidson方法的性能,SIAM J.Sci。计算。,37(2015),第C697-C722页,https://doi.org/10.1137/140976017。 ·Zbl 1329.65077号
[38] H.Stengel、J.Treibig、G.Hager和G.Wellein,使用执行-检查-记忆模型量化模板计算的性能瓶颈,第29届ACM超级计算国际会议论文集,ACM出版社,2015年,https://doi.org/10.1145/2751205.2751240。
[39] J.Treibig、G.Hager和G.Wellein,LIKWID:一个适用于x86多核环境的轻量级面向性能的工具套件,载于2010年第39届并行处理研讨会会议记录,IEEE,2010年,https://doi.org/10.109/icppw.2010.38。
[40] T.Trilinos项目团队,The Trilinos Project Website,2020年,https://trilinos.github.io,2020年5月22日查阅。
[41] F.Verstraete和J.I.Cirac,矩阵乘积状态忠实地代表基态,Phys。B版,73(2006),094423,https://doi.org/10.103/PhysRevB.73.094423。
[42] S.R.White,量子重整化群的密度矩阵公式,Phys。修订稿。,69(1992),第2863-2866页,https://doi.org/10.103/PhysRevLett.69.2863。
[43] S.Williams、A.Waterman和D.Patterson,《Roofline:多核架构的富有洞察力的视觉性能模型》,美国通信协会,52(2009),第65-76页,https://doi.org/10.1145/1498765.1498785。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。