×

张量序列算法的并行算法。 (英语) Zbl 1484.65088号

摘要:我们提出了高效且可扩展的并行算法,用于对张量列(TT)格式中表示的低秩张量进行数学运算。我们考虑了加法、元素相乘、计算范数和内积、正交化和舍入(秩截断)的算法。这些是应用程序的核心操作,例如利用TT结构的迭代Krylov解算器。并行算法是为分布式内存计算而设计的,我们提出了一种数据分布和策略,可以并行化TT格式中各个内核的计算。我们分析了所提算法的计算和通信开销,以显示其可扩展性,并通过数值实验证明了它们在共享内存和分布式内存并行系统上的效率。例如,在舍入2GB TT张量方面,我们观察到比现有MATLAB TT-Toolbox更好的单核性能,并且我们的实现使用单个节点的所有40个核实现了34倍的加速。对于所有数学运算,我们还显示了在更大的TT张量上几乎线性的并行缩放,多达10000个核。

MSC公司:

65层99 数值线性代数
15A23型 矩阵的因式分解
15A69号 多线性代数,张量演算
2005年5月 并行数值计算
65年20月 数值算法的复杂性和性能
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] H.Al Daas,《解决水库建模产生的线性系统》,论文,Inria Paris,索邦大学,UPMC巴黎大学6,Jacques-Louis Lions实验室,2018年,https://hal.inia.fr/tel-01984047。
[2] M.Anderson、G.Ballard、J.Demmel和K.Keutzer,通信-避免GPU的QR分解,摘自2011年IEEE国际并行与分布式处理研讨会论文集,IPDPS’11,华盛顿特区,2011年,IEEE计算机学会,第48-58页,https://doi.org/10.1109/IPDPS.2011.15。
[3] W.Austin、G.Ballard和T.G.Kolda,大规模科学数据的并行张量压缩,第30届IEEE国际并行和分布式处理研讨会论文集,2016年,第912-922页,https://www.computer.org/csdl/proceedings/ipdps/2016/2140/00/2140a912-abs.html。
[4] B.W.Bader、T.G.Kolda等人,《2021年MATLAB 3.2.1版张量工具箱》,https://www.tensortoolbox.org。
[5] S.Balay、S.Abhyankar、M.F.Adams、J.Brown、P.Brune、K.Buschelman、L.Dalcin、A.Dener、V.Eijkhout、W.D.Gropp、D.Karpeyev、D.Kaushik、M.G.Knepley、D.A.May、L.C.McInnes、R.T.Mills、T.Munson、K.Rupp、P.Sanan、B.F.Smith、S.Zampini、H.Zhang和H.Zang,PETSc网页,2019年,https://www.mcs.anl.gov/petsc。
[6] G.Ballard、E.Carson、J.Demmel、M.Hoemmen、N.Knight和O.Schwartz,《数值线性代数的通信下限和优化算法》,《数值学报》。,23(2014),第1-155页,https://doi.org/10.1017/S0962492914000038。 ·Zbl 1396.65082号
[7] G.Ballard、J.Demmel、L.Grigori、N.Knight、M.Jacquelin和H.D.Nguyen,从瘦高的QR重建户主向量,J.Parallel Distrib.Comput。,85(2015),第3-31页,https://doi.org/10.1016/j.jpdc.2015.06.003。
[8] G.Ballard、A.Klinvex和T.G.Kolda,TuckerMPI:通过Tucker张量分解实现大规模数据压缩的并行C++/MPI软件包,ACM Trans。数学。软件,46(2020),13·Zbl 1484.65351号
[9] P.Benner、S.Dolgov、A.Onwunta和M.Stoll,随机数据非定常Stokes-Brinkman最优控制问题的低秩解算器,计算。方法应用。机械。工程,304(2016),第26-54页·Zbl 1423.76329号
[10] P.Benner、S.Dolgov、A.Onwunta和M.Stoll,受随机Navier-Stokes方程约束的最优控制问题的低秩解,国际。J.数字。《液体方法》,92(2020),第1653-1678页。
[11] P.Benner、S.Gugercin和K.Willcox,参数动力系统基于投影的模型简化方法综述,SIAM Rev.,57(2015),第483-531页,https://doi.org/10.1137/130932715。 ·Zbl 1339.37089号
[12] G.Beylkin和M.J.Mohlenkamp,《高维数值算子微积分》,Proc。国家。阿卡德。科学。美国,99(2002),第10246-10251页,https://doi.org/10.1073/pnas.112329799。 ·Zbl 1008.65026号
[13] M.Bhattarai、G.Chennupati、E.Skau、R.Vangara、H.Djidjev和B.Alexandrov,分布式非负张量序列分解,《2020年IEEE高性能极限计算会议(HPEC)论文集》,2020年,第1-10页,https://doi.org/10.109/HPEC43674.2020.9286234。
[14] F.Bonizzoni、F.Nobile和D.Kressner,对数正态系数椭圆方程力矩方程的张量列近似,计算。方法应用。机械。工程,308(2016),第349-376页·兹比尔1439.65149
[15] J.D.Carroll和J.-J.Chang,通过“Eckart-Young”分解的n向泛化分析多维尺度中的个体差异,《心理测量学》,35(1970),第283-319页,https://doi.org/10.1007/BF02310791。 ·Zbl 0202.19101号
[16] E.Chan、M.Heimlich、A.Purkayastha和R.van de Geijn,《集体传播:理论、实践和经验》,协和出版社。计算。,19(2007),第1749-1783页,https://doi.org/10.1002/cpe.1206。
[17] P.G.Constantine和D.F.Gleich,mapreduce架构中的高瘦QR因式分解,第二届mapreduce及其应用国际研讨会论文集,mapreduce'11,纽约,2011,ACM,第43-50页,https://doi.org/10.1145/1996092.1996103。
[18] J.Demmel、L.Grigori、M.Hoemmen和J.Langou,通信优化并行和序列QR及LU因子分解,SIAM J.Sci。计算。,34(2012),第A206-A239页,https://doi.org/10.1137/080731992。 ·兹比尔1241.65028
[19] S.Dolgov和M.Stoll,受Navier-Stokes方程约束的优化问题的低秩解,SIAM J.Sci。计算。,39(2017),第A255-A280页,https://doi.org/10.1137/15M1040414。 ·Zbl 1381.76259号
[20] S.Eswar、K.Hayashi、G.Ballard、R.Kannan、M.A.Matheson和H.Park,PLANC:具有非负约束的并行低阶近似,ACM Trans。数学。软质。,47 (2021), 20, https://doi.org/10.1145/3432185。 ·Zbl 07467951号
[21] L.Grigori和S.Kumar,通过分层分解的并行张量训练,技术报告hal-03081555,印度信息研究所,2021,https://hal.inia.fr/hal-03081555。
[22] W.Hackbusch和S.Kuöhn,张量表示的新格式,J.Fourier Ana。申请。,15(2009),第706-722页,https://doi.org/10.1007/s00041-009-9094-9。 ·Zbl 1188.15022号
[23] R.A.Harshman,《PARAFAC程序的基础:解释性多模态因子分析的模型和条件》,《语音学工作论文》,16(1970),第1-84页,http://www.psychology.uwo.ca/faulty/harshman/wpppfac0.pdf。
[24] M.A.Heroux、R.A.Bartlett、V.E.Howle、R.J.Hoekstra、J.J.Hu、T.G.Kolda、R.B.Lehoucq、K.R.Long、R.P.Pawlowski、E.T.Phipps、A.G.Salinger、H.K.Thornquist、R.S.Tuminaro、J.M.Willenbring、A.Williams和K.S.Stanley,Trilinos项目概述,ACM Trans。数学。《软件》,31(2005),第397-423页,https://doi.org/10.1145/1089014.108901。 ·Zbl 1136.65354号
[25] J.Hesthaven、G.Rozza和B.Stamm,参数化偏微分方程的认证简化基方法,SpringerBriefs in Mathematics,Springer,2015,Cham,https://doi.org/10.1007/978-3-319-22470-1。 ·Zbl 1329.65203号
[26] P.Jolivet,《区域分解方法:应用于高性能计算》,论文,格勒诺布尔大学,2014年,https://tel.archives-ouvertes.fr/tel-01155718。
[27] A.Kantian、M.Dolfi、M.Troyer和T.Giamachi,通过大规模平行密度矩阵重整化群理解相关电子的排斥介导超导性,物理学。B版,100(2019),075138,https://doi.org/10.103/PhysRevB.100.075138。
[28] O.Kaya和B.Uçar,稀疏张量塔克分解的高性能并行算法,第45届并行处理国际会议论文集(ICPP’16),2016年,第103-112页,https://doi.org/10.109/ICPP.2016.19。
[29] B.N.Khoromskij,高维数值模拟中(N-d)张量的(O(d\log N))-量化近似,Constr。约,34(2011),第257-280页,https://doi.org/10.1007/s00365-011-9131-1。 ·Zbl 1228.65069号
[30] T.G.Kolda和B.W.Bader,张量分解和应用,SIAM Rev.,51(2009),第455-500页,https://doi.org/10.1137/07070111X。 ·Zbl 1173.65029号
[31] J.Kossaifi、Y.Panagakis、A.Anandkumar和M.Pantic,《TensorLy:在Python中学习Tensor》,J.Mach。学习。决议,20(2019),第1-6页,http://jmlr.org/papers/v20/18-277.html。 ·Zbl 07049745号
[32] D.Kressner、R.Kumar、F.Nobile和C.Tobler,高斯随机场高阶相关函数的低秩张量近似,SIAM/ASA J.不确定性。数量。,3(2015),第393-416页,https://doi.org/10.1137/140968938。 ·Zbl 1322.65027号
[33] D.Kressner和L.Periša,塔克格式张量Hadamard乘积的再压缩,SIAM J.Sci。计算。,39(2017),第A1879-A1902页,https://doi.org/10.1137/16M1093896。 ·Zbl 1373.65031号
[34] D.Kressner和C.Tobler,张量积结构线性系统的Krylov子空间方法,SIAM J.矩阵分析。申请。,31(2009/10),第1688-1714页,https://doi.org/10.1137/090756843。 ·兹比尔1208.65044
[35] R.Levy、E.Solomonik和B.K.Clark,《通过稀疏和密集并行张量收缩实现分布式内存DMRG》,《高性能计算、网络、存储和分析国际会议论文集》,SC'20,IEEE出版社,2020年,24。
[36] J.Li、J.Choi、I.Perros、J.Sun和R.Vuduc,高阶张量的模型驱动稀疏CP分解,《IEEE国际并行与分布式处理研讨会论文集》,IPDPS,2017年,第1048-1057页,https://doi.org/10.109/IPDPS.2017.80。
[37] L.Li、W.Yu和K.Batselier,稀疏数据的快速张量列分解,预印本,https://arxiv.org/abs/1908.02721, 2020. ·Zbl 1480.65109号
[38] M.Mohiyuddin、M.Hoemmen、J.Demmel和K.Yelick,《稀疏矩阵求解器中通信最小化》,载于《高性能计算网络、存储和分析国际会议论文集》,SC'09年,2009年,第36页,https://doi.org/10.1145/1654059.1654096。
[39] I.Oseledets等人,《Tensor Train工具箱2.2.2版》。2020, https://github.com/oseledets/TT-Toolbox。
[40] I.Oseledets和E.Tyrtyshnikov,多维数组的TT-交叉近似,线性代数应用。,432(2010),第70-88页,https://doi.org/10.1016/j.laa.2009.07.024。 ·Zbl 1183.65040号
[41] I.V.Oseledets,张量-应变分解,SIAM J.Sci。计算。,33(2011),第2295-2317页,https://doi.org/10.1137/090752286。 ·Zbl 1232.15018号
[42] A.-H.Phan、P.Tichavsky和A.Cichocki,用于高阶CANDECOMP/PARAFAC张量分解的快速交替LS算法,IEEE Trans。信号处理。,61(2013),第4834-4846页,https://doi.org/10.109/TSP.2013.2269903。
[43] A.Quarteroni、A.Manzoni和F.Negri,《偏微分方程的约化基方法:简介》,UNITEXT,Springer,Cham,2015年,https://doi.org/10.1007/978-3-319-15431-2。 ·Zbl 1337.65113号
[44] S.Ragnarsson和C.F.Van Loan,块张量展开,SIAM J.矩阵分析。申请。,33(2012),第149-169页,https://doi.org/10.1137/10820609。 ·兹比尔1246.15028
[45] M.Ro­hrig-Zo­llner、J.Thies和A.Basermann,《张量列格式(TT-SVD)中大密度张量的低阶近似的性能》,预印本,https://arxiv.org/abs/1202.00104, 2021.
[46] D.V.Savostyanov、S.V.Dolgov、J.M.Werner和I.Kuprov,使用张量列形式主义对蛋白质大小自旋系统的精确核磁共振模拟,物理学。B版,90(2014),085139,https://doi.org/10.103/PhysRevB.90.085139。
[47] S.Smith和G.Karypis,《用压缩稀疏张量加速Tucker分解》,2017年欧洲议会,计算机讲义。科学。10417,F.F.Rivera、T.F.Pena和J.C.Cabaleiro,编辑,施普林格,查姆,2017年,第653-668页,https://doi.org/10.1007/978-3-319-64203-1_47。
[48] S.Smith、N.Ravindran、N.D.Sidiropoulos和G.Karypis,SPLATT:高效并行稀疏张量矩阵乘法,摘自2015年IEEE国际并行与分布式处理研讨会论文集,IPDPS’15,华盛顿特区,2015年,IEEE计算机学会,第61-70页,https://doi.org/10.109/IPDPS.2015.27。
[49] E.Solomonik、D.Matthews、J.R.Hammond、J.F.Stanton和J.Demmel,耦合簇计算的大规模并行张量收缩框架,J.并行分布计算。,74(2014),第3176-3190页,https://doi.org/10.1016/j.jpdc.2014.06.002。
[50] E.M.Stoudenmire和S.R.White,实空间平行密度矩阵重整化群,Phys。修订版B,87(2013),155137,https://doi.org/10.103/physrevb.87.155137。
[51] R.Thakur、R.Rabenseifner和W.Gropp,MPICH中集体通信操作的优化,国际高性能计算杂志。申请。,19(2005),第49-66页,https://doi.org/10.1177/109434205051521。
[52] L.R.Tucker,《关于三模式因子分析的一些数学注释》,《心理测量学》,31(1966),第279-311页,https://doi.org/10.1007/BF02289464。
[53] E.E.Tyrtyshnikov,由渐近光滑函数生成的矩阵的张量近似,Sb.数学。,194(2003),第941-954页,https://doi.org/10.1070/sm2003v194n06abeh000747。 ·Zbl 1067.65044号
[54] N.Vervliet、O.Debals、L.Sorber、M.Van Barel和L.De Lathauwer,Tensorlab 3.0,http://www.tensorlab.net网站, 2016.
[55] X.Wang、L.T.Yang、Y.Wang,L.Ren和M.J.Deen,ADTT:IIoT大数据的高效分布式张量应变分解方法,IEEE Trans。工业。通知。,17(2021),第1573-1582页,https://doi.org/10.109/TII.2020.2967768。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。