×

使用维树对稀疏张量进行并行Candecomp/Parafac分解。 (英语) Zbl 1383.65037号

摘要:稀疏张量的CANDECOMP/PARAFAC(CP)分解已成功应用于网络搜索、图形分析、推荐系统、医疗数据分析和许多其他领域的许多问题。在这些应用中,为了能够处理和分析大规模数据,有效计算稀疏张量的CP分解是至关重要的。为此,我们研究了稀疏张量CP分解的有效计算及其并行化。我们提出了一种新的计算方案,用于在使用传统的基于交替最小二乘法(CP-ALS)的算法计算CP分解时降低核心运算的成本。然后,我们在共享和分布式内存环境中的CP-ALS上下文中有效地并行化该计算方案,并提出数据和任务分配模型以获得更好的可扩展性。我们实现了并行CP-ALS算法,并将我们的实现与使用由真实数据集和合成数据集形成的张量的高效张量分解库进行了比较。凭借我们的算法贡献和实现,我们报告了目前最先进的顺序执行、共享内存并行执行和分布式内存并行执行的速度提高了5.96倍、5.65倍和3.9倍,并在IBM BlueGene/Q超级计算机上实现了4096核的强大可扩展性。

MSC公司:

65楼30 其他矩阵算法(MSC2010)
05C70号 具有特殊属性的边子集(因子分解、匹配、分区、覆盖和打包等)
第15页第69页 多线性代数,张量演算
65层50 稀疏矩阵的计算方法
65层20 超定系统伪逆的数值解
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] E.Acar、D.M.Dunlavy和T.G.Kolda,{拟合正则张量分解的可扩展优化方法},《化学计量学杂志》,25(2011),第67-86页。
[2] C.A.Andersson和R.Bro,{MATLAB的N路工具箱},化学计量学智能实验室系统,52(2000),第1-4页。
[3] W.Austin、G.Ballard和T.G.Kolda,《大规模科学数据的并行张量压缩》,《IEEE国际并行和分布式处理研讨会论文集》,伊利诺伊州芝加哥,2016年,第912-922页。
[4] B.W.Bader和T.G.Kolda,{使用稀疏张量和因子张量进行高效MATLAB计算},SIAM J.Sci。计算。,30(2007年),第205-231页·Zbl 1159.65323号
[5] B.W.Bader、T.G.Kolda等人,{MATLAB Tensor工具箱版本}2.6,(2015)。
[6] M.Baskaran、B.Meister、N.Vasilache和R.Lethin,{稀疏张量的高效可伸缩计算},《IEEE高性能极限计算会议论文集》,2012年,第1-6页。
[7] J.Bennett和S.Lanning,《网飞奖》,载于《KDD Cup and Workshop论文集》,2007年,第35页。
[8] S.Bird、E.Loper和E.Klein,《使用Python进行自然语言处理》,O'Reilly Media,加利福尼亚州塞巴斯托波尔,2009年·Zbl 1187.68630号
[9] J.Buurlage,{\it Self Improvement Sparse Matrix Partitioning and Bulk-Synchronous Pseudo-Streaming},乌得勒支大学硕士论文,2016年。
[10] A.Carlson、J.Betteridge、B.Kisiel、B.Settles、E.R.Hruschka,Jr.和T.M.Mitchell,《迈向永无止境的语言学习架构》,载《AAAI’10会议录》2010年第5卷,第1306-1313页。
[11] D.J.Carroll和J.Chang,{通过“Eckart-Young”分解的N向泛化分析多维尺度中的个体差异},《心理测量学》,35(1970),第283-319页·Zbl 0202.19101号
[12] U¨。V.Çatalyu¨rek和C.Aykanat,{\it PaToH:多层超图划分工具,版本}3.0,土耳其安卡拉比尔肯特大学计算机工程系,(1999)。
[13] U¨。V.Çatalyu¨rek和C.Aykanat,《粗粒度分解的超图划分方法》,载于ACM/IEEE 2001超级计算会议,科罗拉多州丹佛市,2001年,第42页。
[14] U¨。V.Çatalyu¨rek,C.Aykanat和B.Ucᾍar,{关于二维稀疏矩阵划分:模型、方法和配方},SIAM J.Sci。计算。,32(2010年),第656-683页·Zbl 1298.05198号
[15] U¨。V.Çatalyu¨rek,{稀疏矩阵划分和重排序的超图模型},计算机工程与信息科学博士论文,土耳其安卡拉比尔肯特大学,1999年。
[16] J.H.Choi和S.V.N.Vishwanathan,{it DFacTo:张量的分布式因式分解},《第27届神经信息处理系统进展年度会议论文集》,加拿大魁北克省蒙特利尔,2014年,第1296-1304页。
[17] O.GoÉrlitz、S.Sizov和S.Staab,{\it PINTS:标记系统的对等基础设施},载于《第七届对等系统国际会议论文集》,加利福尼亚州伯克利,2008年,USENIX协会,第19页。
[18] L.Grasedyck,{张量的层次奇异值分解},SIAM J.矩阵分析。申请。,31(2010),第2029-254页·Zbl 1210.65090号
[19] R.A.Harshman,{PARAFAC程序的基础:“解释性”多模态因子分析的模型和条件},加州大学洛杉矶分校语音学工作论文,16(1970),第1-84页。
[20] V.Henne,{超图分割的标签传播},硕士论文,德国Karsruhe理工学院,2015年。
[21] J.H\rastad,{张量秩为NP-完全},《算法》,11(1990),第644-654页·Zbl 0716.65043号
[22] U.Kang、E.Papalexakis、A.Harpale和C.Faloutsos,{it GigaTensor:将张量分析放大100倍-算法和发现},《第18届ACM SIGKDD知识发现和数据挖掘国际会议论文集》,纽约,2012年,第316-324页。
[23] L.Karlsson、D.Kressner和A.Uschmajew,{CP格式张量补全的并行算法},并行计算。,57(2016),第222-234页。
[24] G.Karypis和V.Kumar,{多约束超图划分的多级算法},技术报告99-034,明尼苏达大学计算机科学系,陆军HPC研究中心,明尼阿波利斯,1998年。
[25] O.Kaya和B.Uçar,{高阶稀疏张量塔克分解的高性能并行算法},技术报告RR-8801,Inria,2015。
[26] O.Kaya和B.Uçar,{分布式存储系统中的可伸缩稀疏张量分解},《高性能计算、网络、存储和分析国际会议论文集》,纽约,2015年,美国计算机学会,第77:1-77:11页。
[27] O.Kaya和B.Uçar,{稀疏张量塔克分解的高性能并行算法},《第45届并行处理国际会议论文集》,2016年,第103-112页。
[28] T.G.Kolda和B.Bader,{高阶网络链接分析的TOPHITS模型},《链接分析学报》,反恐与安全,2006年。
[29] T.G.Kolda和B.Bader,{张量分解和应用},SIAM Rev.,51(2009),第455-500页·Zbl 1173.65029号
[30] L.D.Lathauwer和B.D.Moor,{从矩阵到张量:多线性代数和信号处理},《国际数学协会信号处理数学国际会议论文集》,1998年第67卷,第1-16页。
[31] T.Lengauer,《集成电路布局的组合算法》,Wiley Teubner,Chichester,英国,1990年·Zbl 0709.68039号
[32] J.Leskovec和A.Krevl,{快照数据集:斯坦福大型网络数据集收集},(2014)。
[33] J.Li、J.Choi、I.Perros、J.Sun和R.Vuduc,{高阶张量的模型驱动稀疏CP分解},《第31届IEEE并行和分布式处理国际研讨会论文集》,佛罗里达州奥兰多,2017年,第1048-1057页。
[34] I.Perros、R.Chen、R.Vuduc和J.Sun,{稀疏层次Tucker因子分解及其在医疗保健中的应用},《2015年IEEE数据挖掘国际会议论文集》,2015年,第943-948页。
[35] A.H.Phan、P.Tichavský和A.Cichocki,用于高阶CANDECOMP/PARAFAC张量因子分解的快速交替LS算法,IEEE Trans。信号处理。,61(2013),第4834-4846页。
[36] S.Rendle和T.S.Lars,{个性化标签推荐的成对交互张量因子分解},《第三届ACM网络搜索和数据挖掘国际会议论文集》,纽约,2010年,第81-90页。
[37] S.Rendle、B.M.Leandro、A.Nanopoulos和L.Schmidt-Thieme,{利用张量因子化学习标签推荐的最优排序},《第十五届ACM知识发现和数据挖掘国际会议论文集》,纽约,2009年,第727-736页。
[38] G.M.Slota、K.Madduri和S.Rajamanickam,《PuLP:小世界网络的可扩展多目标多约束划分》,《第二届IEEE国际大数据会议论文集》,2014年,第481-490页。
[39] S.Smith和G.Karypis,{\it Tensor-matrix乘积与压缩稀疏张量},《不规则应用:架构和算法第五次研讨会论文集》,美国计算机学会,2015年,第7页。
[40] S.Smith和G.Karypis,《稀疏张量因式分解的中等粒度算法》,摘自《IEEE国际并行与分布式处理研讨会论文集》,伊利诺伊州芝加哥,2016年,第902-911页。
[41] S.Smith、J.Park和G.Karypis,《高性能张量补全优化算法探索》,《2016年ACM/IEEE超级计算会议论文集》,2016年。
[42] S.Smith、N.Ravindran、N.D.Sidiropoulos和G.Karypis,{it SPLATT:高效并行稀疏张量矩阵乘法},第29届IEEE国际并行与分布式处理研讨会论文集,印度海得拉巴,2015年,第61-70页。
[43] P.Symeonidis、A.Nanopoulos和Y.Manolopoulos,{基于张量降维的标签建议},《ACM推荐系统会议论文集》,纽约,2008年,第43-50页。
[44] G.Tomasi和R.Bro,{\it拟合PARAFAC模型的算法比较},计算。统计师。数据分析。,50(2006年),第1700-1734页·Zbl 1445.62136号
[45] J.Ugander和L.Backstrom,{大规模图划分的平衡标签传播},第六届ACM网络搜索和数据挖掘国际会议论文集,纽约,2013年,第507-516页。
[46] M.A.O.Vasilescu和D.Terzopoulos,{图像集合的多线性分析:张量面},《计算机视觉–ECCV 2002》,纽约斯普林格出版社,2002年,第447-460页·Zbl 1034.68693号
[47] N.Zheng,Q.Li,S.Liao,L.Zhang,{基于张量分解的Flickr群推荐},《第33届国际ACM SIGIR信息检索研究与开发会议论文集》,纽约,2010年,第737-738页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。