×

大规模张量分解的随机梯度。 (英语) Zbl 1485.65054号

摘要:张量分解是一种著名的多路数据分析工具。这项工作提出使用随机梯度对大规模张量进行有效的广义正则多元(GCP)张量分解。GCP张量分解是最近提出的张量分解版本,它允许各种损失函数,例如二进制数据的伯努利损失或稳健估计的Huber损失。随机梯度是由张量的随机采样元素形成的,由于它可以使用稀疏矩阵张量乘以Khatri-Rao乘积张量核来计算,因此是有效的。对于稠密张量,我们只使用均匀采样。对于稀疏张量,我们提出了两种优先于非零采样的分层采样。数值结果表明了该方法的优点及其对大规模问题的可扩展性。

MSC公司:

65英尺99英寸 数值线性代数
15A69号 多线性代数,张量演算
65C99个 概率方法,随机微分方程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] E.Acar、D.M.Dunlavy和T.G.Kolda,《用于拟合正则张量分解的可扩展优化方法》,《化学计量学杂志》,25(2011),第67-86页,doi:10.1002/cem.1335。
[2] E.Acar、D.M.Dunlavy、T.G.Kolda和M.Mörup,不完全数据的可缩放张量因子分解,化学计量学和智能实验室系统,106(2011),第41-56页,doi:10.1016/j.chemolab.2010.08.004。
[3] B.W.Bader和T.G.Kolda,使用稀疏张量和因子张量的高效MATLAB计算,SIAM J.Sci。计算。,30(2007),第205-231页,doi:10.1137/060676489·Zbl 1159.65323号
[4] B.W.Bader、T.G.Kolda等人,MATLAB Tensor工具箱版本,3.1版,https://www.tensortoolbox.org。 ·Zbl 1230.65054号
[5] G.Ballard、N.Knight和K.Rouse,矩阵张量乘以Khatri-Rao乘积的通信下界,发表在《IEEE国际并行和分布式处理研讨会论文集》上,IEEE,2018,doi:10.1009/ipdps.2018.00065。
[6] C.Battaglino、G.Ballard和T.G.Kolda,实用随机CP张量分解,SIAM J.矩阵分析。申请。,39(2018),第876-901页,doi:10.1137/17M1112303·Zbl 1444.65016号
[7] A.Beutel、P.P.Talukdar、A.Kumar、C.Faloutsos、E.E.Papalexakis和E.P.Xing,FlexiFaCT:Hadoop上耦合张量的可扩展灵活因子分解,见SDM’14:2014年SIAM国际数据挖掘会议记录,2014年,第109-117页,doi:10.1137/1.9781611973440.13。
[8] R.H.Byrd、P.Lu、J.Nocedal和C.Zhu,边界约束优化的有限内存算法,SIAM J.Sci。计算。,16(1995),第1190-1208页,doi:10.1137/0916069·Zbl 0836.65080号
[9] J.D.Carroll和J.J.Chang,通过“Eckart-Young”分解的N向泛化分析多维标度中的个体差异,《心理测量学》,35(1970),第283-319页,doi:10.1007/BF02310791·Zbl 0202.19101号
[10] Y.Chen、S.Bhojanapalli、S.Sanghavi和R.Ward,完成任何低秩矩阵,可证明,J.Mach。学习。第16号决议(2015年),第2999-3034页,http://www.jmlr.org/papers/v16/chen15b.html。 ·Zbl 1351.62107号
[11] D.Cheng、R.Peng、I.Perros和Y.Liu,SPALS:通过隐式杠杆得分抽样快速交替最小二乘法,NIPS’16,2016年,https://papers.nips.cc/paper/6436-spals-fast-alternating-lest-squares-via-implicit-levera-scores-sampling.pdf .
[12] E.C.Chi和T.G.Kolda,关于张量、稀疏性和非负因子分解,SIAM J.矩阵分析。申请。,33(2012),第1272-1299页,doi:10.1137/10859063·Zbl 1262.15029号
[13] R.N.Cochran和F.H.Horne,《快速扫描波长动力学实验的统计加权主成分分析》,分析化学,49(1977),第846-853页,doi:10.1021/ac50014a045。
[14] R.Ge,F.Huang,C.Jin,Y.Yuan,逃离鞍点-张量分解的在线随机梯度,《学习理论会议论文集》,2015年,第797-842页,http://proceedings.mlr.press/v40/Ge15.pdf。
[15] R.Gemulla、E.Nijkamp、P.J.Haas和Y.Sismanis,分布式随机梯度下降的大尺度矩阵分解,收录于KDD’11:第17届ACM SIGKDD国际知识发现和数据挖掘会议论文集,ACM出版社,2011年,doi:10.1145/202048.2020426。
[16] S.Gopal,《利用辅助信息对SGD进行自适应采样》,载于《第33届国际机器学习会议论文集》,M.F.Balcan和K.Q.Weinberger编辑,PMLR 48,纽约,2016年,第364-372页,http://proceedings.mlr.press/v48/gopal16.html。
[17] E.Gujral、R.Pasricha和E.E.Papalexakis,SamBaTen:基于抽样的批量增量张量分解,《2018年SIAM国际数据挖掘会议论文集》,第387-395页,doi:10.1137/1.9781611975321.44。
[18] S.Hansen、T.Plantenga和T.G.Kolda,基于牛顿的Kullback-Leibler非负张量因式分解优化,Optim。方法软。,30(2015),第1002-1029页,doi:10.1080/10556788.2015.1009977·Zbl 1336.90086号
[19] R.A.Harshman,《PARAFAC程序的基础:“解释性”多模式因子分析的模型和条件》,加州大学洛杉矶分校语音学工作论文,第16期,1970年,第1-84页,http://www.psychology.uwo.ca/faulty/harshman/wpppfac0.pdf。
[20] K.Hayashi、G.Ballard、Y.Jiang和M.J.Tobia,密集张量的MTTKRP共享内存并行化,第23届ACM SIGPLAN并行编程原理与实践研讨会论文集,ACM出版社,2018年,doi:10.1145/317887.3178522。
[21] D.Hong、J.A.Fessler和L.Balzano,高维异方差数据的最优加权PCA,http://arxiv.org/abs/1810.12862v2[math.ST],2018年·Zbl 1395.62139号
[22] D.Hong、T.G.Kolda和J.A.Duersch,《广义正则多元张量分解》,SIAM Rev.,62(2020),第133-163页,doi:10.1137/18M1203626·Zbl 1432.68385号
[23] J.J.Jansen、H.C.J.Hoefsloot、H.F.M.Boelens、J.van der Greef和A.K.Smiled,《纵向代谢组学数据分析》,生物信息学,20(2004),第2438-2446页,doi:10.1093/Bioinformatics/bth268。
[24] O.Kaya和B.Uçar,分布式存储系统中的可伸缩稀疏张量分解,SC'15:高性能计算、网络、存储和分析国际会议论文集,2015,doi:10.1145/2807591.2807624。
[25] D.P.Kingma和J.Ba,Adam:随机优化方法,arXiv:1412.6980v9[cs.LG],2015。
[26] T.G.Kolda和B.W.Bader,张量分解和应用,SIAM Rev.,51(2009),第455-500页,doi:10.1137/07070111X·Zbl 1173.65029号
[27] T.G.Kolda、A.Pinar、T.Plantenga和C.Seshadhri,具有社区结构的可扩展生成图模型,SIAM J.Sci。计算。,36(2014),第C424-C452页,doi:10.1137/130914218·Zbl 1314.05189号
[28] Y.Koren、R.Bell和C.Volinsky,推荐系统的矩阵分解技术,计算机,42(2009),第30-37页,doi:10.1009/MC.209.263。
[29] J.Li、J.Choi、I.Perros、J.Sun和R.Vuduc,高阶张量的模型驱动稀疏CP分解,《IEEE国际并行和分布式处理研讨会论文集》,IEEE,2017年,第1048-1057页,doi:10.1109/ipdps.2017.80。
[30] I.Loshchilov和F.Hutter,《修复亚当体重衰减规律》,arXiv:1711.05101v2[cs.LG],2017年。
[31] C.Ma、X.Yang和H.Wang,随机化在线CP分解,《第十届高级计算智能国际会议论文集》,2018年,第414-419页,doi:10.1109/ICACI.2018.8377495。
[32] T.Maehara、K.Hayashi和K.-i.Kawarabayashi,随机梯度下降的预期张量分解,《AAAI学报》,2016年,第1919-1925页。
[33] M.W.Mahoney,矩阵和数据的随机算法,Found。趋势马赫数。学习。,3(2011),第123-224页,doi:10.1561/22000035·Zbl 1232.68173号
[34] M.Mardani、G.Mateos和G.B.Giannakis,流式大数据矩阵和张量的子空间学习和插补,IEEE Trans。信号处理。,63(2015),第2663-2677页,doi:10.1109/tsp.2015.2417491·Zbl 1394.94371号
[35] B.Marlin、R.S.Zemel、S.Roweis和M.Slaney,《协作过滤和随机假设中的缺失》,《第23届人工智能不确定性会议论文集》,2007年,第267-275页。
[36] D.Needell、N.Srebro和R.Ward,《随机梯度下降、加权采样和随机Kaczmarz算法》,数学。程序。,155(2015),第549-573页,doi:10.1007/s10107-015-0864-7·Zbl 1333.65070号
[37] D.Nion和N.D.Sidiropoulos,跟踪三阶张量的PARAFAC分解的自适应算法,IEEE Trans。信号处理。,57(2009),第2299-2310页,doi:10.10109/TSP.20092016885·Zbl 1391.65110号
[38] E.E.Papalexakis、C.Faloutsos和N.D.Sidiropoulos,ParCube:稀疏可并行张量分解。,数据库中的机器学习和知识发现(欧洲会议,ECML PKDD 2012),计算机课堂讲稿。科学。7523,Springer,2012年,第521-536页,doi:10.1007/978-3642-33460-3_39。
[39] A.-H.Phan、P.Tichavsky和A.Cichocki,用于高阶CANDECOMP/PARAFAC张量分解的快速交替LS算法,IEEE Trans。信号处理。,61(2013),第4834-4846页,doi:10.1109/TSP.2013.2269903。
[40] E.Phipps和T.G.Kolda,新兴计算体系结构上的稀疏张量分解软件,SIAM J.Sci。计算。,41(2019年),第C269-C290页,doi:10.1137/18M1210691·Zbl 07099291号
[41] N.D.Sidiropoulos、E.E.Papalexakis和C.Faloutsos,使用随机压缩立方体(PARACOMP)进行大张量分解的并行算法,《IEEE声学、语音和信号处理国际会议论文集》,IEEE,2014年,doi:10.1109/icassp.2014.6853546。
[42] S.Smith、J.W.Choi、J.Li、R.Vuduc、J.Park、X.Liu和G.Karypis,《FROSTT:开放稀疏张量和工具的可形成知识库》,http://frostt.io网站/ (2017).
[43] S.Smith、J.Park和G.Karypis,《高性能张量补全优化算法的探索》,载《高性能计算、网络、存储和分析国际会议论文集》,IEEE出版社,2016年,第31:1-31:13页,doi:10.1109/sc.2016.30。
[44] S.Smith、N.Ravindran、N.D.Sidiropoulos和G.Karypis,SPLATT:高效并行稀疏张量矩阵乘法,摘自《2015年IPDPS会议录:IEEE国际并行和分布式处理研讨会》,2015年,第61-70页,doi:10.1109/IPDPS.2015.27。
[45] Z.Song、D.P.Woodruff和H.Zhang,次线性时间正交张量分解,《神经信息处理系统进展》,2016年,https://papers.nips.cc/paper/6495-sublinear-time-orthogonal-tensor-decomposition.pdf。
[46] N.Srebro和T.Jaakkola,加权低阶近似,载于《IMCL-2003:第20届机器学习国际会议论文集》,2003年,第720-727页,https://www.aai.org/Papers/ICML/2003/ICML3-094.pdf。
[47] O.Tamuz、T.Mazeh和S.Zucker,《纠正大量光度光曲线中的系统效应》,《皇家天文学会月刊》,356(2005),第1466-1470页,doi:10.1111/j.1365-2966.2004.08585.x。
[48] M.Udell、C.Horn、R.Zadeh和S.Boyd,《发现的广义低秩模型》。趋势马赫数。学习。,9(2016),第1-118页,doi:10.5561/2200000055·Zbl 1350.68221号
[49] M.Vandecappelle、N.Vervliet和L.D.Lathauwer,规范多元分解的非线性最小二乘更新,《第25届欧洲信号处理会议论文集》,IEEE,2017年,第663-667页,doi:10.23919/EUSIPCO.2017.8081290。
[50] A.Vergara、J.Fonollosa、J.Mahiques、M.Trincavelli、N.Rulkov和R.Huerta,《关于使用抑制性支持向量机的开放采样系统中气体传感器阵列的性能》,《传感器和执行器B化学》,185(2013),第462-477页,doi:10.1016/J.snb.2013.05.027。
[51] N.Vervliet和L.De Lathauwer,大规模张量正则多元分解的随机块抽样方法,IEEE J.Sel。顶部。信号处理。,10(2016),第284-295页,doi:10.1109/JSTSP.2015.2503260。
[52] N.Vervliet,O.Debals和L.De Lathauwer,《Tensorlab 3.0大规模约束和耦合矩阵/张量因式分解的数值优化策略》,载《第50届Asilomar信号、系统和计算机会议论文集》,2016年,第1733-1738页,doi:10.1109/ACSSC.2016.7869679。
[53] Y.Wang、H.Y.Tung、A.J.Smola和A.Anandkumar,通过草图快速保证张量分解,《神经信息处理系统进展》,2015年第28期,第991-999页,http://papers.nips.cc/paper/5944-fast-and-guaranteed-tensor-decomposition-via-sketching.pdf。
[54] M.Welling和M.Weber,正张量因式分解,模式识别字母,22(2001),pp.1255-1261,doi:10.1016/S0167-8655(01)00070-8·Zbl 0990.68123号
[55] D.P.Woodruff,素描作为数字线性代数的工具,发现。趋势理论。计算。科学。,10(2014),第1-157页,doi:10.1561/0400000060·Zbl 1316.65046号
[56] H.H.Yue和M.Tomoyasu,加权主成分分析及其在改善FDC性能中的应用,《第43届IEEE决策与控制会议论文集》,IEEE,2004,doi:10.1109/cdc.2004.1429421。
[57] P.Zhao和T.Zhang,使用分层抽样加速小批量随机梯度下降,arXiv:1405.3080v1[stat.ML],2014年。
[58] P.Zhao和T.Zhang,正则化损失最小化的重要性抽样随机优化,《第32届国际机器学习会议论文集》,2015年,第1-9页,http://proceedings.mlr.press/v37/zhaoa15.html。
[59] G.Zhou,A.Cichocki,S.Xie,低多重线性秩大张量的分解,arXiv:1412.18852014。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。