×

利用稀疏矩阵重排序和增量方法实现快速准确的伪逆。 (英语) Zbl 1523.65037号

马赫。学习。 109,第12期,2333-2347(2020); 更正同上110,第3号,619-620(2021)。
摘要:如何高效准确地计算稀疏特征矩阵的伪逆以解决优化问题?伪逆是矩阵逆的推广,它被广泛用作机器学习中求解线性系统的基本构造块。然而,伪逆的近似计算(更不用说精确计算)非常耗时,因为它要求时间复杂,这限制了它在大数据中的应用。本文提出了一种新的基于增量奇异值分解(SVD)的稀疏矩阵伪逆方法FastPI(Fast Pseudo Inverse)。基于对现实世界中许多特征矩阵稀疏且高度倾斜的观察,FastPI对特征矩阵进行重新排序和划分,并从划分的分量中增量计算低秩SVD。为了证明所提出的FastPI的有效性,我们将其应用于实际的多标签线性回归问题。通过大量的实验,我们证明了FastPI计算伪逆的速度比其他近似方法更快,而且不损失精度。结果表明,我们的方法可以有效地计算大型稀疏矩阵的低秩伪逆,而其他现有方法无法在有限的时间和空间内处理这些伪逆。

MSC公司:

65层20 超定系统伪逆的数值解
15A09号 矩阵反演理论与广义逆
62J05型 线性回归;混合模型
65层50 稀疏矩阵的计算方法
68T05型 人工智能中的学习和自适应系统

软件:

RCV1型;快速XML
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 巴格拉马,J。;Reichel,L.,《增强隐式重新启动的lanczos双对角化方法》,SIAM科学计算杂志,27,1,19-42(2005)·Zbl 1087.65039号 ·数字对象标识码:10.1137/04060593X
[2] Ben-Israel,A。;田纳西州格雷维尔,《广义逆:理论与应用》(2003),柏林:施普林格科学与商业媒体,柏林·Zbl 1026.15004号
[3] 布兰德,M.(2003)。轻量级推荐系统的快速在线SVD修订。摘自:2003年SIAM数据挖掘国际会议记录,SIAM,第37-46页。
[4] Chen,Y.N.,Lin,H.T.(2012)。针对多标签分类的特征感知标签空间降维。在:神经信息处理系统的进展,第1529-1537页。
[5] Feng,X.,Xie,Y.,Song,M.,Yu,W.,Tang,J.(2018)。稀疏数据的快速随机PCA。摘自:亚洲机器学习会议,第710-725页。
[6] Golub,生长激素;Van Loan,CF,矩阵计算(2012),巴尔的摩:JHU出版社,巴尔的摩尔·Zbl 0865.65009号
[7] 顾,M。;Eisenstat,SC,计算强秩揭示QR分解的高效算法,SIAM科学计算杂志,17,4,848-869(1996)·Zbl 0858.65044号 ·doi:10.1137/0917055
[8] 郭鹏、赵德、韩明、冯斯(2019)。伪逆学习者:大数据的新趋势和应用。In:INNS大数据和深度学习会议,Springer,第158-168页。
[9] 北哈尔科。;马丁森,PG;Tropp,JA,《寻找随机结构:构建近似矩阵分解的概率算法》,SIAM Review,53,2,217-288(2011)·Zbl 1269.65043号 ·数字对象标识代码:10.1137/090771806
[10] He,D。;库恩,D。;Parida,L.,《多任务学习和多输出回归在多基因性状预测中的新应用》,生物信息学,32,12,i37-i43(2016)·doi:10.1093/bioinformatics/btw249
[11] Horata,P。;Chiewchanwattana,S。;Sunat,K.,《稳健极限学习机器》,神经计算,102,31-44(2013)·doi:10.1016/j.neucom.2011.12.045
[12] Jung,J。;Shin,K。;塞尔·L。;Kang,U.,使用块消除在大型图上重新启动的随机行走,ACM数据库系统事务(TODS),41,2,1-43(2016)·Zbl 1474.68105号 ·doi:10.1145/2901736
[13] Jung,J.、Park,N.、Sael,L.、Kang,U.(2017年)。BePI:一种快速且节省内存的方法,用于十亿规模的重新启动随机行走。参加:美国北卡罗来纳州罗利市ACM出版社ACM国际数据管理会议(SIGMOD)。
[14] Kang,U.,Faloutsos,C.(2011年)。超越“穴居人社区”:用于图形压缩和挖掘的中心和辐条。摘自:第11届IEEE数据挖掘国际会议,ICDM 2011,加拿大不列颠哥伦比亚省温哥华,2011年12月11日至14日,第300-309页。
[15] Katakis,I.,Tsoumakas,G.,Vlahavas,I.(2008年)。自动标签建议的多标签文本分类。摘自:ECML/PKDD会议记录,第18卷。
[16] 刘易斯,DD;Yang,Y。;罗斯,TG;Li,F.,Rcv1:文本分类研究的新基准集合,机器学习研究杂志,5361-397(2004)
[17] Lim,Y。;Kang,U。;Faloutsos,C.,Slashburn:《洞穴人社区以外的图形压缩和挖掘》,IEEE知识与数据工程学报,26,12,3077-3089(2014)·doi:10.1109/TKDE.2014.2320716
[18] 麦考利,J.,莱斯科韦茨,J.(2013)。隐藏因素和隐藏主题:通过回顾文本了解评级维度。摘自:第七届ACM推荐系统会议记录,ACM,第165-172页。
[19] Mencia,E.L.,Fürnkranz,J.(2008)。法律领域中大规模问题的有效成对多标签分类。摘自:关于数据库中的机器学习和知识发现的欧洲联合会议,Springer,第50-65页。
[20] Prabhu,Y.,Varma,M.(2014)。Fastxml:用于极端多标签学习的快速、准确和稳定的树分类器。摘自:第20届ACM SIGKDD知识发现和数据挖掘国际会议论文集,ACM,第263-272页。
[21] DA罗斯;Lim,J。;林,RS;Yang,MH,鲁棒视觉跟踪的增量学习,国际计算机视觉杂志,77,1-3,125-141(2008)·doi:10.1007/s11263-007-0075-7
[22] Spyromitros-Xioufis,E。;Tsoumakas,G。;格罗夫斯,W。;Vlahavas,I.,《通过输入空间扩展的多目标回归:将目标视为输入》,机器学习,104,1,55-98(2016)·Zbl 1454.68134号 ·doi:10.1007/s10994-016-5546-z
[23] Strang,G.,《线性代数及其应用》(2006年),布鲁克斯/科尔:汤姆森、布鲁克斯/克尔·Zbl 1329.15004号
[24] 特里芬,LN;Bau III,D.,数值线性代数(1997),新德里:新德里SIAM·Zbl 0874.65013号 ·doi:10.1137/1.9780898719574
[25] Xu,B.,Guo,P.(2018)。用于快速稀疏自动编码器训练的伪逆学习算法。2018年IEEE进化计算大会(CEC),IEEE,第1-6页。
[26] Yu,H.F.、Jain,P.、Kar,P.和Dhillon,I.(2014)。缺少标签的大规模多标签学习。摘自:机器学习国际会议,第593-601页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。