×

具有收敛性和统计保证的张量典型相关分析。 (英语) Zbl 07499913号

摘要:在许多应用中,例如图像或视频的分类,由于计算和欠采样问题,开发张量数据的框架,而不是将数据转换为向量的特殊方法是很有意义的。在本文中,我们研究了在数据来自概率模型的假设下,二维正则相关分析的收敛性和统计性质。我们证明了仔细初始化的幂方法收敛到最优,并提供了有限的样本界。然后我们将该框架扩展到张量值数据,并提出张量分解中常用的高阶幂方法来提取正则方向。通过求解具有随机梯度下降的内最小二乘问题,我们的方法可以有效地用于大规模数据集,并且我们通过Lojasiewicz不等式理论证明了收敛性,而不需要对数据生成过程和初始化进行任何假设。对于实际应用,我们进一步开发了(a)一个不精确的更新方案,它允许我们使用最先进的随机梯度下降算法,(b)一个有效的初始化方案,它缓解了非凸优化中的局部最优问题,以及(c)一个用于提取几个典型分量的压缩过程。对台湾地区具有挑战性的数据(包括基因表达和空气污染指数)进行的实证分析表明了该方法的有效性和效率。我们的结果填补了张量数据文献中缺失但至关重要的部分。本文的补充材料可在网上获得。

MSC公司:

62至XX 统计学

软件:

PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Absil,P.-A.公司。;Mahony,R。;Andrews,B.,“分析成本函数的迭代下降法的收敛性”,SIAM优化期刊,16531-547(2005)·Zbl 1092.90036号 ·数字对象标识代码:10.1137/040605266
[2] Absil,P.-A.公司。;Mahony,R。;塞普尔赫里,R。;Van Dooren),Paul,《矩阵流形上的优化算法》(2008),新泽西州普林斯顿:普林斯顿大学出版社,新泽西普林斯顿·Zbl 1147.65043号
[3] Allen-Zhu,Z。;李毅。;Precup,D。;Teh,Y.W.,第34届机器学习国际会议论文集,70),快速CCA和广义特征分解的双加速方法,98-106(2017)
[4] 安德鲁·G。;Arora,R。;Bilmes,J.A。;Livescu,K.,《第三十届机器学习国际会议论文集》,ICML 2013,28,深度典型相关分析,1247-1255(2013),美国佐治亚州亚特兰大:JMLR.org,美国佐治亚州亚特兰大
[5] Arora,R。;科特,A。;Livescu,K。;Srebro,N.,第50届Allerton通信、控制和计算年会,PCA和PLS的随机优化,861-868(2012),IEEE
[6] 阿罗拉,R。;马里诺夫,T.V。;Mianjy,P。;斯雷布罗,N。;盖恩,I。;乌克兰卢克斯堡。;Bengio,S。;瓦拉赫,H。;弗格斯,R。;Vishwanathan,S。;Garnett,R.,《神经信息处理系统的进展》,30,“典型相关分析的随机近似”,4775-4784(2017),Curran Associates,Inc
[7] Bach,F.R.和Jordan,M.I.(2006),“典型相关分析的概率解释”,技术报告688,加州大学伯克利分校统计系,第1-11页。
[8] 巴蒂亚,K。;帕奇亚诺,A。;弗拉马利翁,N。;Bartlett,P.L。;M.I.乔丹。;Bengio,S。;Wallach,H.M。;拉罗谢尔,H。;Grauman,K。;Cesa Bianchi,北。;Garnett,R.,《神经信息处理系统进展》,第31期:2018年神经信息处理年会,NeurIPS 2018,“Gen-Oja:流式广义特征向量计算的简单高效算法”,7016-7025(2018)
[9] 博尔特,J。;Nguyen,T.P。;Peypouquet,J。;Suter,B.W.,“从误差边界到凸函数一阶下降法的复杂性,数学规划,165,471-507(2017)·Zbl 1373.90076号 ·doi:10.1007/s10107-016-1091-6
[10] B.C.布朗。;布雷,N.L。;Pachter,L.,“表达反映了种群结构,PLOS遗传学,14,e1007841(2018)·doi:10.1371/journal.pgen.1007841
[11] Chen,E.Y.和Chen,R.(2017),“高维动态网络的因子模型:在1981-2015年国际贸易流量时间序列中的应用”,arXiv编号1710.06325。
[12] Chen,E.Y。;Tsay,R.S。;Chen,R.,“高维矩阵变量时间序列的约束因子模型,美国统计协会杂志,115775-793(2020)·Zbl 1445.62143号 ·doi:10.1080/01621459.2019.1584899
[13] Chen,Y.和Wainwright,M.J.(2015),“通过投影梯度下降进行快速低秩估计:一般统计和算法保证”,技术报告,arXiv编号1509.03025v1。
[14] 德·拉绍尔。;De Moor,B。;Vandewalle,J.,“关于高阶张量的最佳秩-1和秩-\(####)逼近”,SIAM矩阵分析与应用杂志,211324-1342(2000)·Zbl 0958.15026号
[15] 德拉特豪沃,L。;De Moor,B。;Vandewalle,J.,“一种多线性奇异值分解,SIAM矩阵分析与应用杂志,211253-1278(2000)·Zbl 0962.15005号
[16] Espig,M.(2015),“高阶张量秩一近似下交替最小二乘优化的收敛性”,arXiv编号1503.05431v1。
[17] Espig,M.、Hackbusch,W.和Khachatryan,A.(2015),“关于张量格式表示中交替最小二乘优化的收敛性”,arXiv编号1506.00062。
[18] Fu,X。;黄,K。;洪,M。;新墨西哥州西迪罗普洛斯。;So,A.M.,“可伸缩和灵活的多视图MAX-VAR标准相关分析,IEEE信号处理汇刊,65,4150-4165(2017)·Zbl 1414.94204号 ·doi:10.1109/TSP.2017.2698365
[19] Fukumizu,K。;巴赫,F.R。;Gretton,A.,“核典型相关分析的统计一致性”,《机器学习研究杂志》,8,361-383(2007)·Zbl 1222.62063号
[20] Gao,C.、Garber,D.、Srebro,N.、Wang,J.和Wang,W.(2017),“随机典型相关分析”,arXiv编号1702.06533v1·Zbl 1446.62158号
[21] Ge,R。;Jin,C。;卡卡德,S.M。;Netrapalli,P。;西德福德,A。;Balcan,M。;Weinberger,K.Q.,第33届国际机器学习会议论文集,ICML 2016,48),大尺度广义特征向量计算和典型相关分析的高效算法,2741-2750(2016),美国纽约州纽约市
[22] 关,Y。;Chu,M.T。;Chu,D.,“基于SVD的最佳秩1张量逼近算法的收敛性分析,线性代数及其应用,55553-69(2018)·Zbl 1397.65055号 ·doi:10.1016/j.laa.2018.06.006
[23] 古普塔,A.K。;Nagar,D.K.,《矩阵变量分布》,查普曼和霍尔/CRC纯数学和应用数学专著和调查,104(2000),佛罗里达州博卡拉顿:查普曼&霍尔/CRC,佛罗里达州波卡拉顿·Zbl 0935.62064号
[24] Haeffele,B.D。;Young,E。;Vidal,R.,第31届机器学习国际会议论文集,ICML 2014,32),结构化低秩矩阵分解:图像处理的优化、算法和应用,2007-2015(2014),中国北京
[25] Hardoon,D.R。;塞德马克,S。;Shawe-Taylor,J.,“典型相关分析:学习方法应用概述,神经计算,16,2639-2664(2004)·Zbl 1062.68134号 ·doi:10.11162/089766042321814
[26] 霍特林,H.,“两组变分之间的关系”,Biometrika,28321(1936)·Zbl 0015.40705号 ·doi:10.1093/biomet/28.3-4.321
[27] 胡,S。;Li,G.,“张量最佳秩一近似中高阶幂方法的收敛速度分析,数值数学,140,993-1031(2018)·Zbl 1404.65035号 ·doi:10.1007/s00211-018-0981-3
[28] Jendoubi,T。;Strimmer,K.,“Omics数据集成概率标准相关分析的白化方法”,BMC生物信息学,20,15(2019)·doi:10.1186/s12859-018-2572-9
[29] Jin,C。;毛,W。;张,R。;Zhang,Y。;薛,X。;博内,B。;Koenig,S.,第二十届AAAI人工智能会议论文集,通过典型相关分析进行跨模式图像聚类,151-159(2015),美国德克萨斯州奥斯汀:AAAI出版社,德克萨斯州奥斯丁,美国
[30] 约翰逊,R。;张,T。;伯格斯,C.J.C。;博图,L。;韦林,M。;加赫拉马尼,Z。;Weinberger,K.Q.,《神经信息处理系统的进展》,26),《使用预测方差减少加速随机梯度下降》,315-323(2013),Curran Associates,Inc
[31] 卡里米,H。;Nutini,J。;施密特,M.W。;Frasconi,P。;北兰德维尔。;Manco,G。;Vreeken,J.,《数据库中的机器学习和知识发现——欧洲会议》,ECML PKDD 2016,9851),Polyak-Łojasiewicz条件下梯度和近似梯度方法的线性收敛,795-811(2016),意大利Riva del Garda:Springer,Riva del Garda,意大利
[32] Kim,T。;Wong,S。;Cipolla,R.,2007 IEEE计算机学会计算机视觉和模式识别会议(CVPR 2007),2007年6月18-23日,“动作分类的张量典型相关分析”,(2007),美国明尼阿波利斯,明尼苏达州,美国:IEEE计算机社会
[33] 科尔达·T·G。;Bader,B.W.,“张量分解与应用,SIAM评论,51,455-500(2009)·Zbl 1173.65029号 ·doi:10.1137/07070111X
[34] Kollo,T。;冯·罗森,D.,《数学及其应用》,579,《矩阵多元统计》(2005),多德雷赫特:施普林格·Zbl 1079.62059号
[35] 克鲁格,美国。;Qin,S.J.,“典型相关偏最小二乘法,国际会计师联合会论文集,361603-1608(2003)·doi:10.1016/S1474-6670(17)34989-3
[36] Lee,S.H。;Choi,S.,“二维典型相关分析,IEEE信号处理快报,14735-738(2007)·doi:10.10109/LSP.2007.896438
[37] 冷,C。;Tang,C.Y.,“稀疏矩阵图形模型”,《美国统计协会杂志》,1071187-1200(2012)·Zbl 1443.62194号 ·doi:10.1080/01621459.2012.706133
[38] Li,G.等人。;Pong,T.K.,“Kurdyka-Łojasiewicz不等式的指数演算及其在一阶方法线性收敛中的应用,计算数学基础,18,1199-1232(2018)·Zbl 1405.90076号 ·doi:10.1007/s10208-017-9366-8
[39] 李毅。;马,C。;陈,Y。;Chi,Y。;乔杜里,K。;Sugiyama,M.,《基于秩一测量的非凸矩阵分解》,《机器学习研究论文集》,机器学习研究文献集,891496-1505(2019)
[40] 李,Z。;Uschmajew,A。;Zhang,S.,“关于最大块改进方法的收敛性,SIAM优化杂志,25,210-233(2015)·Zbl 1355.65077号 ·doi:10.1137/130939110
[41] 刘,H。;Wu,W。;所以,A.M.-C。;Balcan,M.F。;Weinberger,K.Q.,第33届机器学习国际会议论文集,48,正交约束二次优化:线性搜索方法的显式Lojasiewicz指数和线性收敛,1158-1167(2016),美国纽约州纽约市
[42] 刘,H。;所以,A.M.-C。;Wu,W.,“带正交约束的二次优化:基于收缩的线性搜索和随机方差减少梯度方法的显式Łojasiewicz指数和线性收敛性,数学规划,178,215-262(2018)·Zbl 1433.65111号 ·doi:10.1007/s10107-018-1285-1
[43] Łojasiewicz,S.(1965),“半分析合奏”,《高等教育科学研究院课程笔记》。
[44] 洛佩斯·帕斯博士。;Sra,S。;Smola,A.J。;加赫拉马尼,Z。;Schölkopf,B.,第31届机器学习国际会议论文集,ICML 2014,32),随机非线性成分分析,1359-1367(2014),中国北京:JMLR.org,中国北京
[45] 卢,H。;Plataniotis,K.N。;Venetsanopoulos,A.N.,“张量数据的多线性子空间学习综述,模式识别,441540-1551(2011)·Zbl 1210.68083号 ·doi:10.1016/j.patcog.2011.01.004
[46] 罗,Y。;陶,D。;Ramamohanarao,K。;徐,C。;Wen,Y.,“多视图降维的张量典型相关分析,IEEE知识与数据工程汇刊,273111-3124(2015)·doi:10.1109/TKDE.2015.2445757
[47] 罗,Z.-Q。;Tseng,P.,“可行下降法的误差界和收敛性分析:一般方法”,《运筹学年鉴》,46,157-178(1993)·Zbl 0793.90076号
[48] 马,Z。;卢,Y。;福斯特,D.P。;巴赫,F.R。;Blei,D.M.,《第32届机器学习国际会议论文集》,ICML 2015,37,《利用可伸缩的典型相关分析发现大数据集中的线性结构》,169-178(2015),里尔:法国,里尔
[49] 曼彻,A.M。;Dutilleul,P.,“张量正态分布的最大似然估计:算法、最小样本量以及经验偏差和色散”,《计算与应用数学杂志》,239,37-49(2013)·Zbl 1255.65029号 ·doi:10.1016/j.cam.2012.09.017
[50] Michaeli,T。;王,W。;Livescu,K。;Balcan,M。;Weinberger,K.Q.,《第33届国际机器学习会议论文集》,ICML 2016,48,非参数典型相关分析,1967-1976(2016),美国纽约市
[51] Mroueh,Y.、Marcheret,E.和Goel,V.(2016),“非对称加权CCA和分层核心句子嵌入用于图像和文本检索”,arXiv编号1511.06267v5。
[52] Novembre,J。;约翰逊,T。;Bryc,K。;库塔利克,Z。;博伊科,A.R。;Auton,A。;Indap,A。;金·K·S。;Bergmann,S。;Nelson,M.R。;斯蒂芬斯,M。;Bustamante,C.D.,“基因反映了欧洲的地理,自然,45698-101(2008)·doi:10.1038/nature07331
[53] Ohlson,M。;Rauf Ahmad,M。;von Rosen,D.,“多元正态分布:导论和一些基本性质”,《多元分析杂志》,113,37-47(2013)·Zbl 1354.60015号 ·doi:10.1016/j.jmva.2011.05.015
[54] 帕克·D。;Kyrillidis,A。;Caramanis,C。;Sanghavi,S。;辛格,A。;Zhu,X.J.,《第20届国际人工智能与统计会议论文集》,AISTATS 2017,54),《通过Burr-Monteiro方法实现无伪局部极小值的非方阵传感》,65-74(2017),美国佛罗里达州劳德代尔堡
[55] 帕克·D。;Kyrillidis,A。;Caramanis,C。;Sanghavi,S.,“通过非凸矩阵因式分解找到低秩解决方案,高效且显著,SIAM成像科学杂志,11,2165-2204(2018)·Zbl 1419.90065号
[56] Pearson,K.,“关于最接近空间点系的直线和平面,伦敦、爱丁堡和都柏林哲学杂志和科学杂志,2559-572(1901)·doi:10.1080/1478644109462720
[57] 彼得斯,J。;Janzing,D。;Schölkopf,B.,《因果推理的要素》(2017),马萨诸塞州坎布里奇:麻省理工学院出版社·Zbl 1416.62012年
[58] Regalia,P.A。;Kofidis,E.,IEEE声学、语音和信号处理国际会议。ICASSP 2000,《重新审视高阶幂方法:收敛证明和有效初始化》,2709-2712(2000),土耳其伊斯坦布尔
[59] 萨法亚尼,M。;艾哈迈迪·S·H。;阿夫拉班佩,H。;Mirzaei,A.,“基于EM的概率二维CCA及其在人脸识别中的应用,应用智能,48,755-770(2018)·doi:10.1007/s10489-017-1012-2
[60] 施耐德,R。;Uschmajew,A.,“通过Łojasiewicz不等式对各种低秩矩阵投影线性搜索方法的收敛结果,SIAM优化杂志,25,622-646(2015)·Zbl 1355.65079号 ·doi:10.1137/140957822
[61] 沙列夫·施瓦茨,S。;Zhang,T.,“正则化损失最小化的随机双坐标上升法”,《机器学习研究杂志》,14,567-599(2013)·Zbl 1307.68073号
[62] 夏尔马,S.K。;克鲁格,美国。;Irwin,G.W.,“基于通货紧缩的非线性典型相关分析,化学计量学和智能实验室系统,83,34-43(2006)·doi:10.1016/j.chemolab.2005.12.008
[63] Sun,C。;Dai,R.,2017年美国控制会议,ACC 201,非凸二次约束二次规划的一种分解方法,4631-4636(2017),西雅图,华盛顿州,美国:IEEE,华盛顿州西雅图
[64] Sun,S.,“多视图机器学习、神经计算和应用的调查,232031-2038(2013)·doi:10.1007/s00521-013-1362-6
[65] Sun,T。;Chen,S.,“类标签与基于样本标签的CCA,应用数学与计算,185,272-283(2007)·Zbl 1109.62053号 ·doi:10.1016/j.amc.2006.06.103
[66] Tan,K.M。;王,Z。;刘,H。;Zhang,T.,“稀疏广义特征值问题:基于截断瑞利流的最优统计率”,《皇家统计学会杂志》,B辑,80,1057-1086(2018)·Zbl 1407.62212号 ·doi:10.1111/rssb.12291
[67] Uschmajew,A.,“高阶幂方法和推广的新收敛证明”,《太平洋优化杂志》,11,309-321(2015)·Zbl 1339.65054号
[68] 维塔,J。;Li,B。;诺德豪森,K。;Oja,H.,“张量值数据的独立分量分析,多变量分析杂志,162172-192(2017)·Zbl 1381.62107号 ·doi:10.1016/j.jmva.2017.09.008
[69] 维塔,J。;Li,B。;诺德豪森,K。;Oja,H.,“张量值观测的JADE,计算与图形统计杂志,27,628-637(2018)·Zbl 07498938号
[70] 王,D。;刘,X。;Chen,R.,“矩阵值高维时间序列的因子模型,计量经济学杂志,208,231-248(2019)·Zbl 1452.62684号 ·doi:10.1016/j.jeconom.2018.09.013
[71] Wang,J。;科拉尔,M。;斯雷布罗,N。;张,T。;Precup,D。;Teh,Y.W.,《第34届机器学习国际会议论文集》,70),《稀疏高效分布式学习》,3636-3645(2017)
[72] Wang,J。;王,W。;加伯,D。;斯雷布罗,N。;Janoos,F。;莫赫里,M。;Sridharan,K.,算法学习理论,ALT 2018。《机器学习研究论文集》,83,《高效的坐标系领先特征向量计算》,806-820(2018)·兹比尔1406.65025
[73] 王,W。;Wang,J。;加伯,D。;斯雷布罗,N。;Lee,D.D。;杉山,M。;乌克兰卢克斯堡。;盖恩,I。;Garnett,R.,《神经信息处理系统的进展》,29,“用于典型相关分析的高效全局收敛随机优化”,766-774(2016),Curran Associates,Inc
[74] Wang,W.,Yan,X.,Lee,H.和Livescu,K.(2016),“深度变分典型相关分析”,arXiv第1610.03454号。
[75] 温,Z。;尹,W。;Zhang,Y.,“用非线性连续超松弛算法求解矩阵完备的低秩因子分解模型,数学规划计算,4333-361(2012)·Zbl 1271.65083号 ·doi:10.1007/s12532-012-0044-1
[76] 沃纳,K。;Jansson,M。;Stoica,P.,“关于用Kronecker积结构估计协方差矩阵,IEEE信号处理汇刊,56478-491(2008)·Zbl 1390.94472号 ·doi:10.1009/TSP.2007.907834
[77] 徐,P。;他,文学博士。;Sa、C.D。;米利亚卡斯,I。;Ré,C。;Storkey,A.J。;Pérez-Cruz,F.,《人工智能与统计国际会议》,AISTATS 2018,84,《加速随机功率迭代》,58-67(2018),西班牙加那利群岛兰扎罗特帕亚布兰卡
[78] Xu,Y。;Yin,W.,“正则化多凸优化的块坐标下降法及其在非负张量分解和完成中的应用,SIAM成像科学杂志,61758-1789(2013)·Zbl 1280.49042号 ·数字对象标识代码:10.1137/120887795
[79] 杨,J。;张,D。;Frangi,A.F。;Yang,J.-Y.,“二维PCA:基于外观的人脸表示和识别的新方法,IEEE模式分析和机器智能汇刊,26,131-137(2004)·doi:10.1109/tpami.2004.1261097
[80] Yang,M。;孙,Q。;夏,D。;黄,D。;Wunsch,D.C。;莱文,D.S。;Jo,K.,《高级智能计算理论与应用》。《当代智能计算技术方面》,第四届智能计算国际会议,ICIC 2008,二维偏最小二乘及其在图像识别中的应用,208-215(2008),中国上海:施普林格,中国上海·Zbl 1148.68003号
[81] Ye,J。;Janardan,R。;Li,Q.,神经信息处理系统进展,17,“二维线性判别分析”,1569-1576(2004),加拿大不列颠哥伦比亚省温哥华
[82] Yger,F。;贝拉尔,M。;Gasso,G。;Rakotomamonjy,A.,基于矩阵流形的自适应典型相关分析(2012)
[83] 尹,J。;Li,H.,“矩阵正态图形模型中的模型选择和估计,多元分析杂志,107,119-140(2012)·Zbl 1236.62058号 ·doi:10.1016/j.jmva.2012.01.005
[84] Yu,M。;古普塔,V。;科拉尔,M。;拉加万,V。;阿鲁鲁,S。;卡利皮斯,G。;Miele,L。;Wu,X.,2017 IEEE数据挖掘国际会议,ICDM 2017,基于主题的信息级联的影响接收模型,1141-1146(2017),美国路易斯安那州新奥尔良:IEEE计算机学会,美国路易斯安那州新奥良
[85] Yu,M。;古普塔,V。;科拉尔,M。;乔杜里,K。;Sugiyama,M.,《机器学习研究论文集》,机器学习研究文献集,89),《有保障的学习影响-接受网络结构》,1476-1485(2019)
[86] Yu,M。;杨,Z。;赵,T。;科拉尔,M。;王,Z。;Bengio,S。;Wallach,H.M。;拉罗谢尔,H。;Grauman,K。;塞萨·比安奇,N。;Garnett,R.,《神经信息处理系统的进展》,第31期:2018年神经信息处理体系年会,2018年NeurIPS,“用一个观测值证明高斯嵌入”,6765-6775(2018)
[87] Zhang,D.和Zhou,Z.(2005),“(2d)\(####)pca:有效人脸表示和识别的双向二维pca”,神经计算,69,224-231。
[88] 赵,J。;Leng,C.,“利用矩阵协变量进行回归的结构化拉索,统计学,24799-814(2014)·Zbl 1285.62064号 ·doi:10.5705/ss.2012.033
[89] Zhao,T。;王,Z。;刘,H。;科尔特斯,C。;劳伦斯,N.D。;Lee,D.D。;杉山,M。;Garnett,R.,《神经信息处理系统的进展》,第28届:神经信息处理体系年会,低秩矩阵估计的非凸优化框架,559-567(2015)
[90] 周,H。;Li,L.,“正则化矩阵回归,皇家统计学会期刊,B辑,76463-483(2014)·Zbl 07555458号 ·doi:10.1111/rssb.12031
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。