×

多层模型中的矩阵推断和估计。 (英语) Zbl 07451714号

摘要:我们考虑从输出的观测值估计随机多层神经网络(NN)的输入和隐变量的问题。每一层中的隐藏变量都表示为沿行和列的统计交互矩阵。该问题适用于矩阵插补、通过深度生成先验模型进行信号恢复、多任务和混合回归以及学习某些类别的两层NN。针对这个矩阵值推理问题,我们扩展了一种最近发展起来的算法——多层向量近似消息传递。结果表明,所提出的多层矩阵向量近似消息传递算法的性能可以在一定的随机大系统极限下精确预测,其中未知量的维数(N乘以d)随着(N向右箭头)的增加而增加,并且(d)固定。在两层神经网络学习问题中,这种缩放对应于输入特征和训练样本数量增长到无穷大,但隐藏节点数量保持不变的情况。该分析能够精确预测学习的参数和测试误差。

MSC公司:

62M45型 神经网络及从随机过程推断的相关方法
68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 奥宾,B。;安托万,M。;Krzakala,F。;北卡罗来纳州Macris。;Zdeborová,L.,The committee machine:学习双层神经网络中的计算到统计差距,3223-3234(2018)
[2] 巴比尔,J。;Krzakala,F。;北卡罗来纳州Macris。;米奥兰,L。;Zdeborová,L.,高维广义线性模型中的最佳误差和相变,Proc。美国国家科学院。科学。美国,1165451-5460(2019)·Zbl 1416.62421号 ·doi:10.1073/pnas.1802705116
[3] 巴亚提,M。;Montanari,A.,《密集图上消息传递的动力学及其在压缩感知中的应用》,IEEE Trans。《信息论》,57,764-785(2011)·Zbl 1366.94079号 ·doi:10.10109/时间.2010.2094817
[4] 博拉,A。;贾拉尔,A。;价格,E。;Dimakis,A.G.,《使用生成模型的压缩传感》(2017年)
[5] 拜恩,E。;Chatalic,A。;Gribonval,R。;Schniter,P.,通过混合近似消息传递的草图聚类,IEEE Trans。信号处理。,67, 4556-4569 (2019) ·Zbl 07123380号 ·doi:10.1109/tsp.2019.2924585
[6] Cakmak,B。;Winther,O。;Fleury,B.H.,S-AMP:一般矩阵系综的近似信息传递(2014)
[7] Cheng,X。;查特基,新南威尔士州。;Abbasi-Yadkori,Y。;Bartlett,P.L。;Jordan,M.I.,非凸环境下Langevin动力学的夏普收敛速度(2018)
[8] 科特,S.F。;拉奥,B.D。;Kjersti Engan,K。;Kreutz-Delgado,K.,多测量向量线性反问题的稀疏解,IEEE Trans。信号处理。,53, 2477-2488 (2005) ·Zbl 1372.65123号 ·doi:10.1109/tsp.2005.849172
[9] Donoho,D.L。;Maleki,A。;Montanari,A.,压缩感知的消息传递算法,Proc。美国国家科学院。科学。,106, 18914-18919 (2009) ·doi:10.1073/pnas.0909892106
[10] Donoho,D.L。;Maleki,A。;Montanari,A.,压缩感知的消息传递算法,1-5(2010)
[11] Emami,M。;Sahraee-Ardakan,M。;潘迪特,P。;Rangan,S。;Fletcher,A.K.,高维广义线性模型的推广误差(2020)
[12] Fletcher,A.K。;Rangan,S。;Schniter,P.,《高维深层网络推断》(2018)
[13] Fletcher,A.K。;Sahraee-Ardakan,M。;Rangan,S。;Schniter,P.,《期望一致近似推理:推广与收敛》,190-194(2016)
[14] 加布里埃,M。;Manoel,A。;卢诺,C。;巴比尔,J。;麦克里斯,北。;Krzakala,F。;Zdeborová,L.,深度神经网络模型中的熵和互信息(2018)
[15] Hand,P。;Voroninski,V.,《通过经验风险实施深度生成性先验的全球保障》(2017年)·Zbl 1433.94024号
[16] He,H。;文,C-K;Jin,S.,非线性测量的广义期望一致信号恢复,2333-2337(2017),IEEE
[17] Kabashima,Y.,基于信念传播的CDMA多用户检测算法,J.Phys。A: 数学。Gen.,36(2003)·Zbl 1081.94509号 ·doi:10.1088/0305-4470/36/43/030
[18] 卡卡布,M。;Samangouei,P。;Chellappa,R.,《利用生成性对抗网络的任务软件压缩感知》(2018年)
[19] 北克里文。;布瑞尔。;Gribonval,R。;Pérez,P.,《混合模型大规模学习素描》,Inf.Inference A,7447-508(2017)·Zbl 1470.94045号 ·doi:10.1093/imaiai/iax015
[20] 北卡罗来纳州克里文。;Tremblay,N。;Traonmilin,Y。;Gribonval,R.,压缩k-means,6369-6373(2017),IEEE
[21] Kingma,D.P。;Ba,J.,Adam:随机优化方法(2014)
[22] Liang,D。;Ying,L。;Liang,F.,使用M-FOCUSS的并行MRI加速,1-4(2009),IEEE
[23] Liu,J.S.,通过Stein恒等式得出的Siegel公式,Stat.Probab。莱特。,21, 247-251 (1994) ·Zbl 0813.62049号 ·doi:10.1016/0167-7152(94)90121-x
[24] 马,J。;Ping,L.,正交AMP,IEEE Access,52020-2033(2017)·doi:10.1109/access.2017.2653119
[25] Manoel,A。;Krzakala,F。;Mézard,M。;Zdeborová,L.,多层广义线性估计,2098-2102(2017)
[26] 马诺埃尔,A。;Krzakala,F。;瓦罗佐,G。;蒂里昂,B。;Zdeborová,L.,具有不可分离惩罚的凸优化的近似消息传递(2018)
[27] 梅,S。;蒙塔纳里,A。;Nguyen,P-M,双层神经网络景观的平均场视图,Proc。美国国家科学院。科学。美国,115,E7665-E7671(2018)·Zbl 1416.92014号 ·doi:10.1073/pnas.1806579115
[28] Minka,T.P.,近似贝叶斯推断的期望传播,362-369(2001)
[29] 米森,D.G。;Villar,S.,Sunlayer:生成网络的稳定去噪(2018)
[30] Montanari,A。;阮,F。;Sohn,Y。;Yan,J.,最大边缘线性分类器的泛化误差:超参数化状态下的高维渐近性(2019)
[31] Obozinski,G。;Taskar,B。;Jordan,M.,多任务特征选择,《技术报告》,第2页(2006),加州大学统计部:加州大学伯克利分校统计部
[32] 奥珀,M。;Winther,O.,《期望一致近似推断》,J.Mach。学习。研究,62177-2204(2005)·Zbl 1222.68278号
[33] 潘迪特,P。;Sahraee,M。;Rangan,S。;Fletcher,A.K.,深度网络中MAP推断的渐近性,842-846(2019)
[34] 潘迪特,P。;Sahraee-Ardakan,M。;Rangan,S。;Schniter,P。;Fletcher,A.K.,《高维深度生成先验推理》,IEEE J.Sel。区域信息理论,1336(2020)·doi:10.1109/jsait.2020.2986321
[35] Rangan,S。;Schniter,P。;Fletcher,A.K.,向量近似消息传递,IEEE Trans。Inf.理论,65,6664-6684(2019)·Zbl 1432.94036号 ·doi:10.1109/tit.2019.2916359
[36] Reeves,G.,通过加性高斯噪声变换的多层网络中信息的可加性,1064-1070(2017)
[37] 沙阿,V。;Hegde,C.,《使用GAN先验解线性反问题:可证明保证的算法》,4609-4613(2018)
[38] Takeuchi,K.,从单位不变测量中基于期望传播的信号恢复的严格动力学,501-505(2017)
[39] Themelis,A。;Patrinos,P.,Douglas-Rachford分裂和非凸优化的ADMM:紧收敛结果,SIAM J.Optim。,30, 149-181 (2020) ·Zbl 1434.90158号 ·数字对象标识代码:10.1137/18m1163993
[40] Tresp,V.,贝叶斯委员会机器,神经计算。,12, 2719-2741 (2000) ·doi:10.1162/089976600300014908
[41] 特里帕蒂,S。;利普顿,Z.C。;Nguyen,T.Q.,《投影校正:利用生成性对抗网络对图像进行去噪》(2018)
[42] 扎卡拉基斯,G。;Milioris,D。;Tsakalides,P.,使用GSM先验进行DOA估计的多测量贝叶斯压缩感知,2610-2613(2010),IEEE
[43] 维拉尼,C.,《最佳交通:新旧》,第338卷(2008),柏林:施普林格,柏林·Zbl 1156.53003号 ·doi:10.1007/978-3-540-71050-9
[44] 韦林,M。;Yee,W.T.,通过随机梯度进行贝叶斯学习Langevin动力学,681-688(2011)
[45] Yeh,R。;陈,C。;Lim,T.Y。;长谷川约翰逊,M。;Do,M.N.,《感知和语境损失的语义图像修复》(2016)
[46] Yi,X。;Caramanis,C。;Sanghavi,S.,混合线性回归的交替最小化,613-621(2014)
[47] Ziniel,J。;Schniter,P.,多测量向量问题中的高效高维推理,IEEE Trans。信号处理。,61, 340-354 (2013) ·Zbl 1393.94527号 ·doi:10.1109/tsp.2012.222382
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。