×

委员会机器:在学习两层神经网络时,从计算到统计的差距。 (英文) Zbl 1459.82248号

总结:过去,统计物理中的启发式工具被用于定位相变,并计算多层神经网络中师生场景中的最佳学习和泛化错误。在本文中,我们在技术假设下为称为委员会机器的两层神经网络模型提供了这些方法的严格证明。我们还为委员会机器引入了一种近似消息传递(AMP)算法,该算法允许在多项式时间内对大量参数进行最优学习。我们发现,在某些情况下,理论上可以实现较低的泛化误差,而AMP算法无法实现;强烈建议在这些情况下不存在有效的算法,从而暴露出巨大的计算差距。

MSC公司:

82立方32 神经网络在含时统计力学问题中的应用
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Vapnik V 1998统计学习理论(纽约:威利出版社)·Zbl 0935.62007号
[2] Bartlett P L和Mendelson S 2002 Rademacher和Gaussian复杂性:风险边界和结构结果J.Mach。学习。决议3463-82·Zbl 1084.68549号
[3] Seung S、Sompolinsky H和Tishby N 1992年《从实例中学习的统计力学物理》。版次A 45 6056·doi:10.1103/PhysRevA.45.6056
[4] Watkin T L,Rau A和Biehl M 1993学习规则的统计力学Rev.Mod。物理65 499·doi:10.1103/RevModPhys.65.499
[5] Monasson R和Zecchina R 1995大型委员会机器模型的学习和泛化理论。物理学。莱特。B 9 1887-97年·doi:10.1142/S0217984995001868
[6] Monasson R和Zecchina R 1995重量空间结构和内部表示:多层神经网络物理中学习和泛化的直接方法。修订稿75 2432·doi:10.1103/PhysRevLett.75.2432
[7] Engel A和Van den Broeck C P 2001学习统计力学(剑桥:剑桥大学出版社)·Zbl 0984.82034号 ·doi:10.1017/CBO9781139164542
[8] Zhang C、Bengio S、Hardt M、Recht B和Vinyals O 2016理解深度学习需要重新思考泛化(arXiv:1611.03530)(ICLR 2017)
[9] Chaudhari P、Choromanska A、Soatto S、LeCun Y、Baldassi C、Borgs C、Chayes J、Sagun L和Zecchina R 2016 Entropy-sgd:向宽山谷倾斜梯度下降(arXiv:1611.01838)(ICLR 2017)
[10] Martin C H和Mahoney M W 2017重新思考泛化需要重新审视旧思想:统计力学方法和复杂学习行为(arXiv:1710.09553)
[11] Barbier J、Krzakala F、Macris N、Miolane L和ZdeborováL 2019高维广义线性模型Proc中的最优误差和相变。美国国家科学院。科学编号116 5451-60·Zbl 1416.62421号 ·doi:10.1073/pnas.1802705116
[12] Baity Jest M,Sagun L,Mario G,Spiglery S,Ben Arous G,Cammarota C,LeCun Y,Vvyart M和Biroli G 2018比较动力学:深度神经网络与玻璃系统第35届国际机器学习大会第1卷A Krause和J Dy第526-35页(国际机器学习学会)
[13] Mézard M,Parisi G和Virasoro M 1987自旋玻璃理论及其后的发展:复制方法及其应用导论第9卷(新加坡:世界科学)·Zbl 0992.82500号
[14] Mézard M和Montanari A 2009信息、物理和计算(牛津:牛津大学出版社)·Zbl 1163.94001号 ·doi:10.1093/acprof:oso/9780198570837.001.0001
[15] Donoho D L、Maleki A和Montanari A 2009压缩感知程序的消息传递算法。美国国家科学院。科学106 18914-9·doi:10.1073/pnas.0909892106
[16] Rangan S 2011随机线性混合估计的广义近似消息传递IEEE Int.Symp。信息理论程序。第2168-72页
[17] Bayati M和Montanari A 2011密集图上消息传递的动力学,应用于压缩感知IEEE Trans。信息理论57 764-85·Zbl 1366.94079号 ·doi:10.1109/TIT.2010.2094817
[18] Javanmard A和Montanari A 2013年通用近似消息传递算法的状态演化,以及空间耦合Inf推断的应用:J.IMA2 115-44·Zbl 1335.94015号 ·doi:10.1093/imaiai/iat004
[19] Schwarze H 1993在多层神经网络中学习规则J.Phys。A: 数学。第26代5781·Zbl 0938.68790号 ·doi:10.1088/0305-4470/26/21/017
[20] Schwarze H和Hertz J 1992大型委员会机器Europhys中的泛化。信函20 375·doi:10.1209/0295-5075/20/4/015
[21] Schwarze H和Hertz J 1993在完全连接的委员会机器Europhys中的泛化。信函21 785·doi:10.1209/0295-5075/21/7/012
[22] Mato G和Parga N 1992多层神经网络的泛化性质J.Phys。A: 数学。第25代5047·2015年8月8日 ·doi:10.1088/0305-4470/25/19/017
[23] Saad D和Solla S A 1995年在软委员会机器物理中进行在线学习。版次E 52 4225·doi:10.1103/PhysRevE.52.4225
[24] Barbier J和Macris N 2018自适应插值方法:贝叶斯推理Probab中证明副本公式的简单方案。理论关联。字段174 1133-85·Zbl 1478.60253号 ·doi:10.1007/s00440-018-0879-0
[25] Donoho D L、Johnstone I和Montanari A 2013通过连接最小极大去噪IEEE Trans,准确预测压缩传感中的相变。Inf.Theory神学59 3396-433·兹比尔1364.94092 ·doi:10.10109/TIT.2013.2239356
[26] ZdeborováL和Krzakala F 2016推理统计物理:阈值和算法高级物理65 453-552·doi:10.1080/00018732.2016.1211393
[27] Deshpande Y和Montanari A 2015在近似线性时间内发现大小为{N/e}N/e的隐藏集团。计算。数学.151069-128·兹比尔1347.05227 ·doi:10.1007/s10208-014-9215-y
[28] Bandeira A、Perry A和Wein A 2018计算与统计差距注释:使用统计物理端口进行预测。数学75 159-86·Zbl 1486.68118号 ·doi:10.4171/PM/2014年
[29] Safran I和Shamir O(ed)2018伪局部极小值在J Dy和A Krause Proc的双层ReLU神经网络中很常见。第35届国际机器学习大会(瑞典:Stockholmsmässan)第4433-41页
[30] El Alaoui A、Ramdas A、Krzakala F、Zdeborova L和Jordan M 2016从汇集的数据中解码:敏锐的信息理论界SIAM J.Math。数据科学1 161-88·Zbl 1499.62045号 ·doi:10.1137/18M1183339
[31] El Alaoui A、Ramdas A、Krzakala F、ZdeborováL和Jordan M I 2017从汇集数据中解码:消息传递IEEE Int.Symp.的相变。信息论第2780-4页
[32] Zhu J、Baron D和Krzakala F 2017噪声多测量向量问题的性能极限IEEE Trans。信号处理65 2444-54·Zbl 1414.94756号 ·doi:10.1109/TSP.2016.2646663
[33] Guerra F 2003平均场自旋玻璃模型Commun中的破复型对称边界。数学。物理233 1-12·Zbl 1013.82023号 ·doi:10.1007/s00220-002-0773-5
[34] Talagrand M 2003旋转玻璃:数学家的挑战:腔和平均场模型第46卷(纽约:Springer)·Zbl 1033.82002号
[35] Thouless D J、Anderson P W和Palmer R G 1977“自旋玻璃的可解模型”的解Phil.Mag.35 593-601·doi:10.1080/14786437708235992
[36] Mézard M 1989神经网络中的相互作用空间:加德纳用腔方法J.Phys进行的计算。A: 数学。第22代2181-90·doi:10.1088/0305-4470/22/018
[37] Opper M和Winther O 1996前馈神经网络中贝叶斯学习的平均场方法。修订稿76 1964·doi:10.1103/PhysRevLett.76.1964
[38] Kabashima Y 2008从相关模式推断:感知器学习和线性向量通道的统一理论J.Phys.:符合序列号95 012001·doi:10.1088/1742-6596/95/1/012001
[39] Baldassi C、Braunstein A、Brunel N和Zecchina R 2007在具有二进制突触的网络中进行高效监督学习。美国国家科学院。科学.104 11079-84·doi:10.1073/pnas.0700324104
[40] Aubin B、Maillard A、Barbier J、Krzakala F、Macris N和ZdeborováL 2018年AMP委员会机器的实施https://github.com/benjaminubin/TheCommitteeMachine(https://吉特胡布.com/benJaminubin)
[41] Reeves G,Pfister H D和Dytso A 2018线性高斯信道的互信息作为矩阵信噪比的函数IEEE Int.Symp。论信息论第1754-8页
[42] PayaróM、Gregori M和Palomar D 2011另一个熵权不平等与无线通信和信号处理国际会议应用,第1754-8页
[43] Lamarca M 2009用于mimo系统中相互信息最大化的线性预编码第6国际交响乐团。关于无线通信系统第26-30页
[44] Barbier J 2019最优贝叶斯推断中的重叠矩阵集中(arXiv:1904.02808)
[45] Barbier J和Macris N 2019证明复制公式的自适应插值方法。应用于居里-维斯和维格纳-斯派克模型J.Phys。A: 数学。理论52 294002·Zbl 1509.82018年8月 ·doi:10.1088/1751-8121/ab2735
[46] Barbier J、Luneau C和Macris N 2019低阶均匀对称张量因式分解的互信息(arXiv:1904.04565)
[47] Sagun L、Guney V U、Arous G B和LeCun Y 2014高维景观探索(arXiv:1412.6615)
[48] Hartman P 1982常微分方程:第二版(应用数学经典)(宾夕法尼亚州费城:SIAM)
[49] Gardner E和Derrida B 1988神经网络模型的最佳存储特性J.Phys。A: 数学。第21代271·doi:10.1088/0305-4470/21/031
[50] Barbier J、Macris N、Dia M和Krzakala F 2017随机线性估计中近似消息传递的互信息和优化(arXiv:1701.05823)
[51] Opper M和Kinzel W 1996神经网络泛化模型的统计力学(纽约:Springer)第151-209页·doi:10.1007/978-1-4612-0723-85
[52] Barbier J和Krzakala F 2017近似消息传递解码器和容量实现稀疏叠加码IEEE Trans。Inf.Theory公司63 4894-927·Zbl 1372.94387号 ·doi:10.1109/TIT.2017.2713833
[53] Wainwright M J et al 2008发现图形模型、指数族和变分推理。Trends®马赫数。学习。1 1-305·Zbl 1193.62107号
[54] Bayati M等人2015年多面体相变和消息传递算法的普遍性附录。概率25753-822·Zbl 1322.60207号 ·doi:10.1214/14-AAP1010
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。