×

神经网络的平均场推理方法。 (英语) Zbl 1514.68248号

摘要:基于深度神经网络的机器学习算法最近在人工智能领域实现了巨大的飞跃。尽管这些算法的应用很受欢迎,但从理论角度来看,它们的效率在很大程度上仍然无法解释。学习问题的数学描述涉及大量相互作用的随机变量,难以用解析和数值方法处理。这种复杂性正是统计物理研究的对象。它最初针对自然系统的任务是理解宏观行为是如何从微观规律中产生的。平均场方法是在这种观点下发展起来的一种近似策略。我们回顾了一些经典的平均场方法以及与神经网络推理相关的最新进展。特别是,我们提醒高温膨胀的推导原理、复制方法和消息传递算法,强调它们的等效性和互补性。我们还为过去和当前基于平均场方法的神经网络研究方向提供了参考。

MSC公司:

68T05型 人工智能中的学习和自适应系统
92B20型 生物研究、人工生命和相关主题中的神经网络
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abbara A、Aubin B、Krzakala F和ZdeborováL 2019 Rademacher复杂性和自旋玻璃:复制与学习统计理论之间的联系(arXiv:1912.02729)
[2] Antenucci F、Franz S、Urbani P和ZdeborováL 2019推理问题硬阶段的Glassy性质Phys。修订版X 9 11020·doi:10.1103/physrevx.9.011020
[3] Amit D J、Gutfreund H和Sompolinsky H 1985在神经网络物理的自旋类模型中存储无限数量的模式。修订稿55 1530-3·doi:10.1103/physrevlett.55.1530
[4] Ackley D H,Hinton G E和Sejnowski J 1985玻尔兹曼机Cogn的学习算法。科学9 147-69·doi:10.1207/s15516709cog0901_7
[5] Antenucci F、Krzakala F、Urbani P和ZdeborováL 2019统计推断的近似调查传播J.Stat.Mech。023401 ·Zbl 07382784号 ·doi:10.1088/1742-5468/aafa7d
[6] Advani M,Lahiri S和Ganguli S 2013复杂神经系统的统计力学和高维数据J.Stat.Mech。P03014号·Zbl 1456.82801号 ·doi:10.1088/1742-5468/2013/03/p03014
[7] Aubin B、Loureiro B、Antoine M、Krzakala F和ZdeborováL 2019具有生成先验的尖峰矩阵模型(arXiv:1905.12385)
[8] Aubin B、Antoine M、Barbier J、Krzakala F、Macris N和ZdeborováL 2018委员会机器:学习两层神经网络的计算到统计差距2018神经信息处理系统(编号NeurIPS)第1-44页
[9] Advani M S和Saxe A M 2017神经网络1-32泛化误差的高维动力学(arXiv:1710.03667)
[10] Baldassi C、Borgs C、Chayes J T、Ingrosso A、Lucibello C、Saglietti L和Zecchina R 2016学习神经网络的不合理有效性:从可访问状态和鲁棒集成到基本算法方案Proc。美国国家科学院。科学。美国113 E7655-62·doi:10.1073/pnas.1608103113
[11] Broderick T、Boyd N、Andre W、Wilson A C和Jordan M I 2013年流式变分贝叶斯神经信息处理系统2013年第1-9页
[12] Bengio Y、Courville A和Vincent P,2013代表学习:回顾和新观点IEEE Trans。模式分析。机器。情报35 1798-828·doi:10.1109/tpami.2013.50
[13] Bethe H 1935超晶格统计理论。R.Soc.A 150 552号·Zbl 0012.04501号 ·文件编号:10.1098/rspa.1935.0122
[14] Baldassi C、Gerace F、Kappen H J、Lucibello C、Saglietti L、Tartaglione E和Zecchina R 2018突触随机性在训练低精度神经网络Phys.中的作用。修订版Lett.120 268103·doi:10.1103/physrevlett.120.268103
[15] Barra A、Genovese G、Peter S和Tantari D,2017年,具有通用前Phys的受限Boltzmann机器中的相变。版本E 96 1-5·doi:10.1103/physreve.96.042156
[16] Barra A、Genovese G、Peter S和Tantari D,2018受限Boltzmann机器和具有任意先验物理的广义Hopfield网络的相图。版次E 97 022310·doi:10.1103/physreve.97.022310
[17] Baldassi C、Ingrosso A、Lucibello C、Saglietti L和Zecchina R 2015次优势密集簇允许在具有离散突触Phy的神经网络中实现简单的学习和高计算性能。修订稿115 1-5·doi:10.1103/physrevlett.115.128101
[18] Bora A、Jalal A、Price E和Dimakis A G 2017使用生成模型的压缩传感第537-46页
[19] Baity-Jesi M、Sagun L、Geiger M、Spigler S、Ben Arous G、Cammarota C、LeCun Y、Wyart M和Biroli G 2018比较动力学:深层神经网络与玻璃系统Proc。第35届机器学习国际会议PMLR(80)第314-23页
[20] Blei D M,Kukukelbir A和McAuliffe J D 2017变分推理:统计学家J.Am.Stat.Assoc.112 859-77综述·doi:10.1080/01621459.2017.1285773
[21] Barbier J、Krzakala F、Macris N、Miolane L和ZdeborováL 2018广义线性模型Proc中的相变、最佳误差和消息传递的最佳性。第31届学习理论大会PMLR 75 pp 728-31
[22] Bengio Y、Pascal L、Popovici D和Larochelle H 2007深度网络高级神经信息处理贪婪分层培训。系统19 153
[23] Bartlett P L和Mendelson S 2002 Rademacher和Gaussian复杂性:风险边界和结构结果J.Mach。学习。第3号决议463-82·Zbl 1084.68549号
[24] Bolthausen E 2014 Sherrington-Kirkpatrick模型Commun抽头方程解的迭代构造。数学。物理325 333-66·Zbl 1288.82038号 ·文件编号:10.1007/s00220-013-1862-3
[25] Bottou L 2010具有随机梯度下降过程的大规模机器学习。2010年COMPSTAT(海德堡:Physica-Verlag HD)第177-86页·Zbl 1436.68293号
[26] Biehl M和Schwarze H 1995通过在线梯度下降学习J.Phys。A: 数学。第28代643-56·Zbl 0960.68635号 ·doi:10.1088/0305-4470/28/3/018
[27] Chizat L和Bach F 2018关于监督可微编程中懒惰训练的注释(arXiv:812.07956)
[28] Chizat L和Bach F 2018关于使用最优传输高级神经网络过程的超参数模型梯度下降的全局收敛性。系统31 3040-50
[29] Carleo G、Cirac I、Cranmer K、Daudet L、Schuld M、Tishby N、Vogt-Maranto L和ZdeborováL 2019机器学习和物理科学修订版。物理91 045002·doi:10.1103/revmodphys.91.045002
[30] Castellani T、Cavagna A、Fisica D和Aldo Moro P 2005行人旋转玻璃理论J.Stat.Mech。P05012号·Zbl 1456.82490号 ·doi:10.1088/1742-5468/2005/05/P05012
[31] Cohen U、Chung SueY、Lee D D和Sompolinsky H 2020深部神经网络中对象流形的可分性和几何学Nat.Commun.11 746·doi:10.1038/s41467-020-14578-5
[32] Chaudhari P、Anna C、Soatto S、Lecun Y、Baldassi C、Borgs C、Chayes J、Sagun L和Zecchina R 2017熵SGD:偏向梯度下降到宽谷学习表征国际会议(ICLR)第1-19页
[33] Anna C、Henaff M、Mathieu M、Ben Arous G和LeCun Y 2015多层网络的损失面人工智能和统计第38卷PMLR pp 192-204
[34] Crisanti A、Horner H和Sommers H J 1993《球旋相互作用自旋玻璃模型Z.Phys》。B 92 257-71号·doi:10.1007/bf01312184
[35] Cugliandolo L F和Kurchan J 1993长程自旋玻璃模型Phys非平衡动力学的分析解。修订版Lett.71 173-6·doi:10.1103/physrevlett.71.173
[36] Chung S、Lee D D和Sompolinsky H 2018一般感知流形的分类和几何物理。修订版X 8 31003·doi:10.1103/physrevx.8.031003
[37] Coates A、Ng A Y和Lee H 2011《无监督特征学习国际人工智能与统计会议单层网络分析》第215-23页
[38] 具有随机耦合矩阵Phys的任意旋转变系综的Ising模型的Thouless-Anderson-Palmer方程的无记忆动力学。修订版E 99 062140·doi:10.1103/physreve.99.062140
[39] Cho K、Raiko T和Alexander I 2010平行回火对于学习受限的Boltzmann机器程序非常有效。神经网络国际联合会议·doi:10.1109/IJCNN.2010.5596837
[40] Crisanti A和Sompolinsky H 1988随机不对称键自旋系统动力学:伊辛自旋和Glauber动力学物理学。版次A 37 4865-74·doi:10.1103/physreva.37.4865
[41] 居里·P 1895《财富的实验》(Lois expérimentales du magnétisme)。《兵团财产》杂志Ann.Chem。物理5 289-405
[42] Cybenko G 1989西格玛函数叠加逼近数学。控制信号系统2 303-14·Zbl 0679.94019号 ·doi:10.1007/bf02551274
[43] Daniely A 2017第30届学习理论大会(神经网络深度分离)第65卷第1-7页(arXiv:1702.08489)
[44] Desjardins G、Courville A、Bengio Y、Vincent P和Olivier D 2010限制Boltzmann机器训练的平行回火程序。第13届国际人工智能与统计会议(AISTATS)第9卷第145-52页
[45] Decelle A、Fissoor G和Furtlehner C 2017限制Boltzmann机器Europhys中学习的光谱动力学。信函119 60001·Zbl 1407.82041号 ·doi:10.1209/0295-5075/119/60001
[46] Decelle A、Fissoor G和Furtlehner C 2018受限Boltzmann机器的热力学和相关学习动力学J.Stat.Phys.172 1576-608·Zbl 1407.82041号 ·doi:10.1007/s10955-018-2105-y
[47] Dremeau A、Herzet C和Daudet L 2012 Boltzmann机器和结构化稀疏分解的平均场近似IEEE Trans。信号处理60 3425-38·Zbl 1393.94680号 ·doi:10.1109/tsp.2012.2192436
[48] Donoho D L、Maleki A和Montanari A 2009压缩感知程序的消息传递算法。美国国家科学院。科学106 18914-9·doi:10.1073/pnas.0909892106
[49] Donoho D L 2006压缩传感IEEE Trans。信息理论52 1289-306·Zbl 1288.94016号 ·doi:10.1109/tit.2006.871582
[50] De Dominicis C和Young A P 1983无限范围伊辛自旋玻璃J.Phys的加权平均值和序参数。A: 数学。第16代2063-75·doi:10.1088/0305-4470/16/9/028
[51] Engel A和Van den Broeck C 2001《学习的统计力学》(剑桥:剑桥大学出版社)·Zbl 0984.82034号 ·doi:10.1017/CBO9781139164542
[52] Fletcher A K、Rangan S和Schniter P 2018高维深层网络推断2018 IEEE国际交响乐团。信息理论(ISIT)第1卷第1884-8页·doi:10.1109/ISIT.2018.8437792
[53] Galland C C 1993确定性Boltzmann机器学习网络的局限性4 355-79·Zbl 0787.68087号 ·doi:10.1088/0954-898x4_3_007
[54] Gardner E 1987神经网络中的最大存储容量Europhys。信函4 481-5·doi:10.1209/0295-5075/4/4/016
[55] Gardner E 1988神经网络模型中的交互空间J.Phys。A: 通用物理21 257-70·Zbl 1128.82302号 ·doi:10.1088/0305-4470/21/030
[56] Goldt S、Advani M S、Saxe A M、Krzakala F和ZdeborováL 2019师生设置神经信息处理系统中两层神经网络的随机梯度下降动力学
[57] Goodfellow I、Bengio Y和Courville A 2016深度学习(马萨诸塞州剑桥:麻省理工学院出版社)·Zbl 1373.68009号
[58] GabriéM、Barbier J、Krzakala F和ZdeborováL 2019压缩感知的盲校准:状态演化和在线算法(arXiv:1910.00285)
[59] Gilboa D、Chang B、Chen M、Yang G、Schoenholz S S、Chi E H和Pennington J 2019 LSTM和GRU的动力学等距和平均场理论(arXiv:1901.08987)
[60] Geiger M、Arthur J、Spigler S、Gabriel F、Sagun L、D'Ascoli S、Biroli G、Hongler C和Wyart M 2019深度学习中泛化与参数数量的缩放描述1-22(arXiv:1901.01608)
[61] Goldt S、Mézard M、Krzakala F和ZdeborováL 2019模拟数据结构对神经网络学习的影响(arXiv:1909.11500)
[62] GabriéM、Manoel A、Luneau C、Barbier J、Macris N、Krzakala F和ZdeborováL 2018深度神经网络模型中的熵和互信息神经信息处理系统进展第31卷ed S Bengio、H Wallach、H Larochelle、K Grauman、N Cesa-Bianchi和R Garnett(纽约州Red Hook:Curran Associates Inc)第1826-36页
[63] Goodfellow I J、Pouget-Abadie J、Mirza M、Xu B、Warde-Farley D、Ozair S、Courville A和Bengio Y 2014生成性对抗网络神经信息处理系统第1-9页
[64] Grohs P、Perekrestenko D、Elbrächter D和Bölcskei H 2019深度神经网络近似理论(arXiv:1901.02220)
[65] Geiger M、Spigler S、Arthur J和Wyart M 2019深度神经网络中的分离特征和懒惰学习:一项实证研究(arXiv:1906.08034)
[66] GabriéM、Tramel E W和Krzakala F 2015训练通过Thouless-Anderson-Palmer自由能高级神经信息流程限制Boltzmann机器。系统28 640-8
[67] Georges A和Yedidia J S 1999如何使用高温膨胀围绕平均场理论进行膨胀J.Phys。A: 数学。第24代2173-92·doi:10.1088/0305-4470/24/9/024
[68] Hinton G E 1989确定性Boltzmann学习在重量空间神经计算中执行最陡下降。1 143-50·doi:10.1162/neco.1989.1.1.143
[69] Hinton G E 2002通过最小化对比度差异神经计算培训专家产品。14 1771-800·Zbl 1010.68111号 ·网址:10.1162/089976602760128018
[70] Huang H和Kabashima Y 2014二元突触学习计算硬度的起源Phys。版次:E 90 052813·doi:10.1103/PhysRevE.90.052813
[71] Paul H、Leong O和Voroninski V,2018年,生成性先验神经信息处理系统下的相位恢复,第2018卷
[72] 霍普菲尔德J J 1982具有涌现集体计算能力的神经网络和物理系统。美国国家科学院。科学。美国79 2554-8·Zbl 1369.92007号 ·doi:10.1073/pnas.79.8.2554
[73] Kurt H 1991多层神经网络的逼近能力神经网络4 251-7·doi:10.1016/0893-6080(91)90009-t
[74] Hinton G E、Simon O和Teh Y-W 2006深度信念网络的快速学习算法神经计算。18 1527-54·Zbl 1106.68094号 ·doi:10.1162/neco.2006.18.7.1527
[75] Hinton G E和Salakhutdinov R R 2006使用神经网络降低数据维数科学313 504-7·Zbl 1226.68083号 ·doi:10.1126/science.1127647
[76] Hinton G E和Salakhutdinov R R 2009复制softmax:一个无向主题模型神经信息处理系统进展第1607-14页
[77] Huang H 2017带二元突触的受限Boltzmann机器中无监督特征学习的统计力学J.Stat.Mech。053302 ·Zbl 1457.82323号 ·doi:10.1088/1742-5468/aa6ddc
[78] Paul H和Voroninski V 2018通过经验风险程序为执行深层生成性先验提供全球担保。第31届学习理论大会第75页第970-8页
[79] Huang H、Michael Wong K Y和Kabashima Y 2013二元感知器问题J.Phys解的熵景观。A: 数学。理论46 375002·Zbl 1273.82052号 ·doi:10.1088/1751-8113/46/37/375002
[80] Iba Y 1999西森线和贝叶斯统计J.Phys。A: 数学。第32代3875-88·Zbl 0936.82014号 ·doi:10.1088/0305-4470/32/21/302
[81] Arthur J、Gabriel F和Hongler C 2018神经切线核:神经网络的收敛和泛化神经信息处理系统进展
[82] Jastrzȩbski S、Kenton Z、Arpit D、Ballas N、Fischer A、Bengio Y和Amos S 2017影响SGD 1-21最小值的三个因素(arXiv:1711.04623)
[83] Kabashima Y 2003基于置信传播J.Phys的CDMA多用户检测算法。A: 数学。第36代11111-21·Zbl 1081.94509号 ·doi:10.1088/0305-4470/36/43/030
[84] Kabashima Y 2008从相关模式推断:感知器学习和线性向量通道的统一理论J.Phys.:符合序列号95 012001·doi:10.1088/1742-6596/95/1/012001
[85] Koller D和Friedman N 2009概率图形模型原理与技术(马萨诸塞州剑桥:麻省理工学院出版社)·Zbl 1183.68483号
[86] Kabashima Y、Krzakala F、Mézard M、Sakata A和ZdeborováL 2016贝叶斯最优矩阵分解IEEE Trans中的相变和样本复杂性。Inf.Theory公司62 4228-65·Zbl 1359.94109号 ·doi:10.1109/tit.2016.2556702
[87] Krzakala F,Mézard M,Sausset F,Sun Y和ZdeborováL 2012压缩传感中的概率重建:算法、相位图和阈值实现矩阵J.Stat.Mech。P08009号·doi:10.1088/1742-5468/2012/08/P08009
[88] Kappen H J和De Borja Rodríguez F 1998 Boltzmann机器学习使用平均场理论和线性响应校正高级神经信息处理。系统10 280-6·doi:10.1162/08997669830017386
[89] 沃纳K 2006统计力学:算法与计算第13卷(牛津:牛津大学出版社)·Zbl 1144.82002号
[90] Kabashima Y和Saad D 1998信念传播vs TAP解码损坏消息Europhys。信函44 668-74·doi:10.1209/epl/i1998-00524-7
[91] Kadmon J和Sompolinsky H 2016深度网络可解模型中的优化架构神经信息处理系统进展
[92] Kawamoto T、Tsubaki M和Obuchi T 2018图神经网络在图划分中的平均场理论神经信息处理系统的进展
[93] Kabashima Y和Uda S 2004用于在大型感知器型网络中执行贝叶斯推理的基于BP的算法(Algorithmic Learning Theory.ALT 2004(Lect.Notes Compute.Sci.vol 3244))ed S Ben-David(Berlin,Heidelberg:Springer)·Zbl 1110.68448号
[94] Kabashima Y和Vehkapera M 2014使用线性观测的期望一致近似进行信号恢复IEEE Int.Symp。信息理论-程序。第226-30页
[95] Kingma D P和Welling M 2014自动编码变分贝叶斯学习表征国际会议(ICLR)第1-14页
[96] Larochelle H和Bengio Y 2008使用区分性限制Boltzmann机器进行分类Proc。第25届机器学习国际会议第536-43页
[97] LeCun Y、Bengio Y和Hinton G 2015深度学习自然521 436-44·doi:10.1038/nature14539
[98] Lesieur T、Krzakala F和Zdeborova L 2016概率低秩矩阵估计MMSE:关于输出信道的通用性,2015年第53届Allerton通信、控制和计算年会,Allerton pp 680-7
[99] Lesieur T、Krzakala F和ZdeborováL 2017约束低秩矩阵估计:相变、近似消息传递和应用J.Stat.Mech。073403 ·Zbl 1462.62324号 ·doi:10.1088/1742-5468/aa7284
[100] Li S和Michael Wong K Y 1999批学习的统计动力学神经信息处理系统进展第286-92页
[101] Li B和Saad D 2018探索深度学习机器Phys的功能空间。修订稿120 248301·doi:10.1103/physrevlett.120.248301
[102] Li B和Saad D 2020随机深度神经网络中函数灵敏度的大偏差分析J.Phys。A: 数学。理论53 104002·Zbl 1514.68269号 ·doi:10.1088/1751-8121/ab6a6f
[103] Lokhov A Y、Vuffray M、Misra S和Chertkov M 2018 Ising模型Sci的优化结构和参数学习。前进4 1-21·doi:10.1126/sciadv.1700791
[104] Lee J、Xiao L、Schoenholz S S、Bahri Y、Sohl Dickstein J、Pennington J和Feb M L 2019任何深度的宽神经网络在梯度下降下进化为线性模型(arXiv:1902.06720)
[105] Mézard M 2017 Hopfield模型中的平均场消息传递方程及其推广Phys。版次E 95 1-15·doi:10.1103/physreve.95.022117
[106] Antoine M、Foini L、Lage Castellanos A、Krzakala F、Mézard M和ZdeborováL 2019高温扩展和消息传递算法(arXiv:1906.08479)
[107] Morita T和Horiguchi T 1976量子自旋玻璃固态共同体的精确可解模型。19 833-5·doi:10.1016/0038-1098(76)90665-7
[108] Minka T P 2001近似贝叶斯推理算法系列麻省理工学院博士论文
[109] Manoel A、Krzakala F、Mézard M和ZdeborováL,2017年多层广义线性估计,2017年IEEE国际交响乐。信息理论(ISIT)第2098-102页·doi:10.1109/ISIT.2017.8006899
[110] Manoel A、Krzakala F、Tramel E W和ZdeborováL 2018年流式贝叶斯推断:理论极限和微型近似消息通过第55届通信、控制和计算年度Allerton大会(Allerton,2017年、2018年),第1048-55页
[111] Mannelli S S、Krzakala F、Urbani P和ZdeborováL 2019通过和虚假:分析尖峰矩阵张量模型Proc中的下降算法和局部极小值。第36届机器学习国际会议,PMLR 97 pp 4333-42
[112] Mézard M和Montanari A 2009信息、物理和计算(牛津:牛津大学出版社)·Zbl 1163.94001号 ·doi:10.1093/acprof:oso/9780198570837.001.0001
[113] Song M、Misiakiewicz T和Montanari A 2019双层神经网络的平均场理论:无量纲界限和核极限(arXiv:1902.06015)
[114] Song M,Montanari A和Nguyen P-M 2018双层神经网络景观的平均场视图Proc。美国国家科学院。科学.15 E7665-71·Zbl 1416.92014号 ·doi:10.1073/pnas.1806579115
[115] Marčenko V A和Pastur L A 1967某些随机矩阵集的特征值分布数学。苏联Sb.1 457-83·Zbl 0162.22501号 ·doi:10.1070/SM1967v001n04ABEH001994
[116] Mézard M和Parisi G 2001 Bethe晶格自旋玻璃重访了《欧洲物理学》。简乙20 217-33·doi:10.1007/pl00011099
[117] Mézard M、Parisi G和Virasoro M 1986(《自旋玻璃理论及其以外》第9卷(世界科学物理讲稿))(新加坡:世界科学)
[118] Mézard M,Parisi G和Zecchina R 2002随机可满足性问题的分析和算法解科学297 812-5·doi:10.1126/science.1073287
[119] Mixon D G和Villar S 2018 SUNLayer:生成网络的稳定去噪(arXiv:1803.09319)
[120] Mehta P,Wang C-h,Day A G R,Richardson C,Fisher C K和Schwab D J 2018物理学家机器学习的高偏差、低方差介绍(arXiv:1803.08823)
[121] Monasson R和Zecchina R 1995重量空间结构和内部表示:多层神经网络物理中学习和泛化的直接方法。修订稿75 2432-5·doi:10.1103/physrevlett.75.2432
[122] Monasson R和Zecchina R 2004大型委员会机器模型的学习和泛化理论。物理学。莱特。乙09 1887-97·doi:10.1142/s0217984995001868
[123] Nishimori H 2001自旋玻璃的统计物理学和信息处理:导论(牛津:克拉伦登)·Zbl 1103.82002号 ·doi:10.1093/acprof:oso/9780198509417.001.0001
[124] Novak R、Xiao L、Lee J、Bahri Y、Yang G、Hron J、Abolafia D A、Pennington J和Sohl-Dickstein J 2019多通道贝叶斯深度卷积网络是高斯过程学习表征国际会议
[125] Chau Nguyen H、Zecchina R和Johannes B 2017反向统计问题:从反向伊辛问题到数据科学高级物理66 197-261·doi:10.1080/00018732.2017.1341604
[126] Opper M、Ch akmak B和Winther O 2016使用一般不变随机矩阵求解Ising模型TAP方程的理论J.Phys。A: 数学。理论49 114002·Zbl 1342.82042号 ·doi:10.1088/1751-8113/49/11/114002
[127] Opper M和Haussler D 1991贝叶斯最优分类算法学习曲线的计算,用于学习带有噪声的感知机COLT’91 Proc。第四届计算学习理论年度研讨会第75-87页
[128] Opper M 1995学习统计力学:概括大脑理论和神经网络手册(马萨诸塞州剑桥:麻省理工学院出版社)p 20
[129] Opper M和Saad D 2001高级平均场方法:理论与实践(马萨诸塞州剑桥:麻省理工学院出版社)·Zbl 0994.68172号 ·doi:10.7551/mitpress/100.001.0001
[130] Opper M和Winther O 1996前馈神经网络中贝叶斯学习的平均场方法。修订版Lett.76 1964-7·doi:10.1103/physrevlett.76.1964
[131] Opper M和Winther O 1999神经网络在线学习的贝叶斯方法(剑桥:剑桥大学出版社)第363-78页·Zbl 0966.68178号 ·doi:10.1017/CBO9780511569920.017
[132] Opper M和Winther O 1999高斯过程分类的平均场方法神经信息处理系统进展第2-8页
[133] Opper M和Winther O 2001概率建模物理的自适应和自平衡Thouless-Anderson-Palmer平均场理论。版本E 64 056131·doi:10.1103/physreve.64.056131
[134] Opper M和Winther O 2001概率模型的可追踪近似:自适应Thouless-Anderson-Palmer平均场方法Phys。修订稿86 3695-9·doi:10.1103/physrevlett.86.3695
[135] Opper M和Winther O 2005期望近似推理的一致自由能高级神经信息处理。系统17 1001-8
[136] Peterson C和Anderson J R 1987神经网络的平均场论学习算法复杂系统1 995-1019·Zbl 0657.68082号
[137] Pearl J 1988智能系统中的概率推理(阿姆斯特丹:爱思唯尔出版社)
[138] Plefka T 1982无限长伊辛自旋玻璃模型J.Phys的TAP方程的收敛条件。A: 数学。第15代1971-8·doi:10.1088/0305-4470/15/6/035
[139] Poole B、Lahiri S、Raghu M、Sohl-dickstein J和Ganguli S 2016通过瞬态混沌在深层神经网络中的指数表达神经信息处理系统进展第1-9页
[140] Parisi G和Potters M 1995具有正交相互作用矩阵的自旋模型的平均场方程J.Phys。A: 数学。第28代5267-85·Zbl 0868.60052号 ·doi:10.1088/0305-4470/28/18/016
[141] Poole B、Sohl-Dickstein J和Ganguli S 2014分析自动编码器和深网络中的噪声(arXiv:1406.1831)
[142] Pandit P、Sahraee M、Rangan S和Fletcher A K 2019深网络中MAP推断的渐近性(arXiv:1903.01293)
[143] Rangan S 2011使用随机线性混合进行估计的广义近似消息传递2011 IEEE Int.Symp。《信息理论学报》第2168-72页·doi:10.1109/ISIT.2011.6033942
[144] Rossi P V、Kabashima Y和Inoue J I 2016贝叶斯在线压缩传感物理。版次:E 94 022137·doi:10.1103/physreve.94.022137
[145] Rezende D J、Mohamed S和Wierstra D 2014深度生成模型中的随机反向传播和近似推断Proc。第31届机器学习国际会议(中国北京)第32卷第1278页
[146] Robbins S和Monro H 1951随机近似方法年鉴数学。统计数据22 400-407·Zbl 0054.05901号 ·doi:10.1214/aoms/1177729586
[147] Reeves G和Pfister H D 2016高斯矩阵压缩传感的复制对称预测是精确的2016 IEEE Int.Symp。信息理论(ISIT)第665-9页·doi:10.1109/ISIT.2016.7541382
[148] Rangan S、Schniter P和Fletcher A 2014关于使用任意矩阵传递近似消息的收敛性IEEE Int.Symp。信息论第236-40页
[149] Rangan S、Schniter P和Fletcher A K 2017矢量近似消息通过2017 IEEE Int.Symp。信息理论(ISIT)第1卷第1588-92页·doi:10.1109/ISIT.2017.8006797
[150] Rotskoff G M和Vanden-Eijnden E 2018作为相互作用粒子的参数:神经网络高级神经信息处理的长时间收敛和渐近误差缩放。系统31 7146-55
[151] Saad D 1999神经网络在线学习(剑桥:剑桥大学出版社)·Zbl 0949.00034号 ·doi:10.1017/CBO9780511569920
[152] Sollich P和Barber D 1997有限训练集在线学习:Europhys分析案例研究。电话38 477-82·doi:10.1209/epl/i1997-00271-3
[153] Saxe A M、Bansal Y、Dapello J、Advani M S、Kolcinsky A、Tracey B D和Cox D D 2018关于深度学习的信息瓶颈理论。2018年学习表征国际会议第1-27页
[154] Schoenholz S S、Gilmer J、Ganguli S和Sohl-Dickstein J,2017年深度信息传播国际学习表现会议,第1-18页
[155] Sajjadi M S M、Bachem O、Lucic M、Bousquet O、Gelly S、Bachem O和Lucic M2018通过精确和召回神经信息处理系统2018(NeurIPS)1-10评估生成模型
[156] Safran I、Ronen E和Shamir O 2019神经网络中的深度分离:实际分离的是什么?第32届学习理论大会第99卷第1-3页
[157] Salakhuttinov R和Hinton G 2009 Deep Boltzmann机器人工智能和统计学第5页第448-55页
[158] Srivastava N、Hinton G、Krizhevsky A、Sutskever I和Salakhutdinov R 2014辍学:防止神经网络过度拟合J.Mach的简单方法。学习。1929-58年第15号决议·Zbl 1318.68153号
[159] Sherrington D和Scott K 1975自旋玻璃物理的可解模型。修订稿35 1792-6·doi:10.1103/physrevlett.35.1792
[160] Shinzato T和Kabashima Y 2008年重新评估感知器容量:相关模式的分类能力J.Phys。A: 数学。公元41 324013年·Zbl 1171.82347号 ·doi:10.1088/1751-8113/41/32/324013
[161] Shinzato T和Kabashima Y 2009通过简单感知器J.Phys学习相关模式。A: 数学。理论42 015005·Zbl 1178.68465号 ·doi:10.1088/1751-8113/42/1/015005
[162] Saglietti L、Lu Y M和Lucibello C 2019高维估计程序的广义近似测量传播。第36届国际机器学习大会第4173-82页
[163] Salakhutdinov R、Mnih A和Hinton G 2007用于协同过滤程序的受限Boltzmann机器。第24届国际机器学习大会第791-8页
[164] Paul S 1986动力系统中的信息处理:和谐理论的基础并行分布式处理:认知微观结构的探索。第一卷:基础(马萨诸塞州剑桥:麻省理工学院出版社)
[165] Schniter P、Rangan S和Fletcher A K 2016广义线性模型的向量近似信息传递2016第50届信号、系统和计算机Asilomar会议第1525-9页·doi:10.1109/ACSSC.2016.7869633
[166] Saad D和Solla S A 1995多层神经网络物理在线学习的精确解决方案。修订稿74 4337-40·doi:10.1103/physrevlett.74.4337
[167] Saad D和Solla S A 1995年在软委员会机器物理中进行在线学习。版次E 52 4225-43·doi:10.1103/physreve.52.4225
[168] Sirignano J和Spiliopoulos K 2018神经网络的平均场分析(arXiv:1805.01053)
[169] Shalev-Shwartz S和Ben-David S 2014《理解机器学习:从理论到算法》(剑桥:剑桥大学出版社)·Zbl 1305.68005号 ·文件编号:10.1017/CBO9781107298019
[170] Simsekli U、Sagun L和Gurbuzbalaban M 2019深度神经网络随机梯度噪声的尾振分析机器学习国际会议(ICML)
[171] Seung H S、Sompolinsky H和Tishby N,1992年,从实例中学习的统计力学物理。版次A 45 6056-91·doi:10.1103/physreva.45.6056
[172] Shwartz-Ziv R和Tishby N 2017通过信息打开深度神经网络的黑匣子(arXiv:1703.00810)
[173] Talagrand M 2006 Parisi公式Ann.Math.163 221-63·兹比尔1137.82010 ·doi:10.4007/annals.2006.163.221
[174] Thouless D J、Anderson P W和Palmer R G 1977“自旋玻璃的可解模型”的解Phil.Mag.35 593-601·doi:10.1080/14786437708235992
[175] Tramel E W、Drémeau A和Krzakala F 2016限制Boltzmann机器在J.Stat.Mech之前传递的近似信息。073401 ·doi:10.1088/1742-5468/2016/07/073401
[176] Telgarsky M 2016神经网络深度的好处第29届学习理论年会第49卷第1517-39页
[177] Tramel E W、GabriéM、Manoel A、Caltagirone F和Krzakala F 2018使用受限Boltzmann机器物理进行无监督学习的确定性和广义框架。修订版X 8 041006·doi:10.1103/physrevx.8.041006
[178] Tieleman T 2008使用近似似然梯度ICMLvol 307 p 7训练限制Boltzmann机器·数字对象标识代码:10.1145/1390156.1390290
[179] Tubiana J和Monasson R 2017在受限Boltzmann机器Phys中出现成分表示。修订稿118 138301·doi:10.1103/physrevlett.118.138301
[180] Tramel E W、Manoel A、Caltagirone F、GabriéM和Krzakala F 2016推断稀疏性:使用广义受限Boltzmann机器的压缩传感2016 IEEE信息理论研讨会(ITW)第265-9页·doi:10.1109/ITW.2016.7606837
[181] Tishby N和Zaslavsky N 2015深度学习与信息瓶颈原理2015 IEEE信息理论研讨会,ITW 2015·doi:10.1109/ITW.2015.7133169
[182] Vapnik V 2000统计学习理论的本质(纽约州纽约市:施普林格)·Zbl 0934.62009号 ·doi:10.1007/978-1-4757-3264-1
[183] Vidal R、Bruna J、Giryas R和Soatto S 2017深度学习数学(arXiv:1712.04741)
[184] Weiss P 1907《冠军杯冠军与个人》J.Phys。西奥。申请6 661-90·doi:10.1051/jphystap:019070060066100
[185] Welling M和Ge H 2002平均场Boltzmann机器人工神经网络的新学习算法-ICANN 2002 pp 351-7·Zbl 1013.68639号 ·doi:10.1007/3-540-46084-5_57
[186] Wang C,Hu H,Lu Y M和Paulson J A 2018 GAN的可解高维模型(arXiv:1805.08349)
[187] Wainwright M J和Jordan M I 2008图形模型、指数族和变分推理(机器学习基础和趋势第1卷)第1-305页·Zbl 1193.62107号
[188] Michael Wong K Y 1995最优神经网络Europhys中的微观方程和稳定性条件。信函30 245-50·doi:10.1209/0295-5075/30/02010
[189] Michael Wong K Y 1997神经网络粗糙能量图中的微观方程神经信息处理系统进展第302-8页
[190] Watkin T L H,Rau A和Biehl M 1993学习规则的统计力学Rev.Mod。物理65 499-556·doi:10.1103/revmodphys.65.499
[191] Yedidia J S、Freeman W T和Weiss Y 2002理解信念传播及其推广Intelligence8 236-239
[192] Yang G、Pennington J、Rao V、Sohl-Dickstein J和Schoenholz S S 2019批次归一化的平均场理论(arXiv:1902.08129)
[193] Zamboni F 2010自旋玻璃的平均场论(arXiv:1008.4844)
[194] Zhang C、Bengio S、Hardt M、Recht B和Vinyals O 2017理解深度学习需要重新思考2017年学习表现国际会议第1-15页的概括
[195] ZdeborováL和Krzakala F 2016推理统计物理:阈值和算法高级物理65 453-552·doi:10.1080/00018732.2016.1211393
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。