×

贝叶斯神经网络的马尔可夫链蒙特卡罗挑战。 (英语) Zbl 07569970号

摘要:马尔可夫链蒙特卡罗(MCMC)方法在贝叶斯神经网络(BNN)中尚未被广泛采用。本文首先回顾了通过MCMC从神经网络的参数后验进行采样的主要挑战。这些挑战最终导致无法收敛到后验参数。然而,本文表明,从神经网络的参数空间通过MCMC采样生成的非覆盖马尔可夫链可以通过贝叶斯边缘化得到神经网络输出的有价值的后验预测分布。基于多层感知器的分类示例显示了高度准确的后验预测分布。BNN中MCMC开发范围有限的假设部分有效;渐近精确的后验参数似乎不太合理,但准确的后验预测分布是一条可行的研究途径。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] ANDRIEU,C.、DE FREITAS,J.F.G.和DOUCET,A.(1999)。序贯贝叶斯估计和模型选择在神经网络中的应用。
[2] ANDRIEU,C.、DE FREITAS,N.和DOUCET,A.(2000年)。神经网络的可逆跳跃MCMC模拟退火。第十六届人工智能不确定性会议记录11-18.
[3] BADRINARAYANAN,V.、MISHRA,B.和CIPOLLA,R.(2015)。深层网络中的对称不变优化。ArXiv公司。
[4] BENNETT,J.E.、RACINE-POON,A.和WAKEFIELD,J.C.(1996年)。非线性层次模型的MCMC。马尔可夫链蒙特卡罗法在实践中的应用(W.R.Gilks、S.Richardson和D.Spiegelhalter编辑)339-358。查普曼和霍尔/CRC。
[5] BERNARDO,J.-M.(1979年)。贝叶斯推断的参考后验分布。J.罗伊。统计师。Soc.序列号。B类41 113-147. 经过讨论·Zbl 0428.62004号
[6] Blei,D.M.、Kucukelbir,A.和McAuliffe,J.D.(2017)。变分推理:统计学家评论。J.Amer。统计师。协会。112 859-877. ·doi:10.1080/01621459.2017.1285773
[7] BLIER,L.和OLLIVIER,Y.(2018年)。深度学习模型的描述长度。神经信息处理系统研究进展31
[8] 布雷亚,J.,西蒙,B.,伊林,B.和格特纳,W.(2019)。深层网络中的权重空间对称性产生了置换鞍,通过损失景观中的等量损失谷连接。ArXiv公司。
[9] Brooks,S.P.和Gelman,A.(1998年)。监测迭代模拟收敛性的一般方法。J.计算。图表。统计师。7 434-455. ·doi:10.2307/1390675
[10] CANNON,A.、COBB,G.、HARTLAUB,B.、LEGLER,J.、LOCK,R.、MOORE,T.、ROSSMAN,A.和WITMER,J..(2019年)。Stat2Data:Stat2的数据集。R软件包版本2.0.0。
[11] CHEN,T.、FOX,E.和GUESTRIN,C.(2014)。随机梯度哈密顿蒙特卡罗。会议记录31第一届国际机器学习会议32 1683-1691.
[12] CHEN,A.M.、LU,H.和HECHT-NIELSEN,R.(1993)。关于前馈神经网络误差曲面的几何形状。神经计算。5 910-927.
[13] CHEN,W.Y.,BARP,A.,BRIOL,F.-X.,GORHAM,J.,GIROLAMI,M.,MACKEY,L.和OATES,C.(2019年)。斯坦因点马尔可夫链蒙特卡罗。会议记录36第十届国际机器学习会议97 1011-1021.
[14] CHOLLET,F.(2017)。Xception:利用深度可分离卷积进行深度学习。IEEE计算机视觉和模式识别会议记录1251-1258.
[15] CHWIALKOWSKI,K.,STRATHMANN,H.和GRETTON,A.(2016)。拟合优度的核心测试。会议记录33第三届国际机器学习会议48 2606-2615.
[16] Cowles,M.K.和Carlin,B.P.(1996年)。马尔可夫链蒙特卡罗收敛诊断:比较综述。J.Amer。统计师。协会。91 883-904. ·Zbl 0869.62066号 ·doi:10.2307/2291683
[17] Cybenko,G.(1989)。通过sigmoid函数的叠加进行逼近。数学。控制信号系统2 303-314. ·Zbl 0679.94019号 ·doi:10.1007/BF02551274
[18] Dai,N.和Jones,G.L.(2017年)。马尔可夫链蒙特卡罗中的多元初始序列估计。《多元分析杂志》。159 184-199. ·Zbl 1373.62249号 ·doi:10.1016/j.jmva.2017.05.009
[19] DANIELS,M.J.和KASS,R.E.(1998年)。关于两阶段层次模型中第一阶段近似的注记。塞尔·桑克亚。B类60 19-30. ·Zbl 1081.62513号
[20] 德弗里塔斯,N.(1999)。用于神经网络的贝叶斯方法。剑桥大学博士论文。
[21] DE FREITAS,N.、ANDRIEU,C.、HØJEN-S \216]RENSEN,P.、NIRANJAN,M.和GEE,A.(2001年)。神经网络的序贯蒙特卡罗方法。序列蒙特卡罗方法在实践中的应用.统计工程信息科学。359-379. 纽约州施普林格·Zbl 1056.93595号 ·doi:10.1007/978-1-4757-3437-917
[22] DE SA,C.、CHEN,V.和WONG,W.(2018年)。大型图形模型上的小批量吉布斯采样。会议记录35第十届国际机器学习会议80 1165-1173.
[23] DUPUY,C.和BACH,F.(2017年)。基于局部Gibbs抽样的隐变量模型的在线精确推理。J.马赫。学习。物件。18第126、45号论文·Zbl 1442.62046号
[24] ENSIGN,D.,NEVILLE,S.,PAUL,A.和VENKATASUBRAMANIAN,S.(2017年)。通过(组)不变量解释神经网络的复杂性。算法学习理论国际会议.程序。机器。学习。雷斯. (PMLR公司) 76 19. ·Zbl 1403.68186号
[25] ESMAEILI,B.,WU,H.,JAIN,S.,BOZKURT,A.,SIDDHARTH,N.,PAIGE,B.,BROOKS,D.H.,DY,J.和VAN DE MEENT,J.W.(2019年)。结构化的分离表示。会议记录22第二届国际人工智能与统计会议89 2525-2534.
[26] FREEMAN,I.、ROESE-KOERNER,L.和KUMMERT,A.(2018)。Effnet:卷积神经网络的有效结构。25年内第十届IEEE国际图像处理会议6-10.
[27] FRIEL,N.和PETTITT,A.N.(2008)。通过功率后验估计边际似然。J.R.统计社会服务。B.统计方法。70 589-607. ·Zbl 05563360号 ·doi:10.1111/j.1467-9868.2007.00650.x
[28] Gelman,A.和Rubin,D.B.(1992年)。使用多序列的迭代模拟推断。统计师。科学。7 457-472. ·Zbl 1386.65060号
[29] Gelman,A.、Carlin,J.B.、Stern,H.S.和Rubin,D.B.(2004年)。贝叶斯数据分析,第2版。统计科学系列教材CRC出版社/CRC,佛罗里达州博卡拉顿·兹比尔1039.62018
[30] GILKS,W.R.和ROBERTS,G.O.(1996)。改善MCMC的策略。马尔可夫链蒙特卡罗法在实践中的应用(W.R.Gilks、S.Richardson和D.Spiegelhalter编辑)89-114。查普曼和霍尔/CRC·Zbl 0844.62100号
[31] GIORDANO,R.J.、BRODERICK,T.和JORDAN,M.I.(2015)。平均场变分贝叶斯精确协方差估计的线性响应方法。神经信息处理系统研究进展28 1441-1449.
[32] Gong,L.和Flegal,J.M.(2016)。一种实用的高维马尔可夫链蒙特卡罗序贯停止规则。J.计算。图表。统计师。25 684-700. ·doi:10.1080/10618600.2015.044092
[33] GONG,W.,LI,Y.和HERNáNDEZ-LOBATO,J.M.(2019)。随机梯度MCMC的元学习。学习代表国际会议.
[34] Goodfellow,I.、Bengio,Y.和Courville,A.(2016)。深度学习.自适应计算与机器学习麻省理工学院出版社,马萨诸塞州剑桥·Zbl 1373.68009号
[35] GRAF,S.和LUSCHGY,H.(2007)。概率分布量子化的基础施普林格·Zbl 0951.60003号 ·doi:10.1007/BFb0103945
[36] GRETTON,A.、BORGWARDT,K.M.、RASCH,M.J.、SCHLKOPF,B.和SMOLA,A.(2012)。内核双样本测试。J.马赫。学习。物件。13 723-773. ·Zbl 1283.62095号
[37] GU,S.S.、GHAHRAMANI,Z.和TURNER,R.E.(2015)。神经自适应序贯蒙特卡罗。神经信息处理系统研究进展28 2629-2637.
[38] HASTIE,T.、TIBSHIRANI,R.和FRIEDMAN,J.(2016)。统计学习的要素:数据挖掘、推理和预测第二版,施普林格·Zbl 1273.62005年 ·doi:10.1007/978-0-387-84858-7
[39] 黑斯廷斯,W.K.(1970)。使用马尔可夫链的蒙特卡罗抽样方法及其应用。生物特征57 97-109. ·Zbl 0219.65008号
[40] HECHT-NIELSEN,R.(1990)。关于前馈网络权值空间的代数结构。高级神经计算机129-135.
[41] Hornik,K.(1991年)。多层前馈网络的逼近能力。神经网络。4 251-257.
[42] HORST,A.M.、HILL,A.P.和GORMAN,K.B.(2020年)。棕榈企鹅:帕尔默群岛(南极洲)企鹅数据。R包版本0.1.0。
[43] HOWARD,A.G.,ZHU,M.,CHEN,B.,KALENICHENKO,D.,WANG,W.,WEYAND,T.,ANDREETTO,M.和ADAM,H.(2017年)。手机:用于移动视觉应用的高效卷积神经网络。ArXiv公司。
[44] HU,S.X.、ZAGORUYKO,S.和KOMODAKIS,N.(2019年)。探索深层神经网络中的权重对称性。计算。视觉。图像理解。187 102786.
[45] HUANG,C.-W.,SANKARAN,K.,DHEKANE,E.,LACOSTE,A.和COURVILLE,A.(2019年)。分级重要性加权自动编码器。会议记录36第十届国际机器学习会议97 2869-2878.
[46] IANDOLA,F.N.、HAN,S.、MOSKEWICZ,M.W.、ASHRAF,K.、DALLY,W.J.和KEUTZER,K.(2016)。SqueezeNet:AlexNet级精度,参数少50倍,模型大小小于0.5MB。阿尔希夫。
[47] IZMAILOV P.、MADDOX W.J.、KIRICHENKO P.、GARIPOV T.、VETROV D.和WILSON A.G.(2020年)。贝叶斯深度学习的子空间推理。会议记录35第届人工智能会议中的不确定性115 1169-1179.
[48] JARRETT,K.、KAVUKCUOGLU,K.,RANZATO,M.和LECUN,Y.(2009年)。对象识别的最佳多级架构是什么?电气与电子工程师协会12第十届国际计算机视觉会议2146-2153.
[49] JAYNES,E.T.(1968年)。先验概率。IEEE传输。系统。科学。赛博。4 227-241. ·兹比尔0181.21901
[50] Jeffreys,H.(1961年)。概率论第三版,牛津克拉伦登出版社·Zbl 0116.34904号
[51] JOHNDROW,J.E.、PILLAI,N.S.和SMITH,A.(2020)。大约MCMC没有免费午餐。阿尔希夫。
[52] Kass,R.E.、Carlin,B.P.、Gelman,A.和Neal,R.M.(1998)。实践中的马尔可夫链蒙特卡罗:圆桌讨论。阿默尔。统计师。52 93-100. ·doi:10.2307/2685466
[53] KRIZHEVSKY,A.、SUTSKEVER,I.和HINTON,G.E.(2012年)。使用深度卷积神经网络进行ImageNet分类。神经信息处理系统研究进展25 1097-1105.
[54] LEE,H.K.H.(2000年)。神经网络后验分布的一致性。神经网络。13 629-642.
[55] LEE,H.K.H.(2003)。神经网络的非信息先验。机器。学习。50 197-212. ·Zbl 1033.68088号
[56] LEE,H.K.H.(2004)。神经网络的先验知识。分类、聚类和数据挖掘应用程序.研究分类数据分析。知识机构。141-150. 柏林施普林格。
[57] 李,香港(2005)。神经网络和默认先验。美国统计协会会刊,贝叶斯统计科学部分.
[58] LEE,H.K.H.(2007)。神经网络分类的默认优先级。J.分类24 53-70. ·Zbl 1136.62325号 ·文件编号:10.1007/s00357-007-0001-2
[59] 刘明(2020)。深度学习中的非凸最小最大优化:算法与应用ProQuest LLC,密歇根州安阿伯。论文(博士)-爱荷华州大学。
[60] LU,Z.、PU,H.、WANG,F.、HU,Z.和WANG,L.(2017)。神经网络的表达能力:从宽度的角度来看。神经信息处理系统研究进展30 6231-6239.
[61] MA,Y.-A.,FOTI,N.J.和FOX,E.B.(2017年)。隐马尔可夫模型的随机梯度MCMC方法。会议记录34第十届国际机器学习会议70 2265-2274.
[62] MACKAY,D.J.(1995年)。神经网络概率建模的发展——集成学习。神经网络:人工智能与工业应用191-198.
[63] MADDISON,C.J.、HUANG,A.、SUTSKEVER,I.和SILVER,D.(2015)。在围棋中使用深度卷积神经网络进行动作评估。学习代表国际会议.
[64] MANDT,S.、HOFFMAN,M.D.和BLEI,D.M.(2017)。随机梯度下降近似贝叶斯推理。J.马赫。学习。物件。18第134、35号论文·Zbl 1442.62055号
[65] Metropolis,N.、Rosenbluth,A.W.、Rosenbruth,M.N.、Teller,A.H.和Teller等人(1953年)。快速计算机器的状态方程计算。化学杂志。物理学。21 1087-1092. ·兹比尔1431.65006
[66] MINSKY,M.L.和PAPERT,S.A.(1988年)。感知器:扩展版麻省理工学院出版社·兹伯利0794.68104
[67] MOORE,D.A.(2016)。对称变分推理。NIPS近似贝叶斯推断进展研讨会.
[68] NAIR,V.和HINTON,G.E.(2009年)。基于深度信念网络的三维物体识别。神经信息处理系统研究进展22 1339-1347.
[69] NALISNICK,E.T.(2018)。关于贝叶斯神经网络的先验知识。加州大学欧文分校博士论文。
[70] Neal,R.M.(2011)。MCMC使用哈密顿动力学。马尔可夫链蒙特卡罗手册.查普曼和霍尔/CRC Handb。国防部。统计方法113-162. 佛罗里达州博卡拉顿CRC出版社·Zbl 1229.65018号
[71] NEMETH,C.和SHERLOCK,C.(2018)。通过高斯过程近似合并MCMC后验差。贝叶斯分析。13 507-530. ·Zbl 1407.62081号 ·doi:10.1214/17-BA1063
[72] NWANKPA,C.、IJOMAH,W.、GACHAGAN,A.和MARSHALL,S.(2018年)。激活功能:深入学习实践和研究趋势的比较。ArXiv公司。
[73] ONG,V.M.-H.,NOTT,D.J.和SMITH,M.S.(2018年)。因子协方差结构的高斯变分近似。J.计算。图表。统计师。27 465-478. ·Zbl 07498925号 ·doi:10.1080/10618600.2017.1390472
[74] PEARCE,T.、ZAKI,M.、BRINTRUP,A.和NEELY,A.(2019年)。贝叶斯神经网络中的表达先验:核组合和周期函数。会议记录35第十届人工智能不确定性会议.
[75] POLSON,N.G.和SOKOLOV,V.(2017年)。深度学习:贝叶斯观点。贝叶斯分析。12 1275-1304. ·Zbl 1386.68139号 ·doi:10.1214/17-BA1082
[76] POURZANJANI,A.A.、JIANG,R.M.和PETZOLD,L.R.(2017)。改进贝叶斯推理神经网络的可识别性。NIPS贝叶斯深度学习研讨会.
[77] QUIROZ,M.、KOHN,R.、VILLANI,M.和TRAN,M.-N.(2019)。通过有效的数据子采样加速MCMC。J.Amer。统计师。协会。114 831-843. ·Zbl 1420.62121号 ·doi:10.1080/01621459.2018.1448827
[78] RANGANATH,R.、TRAN,D.和BLEI,D.(2016)。层次变分模型。会议记录33第三届国际机器学习会议48 324-333.
[79] ROBERT,C.P.、ELVIRA,V.、TAWN,N.和WU,C.(2018年)。加速MCMC算法。威利公司(Wiley Interdiscip)。利润.:计算。斯达。10 e1435,14·doi:10.1002/wics.1435文件
[80] 罗森布拉特·F(1958)。感知器:大脑中信息存储和组织的概率模型。精神病。修订版。65 386.
[81] Rudolf,D.和Schweizer,N.(2018)。基于Wasserstein距离的马尔可夫链扰动理论。伯努利24 2610-2639. ·Zbl 1465.60065号 ·文件编号:10.3150/17-BEJ938
[82] SARGENT,D.J.、HODGES,J.S.和CARLIN,B.P.(2000)。结构化马尔可夫链蒙特卡罗。J.计算。图表。统计师。9 217-234. ·doi:10.2307/1390651
[83] SEITA,D.、PAN,X.、CHEN,H.和CANNY,J.(2018年)。Metropolis-Hastings的高效小批量验收测试。第二十七届国际人工智能联合会议记录5359-5363.
[84] SEN,D.、PAPAMARKOU,T.和DUNSON,D.(2020年)。贝叶斯神经网络和降维。ArXiv公司。
[85] Simpson,D.、Rue,H.、Riebler,A.、Martins,T.G.和SØrbye,S.H.(2017)。惩罚模型组件复杂性:构建先验的原则性、实用方法。统计师。科学。32 1-28. ·Zbl 1442.62060号 ·doi:10.1214/16-STS576
[86] SMITH,J.W.、EVERHART,J.、DICKSON,W.、KNOWLER,W.和JOHANNES,R.(1988年)。利用ADAP学习算法预测糖尿病发病。计算机在医疗保健中的应用年度研讨会论文集261
[87] Stephens,M.(2000年)。处理混合模型中的标签切换。J.R.统计社会服务。B.统计方法。62 795-809. ·Zbl 0957.62020号 ·doi:10.1111/1467-9868.00265
[88] TITSIAS,M.K.和RUIZ,F.(2019年)。无偏隐式变分推理。机器学习研究进展89 167-176.
[89] 蒂特林顿,D.M.(2004)。神经网络和相关模型的贝叶斯方法。统计师。科学。19 128-139. ·Zbl 1057.62078号 ·doi:10.1214/0883423040000099
[90] TROUNG,T.-D.,NGUYEN,V.-T.和TRAN,M.-T.(2018年)。用于微小物体识别的轻量级深度卷积网络。会议记录7第十届模式识别应用和方法国际会议675-682.
[91] VATS,D.和FLEGAL,J.M.(2018年)。Lugsail滞后窗口及其在MCMC中的应用。阿尔希夫。
[92] Vats,D.、Flegal,J.M.和Jones,G.L.(2019年)。马尔可夫链蒙特卡罗的多元输出分析。生物特征106 321-337. ·Zbl 1434.62100号 ·doi:10.1093/biomet/asz002
[93] VATS,D.和KNUDSON,C.(2018年)。回顾Gelman-Rubin诊断。阿尔希夫·Zbl 07473933号
[94] VEHTARI,A.、GELMAN,A.、SIMPSON,D.、CARPENTER,B.和BüRKNER,P.-C.(2021)。秩正规化、折叠和局部化:评估MCMC收敛性的改进R(附讨论)。贝叶斯分析。16 667-718. ·Zbl 07637221号 ·doi:10.1214/20-ba1221
[95] VLADIMIROVA,M.、VERBEEK,J.、MESEJO,P.和ARBEL,J.(2019年)。理解单位级贝叶斯神经网络中的先验知识。会议记录36第十届国际机器学习会议97 6458-6467.
[96] WELLING,M.和TEH,Y.W.(2011年)。基于随机梯度Langevin动力学的贝叶斯学习。会议记录28第十届国际机器学习会议681-688.
[97] 威廉姆斯,P.M.(1995)。贝叶斯正则化和剪枝使用拉普拉斯先验。神经计算。7 117-143.
[98] 威廉姆斯,C.K.I.(2000)。分层混合建模的MCMC方法。神经信息处理系统研究进展12 680-686.
[99] WILSON,A.G.和IZMAILOV,P.(2020年)。贝叶斯深度学习和概化的概率观点。arXiv公司。
[100] ZHANG,G.,SUN,S.,DUVENAUD,D.和GROSSE,R.(2018a)。噪声自然梯度作为变分推理。会议记录35第十届国际机器学习会议80 5852-5861.
[101] ZHANG,X.、ZHOU,X.、LIN,M.和SUN,J.(2018b)。Shufflenet:一种用于移动设备的非常有效的卷积神经网络。IEEE计算机视觉和模式识别会议记录6848-6856
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。