×

具有局部近似的Stein变分梯度下降。 (英语) Zbl 1507.65016号

摘要:贝叶斯计算在现代机器学习和统计中扮演着重要角色,用于推理不确定性。贝叶斯推理中的一个关键计算挑战是开发有效的技术来近似或从后验分布中提取样本。Stein变分梯度下降(SVGD)已被证明是解决该问题的一种强大的近似推理算法。然而,普通SVGD需要计算目标密度的梯度,当梯度不可用或评估成本太高时,无法应用。在本文中,我们探索了一种解决这一挑战的方法,即为目标分布构造一个局部代理,在该代理中,可以以计算上更可行的方式获得梯度。更具体地说,我们使用深度神经网络(DNN)逼近正向模型,该神经网络在仔细选择的训练集上进行训练,这也决定了代理的质量。为此,我们提出了一种通用的自适应程序来在线细化局部近似,而不会破坏所得SVGD的收敛性。这大大降低了SVGD的计算成本,并产生了一系列易于实现的算法。新算法在一组具有挑战性的贝叶斯反问题上进行了说明,数值实验表明,标准SVGD在性能和适用性方面有了明显的改进。

MSC公司:

65二氧化碳 蒙特卡罗方法
2015年1月62日 贝叶斯推断
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bishop,C.M.,模式识别和机器学习(2006),springer·Zbl 1107.68072号
[2] 凯皮奥,J.P。;Somersalo,E.,《统计与计算反问题》,第160卷(2005),Springer·Zbl 1068.65022号
[3] Stuart,A.M.,《反问题:贝叶斯视角》,数字学报。,19, 1, 451-559 (2010) ·Zbl 1242.65142号
[4] Gelman,A。;Carlin,J.B。;斯特恩,H.S。;邓森,D.B。;Vehtari,A。;Rubin,D.B.,贝叶斯数据分析(2013),CRC出版社
[5] (Brooks,S.;Gelman,A.;Jones,G.L.;Meng,X.L.,《马尔可夫链蒙特卡罗手册》,《马尔柯夫链蒙特卡洛手册》、《查普曼和霍尔/CRC现代统计方法手册》(2011年),CRC出版社:佛罗里达州博卡拉顿CRC出版社),xxvi+592·Zbl 1218.65001号
[6] 布莱,D.M。;Kucukelbir,A。;McAuliffe,J.D.,《变分推理:统计学家评论》,J.Amer。统计师。协会,112,518,859-877(2017)
[7] 巴兹利,J.M。;Solonen,A。;Haario,H。;Laine,M.,《随机优化:非线性反问题的后验分布抽样方法》,SIAM J.Sci。计算。,36、4、A1895-A1910(2014)·Zbl 1303.65003号
[8] 兰·S。;Bui-Thanh,T。;克里斯蒂,M。;Girolami,M.,贝叶斯反问题的流形蒙特卡罗方法中高阶张量的仿真,计算杂志。物理。,308, 81-101 (2016) ·Zbl 1352.65010号
[9] 马丁·J。;Wilcox,L.C.公司。;伯斯特德,C。;Ghattas,O.,《大规模统计反演问题的随机牛顿MCMC方法及其在地震反演中的应用》,SIAM J.Sci。计算。,34、3、A1460-A1487(2012)·Zbl 1250.65011号
[10] 陈,P。;吴,K。;陈,J。;O'Leary-Roseberry,T。;Ghattas,O.,Projected Stein variation Newton:一种高维快速可扩展的贝叶斯推理方法,(《神经信息处理系统进展》(2019)),15130-15139
[11] 德托马索,G。;崔,T。;马尔祖克,Y。;斯潘蒂尼,A。;Scheichl,R.,A Stein变分牛顿法,(神经信息处理系统进展(2018)),9169-9179
[12] 加布诺·伊尼戈,A。;霍夫曼,F。;李伟(Li,W.)。;Stuart,A.M.,《相互作用的朗之万扩散:梯度结构和集合卡尔曼采样器》,SIAM J.Appl。动态。系统。,19, 1, 412-441 (2020) ·Zbl 1447.65119号
[13] Han,J。;Liu,Q.,Stein无梯度变分梯度下降(2018),arXiv预印本arXiv:1806.02775
[14] 李,L。;李毅。;Liu,J.G。;刘,Z。;Lu,J.,有效抽样的斯坦因变分梯度下降的随机版本,Commun。申请。数学。计算。科学。,15, 1, 37-63 (2020) ·兹比尔1444.62043
[15] 刘,C。;朱,J.,贝叶斯推断的黎曼-斯坦因变分梯度下降(2017),arXiv预印本arXiv:1711.11216
[16] Liu,Q.,Stein变分梯度下降作为梯度流,(神经信息处理系统进展(2017)),3115-3123
[17] 刘,Q。;Wang,D.,Stein变分梯度下降:通用贝叶斯推理算法,(神经信息处理系统进展(2016)),2378-2386
[18] 卢,J。;Lu,Y。;Nolen,J.,Stein变分梯度下降的标度极限:平均场状态,SIAM J.Math。分析。,51, 2, 648-671 (2019) ·Zbl 1417.35189号
[19] 王,D。;唐,Z。;巴贾杰,C。;Liu,Q.,Stein矩阵值核变分梯度下降,(神经信息处理系统进展(2019)),7836-7846
[20] Yan,L。;Zou,X.,无梯度Stein核近似变分梯度下降,应用。数学。莱特。,121,第107465条pp.(2021)·Zbl 1524.62127号
[21] 罗宾斯,H。;Monro,S.,《随机近似方法》,《数学年鉴》。统计,400-407(1951)·Zbl 0054.05901号
[22] Zeiler,M.,ADADELTA:一种自适应学习率方法(2012年),arXiv预印本arXiv:1212.5701
[23] Wang,Y。;陈,J。;Kang,L。;Liu,C.,基于粒子的能量变分推理(2020),arXiv预印本arXiv:2004.06443
[24] 康拉德,P.R。;Marzouk,Y.M。;皮莱,N.S。;Smith,A.,通过局部近似加速计算密集型模型的渐近精确MCMC,J.Amer。统计师。协会,111,516,1591-1607(2016)
[25] Yan,L。;Zhou,T.,反演问题中贝叶斯推断的自适应多保真多项式混沌方法,J.Compute。物理。,381, 110-128 (2019) ·Zbl 1451.62033号
[26] Yan,L。;Zhou,T.,基于深度神经网络的大规模贝叶斯反问题自适应代理建模,Commun。计算。物理。,28, 5, 2180-2205 (2020) ·Zbl 1482.65206号
[27] Yan,L。;郭,L.,反问题贝叶斯解的(L_1)最小化随机配置算法,SIAM J.Sci。计算。,37,3,A1410-A1435(2015)·Zbl 1328.65200号
[28] Yan,L。;Zhang,Y.X.,贝叶斯反问题基于代理方法的收敛性分析,反问题,33,12,文章125001 pp.(2017)·Zbl 1383.65009号
[29] Stuart,A.M。;Teckentrup,A.,贝叶斯后验分布高斯过程近似的后验一致性,数学。公司。,87, 310, 721-753 (2018) ·Zbl 1429.60040号
[30] 古德费罗,我。;Y.本吉奥。;A.Courville,《深度学习》(2016),麻省理工学院出版社·Zbl 1373.68009号
[31] 拉马钱德兰,P。;Zoph,B。;Le,Q.,搜索激活函数(2017),arXiv预印本arXiv:1710.05941
[32] Tripathy,R.K。;Bilionis,I.,Deep UQ:学习深度神经网络替代模型,用于高维不确定性量化,J.Compute。物理。,375, 565-588 (2018) ·Zbl 1419.68084号
[33] Bottou,L.,随机梯度下降的大尺度机器学习,(2010年《COMPSTAT学报》,Springer),177-186·Zbl 1436.68293号
[34] 蒂勒曼,T。;Hinton,G.,讲座6.5-rmsprop:将梯度除以最近量级的运行平均值,课程:神经网络。机器。学习。,4, 2, 26-31 (2012)
[35] 金马,D。;Ba,J.,Adam:随机优化方法(2014),arXiv预印本arXiv:1412.6980
[36] Han,J。;Jentzen,A。;E、 W.,使用深度学习求解高维偏微分方程,Proc。国家。阿卡德。科学。,115, 34, 8505-8510 (2018) ·Zbl 1416.35137号
[37] 莱斯,M。;佩迪卡里斯,P。;Karniadakis,G.E.,《基于物理的神经网络:解决涉及非线性偏微分方程的正问题和逆问题的深度学习框架》,J.Compute。物理。,378, 686-707 (2019) ·Zbl 1415.68175号
[38] 施瓦布,C。;Zech,J.,高维深度学习:UQ中广义多项式混沌展开的神经网络表达率,分析。申请。,17, 01, 19-55 (2019) ·Zbl 1478.68309号
[39] Zhu,Y。;Zabaras,N.,用于代理建模和不确定性量化的贝叶斯深度卷积编码器-解码器网络,J.Comput。物理。,366, 415-447 (2018) ·Zbl 1407.62091号
[40] Yan,L。;Zhou,T.,通过深度神经网络进行随机优化采样的加速策略,J.Compute。数学。(2021),(印刷中)arxiv预印arxiv:2104.06285
[41] Yosinski,J。;克伦,J。;Y.本吉奥。;Lipson,H.,深度神经网络中的特征如何传递?,(神经信息处理系统进展(2014)),3320-3328
[42] 格雷顿,A。;博格沃德,K.M。;Rasch,M.J。;Schölkopf,B。;Smola,A.,《内核双样本测试》,J.Mach。学习。第13、1723-773号决议(2012年)·Zbl 1283.62095号
[43] Lin,Y。;Xu,C.,时间分数阶扩散方程的有限差分/谱近似,J.Compute。物理。,225, 2, 1533-1552 (2007) ·Zbl 1126.65121号
[44] Haario,H。;莱恩,M。;米拉,A。;Saksman,E.,DRAM:高效自适应MCMC,统计计算。,16, 4, 339-354 (2006)
[45] Yan,L。;Zhou,T.,基于PC的自适应多义性集合卡尔曼反演反问题,国际期刊《不确定性》。数量。,9, 3, 205-220 (2019) ·Zbl 1498.62074号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。