×

变分贝叶斯神经网络的统计基础。 (英语) Zbl 1521.68111号

摘要:尽管贝叶斯神经网络(BNN)近年来得到了普及,但由于与全面后验评估相关的计算成本,其在复杂和大数据情况下的使用受到了一定限制。变分贝叶斯(VB)提供了一种有用的替代方法,可以避免使用马尔可夫链蒙特卡罗(MCMC)技术从真实后验数据生成样本所带来的计算成本和时间复杂性。VB方法的有效性在机器学习文献中得到了很好的证实。然而,由于缺乏统计角度的理论有效性,其潜在的更广泛影响受到阻碍。本文建立了前馈人工神经网络模型平均场变分后验(VP)后验一致性的基本结果。本文强调了确保VP集中在真实密度函数的Hellinger邻域附近所需的条件。此外,还讨论了尺度参数的作用及其对收敛速度的影响。本文主要依赖两个结果(1)真实后验增长率(2)后验和变后验之间的Kullback-Leibler(KL)距离增长率。该理论为构建BNN的先验分布以及评估相应VB实现的准确性提供了指导。

理学硕士:

68T05型 人工智能中的学习和自适应系统
2015年1月62日 贝叶斯推断
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Barron,A。;Schervish,M.J。;Wasserman,L.,非参数问题中后验分布的一致性,《统计学年鉴》,27336-561(1999)·Zbl 0980.62039号
[2] Bishop,C.M.,贝叶斯神经网络,巴西计算机学会杂志,4,61-68(1997)
[3] 布莱,D.M。;Kucukelbir,A。;McAuliffe,J.D.,《变分推断:统计学家评论》,《美国统计协会杂志》,第112期,第859-877页(2017年)
[4] 布伦德尔,C。;科内比斯,J。;Kavukcuoglu,K。;Wierstra,D.,神经网络中的权重不确定性,机器学习研究论文集。PMLR,37,1613-1622(2015)
[5] Carbonetto,P。;Stephens,M.,回归中贝叶斯变量选择的可缩放变分推断及其在遗传关联研究中的准确性,贝叶斯分析,773-108(2012)·Zbl 1330.62089号
[6] Elezovic,N。;佐丹奴,C。;Pecaric,J.,高斯奇不等式的最佳界,数学不等式与应用,3239-252(2000)·Zbl 0947.33001号
[7] 戈什,M。;Maiti,T。;Kim,D。;Chakraborty,S。;Tewari,A.,层次贝叶斯神经网络,美国统计协会杂志,99601-608(2004)·Zbl 1117.62345号
[8] Graves,A.,《神经网络的实用变分推理》(Shawe-Taylor,J.;Zemel,R.;Bartlett,P.;Pereira,F.;Weinberger,K.Q.,《神经信息处理系统的进展》,第24卷(2011年),Curran Associates,Inc.),2348-2356
[9] 霍尼克,K。;Stinchcombe,M。;White,H.,多层前馈网络是通用逼近器,神经网络,2359-366(1989)·Zbl 1383.92015年
[10] A.湖滨。;斯托维克,G。;Frommlet,F.,深度贝叶斯回归模型(2018),arXiv:1806.02160
[11] 贾维德,K。;Handley,W。;霍布森,M.P。;Lasenby,A.,无妥协贝叶斯神经网络(2020),arXiv:2004.12211
[12] Lampinen,J。;Vehtari,A.,神经网络的贝叶斯方法——回顾和案例研究,《神经网络:国际神经网络学会官方期刊》,14,257-274(2001)
[13] Lee,H.,神经网络后验分布的一致性,神经网络,13,629-642(2000)
[14] Lee,H.,(通过神经网络的贝叶斯非参数。通过神经网络进行的贝叶斯非参数,ASA-SIAM统计和应用概率系列,第13卷(2004),工业和应用数学学会)·Zbl 1069.68090号
[15] 梁,F。;李强。;周,L.,用于药物敏感基因选择的贝叶斯神经网络,美国统计协会杂志,113955-972(2018)·Zbl 1402.62277号
[16] Logsdon,B.A。;霍夫曼,G.E。;Mezey,J.G.,用于快速准确多基因座全基因组关联分析的变分贝叶斯算法,BMC生物信息学,11,58(2009)
[17] 穆拉切里,V。;Khera,A。;Husain,A.,贝叶斯神经网络(2018),arXiv:1801.07710
[18] Neal,R.M.,通过混合蒙特卡罗方法对反向传播网络进行贝叶斯训练技术报告CRG-TR-92-1(1992),https://www.cs.toronto.edu/拉德福德/ftp/bbp.pdf
[19] Neal,R.M.,(神经网络的贝叶斯学习。神经网络的贝氏学习,统计学课堂讲稿,第118卷(1996),施普林格:施普林格纽约)·Zbl 0888.62021号
[20] Pati,D.、Bhattacharya,A.和Yang,Y.(2018年)。关于变分贝叶斯的统计最优性。在Storkey,A.Perez-Cruz,F.(Eds.)《机器学习研究论文集》中。PMLR公司。第84卷(第1579-1588页)。
[21] Pollard,D.(经验过程:理论与应用。经验过程:原理与应用,NSF-CBMS概率与统计区域会议系列,第2卷(1990年),数理统计研究所)·Zbl 0741.60001号
[22] 沈欣,《筛分与惩罚方法》,《统计年鉴》,第25期,第2555-2591页(1997年)·Zbl 0895.62041号
[23] 沈,X。;江,C。;Sakhanenko,L。;Lu,Q.,神经网络筛估计量的渐近性质(2019),arXiv:1906.00875
[24] 西格尔,J.W。;Xu,J.,具有一般激活函数的神经网络的逼近率(2019),arXiv:1904.02311
[25] Sun,S.、Chen,C.和Carin,L.(2017)。贝叶斯神经网络中结构权重不确定性的学习。Singh,A.Zhu,J.(编辑),《机器学习研究论文集》,PMLR(第1283-1292页)。
[26] Sun,S。;张,G。;史J。;Grosse,R.B.,《函数变分贝叶斯神经网络》(第七届学习表征国际会议,2019年ICLR)。(2019),OpenReview.net
[27] van der Vaart,A。;Wellner,J.,(弱收敛和经验过程:与统计学的应用。弱收敛和经验过程:与统计学的应用,统计学中的施普林格系列(1996),施普林格:施普林格纽约)·Zbl 0862.60002号
[28] Wang,Y。;Blei,D.M.,变分贝叶斯的频繁一致性,美国统计协会杂志,1141147-1161(2019)·Zbl 1428.62119号
[29] White,H.,连接主义非参数回归:多层前馈网络可以学习任意映射,神经网络,3535-549(1990)
[30] Wong,W.H。;Shen,X.,筛孔最大似然比和收敛速度的概率不等式,统计年鉴,23339-362(1995)·Zbl 0829.62002号
[31] Yang,Y。;帕蒂,D。;Bhattacharya,A.,(alpha)——具有统计保证的变分推断,《统计年鉴》,48,886-905(2020)·Zbl 1450.62031号
[32] 张,F。;Gao,C.,变分后验分布的收敛速度,《统计年鉴》,482180-2207(2020)·Zbl 1471.62243号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。