×

随机变分消息传递的概率规划。 (英语) Zbl 07581224号

概述:用于变分推理的随机近似方法最近在概率编程社区中得到了普及,因为这些方法易于自动化,并允许在线、可扩展和通用的近似贝叶斯推理。遗憾的是,带有随机近似引擎的通用概率编程语言(PPL)缺乏基于消息传递的推理算法的效率,这些算法具有确定性更新规则,如信任传播(BP)和变异消息传递(VMP)。然而,随机变量推理(SVI)和共轭计算变量推理(CVI)提供了将快速确定性推理技术与广泛适用的随机近似推理相结合的原则性方法。不幸的是,SVI和CVI的实现需要手动驱动的变化更新规则,这在大多数PPL中尚不存在。在本文中,我们在基于消息传递的推理上下文中显式地转换SVI和CVI。我们在ForneyLab中提供了SVI和CVI的实现,这是一个开源Julia语言中基于消息传递的自动概率编程包。通过大量实验,我们演示了SVI和CVI如何扩展基于消息传递的概率规划的自动推理能力。

MSC公司:

68层37 人工智能背景下的不确定性推理
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] van de Meent,J.W。;Paige,B。;Yang,H。;Wood,F.,《概率规划导论》(2018)
[2] 穆罕默德,S。;Rosca,M。;菲格诺夫,M。;Mnih,A.,机器学习中的蒙特卡罗梯度估计(2019)
[3] 张,C。;Butepage,J。;Kjellstrom,H。;Mandt,S.,变分推理进展(2018)
[4] Ge,H。;Xu,K。;Ghahramani,Z.,Turing:灵活概率推理语言,(国际人工智能与统计会议,PMLR(2018)),1682-1690
[5] 卡彭特,B。;Gelman,A。;医学博士霍夫曼。;Lee,D。;古德里奇,B。;贝当古,M。;布鲁贝克,M。;郭杰。;李,P。;Riddell,A.,Stan:概率编程语言,J.Stat.Softw。,76, 1 (2017)
[6] 宾厄姆,E。;Chen,J.P。;Jankowiak,M。;Obermeyer,F。;北卡罗来纳州普拉丹。;卡拉莱索斯,T。;辛格,R。;Szerlip,P。;霍斯福尔,P。;Goodman,N.D.,Pyro:深度通用概率规划,J.Mach。学习。第20、28、1-6号决议(2019年)
[7] Dillon,J.V。;Langmore,I。;Tran,D。;Brevdo,E。;Vasudevan,S。;摩尔,D。;巴顿,B。;Alemi,A。;霍夫曼,M。;Saurous,R.A.,TensorFlow分布(2017)
[8] 提提亚斯,M。;Lázaro-Gredilla,M.,非共轭推理的双随机变分贝叶斯,(机器学习国际会议(2014)),1971-1979
[9] Ranganath,R。;Gerrish,S。;Blei,D.,黑箱变分推理,(人工智能与统计,PMLR(2014)),814-822
[10] 卡塞拉,G。;Robert,C.P.,Rao-blackwellisation of sampling schemes,Biometrika,83,1,81-94(1996),出版商:【牛津大学出版社,Biometroka Trust】·Zbl 0866.62024号
[11] Owen,A.B.,《蒙特卡罗理论、方法和示例》(2013年)
[12] Kingma,D.P。;Welling,M.,自动编码变分贝叶斯(2014)
[13] Rezende,D.J。;穆罕默德,S。;Wierstra,D.,深度生成模型中的随机反向传播和近似推理(第31届国际机器学习会议论文集,第32卷)。第31届国际机器学习会议论文集——第32卷,ICML’14,JMLR.org,中国北京(2014),第II-1278-II-1286页
[14] Kucukelbir,A。;Tran博士。;Ranganath,R。;Gelman,A。;Blei,D.M.,自动微分变分推理,J.马赫。学习。Res.,18,1,430-474(2017),出版商:JMLR.org·Zbl 1437.62109号
[15] Pearl,J.,《智能系统中的概率推理:合理推理网络》(1988),摩根·考夫曼
[16] 麦凯,D.J.,《信息理论、推理和学习算法》(2003),剑桥大学出版社·Zbl 1055.94001号
[17] Minka,T.P.,近似贝叶斯推断的期望传播,(第17届人工智能不确定性会议论文集(2001)),362-369
[18] Vehtari,A。;Gelman,A。;Sivula,T。;Jylänki,P。;Tran,D。;Sahai,S。;Blomstedt,P。;坎宁安,J.P。;Schiminovich,D。;Robert,C.P.,《期望传播作为一种生活方式:基于分区数据的贝叶斯推断框架》,J.Mach。学习。第21、17、1-53号决议(2020年)·Zbl 1498.68287号
[19] Winn,J。;Bishop,C.M.,变体消息传递,J.Mach。学习。第6号决议,661-694年4月(2005年)·兹比尔1222.68332
[20] Dauwels,J.,关于因子图上的变分信息传递,(IEEE信息理论国际研讨会(2007)),2546-2550
[21] 霍夫曼,M。;布莱,D.M。;王,C。;佩斯利,J.,《随机变分推断》,J.马赫。学习。Res.,14,1,1303-1347(2013),出版商:JMLR.org·Zbl 1317.68163号
[22] M.Khan。;Lin,W.,《共轭计算变分推理:将非共轭模型中的变分推理转换为共轭模型的推理》,(人工智能与统计,PMLR(2017)),878-887
[23] Amari,S.,《自然梯度在学习中的效率》,神经计算。,10, 2, 251-276 (1998)
[24] Amari,S.,《信息几何及其应用》,《应用数学科学》,第194卷(2016年),日本施普林格出版社:日本东京·Zbl 1350.94001号
[25] Minka,T。;Winn,J。;吉弗,J。;Zaykov,Y。;Fabian博士。;Bronskill,J.,/推断。净0.3(2018年)
[26] Bezanson,J。;卡宾斯基,S。;沙阿,V.B。;Edelman,A.,Julia:技术计算的快速动态语言(2012),arXiv预印本
[27] 巴加耶夫,D。;de Vries,B.,可伸缩贝叶斯推理的反应式消息传递,类型:文章(2021年12月)
[28] 考克斯,M。;van de Laar,T。;de Vries,B.,贝叶斯信号处理算法自动设计的因子图方法,国际期刊近似推理。,104, 185-204 (2019)
[29] Akbayrak,S.公司。;Bocharov,I。;de Vries,B.,自动近似贝叶斯推断的扩展变分消息传递,熵,23,7,815(2021)
[30] Forney,G.,《图上的代码:正常实现》,IEEE Trans。Inf.Theory,47,2,520-548(2001),会议名称:IEEE信息理论汇刊·Zbl 0998.94021号
[31] Loeliger,H.A。;Dauwels,J。;胡,J。;科尔,S。;平,L。;Kschichang,F.R.,基于模型的信号处理的因子图方法,Proc。IEEE,95,61295-1322(2007),出版商:IEEE
[32] 塞恩诺兹,伊利诺伊州。;van de Laar,T。;巴加耶夫,D。;de Vries,B.,《因子图中的变分消息传递和局部约束操作》,《熵》,23,807(2021),编号:7出版社:多学科数字出版研究所
[33] Beal,M.J.,近似贝叶斯推理的变分算法(2003),伦敦大学学院,博士论文
[34] Wainwright,M.J。;Jordan,M.I.,《图形模型、指数族和变分推理》,Found。趋势马赫数。学习。,1, 1-2, 1-305 (2008) ·Zbl 1193.62107号
[35] Paquet,美国。;Koenigstein,N.,带随机图的一类协同过滤,(第22届万维网国际会议论文集-WWW’13(2013),ACM出版社:巴西里约热内卢ACM出版社),999-1008
[36] Masegosa,A.R。;马丁内斯,A.M。;Langseth,H。;尼尔森,T.D。;Salmerón,A。;Ramos-López博士。;Madsen,A.L.,d-VMP:分布式变分消息传递,(第八届概率图形模型国际会议论文集,PMLR(2016)),321-332,ISSN:1938-7228
[37] M.E.Khan。;Rue,H.,贝叶斯学习规则(2021)
[38] 罗宾斯,H。;Monro,S.,《随机近似方法》,《数学年鉴》。Stat.,22,3,400-407(1951),出版商:数理统计研究所·Zbl 0054.05901号
[39] Paquet,U.,《贝叶斯网络中随机变分推理的收敛性》(NIPS变分推理研讨会(2014))
[40] Knowles,D.A。;Minka,T.,多项式和二元回归的非共轭变分信息传递,(神经信息处理系统进展(2011)),1701-1709
[41] 考克斯,M。;De Vries,B.,涉及连续变量和二进制变量的因子图中的稳健期望传播,(2018年第26届欧洲信号处理会议(EUSIPCO)(2018),IEEE:IEEE罗马),2583-2587
[42] Opper,M。;Archambeau,C.,《重新审视变分高斯近似》,神经计算。,21, 3, 786-792 (2009) ·Zbl 1178.68450号
[43] Baydin,A.G。;Pearlmutter,B.A。;Radul,A.A。;Siskind,J.M.,《机器学习中的自动差异化:一项调查》,J.Mach。学习。Res.,18,1,5595-5637(2017),出版商:JMLR.org
[44] Ye,L。;Beskos,A。;De Iorio先生。;Hao,J.,Monte Carlo坐标上升变分推断,统计计算。,1-19(2020),出版商:Springer·Zbl 1447.62030
[45] Barber,D.,《贝叶斯推理和机器学习》(2012),剑桥大学出版社·Zbl 1267.68001号
[46] Fisher,R.A.,《分类问题中多重测量的使用》,年。欧盟。,7、2、179-188(1936),电子版:
[47] 安德森,E.,《艾利斯的物种问题》,安·莫·博特·加德。,23,3457-509(1936),出版商:密苏里植物园出版社
[48] Bishop,C.M.,模式识别和机器学习(2006),Springer·Zbl 1107.68072号
[49] 卡林,B.P。;Gelfand,A.E。;Smith,A.F.M.,《变点问题的层次贝叶斯分析》,J.R.Stat.Soc.,Ser。C、 申请。《法律总汇》,41,2,389-405(1992),出版商:[Wiley,英国皇家统计学会]·Zbl 0825.62408号
[50] 亚当斯·R·P。;麦凯,D.J.C.,贝叶斯在线变化点检测(2007)
[51] Sutton,R.S。;Barto,A.G.,《强化学习》,《导论》(2018),麻省理工学院出版社,google-Books-ID:uWV0DwAAQBAJ·Zbl 1407.68009号
[52] Cemgil,A.T.,《蒙特卡罗方法入门教程》,马尔可夫链蒙特卡罗和粒子滤波,《信号处理学术出版社图书馆》,第1卷,1065-1114(2014),爱思唯尔出版社
[53] Gelman,A。;Carlin,J.B。;斯特恩,H.S。;邓森,D.B。;Vehtari,A。;Rubin,D.B.,《贝叶斯数据分析》(2013),CRC出版社
[54] Revels,J。;鲁宾,M。;Papamarkou,T.,朱莉娅的正向模式自动区分(2016)
[55] Revels,J.,ReverseDiff.jl(2017)
[56] Paszke,A。;毛重,S。;马萨,F。;Lerer,A。;布拉德伯里,J。;Chanan,G。;基林,T。;林,Z。;Gimelshein,北卡罗来纳州。;安提瓜,L。;Desmaison,A。;Köpf,A。;Yang,E。;德维托,Z。;Raison,M。;特贾尼,A。;Chilamkurthy,S。;斯坦纳,B。;方,L。;Bai,J。;Chintala,S.,PyTorch:一个命令式、高性能的深度学习图书馆(2019)
[57] M.阿巴迪。;阿加瓦尔,A。;巴勒姆,P。;Brevdo,E。;陈,Z。;Citro,C。;Corrado,G.S。;A.戴维斯。;迪安·J。;德文,M。;盖玛瓦特,S。;古德费罗,I。;竖琴,A。;欧文,G。;Isard,M。;贾毅。;Jozefowicz,R。;凯撒,L。;库德勒,M。;Levenberg,J。;Mane,D。;蒙加,R。;摩尔,S。;D.穆雷。;奥拉,C。;舒斯特,M。;Shlens,J。;斯坦纳,B。;Sutskever,I。;Talwar,K。;塔克,P。;Vanhoucke,V.公司。;瓦苏德万,V。;维埃加斯,F。;维尼亚尔斯,O。;监狱长,P。;Wattenberg,M。;维克,M。;Yu,Y。;Zheng,X.,TensorFlow:异构分布式系统上的大规模机器学习(2015),19
[58] Innes,M。;Saba,E。;费舍尔,K。;甘地,D。;鲁迪洛索,M.C。;新墨西哥州乔伊。;Karmali,T。;Pal,A。;Shah,V.,《时尚的流动造型》(2018年)
[59] Jospin,L.V。;W.邦廷。;Boussaid,F。;拉加,H。;Bennamoun,M.,《亲身体验贝叶斯神经网络——深度学习用户指南》(2021年)
[60] F.R.鲁伊斯。;提提亚斯,M。;Blei,D.,广义再参数化梯度,(神经信息处理系统进展(2016))
[61] Jankowiak,M。;Obermeyer,F.,《超越重新参数化技巧的路径导数》,(第35届机器学习国际会议论文集,PMLR(2018)),2235-2244
[62] 菲格诺夫,M。;穆罕默德,S。;Mnih,A.,《隐式再参数化梯度》(神经信息处理系统进展(2018))
[63] Ranganath,R。;王,C。;大卫,B。;Xing,E.,随机变分推理的自适应学习率,(第30届国际机器学习会议论文集,PMLR(2013)),298-306,ISSN:1938-7228
[64] 达卡,A.K。;Catalina,A。;Andersen,M.R。;马格努森,M。;哈金斯,J.H。;Vehtari,A.,变分推理的稳健、准确随机优化,(神经信息处理系统进展(2020))
[65] Lin,W。;施密特,M。;Khan,M.E.,处理贝叶斯学习规则中的正定约束,(第37届机器学习国际会议论文集,PMLR(2020)),6116-6126
[66] Mackay,D.J.C.,《蒙特卡罗方法导论》,(图形模型学习(1998),施普林格出版社),175-204年·Zbl 0911.65004号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。