×

使用分布式计算集群扩大贝叶斯变分推理。 (英语) Zbl 1420.68171号

摘要:在本文中,我们提出了一种使用变分方法扩展贝叶斯学习的方法,该方法利用由现代大数据处理工具(如Apache Spark或Apache Flink)管理的分布式计算集群,这些工具有效地支持迭代地图还原操作。我们的方法被定义为一种分布式投影自然梯度上升算法,具有良好的收敛性,并且涵盖了广泛的共轭指数族模型。我们在来自不同领域的三个真实数据集(Pubmed抽象数据集、GPS轨迹数据集和金融数据集)上,使用多种模型(LDA、因子分析、高斯和线性回归模型的混合)评估了所提算法。我们的方法比随机变分推理和流变分贝叶斯更好,这两种方法是当前扩展变分方法的主要建议。对于可伸缩性分析,我们使用具有128个处理单元(AWS)的计算机集群,在一个具有超过10亿个节点和大约75%潜在变量的网络上评估我们的方法。提出的方法作为可扩展概率机器学习的开源工具箱的一部分发布(网址:http://www.amidsttoolbox.com),参见我们的工作[“AMIDST:用于可扩展概率机器学习的Java工具箱”,预打印,arXiv:1704.01427].

MSC公司:

68T05型 人工智能中的学习和自适应系统
2015年1月62日 贝叶斯推断
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 亚历山德罗夫,A。;Bergmann,R。;埃文,S。;弗雷塔格,J.-C。;Hueske,F。;海斯,A。;高,O。;Leich,M。;Leser,美国。;马克·V。;Naumann,F。;彼得斯,M。;Rheinländer,A。;萨克斯,M.J。;谢尔特,S。;Höger,M。;Tzoumas,K。;Warneke,D.,《大数据分析的平流层平台》,VLDB J.,23939-964(2014)
[2] Beal,M.J.,《近似贝叶斯推断的变分算法》(2003),伦敦大学学院,盖茨比计算神经科学研究所博士论文
[3] 贝尔纳多,J.M。;Smith,A.F.,贝叶斯理论(2006),John Wiley&Sons:John Willey&Sons Canada,Limited
[4] 布莱,D.M。;Ng,A.Y.先生。;Jordan,M.I.,《潜在迪里克莱分配》,J.Mach。学习。决议,3,993-1022(2003)·Zbl 1112.68379号
[5] Borchani,H。;马丁内斯,A.M。;Masegosa,A。;Langseth,H。;尼尔森,T.D。;Salmerón,A。;费尔南德斯,A。;Madsen,A.L。;Sáez,R.,信贷业务风险预测的动态贝叶斯模型,(第13届斯堪的纳维亚人工智能会议论文集(2015),IOS出版社),17-26
[6] Borchani,H。;马丁内斯,A.M。;Masegosa,A。;Langseth,H。;尼尔森,T.D。;Salmerón,A。;费尔南德斯,A。;Madsen,A.L。;Sáez,R.,《建模概念漂移:基于概率图形模型的方法》,(第十四届国际开发协会研讨会论文集(2015),斯普林格国际出版公司),72-83
[7] 博伊德,S。;Vandenberghe,L.,《凸优化》(2004),剑桥大学出版社·Zbl 1058.90049号
[8] 布罗德里克,T。;博伊德,N。;Wibisono,A。;A.C.威尔逊。;Jordan,M.I.,流式变分贝叶斯,《NIPS进展》,第26卷,1727-1735(2013),Curran Associates,Inc。
[9] 卡巴纳斯,R。;马丁内斯,A.M。;Masegosa,A.R。;拉莫斯·洛佩斯,D。;Samerón,A。;尼尔森,T.D。;Langseth,H。;Madsen,A.L.,使用AMIDST对PGM进行财务数据分析,(2016年IEEE第16届国际数据挖掘研讨会(ICDMW)(2016年),IEEE),1284-1287
[10] 坎贝尔,T。;How,J.P.,近似分散贝叶斯推断,(第三十届UAI会议论文集(2014)),102-111
[11] Carbone,P。;埃文,S。;Haridi,S。;Katsifodimos,A。;马克·V。;Tzoumas,K.,Apache Flink:单引擎中的流和批处理,Q.Bull。计算。IEEE技术通信数据工程协会,36、28(2015)
[12] 卡塞拉,G。;Berger,R.,《统计推断》(2001年),Duxbury资源中心
[13] 陈先生。;邵庆明。;易卜拉欣,J.G.,贝叶斯计算中的蒙特卡罗方法(2012),施普林格科学与商业媒体
[14] Chu,C.-T。;Kim,S.K。;Lin,Y.-A。;Yu,Y。;Bradski,G。;Ng,A.Y.先生。;Olukotun,K.,多核机器学习地图还原,高级神经信息处理。系统。,19, 281-288 (2007)
[15] 迪安·J。;Ghemawat,S.,MapReduce:大型集群上的简化数据处理,Commun。ACM,51,107(2008)
[16] Doucet,A。;De Freitas,N。;Gordon,N.,《序贯蒙特卡罗方法简介》(sequential Monte Carlo methods in Practice,2001),施普林格出版社,3-14·Zbl 1056.93576号
[17] 杜奇,J。;哈赞,E。;Singer,Y.,在线学习和随机优化的自适应次梯度方法,J.Mach。学习。第2121-2159号决议(2011年)·Zbl 1280.68164号
[18] 福尔兹,J。;波义耳,L。;杜博伊斯,C。;Smyth,P。;Welling,M.,《潜在Dirichlet分配的随机坍塌变分贝叶斯推断》(知识发现和数据挖掘国际会议(2013),ACM),446-454
[19] 哈希姆,I.A.T。;雅库布,I。;Anuar,N.B。;莫赫塔,S。;加尼,A。;Khan,S.U.,《云计算“大数据”的兴起:回顾和开放研究问题》,《信息科学》。,第47页,第98-115页(2015年)
[20] 医学博士霍夫曼。;布莱,D.M。;王,C。;佩斯利,J.,《随机变分推断》,J.马赫。学习。第14号决议,1303-1347(2013)·Zbl 1317.68163号
[21] M.E.Khan。;Babanezhad,R。;Lin,W。;施密特,M。;Sugiyama,M.,非递减步长序列下近似粒度随机变分推理的收敛性(2015),arXiv预印本
[22] 库什纳,H.J。;Yin,G.G.,《随机近似算法与应用》(1997),Springer:Springer New York·Zbl 0914.60006号
[23] Lichman,M.,UCI机器学习库(2013),网址:
[24] 罗,Z.-Q。;Tseng,P.,可行下降法的误差界和收敛性分析:一般方法,Ann.Oper。决议,46,157-178(1993)·Zbl 0793.90076号
[25] Mandt,S。;Blei,D.,随机变分推理的平滑梯度,(神经信息处理系统进展(2014),麻省理工学院出版社),2438-2446
[26] Martens,J.,《自然梯度法的新见解和观点》(2014),arXiv预印本
[27] Masegosa,A.R。;马丁内斯,A.M。;Borchani,H.,《使用Java 8的多核CPU上的概率图形模型》,IEEE Compute。智力。Mag.,11,41-54(2016)
[28] Masegosa,A.R。;马丁内斯,A.M。;Langseth,H。;尼尔森,T.D。;Salmerón,A。;拉莫斯·洛佩斯,D。;Madsen,A.L.,d-VMP:分布式变分消息传递(PGM’2016)。PGM’2016,JMLR:研讨会和会议记录,第52卷(2016),321-332
[29] Masegosa,A.R。;马丁内斯,A.M。;拉莫斯·洛佩斯,D。;卡巴纳斯,R。;Salmerón,A。;尼尔森,T.D。;Langseth,H。;Madsen,A.L.,AMIDST:可扩展概率机器学习的Java工具箱(2017),arXiv预印本
[30] X孟。;布拉德利,J。;Yavuz,B。;斯帕克斯,E。;Venkataraman,S。;刘博士。;弗里曼,J。;蔡,D。;阿姆德,M。;欧文,S。;Xin,D。;Xin,R。;富兰克林,M.J。;扎德·R。;Zaharia,M。;Talwalkar,A.,MLlib:Apache Spark中的机器学习(2015),arXiv预印本·Zbl 1360.68697号
[31] X孟。;布拉德利,J。;尤瓦兹,B。;斯帕克斯,E。;Venkataraman,S。;刘博士。;弗里曼,J。;蔡,D。;阿姆德,M。;Owen,S.,MLlib:Apache Spark,J.Mach中的机器学习。学习。决议,17,1-7(2016)·Zbl 1360.68697号
[32] 罗宾斯,H。;Monro,S.,《随机近似方法》,《数学年鉴》。《统计》,22,400-407(1951)·Zbl 0054.05901号
[33] 佐藤,M.-A.,基于变分贝叶斯的在线模型选择,神经计算。,13, 1649-1681 (2001) ·Zbl 1013.62087号
[34] 韦林,M。;Teh,Y.W.,通过随机梯度Langevin动力学进行贝叶斯学习,(机器学习国际会议(ICML-11)(2011)),681-688
[35] Winn,J.M。;Bishop,C.M.,变体消息传递,J.Mach。学习。第661-694号决议(2005年)·Zbl 1222.68332号
[36] Zaharia,M。;乔杜里,M。;富兰克林,M.J。;申克,S。;Stoica,I.,Spark:使用工作集的集群计算,(第二届USENIX云计算热点问题会议(2010)的会议记录),1-7
[37] 郑毅。;李强。;陈,Y。;谢,X。;Ma,W.-Y.,《基于GPS数据的移动性理解》,(第十届普适计算国际会议论文集。第十届通用计算国际会议文献集,UbiComp’08(2008),ACM:美国纽约州纽约市ACM),312-321
[38] 郑毅。;谢,X。;Ma,W.-Y.,Geolife:用户、位置和轨迹之间的协作社交网络服务,IEEE数据工程公告。,33,32-39(2010年)
[39] 郑毅。;张,L。;谢,X。;Ma,W.-Y.,从GPS轨迹挖掘有趣的位置和旅行序列,(第18届万维网国际会议论文集。第18届国际万维网会议论文集,WWW’09(2009),ACM:ACM纽约,美国纽约州纽约市),791-800
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。