中间

使用分布式计算集群扩展贝叶斯变分推理。在本文中,我们提出了一种使用变分方法来扩展贝叶斯学习的方法,该方法利用现代大数据处理工具(如apachespark或apacheflink)管理的分布式计算集群,有效地支持迭代map-reduce操作。我们的方法被定义为一个分布式投影自然梯度上升算法,具有良好的收敛性,并且覆盖了广泛的共轭指数族模型。我们对来自不同领域的三个真实世界数据集(Pubmed摘要数据集、GPS轨迹数据集和金融数据集)和几种模型(LDA、因子分析、高斯和线性回归模型的混合模型)进行了评估。我们的方法与随机变分推理和流变分Bayes相比,这两种方法是目前用于放大变分方法的主要建议。对于可伸缩性分析,我们使用一个具有128个处理单元(AWS)的计算机集群,在一个拥有超过10亿个节点和大约75%$潜在变量的网络上评估我们的方法。所提出的方法是作为可伸缩概率机器学习开源工具箱(url{http://www.amidstboolbox.com})Masegosa等人(2017)[29]的一部分发布的。