Distributed Computation for Marginal Likelihood based Model Choice

Alexander Buchholz; Daniel Ahfock; Sylvia Richardson

doi:10.1214/22-BA1321

2023年6月基于边际似然的模型选择的分布式计算

亚历山大·布赫霍尔茨,丹尼尔·阿霍克,西尔维娅·理查森

作者关联+

贝叶斯分析。 18(2): 607-638 （2023年6月）。 DOI:10.1214/22-b1321

摘要

我们提出了一种使用边际似然的分布式贝叶斯模型选择的通用方法，其中数据集被划分为非重叠子集。这些子集仅由单个工作人员本地访问，工作人员之间没有共享数据。我们通过在每个子集上从后验点进行蒙特卡罗抽样来近似整个数据集的模型证据，从而为每个子集生成一个模型证据。使用一种新的方法组合结果，该方法使用生成样本的汇总统计数据校正分裂。我们的分而治之的方法允许在大数据环境中选择贝叶斯模型，利用所有可用信息但限制工人之间的通信。我们推导了理论误差界，量化了计算增益和精度损失之间的权衡。如我们的真实世界实验所示，在海量数据集上使用时，这种令人尴尬的并行性会产生重要的加速效果。此外，我们还展示了如何将建议的方法扩展到可逆跳转设置中的模型选择，该设置在一次运行中探索多个特征组合。

资金筹措表

这项工作得到了EPSRC（EP/R018561/1）、MRC项目拨款（MC_U_00002/10）和阿兰·图灵研究所（TU/B/00092）的支持。

致谢

我们感谢莱昂纳多·波托洛（Leonardo Bottolo）、保罗·纽科姆（Paul Newcombe）、威尔·阿斯特尔（Will Astle）和尼古拉斯·肖邦（Nicolas Chopin）的有益讨论，并感谢威尔·阿斯特勒（Will阿斯特尔）提供的数据。我们要感谢审稿人和编辑的反馈，他们的反馈极大地帮助我们改进了工作。