开放式访问
2020年10月 受控序贯蒙特卡罗
杰里米·亨,阿德里安·毕晓普,乔治·德利吉安尼迪斯,阿诺·杜塞特
安。统计师。 48(5): 2904-2929 (2020年10月)。 内政部:10.1214/19-AOS1914

摘要

序列蒙特卡罗方法,也称为粒子方法,是一组常用的技术,用于近似高维概率分布及其归一化常数。这些方法在统计学和相关领域有许多应用;例如,用于非线性非高斯状态空间模型和复杂静态模型中的推理。与许多蒙特卡洛抽样方案一样,它们依赖于对其性能有关键影响的提案分布。我们在这里介绍了一类受控序贯蒙特卡罗算法,其中建议分布是通过使用迭代方案近似相关最优控制问题的解来确定的。该方法建立在计量经济学、物理学和统计学中现有的状态空间模型推理算法的基础上,并对这些方法进行了推广,以适应复杂的静态模型。我们对该方法的波动性和稳定性进行了理论分析,并深入了解了相关算法的特性。我们证明了在各种应用中,在固定计算复杂度下,相对于最先进的方法,我们取得了显著的进步。

引用

下载引文

杰里米·亨。 阿德里安·N·毕晓普(Adrian N.Bishop)。 乔治·德利吉安尼迪斯。 阿诺·多塞特(Arnaud Doucet)。 “受控顺序蒙特卡罗法。” 安。统计师。 48 (5) 2904 - 2929, 2020年10月。 https://doi.org/10.1214/19-AOS1914

问询处

收到日期:2019年2月1日修订日期:2019年7月1日发布日期:2020年10月
欧几里德项目首次提供:2020年9月19日

数学科学网:4152628马来西亚令吉
数字对象标识符:10.1214/19-AOS1914

学科:
主要用户:2005年6月2日
次要:2012年12月62日,62米10

关键词:退火重要性抽样,近似动态规划,归一化常数,最优控制,强化学习,状态空间模型

版权所有©2020数学统计研究所

第48卷•第5期•2020年10月
返回页首