杰里米·亨;阿德里安·N·毕晓普。;Deligiannidis,乔治;阿诺·杜塞特 受控顺序蒙特卡罗法。 (英语) Zbl 1455.62162号 Ann.统计。 第5号第48页,2904-2929页(2020年). 摘要:序贯蒙特卡罗方法,也称为粒子方法,是一组常用的近似高维概率分布及其归一化常数的技术。这些方法在统计学和相关领域有许多应用;例如,用于非线性非高斯状态空间模型和复杂静态模型中的推理。与许多蒙特卡洛抽样方案一样,它们依赖于对其性能有关键影响的提案分布。我们在这里介绍了一类受控序贯蒙特卡罗算法,其中建议分布是通过使用迭代方案近似相关最优控制问题的解来确定的。该方法建立在计量经济学、物理学和统计学中现有的状态空间模型推理算法的基础上,并对这些方法进行了推广,以适应复杂的静态模型。我们对该方法的波动性和稳定性进行了理论分析,并深入了解了相关算法的特性。我们证明了在各种应用中,在固定计算复杂度下,相对于最先进的方法,我们取得了显著的进步。 引用于10文件 MSC公司: 2005年6月2日 马尔可夫过程:估计;隐马尔可夫模型 2012年12月62日 参数估计量的渐近性质 62M10个 统计学中的时间序列、自相关、回归等(GARCH) 62升12 序贯估计 62-08 统计问题的计算方法 65二氧化碳 蒙特卡罗方法 90立方厘米 动态编程 关键词:状态空间模型;退火重要性抽样;归一化常数;最优控制;近似动态规划;强化学习 PDF格式BibTeX公司 XML格式引用 \textit{J.Heng}等人,Ann.Stat.48,No.5,2904--2929(2020;Zbl 1455.62162) 全文: DOI程序 arXiv公司 欧几里得 参考文献: [1] Andrieu,C.、Doucet,A.和Holenstein,R.(2010年)。粒子马尔可夫链蒙特卡罗方法。J.R.统计社会服务。B.统计方法。72 269-342. Zentralblatt数学:1411.65020数字对象标识符:doi:10.1111/j.1467-9868.2009.00736.x·Zbl 1411.65020号 ·文件编号:10.1111/j.1467-9868.2009.00736.x [2] Bertsekas,D.P.和Tsitsiklis,J.N.(1996年)。神经动力学编程。马萨诸塞州贝尔蒙特Athena Scientific,Zentralblatt MATH:0924.68163·Zbl 0924.68163号 [3] Beskos,A.、Jasra,A.、Kantas,N.和Thiery,A.(2016)。自适应序贯蒙特卡罗方法的收敛性。附录申请。普罗巴伯。26 1111-1146. Zentralblatt数学:1342.82127数字对象标识符:doi:10.1214/15-AAP1113欧几里德项目:Euclid.aoap/1458651829·Zbl 1342.82127号 ·doi:10.1214/15-AAP1113 [4] Bichtler,K.(2002年)。带跳跃的随机积分。数学及其应用百科全书89。剑桥大学出版社,剑桥。Zentralblatt数学:1002.60001·Zbl 1002.60001号 [5] Bresler,Y.(1986)。离散时间非线性贝叶斯平滑的双滤波器公式。内部。J.控制43 629-641。Zentralblatt数学:0586.93067数字对象标识符:doi:10.1080/00207178608933489·Zbl 0586.93067号 ·doi:10.1080/00207178608933489 [6] Briers,M.、Doucet,A.和Maskell,S.(2010年)。状态空间模型的平滑算法。Ann.Inst.统计。数学。62 61-89. Zentralblatt数学:1422.62297数字对象标识符:doi:10.1007/s10463-009-0236-2·Zbl 1422.62297号 ·doi:10.1007/s10463-009-0236-2 [7] Bühlmann,P.和Yu,B.(2003)。L_2损失增加:回归和分类。J.Amer。统计师。协会98 324-339·Zbl 1041.62029号 [8] 肖邦,N.(2002)。静态模型的序列粒子滤波方法。生物特征89 539-552。Zentralblatt数学:1036.62062数字对象标识符:doi:10.1093/biomet/89.3.539·Zbl 1036.62062号 ·doi:10.1093/biomet/89.3.539 [9] 肖邦,N.(2004)。序列蒙特卡罗方法的中心极限定理及其在贝叶斯推理中的应用。安。统计师。32 2385-2411. Zentralblatt数学:1079.65006数字对象标识符:doi:10.1214/009053604000000698欧几里德项目:Euclid.aos/107794873·Zbl 1079.65006号 ·doi:10.1214/009053604000000698 [10] 克里斯滕森,O.F.,罗伯茨,G.O.和罗森塔尔,J.S.(2005)。本地Metropolis-Hastings算法瞬态阶段的缩放限制。J.R.统计社会服务。B.统计方法。67 253-268。Zentralblatt数学:1075.65012数字对象标识符:doi:10.1111/j.1467-9868.2005.005.x·Zbl 1075.65012号 ·doi:10.1111/j.1467-9868.2005.00500.x [11] Del Moral,P.(2004)。Feynman-Kac公式。概率及其应用(纽约)。纽约州施普林格。天顶广场数学:1130.60003·Zbl 1130.60003号 [12] Del Moral,P.、Doucet,A.和Jasra,A.(2006年)。连续蒙特卡罗采样器。J.R.统计社会服务。B.统计方法。68 411-436. Zentralblatt数学:1105.62034数字对象标识符:doi:10.1111/j.1467-9868.2006.00553.x·Zbl 1105.62034号 ·文件编号:10.1111/j.1467-9868.2006.00553.x [13] Del Moral,P.和Guionnet,A.(1999)。非线性滤波和相互作用粒子系统的中心极限定理。附录申请。普罗巴伯。9 275-297. Zentralblatt数学:0938.60022数字对象标识符:doi:10.1214/aoap/1029962742欧几里德项目:Euclid.aoap/1029962742·Zbl 0938.60022号 ·doi:10.1214/aoap/1029962742 [14] Diaconis,P.和Freedman,D.(1999)。迭代随机函数。SIAM版本41 45-76。Zentralblatt数学:0926.60056数字对象标识符:doi:10.1137/S0036144598338446·Zbl 0926.60056号 ·doi:10.1137/S0036144598338446 [15] Doucet,A.、Godsill,S.J.和Andrieu,C.(2000)。贝叶斯滤波的序贯蒙特卡罗抽样方法。统计计算。10 197-208. [16] Doucet,A.和Johansen,A.M.(2011年)。粒子过滤和平滑教程:十五年后。《牛津非线性滤波手册》(D.Crisan和B.L.Rozovsky,eds.)656-704。牛津大学出版社,牛津。Zentralblatt数学:05919872·Zbl 1513.60043号 [17] Gelman,A.和Meng,X.-L.(1998年)。模拟归一化常数:从重要性采样到桥接采样再到路径采样。统计师。科学。13 163-185. Zentralblatt数学:0966.65004数字对象标识符:doi:10.1214/ss/1028905934欧几里德项目:Euclid.ss/1028905934·Zbl 0966.65004号 ·doi:10.1214/ss/1028905934 [18] Gerber,M.、Chopin,N.和Whiteley,N.(2019年)。重采样方法的负关联、排序和收敛性。安。统计师。47 2236-2260. Zentralblatt数学:1429.62154数字对象标识符:doi:10.1214/18-AOS1746欧几里得项目:欧几里得.aos/1558425644·Zbl 1429.62154号 ·doi:10.1214/18-AOS1746 [19] Girolma,M.和Calderhead,B.(2011年)。黎曼流形朗之万和哈密顿蒙特卡罗方法。J.R.统计社会服务。B.统计方法。73 123-214. Zentralblatt数学:1411.62071数字对象标识符:doi:10.1111/j.1467-9868.2010.00765.x·Zbl 1411.62071号 ·文件编号:10.1111/j.1467-9868.2010.00765.x [20] Gobet,E.(2016)。蒙特卡罗方法与随机过程:从线性到非线性。佛罗里达州博卡拉顿CRC出版社,Zentralblatt MATH:1359.65012·Zbl 1359.65012号 [21] Gordon,N.J.、Salmond,D.和Smith,A.F.M.(1993)。一种非线性/非高斯贝叶斯状态估计的新方法。IEE程序。雷达信号处理。140 107-113. [22] Guarniero,P.、Johansen,A.M.和Lee,A.(2017)。迭代辅助粒子过滤器。J.Amer。统计师。协会112 1636-1647。 [23] Gupta,A.、Jain,R.和Glynn,P.(2018年)。Banach空间上迭代随机收缩算子的不动点定理。可在arXiv:1804.01195购买。arXiv:1804.01195 [24] Heng,J.、Bishop,A.N、Deligiannidis,G.和Doucet,A.(2020年)。对“受控时序蒙特卡罗”的补充https://doi.org/10.1214/19-AOS1914SUPP。 [25] 新泽西州海姆(1988)。计算最近对称半正定矩阵。线性代数应用。103 103-118. Zentralblatt数学:0649.65026数字对象标识符:doi:10.1016/0024-3795(88)90223-6·Zbl 0649.65026号 ·doi:10.1016/0024-3795(88)90223-6 [26] Jacob,P.E.、Murray,L.M.和Rubenthaler,S.(2015)。粒子过滤器中的路径存储。统计计算。25 487-496. Zentralblatt数学:1332.62359数字对象标识符:doi:10.1007/s11222-013-9445-x·Zbl 1332.62359号 ·doi:10.1007/s11222-013-9445-x [27] Jasra,A.、Stephens,D.A.、Doucet,A.和Tsagaris,T.(2011年)。通过自适应序贯蒙特卡罗推断Lévy驱动的随机波动率模型。扫描。《美国联邦法律大全》第38卷第22页。Zentralblatt数学:1246.91149数字对象标识符:doi:10.1111/j.1467-9469.2010.00723.x·Zbl 1246.91149号 ·数字对象标识代码:10.1111/j.1467-9469.2010.00723.x [28] Kappen,H.J.和Ruiz,H.-C.(2016)。用于控制和推理的自适应重要性采样。《统计物理学杂志》。162 1244-1266. Zentralblatt数学:1338.93166数字对象标识符:doi:10.1007/s10955-016-1446-7·Zbl 1338.93166号 ·doi:10.1007/s10955-016-1446-7 [29] Künsch,H.R.(2005)。递归蒙特卡罗滤波器:算法和理论分析。安。统计师。33 1983-2021. ·Zbl 1086.62106号 [30] Künsch,H.R.(2013)。颗粒过滤器。伯努利19 1391-1403·Zbl 1275.93058号 [31] Lin,M.、Chen,R.和Liu,J.S.(2013)。序贯蒙特卡罗的前瞻策略。统计师。科学。28 69-94. Zentralblatt数学:1332.62144数字对象标识符:doi:10.1214/12-STS401欧几里德项目:Euclid.ss/1359468409·Zbl 1332.62144号 ·doi:10.1214/12-STS401 [32] Liu,J.S.(2001)。科学计算中的蒙特卡罗策略。统计学中的斯普林格系列。纽约州施普林格市天顶广场数学:0991.65001·Zbl 0991.65001号 [33] Liu,J.S.和Chen,R.(1998)。动态系统的序贯蒙特卡罗方法。J.Amer。统计师。协会93 1032-1044。Zentralblatt数学:1064.65500数字对象标识符:doi:10.1080/01621459.1998.10473765·Zbl 1064.65500号 ·doi:10.1080/01621459.1998.10473765 [34] Lorenz,E.N.(1996)。可预测性:问题部分解决。程序中。可预测性研讨会1。 [35] J.C.马丁利、A.M.斯图亚特和D.J.海姆(2002)。SDE和近似的遍历性:局部Lipschitz向量场和退化噪声。随机过程。申请。101 185-232. Zentralblatt数学:1075.60072数字对象标识符:doi:10.1016/S0304-4149(02)00150-3·Zbl 1075.60072号 ·doi:10.1016/S0304-4149(02)00150-3 [36] Milstein,G.N.和Tretyakov,M.V.(2004)。数学物理随机数值。科学计算。柏林施普林格。Zentralblatt数学:1085.60004·兹比尔1085.60004 [37] Möller,J.、Syversveen,A.R.和Waagepetersen,R.P.(1998年)。对数高斯Cox过程。扫描。《美国联邦法律大全》第25卷第451-482页。Zentralblatt数学:0931.60038数字对象标识符:doi:10.1111/1467-9469.00115·Zbl 0931.60038号 ·doi:10.111/1467-9469.00115 [38] Murray,L.M.、Singh,S.、Jacob,P.E.和Lee,A.(2016)。随时蒙特卡洛。可在arXiv:612.03319上获得。 [39] Neal,R.M.(2001)。退火重要性抽样。统计计算。11 125-139. [40] Nemoto,T.、Bouchet,F.、Jack,R.L.和Lecomte,V.(2016)。具有多时间反馈控制的种群动力学方法。物理学。版次:E 93 062123。 [41] Pitt,M.K.和Shephard,N.(1999)。通过模拟过滤:辅助粒子过滤器。J.Amer。统计师。协会94 590-599。Zentralblatt数学:1072.62639数字对象标识符:doi:10.1080/01621459.1999.10474153·Zbl 1072.62639号 ·doi:10.1080/01621459.1999.10474153 [42] Richard,J.-F.和Zhang,W.(2007年)。高效的高维重要性采样。《计量经济学杂志》141 1385-1411。Zentralblatt数学:1420.65005数字对象标识符:doi:10.1016/j.jeconom.2007.02.007·Zbl 1420.65005号 ·doi:10.1016/j.jeconom.2007.02.007 [43] Roberts,G.O.和Stramer,O.(2002年)。朗之万扩散和大都会-黑斯廷斯算法。Methodol公司。计算。申请。普罗巴伯。4 337-357. Zentralblatt数学:1033.65003数字对象标识符:doi:10.1023/A:1023562417138·Zbl 1033.65003号 ·doi:10.1023/A:1023562417138 [44] Roberts,G.O.和Tweedie,R.L.(1996年)。Langevin分布及其离散近似的指数收敛性。伯努利2 341-363。Zentralblatt数学:0870.60027数字对象标识符:doi:10.2307/3318418欧几里德项目:Euclid.bj/1178291835·Zbl 0870.60027号 ·doi:10.2307/3318418 [45] Ruiz,H.-C.和Kappen,H.J.(2017)。隐藏扩散过程的粒子平滑:自适应路径积分更平滑。IEEE传输。信号处理。65 3191-3203. Zentralblatt数学:1414.94525数字对象标识符:doi:10.1010/TSP.2017.2686340·Zbl 1414.94525号 ·doi:10.1109/TSP.2017.2686340 [46] Schäfer,C.和Chopin,N.(2013年)。大型二进制采样空间上的序贯蒙特卡罗。统计计算。23 163-184. ·Zbl 1322.62035号 [47] Scharth,M.和Kohn,R.(2016)。粒子效率重要性采样。《计量经济学杂志》190 133-147。Zentralblatt数学:1419.62247数字对象标识符:doi:10.1016/j.jeconom.2015.03.047·Zbl 1419.62247号 ·doi:10.1016/j.econom.2015.03.047 [48] Temereanca,S.、Brown,E.N.和Simons,D.J.(2008)。重复刺激触须时丘脑放电同步性的快速变化。《神经科学杂志》。28 11153-11164. [49] Theodorou,E.A.和Todorov,E.(2012)。相对熵和自由能二重性:与路径积分和KL控制的联系。第51届IEEE决策与控制会议(CDC)论文集,1466-1473。牛津大学出版社,牛津。 [50] Thijssen,S.和Kappen,H.J.(2015)。路径积分控制和状态相关反馈。物理学。版次:E 91 032104。 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。