总结

本文开发了一种基于仿真的方法,用于在一般状态空间模型中进行序列参数学习和滤波。我们的方法是基于通过固定滞后平滑分布的混合来逼近目标的后验。参数推断利用了足够的统计结构,并且可以通过修改状态空间平滑算法轻松实现该方法。我们避免了重新加权粒子,从而避免了困扰使用顺序重要性采样的粒子过滤器的采样简并问题。通过两个实例说明了该方法:一个是具有观测误差的基准自回归模型,另一个是高维动态时空模型。我们表明,该方法在存在异常值、模型指定错误和高维的情况下提供了准确的推断。

1.简介

现代滤波在一般状态空间模型中的应用通常需要序列参数学习。典型的例子包括金融时间序列和时空建模。然而,状态和参数的组合学习带来了许多计算挑战。标准粒子滤波方法,如采样-重要性重采样(SIR)(Gordon等。,1993; 刘和陈,1995; 北川,1996)和辅助颗粒过滤器(APF)(Pitt和Shephard,1999)在存在异常值、模型错误指定或高维时,可能导致不平衡的粒子权重和简并。当涉及到序列参数学习时,简并问题会加剧,因为这会增加状态空间的有效维数(参见Andrieu等。(2005)).

在粒子滤波框架内提出了许多顺序参数学习方法。Liu和West(2001)增加状态向量以包含静态参数;贝尔祖伊尼等。(1997)提出的马尔可夫链蒙特卡罗(MCMC)在粒子滤波器和Liu和West中移动(2001)使用核密度估计来近似参数分布,而Hürzeler和Künsch(2001)和皮特(2002)提供了离线似然方法。Andrieu和Doucet(2003)和Andrieu等。(2005)考虑基于随机梯度和期望最大化方法的递归和批处理最大似然方法。德尔莫拉尔等。(2006)提出了一种在序贯蒙特卡罗框架内使用MCMC抽样的相关方法(2002)和斯托维克(2002)考虑了参数具有足够统计信息的模型,并将粒子滤波器应用于增广状态向量和足够统计信息。

本文提出了一种在一般状态空间模型中进行贝叶斯滤波和序列参数学习的新方法。我们的方法依赖于滚动窗口MCMC算法,该算法通过混合滞后来近似目标后验分布k个平滑分布。使用这种近似,我们将滤波问题重新定义为一系列小的平滑问题,这些问题可以使用标准MCMC方法解决(例如Carlin等。(1992)卡特和科恩(1994)). 该方法特别适用于条件高斯模型,其中快速MCMC平滑方法已得到很好的发展。为了实现序列参数学习,我们利用了Fearnhead中的足够统计结构(2002)和斯托维克(2002)以实现具有线性计算成本的算法。我们的方法的特点是包含静态参数、使用足够的统计信息进行快速参数更新和固定滞后更新方案。

类似的固定滞后方案已成功应用于粒子滤波器中。Clapp和Godsill(1999)北川和佐藤(2001)使用固定滞后平滑器估计滞后状态变量。皮特和谢泼德(2001)提出了一种固定滞后辅助粒子滤波器来处理异常值。然而,这些方法在几个方面与我们的不同:它们都基于重要性抽样方法,或者考虑平滑问题,或者假设已知参数。相比之下,我们的方法基于滚动窗口MCMC方法,它解决了滤波问题,并结合了顺序参数学习。

我们实用的过滤方法需要三个输入来实现。首先,我们必须指定独立状态轨迹的数量,N个,用于近似过滤密度。其次,我们需要MCMC迭代次数,G公司,这是从固定滞后平滑分布中获取数据所必需的。可以利用平滑问题的有效采样策略来减少所需的MCMC迭代次数。最后,我们需要滞后长度k个用于滚动窗口状态更新。章节2.6建议诊断以选择这些输入和第节通过示例演示其用法。

我们用两个应用程序来说明我们的方法。在低维环境中,我们考虑一个带有序列参数学习的基准自回归加噪声模型。对于模拟数据,我们发现我们的方法与Storvik的SIR和APF方法几乎没有差别。然而,当状态过程中包含未建模的变化点时,我们发现Storvik算法经历了粒子退化,导致有偏估计和低估后验不确定性,而我们的方法不存在这些问题。在高维环境中,我们考虑了一个动态时空模型,并表明我们的结果与完整MCMC分析的后验结果非常匹配。

论文的其余部分组织如下。章节2描述了用于状态和参数联合估计的实用滤波算法。我们还描述了基于仿真的MCMC状态和参数生成算法,并为选择算法输入提供诊断。章节将我们的方法应用于自回归和时空模型。最后,第节4提供了对工作的最后讨论。

2.序贯参数学习与滤波

组合状态滤波和序列参数学习问题可以描述如下。考虑带有观测向量的一般状态空间模型,一个未观测到的状态向量x个和参数向量θ.根据密度指定模型

(观察),

(进化)和

(先前的).

初始状态分布第页(x个0|θ)假设已知。贝叶斯状态滤波和参数学习需要计算联合后验分布第页(x个,θ|1:)每次=1,…,,其中:={,…,}表示观察块,我们定义x个:类似地。给定联合分布,通过边际分布推断状态和参数第页(x个|1:)和第页(θ|1:). 在几乎所有情况下,联合滤波和参数分布都无法以闭合形式进行,必须使用蒙特卡罗方法进行近似(参见Doucet等。(2001)对该主题进行全面审查)。

2.1. 使用固定参数进行过滤

在考虑组合状态和参数估计之前,我们首先描述了纯滤波问题,其中参数θ假设已知。这里的目标是生成样本{x个}从过滤密度第页(x个|1:)每次我们的方法是从联合分布中取样第页(x个k个+1:|1:)并从第页(x个|1:)作为边缘。该算法的核心是将联合分布表示为滞后的混合k个平滑分布:

1

其中,第二个标识利用状态空间模型的马尔科夫属性。求解方程中的积分(1)作为蒙特卡洛平均值,我们需要样本{X(X)k个()}第页(x个k个|1:). 我们的方法假设滞后k个足够大的样本第页(x个k个|1:−1)可以作为来自第页(x个k个|1:). 这种近似允许我们重用x个k个从过滤算法的前一步开始,不需要重新加权样本。

通过贝叶斯定理,我们可以证明这种固定滞后近似等价于假设x个k个条件独立给定k个+1:。由于一般隐马尔可夫模型的理论性质,这种近似可能保持合理的值k个在许多情况下。这是因为预测分布对初始状态的敏感性通常以指数速度迅速衰减(见Le Gland和Mevel(1997),昆施(2001)和德尔·道德等。(2006)).

纯状态过滤的算法进行如下。在初始预热期间(=1,…,k个),我们从完整的平滑分布中采样第页(x个0:|1:)使用MCMC方法。的绘图x个用于表示过滤分布第页(x个|1:). 在随后的期间(=k个+1,…,),我们从固定滞后平滑分布中采样第页(x个k个+1:|x个k个,k个+1:)通过使用MCMC方法,其中x个k个是算法中上一步可用的绘图。之后G公司取样器的迭代,我们存储x个k个+1用于下一阶段的算法,并使用x个表示过滤分布。算法总结如下。

2.1.1. 算法1:固定参数过滤

对于每个时间段=k个+1,…,,对于每个采样路径=1,…,N个,执行以下步骤。

  • 第1步:使用平稳分布运行MCMC算法第页(x个k个+1:x个k个(),k个+1:).

  • 第2步:定义x个k个+1:()作为的最后一个值x个k个+1:在链条中。

  • 步骤3:存储x个k个+1()作为抽签第页(x个k个+1|1:).

  • 步骤4:报告x个()作为抽签第页(x个|1:).

该算法取决于三个输入:N个,存储并用于近似滤波密度的独立状态轨迹数;G公司,MCMC迭代次数,以从步骤1中的固定滞后平滑分布中获得一个结果;k个,用于状态更新的滚动窗口宽度。在每个时间点N个历史,我们需要G公司MCMC迭代更新k个状态,因此算法的计算成本为O(运行)(NGk公司)每个时间段。

2.2. 使用完整历史记录过滤未知参数

我们现在讨论组合状态和序列参数学习的问题。这里的目标是从联合滤波分布进行模拟第页(x个,θ|1:)每次。按照我们的纯滤波方法,我们设计了一个算法来模拟分布第页(x个k个+1:,θ|1:),它提供了来自过滤分布的抽取第页(x个,θ|1:)作为边缘。我们考虑混合表示

2

请注意,现在结合历史的联合分布进行整合x个0:k个相对于x个k个如方程式所示(1). 表达式(2)中的近似值依赖于以下假设:k个足够大的样本第页(x个0:k个|1:−1)可以用作第页(x个0:k个|1:). 在节中2.6,我们更详细地讨论了这种近似,并提出了选择的诊断措施k个.

我们的方法需要从固定滞后平滑分布进行模拟第页(x个k个+1:θx个0:k个(),k个+1:),取决于存储的历史记录x个0:k个()每次。这可以通过使用MCMC方法通过在条件分布之间迭代来实现

如第节所述,通过使用模拟平滑算法有效地生成状态2.4模型的马尔可夫特性确保了状态更新的固定计算成本。然而,对于参数,条件分布取决于整个历史(x个0:,1:)这导致计算成本随时间增长。这意味着当需要快速更新时,通用状态和学习算法在实时设置中不可行。然而,在下一小节中,我们将展示如何通过利用足够的统计信息来简化参数更新,从而得到具有固定计算成本的算法。

组合滤波和序列参数学习的通用算法进行如下。预热期间(=1,…,k个),我们从完全平滑分布进行模拟第页(x个0:,θ|1:)使用MCMC方法。的边际吸引力(x个,θ)用作过滤分布的样本。对于后续时间(=k个+1,…,),我们从滞后中取样k个平滑分布第页(x个k个+1:,θ|x个0:k个,1:)其中x个0:k个是算法中上一步可用的绘图。的值x个k个+1添加到存储的历史记录中以供下一时间段使用,并绘制(x个,θ)用于表示滤波分布。算法总结如下。

2.2.1. 算法2:用序贯参数学习进行滤波

对于每个时间段=k个+1,…,,对于每个采样路径=1,…,N个,执行以下步骤。

  • 第1步:使用平稳分布运行MCMC算法第页(x个k个+1:x个k个(),k个+1:).

  • 第2步:定义X(X)k个+1:()作为的最后一个值(x个k个+1:,θ)在链条中。

  • 步骤3:存储X(X)k个+1()作为抽签第页(x个0:k个+1|1:).

  • 步骤4:报告X(X)()作为抽签第页(x个,θ|1:).

在这里N个是独立历史记录的数量{x个0:k个}存储并用于估计滤波分布。G公司是从固定滞后平滑分布获得样本所需的MCMC迭代次数。的价值G公司将取决于状态和参数之间的后验相关性,应尽可能使用块更新来减少所需的MCMC迭代次数。通过在前一时间段的最后一个值处初始化链,可以减少MCMC迭代次数,因为这些值通常非常接近目标分布。的价值G公司可通过使用标准MCMC诊断措施进行选择,顺序或离线。窗口宽度k个选择公式(2)中的近似值有效,如第节所述2.6.

2.3. 具有足够统计信息的序贯参数学习

在许多模型中,参数分布依赖于一组低维的充分统计信息S公司=𝒮(x个0:,1:),因此第页(θ|x个1:,1:)=第页(θ|S公司). 羽毛头(2002)和Storvik(2002)利用这种充分的统计结构在粒子滤波器中实现顺序参数学习。在这里,我们扩展了这种思想的使用,以在我们的实际过滤框架中获得快速参数更新={S公司,x个}作为参数和状态的扩展充分统计。我们还假设表单的递归更新规则=(f)(−1,x个,)可用。给定历史的状态和参数的联合分布k个然后可以写为

目标分布可以表示为滞后的混合k个平滑分布:

4

其中积分是关于充分统计数据的提取{k个()}而不是完整的历史{X(X)0:k个()}如表达式(2)所示。表达式(4)中的近似值基于以下假设k个足够大的样本第页(k个|1:−1)可以用作第页(k个|1:).

该算法要求每次从固定滞后平滑分布进行模拟:

我们考虑一个两块MCMC采样器,它在状态和参数的条件分布之间迭代,如分布(3)所示。状态更新与发行版(3)保持不变,可以以固定成本实现。由于具有足够的统计结构,现在可以简化参数分布

5

由于表达式(5)中的后验分布只需要组合存储的足够统计信息,因此这会导致具有固定计算成本的参数更新k个()最后一次k个观察值和插补状态。这是下面描述的快速参数更新算法的关键。

过滤算法现在更新并存储足够的统计信息,而不是完整的状态历史。初始预热期间(=1,…,k个),我们从完全平滑分布中得出第页(x个0:,θ|1:)使用MCMC方法,并使用(x个,θ). 对于后续时间(=k个+1,…,),我们从滞后中取样k个平滑分布第页(x个k个+1:,θ|k个,k个+1:),其中k个是算法中前一步的足够统计信息。最后,充分的统计数据k个+1为算法的下一步和绘图进行计算和存储(x个,θ)用于总结过滤密度。算法如下所示。

2.3.1. 算法3:使用足够的统计信息进行过滤

对于每个时间段=k个+1,…,,对于每个采样路径=1,…,N个,执行以下步骤。

  • 第1步:使用平稳分布运行MCMC算法第页(x个k个+1:,θk个(),k个+1:).

  • 第2步:定义(x个k个+1:(),θ())作为的最后一个值(x个k个+1:,θ)链中。

  • 步骤3:设置k个+1()=(f)(k个(),x个k个+1(),k个+1).

  • 步骤4:存储k个+1()作为抽签第页(k个+1|1:).

  • 第5步:报告x个(),θ()作为抽签第页(x个,θ|1:).

这为顺序参数学习提供了一种快速算法,因为它只跟踪状态和足够的统计信息,而不是完整的状态轨迹。尽管像Storvik这样的算法(2002)和Fearnhead(2002)我们的方法还利用了足够的统计信息,在固定滞后MCMC方案中使用它们,避免了重要抽样(和简并),并提供了N个滤波分布的独立样本。这通常允许我们使用比重要性抽样方法更小的样本量。

2.4. 状态生成方法

提出的滤波算法(算法1-3)需要有效的方法来生成给定参数的状态。我们依靠各种现有的蒙特卡罗平滑算法来实现这一点。对于线性高斯模型,可以使用Carter和Kohn的前向滤波-后向采样(FFBS)算法将状态作为一个块进行有效采样(1994)和Frühwirth Schnatter(1994). FFBS利用状态分布的因子分解作为

这导致了绘制的递归方法x个k个+1:。我们首先从时间向前运行筛选器k个+1至以获得滤波矩。然后我们抽签x个第页(x个|x个k个,k个+1:)并从分布中反向采样第页(x个j个|x个j个+1,x个k个,k个+1:j个)对于次j个=−1,…,k个+1.这提供了以参数为条件的状态的直接绘制。

FFBS也可以用于条件高斯模型,包括法线的比例混合、法线的离散混合以及具有乘法结构的多元模型。对于最后一种情况,可以通过将状态向量划分为子块来获得快速算法{x个,b},这样每个块在给定其他块的情况下都是有条件线性的。然后可以使用吉布斯采样器有效地绘制状态,其中每个块x个k个+1:,b通过使用FFBS有条件地生成。Weinberg等。(2007)提供此方法的示例。

MCMC采样效率通常可以通过引入额外的潜在状态变量块来提高。虽然这增加了状态向量的维数,但在我们的方法中几乎没有额外的计算负担,假设状态采样可以有效进行,并且潜在变量和状态几乎是独立的。状态空间模型中潜在变量的例子包括Carlin等。(1992)对于非高斯误差,Kim等。(1998)随机波动率模型和Stroud等。(2003)对于具有状态相关方差的非线性模型。

已经为其他类型的状态空间模型开发了仿真平滑算法。卡林等。(1992)为非线性状态空间模型提供了单状态MCMC平滑方案。谢泼德和皮特(1997)和Gamerman(1998)分别提出了动态指数族模型和动态广义线性模型的块平滑算法。斯科特(2001)为隐马尔可夫模型提供了MCMC方法,而Künsch(2001)考虑了一般离散时间序列模型。

2.5. 参数生成方法

章节2.3展示了如何利用足够的统计信息实现快速参数更新。在本节中,我们考虑了一类重要的参数高斯线性回归模型,并展示了滞后k个可以实现更新递归以获得足够的统计信息。根据状态,模型可以写成

6
7

哪里H(H)=H(H)(x个)F类=F类(x个1)矩阵的元素可能是状态的非线性函数,以及θ=(α,β,τ2,σ2)是未知参数的向量。在我们的贝叶斯设置中,线性回归模型(6)–(7)为快速参数更新提供了共轭结构。

我们假设参数的独立正态-逆伽马先验分布(α,τ2)和(β,σ2). 这导致了闭合形式的后验分布依赖于一组低维的足够统计信息,这些统计信息可以及时递归更新。对于演化参数,后验概率为

8
9

足够的统计数据是S公司={B,b,ν,d日}. 使用线性模型理论的标准结果k个更新递归以获得足够的统计信息,如下所示

10
11
12
13

哪里F类=(F类k个+1,…,F类),x个=(x个k个+1,,x个)第页是的尺寸x个.

观测参数也有类似的结果。对于这些参数由提供第页(ατ2,x个0:,1:)=N个(A类1,τ2A类1)第页(τ2|x个0:,1:)=ℐ𝒢(n个/2,/2) ,足够的统计数据是S公司={A类,,n个,}.滞后k个更新的递归S公司具有与相同的形式S公司在方程式中(10)–(13)其中x个被替换为,F类被替换为H(H)第页按尺寸.参数(α,τ2)和(β,σ2)是独立的后部,所以整个参数向量θ可以使用正常的反伽马后验函数生成块。第节中给出了一个示例3.1.

许多其他模型为参数提供了足够的统计结构。特别是,离散状态空间模型通常提供一种易于快速滞后的结构k个正在更新。示例包括具有未知转移概率矩阵的隐马尔可夫模型(Cappé等。,2005),多个变更点模型(Chib,1998)和动态分类时间序列模型(Carlin和Polson,1992). 这些模型中的有效状态和参数推断可以通过简单的吉布斯采样算法实现。

2.6. 选择滞后长度k个

一般状态和参数学习算法(第节2.2)基于这样的假设k个足够大的样本第页(x个0:k个|1:−1)可以用作第页(x个0:k个|1:). 根据贝叶斯规则,这两个分布由

14

因此,目标近似值相当于假设x个0:k个条件独立给定1:−1当有足够的统计结构可用时(第节2.3),x个0:k个替换为k个在方程式中(14)我们的假设是k个条件独立给定1:−1.

从实用的角度来看,一种简单的选择方法k个是针对一系列值运行算法(例如。k个=10,15,25),并监控一组状态和参数矩,以查看它们如何收敛。预测分布的灵敏度第页(|k个,k个+1:−1)至k个作为的函数k个在许多情况下会呈指数衰减。更正式的方法是计算诊断度量D类k个这是由两个分布之间的距离给出的第页(|k个,1:−1)和第页(|1:−1). 例如,北川(1996)使用了Kullback–Leibler散度度量。

根据我们的经验,对于大多数感兴趣的模型和参数来说,一个令人惊讶的低值非常有效。如第节中的示例所示,该近似对观测和演化方程中的回归参数非常适用显然,在具有固定选择的非平稳环境中k个这种方法可能会失败。此外,当θ只在演化方程中输入模型,然后选择适当的滞后k个可能高度依赖于θ。试图找到的值k个这样的话x个0:k个在给定的条件下近似独立1:−1可能主要取决于θ。在这些情况下可能的补救措施包括使用随机选择k个,甚至可能是历史MCMC绘制的函数。

从理论角度来看,关于预测分布对纯滤波背景下初始状态的敏感性以及它如何以指数速率衰减的一些结果是已知的(参见Le Gland和Mevel(1997),昆施(2001)和德尔·道德等。(2006)). 关于我们的目标近似在隐马尔可夫模型中何时可能有效的渐近结果可以在Bickel中找到等。(1998)和卡佩等。(2005); 见第4.3、4.3.4和4.3.6节。

3.应用

在本节中,我们分析了我们的算法的经验性能,并将其与计算密集的全MCMC方法以及Storvik的粒子滤波算法进行了比较。首先,我们考虑一个具有参数学习的基准自回归加噪声模型。我们表明,Storvik的粒子滤波器和我们的实用滤波器在正确指定的模型下有效地处理状态和序列参数学习。然而,当状态演化过程中包含未建模的变化点时,粒子滤波方法提供的推断较差,而我们的方法相当准确。其次,我们考虑了一个10维时空模型,并表明我们的滤波方法在高维环境中优于标准粒子滤波器。

3.1. AR(1)加噪声模型

用于研究滤波方法和序列参数学习的基准模型是一个自回归加噪声模型(例如,参见Pitt和Shephard(1999)和斯托维克(2002)):

使用参数值模拟数据β0=0,β1=0.9,σ2=0.04和τ2=0.1. 模型的条件高斯结构导致了一个高效的两块吉布斯采样器,用于状态和参数生成。给定参数,状态具有线性状态空间形式,可以通过使用FFBS有效生成,如第节所述2.4根据状态,模型对模型(6)-(7)中的参数采用线性回归形式。我们假设具有超参数的正态-逆伽马先验B0=,b0=(0,0.9),n个0=4和0=0.4,参数βτ2由第节中给出的后验分布生成2.5.可以利用模型的充分统计结构(算法3)来获得时间上线性的算法。

对于第一个实验,生成500个观测值,并运行滤波算法进行估计(x个,β0,β1,τ2). 选择吉布斯迭代次数G公司对于我们的算法,我们在前100个观测值上运行MCMC平滑器。对于所有参数,MCMC自相关(未显示)迅速衰减到0,因此我们选择一个值G公司=5.通过对各种值运行过滤算法来选择固定滞后长度k个.图。1显示了参数的滤波平均值和95%可信区间,以及各种值的滤波平均值的相对误差k个.误差从滞后中迅速减少k个=2至k个=3,然后缓慢下降直至滞后k个=25.显然,对于这个模型,一个相当小的滞后就足够了,我们选择k个=15.以下结果基于(N个,G公司,k个)=(1000,5,15).

AR(1)加噪声模型:实际滤波器参数(a)β0、(b)β1和(c)τ2的滤波平均值和95%可信区间,对于k和(d)、(e)、(f)的各种值,(N,G)=(1000,5),后验平均值对应的时间平均相对误差定义为绝对误差除以滤波标准偏差(,k=25;––,k=10;····,k=5;····,k=2)
图1

AR(1)加噪声模型:参数(a)的滤波平均值和95%可信区间β0,(b)β1和(c)τ2用于带有(N个,G公司)=(1000,5),对于各种值k个以及(d)、(e)、(f)后验均值的对应时间平均相对误差,定义为绝对误差除以滤波后的标准偏差(图解的,k个=25; – – –,k个=10;·······,k个=5; ·–·–·,k个=2)

图。2将状态和参数的过滤平均值和95%可信区间与完整MCMC采样进行比较。实际滤波器与全MCMC采样的状态滤波和序列参数学习紧密匹配β唯一的细微差别在于学习观测方差τ2虽然实际滤波在跟踪前200个时间点的边缘后验方面做得很好,但相对于完整MCMC采样,后验标准差稍小。这个错误是由滞后混合引起的k个平滑分布近似。

AR(1)加噪声模型:(a)状态变量xt、演化参数(b)β0和(c)β1的滤波平均值和95%可信区间,以及(d)观测方差τ2(––,(N,G,k)=(1000,5,15)的实际滤波器,具有10000次迭代的完整MCMC采样)
图2

AR(1)加噪声模型:(a)状态变量的滤波平均值和95%可信区间x个,演化参数(b)β0和(c)β1和(d)观测方差τ2(–––,实用过滤器(N个,G公司,k个)=(1000, 5, 15);图解的,具有10000次迭代的完整MCMC采样)

对于第二个实验,我们模拟了一个长度为100的数据集,但在时间点的状态演化中包含了一个大的跳跃(变化点)=50.我们再次估计状态和参数(x个,β0,β1,τ2)通过使用上面的优先级。为了进行比较,我们还展示了Storvik的SIR和APF算法的分层采样结果,使用N个=10000个粒子。(选择粒子数是为了使SIR和APF算法的运行时间大致等于我们的运行时间。)图(a) ,(c) 和(e) 显示过滤平均值和95%的可信波段β1而图(b) ,(d) 和(f) 显示相应的后向密度=50.这些曲线图表明,实际滤波器与完整MCMC采样非常匹配,而两个粒子滤波器(SIR和APF)都会产生有偏估计并低估后验方差。这种较差的性能是由于过滤分布中的粒子退化造成的。

AR(1)加上噪声模型,在时间50时具有未建模的变化点,滤波平均值为50,可信区间为95%,系数β1在时间50处具有后验分布(全MCMC采样,10000次迭代):(a),(b)Storvik的SIR粒子滤波算法(––),N=10000;(c) ,(d)N=10 000的Storvik APF算法(––);(e) ,(f)实际滤波器(––),(N,G,k)=(1000,5,15)
图3

AR(1)加噪声模型,在时间50-滤波平均值和95%可信区间处具有未建模的变化点,在时间50处具有系数的后验分布β1(图解的,具有10000次迭代的完整MCMC采样):(a),(b)Storvik的SIR粒子滤波算法(––)N个=10 000; (c) ,(d)Storvik的APF算法(––)N个=10 000; (e) ,(f)实际过滤器(––)(N个,G公司,k个)=(1000, 5, 15)

图。4显示了三种滤波算法在以下情况下的结果:=6包含在时间50中。这里,我们展示了滤波器偏差(估计平均值减去真实平均值)与选定时间点状态和参数的标准偏差之比的箱线图。结果基于200个模拟数据集。该图表明,在参数估计中存在偏差的异常值之后,SIR算法的性能较差(β1)坚持到底=60。APF算法比SIR算法性能更好,偏置随时间消失=53.最后,实际滤波器在状态和参数出现异常值后立即恢复。一般来说,实际滤波器的偏差显示出比其他方法更小的可变性,这表明我们的方法从数据集到数据集更可靠。

AR(1)加上噪声模型,在时间50时异常值yt=6(滤波偏差与后验标准偏差之比,如时间t=40、50、51、…、55、60所示;每个箱线图基于200个模拟数据集;注意,每个图的垂直尺度不同;为了便于对算法进行比较,每个绘图右侧包含一个垂直条,对应于给定行上所有绘图的相同间隔):(a)xt,Storvik的SIR算法;(b) xt,Storvik的APF算法;(c) xt,实用过滤器;(d) β0,Storvik的SIR算法;(e) β0,Storvik的APF算法;(f) β0,实际滤波器;(g) β1,Storvik的SIR算法;(h) β1,Storvik的APF算法;(i) β1实用过滤器
图4

异常值为的AR(1)加噪声模型时间50时=6(滤波器偏差与后验标准偏差之比,有时显示=40, 50, 51, …, 55, 60; 每个箱线图基于200个模拟数据集;注意,每个图的垂直比例不同;为了便于对算法进行比较,每个绘图右侧的垂直条都包含在内,对应于给定行上所有绘图的相同间隔):(a)x个,Storvik的SIR算法;(b)x个,Storvik的APF算法;(c)x个,实用过滤器;(d)β0,Storvik的SIR算法;(e)β0,Storvik的APF算法;(f)β0,实用过滤器;(g)β1,Storvik的SIR算法;(h)β1,Storvik的APF算法;(i)β1实用滤波器

从计算的角度来看,第一个例子(500次观测)在奔腾1.8MHz处理器上使用C代码需要大约45s的中央处理器单位时间,而全MCMC采样需要20min。然而,全MCMC采样在时间序列的长度上呈二次方增长,而我们的方法以线性速率增长。

3.2. 动态时空模型

为了证明我们的算法在高维环境中的有效性,我们考虑了Xu和Wikle提出的动态时空模型(2007). 该模型是一个具有观测误差形式的向量自回归模型

状态和观测向量x个=(x个1,…,x个万亿)=(1,…,万亿)对应于n个沿空间横断面等距分布的位置。模型中的时空结构是由三对角转换矩阵引起的M(M)这在表达式(15)中定义,它取决于三个参数(β1,β2,β). 为了进行分析,我们β=(β1,β2,β)'作为未知参数,并在我们的滤波算法中对其进行顺序估计。模型的条件高斯结构导致使用两块吉布斯采样器进行更新。状态具有线性高斯形式,可以使用FFBS进行采样β具有线性回归形式(7),其中F类+1定义如下:

15

这导致快速参数更新,利用了足够的统计结构(算法3)。我们假设正态先验分布β具有超参数B0=100b0=(30,30,30).

数据是使用生成的=100和n个使用参数=10(β1,β2,β)=(0.3,0.6,0.1),σ2=5和τ2=1.对于我们的方法,我们选择的蒙特卡罗样本大小为N个=100,在准确性和运行时间之间进行合理权衡。吉布斯迭代次数G公司根据MCMC平滑器的自相关函数图选择=3,该平滑器显示马尔可夫链的快速混合。滞后值k个通过比较不同值的过滤运行来选择=10k个如第节所述3.1。结果基于(N个,G公司,k个)=(100,3,10). 相比之下,一个完整的MCMC循环运行1000次迭代。图。5显示状态变量的过滤平均值和95%可信区间x个5和参数(β1,β2,β). 实际滤波器与所有连续的完整MCMC后验函数非常匹配。参数后验函数在样本开始时显示出快速的参数学习,大约之后趋于稳定=30个观察值。

动态时空模型:(a)状态变量xt5和演化参数(b)β1,(c)β2和(d)β3(––,(N,G,k)=(1000,5,15)的滤波平均值和95%可信区间,1000次迭代的完整MCMC采样)
图5

动态时空模型:(a)状态变量的过滤平均值和95%可信区间x个5和演化参数(b)β1,(c)β2和(d)β(–––,实用过滤器(N个,G公司,k个)=(1000, 5, 15);图解的,1000次迭代的完整MCMC采样)

图。6与Storvik的SIR和APF算法进行了比较(N个=10 000). 我们的方法的先验值和算法参数与上述相同。图。6显示了过滤后的平均值和密度β2对于长度为50的序列,其中在时间上包含一个异常值=25.当粒子从过渡密度传播时,SIR算法即使在异常值出现之前也表现不佳,并且在高维中,这可能会快速导致权重不平衡和简并。APF的表现要好得多,表明look-ahead方案和对新观测的适应可以在更高的维度上有所帮助。然而,在异常值处以及之后,我们的方法为β2与完整MCMC结果相比,其他参数(未显示)。

动态时空模型,具有在时间25处的异常值滤波平均值和在时间25处的95%可信区间以及转换参数β2的后验分布(具有1000次迭代的全MCMC采样):(a),(b)Storvik的SIR粒子滤波算法(––),N=10 000;(c) ,(d)N=10 000的Storvik APF算法(––);(e) ,(f)实际滤波器(––),(N,G,k)=(100,3,10)
图6

动态时空模型,过渡参数在时间25过滤平均值处具有离群值,在时间25处具有95%可信区间和后验分布β2(图解的,1000次迭代的完整MCMC采样):(a),(b)Storvik的SIR粒子滤波算法(––)N个=10 000; (c) ,(d)Storvik的APF算法(––)N个=10 000; (e) ,(f)实际过滤器(––)(N个,G公司,k个)=(100, 3, 10)

4.结论

针对一般状态空间模型,提出了一种贝叶斯滤波和序列参数学习算法。该方法依赖于滞后k个滤波分布的混合近似和参数的充分统计结构。该方法是基于MCMC的,并且很容易应用于可以有效生成状态的条件高斯模型。通过转换状态空间算法的现有平滑代码,可以很容易地实现该滤波器。与粒子滤波器等顺序重要性采样方法不同,它提供了来自目标分布的独立样本,不受粒子退化的影响,并能很好地处理异常值和高维问题。

这种过滤方法最近在金融应用中取得了成功,包括序列投资组合配置和带有跳跃的随机波动率模型(Johannes等。,2002,2006). 然而,序列参数学习仍然带来一些计算挑战。众所周知,按顺序估计进化方差参数非常困难(斯特劳德等。,2004)需要更多的研究来理解这个问题。未来研究的另一个途径是用离散采样数据过滤连续时间模型,其中在MCMC平滑框架中提出了填充缺失数据估值器(参见Eraker(2001)和Elerian等。(2001)). 通过使用本文提出的方法,这些估计量可以扩展到过滤上下文。

致谢

我们感谢联合主编、副主编和三位审稿人提出的非常有益的意见和建议,这些意见和建议极大地改进了原稿。我们也感谢井上卢德斯和迈克尔·皮特的有益评论。C代码可根据作者的要求提供。

工具书类

1

安德烈厄
,
C类
.和
水龙头
,
A类
. (
2003
)一般状态空间模型参数估计的在线期望最大化算法。
程序。国际协调声学、语音和信号处理
纽约:
电气和电子工程师协会
.

2

安德烈厄
,
C。
,
水龙头
,
A类
.和
塔迪奇
,
V(V)
. (
2005
)非线性非高斯状态空间模型中基于在线仿真的参数估计方法。
程序。Conf.决策控制
纽约:
电气和电子工程师协会
.

贝尔祖伊尼
,
C。
,
最佳
,
N.G.公司。
,
吉尔克斯
,
W.R.公司。
拉里扎
,
C。
(
1997
)
动态条件独立模型和马尔可夫链蒙特卡罗方法
.
《美国统计杂志》。助理。
,
92
,
1403
1412
.

4

比克尔
,
P.J.公司。
,
里托夫
,
年。
莱德昂
,
T。
(
1998
)
一般隐马尔可夫模型最大似然估计的渐近正态性
.
安。统计师。
,
26
,
1614
1635
.

5

卡佩
,
O。
,
鼠标线
,
E。
莱德昂
,
T。
(
2005
)
隐马尔可夫模型中的推理
纽约:
施普林格
.

6

卡林
,
业务伙伴
.和
波尔森
,
N.G公司
. (
1992
)离散回归模型和分类时间序列的蒙特卡罗贝叶斯方法。
贝叶斯统计4
(编辑
J.米。
伯纳多
,
J.O.公司。
伯杰
,
A.P.公司。
Dawid公司
上午至下午。
史密斯
),第页。
577
586
.牛津:
牛津大学出版社
.

7

卡林
,
业务伙伴。
,
波尔森
,
N.G.公司。
加料机
,
D.S.公司。
(
1992
)
非正态和非线性状态空间建模的蒙特卡罗方法
.
《美国统计杂志》。助理。
,
87
,
493
500
.

8

卡特
,
C.K.公司。
科恩
,
R。
(
1994
)
关于状态空间模型的吉布斯采样
.
生物特征
,
81
,
541
553
.

9

芯片
,
美国。
(
1998
)
多变化点模型的估计和比较
.
《计量经济学杂志》。
,
86
,
221
241
.

10

克拉普
,
T.C公司
.和
戈德斯基
,
S公司
. (
1999
)使用顺序重要性采样修复了lag平滑。
贝叶斯统计6
(编辑
J.米。
伯纳多
,
J。
伯杰
,
A.P.公司。
Dawid公司
A.F.M.公司。
史密斯
),第页。
743
752
.牛津:
牛津大学出版社
.

11

德尔莫拉尔
,
第页。
,
杜塞特
,
答:。
贾斯拉
,
答:。
(
2006
)
顺序蒙特卡罗采样器
.
J.R.统计。Soc.B公司
,
68
,
411
436
.

12

水龙头
,
答:。
,
德弗里塔斯
,
J·F·G
.和
戈登
,
N个
.(编辑)(
2001
)
序贯蒙特卡罗方法在实践中的应用
.波士顿:
Kluwer公司
.

13

Elerian公司
,
O。
,
谢泼德
,
N。
芯片
,
美国。
(
2001
)
离散观测非线性扩散的似然推断
.
计量经济学
,
69
,
959
993
.

14

埃雷克
,
B。
(
2001
)
扩散模型的MCMC分析及其在金融中的应用
.
J.总线。经济。统计师。
,
19
,
177
191
.

15

羽毛头
,
第页。
(
2002
)
MCMC、充分统计和粒子滤波
.
J.计算图。统计师。
,
11
,
848
862
.

16

福吕瓦特·施纳特
,
美国。
(
1994
)
数据增强和动态线性模型
.
J.时间序列。分析。
,
15
,
183
202
.

17

加梅尔曼
,
D。
(
1998
)
动态广义线性模型的Monte Carlo Markov链
.
生物特征
,
85
,
215
227
.

18

戈登
,
新泽西州。
,
鲑鱼
,
D.J.博士。
史密斯
,
A.F.M.公司。
(
1993
)
非线性/非高斯贝叶斯状态估计的新方法
.
程序。IEE F公司
,
140
,
107
113
.

19

胡泽勒
,
M。
昆施
,
小时。
(
2001
)近似并最大化一般SSM的可能性。
序贯蒙特卡罗方法在实践中的应用
(编辑
答:。
水龙头
,
J。
德弗里塔斯
N。
戈登
). 纽约:
施普林格
.

20

约翰内斯
,
米·秒。
,
波尔森
,
N.G.公司。
斯特劳德
,
J·R。
(
2002
)
顺序最优投资组合绩效:市场和波动时间
.技术报告.
商业研究生院
芝加哥大学。

21

约翰内斯
,
医学硕士。
,
波尔森
,
N.G.公司。
斯特劳德
,
J·R。
(
2006
)
具有跳跃的随机波动率模型的序列参数估计
.技术报告.
商业研究生院
芝加哥大学。

22

基姆
,
美国。
,
谢泼德
,
N。
芯片
,
美国。
(
1998
)
随机波动率:似然推断及与ARCH模型的比较
.
经济收益率。螺柱。
,
65
,
361
393
.

23

北川
,
G.公司。
(
1996
)
非高斯非线性状态空间模型的蒙特卡罗滤波和平滑器
.
J.计算图。统计师。
,
5
,
1
25
.

24

北川
,
G.公司。
佐藤
,
美国。
(
2001
)蒙特卡罗平滑和自组织状态空间模型。
序贯蒙特卡罗方法在实践中的应用
(编辑
答:。
杜塞特
,
J。
德弗里塔斯
N。
戈登
). 纽约:
施普林格
.

25

昆施
,
H.R.公司。
(
2001
)状态空间和隐马尔可夫模型。
复杂随机系统
(编辑
O.E.公司。
巴恩多夫-尼尔森
,
D.R.公司。
考克斯
C。
克鲁珀伯格
). 博卡拉顿:
查普曼和霍尔
.

26

勒·格兰德
,
F、。
Mevel公司
,
L。
(
1997
)隐马尔可夫模型中的指数遗忘和几何遍历性。
程序。第36届会议决策与控制
,第页。
537
542
纽约:
电气和电子工程师协会
.

27

线路接口单元
,
J.S.公司。
,
R。
(
1995
)
动态系统的序贯蒙特卡罗方法
.
《美国统计杂志》。助理。
,
93
,
1032
1044
.

28

线路接口单元
,
J。
西部
,
M。
(
2001
)基于仿真的滤波中的参数和状态联合估计
序贯蒙特卡罗方法在实践中的应用
(编辑
答:。
水龙头
,
J。
德弗里塔斯
N。
戈登
). 纽约:
施普林格
.

29

皮特
,
M.K.博士。
(
2002
)
用于可能性评估和最大化的平滑粒子过滤器
.技术报告.
经济系
考文垂华威大学。

30

皮特
,
M·K。
谢泼德
,
N。
(
1999
)
通过模拟过滤:辅助粒子过滤器
.
《美国统计杂志》。助理。
,
94
,
590
599
.

31

皮特
,
M。
谢泼德
,
N。
(
2001
)基于辅助变量的粒子过滤器。
序贯蒙特卡罗方法在实践中的应用
(编辑
答:。
水龙头
,
J。
德弗里塔斯
N。
戈登
),第页。
273
293
纽约:
施普林格
.

32

斯科特
,
美国。
(
2001
)
隐马尔可夫模型的贝叶斯方法:21世纪的递归计算
.
《美国统计杂志》。助理。
,
97
,
337
351
.

33

谢泼德
,
N。
皮特
,
M.K.博士。
(
1997
)
非高斯测量时间序列的似然分析
.
生物特征
,
84
,
653
667
.

34

斯托维克
,
G.公司。
(
2002
)
存在未知静态参数的状态空间模型中的粒子滤波器
.
IEEE传输。信号处理。
,
50
,
281
289
.

35

斯特劳德
,
J·R。
,
米勒
,
第页。
波尔森
,
N.G.公司。
(
2003
)
具有状态相关方差的非线性状态空间模型
.
《美国统计杂志》。助理。
,
98
,
377
386
.

36

斯特劳德
,
J·R。
,
波尔森
,
N.G.公司。
米勒
,
第页。
(
2004
)随机波动率模型的实用滤波。
状态空间和未观测组件模型
(编辑
答:。
哈维
,
美国。
科普曼
N。
谢泼德
),第页。
236
247
.牛津:
牛津大学出版社
.

37

温伯格
,
J。
,
棕色
,
拉丁美洲。
斯特劳德
,
J.R公司
. (
2007
)
非均匀泊松过程的贝叶斯预测及其在呼叫中心数据中的应用
.
《美国统计杂志》。助理。
,即将发布。

38

,
英国。
威克尔
,
C.K.公司。
(
2007
)
参数化时空动态模型的估计
.
J.统计。计划信息。
,
137
,
567
588
.

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)