3.1 马尔可夫链蒙特卡罗 MCMC为探索后向分布提供了一个灵活的框架。 它从后验分布中生成样本,可用于后验期望的蒙特卡罗近似。 例如,对兴趣量的后验期望 \(mathcal{G}(m))可以近似为 (12) \(开始{方程式}\int\mathcal{G}(m),结束{方程式 其中每个 \(mi\sim\mu{mbox{post}})是后验分布的样本。
MCMC技术构建了遍历马尔可夫链,其中后验分布是链的唯一平稳分布[Robert和Casella 2005 ]。 因此,马尔可夫链的状态是后验分布的精确样本,可用于( 12 ). 马尔可夫链是根据转移核定义的,它是一个位置相关的概率分布 \(K(\cdot|\boldsymbol) {m} _ i )\)过度状态 \(\粗体符号 {米}_ {i+1}\)在给定先前状态的链中 \(\粗体符号 {m} _ i \)即。, \(\粗体符号 {米}_ {i+1}\sim K(\cdot|\boldsymbol {m} _ i )\). 注意,实际中必须使用有限长的链,因此蒙特卡罗估计量的统计精度高度依赖于过渡核有效探索参数空间的能力。
有几个适合于MCMC的构建转换内核的框架,包括众所周知的 大都会黑斯廷斯(MH) 规则【Metropolis等人。 1953 ; 黑斯廷斯 1970 ]吉布斯采样器(例如,[卡塞拉和乔治 1992 ])、和 延迟拒绝(DR) [Mira等人。 2001 ]。 MUQ提供了这些框架的实现,以及 广义大都市黑斯廷斯(gMH) 核[卡尔德黑德] 2014 ]以及【Dodwell等人。 2019 ]。 大多数框架都是从一个或多个提案分发中抽取样本开始的 \(q_1(\cdot|\boldsymbol {m} _ i ),\,\ldots,\,q_K(\cdot|\boldsymbol {m} _ i )\)很容易从(例如,高斯)中采样,然后“校正”建议的样本,以获得准确但相关的后验样本。 在MH和DR内核中,校正采取接受或拒绝所提出的点的形式。 在gMH核中,校正涉及对多个建议点上的有限状态马尔可夫链进行分析采样。 直观地说,提案分布捕捉到了后部的形状,或者是周围的局部形状 \(mi)或全局参数空间,往往需要较少的“校正”,并产生更有效的算法。
建议书分发 .让 \(q(\cdot|\boldsymbol {m} _ i )\)表示由链的当前状态“参数化”的提案分布 \(\粗体符号 {m} _ i \). 我们要求建议分布很容易抽样,并且可以有效地评估其密度。 MH规则【Metropolis等人。 1953 ; 黑斯廷斯 1970 ]定义转换内核 \(K_{MH}(\cdot|\boldsymbol {m} _ i )\)通过两步过程:首先抽取随机样本 \(\boldsymbol{m}^\prime\sim q(\cdot|\boldsymbol {m} _ i )\)从提议分发中,然后接受提议的样本 \(\boldsymbol{m}^\prime\)作为链中的下一步 \(\粗体符号 {米}_ {i+1}\)具有概率 \(\alpha=\min\lbrace 1,\gamma\rbrace)其中 \(\gamma=\frac{\pi{\mbox{post}}(\boldsymbol{m}^\prime)}{\pi_{\mbax{post{}} {m} _ i )}\frac{q(粗体符号 {m} _ i |\boldsymbol{m}^\prime)}{q(\boldsymbol{m}^\prime |\bolsymbol {m} _ i )}\). 如果拒绝,则设置 \(\粗体符号 {米}_ {i+1}=\粗体符号 {m} _ i \). 在温和的技术条件下,提案分发(参见Roberts等人[ 2004 ]),MH规则定义了一个遍历的马尔可夫链 \(mu_{mbox{post}})作为平稳分布,从而使链中的状态能够用于蒙特卡罗估值器。 注意,详细的平衡条件(参见例如Owen[ 2013 ])通常用于验证马尔可夫链 \(mu{mbox{post}})作为平稳分布,但仅此条件不足以保证链收敛到平稳分布。 参见Roberts等人。 [ 2004 ]详细讨论MH收敛和收敛速度。
虽然MH规则将为一大类提案分布生成有效的MCMC核,但提案对前一状态的依赖性,加上提案状态可能被拒绝,导致马尔可夫链中的样本间相关性。 由于这些相关性( 12 )使用MCMC时,将比使用独立样本的经典蒙特卡罗设置中的更大。 相关性较大的马尔可夫链将导致较大的估计方差。 为了减少马尔可夫链中的相关性,我们寻求能够以较高的接受概率采取较大步骤的提案分布。 从MH规则中的接受概率来看,当提案密度 \(q(粗体符号{m}|\boldsymbol {m} _ i )\)是一个很好的近似值 \(\pi_{\mbox{post}}(\boldsymbol{m})),因此 \(\gamma\)接近1。
我们现在来描述hIPPYlib-MUQ中使用的特定提案分发。 首先,我们从描述利用梯度和曲率信息加速有限维空间采样的常见提议机制开始。 这些算法构成了图中立方体的左侧 1 然后,我们展示了如何将这些思想扩展到构建性能独立于网格细化(即独立于维度)的提案,从而将派生加速提案“提升”到无限维设置。 这个“提升”操作改变了图中左侧的提案 1 与提案立方体右侧的维度相关的类比。
图1。 各种MCMC方案分布相对于网格细化独立性(蓝色箭头)、梯度感知(绿色箭头)和曲率感知(红色箭头)的关系。 缩写代表以下MCMC提案:RW代表随机行走,pCN代表预处理Crank-Nicolson,MALA代表大都会调整Langevin算法,H-pCN表示曲率信息pCN,H-MALA代表曲率信息MALA,\(infty)-MALA代表无限维MALA,以及H-\(inffy) -MALA表示曲率无限维MALA。
利用梯度和曲率信息 。也许最简单、最常见但通常不高效的提案分配形式是以链中当前状态为中心的高斯分布, (13) \(开始{方程式}q_{text{RW}}(\boldsymbol{m}|\boldsymbol {m} _ i )=\mathcal{N}\left(粗体符号 {m} _ i ,\boldsymbol{\Gamma}_{\text{prop}}\right),\end{equation}\) 哪里 \(\boldsymbol{\Gamma}_{\text{prop}}\in\mathbb{R}^{n\timesn}\)是用户定义的协方差矩阵。当与MH规则一起使用时 随机游走 (RW) 该提案产生了一种MCMC算法,通常称为随机行走大都会算法。 这个 自适应大都市(AM) 算法采用了该建议的一种变体,其中协方差 \(\boldsymbol{\Gamma}_{\text{prop}}\)根据之前的示例进行了改编[Haario等人。 2001 ]。 提案协方差 \匹配后验协方差的(\boldsymbol{\Gamma}{\text{prop}})可以提高效率,但随机游走建议仍然是后验密度的较差近似值。
通过对朗之万随机微分方程进行一步Euler-Maruyama离散化,可以获得一个更有效的建议[Roberts和Stramer 2003 ]。 最终的朗之万提案采用以下形式 (14) \(开始{方程式}q_{text{MALA}}(\boldsymbol{m}|\boldsymbol {m} _ i )=\mathcal{N}\left(粗体符号 {m} _ i +\tau\boldsymbol{\Gamma}_{\text{prop}}\nabla\log\pi_{mbox{post}}(\boldsymbol {m} _ i ),\,2\tau\boldsymbol{\Gamma}_{\text{prop}}\right),\end{方程式}\) 哪里 \(\tau)是步长参数。 有此建议的MH采样器称为 都市调整的朗之万算法 (马来西亚) 与AM算法一样,调整MALA方案的协方差也可以提高性能[Attchadé 2006 ; 马歇尔和罗伯茨 2012 ]。 通常也会使用后验协方差的近似值,例如对数后验Hessian的倒数,以帮助MALA提案捕获后验相关性。 例如,在这项工作中,我们在MAP点采用对数后验Hessian的低秩近似(c.f.方程( 11 )) (15) \(开始{方程式}q_{text{H-MALA}}(\boldsymbol{m}|\boldsymbol {m} _ i )=\mathcal{N}\left(粗体符号 {m} _ i +\tau\mathbf{{H}}^{-1}\nabla\log\pi_{mbox{post}}(粗体符号 {m} _ i ),2\tau\mathbf{{H}}^{-1}\right)。 \结束{方程式}\) 该指标与Martin等人使用的指标类似。 [ 2012 ]并等同于中的预处理MALA提案( 14 )使用拉普拉斯近似的协方差( 9 ).
两者( 13 )和( 14 )在参数空间中使用常量协方差。 允许此协方差适应后验密度的局部相关结构,可以获得更高阶的近似值,从而产生更高效的MCMC算法。 在Girolma和Calderhead[ 2011 ]利用微分几何的观点定义了黎曼流形上的一系列建议机制。 调整MALA提案( 14 )这种流形设置并忽略流形的曲率,会导致 (16) \(开始{方程式}q_{text{sMMALA}}(\boldsymbol{m}|\boldsymbol {m} _ i )=\mathcal{N}\left(粗体符号 {m} _ i +\tau\mathbf{G}^{-1}(粗体符号 {m} _ i )\nabla\log\pi_{\mbox{post}}(\boldsymbol {m} _ i ),2\tau\mathbf{G}^{-1}(粗体符号 {m} _ i )\右),\结束{方程式}\) 哪里 \(\mathbf{G}(\boldsymbol{m})\)是一个位置相关的度量张量。 这被称为 简化歧管MALA(sMMALA) 建议。 吉洛米和卡尔德黑德[ 2011 ]定义了度量张量 \(\mathbf{G}(\boldsymbol{m})\)使用预期的Fisher信息度量,它提供了点处后验协方差的正定近似值 \(\粗体符号{m}\)。
哈密顿蒙特卡罗方法,包括 无U形旋转取样器(螺母) [霍夫曼和盖尔曼 2014 ]是MCMC的另一类重要提案。 这些技术近似地解决了哈密顿系统在参数空间中发生大跳跃的问题。 虽然在许多情况下都很有效(参见Neal[ 2010 ])特别是对于纯统计模型,我们发现求解哈密顿系统涉及对我们感兴趣的基于PDE的问题进行难以处理的后验梯度评估。 Parno和Marzouk的运输图MCMC算法[ 2018 ]由于构建高维变换的挑战,这里也没有考虑。
维度独立提案分发 对于有限维参数,上面定义的随机游走和MALA建议可以与MCMC的MH规则一起使用。 然而,它们的性能并不是离散不变的。 作为函数的离散化 米 对有限维后验数据的采样器性能进行了改进 \(\pi{\mbox{post}}(\boldsymbol{m}))将恶化。 随着维数的增加,MCMC跃迁核的最大两个特征值之间的差异(即谱间隙)趋于零,链的混合时间无限增长; 参见Hairer等人。 [ 2014 ]; Cotter等人。 [ 2012 ]了解详细信息。 为了获得“尺寸相关”性能,有必要对提案进行一些修改。 科特等人的作品。 [ 2012 ],Beskos等人。 [ 2017 ]和Bardsley等人。 [ 2020 ]例如,修改现有的有限维建议,以确保算法性能独立于网格细化。
RW提案的尺寸相关模拟为 预处理曲柄尼科尔森(pCN) Cotter等人提出的建议。 [ 2012 ]。 它采取的形式 (17) \(\开始{方程式}q_{text{pCN}}(\boldsymbol{m}|\boldsymbol {m} _ i )=\mathcal{N}\左({\boldsymbol{m}}_{\mbox{pr}}+\sqrt{1-\beta^2}(\boldsymbol {m} _ i- {\boldsymbol{m}}{\mbox{pr}}),\,\beta^2\boldsympol{\Gamma}{\!\mbox{previous}}\right)。 \结束{方程式}\) 请注意,当 \(β=1),pCN提案等于先前的分布。 Cotter等人也对MALA提案进行了修改。 [ 2012 ]获得无限维MALA( \(infty)-MALA)提案 (18) \(开始{方程式}q_{text{MALA}}^{infty}(\boldsymbol{m}|\boldsymbol {m} _ i )=\mathcal{N}\left(\sqrt{1-\beta^2}\boldsymbol {m} _ i +\beta\frac{\sqrt{h}}{2}\left({\boldsymbol{m}}_{\bmbox{pr}}-\boldsymbol{\Gamma}_{\!\bmbox{previor}}\nabla\Phi(\boldsymbol {m} _ i )\右),\,\β^2\粗体符号{\Gamma}_{\!\mbox{previous}}\右),\end{equation}\) 哪里 \(β=4\sqrt{h}/(4+h))和 小时 是一个可以调整的参数。 而pCN和 \(infty)-MALA提案导致离散化非变Metropolis-Hastings算法,它们与有限维RW和MALA类似物存在相同的缺陷,即它们没有捕捉到后验几何。
已经做出了一些努力来最大限度地减少这种不足,例如参见Beskos等人。 [ 2017 ]; 鲁道夫和斯普伦克[ 2018 ]; Pinski等人。 [ 2015 ]; Petra等人。 [ 2014 ]。 我们考虑了Pinski等人。 [ 2015 ]。 它将MAP点和该点的后曲率信息合并到pCN提案中,该提案由H-pCN表示,形式如下 (19) \(开始{方程式}q_{text{H-pCN}}(\boldsymbol{m}|\boldsymbol {m} _ i )=\mathcal{N}\left(粗体符号{ {米}_ {\box{MAP}}+\sqrt{1-\beta^2}(\boldsymbol {m} _ i- \粗体符号{ {米}_ {mbox{MAP}}}),\,\beta^2\mathbf{{H}}^{-1}\right)。 \结束{方程式}\) 另一种可以利用后向几何的方法是 \(infty)-Beskos等人讨论的MALA提案。 [ 2017 ]: (20) \(开始{方程式}q_{text{sMMALA}}^{infty}(\boldsymbol{m}|\boldsymbol {m} _ i )=\mathcal{N}\left(\mu^\prime(\boldsymbol {m} _ i ),\,\伽马^\素数(\粗体符号 {m} _ i )\右),\结束{方程式}\) 哪里 (21) \(开始{eqnarray}\mu^\prime(\boldsymbol {m} _ i )&=&\sqrt{1-\beta^2}\boldsymbol {m} _ i +\beta\frac{\sqrt{h}}{2}\左(\boldsymbol {m} _ i -\mathbf{G}^{-1}\boldsymbol{\Gamma}_{\!\mbox{previous}}^{-1}(\boldsymbol {m} _ i- {\boldsymbol{m}}_{\mbox{pr}})-\mathbf{G}^{-1}\nabla\Phi(\boldsymbol {m} _ i )\右)\结束{eqnarray}\) (22) \(\开始{eqnarray}\Gamma^\prime(\boldsymbol {m} _ i )&=&\beta^2\mathbf{G}^{-1}(\boldsymbol {m} _ i ). \结束{eqnarray}\) 这个 \(\infty)-sMMALA提案简化为 \(infty\)-当 \(\mathbf{G}^{-1}(\boldsymbol {m} _ i )=\boldsymbol{\Gamma}_{\!\mbox{previous}}\)。 什么时候? \(\mathbf{G}(\boldsymbol {m} _ i )\)是拉普拉斯近似值Hessian来自( 9 ),的 \(\infty)-sMMALA提案简化为 (23) \(begin{equation}q_{\text{H-MALA}}^\infty(\boldsymbol{m}|\boldsymbol {m} _ i )=\mathcal{N}\left(\sqrt{1-\beta^2}\boldsymbol {m} _ i +\beta\frac{\sqrt{h}}{2}\左(\boldsymbol {m} _ i -\mathbf{{H}}^{-1}\boldsymbol{\Gamma}_{\!\mbox{previous}}^}{-1}(\boldsymbol {m} _ i- {\boldsymbol{m}}_{\mbox{pr}})-\mathbf{{H}}^{-1}\nabla\Phi(\boldsymbol {m} _ i )\右),\β^2\mathbf{{H}}^{-1}\右)、\结束{方程式}\) 我们用H表示- \(\infty\)-马来亚。
替代过渡内核 。上述建议分发是在Metropolis-Hasting内核的上下文中进行经典考虑的。 然而,有一些替代的转换核也会导致遍历马尔可夫链。 这里我们考虑由Mira等人的延迟拒绝方法构造的过渡核。 [ 2001 ]以及Metropolis-within-Gibbs核函数,它在不同条件下对后验分布切片重复使用Metropolin-Hastings规则来构造马尔可夫链。 特别是,我们认为 尺寸相关信息(DILI) 方法[Cui等人。 2016年a ; 崔和扎姆 2021 ],它定义了Metropolis-within-Gibbs采样器,该采样器从适当的维度依赖建议继承维度依赖属性。 这里的维数依赖性意味着当问题的维数增加时,接受率和混合特性不会恶化。
延迟拒绝核允许在马尔可夫链的每个步骤中尝试多个建议。 当使用具有互补属性的多个提案时,这可能是有利的。 例如,可以从一个提案开始,该提案试图在参数空间中进行大幅度的跳跃,但接受概率可能较低,而回退到一个更保守的提案,该提案采取较小的步骤,接受概率较高。 同样,可以从计算效率更高(例如,不需要梯度信息)但不太可能被接受的提案开始,同时在第二阶段使用更昂贵的提案机制,以确保链探索空间。 在这两种情况下,如果第一个提议的行动被大都会黑斯廷斯规则拒绝,则可以在调整后的接受概率下尝试另一个更可能被接受的更昂贵的提议。 也可以采用两个以上的阶段。
DILI将参数空间划分为一个有限维子空间,该子空间可以用标准提议机制进行探索,而一个互补的无限维空间可以用维度相关方法进行探索,如上述方法。 生成的转换核比Metropolis-Hastings规则更复杂,但继承了互补空间方案的维度相关属性。 利用广义特征值问题计算似然信息子空间( 10 ). 如果特征值大于1,则表明似然函数在该方向上支配先验密度。 因此,用于近似后验海森函数的相同低秩结构可用于将参数空间分解为 似然信息子空间(LIS) 由的列跨越 \(\mathbf{{V}}_r)和一个正交 互补空间 在每个子空间中,使用标准的Metropolis-Hastings核。 只要CS中的内核使用维度依赖建议(通常是pCN),那么DILI采样器将保持维度依赖。 与Cui等人所述的原始实现不同。 [ 2016年a ],MUQ实现不使用白化变换,从而避免计算先验协方差的任何对称分解。 一般来说,黑森语用于( 10 )可以适应捕获更多的相关结构。 然而,我们在下面的数值实验中没有发现这一必要。
汇编MCMC算法 。几乎可以将上述任何建议和内核结合起来,从而产生无数可能的MCMC算法。 如图所示 2 MCMC算法有三个基本构建块。 该链跟踪以前的点,并允许计算蒙特卡洛估计值。 内核定义了一种对下一个状态进行采样的机制 \(\粗体符号 {米}_ {i+1}\)给定当前状态的值 \(\粗体符号 {m} _ i \)以及一个或多个提案分发。 该提案定义了一个位置特定的概率分布,该概率分布可以很容易地采样,并且具有可以有效评估的密度。 我们在软件设计中模拟这些抽象接口,以定义和测试大量内核-应用程序组合。
图2。 hIPPYlib-MUQ的灵活框架允许使用多种不同的转换内核和建议分发组合。 请注意,每个内核都可以与任何提案分发进行交互,这使得许多不同的MCMC算法可以从相同的基本组件构建。
3.2 MCMC诊断 分析长度时自然会出现两个问题 我 马尔可夫链 \([\mathbf {m} _1个 ,\ldot,\mathbf {米}_ {一} ]\)由MCMC生产。 首先,链是否收敛到平稳分布? 第二,链的统计效率是什么,也就是说,链中有多少独立样本实际上有助于蒙特卡罗估值器的准确性? 大多数理论保证是渐近的,当使用有限长MCMC链时,定量地回答这些问题很重要。 基于这些考虑,本节描述了hIPPYlib-MUQ中实现的诊断,以检查高维MCMC链的收敛性和统计效率。
3.2.1 评估融合。 为了评估收敛性,我们计算了两种不同的后验协方差的渐近无偏估计量:一种是对有限协方差的高估 我 这是对有限的低估 我 当这两个估计值的比率接近1时,我们可以确信MCMC链已经收敛(例如,见Brooks和Gelman[ 1998 ]; Gelman等人。 [ 2004 ]; Vehtari等人。 [ 2020 ]).
估算基于运行 J型 从随机选择的点开始的独立链,这些点比后验分布更分散 \(\mu{\mbox{post}}),其中我们将“分散”分布定义为协方差大于 \(\mu_{\mbox{post}}\)。 每条链条的长度相同 我 .
出租 \(\mathbf {米}_ {ij}\)成为 我 链中第个MCMC样本 j个 ,我们定义了序列内协方差矩阵 \(mathbf{W})和序列间协方差矩阵 \(\mathbf{B}\)作为 (24) \(开始{align}\mathbf{W}&=\frac{1}{J(I-1)}\sum_{J=1}^J\sum_{I=1}^I(\mathbf {米}_ {ij}-\bar{\mathbf{m}}{.j})(\mathbf {米}_ {ij}-\bar{\mathbf{m}}_{.j})^T; \四边形&&\bar{\mathbf{m}}_{.j}&&=\frac{1}{I}\sum_{I=1}^I\mathbf {米}_ {ij},\结束{align}\) (25) \(开始{align}\mathbf{B}&=\frac{I}{J-1}\sum_{J=1}^J(\bar{\mathbf{m}}_{.J}-\bar{\ mathbf}m}}{..})&& \bar{\mathbf{m}}{..}&&=\frac{1}{J}\sum{J=1}^J\bar{\mathbf{m}}{.J}。 \结束{align}\) 正如布鲁克斯和盖尔曼所指出的那样[ 1998 ], \(\mathbf{W}\)和 \(\mathbf{B}\)可以组合生成一个估计值 \采用以下形式的后验协方差的(\widehat{\mathbf{V}}) (26) \(开始{方程式}\widehat{\mathbf{V}}=\frac{I-1}{I}\mathbf{W}+\frac}J+1}{JI}\mathbf{B}.\end{方程式{) 每条链中初始点的过度分散导致 \(\widehat{\mathbf{V}})高估有限的后验协方差 我 另一方面,链内协方差的平均值 \(mathbf{W})会低估协方差,因为链没有探索整个参数空间。 比较 \(\mathbf{W}\)和 \因此,(widehat{mathbf{V}})提供了一种评估收敛性的方法。
这个 \Gelman等人的统计。 [ 2004 ]Vehtari等人。 [ 2020 ]是一种常用的比较方式 \(\mathbf{W}\)和 \(\widehat{\mathbf{V}})。 它使用的是 \(\widehat{\mathbf{V}}\)和 \(\mathbf{W}\)构造组件收敛诊断。 对于高维问题,考虑多元收敛诊断更为自然。 因此,我们将使用 多元潜在标度缩减因子 布鲁克斯和盖尔曼[ 1998 ],这是组件的自然扩展 \({R}\)统计。 MPSRF定义如下 (27) \(\begin{方程式}\begin{aligned}\text{MPSRF}&=\sqrt{\max_a\frac{a^T\widehat{\mathbf{V}}a}{a^T \mathbf{W}a}}&=\sqrt{\ frac{I-1}{I}+\frac{J+1}{JI}\lambda_{\text{max}}}},\end{aligned}\end{方程式{) 哪里 \(lambda{text{max}})是满足广义特征值问题的最大特征值 \(\mathbf{B}\boldsymbol{v}=\lambda\mathbf{W}\bodsymbol{v}\)。
请注意 \(\text{MPSRF}\ge 1\)当 \(lambda{text{max}}/gt1),当链的起始点过于分散时会发生这种情况,从而导致链间方差 \(\mathbf{B}\)大于链内方差 \(\mathbf{W}\)。 当MPSRF接近1时,每个序列内的方差接近序列间的方差,从而表明每个链已收敛到目标分布。 文献中包含了几个关于MPSRF值的建议,这些值表明收敛; 例如,盖尔曼和鲁宾[ 1992 ]建议常用值 \(文本{MPSRF}),而Vehtari等人。 [ 2020 ]主张更保守的门槛 \(\text{MPSRF})。
3.2.2 统计效率。 MCMC链中的样本通常是相关的,这增加了用MCMC样本构造的蒙特卡罗估计量的方差。 对于一定数量的利息 \(\mathcal{G}(\boldsymbol{m})\) 有效样本量(ESS) 马尔可夫链的概率定义为估计所需的后验独立样本数 \(\mathbb{E}[\mathcal{G}]\)具有与马尔可夫链估计相同的统计精度。 因此,ESS是MCMC链中包含多少信息的度量。 在这项工作中,通常假设ESS是为后验平均值的估计量推导的,即。, \(\mathbb{E}[\mathcal{G}]=\mathbb{E}[\boldsymbol{m}]\),这里我们在这个常见假设下导出ESS。 其他ESS变体,如Vehtari等人所述。 [ 2020 ],更适合于涉及尾部概率的问题,但这些方法在hIPPYlib-MUQ中的实现留待以后的工作。
有几种估算ESS的方法。 例如,光谱方法使用MCMC链的积分自相关来估计有效样本量(例如,见Gelman等人[ 2004 ]; 沃尔夫等人。 [ 2004 ]). 其他常用方法使用小样本批次的统计数据(如Flegal和Jones[ 2010 ]; Vats等人。 [ 2019 ]). MUQ提供光谱和批处理方法的实现。 然而,这里我们将重点放在ESS的光谱公式上,因为它为MCMC链的结构提供了额外的见解。 组件的ESS k个 属于 \(\boldsymbol{m}\)由定义 (28) \(\开始{方程式}\text {ESS}_k(_k) =\frac{JI}{1+2\sum{t=1}^\infty\rho{kt}},\end{方程式} 哪里 \(\rho{kt})是分量的自相关函数 k个 在MCMC链中处于滞后状态 t吨 这里是自相关函数 \(rho{kt})通过以下公式进行估算【Gelman等人。 2004 ]: (29) \(开始{方程式}\rho{kt}\approx\hat{rho}{kt}=1-\frac{v{kt}}{2\hat {垂直}_ {kk}},结束{方程式}) 哪里 \(\帽子 {垂直}_ {kk}\)是 k个 中定义的后验协方差估计的第个对角分量( 26 )和 \(v{kt}\)是由 (30) \(开始{方程式}v{kt}=\frac{1}{J(I-t)}\sum{J=1}^J\sum_{I=t+1}^I(m_{ij,k}-m_{(I-t)J,k{)^2。 \结束{方程式}\) 实际上, \({\rho}{kt})对于大值 t吨 我们截断了总和( 28 )有点滞后 \(t^{\prime}\)。 按照惯例,我们选择 \(t^{prime}\ge0)为和连续自相关估计的滞后 \(hat{\rho}_{2t^{\prime}}+hat{\rho}_{2t^{\prime}+1})为负[Gelman等人。 2004 ].