总结

用蒙特卡罗方法估计积分的任务是用模拟观测值作为数据的统计模型。这项练习的困难在于,我们通常拥有通过微积分或数值积分精确计算积分所需的所有信息,但为了简单或计算可行性,我们选择忽略其中一些信息。我们的建议是使用一个半参数统计模型,明确哪些信息被忽略,哪些信息被保留。该模型中的参数空间是样本空间上的一组测度,样本空间通常是一个无限维对象。毫无疑问,根据模拟数据,基线测量值可以通过最大似然估计,所需积分可以通过Vardi和Lindsay之前在有偏采样的密切相关模型中推导的简单公式计算得出。Geyer、Meng和Wong也提出了同样的公式,使用了完全不同的论点。与Geyer的回溯可能性相比,可以直接从Fisher信息中获得模拟误差的正确估计。半参数模型的主要优点是方差减少技术与子模型相关,在子模型中,最大似然估计量的方差可能比传统估计量小得多。该方法适用于马尔可夫链和更一般的多采样点蒙特卡罗采样方案。

1.归一化常数和蒙特卡罗积分

统计工作中出现的某些推理问题涉及笨拙的求和或无法解析处理的高维积分。许多这样的问题都只需要积分比,而这正是我们将在本文中关注的这类问题。为了建立符号,让Γ是一个集合,让μ是Γ上的一个测度,设{q个θ}Γ和let上的函数族

c(c)(θ)=Γq个θ(x个)d日μ.

理想情况下,我们的目标是准确计算或实际估算比率c(c)(θ)/c(c)(θ')适用于所有值θθ在家里。该系列可能包含一个参考函数q个θ0其积分已知,在这种情况下,剩余的积分可以通过参考标准直接估算。我们的理论适应但不需要这样的标准。为了使估计器有用,还需要估计误差的近似度量。

我们指的是c(c)(θ)作为与函数关联的规范化常数q个θ(x个). 特别是,如果q个θ为非负且为0<c(c)(θ) < ∞,

d日P(P)θ(x个)=q个θ(x个)d日μ/c(c)(θ)

是Γ上的概率分布。为了使方法有效,族必须至少包含一个非负函数q个θ,但并非所有这些都是非负的。取决于上下文和函数q个θ,归一化常数可以表示从贝叶斯计算中的后验期望到统计物理中的配分函数的任何内容。

从一个或多个分布模拟的观测值是蒙特卡罗积分的关键要素。我们在整篇论文中假设可以从以下方面进行模拟P(P)θ不计算归一化常数。至少在最初,我们假设这些技术从P(P)θ.

乍一看,这个问题似乎是微积分或数值分析的练习,不符合统计公式。毕竟,统计理论并不寻求避免难以计算的估计;它也不倾向于选择劣等估计值,因为它们便于编程。因此,很难看出任何有效的统计公式如何避免明显而优秀的估计量c(c)(θ) = ∫q个θ(x个)d日μ,方差为零,不需要模拟数据。

本文证明,该练习仍然可以表述为基于模型的统计估计问题,其中参数空间由我们选择的信息量决定忽视实际上,统计模型用于估计被忽略的信息部分,并使用估计值以给定可用信息的渐近有效方式计算所需积分。被忽视信息的性质和程度都不是预先确定的。通过明智地使用组不变子模型和其他子模型,可以控制忽略的信息量,从而减少模拟方差,而只增加很少的计算工作量。

关于积分蒙特卡罗估计的文献非常广泛,这里不打算对其进行审查。有关良好的总结,请参阅哈默斯利和汉斯克姆(1964),里普利(1987),Evans和Swartz(2000)刘(2001)。有关归一化常数计算的概述,请参见DiCiccio公司等。(1997)Gelman和Meng(1998).

2.插图

样本空间Γ=×+足够简单,积分可以解析计算。然而,它说明了通过选择设计和子模型可以实现的收益。描述并比较了三种蒙特卡罗方法。

假设我们需要计算上半平面上的积分

c(c)σ=Γd日x个1d日x个2{x个12+(x个2+σ)2}2

对于σ∈ {0.25, 0.5, 1.0, 2.0, 4.0}. 按照惯例μ成为勒贝格量度,所以q个σ(x个)=1/{x个12+(x个2+σ)2}2发生这种情况时P(P)σ具有平均值(0,σ)具有无穷的方差和协方差。首先考虑一个重要的抽样设计,其中有一系列独立的观察结果x个1,…,x个n个可从分发中获得P(P)1.的重要性抽样估计c(c)σ/c(c)1

c(c)^σ/c(c)^1=n个1q个σ(x个)/q个1(x个).

通过应用第4节的结果,我们发现n个=矩阵的500个模拟

V(V)^=n个负极1(4.4111.49100.6010.8211.4910.64100.3830.582000000.6010.38300.5781.273负极0.8210.58201.2733.591)

是这样的渐近方差日志(c(c)^第页/c(c)^S公司)等于V(V)^第页第页+V(V)^2V(V)^第页对于第页,{0.25,0.51,2,4}.单个组件c(c)第页在模型中不可识别,并且估计值没有方差、渐近或其他。10对对数对比度的估计方差范围为0.6/n个至9.6/n个平均3.6/n个.矩阵V(V)^是从观察到的Fisher信息中获得的,因此不同的模拟将产生略有不同的矩阵。

假设作为替代方案,可以从任何或所有分布进行模拟P(P)σ,如中所示盖尔(1994),赫斯特伯格(1995),孟和王(1996)欧文和周(2000)。现在可以考虑各种模拟设计,也称为防御重要性抽样或桥接抽样计划,其中n个第页观测值由P(P)第页这些被称为设计权重,或桥接采样权重。为了简单起见,我们考虑均匀设计,其中n个第页=n个/5.现在必须用第3节中导出的更一般的最大似然估计量取代重要性抽样估计量,该估计量通过求解

c(c)^σ==1n个q个σ(x个)n个c(c)^1q个(x个).
(2.1)

的渐近协方差矩阵日志(c(c)^)从以下样品中获得n个=500个模拟观测值,使用方程式(4.2)

V(V)^=n个1(2.2980.9740.2631.1971.8110.9740.6680.0770.5881.1310.2630.0770.2390.1170.1701.1970.5880.1170.6900.9791.8111.131负极0.1700.9792.132).

在使用该矩阵时,必须记住c(c)λc(c)对于每个正标量λ,因此仅对比日志(c(c))可识别。10对对数对比度的估计方差范围为0.7/n个至8.1/n个,平均3.0/n个均匀设计相对于前一重要抽样设计的平均效率因子可以通过渐近方差比3.6/3.0=1.2方便地测量。

第三种蒙特卡罗变种使用一个子模型,该子模型具有一个简化的参数空间,由在群体行动下不变的度量组成。详细信息见第3.3节,但操作过程如下。考虑两元素组𝒢=±1,其中倒置=−1通过单位圆中的反射作用于Γ

:(x个1,x个2)(x个1,x个2)/(x个12+x个22).

通过施工,2=1和−1=,所以这是一个组操作。勒贝格测度不是不变的,因此不在由该作用确定的参数空间中。然而,该措施ρ(d日x个)=d日x个1d日x个2/x个22是不变的,所以我们通过写入进行补偿

q个(x个;σ)=x个22/{x个12+(x个2+σ)2}2

对于新的被积函数,以及c(c)σ= ∫Γq个(x个;σ)天ρ子模型估计器与方程式(2.1),但有q个替换为组平均值

q个¯(x个;σ)=12q个(x个;σ)+12q个(x个;σ).

采用统一设计n个=500个观察值,估计方差矩阵日志(c(c)^)

V(V)^=n个1(0.2020.0930.2160.0930.202负极0.0930.0450.0970.0450.0930.2160.0970.2390.0970.2160.0930.0450.0970.0450.0930.2020.0930.2160.0930.202).

10对对数对比度的方差范围为0至0.87/n个平均值为0.37/n个由于第3.3节所述的原因,这两个比率c(c)0.25/c(c)4c(c)0.5/c(c)2准确估计为方差。与前面的蒙特卡罗估计量相比,组平均法将对比度的平均模拟方差降低了8.1倍。通过比较,n个使用组平均估计值的模拟观测值约等于8n个使用具有相同设计权重的估计器(2.1)进行观测,但不进行组平均。

为了获得如此巨大的效率收益,不必使用一个大的组,但有必要在定性意义上很好地理解被积函数,并相应地选择组动作。如果选择了小组行动(x个1,x个2) = (−x个1,x个2)效率的提高本应为零。可以说,由于计算工作量略有增加,效率的提高将是负的。

给定上述任何方案模拟的观测值,方程式(2.1),或组平均版本,也可以用于积分的估计,例如

c(c)σ=Γ日志(x个12+x个22)d日x个1d日x个2{x个12+(x个2+σ)2}2

其中被积函数不是正的,并且没有相关的概率分布。在这个问题的扩展版本中,同时估计了10个积分c(c)σ/c(c)σ是的预期值日志|X(X)12+X(X)22|什么时候X(X)P(P)σ。对于此示例,c(c)σ=π/4σ2、和c(c)σ/c(c)σ=2日志(σ)下一节中描述的一般理论涵盖了这类积分,Fisher信息也提供了方差估计。

3.半参数模型

3.1. 问题表述

统计问题是由一个称为模拟器的人提出的挑战,并由另一个名为统计分析员的人接受。实际上,这通常是一个人的两种性格,但为了清楚地解释,我们假设涉及两个不同的人。该模拟器无所不知,诚实保密,但愿意提供基本上无限量的数据。部分信息以统计模型和模拟器提供的数据的形式提供给分析员。

q个1,…,q个k个是Γ上的实值函数,分析员已知,并让μ是Γ上的任何非负测度。挑战在于计算比率c(c)第页/c(c),其中每个积分c(c)第页= ∫Γq个第页(x个)d日μ假设是有限的,即我们有兴趣同时估计所有比率,其中q个第页(x个) =q个θ第页(x个),使用第1节的符号。假设至少有一个非负函数q个第页这样0<c(c)第页<∞,并且n个第页加权分布的观测值

P(P)第页(d日x个)=c(c)第页1q个第页(x个)μ(d日x个)
(3.1)

根据分析员的要求,由模拟器提供。分析员的设计向量(n个1,…,n个k个)至少有一个第页这样的话n个第页>0。然而,通常情况下,许多函数q个第页是这样的n个第页= 0. 对于这些函数,不需要非负性条件。

根据分析员了解的内容,可以使用不同版本的问题μ现在描述其中的四个。

  • (a)

    如果μ已知,例如,如果μ是勒贝格测度,常数原则上可以通过积分精确确定。

  • (b)

    如果μ已知为正标量倍数,常数可以以相同的标量倍数为模确定,比率可以通过积分法精确确定。

  • (c)

    如果μ是完全未知的,常数和它们的比值都不能单独由微积分确定。然而,通过对Vardi(1985)的偏差抽样模型稍作修改,可以从模拟数据中一致地估计比率。

  • (d)

    如果有关于以下方面的部分信息μ常数及其比值都不能用微积分来确定。然而,与(c)相比,部分信息可以允许显著的效率增益。

作为积分学的练习,本文不再进一步考虑问题的第一个和第二个版本。

3.2. 全指数模型

在本节中,我们将重点介绍一个半参数模型,其中参数μ是Γ的度量或分布,分析员完全不知道。模拟器可以自由选择任何测量μ无论选择哪种方法,分析师的估计都必须一致。因此,参数空间是Γ上所有非负测度的集θ,而不一定是概率分布,感兴趣的分量是线性泛函

c(c)第页=Γq个第页(x个)d日μ.
(3.2)

以下分析中的状态空间Γ假设为可数;覆盖不可数空间的更一般的论点如下所示瓦尔迪(1985)在有偏采样模型中。

我们假设模拟数据以以下形式提供(1,x个1),…,(n个,x个n个),其中这些对是独立的,∈ {1, …,k个}由仿真设计和x个是从分布中随机抽取的P(P)然后,对于每次抽签x个从分布中P(P)第页可能性贡献是

P(P)第页({x个})=c(c)第页1q个第页(x个)μ({x个}).

完全可能发生在μ就是这样

(μ)==1n个P(P)({x个})==1n个μ({x个})c(c)1q个(x个).

在这个阶段,根据规范参数重新参数化模型是有帮助的θ∈ ℛΓ由提供θ(x个)=对数[μ({x个})]. P(P)^是Γ放置质量1的经验测度/n个在每个数据点。忽略加法常数θ

=1n个θ(x个)=1k个n个日志{c(c)(θ)}=n个Γθ(x个)d日P(P)^=1k个n个日志{c(c)(θ)}.
(3.3)

虽然一开始可能看起来很矛盾,但规范的充分统计P(P)^,模拟值的经验分布{x个1,…,x个n个},忽略了可能被认为信息量很大的部分数据,即分布标签与模拟值的关联。事实上,标签的所有排列给出同样的可能性。因此,似然函数不受分布标签重新分配的影响到抽签x个。这一点之前由瓦尔迪(1985),第6节。因此,在指定的模型下,或在任何子模型下,图纸与分配标签的关联是无信息的。原因是标签中用于估算比率的所有信息都包含在设计常数中{n个1,…,n个k个}.

从中可以明显看出方程式(3.3),该模型是具有典型参数的全指数族类型θ,和规范充分统计P(P)^.的最大似然估计μ,通过将正则充分统计量与其期望相等而获得,为

n个P(P)^(d日x个)==1k个n个c(c)^1q个(x个)μ^(d日x个).

其中dx个= {x个}. 因此

μ^(d日x个)=n个P(P)^(d日x个)/=1k个n个c(c)^1q个(x个).
(3.4)

哪里c(c)^S公司是的最大似然估计c(c)。请注意μ^数据值支持{x个1,…,x个n个},但这些点上的原子并不都相等。从积分定义c(c)第页,我们有

c(c)^第页=Γq个第页(x个)d日μ^==1n个q个第页(x个)=1k个n个c(c)^1q个(x个).
(3.5)

原则上,有必要检查参数空间中是否存在度量μ^这样就满足了这些方程,这对于观测的某些极端配置来说是一个非平凡的练习。幸运的是,Vardi的有偏抽样模型的存在性和唯一性已经得到了详细的研究(瓦尔迪,1985年),这在数学上是等价的。

尽管P(P)^是唯一确定的,μ^为任意正倍数的模,常数为c(c)^第页被确定为同一正倍数的模。换句话说,可估计参数函数的集合可以用对数对比度∑的空间来识别第页日志(c(c)第页)其中∑第页= 0. 这是清楚的方程式(3.1),这意味着比率估计问题在变换下是不变的q个第页(x个)↦α(x个)q个第页(x个),其中αΓ为严格正。

建议的计算算法方程式(3.5)是迭代比例缩放(戴明和斯蒂芬,1940年;主教等。, 1975)应用于n个×k个阵列{n个第页q个第页(x个)}这样,在重新缩放后,

n个第页q个第页(x个)n个第页q个第页(x个)μ^(x个)/c(c)^第页,

每行总计为1第页第列总计为n个第页.特殊情况k个=1,称为重要性抽样,对应于Horvitz–Thompson估计量(霍维茨和汤普森,1952年)它广泛用于调查抽样中,以纠正不相等的抽样概率。我们可能会发现更通用的估计值(3.5),用于组合使用不同已知抽样概率的一项或多项调查的数据。可能这项工作对调查抽样不感兴趣。在任何情况下,估计值都不会出现在弗斯和贝内特(1998)或在中普费弗曼等。(1998)这与调查中的不平等选择概率有关。

的规范化版本方程式(3.4)已通过以下方式获得瓦尔迪(1985)和依据Lindsay(1995)在有偏抽样的非参数模型中。在他的讨论中瓦尔迪(1985),马尔洛(1985)指出了与对数线性模型的联系,并解释了算法收敛的原因。这些有偏抽样模型不是蒙特卡罗估计,但除了参数空间对概率分布的限制外,这些模型是等价的。有关更多详细信息,包括连接性和存在唯一性的支持条件,请参见瓦尔迪(1985)吉尔等。(1988)。这些条件从今往后假定。

前面的推导假设Γ是可数的,因此计数度量占主导地位。如果Γ不可数,则不存在支配测度。然而,可能性有一个唯一的最大值,由方程式(3.4)只要满足连通性和支持条件。该最大化测度具有有限支持度,且最大似然估计为c(c)由提供方程式(3.5).

3.3. 对称性和群不变子模型

实际上,我们总是“知道”基线度量是计数度量或勒贝格度量。上述方法完全忽略了此类信息。因此,这些结论同样适用于离散样本空间、有限维向量空间、度量空间、乘积空间及其任意子集。从负面来看,如果基线测度确实具有易于利用的对称性,则估计量的效率可能会大大低于需要的效率。

为了了解对称性是如何被利用的,让𝒢是一个作用于Γ的紧群,其方式是基线测量μ是不变的:μ(通用汽车公司) =μ(A类)对于每个A类⊂Γ和每个∈𝒢。例如,\119970;可以是正交群、置换群或任何子群。在这个简化模型中,参数空间只包含在𝒢下不变的度量。log-likelihood函数(3.3)简化了,因为θ(x个) =θ(盖克斯)对于每个∈𝒢,将最小充分统计量化为对称经验分布函数P(P)^G公司

P(P)^G公司(A类)=大道G公司{P(P)^(A类)}

对于每个A类⊂ Γ. 如果𝒢是有限的并且可以自由行动,P(P)^G公司质量为1/n个|𝒢|在每个转换的采样点盖克斯具有从粗略的意义上讲,有效样本大小增加了一个等于平均轨道大小的因子。最大似然估计μ,通过将最小充分统计量与其期望值相等得到,为

n个P(P)^G公司(d日x个)==1k个n个c(c)^1q个¯(x个)μ^(d日x个),

哪里

q个¯(x个)=大道G公司{q个(x个)}.
(3.6)

换言之,子模型的估计值仍由以下公式给出方程式(3.4)和(3.5),但有q个替换为组平均值q个¯、和P(P)^替换为P(P)^G公司。给定轨道,组平均估计值可以解释为Rao–Blackwellization,因此组平均值不能增加μ^或线性泛函的c(c)^第页(刘(2001),第2.5.5节)。

从估算方程的角度来看,子模型替换了方程式(3.2)通过

c(c)第页=Γq个¯第页(x个)d日μ,
(3.7)

这是假设的结果μ是𝒢不变的。然而,如果我们继续方程式(3.7)直接与方程式(3.2),看来我们需要从

P(P)¯第页( d日x个)=c(c)第页1q个¯第页(x个)μ(d日x个),

而不是P(P)第页(d)x个). 虽然我们很容易画x个¯P(P)¯通过随机绘制来自𝒢和设置x个¯=x个,,此步骤是不必要的,因为P(P)¯在𝒢下是不变的,因此P(P)¯({x个¯})=P(P)¯({x个})前提是𝒢足够小,以至于该组平均方程式(3.6)表示计算成本可以忽略不计,子模型估计器的计算难度并不比原始估计器大C类^因此,如果𝒢是一个小的有限群,则子模型最有用。如果𝒢是正交群,大道G公司{q个(x个)}是关于无限集上Haar测度的平均值。这通常是微积分或数值积分中的一个非平凡练习,正是我们试图通过模拟来避免的。

如果明智地选择集体行动,效率的潜在增益可能非常大。作为一个极端的例子,假设分布P(P)第页都是这样的第页存在一个∈𝒢这样P(P)第页(A类) =P(P)1(通用汽车公司)对于每个可测量的A类⊂Γ。然后q个¯第页(x个)/q个¯(x个)是独立于x个对所有人来说第页用零方差精确估计了归一化常数的比值。这种影响在第2节中的示例中很明显,其中X(X)P(P)暗示gX公司P(P)1/σ在实践中,这样的群体行动可能很难找到,但通常可以找到一个群体,使对称分布之间有更多的实质性重叠P(P)¯第页(A类)=大道G公司{P(P)第页(A类)}比原来的{P(P)第页}. 对于带参数的位置-比例模型(μ,σ),半径圆内的反射σ^居中于(μ^,0)有时对似然函数或后验分布的积分有效。

虽然对称化估计器使用反射,例如q个¯(x个)={q个(x个)+q个(x个)}/2可能会提醒我们对偶原理为了减少蒙特卡罗误差,这两种方法有着根本的不同。对偶原理利用采样分布中的对称性,而群平均利用基线测度中的对称性。此外,使用对偶变量的有效性取决于被积函数的形式(例如。q个2/q个1),因为非线性函数会使对偶变量比标准估计值(3.5)更差(参见Craiu和Meng(2004)). 相反,无论被积函数的形式如何,群平均都不会造成任何伤害。

重要环节函数法MacEachern和Peruggia(2000年)与分组平均法有一些共同之处,但其构造和实现在主要方面有所不同。集团结构也被刘和萨巴蒂(2000),但出于不同目的,提高吉布斯采样中的混合速率。

分组平均值已由讨论Evans和Swartz(2000),第191页,作为重要抽样的方差减少方法。虽然目标相似,但细节却完全不同。Evans和Swartz只考虑了重要性采样器对称群的子群。也就是说,群体行动既保留了勒贝格测度,又保留了重要性抽样分布。相比之下,我们的方法面向更一般的桥梁抽样设计,并且群体行动不是基于抽样分布,而是基于基线度量。在我们的模型中,Lebesgue测度或任何特定的采样器都没有优先地位,因此群体作用也没有必要保持。相反,群体行动应该彻底混合分布,使平均分布尽可能相似。

3.4. 投影和线性子模型

到目前为止,分析已经处理了k个功能q个1,…,q个k个以对称方式,即使设计常数{n个1,…,n个k个}不相等。实际上,可能存在大量的不对称,可以利用这些不对称来减少模拟误差。在最简单的情况下,可以知道两个规范化常数相等,例如c(c)2=c(c)。缩减的参数空间就是一组度量μ这样一来(q个2q个)d日μ= 0. 理想情况下,我们希望估计μ受此齐次线性约束的最大似然法。即使存在且唯一,该子模型中的最大似然估计量也不太可能具有成本效益,因此我们通过线性投影寻求简单的一步替代方案。

c(c)~是无约束估计量方程式(3.5)或第3.3节中的组平均版本,并让V(V)~是的渐近方差矩阵日志(c(c)~)如中所示方程式(4.2)。我们考虑一个子模型,其中c(c)位于子空间k个例如,常数之间的单一齐次约束会产生维数为的子空间𝒳k个−1和矩阵X(X)订单的k个× (k个−1)其立柱跨越𝒳。

忽略渐近方差矩阵中的统计误差覆盖(cov)(c(c)~)=C类V(V)~C类,其中C类=诊断(c(c)~),加权最小二乘投影为

c(c)^=X(X)(X(X)T型C类1V(V)~负极C类1X(X))X(X)T型C类1V(V)~1,
(3.8)

哪里1是常数向量k个组件。例如,请参见,哈默斯利和汉斯克姆(1964)第5.7节。假设所有广义逆都是自反的,即。V(V)~V(V)~V(V)~=V(V)~,渐近方差矩阵为

覆盖(cov)(c(c)^)=X(X)(X(X)T型C类1V(V)~C类1X(X))X(X)T型.

一如既往,只有比率c(c)s在子模型中是可估计的。

也许值得一提的是,当目标是估计一个单一比率时,控制变量的精确作用c(c)1/c(c)2。假设k个=3,设计常数为(0,n个,0),因此所有观测值都是从P(P)2然后是重要性抽样估计量c(c)~1/c(c)~2方程式(3.5)具有渐近方差O(运行)(n个−1). 假设现在P(P)1实际上是P(P)2P(P),所以q个1=α2q个2+αq个,这就是包括q个作为控制变量,使得(q个2q个)d日μ= 0. 然后

c(c)~1=q个1(x个)d日μ~=(α2q个2+αq个)d日μ~=α2c(c)~2+αc(c)~

是以下各项的线性组合c(c)~2c(c)~,,那么的协方差矩阵c(c)~排名为2。投影后,c(c)^2=c(c)^c(c)^1=(α2+α)c(c)^2,所以c(c)^1/c(c)^2=α2+α估计误差为零。系数α2α是非实质性的,不需要是积极的。

很明显,投影不能增加模拟方差,但通过投影减少模拟误差的潜力并不大。事实上,如果我们主要感兴趣的是估算c(c)1/c(c)0,除非控制变量发生变化,否则减少通常是不值得的q个2,q个……都是精心挑选的。第5节讨论了贝叶斯后验计算的方法。效率系数通常可以达到5-10。

控制变量的讨论Evans和Swartz(2000)涉及减法而非投影,因此该技术与上面提出的不同。第5.7节中的代数哈默斯利和汉斯克姆(1964)和中Rothery(1982),里普利(1987)Glynn和Szechtman(2000年)在大多数方面与投影法等效。虽然存在一些差异,但这些差异大多是表面的,首先是我们的模型和子模型中只能识别比率这一复杂问题。实现中的主要区别在于,我们的似然方法自动提供方差矩阵,因此不需要进行初步实验来估计投影中的系数。Glynn和Szechtman(2000)第8节还指出,所需的投影是非参数极大似然估计量的线性近似。

3.5. 对数线性子模型

统计应用中出现的大多数集合都有大量的结构,这些结构可能会在子模型的构建中被利用。例如,与合并模型相关的遗传问题中出现的空间具有具有测量边缘的树结构。如果子模型下的估计易于计算且方差大大减少,则子模型可能对蒙特卡罗目的有用。以下示例说明了适用于具有产品结构的空间的原理。

如果Γ=Γ1× … × Γ是一个产品集,自然要考虑仅由产品度量组成的子模型,即。μ=μ1× … ×μ,其中μj个是Γ上的测度j个。然后每个x个∈Γ有分量(x个1,…,x个)、和θ(x个) =θ1(x个1)+ … +θ(x个)在第3.2节注释的扩展中。中的充分统计方程式(3.3)减少到以下列表边际经验分布函数,所得模型等效于-尺寸列联表,或+如果设计有多个取样器,则为1维。除非设计为,对于每个n个第页>0,函数q个第页(x个)可以作为产品来表达q个第页(x个) =q个第页1(x个1) …q个爱尔兰(x个). 然后每个采样器生成具有独立分量的观测值,因此μ^j个由提供方程式(3.4),应用于j个的第个分量x个.组件度量μ^1,,μ^然后是独立的。

在某些情况下,分量集Γ1,…,Γ同构,在这种情况下我们写Γ而不是Γ。然后很自然地将参数空间限制为形式的对称乘积测度μ例如,假设我们希望计算积分

c(c)θ=R(右)2经验{(x个1θ)2/2(x个2θ)2/2x个12x个22/2}d日x个1d日x个2

对于各种值θ在范围(0,4)内。这些构成了由Gelman和Meng(1991),其条件分布为高斯分布。子模型中的参数空间是对称乘积测度的集合μ×μ,所以μ是对ℛ的测量。对于取样器,可以方便地获得任何密度分布(f)在ℛ上,或在\8475 ;上的产品分销2此处报告的数值基于标准柯西采样器。最大似然估计μ在ℛ上具有质量1/核燃料(x个)每个数据点的最大似然估计μ2关于ℛ2具有质量{n个2(f)(x个)(f)(x个j个)}−1在每个订购的对上(x个,x个j个)在样本中。我们发现子模型估计器基于n个模拟标量观测的统计效率大致相当于3n个/2无约束模型中的二元观测。因此,原则上,在没有进一步数据的情况下,粗略重要性抽样估计值可以提高3倍。从负面来看c(c)θ

c(c)^θ=q个θ(x个,x个)d日μ^(x个)d日μ^(x个)

是以下各项的总和n个2条款,与n个无约束模型中的术语。因此,就计算工作量而言,重要性抽样估计器是优越的。除非仿真是计算中占主导地位的耗时部分,否则子模型估计器不具有成本效益。

还有一种额外的情况,在这种情况下,子模型估计器在统计效率方面获得的增益足以抵消计算工作量的增加。如果有两个函数q个第页q个是这样的P(P)第页与的一维边际分布相同P(P),估计比率c(c)^第页/c(c)^S公司有一个方差o个(n个−1),即。

n个无功功率,无功功率{日志(c(c)^第页/c(c)^)}0

作为n个→ ∞. 仿真结果表明,下降率为O(运行)(n个−2). 如果我们用族替换前面的被积函数族,就可以观察到这种现象经验(x个12负极x个22+2θx个1x个2)用于−1<θ< 1.

3.6. 马尔可夫链模型

本节中的模型假设一系列抽签构成一个具有已知转移密度的不可约马尔可夫链q个(·;x个)关于未知测度μ关于Γ。如果设计需要多条链,则过渡密度表示为q个第页(·;x个)的第页= 1,…,k个.链条没有必要处于平衡状态;也没有必要将链构造为具有特定的平稳分布。在这种新模式下,平局是一条长链带分发P(P)第页()可能性可以表示为因素,其中前三个是

P(P)第页(d日x个1)=c(c)第页1q个第页(x个1)μ(d日x个1),P(P)第页(d日x个2x个1)=c(c)第页1(x个1)q个第页(x个2;x个1)μ(d日x个2),P(P)第页(d日x个x个2)=c(c)第页1(x个2)q个第页(x个;x个2)μ(d日x个).

如果链不平衡,则忽略第一个因素。实际上,我们现在已经来自的“独立”观察不同的分布,每个分布都有自己的归一化常数。的log-likelihood函数θ由单个长度序列贡献P(P)第页()然后由给出

t吨=1θ(x个t吨)日志{c(c)第页(x个t吨1;θ)}=Γθ(x个)d日P(P)^t吨=1日志{c(c)第页(x个t吨1;θ)}

这是整个序列的函数。虽然可能性的形式与方程式(3.3),经验分布函数P(P)^已经不够了。来自的对数似然方程k个独立链,其中链来自P(P)有长度n个,由给出

n个P(P)^(d日x个)==1k个t吨=1n个P(P)^(d日x个x个t吨1)==1k个t吨=1n个c(c)^负极1(x个t吨1)q个(x个;x个t吨1)μ^(d日x个),
(3.9)

哪里n个= Σ n个,c(c)(x个0)≡c(c),q个(x个;x个0)≡q个(x个)和P(P)(d)x个|x个0)≡P(P)(d)x个). 因此,对于每个第页= 1,…,k个t吨= 0,…,n个第页−1,我们有

c(c)^第页(x个t吨)=q个第页(x个;x个t吨)d日μ^(x个)==1n个q个第页(x个;x个t吨)=1k个j个=1n个c(c)^1(x个j个1)q个(x个;x个j个1),
(3.10)

这可以解决{c(c)^第页(x个t吨),t吨=0,,n个第页1;第页=1,,k个}使用Deming–Stephan算法。当所有的抽签都是独立的且边距相等时,q个(x个;x个t吨−1) =q个(x个)不依赖于x个t吨−1、和方程式(3.10)减少到方程式(3.5).

乍一看,我们可能会怀疑方程式(3.10)可以提供任何有用的信息,因为我们最多只能从每个目标中抽签一次P(P)第页也就是我们故意忽略所有边距相同的信息的每个链重调用的第一个组件。也就是说,转移概率q个第页(x个t吨;x个t吨−1)可以是任意的,实际上它们甚至可以是时间不均匀的(即。q个第页(x个t吨;x个t吨−1)可以替换为q个第页,t吨(x个t吨;x个t吨−1)),只要链条不可还原。此外,似乎“参数”的数量{c(c)^第页(x个t吨),t吨=0,,n个第页1;第页=1,,k个}始终与数据点的数量相同。然而,我们必须记住,模型参数不是c(c),但基线度量μ,并且只要平局来自已知密度相对于μ它提供了有关μ事实上,这是重要抽样能够在从无关试验密度中提取数据时提供一致估计值的根本原因。试验分布中关于基线度量的信息必须足以估计目标分布的基线度量。特别是,试验密度支架的结合必须覆盖目标密度支架。

4.渐近协方差矩阵

4.1. 多项式信息测度

对数似然(3.3)显然是k个共享相同参数的多项式log-likelihoodθ.Fisher信息θ最好明确地视为Γ×Γ上的一个测度,这样ℐ(A类,B类) = ℐ(B类,A类)和ℐ(A类,Γ)=0A类,B类⊂ Γ. 特别是,与分布相关的多项式信息度量P(P)第页Γ上的P(P)第页(A类B类)−P(P)第页(A类)P(P)第页(B类). 在对数似然(3.3)中θ

n个(A类,B类)=第页=1k个n个第页{P(P)第页(A类B类)P(P)第页(A类)P(P)第页(B类)}.

至少在形式上θ^是逆Fisher信息矩阵n个−1,和的渐近协方差矩阵d日μ^

n个1d日μ(x个)d日μ()(x个,),

其中ℐ(x个,)是(x个,)ℐ元素负极,以Γ×Γ为索引。从表达式(3.5)c(c)^第页,我们发现c(c)^第页c(c)^S公司c(c)第页c(c)V(V),其中

V(V)第页=覆盖(cov){日志(c(c)^第页),日志(c(c)^)}=n个1Γ×Γ(x个,)d日P(P)第页(x个)d日P(P)().
(4.1)

松散-1一如既往,只有对数对比才有差异。在这个表达式中P(P)第页由定义方程式(3.1)对于每个第页,前提是c(c)第页是有限的且非零的。可能存在被积函数q个第页同时取正值和负值,在这种情况下P(P)第页不是概率分布。

对于第3.5节中讨论的对数线性子模型,其中每个采样器都有独立的组件,有必要更换ℐ(x个,)英寸方程式(4.1)按总和1(x个1,1)++(x个,),其中ℐ第页是Fisher信息度量θ第页表达式(4.1)或其泛化给出了O(运行)(n个−1)渐近方差中的项,但此项可能为0。第3.5节和第5.2节中给出了这种现象的示例。在这种情况下,需要进行更精细的计算才能找到日志(c(c)^).

4.2. 矩阵版本

上一节的结果很容易用矩阵表示法表示,至少当所有计算都以最大似然估计值进行时。=诊断(n个1,…,n个k个),并让P(P)^成为n个×k个矩阵,其(,第页)元素为

P(P)^第页(x个)=q个第页(x个)/c(c)^第页n个c(c)^1q个(x个).

矩阵P(P)^在应用Deming–Stephan算法求解最大似然方程时自然产生。请注意P(P)^均为1,而行和满足Σ第页n个第页P(P)^第页(x个)=1对于每个.

Fisher信息θθ^是(密度由矩阵表示的度量)n个P(P)^P(P)^T型,和的渐近协方差矩阵日志(c(c)^)由提供

V(V)^=P(P)^T型(n个P(P)^P(P)^T型)P(P)^
(4.2)

哪里n个是顺序的单位矩阵n个通常,矩阵n个P(P)^P(P)^T型有等级n个-1,内核等于1常数向量集。然后n个P(P)^P(P)^T型+11T型/n个具有近似单位特征值的可逆矩阵,逆矩阵也是n个P(P)^P(P)^T型适用于方程式(4.2).虽然倒置了n个×n个矩阵是可以避免的,本文所报道的所有数值计算都使用这个方差公式。

的特征值n个P(P)^P(P)^T型+11T型/n个实际上都小于或等于1,对于简单的蒙特卡罗设计,所有的观测值都是从一个采样器生成的。对于具有多个采样器的更一般的设计,近似方差公式V(V)^P(P)^T型P(P)^是反保守的。也就是说,P(P)^T型(n个P(P)^P(P)^T型)P(P)^P(P)^T型P(P)^在Löwner排序的意义上。在实际中,如果所有采样器的支持度都等于Γ,那么低估常常可以忽略不计。近似方差公式更易于计算,并且可能足以满足第3.4节所述的投影目的。

5.贝叶斯计算的应用

5.1. 后验概率计算

考虑一个回归模型,其中分量观测值1,…,独立且呈指数分布,平均值为{E类(Y(Y))}=β0+β1x个,其中x个1,…,x个是已知常数。用于图示=10,x个=和值

2.28,1.46,0.90,0.19,1.88,0.72,2.06,4.21,2.90,7.53

最大似然估计为β^=(0.0668,0.1494).

的渐近标准误差β^1使用预期Fisher信息为0.1101,使用观察到的Fisher数据为0.0921。

π(·)是参数空间上的先验分布。后验概率pr(β1>0|)是两个积分的比值。在分母中,被积函数是似然和先验的乘积。β1>否则为0。近似这个比率的一种方法是模拟后验分布的观测值,并计算具有β1>然而,这个练习既没有必要,也没有效率。

q个0(β) =(β)π(β)是可能性和先验的乘积β,并让q个1(β) =q个0(β)(β1>0)是分子的被积函数。对于辅助功能,我们选择q个2(β)为双变量正常密度β平均值β^和逆协方差矩阵等于Fisher信息β^。将观测到的Fisher信息用于q个2,但原则上我们可以使用其中之一或两者。q个(β)成为产品q个2(β)(β1>0)/K(K),其中K(K)=pr(β1>0),在正态分布下计算q个2。在本例中,

K(K)=Φ(0.1494/0.0921)=0.9476

对于观测信息近似,或0.9127对于预期信息近似。常用归一化常数2π|^|1/2对于q个2q个可能会被忽略。因此,通过构造q个2(β)d日β= ∫q个(β)d日β,不一定等于1。

随后的数值计算使用了不适当的均匀先验和n个=正常提案密度的400个模拟q个2,因此设计常数为n个= (0, 0, 400, 0). 无约束极大似然估计方程式(3.5)

日志(c(c)~1/c(c)~0)=0.0525±0.0137,日志(c(c)~/c(c)~2)=0.0078±0.0108

相关系数为0.901。然而,请注意c(c)2=c(c)通过设计,但估计器在此阶段没有类似的约束。估计后验概率pr(β1> 0|)因此exp(−0.0525)=0.9489,置信区间约为90%(0.928,0.970)。

通过施加约束c(c)2=c(c)在参数空间上,我们通过加权最小二乘投影得到了一个新的估计量日志(c(c)^)=X(X)(X(X)T型V(V)~X(X))X(X)T型V(V)~日志(c(c)~)。在这里c(c)~是无约束估计量,V(V)~是的估计方差矩阵日志(c(c)~)X(X)是模型矩阵

X(X)=(100010001001).

得出的估计值及其标准误差为

日志(c(c)^1/c(c)^0)=日志(c(c)~1/c(c)~0)1.136日志(c(c)~/c(c)~2)=0.0613±0.0059.

原则上,替代预测(3.8)更可取,但在这种情况下,这两个预测产生了无法区分的估计。后验概率的点估计值为0.940,置信区间约为90%(0.931,0.950)。效率系数约为5,与以下公式得出的系数类似Rothery(1982)在功率计算问题中使用类似的技术。

在本例中,通过将投影系数取为对数标度上的-1,即通过使用传统方法的控制变量进行减法,可以实现效率的大部分提高。然而,我们所考虑的实际应用是同时计算大量积分的应用,如系谱分析的似然计算,或计算β1。然后需要包括几个控制变量,并使用方程(3.8)在本例中,后验概率pr(β1b条|)对于六个等距值b条使用相应的六个正常对照变量,用该方法同时计算in(0,0.25)。六个效率因子分别为5.3、6.2、8.4、10.5、8.4和5.9。

这是一个相当小的例子=回归中的10个数据点,其中后验近似值和正态近似值之间可能存在明显差异。数值研究表明,效率因子随着正如预期的那样。在这种情况下,第4.3节末尾提到的近似方差公式是精确的,并且当从两个正常近似值模拟观测值时,该公式是有效精确的。

5.2. 概率回归的后验积分

考虑一个概率回归模型,其中的响应是独立的伯努利变量公共关系(=1)=Φ(x个T型β),其中x个是协变量向量β是参数。本练习的目的是计算乘积的积分(β;)π(β),其中(β;)是似然函数π(·)是先验值,这里取高斯值。这是通过使用马尔可夫链来实现的,该链的平稳分布等于后验分布。

该链由吉布斯采样的标准技术生成。以下阿尔伯特和奇布(1993),参数空间被扩充为包括潜在变量z(z)N个(x个T型β,1)这样的话是的标志z(z)吉布斯采样器循环分两步完成:β|,z(z)z(z)|,β分别是多元正态分布和独立截断正态分布的乘积。转换概率θ′=(β′,z(z)')至θ= (β,z(z))生成的马尔可夫链的

P(P)(d日θθ)=c(c)1(θ)第页(z(z),β)第页(β,z(z))μ(d日θ),

哪里第页(z(z)|,β)和第页(β|,z(z)′)为全条件密度。通过构造,归一化常数c(c)(θ)已知每个值等于1θ.

{(βt吨,z(z)t吨)}t吨=1n个是来自马尔可夫链的模拟值。所需积分由

(β)π(β)d日μ^==1n个(β)π(β)j个=1n个第页(β,z(z)j个)
(5.1)

到已知值c(c)(θt吨)=1。实际上,c(c)^(θt吨)在里面方程式(3.10)替换为已知值,然后使用该值计算近似最大化测度μ^.所得估计量,可解释为半确定性混合的重要性抽样

n个1j个=1n个第页(,z(z)j个)

作为取样器,是一致的,但可能不是完全有效的。对于大型n个,n个在任何固定值计算总和的次数β是积分的一致估计。这样的估计是由Chib(1995年),谁建议选择一个值β*高后验密度,取以下计算的平均值。作为函数的总和β也出现在计算中Ritter和Tanner(1992)等。(1992),但其目的是监测吉布斯采样器的收敛性,无论是使用多个平行链还是将单个长链分成批次。

为了进行数值说明和比较,我们使用Chib's(1995年)示例取自一项案例研究布朗(1980)收集了53名前列腺癌患者的数据,以预测淋巴结受累。有五个预测变量,如果淋巴结受到影响,则二进制响应取1。对于此处报告的结果,使用了三个协变量:血清酸性磷酸酶水平的对数、X射线读数和肿瘤分期,因此模型矩阵X(X)阶数为53×4,列为常数。先验值以(0.75,0.75,07.5,0.75)为中心,有方差A类=诊断(52,52,52,52),如中所示Chib(1995年)吉布斯采样器的启动时间为β=A类~X(X)T型,其中A类~=(A类1+X(X)T型X(X))1,总共运行N个=n个0+n个与第一个循环n个0丢弃的。该过程重复1000次,得到几个值N个。积分对数的1000个估计值的平均值和标准偏差如下所示表1。分别测量Gibbs采样和后续积分评估的中央处理器(CPU)时间(以秒为单位)。对于N个=500+5000,此处给出的Chib方法的结果与Chib(1995年)所有编程都是用C语言完成的。

表1

两种积分估值器的数值比较(对数尺度)

以下吉布斯采样器循环和方法的结果:
N个= 50 + 500,0.06 CPU秒N个= 100 + 1000,0.11 CPU秒N个= 250 + 2500,0.25 CPU秒N个= 500 + 5000,0.49 CPU秒
芯片可能性芯片可能性芯片可能性芯片可能性
平均值+34−0.5693−0.5796−0.5588−0.5661−0.5542−0.5569−0.5510−0.5534
标准偏差0.06520.009370.04750.005050.02990.002040.02110.00103
CPU秒数<0.010.28<0.011.03<0.015.870.0121.94
每CPU秒的精度392133500402934396447439263449242024
以下吉布斯采样器循环和方法的结果:
N个= 50 + 500,0.06 CPU秒N个= 100 + 1000,0.11 CPU秒N个= 250 + 2500,0.25 CPU秒N个= 500 + 5000,0.49 CPU秒
芯片可能性芯片可能性芯片可能性芯片可能性
平均值+34−0.5693−0.5796−0.5588−0.5661−0.5542−0.5569−0.5510−0.5534
标准偏差0.06520.009370.04750.005050.02990.002040.02110.00103
CPU秒数<0.010.28<0.011.03<0.015.870.0121.94
每CPU秒的精度392133500402934396447439263449242024
表1

两种积分估值器的数值比较(对数尺度)

以下吉布斯采样器循环和方法的结果:
N个= 50 + 500,0.06 CPU秒N个= 100 + 1000,0.11 CPU秒N个= 250 + 2500,0.25 CPU秒N个= 500 + 5000,0.49 CPU秒
芯片可能性芯片可能性芯片可能性芯片可能性
平均值+34−0.5693−0.5796−0.5588−0.5661−0.5542−0.5569−0.5510−0.5534
标准偏差0.06520.009370.04750.005050.02990.002040.02110.00103
CPU秒数<0.010.28<0.011.03<0.015.870.0121.94
每秒CPU精度392133500402934396447439263449242024
以下吉布斯采样器循环和方法的结果:
N个= 50 + 500,0.06 CPU秒N个= 100 + 1000,0.11 CPU秒N个= 250 + 2500,0.25 CPU秒N个= 500 + 5000,0.49 CPU秒
芯片可能性芯片可能性芯片可能性芯片可能性
平均值+34−0.5693−0.5796−0.5588−0.5661−0.5542−0.5569−0.5510−0.5534
标准偏差0.06520.009370.04750.005050.02990.002040.02110.00103
CPU秒数<0.010.28<0.011.03<0.015.870.0121.94
每秒CPU精度392133500402934396447439263449242024

在所研究的范围内,具有n个0+n个抽签不是固定的,而是大致的n个/12,即随着n个例如,效率系数N个=500+5000根据估算

(0.0211/0.00103)2=420.

为了达到与使用5000次绘图的似然法相同的精度,Chib的方法需要420×5000次Gibbs绘图,仅绘图的CPU时间为420×0.49=206秒。中的最后一行表1给出了每CPU秒的精度,定义为总时间与方差乘积的倒数。在研究的范围内,新方法每CPU秒的精度约为Chib方法的8.5–9.5倍。对于固定n个,似然估计量的计算要求更高,但额外的努力是值得的。

碰巧,这是其中一个问题,其中的似然估计μ以标准速率收敛,但估计(5.1)积分的收敛速度n个−1偏差和标准偏差均为O(运行)(n个−1):在本例中,它们的大小大致相等。相比之下,Chib的估计收敛于标准n个−1/2-费率。

6.回顾性配方

可以给出一个看似简单的推导方程式(3.5)通过如下回顾性论证。无论设计实际上是如何选择的,我们都可以考虑样本大小向量(n个1,…,n个k个)作为带指数的多项式随机向量的观测值n个和参数向量(π1,…,πk个). 这种假设是无害的,前提是(π1,…,πk个)被视为从数据中估计的自由参数。显然,π^第页=n个第页/n个是最大似然估计。

模仿回顾性设计中经常使用的论点,我们提出如下论点。考虑到这一点x个已经观察到,该点由分布生成的概率是多少P(P)第页而不是从其他发行版?使用贝叶斯定理进行的简单计算表明,所需的条件概率向量为

第页(x个)=(q个1(x个)π1/c(c)1q个(x个)π/c(c),,q个k个(x个)πk个/c(c)k个q个(x个)π/c(c)).

这些条件概率仅取决于比率π第页/c(c)第页,而不是基线度量μ.调节开启x个不会完全消除基线度量,因为c(c)第页是的线性函数μ.与单个观察相关的条件似然(,x个)就是这样

(π/c(c))q个(x个)第页(π第页/c(c)第页)q个第页(x个).

而对数相似性是

第页n个第页日志(π第页/c(c)第页)负极=1n个日志{第页(π第页/c(c)第页)q个第页(x个)}
(6.1)

再次,观察到的计数向量(n个1,…,n个k个)是完全充分的统计,并且-具有的值x个-值不是信息性的。

与参数日志相关的差异(c(c)第页)给予

{日志(c(c)第页)}=c(c)第页c(c)第页=n个第页+=1n个(π第页/c(c)第页)q个第页(x个)(π/c(c))q个(x个).

通过替换已知值π^第页=n个第页/n个将导数设为0,我们得到

c(c)^第页==1n个q个第页(x个)n个q个(x个)/c(c)^.
(6.2)

它与方程式(3.5)也就是说,之前由Geyer(1994),精确地给出了c(c).

精明的读者会注意到,当我们替换n个第页/n个对于π第页在追溯可能性中,结果函数仅取决于c(c)s,其中n个第页>0,此限制也适用于最大似然方程式(6.2).表观等效性方程式(6.2)和(3.5)因此是一种幻觉。与第3节中的模型相比,回顾性论证并未得出以下结论:方程式(6.2)是积分的最大似然估计q个第页(·)取负值。

即使我们愿意忽略上一段中的评论并假设n个第页>每个0第页,反对意见很难回避。此时的困难在于,条件似然是比率的函数φ第页=对数(π第页/c(c)第页),所以向量πc(c)不能从条件似然中单独估计。因此,替代是很诱人的n个第页/n个对于π第页,将其视为已知的先验概率。毕竟,谁能说出样本大小是如何选择的?无论这个论点听起来多么合理,结果“似然”并没有给出正确的协方差矩阵日志(c(c)^)。负对数二阶导数矩阵的分量为

2{日志(c(c)第页)}{日志(c(c))}==1n个δ第页(π第页/c(c)第页)q个第页(x个)t吨n个t吨q个t吨(x个)/c(c)t吨=1n个(π第页/c(c)第页)(π/c(c))q个第页(x个)q个(x个){t吨n个t吨q个t吨(x个)/c(c)t吨}2.
(6.3)

(π^,c(c)^),第一项等于对角矩阵n个第页δ第二项是非负定的。要将其转换为另一种矩阵形式,请写下第页条件概率向量第页(x个). 则上述负二阶导数矩阵为

ϕ==1n个(诊断{第页}负极第页第页T型)P(P)^T型P(P)^,

使用第4.2节中的矩阵表示法。

要知道这个矩阵的逆矩阵不能是日志(c(c)^),考虑极限情况,其中q个1=q个2= …=q个k个都是平等的。然后可以肯定地知道c(c)1= …=c(c)k个即使没有数据。但是,在上面显示的二阶导数矩阵中,所有条件概率向量第页等于(π1,…,πk个). 二阶导数矩阵实际上是带指数的多项式协方差矩阵n个和概率向量π该矩阵的广义逆确实给出了对比度的正确渐近方差和协变ϕ^=日志(π^/c(c)^)根据一般理论的要求。但它没有给出正确的渐近方差日志(c(c)^),或其对比度。

这一论据可以部分地挽救,但要做到这一点,必须表明π^c(c)^是渐近独立的。这并不明显,也不会在这里得到证明,但这是指数族模型中参数正交性的结果。根据可能性的标准属性,覆盖(cov){日志(π^)日志(c(c)^)}=ϕ渐进地。关于以下假设:π^c(c)^是渐近不相关的,我们推断

覆盖(cov){日志(c(c)^)}=ϕ负极覆盖(cov){日志(π^)}=ϕ诊断(1/n个π)+11T型/n个.
(6.4)

术语11T型/n个不会导致日志(c(c)^)因此可以忽略。在评估时(c(c)^,π^),结果表达式(P(P)^T型P(P)^)负极1,不涉及n个×n个矩阵,与方程式(4.2),前提是每个组件n个第页属于是绝对肯定的。

7.结论

本文的主要贡献是将蒙特卡罗积分公式化为一个统计模型,明确了哪些信息可用,哪些信息是“越界”的。鉴于已就现有信息达成一致,现在可以判断估计器是否有效。因此,似然方法不仅可用于参数估计,还可用于各种仿真设计的方差和协方差估计,其中重要抽样是最简单的特例。然而,更有趣的是,确定了三类具有显著降低方差潜力的子模型。相关操作包括组不变子模型的组平均、线性子模型或混合模型的线性投影以及Markov链Monte Carlo方案的Markov链模型。为了在效率方面取得有价值的收益,有必要利用问题的结构,因此不容易给出普遍适用的建议。三个简单的例子表明,在某些类型的统计计算中,效率因子通常可以达到5-10,甚至更大。我们认为,这些因素并不例外,特别是对于贝叶斯后验计算。

忽视贝叶斯计算的特殊困境是我们的疏忽,这不可避免地伴随着这里描述的方法。我们用参数统计模型和子模型给出了所有蒙特卡罗活动的公式。根据以下定义,这些是成熟的统计模型McCullagh(2002)与任何其他统计模型相比,它都不太人为。考虑到这个公式,使用现代贝叶斯方法分析模型似乎很自然,从先验开始Θ如果我们采用先验分布的正统解释作为总结参数已知程度的解释,我们将得到真实测度的狄拉克先验,这几乎总是勒贝格测度。这一次,前者没有争议。这种选择导致了逻辑上正确但完全不令人满意的结论,即模拟数据缺乏信息。后向分布Θ等于先验值,这对于计算目的是没有帮助的。因此,进一步的进步似乎需要一定程度的伪装或实用主义,在这之前选择一个非信息性的,或至少是非退化的Θ.给定这样的先验分布Θ并用标准公式计算所需积分的后验矩。虽然这些操作在原则上很简单,但计算却相当困难,以至于不借助蒙特卡罗方法就不可能完成计算!至少可以说,这个计算黑洞是对越来越复杂的模型的无限回归,它的前景不容乐观。考虑到这一点,很难避免得出这样的结论:老式的最大似然估计有很多值得推荐的地方。

致谢

四位裁判员对早先的一份草案的评论导致了陈述的实质性改进。我们要感谢Peter Bickel指出了偏差抽样模型的关联,感谢Peter Donnelly就各种问题进行的讨论。

国家科学基金会拨款DMS-0071726(针对McCullagh和Tan)和DMS-0072510(针对Meng和Nicolae)部分支持了这项研究。

工具书类

阿尔伯特
,
J。
芯片
,
美国。
(
1993
)
二进制和多光子响应数据的贝叶斯分析
.
《美国统计杂志》。助理。
,
88
,
669
679
.

主教
,
Y.M.M.年。
,
费恩伯格
,
瑞典。
荷兰
,
P.W.公司。
(
1975
)
离散多元分析:理论与实践
剑桥:
麻省理工学院出版社
.

棕色
,
B.W.公司。
(
1980
)
二进制数据的预测分析
.英寸
生物统计案例手册
(编辑
R·J。
米勒
,
B。
埃夫隆
,
B.W.公司。
棕色
路易斯安那州。
摩西
). 纽约:
威利
.

芯片
,
美国。
(
1995
)
吉布斯输出的边际似然
.
《美国统计杂志》。助理。
,
90
,
1313
1321
.

克拉尤
,
R.V.公司。
,
X-L。
(
2004
)
前向和后向马尔可夫链蒙特卡罗的多过程并行对偶耦合
.
安。统计师。
,待发布。

,
L。
,
坦纳
,
文学硕士。
,
辛哈
,
D。
霍尔
,
W·J。
(
1992
)
监测吉布斯采样器的收敛性:吉布斯停止器的进一步经验
.
统计师。科学。
,
7
,
483
486
.

戴明
,
西弗吉尼亚州。
斯蒂芬
,
F.F.公司。
(
1940
)
当期望边际总和已知时采样频率表的最小二乘调整
.
安。数学。统计师。
,
11
,
427
444
.

迪西乔
,
T·J。
,
卡萨丁
,
R.E.公司。
,
拉夫特里
,
答:。
瓦瑟曼
,
L。
(
1997
)
结合模拟和渐近逼近计算贝叶斯因子
.
《美国统计杂志》。助理。
,
92
,
903
915
.

埃文斯
,
M。
斯瓦茨
,
T。
(
2000
)
蒙特卡罗和确定性方法逼近积分
牛津大学:
牛津大学出版社
.

弗斯
,
D。
贝内特
,
英国工程师。
(
1998
)
概率抽样中的稳健模型
.
J.R.统计学家。Soc公司。
B、,
60
,
21
; 讨论,41–56。

盖尔曼
,
答:。
,
X-L。
(
1991
)
关于条件正态二元分布的注记
.
美国统计局
,
45
,
125
126
.

盖尔曼
,
答:。
,
十、L。
(
1998
)
模拟归一化常数:从重要性采样到桥接采样再到路径采样
.
统计师。科学。
,
13
,
163
185
.

盖尔
,
C.J.公司。
(
1994
)
马尔可夫链蒙特卡罗法中归一化常数的估计和混合重加权
.
技术报告568
明尼阿波利斯明尼苏达大学统计学院。

吉尔
,
R。
,
瓦尔迪
,
年。
韦尔纳
,
J。
(
1988
)
有偏抽样模型中经验分布的大样本理论
.
安。统计师。
,
16
,
1069
1112
.

格林
,
P.W.公司。
谢赫特曼
,
R。
(
2000
)关于控制变量方法的一些新观点。
蒙特卡罗和准蒙特卡罗方法
(编辑
K.-T.公司。
,
F·J。
希克内尔
H。
尼德雷特
),第页。
27
49
纽约:
施普林格
.

哈默斯利
,
J·M·。
汉斯科姆
,
直流电。
(
1964
)
蒙特卡罗方法
.伦敦:
查普曼和霍尔
.

海斯特堡
,
T。
(
1995
)
加权平均重要性抽样和防御性混合分布
.
技术计量学
,
37
,
185
194
.

霍维茨
,
D.G.公司。
汤普森
,
D.J.博士。
(
1952
)
有限宇宙无替换抽样的推广
.
《美国统计杂志》。助理。
,
47
,
663
683
.

林赛
,
B。
(
1995
)
混合模型:理论、几何和应用
海沃德:数理统计研究所。

线路接口单元
,
J.S.公司。
(
2001
)
科学计算中的蒙特卡罗策略
纽约:
施普林格
.

线路接口单元
,
J.S.公司。
萨巴蒂
,
C、。
(
2000
)
用于贝叶斯计算的广义吉布斯采样器和多重网格蒙特卡罗
.
生物特征
,
87
,
353
369
.

MacEachern公司
,
序号。
佩鲁贾
,
M。
(
2000
)
马尔可夫链蒙特卡罗方法的重要链函数估计
.
J.计算。图表。统计师。
,
9
,
99
121
.

锦葵
,
C.L.公司。
(
1985
)
关于“选择偏差模型中的经验分布”的讨论
通过
年。
瓦尔迪
.
安。统计师。
,
13
,
204
205
.

麦库拉
,
第页。
(
2002
)
什么是统计模型(有讨论)?
安。统计师。
,
30
,
1225
1310
.

,
X-L。
Wong(王)
,
W.H.公司。
(
1996
)
通过简单恒等式模拟归一化常数的比值:理论解释
.
统计师。罪。
,
6
,
831
860
.

欧文
,
答:。
,
年。
(
2000
)
安全有效的重要性抽样
.
《美国统计杂志》。助理。
,
95
,
135
143
.

普费弗曼
,
D。
,
斯金纳
,
C.J.公司。
,
福尔摩斯
,
D.J.博士。
,
戈尔茨坦
,
H。
拉斯巴什
,
J。
(
1998
)
多级模型中不等选择概率的加权(附讨论)
.
J.R.统计学家。Soc公司。
B、,
60
,
23
40
; 讨论,41–56。

雷普利
,
出生日期。
(
1987
)
随机模拟
纽约:
威利
.

里特
,
C、。
坦纳
,
文学硕士。
(
1992
)
促进Gibbs采样器:Gibbs塞子和griddy-Gibbs采样器
.
《美国统计杂志》。助理。
,
97
,
861
868
.

罗瑟里
,
第页。
(
1982
)
蒙特卡罗功率估计中控制变量的使用
.
申请。统计师。
,
31
,
125
129
.

瓦尔迪
,
年。
(
1985
)
选择偏差模型中的经验分布
.
安。统计师。
,
13
,
178
203
.

本文根据牛津大学出版社标准期刊出版模式的条款出版和分发(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)