总结

在地质统计学中,通常假设潜在的空间过程是平稳的和各向同性的,即当索引集的原点平移并围绕原点旋转时,空间分布不变。然而,在环境问题中,这种假设是不现实的,因为数据中可能会发现空间过程相关结构中的局部影响。本文提出了一种贝叶斯模型来解决各向异性问题。继Sampson和Guttorp之后,我们通过参考潜在空间来定义空间过程的相关函数,表示为D类,其中平稳性和各向同性成立。计量监测点所在的空间表示为G公司。我们采用贝叶斯方法,其中G公司D类由未知函数表示d日(·). 高斯过程先验分布定义为d日(·). 与Sampson–Guttorp方法不同,测量和未测量站点的映射都在一个框架中处理,预测推断明确考虑了映射中的不确定性。使用马尔可夫链蒙特卡罗方法从后验分布中获取样本。讨论了两个示例:模拟数据集和太阳辐射数据集,这两个数据集也是由Sampson和Guttorp分析的。

1.简介

假设我们有一个网络n个对相关区域的监测站,G公司. The locations where then个监测地点在文献中称为计量地点。任何其他位置都是未经测量的位置。在环境问题中,我们经常在每个测量位置重复测量一些随机变量Y(Y)具体来说,假设我们观察到Y(Y)(x个t吨)对于= 1,…,n个t吨= 1,…,T型,其中Y(Y)(x个t吨)是为定义的时空过程x个G公司和任意时间t吨根据从测量位置获得的信息,我们的兴趣在于预测Y(Y)(x个t吨)在任何未经测量的位置x个和时间t吨感兴趣的。这是环境研究中的一个典型问题。通常必须描述所考虑过程的空间结构、平均结构和高阶随机结构,如空间协方差更具体地说,在此类应用中,描述一组测量和未测量位置之间的协方差结构通常很重要G公司.

在地质统计学中,将空间过程插值到感兴趣的未测量位置称为克里金(克雷西,1993年). 当使用克里金法时,过程的协方差结构非常重要。该方法通常假设随机过程是平稳的,这意味着当指数集的原点平移时,分布不变,并且是各向同性的,即过程在原点旋转时是不变的。当一个空间过程是平稳的和各向同性的时,它被称为同种类的.作为桑普森和古托普(1992)指出,在分析大多数环境研究的时空过程时,几乎没有理由期望空间协方差结构在感兴趣的空间尺度上是稳定的,因为空间随机过程的相关结构可能存在局部影响。古托普. (1994)他说,在分析各种环境数据集时,他们很少发现空间过程同质性的假设是合理的。桑普森和古托普(1992)开创了一种建模非平稳性和各向异性的方法,涉及一个称为D类-空间,其中D类代表分散。其主要思想是基于G公司-(地理)空间,到D类-空间,其中的空间结构是稳定的和各向同性的。要获得中采样点的位置D类-空间,桑普森和古托普(1992)利用多维缩放。一旦获得位置D类-空间,下一步是估计在未测量现场的空间随机过程的实现,Sampson和Guttorp使用薄板样条插值测量现场的映射。这种方法已应用于各种问题(排水沟. (1992, 1994)等),是该领域的重要参考资料。然而,多维缩放和薄板样条的使用似乎相当随意。对这种方法的另一个批评是,一旦D类-空间是固定的,未测位置的插值是在这些固定位置的基础上进行的,而不考虑映射的不确定性。在这里提出的方法中,每个位置都有一个先验分布,其后验分布可以通过遵循贝叶斯范式获得。

在方法上还有两个困难桑普森和古托普(1992)这里可能会提到。首先,可以有许多不同的测量位置映射到D类-在任何适合标准上几乎都一样好的空间。这个问题在多维标度中得到了承认,但也将成为其他相关方法的潜在困难。其次,该映射本身,或其插值或平滑以允许预测未测量位置,可能不是令人惊讶的,即映射可能会产生一个自身折叠的曲面。对于环境数据而言,这种类型的大量褶皱通常被认为是不可取的和/或不合理的。

Monestiez和Switzer(1991)还讨论了非平稳随机场的协方差结构2低维空间中的平稳各向同性场第页第页= 2,…,n个−1.他们通过交替最小二乘算法,对重缩放空间中的各向同性协方差模型以及观测站位置的多维缩放进行了同步估计。Mardia和Goodall(1993)对由桑普森和古托普(1992)他们声称,在许多情况下,最大似然估计量得出的估计值与非线性最小二乘法得到的估计值接近。实际上,他们提出了一种与Monestiez和Switzer(1991)不同之处在于,他们对模型中的参数集进行了统一的最小化。史密斯(1996)考虑了Sampson和Guttorp的替代方法,也基于似然法,但协方差函数的元素由径向基函数的线性组合表示。就薄板样条而言,与桑普森和古托普不同,史密斯(1996)没有使用平滑参数。他声称,相反,可以将薄板样条的表示限制为径向基函数的子集。然而,很难选择要使用多少个基函数,以及它们应该集中在哪个观测点。这种方法也会出现多解(似然函数的多个局部极大值)和折叠问题。Iovleff和Perrin(1999)还利用空间变形处理空间异质性。然而,它们保证了函数的双向性d日(·)通过为地理位置构建Delaunay三角测量。

Loader and Switzer(1992年)还讨论了非齐次空间过程的估计。他们使用了经验贝叶斯技术,因此没有考虑超参数的可变性。他们简要讨论了潜在空间的概念D类其中各向同性保持不变。它们的协方差并不是针对所有空间都完全指定的2×2; 该模型不能扩展到描述任何两个不在集合中的新位置之间的协方差x个1,…,x个n个.Le和Zidek(1992)提出了一种贝叶斯替代克里金方法,其中协方差矩阵的不确定性被反映出来。他们在使用比例矩阵Ψ因此,不一定是各向同性的先验的。他们为Ψ这样,就可以通过测量站点获得未测量位置的插值。他们提到对于环境测量问题来说,各向同性似乎很强。一个建议是使用非参数方法桑普森和古托普(1992)估计Ψ,其应用示例见太阳. (1998).希格顿. (1999)提出了一种空间协方差函数异质性的替代模型,该模型基于高斯过程的移动平均规范。他们使用贝叶斯层次建模结构,以便获得模型中涉及的所有数量的不确定性。

本文提出了一个全贝叶斯模型来估计用于环境问题的过程的空间协方差函数。遵循以下想法桑普森和古托普(1992)我们利用了一个潜在的空间D类但通过高斯过程将位置映射到潜在空间。在导出后验分布后,可以在被观察区域的任何位置获得预测值和相关的不确定性度量。达米安. (2001)独立提出了空间变形模型的半参数贝叶斯方法。有关两种模型的比较,请参见施密特(2001).

本文的结构如下。下一节介绍模型并讨论其每个参数的作用。第3.1节讨论了获得模型参数后验分布所涉及的计算问题。第3.2节介绍了根据第2节规定的模型获得的预测分布。第4节介绍了两个示例的分析。第一个是模拟数据集n个=6个站点。另一个是太阳辐射数据集,由桑普森和古托普(1992)第五部分对论文进行了总结,并讨论了未来的工作。

2.模型

以下桑普森和古托普(1992),我们考虑一个潜在空间D类其中保持平稳性和各向同性。这里我们讨论d日(·)过程,这是将地理位置映射到D类-空间。我们只考虑来自22,但到其他维度的映射可以作为此处提出的理论的推广。

我们的观察结果包括Y(Y)=Y(Y)(x个t吨)对于= 1,…,n个t吨= 1,…,T型.让Y(Y)t吨= (Y(Y)1t吨Y(Y)2t吨,…,Y(Y)纳特)'用于t吨= 1,…,T型.我们认为Y(Y)1,…,Y(Y)T型与密度无关且分布相同N个n个(μ),的n个-带平均向量的多维正态分布μ和协方差矩阵。我们不考虑时空过程的时间结构Y(Y)(x个t吨). 与其他研究人员一样,我们关注空间结构(尤其是建模非同质性),并假设通过预处理消除了时间依赖性。例如,我们通常可以对每个测量站点采用相同的时间模型,在每个位置拟合该模型的参数,并计算每个时间点的残差。实际上,我们认为我们的观察结果Y(Y)是这些残差,还是时间结构等效删除的结果,我们忽略了拟合过程在这些残差中诱导的任何相关性。我们将专注于数据中留下的空间结构,我们将仅将其称为一个空间过程,尽管我们保留了符号Y(Y)(x个t吨). 环境统计数据很少遵循正态分布,在适当的情况下,我们进一步假设之前已经进行了一些适当的转换。

因此,数据会生成一个n个×n个样本协方差矩阵S公司,从以下位置的数据中获得n个空间位置x个1,…,x个n个结束T型时间点。我们的主要兴趣是.整合后μ使用统一先验具有Wishart形式:

(f)(S公司)||负极(T型负极1)/2经验{负极T型2信托收据(S公司负极1)}
1

每个元素通过建模

冠状病毒{Y(Y)(x个t吨)Y(Y)(x个j个t吨)}={v(v)(x个)v(v)(x个j个)}c(c)d日(x个x个j个)
2

所有人都在哪里t吨

v(v)(x个)=无功功率,无功功率{Y(Y)(x个t吨)}c(c)d日(x个x个)=校正{Y(Y)(x个t吨)Y(Y)(x个t吨)}

corr(·,·)表示相关性。为了简单起见,我们将方差建模为可交换的。先验,差异v(v)(x个)具有具有平均值的反伽马分布τ2和已知的自由度(f),即。

v(v)(x个)τ2(f)G公司{τ2((f)负极2)(f)}x个G公司π(τ2)τ负极2

给予τ2非信息性先验分布。

2.1、。绘制空间相关性

该模型的主要特征是相关性结构c(c)d日空间随机过程的(·,·),通过参考潜在空间定义D类在地质统计学中,通常通过变异函数而不是协方差或相关函数来表示空间变异性。这被定义为两个位置的过程差异的方差,即。D类2(x个x个')=变量{Y(Y)(x个t吨)−Y(Y)(x个′,t吨)}.桑普森和古托普(1992)断言几乎所有在假设平稳性的地质统计实践中常见的变异函数模型都可以表示为

D类2(x个x个)=(f)*(d日(x个)负极d日(x个))
4

哪里d日(·)是椭圆各向异性和单位函数情况下的线性变换,或是各向同性协方差结构情况下的任何正交变换,其中(f)*是一个适当选择的单调函数表示上的固定距离度量或范数D类,并假设欧氏距离。模型桑普森和古托普(1992)通过允许d日(·)是非线性的。他们的估算方法d日(·)和(f)*在第1节中进行了简要描述;有关更多详细信息,请参阅桑普森和古托普(1992)在这里,我们建议对方程(2)中所示的空间协方差进行建模。通过定义为

c(c)d日(x个x个j个)=(d日(x个)负极d日(x个j个))
5

哪里(·)是一个单调函数。与桑普森和古托普的方法类似,(·)是根据二维各向同性协方差函数的一般表示定义的(克雷西语(1993),第85页),作为K(K)高斯相关函数。明确地,

(小时)=k个=1K(K)k个经验(负极b条k个小时2)
6

为了节省,组件的数量K(K)应尽可能小,与数据和粗糙度参数常数一致b条k个和系数k个未知的k个s服从k个=1K(K)k个=1. Theb条k个s满足b条1>…>b条K(K)避免可识别性问题和k个>0和b条k个>0,k个= 1,…,K(K)。通过以下方式很容易产生块金效应b条1方程(6)趋于∞。

2.2. 这个d日(·)过程

相关函数取决于D类-空间,以及d日(·)是映射位置的函数G公司-空格插入D类-空间。这里我们指定一个高斯过程(GP)(参见示例奥哈根(1994))在函数之前d日(·):

d日()()σd日2d日()普通合伙人{()σd日2d日()}
7

哪里(·)是先验均值函数。协方差函数是一个2×2协方差矩阵σd日2乘以标量函数d日(·,·),用于测量站点之间的先前相关性,例如d日(x个x个) = 1.

特别是,让D类= (d日1,…,d日n个),其中d日=d日(x个),是2×n个矩阵D类-测量站点的空间坐标,让=((x个1),…,(x个n个))然后让d日成为n个×n个元素矩阵d日(x个x个j个). 然后为D类是矩阵正态分布(D类|σd日2d日)~N个(2×n个)(σd日2d日)。如果我们考虑通过堆叠D类,那么我们有一个2维的多元正态分布n个,其协方差矩阵由之间的Kronecker积给出σd日2d日.

GP配方d日(·)倾向于消除桑普森和古托普(1992)它还将有助于减少双峰问题,特别是史密斯(1996).

尽管(·)原则上可以采取任何形式反映先前对映射的信念G公司-至D类-空间,设置是自然的(x个) =x个当没有关于如何D类将不同于G公司这也有助于控制过盈。虽然我们没有观察到d日(·)过程中,可能性带来了有关站点之间距离的信息D类-空间。因此D类将后部拉向G公司-位置,而概率给出了更高的配置后验概率D类-方程(5)给出的隐含相关性近似于以下公式给出的样本相关性的空间S公司GP的协方差结构在描述函数行为方面非常重要d日(·). 它控制贴图的扭曲程度先验的以下小节将讨论其各个组成部分。

2.2.1. 的规范d日(·,·)

相关矩阵d日(·,·)提供了有关以下站点之间局部失真的信息D类-空间,并控制GP的平滑度。特别是n个×n个矩阵d日描述了中测量位置的先验相关结构D类-空间。这是基于G公司-空间。可以合理地预计G公司-当映射到D类所以他们的位置D类-空间应该高度相关。的元素d日(·,·)相应地通过高斯相关函数建模,

d日(x个x个)=经验(负极b条d日x个负极x个2)

哪里b条d日控制中测量位置配置的先前形状D类-空间。一个建议是修复b条d日等于1/2,其中是标准位置之间的典型平方距离G公司-空间。这一选择意味着G公司-在D类-空间,但在G公司-空间相关性较差先验的,因此它们的距离可能会因映射而更加扭曲。

2.2.2. 的规范σd日2

坐标系的先验协方差结构D类-空间也由σd日2=无功功率,无功功率{d日(x个)}.鉴于d日(·,·)控制预期畸变的性质先验的在映射中G公司D类通过确定哪些位置高度相关,σd日2控制失真量。元素越大σd日2先验分布越允许单个测量位置移动。

可以看出,该参数在以下意义上是无法识别的Dawid(1979).样本协方差矩阵S公司提供有关中距离的信息D类-空间;因此,它提供了关于中的点配置的大小和形状的信息D类-空间。可以证明(参见附录A)那个S公司至多会给出关于σd日2。因此,我们建模σd日2作为对角线矩阵。我们假设主对角线的元素是独立的,并且我们用β自由度和比例参数α对角线元件σd日2= 1,2.

2.3. 后部分布

通过定义方程(6)中相关函数中参数的先验分布,并将此信息与分布(1)中的似然相结合,可以利用贝叶斯定理获得整组参数的后验分布。

考虑方程(6),假设K(K)j个b条每个人都是独立的j个j个=1,…,K(K)先验密度由

π(1K(K)b条1b条K(K)K(K))k个=1K(K)πk个(b条k个)具有k个=1K(K)k个=1b条1>>b条K(K)
8

哪里Πk个=1K(K)πk个(b条k个)是先验节理密度的核b条′=(b条1,…,b条K(K))和πk个(b条k个)是对数正态密度的核,其相关正态具有平均值μb条和方差σb条2k个= 1,…,K(K). Thek个s在(K(K)−1)-单工。整套参数如下

θ={(v(v)1v(v)2v(v)n个)(d日1d日n个)(1K(K)b条)(τ2σd日2)}

根据贝叶斯定理θ与之前的概率成正比,根据迄今为止提出的规范,很容易获得该概率,

π(θS公司)||负极(T型负极1)/2经验{负极T型2信托收据(S公司负极1)}[=1n个v(v)负极((f)+2)/2经验{负极((f)负极2)τ22v(v)}]×τ(n个(f)负极2)/2(k个=1K(K)1b条k个经验[负极{日志(b条k个)负极μb条}22σb条2])×|σd日2|负极n个/2|d日|负极1经验{负极12信托收据(D类负极)σd日负极2(D类负极)d日负极1}×σd日11负极(β1+2)/2经验(负极α12σd日112)σd日22负极(β2+2)/2经验(负极α22σd日222).
9

3.实现和预测推理

3.1. 马尔可夫链蒙特卡罗算法

表达式(9)的分析总结似乎不可行,我们采用马尔可夫链蒙特卡罗模拟(Gamerman,1997年).

上一节介绍的模型具有复杂的层次结构。重要的是要认识到,在没有约束的情况下,由于d日(·)出现在(·)功能。首先,坐标的任何变换d日(x个)英寸D类保持距离不变(平移和/或旋转)在观测上是等价的。其次,因为(·)具有未指定的粗糙度参数b条k个,将所有距离叠加在一起的任何变换D类-空间常数也是无法识别的。由于d日(·)作为一种适当的先验分布,数据中的这种不可识别性不会导致根本问题。这意味着后面d日对于任何观测等效配置,(·)始终与先验值成正比,但后验值将是适当的,稍后考虑的计算方法将起作用。然而,重要的是要认识到这一点,以设计有效的算法。从表达式(9)的后验数据中获取样本的算法是吉布斯采样器。根据每个参数的完整条件,我们

  • (a)

    样品v(v)通过使用自适应抑制采样(吉尔克斯与怀尔德出版社,1992年)因为它的完整条件在用v(v)负极1/2

  • (b)

    样本元素D类Metropolis–黑斯廷斯台阶,

  • (c)

    样品1,…,K(K)

  • (d)

    也是样品b条2,…,b条K(K)大都会黑斯廷斯台阶,

  • (e)

    样品τ2从其完全条件伽马分布和

  • (f)

    样品σd日112σd日222它们各自的逆伽马分布。

最复杂的两个步骤是更新D类b条2,…,b条K(K)。由于可能性带来了有关站点之间距离的信息D类-space和previor提供了有关它们在中的位置的信息D类,很难确保链条混合良好。下面我们将重点介绍如何获取D类b条2,…,b条K(K).

在表达式(9)后面d日由提供

π*(d日)||负极(T型负极1)/2经验{负极T型2信托收据(S公司负极1)}经验{负极12信托收据(D类负极)σd日负极2(D类负极)d日负极1}

我们使用的Metropolis–Hastings提案基于样本协方差矩阵的主成分S公司,而不是采样位置,我们采样方向。如果我们一次只对一个位置进行单独采样,那么那些高度相关的位置往往不会移动太多。在采样方向时,我们克服了这个问题,因为S公司指出位置是如何关联的。利用它们可以确保高度相关的站点,即主成分值较小的站点,倾向于沿着D类-空间。全条件后验分布D类是先验多元正态分布与似然之间的组合,似然在点配置的旋转、位置和尺度变化下保持不变。通过重新参数化d日s的主要成分S公司,我们在D类-可能性提供更多支持的空间。实际上,我们定义E类=一个−1D类,使用一个这个n个×n个矩阵,其第th列是第个主成分S公司然后我们使用Metropolis随机漫游步骤进行采样E类=1,…,n个虽然只向第个分量,作为D类=不良事件,所有位置都会相应移动。建议分布的方差与S公司.

要采样b条2,…,b条K(K)我们首先假设相关函数(6)只有两个分量(K(K)=2),其中一个是金块效应。因此,我们只有一个粗糙度参数,b条2,在相关函数中。参数b条2提供有关中位置配置大小的信息D类-空间。的完全条件分布b条2紧密地集中,使得马尔可夫链中的运动很少。为了改进混合,我们的算法基于移动D类=(d日1,…,d日n个)和b条2共同提出建议b条2并获得D类这样建议的点之间的距离D类-空间保持当前相关性不变。因此,提出了日志建议(b条2)均值等于当前值的对数且方差固定的正态分布单位b条。的建议值d日

d日支柱(x个)=(b条2cur(电流)b条2支柱){d日cur(电流)(x个)负极x个¯}+x个¯
10

哪里x个¯是中点配置的平均点G公司-space,cur表示当前值,prop表示参数的建议值。提议的D类在方程(10)中满足等式

b条2cur(电流)d日c(c)u个第页(x个)负极d日c(c)u个第页(x个j个)2=b条2第页第页o(o)第页d日第页第页o(o)第页(x个)负极d日第页第页o(o)第页(x个j个)2
11

所以可能性是不变的。该运动被概率接受

α=最小值{1π(D类支柱)π(b条2支柱)/π(D类cur(电流))π(b条2cur(电流))}

当相关函数中有两个以上的组件时,我们仍然会为d日1,…,d日n个b条2,…,b条K(K)但现在,表达式(11)中的相等不能适用于所有人K(K)相关函数中的指数项(·). 为了获得与方程式(11)类似的效果,我们采用exp(x个)≈1+x个那么与表达式(11)类似的等式为

(2b条2cur(电流)+b条cur(电流)++K(K)b条K(K)cur(电流))d日cur(电流)(x个)负极d日cur(电流)(x个j个)2=(2b条2支柱+b条支柱++K(K)b条K(K)支柱)d日支柱(x个)负极d日支柱(x个j个)2.
12

现在建议φ=(b条2,…,b条K(K)D类)通过对每个日志进行采样获得(b条k个)平均值等于其当前值对数的正态分布,以及D类通过使用获得

d日支柱(x个)=(2b条2cur(电流)++K(K)b条K(K)cur(电流)2b条2支柱++k个b条K(K)支柱){d日cur(电流)(x个)负极x个¯}+x个¯.

对于一个将军K(K)来自φcur(电流)φ支柱被概率接受

α=最小值{(f)(S公司ϕ支柱)π(D类支柱)π(b条支柱)(f)(S公司ϕcur(电流))π(D类cur(电流))π(b条cur(电流))1}

3.2. 预测推理

本小节获得了一个未测量位置的简单情况下的预测分布。假设我们希望预测Y(Y)n个+1t吨*=Y(Y)*在一个没有标记的位置x个n个+1,有时t吨∈ {1,…,T型},以观察结果为条件Y(Y)=(Y(Y)1,…,Y(Y)T型)的n个测量现场。现在参数向量θ被扩充为θ*=(θv(v)n个+1*d日n个+1*),其中v(v)n个+1*是在这个未测量的位置的过程的变化,以及d日n个+1*它的位置在D类-空间。预测分布Y(Y)*Y(Y)现在由提供

第页(Y(Y)*Y(Y))=¦Βθ*第页(Y(Y)*Y(Y)θ*)第页(θv(v)n个+1*d日n个+1*Y(Y))d日θd日v(v)n个+1*d日d日n个+1*
13

使用多元正态理论的基本结果

(Y(Y)*Y(Y)θ*)N个(μ*+ψ负极1Y(Y);v(v)n个+1*负极ψ负极1ψ)
14

哪里μ*是过程的平均值x个n个+1ψ=(ψ1,…,ψn个)'与

ψ=(v(v)n个+1*v(v))k个=1K(K)k个经验{负极b条k个d日n个+1*负极d日(x个)2}

我们获得第页(θv(v)n个+1*d日n个+1*Y(Y))在方程式(13)中,通过

第页(θv(v)n个+1*d日n个+1*Y(Y))=第页(v(v)n个+1*d日n个+1*θY(Y))第页(θY(Y))
15

作为v(v)n个+1*d日n个+1*不要估计它会发生的可能性第页(v(v)n个+1*d日n个+1*θY(Y))=第页(v(v)n个+1*d日n个+1*θ)因此(v(v)n个+1*θS公司)免疫球蛋白{τ2((f)负极2);(f)}以及d日n个+1*遵循其先前的条件θ以及多元正态分布的分区结果,即。

(d日n个+1*θS公司)N个2(d日*;d日*)
16

哪里

d日*=*+(2d日*d日负极1)(D类负极)
d日*=σd日2(1负极d日*d日负极1d日*)

d日*=(d日1d日n个)d日=经验(负极b条d日x个n个+1*负极x个2)= 1,2,…,n个.如果D类那么是身份吗*是包含G公司-未测量位置的空间坐标。

方程(13)中的积分在分析上很难处理,但可以用蒙特卡罗方法计算。一个简单的问题是如何获得测量和未测量位置的增广协方差矩阵。如前所述,我们可以使用马尔可夫链蒙特卡罗算法获得样本大小从参数向量的后验分布θ然后针对每个= 1,…,

  • (a)

    样品v(v)n个+1*(v(v)n个+1*τ2S公司)免疫球蛋白{τ2t吨((f)负极2)(f)}

  • (b)

    样品d日n个+1*(d日n个+1*D类S公司)N个2(d日*d日*),其中d日*d日*与分布(16)中的相同,并且

  • (c)
    计算
    j个={v(v)(x个)v(v)(x个j个)}k个=1K(K)k个经验{负极b条k个d日(x个)负极d日(x个j个)2}对于j个=1n个+1

1,…,然后是来自较大协方差矩阵后验分布的样本。

4.示例

4.1. 模拟数据集

我们首先将模型拟合到模拟数据集,以检查当我们知道模型参数的真实值时,关于模型参数的后验推断的行为。

最初,我们建立了n个=6个站点G公司-空间;的值τ2(f)b条2b条d日σd日2已修复,并且在生成中的位置后D类-分布中先验值的空间(7),以及每个测量位置与分布中先兆值的方差(3),一个“真”协方差矩阵由方程(2)给出的元素得到。变量固定在值τ2=2(f)=12b条2=0.251=0.12=0.9σd日112=0.25σd日222=0.375b条d日= 0.5.

由于该数据集是直接从模型中模拟的,因此没有必要从每个测量现场的数据中删除时间效应。由于这里的目标是在理想条件下测试模型,因此使用的样本协方差矩阵是真正的模拟矩阵,但我们假设它是由T型=200个观察值。下一步是为模型中的参数分配先验分布。的优先级b条2假设为对数正态,平均值为0.25,方差为b条2大于2等于0.01。参数τ212有非信息性的前科。

如第2节所述d日(·)通过分配(·),b条d日σd日2。我们使用的是地理位置x个作为d日(x个). 根据一位裁判员的建议,我们运行了几个不同的模型,以检查先前的影响b条d日σd日2在…的后面d日(·). 此处显示了两个结果:

  • (a)

    对于b条d日=0.25和之前的平均值σd日112σd日222分别等于0.5和0.75

  • (b)

    对于b条d日=1.0和之前的方法σd日112σd日222分别等于1.0和1.5。

这些模型运行了90000次迭代,老化了20000次迭代,并且在每35次迭代后存储样本。所有参数的轨迹图表明,已达到收敛。

在形状分析中,Procrustes叠加(Dryden和Mardia,1998年)是比较两种不同配置之间形状的有用工具n个点,因为它使它们之间的形状距离最小化。图1显示了后验平均值的Procrustes叠加D类到中的原始配置G公司-空间。G公司标记站点位置在里面G公司-空间,而标记其位置的后平均值的Procrustes重叠D类-空间。请注意,中两种配置的形状D类-空间差别不大。我们使用此转换来显示映射的其他方面d日(·)。例如,图2显示了两个模型的后验平均值,该模型的网格图中有200个未测量的位置G公司-空间。该网格是通过在G公司-在网格上两条线相交的每个点上D类-根据方程(16)和Procrustes变换计算空间。可以观察到,将位置映射为D类-空间相当平滑。网格左下角的东北方向的配置收缩图2(a)比中的图2(b),根据变形的先验信息。图3展示了在每个先验分布下估计的相关函数和逐点95%的最高后验密度区间。图中的点表示观察到的相关性。在这两种情况下,我们都得到了各向同性的相关函数。图4说明了每种方法的后验不确定性d日通过绘制以后均值为中心的椭圆主轴以及原始地理位置G公司和中的“true”位置D类-空格(显示为D类). 同样,这对于两个备选的先验分布也是如此。我们看到改变参数的效果b条d日以及σd日2对后验推断有适度但潜在的重要影响。Prior(a)表示相信映射d日(·)将比(b)更接近其先验平均值(恒等函数),尤其是D类-空间应该接近其先前G公司-空间期望。这些图表与先前规范中的这些差异一致。数据中关于映射的信息相对较少d日(·),我们的贝叶斯方法识别并量化了d日(·),以及推断将受先前信息影响的事实。Sampson和Guttorp的原始方法并不代表d日(·),因此可能被视为在其估计中给人一种准确性的误导印象。

图1

Procrustes中平均构型的叠加D类()到中的原始位置G公司-空间(G公司):(a)b条d日= 0.25 ,E类(σd日112)=0.5E类(σd日222)=0.75; (b)b条d日= 1.0 ,E类(σd日112)=1E类(σd日222)=1.5

图2

200个点的矩形网格的映射G公司-空格插入D类-空格:(a)b条d日= 0.25 ,E类(σd日112)=0.5E类(σd日222)=0.75; (b)b条d日= 1.0 ,E类(σd日112)=1E类(σd日222)=1.5

图3

相关95%最高后向密度间隔(––)的后向平均值(¡­¡­):(a)b条d日= 0.25 ,E类(σd日112)=0.5E类(σd日222)=0.75; (b)b条d日= 1.0 ,E类(σd日112)=1E类(σd日222)=1.5

图4

中位置的后平均值位置D类-空间及其相关不确定性:(a)b条d日= 0.25 ,E类(σd日112)=0.5E类(σd日222)=0.75; (b)b条d日= 1.0 ,E类(σd日112)=1E类(σd日222)=1.5

4.2. 太阳辐射数据集

在这里,我们将模型应用于由以下人员分析的数据集桑普森和古托普(1992)即在加拿大不列颠哥伦比亚省西南部收集的太阳辐射数据集。如所示图3属于桑普森和古托普(1992),网络包括n个=12个监测站,我们只分析了春夏季数据集,包括1980年至1983年4年3月22日至9月20日的观测结果。因此T型=732。正如Sampson和Guttorp所分析的那样,在从原始数据中去除时间效应后,我们使用了季节性样本协方差矩阵。

图5(a)显示了观察到的空间相关性地理距离。从这个图中可以清楚地看出数据中的不一致性。许多站点之间的距离大致相同,但它们之间的相关性不同。很难相信任何常见的各向同性相关函数都能适合这些数据。正如所指出的桑普森和古托普(1992),1号站(格劳斯山站)海拔1128m,而其他所有站海拔均低于130m;这可能是该数据集中各向异性的来源之一。

图5

(a) 地理距离太阳辐射数据集的观测相关性和(b)太阳辐射数据集中相关函数的估计后验平均值(--)和95%最大后验密度区间(…………..)

发件人图5(a)我们看到相关性在(0.75,1)范围内变化,这表明粗糙度参数b条2,…,b条K(K)相关函数的方程(6)中的(·)应较小。因此b条是一个对数正态分布,平均值为0.1,方差为b条大于2等于0.01,= 1,2. 方差的先验自由度(f)设置为10,因为我们对位置的方差没有很强的先验信念。对于这个示例,我们设置b条d日,中位置的先验相关函数的粗糙度参数D类-空格,设置为1.7。如前所述,σd日2=1,2,控制站点预计移动的距离先验的.之前的预期σd日2设置为0.5。最初,我们试图将模型与K(K)=相关函数中的2个分量,但估计的相关函数与观察到的相关性不太吻合。因此,我们考虑K(K)= 3. 一旦认为达到收敛,我们就存储了一组参数的2000个样本。图5(b)呈现了具有95%最高后验密度区间的相关函数的后验平均值。很明显,所拟合的模型成功地使观测到的相关性各向同性。

图6(a)显示了测量位置后验平均值的Procrustes叠加D类到中的原始配置G公司-空间。站点1进一步向北移动,表明它与其他站点的相关性低于原始配置所显示的相关性。请注意,在考虑中的整个配置时D类,我们得到了东西收缩,但南北拉伸。这与通过桑普森和古托普(1992).图6(b)显示了中包含200个未测量点的网格的映射结果G公司-空间。这种映射导致了一些折叠,靠近站点7、8和9,以及站点2、3和11周围的区域。很可能,这种褶皱的原因之一是站点1和其他站点之间的海拔差异。后验平均值1为0.012。自2起1乘以方差Y(Y)每个位置代表变异函数中的块金效应,这与Sampson和Guttorp的发现一致,即块金效应在2-4%范围内,他们表示这与这些数据中已知的测量误差大小一致。

图6

(a) 中位置后均值的Procrustes叠加D类-空间()到原始地理位置G公司-空间(G公司)和(b)200个点的矩形网格映射G公司-空格插入D类-空间

为了证明预测与未测量位置相关性的能力,并对我们的模型进行交叉验证检查,我们对11个站点运行了链,并从分析中删除了站点6,然后根据第3.2节末尾所示的算法预测了增广协方差矩阵。获得的后验分布与所有n个=考虑了12个测量点。表1显示了站点6和其余11个站点之间的预测和观测协方差。预测站点6的方差的不确定性很高,因为方差的后验分布取决于τ2与之前的分布相同,如第3.2节所示。观察到还有许多其他协方差可以通过各自的后中位数得到很好的估计。

表1

当站点6从太阳辐射数据集中删除时,站点6与其他站点之间协方差的预测

现场以下分位数的结果:观察
25%50%75%
144.7053.1163.0754.57
242.4949.9159.7152.63
41.7348.8458.3552.44
435.4441.3549.4044.34
532.7938.5445.8741.55
639.3753.3474.8156.10
743.0450.5060.0354.07
840.1247.0256.1450.24
940.6747.5656.7851.07
1041.3548.4857.6352.40
1139.1145.7254.4449.30
1236.4742.7651.0546.12
现场以下分位数的结果:观察
25%50%75%
144.7053.1163.0754.57
242.4949.9159.7152.63
41.7348.8458.3552.44
435.4441.3549.4044.34
532.7938.5445.8741.55
639.3753.3474.8156.10
743.0450.5060.0354.07
840.1247.0256.1450.24
940.6747.5656.7851.07
1041.3548.4857.6352.40
1139.1145.7254.4449.30
1236.4742.7651.0546.12
表1

当站点6从太阳辐射数据集中删除时,站点6与其他站点之间协方差的预测

现场以下分位数的结果:观察
25%50%75%
144.7053.1163.0754.57
242.4949.9159.7152.63
41.7348.8458.3552.44
435.4441.3549.4044.34
532.7938.5445.8741.55
639.3753.3474.8156.10
743.0450.5060.0354.07
840.1247.0256.1450.24
940.6747.5656.7851.07
1041.3548.4857.6352.40
1139.1145.7254.4449.30
1236.4742.7651.0546.12
现场以下分位数的结果:观察
25%50%75%
144.7053.1163.0754.57
242.4949.9159.7152.63
41.7348.8458.3552.44
435.4441.3549.4044.34
532.7938.5445.8741.55
639.3753.3474.8156.10
743.0450.5060.0354.07
840.1247.0256.1450.24
940.6747.5656.7851.07
1041.3548.4857.6352.40
1139.1145.7254.4449.30
1236.4742.7651.0546.12

5.结论

我们提出了空间变形方法的贝叶斯模型,该方法由桑普森和古托普(1992)观测值包括通过以下方法获得的空间协方差矩阵T型时间点n个测量位置。其想法是使用观测到的站点之间的相关性来建模感兴趣过程的空间相关性结构。该模型的主要特点是不需要对空间协方差结构的平稳性和各向同性进行通常的假设。如中所示桑普森和古托普(1992),我们根据监测点的地理位置绘制监测点地图G公司到一个新的空间D类,其中各向同性保持不变。这是通过在映射位置的函数之前分配GP来完成的G公司-空格插入D类-空间。不同于桑普森和古托普(1992),我们在一个单一的框架中,即通过模型中涉及的参数的后验分布来制定整个推理。推断是通过马尔可夫链蒙特卡罗抽样计算的,第3.1节介绍了该算法的一些关键特性,这些特性是在这个复杂的应用中改进混合所必需的。过程预测Y(Y)(x个t吨)及其相关的不确定性x个,很简单。

在第4节中,我们将模型应用于两个不同的数据集,首先应用于只有n个=6个测量现场和K(K)=2,然后使用Sampson和Guttorp分析的实际数据集。该模型似乎可以很好地模拟两种应用中数据的各向异性。

该模型的以下自然扩展将构成未来研究的基础。在这里,我们没有考虑过程方差的先前空间结构。相反,我们将它们建模为可交换的,先验的一个建议是将方差建模为对数正态空间过程,以确保积极性。众所周知,更一般的一类模型包括来自2→ℝ第页第页= 2,…,n个−1.此外,当第页>2我们可以通过将协变量用作D类-空间。最后,实现该模型通用化的一个自然步骤是空间和时间的联合建模。

致谢

这项研究得益于与Jim Zidek教授及其同事的讨论。亚历山大·施密特(Alexandra M.Schmidt)感谢巴西国家教育委员会(Conselho Nacional de Desenvolvimento Científico e Tecnológico)在其博士研究期间提供的资金支持。作者感谢保罗·桑普森教授提供了太阳辐射数据集。我们还感谢乐慧玲博士在附录A以及关于形状分析的一些有用讨论。作者感谢两位裁判和联合编辑的宝贵意见。

参考文献

克雷西语
北美。
(
1993
)
空间数据统计
,修订版。纽约:
威利
.

达米安
D。
桑普森
P.D.公司。
古托普
第页。
(
2001
)
半参数非平稳空间协方差结构的贝叶斯估计
.
环境计量学
12
161
178
.

Dawid公司
A.第页。
(
1979
)
统计理论中的条件独立性(讨论)。
J.R.统计。Soc公司。
B、,
41
1
31
.

德莱顿
国际法。
马尔迪亚
K.V.公司。
(
1998
)
统计形状分析
.
奇切斯特
:
威利
.

加梅尔曼
D。
(
1997
)
贝叶斯推理的马尔可夫链蒙特卡罗随机模拟
.
伦敦
:
查普曼和霍尔
.

吉尔克斯
W.R.公司。
野生
第页。
(
1992
)
吉布斯采样的自适应抑制采样
.
申请。统计师。
41
337
348
.

古托普
第页。
梅林
西。
桑普森
P.D.公司。
(
1994
)
地面臭氧数据的时空分析
.
环境计量学
5
241
254
.

古托普
第页。
桑普森
P.D.公司。
纽曼
英国。
(
1992
)空间协方差的非参数估计及其在监测网络评估中的应用。
环境与地球科学统计
(编辑
答:。
沃尔登
第页。
古托普
),第页。
39
51
.
伦敦
:
阿诺德
.

希格顿
D。
斯瓦尔
J。
科恩
J。
(
1999
)非静态空间建模。
贝叶斯统计6
(编辑
J·M·。
伯纳多
J.O.公司。
伯杰
A.P.公司。
Dawid公司
A.F.M.公司。
史密斯
),第页。
761
768
.
牛津
:
克拉伦登
.

洛夫列夫
G.公司。
佩林
O。
(
1999
)使用模拟退火估计非平稳空间结构。
技术报告
.
图卢兹大学经济数学与定量研究小组
图卢兹
.

N.D.公司。
齐德克
J.V.公司。
(
1992
)
不确定空间协方差插值:克立格的贝叶斯替代方法
.
J.多媒体。分析。
43
351
374
.

装载机
C。
瑞士
第页。
(
1992
)监测数据的空间协方差估计。
环境与地球科学统计
(编辑
答:。
沃尔登
第页。
古托普
),第页。
52
70
.

马尔迪亚
K.V.公司。
古道尔
C.右。
(
1993
)多元环境监测数据的时空分析。
多元环境统计
(编辑
G.P.公司。
帕蒂尔
C.右。
),第页。
347
386
.
阿姆斯特丹
:
爱思维尔
.

莫内斯蒂兹
第页。
Switzer公司
第页。
(
1991
)基于度量多维标度的非平稳空间协方差模型的半参数估计。
技术报告
.
斯坦福大学统计系
斯坦福大学
.

奥哈根
答:。
(
1994
)
肯德尔的高级统计理论
,卷。
2B型
贝叶斯推断。
奇切斯特
:
威利
.

桑普森
P.D.公司。
古托普
第页。
(
1992
)
非平稳空间协方差结构的非参数估计
.
《美国统计杂志》。助理。
87
108
119
.

施密特
上午。
(
2001
)
环境监测站的贝叶斯空间插值
.
博士论文
.
谢菲尔德大学概率统计系
谢菲尔德
.

史密斯
共和国。
(
1996
)估计非平稳空间相关性。
技术报告
.
剑桥大学
剑桥
.

太阳
西。
N.D.公司。
齐德克
J.V.公司。
伯内特
R。
(
1998
)
健康影响研究中贝叶斯多元插值方法的评估
.
环境计量学
9
565
586
.

附录A:有关σd日2很可能

我们在这里证明了这一点S公司,样本协方差矩阵,最多可提供以下特征值的信息σd日2首先假设我们可以了解.

写入σd日2=T型ΛT型,其中T型∈SO(2),所有2×2旋转矩阵的集合,称为特殊正交群,∧是对角矩阵,其对角元素是σd日2.并考虑D类~N个2n个(Λd日).如果我们旋转D类~通过T型从那以后σd日2d日=诊断(T型T型)(Λd日)诊断(T型T型),我们有

T型D类~N个n个第页(T型σd日2d日)

然而,T型D类~不同于D类只有通过固定的旋转D类~,是的形状T型D类~,与形状的分布相同D类^,其中

D类^N个n个第页(T型σd日2d日)

然而,作为T型形状与相同,形状D类^具有与形状相同的分布D类因此D类~具有与形状相同的分布D类因此,关于,它提供了有关D类,至多会提供有关以下特征值的信息σd日2.自从知道将只提供关于的特征值的信息σd日2,正在观察S公司也给出了关于这些特征值的最多信息。

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)