总结
平稳序列极值建模的统计方法受到了广泛关注。最常见的方法是对某些高恒定阈值的超标率和超标大小进行建模;使用广义Pareto分布对超标的大小进行建模。通常,数据集显示出非平稳性;这在环境应用中尤其常见。这里介绍的臭氧数据集就是这样一个数据集的例子。由于臭氧形成的机制,表层臭氧水平显示出复杂的季节模式和趋势。非平稳过程极值建模的标准方法侧重于保持恒定阈值,但在速率和广义帕累托分布参数中使用协变量模型。我们建议一种替代方法,即使用预处理方法来建模过程体中的非平稳性,然后使用标准方法来建模预处理数据的极值。我们通过模拟研究和对臭氧数据的研究来说明标准和预处理方法。我们建议,预处理方法提供的模型能够更好地结合生成过程的底层机制,生成更简单、更有效的拟合,并允许更容易的计算。
1.简介
平稳序列极值建模的统计方法受到了广泛关注,尽管存在不同的推理方法,但建模策略基本相同(科尔斯,2001; 贝兰特等。,2004; 德哈恩和费雷拉,2006). 特别是超过高阈值的局部最大值由参数模型建模,该模型由独立和同分布随机变量极值的渐近理论驱动。
然而,在许多情况下,如果序列中存在明显的非国家性,则需要对序列的极值进行分析。这在环境数据集中尤其常见。本文的重点是对臭氧数据集的分析,如图1它由地面臭氧小时浓度的日最大值组成。这些数据是在英国雷丁市中心的一个监测点测量的,该监测点是代表英国政府运行的空气质量自动监测网络的一部分。
图1
1997年9月13日至2001年6月1日期间在中央雷丁观测到的每小时臭氧浓度日最大值(微克/立方米)
臭氧数据的明显非平稳性特征(主要是夏季峰值和冬季低谷)可以通过解释驱动臭氧生成过程的潜在机制来解释。表层臭氧是一种二次污染物,这意味着它是在大气中形成的,臭氧合成过程中所涉及的化学反应取决于气象条件。关键反应是光化学反应,因此阳光是一个重要因素,温度、风速和风向也是一个重要的因素。进一步的臭氧水平也取决于前体物质的浓度,主要是一氧化氮(NO)和二氧化氮(NO2)以及各种碳氢化合物,所有这些都存在于大气中。这些前兆也显示出季节性趋势;这在一定程度上是由于臭氧的产生(夏季阳光较多,反应速度加快;因此前体物质的浓度下降),也因为人类活动(如化石燃料的燃烧)随季节变化。在臭氧数据分析中加入这些协变量似乎很自然,以试图解释非国家性。
近年来对臭氧数据的统计分析进行了大量研究(汤普森等。,2001). 他们提出了对臭氧数据集进行统计研究的四个潜在动机,这些数据集预测高浓度,以发出公共健康警告,确定高浓度臭氧的趋势,可能是为了响应监管污染物排放的立法,了解该过程的潜在机制并认识到健康影响。我们还建议,鉴于目前在确定人类活动对环境的影响方面的科学、政治和经济利益,进一步的动机是通过改变排放模式或通过气候变化间接评估此类活动引起的臭氧水平变化。极值法特别适用于与前两个和最后一个因素有关的问题的分析。具体而言,我们有兴趣根据与前体浓度和气象条件相关的协变量,有条件地解释极端臭氧水平的变化,并总结当前条件下极端臭氧水平的边际分布,以及与未来变化模式相对应的情景排放和气候变化。
让{年t吨}是一个具有相关协变量的过程{X(X)t吨}. 预测未来边际分布极端水平的最简单方法{年t吨}是通过使用平稳序列的方法来建模极值。然后我们可以估计100(1−第页)%分位数(称为边际收益水平),表示为年第页这样Pr(年t吨>年第页) =第页,用于第页接近0;在平稳性下,平均每1次就会超过这个值/第页观察。然而,如果{年t吨}是非平稳的,这样的直接方法会受到无限和无法量化的偏见的影响。此外,它不允许确定趋势或协变量关系,这是在变化情景下得出未来极端臭氧水平分布所必需的。
另一种方法是在协变量上有条件地对极值进行建模。我们专注于模拟{年t吨}通过条件分布年t吨|X(X)t吨=x个t吨。然后,回报水平最自然地定义为的分位数年t吨关于协变量向量的条件X(X)t吨。这100(1−第页)%有条件回报水平,表示为年第页,t吨,满足
然而,如果利益在于年t吨只有这样我们才能整合出协变量,
哪里(f)X(X)t吨(·)是协变量联合密度的模型X(X)t吨时间t吨,并获取(边缘的)返回水平第页假设观测到的协变量在特定的利息期内从联合分布中形成一个具有代表性的样本,那么在没有任何先验信息的情况下,可以通过经验估计联合分布,边际收益水平就是方程的解
哪里n个是协变量样本的大小。各种型号(f)X(X)t吨(·)可用于解释未来排放和气候变化情景。变化情景下边际收益水平与使用方程式(1.3)给出了一个特定情况如何影响极端臭氧浓度水平的单一衡量标准。
标准方法(Davison和Smith,1990)对非平稳过程极值建模的分析保留了恒定高阈值的使用,并将协变量引入阈值超标率和阈值超标极值模型的参数中。在本文中,我们提出了一个反对这种建模方法的案例,并介绍了一种替代策略。替代策略中的新步骤是首先尝试对整个数据集中的非国家性进行建模。然后将这种非平稳性从数据中去除,这是一种称为预处理的技术,并使用标准方法对预处理数据的极值进行建模。对我们的方法至关重要的是,如果预处理成功,预处理序列的极值将具有大多数(如果不是全部)的非平稳性{年t吨}因此,可以对预处理序列进行简单的极值分析。
使用整个数据集来建模极值似乎与常用的极值技术不同,后者利用了平稳序列极值的一般理论,允许独立于分布体对分布尾部进行推断。然而,这种理论并没有直接扩展到序列的极值,因为序列的基本分布是以协变量为条件的。如果在预处理步骤中使用整个数据集中非平稳性的合理模型,我们相信我们提出的策略通常会更好地描述极值的非平稳性,更清晰的科学解释,更恰当地识别极值,更容易进行阈值选择,降低了阈值敏感性,改进了协变量模型选择,提高了协变量效应和极值属性的推理效率。
在第2节我们回顾了现有的建模平稳和非平稳过程极值的方法。然后,我们在第3节以及“中间”方法,即可变阈值方法。模拟研究结果如所示第4节其中比较了标准和预处理方法选择正确协变量模型的效率和能力。我们展示了对年臭氧数据的分析结果第5节比较各种方法。最后,我们对标准方法、预处理方法和可变阈值方法进行了比较第6节它总结了本文的发现,并证明了我们所声称的预处理方法的优点。
在整篇论文中,我们假设{年t吨}或{年t吨|X(X)t吨=x个t吨}在时间上是独立的。然而,在评估臭氧应用中估计值的置信区间时,我们使用块引导法来解释任何时间依赖性。
2.标准方法
2.1. 固定流程
假设感兴趣的过程{年t吨}具有单变量边际分布的平稳性F类有上端点的x个F类.我们定义了{年t吨}是高阈值的超越u个,u个<x个F类.作为u个→x个F类、皮克兰德(1975)表明,如果超额分配,年t吨负极u个,第页,共页u个,缩放为的函数u个收敛到非退化极限分布,该分布必须是广义帕累托分布(GPD)。这促使使用GPD作为一个统计模型,用于确定过高的固定阈值u个.超出的条件幸存函数u个假设超额遵循GPD(ψu个,ξ)模型为,用于年>0中,
哪里一+=最大值{0,一}以及ψu个>0和ξ分别是比例和形状参数。尾部模型的另一个参数是φu个=优先级(年>u个)它决定了阈值的超出率。该模型的理论依据要求φu个很小,因为,除非F类它本身是一个GPD,近似于F类GPD只支持u个→x个F类这种阈值方法由Davison和Smith推广(1990),对超过阈值的观测值的大小和发生率进行建模。
GPD的一个重要特性是阈值稳定性.假设u个是GPD(ψu个,ξ)分配。那么对于任何级别v(v),u个<v(v)<x个F类,超数的条件分布v(v)是GPD(ψv(v),ξ)分布,其中ψv(v)=ψu个+ξ(v(v)负极u个). 这一结果表明,阈值超标的分布形式,包括形状参数,对于选择更高的阈值是不变的。
假设数据是平稳的,有一系列方法可以用于GPD和尾部模型的推断。为了避免过度依赖,通常需要峰值超过阈值在GPD拟合和置信区间评估中,仅使用了聚类最大值数据(Davison和Smith,1990). 一种替代方法是通过使用所有超越来拟合GPD,并明确建模集群中超越之间的依赖关系(Smith等。,1997). 第二种替代方法是通过使用所有超越来拟合GPD,错误地假设这些超越是独立的,然后使用块引导法(Buishand,1993),将在中讨论第5节.
我们将始终使用似然推理。使用所有阈值超越,在极端事件独立性假设下,平稳模型的似然函数为
哪里我[年t吨>u个]指示函数是否取1,如果年t吨>u个否则为0。速率参数的最大似然估计(MLE)为,其中n个u个是阈值的超出次数u个通过数值优化找到了GPD参数的最大似然估计。对于平稳序列,假设这意味着年第页>u个,估计的边际收益水平为
2.2. 非静态过程
现在假设这个过程{年t吨}是非平稳的,具有相关的协变量序列{X(X)t吨}. Davison和Smith首次提出将GPD扩展到非平稳情况的完整建议(1990)还有史密斯提出的相关建议(1989). 他们建议继续对固定高阈值的超标进行建模u个并通过允许将GPD参数建模为协变量的函数,来说明超标的非平稳性。因此,他们通过φu个(x个)=优先级(年>u个|X(X)=x个)以及GPD的超额分配{ψu个(x个),ξ(x个)}分配,即年> 0
在时间独立性假设下,似然函数的形式如下
最初使用线性协变量模型,速率和尺度参数采用对数关系,例如Davison和Smith(1990)、Smith和Shively(1995)和科尔斯(2001),尽管最近的研究已经考虑使用加法或完全非参数模型,如霍尔和塔伊维迪(2000)、戴维森和拉梅什(2000)查韦兹·德莫林和戴维森(2005). 在本文中,我们处理原木(ψu个),ξ和logit(φu个)作为协变量的线性函数,因此,对于系数向量ψu个,ξ和φu个,
该模型的一个缺点是,它没有保持所讨论的平稳情况下GPD的阈值稳定性。为了在非平稳模型中保持这一特性,尺度参数的函数形式必须满足v(v)>u个,
如果量表中包含不同的协变量ψu个(x个)和形状ξ(x个)参数,这显然会导致包含在ψu个(x个)以及包含在ψv(v)(x个)为所有人v(v)>u个标准模型的这一基本特性以前似乎没有被确定过,这反而破坏了此类模型的使用,因为这意味着它们在参数中的协变量选择形式对阈值选择是非变的。可以说,作为ξ(x个)通常是常量,那么约束(2.7)的含义就没有问题了。然而,即便如此,约束条件(2.7)也意味着ψu个(x个)不能保持相同的函数形式,除非它是常数或线性函数,而线性函数与中所示的逻辑链接公式不一致方程式(2.6).
的条件回报水平方程式(1.1)可以以与静止情况下的返回水平类似的方式找到。当φu个(x个t吨) ⩽第页必须低于阈值,因此唯一可用的信息是由年第页,t吨⩽u个然而,对于观察,其中φu个(x个t吨)>第页我们有,因为年第页,t吨>u个,
假设观测到的协变量构成特定时期联合分布的代表性样本,方程式(1.3)可用于确定边际收益水平年第页。对于年第页>u个,方程(1.3)给予
查找MLE,替换中的参数方程式(2.9)并进行数值求解。
3.预处理方法
3.1. 完整预处理模型
处理时间序列中非平稳性的一种常见方法是预处理(或预白)为平稳序列拟合模型之前的完整数据序列(Chatfield,2004). 本质上,我们建议将其作为非平稳过程极值建模的基础。我们的预处理方法包括首先为协变量对过程潜在分布的影响拟合一个模型{年t吨}. 在某些情况下,基于科学或基于数据的基本原理的既定模型可能已经存在。在没有这种模型的情况下,可以采用灵活的统计模型。具体而言,我们提出了一个Box–Cox位置–表格比例模型
其中{Z轴t吨}假设为近似静止,并且λ,μ和日志(σ)是协变量的线性函数。
我们假设导出级数的分布体{Z轴t吨}是平稳的,可以使用其经验分布进行建模然而,我们不使用第2.1节对于{Z轴t吨}作为的极值{年t吨}可能有不同形式的非国家性{年t吨}或我们的Box-Cox位置-尺度模型可能无法完全捕捉所有协变量效应,因此{Z轴t吨}其行为可能与平稳序列的极值不同。相反,我们模拟了{Z轴t吨}通过使用非平稳极值方法第2.2节,即具有固定阈值u个z(z).让φz(z),u个(x个t吨)是的超越率u个z(z)通过Z轴t吨,并通过定义GPD比例和形状参数ψz(z),u个(x个t吨)和ξz(z)(x个t吨)分别是。因此,完整的预处理模型包括GPD{ψz(z),u个(x个t吨),ξz(z)(x个t吨)}阈值超越分布和转换过程的经验分布{Z轴t吨},,低于此级别。因此,为了估计回报水平,我们使用GPD,如果φ(x个t吨)>第页; 否则我们使用经验分布.对于我们使用标准分析方法来分析{Z轴t吨}如果不是全部的话,我们相信{年t吨}将被删除,或至少被简化,因此第2.2节关于缺乏阈值稳定性的问题将得到缓解。
该模型的推断遵循两步程序;第一步是估算Box–Cox和location–scale参数(λ(x个t吨),μ(x个t吨),σ(x个t吨)). 有许多可能的方法可以做到这一点,但我们建议假设基本分布是高斯分布,因为使用似然推断来估计Box–Cox和位置-尺度参数很简单,并且对尾部的观测结果很稳健。第二步是对近似平稳序列的尾部建模{Z轴t吨}通过使用中讨论的非平稳序列方法第2.2节.
为非平稳序列定义的条件和边际收益水平方程式(1.1)在预处理方法下可以很容易地得到(1.2)。我们从条件回报水平开始。自
我们首先可以找到条件回报水平z(z)第页,t吨对于变换后的级数{Z轴t吨}然后回传给
与标准方法不同,如果φz(z),u个(x个t吨) ⩽第页条件回报水平z(z)第页,t吨可以通过使用.如果φz(z),u个(x个t吨)>第页条件回报水平z(z)第页,t吨可以使用表达式(2.8)进行估计。
让z(z)第页(x个t吨)是下面的转换方程式(3.1)边际收益水平年第页.然后年第页是方程的解
哪里T型= {t吨:z(z)第页(x个t吨)>u个z(z)}是转换后的边际收益水平超过阈值的所有时间的集合u个z(z)因此,超越的GPD模型成立。
3.2. 可变阈值方法
另一种介于标准方法和预处理方法之间的方法是使用时间(和/或协变量)变化阈值来定义原始尺度上的极值。这可以被视为对已经流行的将数据划分为季节的方法的扩展,以便在不同的季节中允许不同的阈值(见Smith(1989)、基申霍夫和塔默鲁斯(1996)还有赫夫南和塔恩(2004)例如臭氧数据),这允许一个持续变化的阈值。这种阈值可以通过变换恒定阈值从预处理方法中获得u个z(z)返回到原始比例以给出变化的阈值
然后,可以使用中概述的非平稳极值方法对该阈值的超出进行建模第2.2节。条件和边际收益水平的估计值的获得方式与标准方法相同。具体来说,与标准方法和预处理方法不同,我们无法估计低于阈值的任何一个回报水平。
与预处理方法相比,该方法的另一个缺点是,在可变阈值方法下拟合的GPD参数可能比预处理模型中的协变量更多,这使得拟合模型更加困难。通过考虑最简单的情况可以看出{Z轴t吨}静止,即(Z轴t吨负极u个z(z))|Z轴t吨>u个z(z)约GPD(ψz(z),u个,ξz(z)). 通过变量的变化,变化阈值的超越分布如方程式(3.2)那么,对于年> 0,
对于一般情况λ(x个t吨),这不是GPD,因此任何对超标建模的尝试{年t吨负极u个(x个t吨)}|年t吨>u个(x个t吨)使用GPD模型可能会导致拟合不良。假设Box–Cox参数λ(x个t吨)等于1;在这种情况下方程式(3.3)简化为具有形状参数的GPDξz(z)和比例参数ψz(z),u个σ(x个t吨). 现在σ(x个t吨)需要对不同的阈值和预处理方法进行估计;然而,我们可以看到,预处理方法将更有效地估计σ(x个t吨)因为它使用了所有数据{年t吨}不仅仅是那些{年t吨}超过u个(x个t吨).
4.理论和模拟研究
为了避免过于复杂的问题,我们在本节中不考虑可变阈值方法,而是比较标准方法和完全预处理方法;我们将在第5节我们首先说明了预处理方法相对于标准方法的效率提高,然后表明,在协变量-响应关系的正确形式已知的假设下,预处理方法比标准方法更有可能选择具有正确协变量的模型。
非平稳过程{年t吨}通过位置-比例变换获得
其中位置和比例参数μ(X(X)t吨)和σ(X(X)t吨)是时变协变量的函数X(X)t吨和{Z轴t吨}是一个独立且同分布的随机变量序列,具有Gumbel边缘分布和尺度参数k个。通过改变k个我们评估了信噪比对每种方法的影响。的分布函数年t吨|X(X)t吨是
进一步的上尾分布年t吨|X(X)t吨渐近收敛到指数{k个 σ(X(X)t吨)}分配,作为u个→∞,
我们为每个参数考虑两个模型μ(X(X)t吨)和σ(X(X)t吨),每个包含线性或循环趋势(由一阶傅里叶级数给出),带系数μ和σ:
- (a)
μ(X(X)t吨) =μ0+μ1t吨/(n个+1),σ(X(X)t吨)=1;
- (b)
μ(X(X)t吨)=0,对数{σ(X(X)t吨)} =σ0+σ1t吨/(n个+1);
- (c)
μ(X(X)t吨) =μ0+μ1cos(2πt/N个) −μ2罪(2πt/N个),σ(X(X)t吨)=1;
- (d)
μ(X(X)t吨)=0,对数{σ(X(X)t吨)} =σ0+σ1cos(2πt/N个) −σ2罪(2πt/N个).
在这里n个是观察总数N个是傅里叶级数生成的每个循环中的观察数。
注意,这里给出的所有结果都说明了预处理模型的最佳情况,即过程的基本分布和协变量都得到了正确识别。我们已经调查了基础分布和协变量中的一个或两个被错误指定的情况(未显示)。对于我们调查的案例,我们发现,即使存在此类错误,预处理方法下各种条件收益率水平估计的根平方误差仍小于标准方法下的根平方错误。
4.1. 效率
在显示由于使用标准而非预处理方法导致的效率降低时,我们使用了超出的准确概率u个它是由方程式(4.2)而不是估计速率参数φu个(X(X)t吨). 此外,根据渐近结果方程式(4.3)我们通过使用指数分布,即具有ξ(X(X)t吨) = 0. 该模型在标准方法下的可能性为
通过构造,该过程中的唯一趋势是通过均值或方差。因此,为了使用预处理方法估计协变量系数,我们只需要通过用似然拟合回归模型来估计位置和尺度参数
这里的效率是指预处理方法下趋势参数的MLE的渐近方差与标准方法下的MLE渐近方差之比。所需的方差可以从期望信息矩阵的逆矩阵中获得;有关这些计算的详细信息,请参阅Eastoe(2007).图2显示了甘贝尔标度参数范围内四种模型的效率结果k个以及一系列阈值。在所有情况下,与预处理方法相比,标准方法的效率随着阈值的增加而趋于零。当规模中存在非平稳性时,效率的提高要小于位置中存在非均匀性时。
增加甘贝尔比例参数k个(或等效地增加信噪比)提高了标准方法的效率,但在刻度呈线性趋势且效率没有变化的情况下除外。对于这两种位置趋势,标准方法的最大效率似乎倾向于超过阈值的数据比例,因为k个增加。当在尺度参数中观察趋势时,相对于预处理方法,标准方法的效率要高于在位置中观察趋势。这种差异的原因是标度参数出现在标准方法似然(4.4)的所有部分中,而位置参数只对比率部分起作用。
4.2. 型号选择
上述效率评估假设选择了正确的协变量模型。接下来,我们考虑在这两种方法下发生这种情况的可能性。给定一个数据集,我们使用中给出的可能性方程式(4.4)和(4.5)在这两种方法下,既要拟合无协变量的空模型,又要拟合正确的协变量模型。我们使用似然比统计来决定是否接受正确的模型。
图3显示了所考虑的四个模型的结果。在线性模型中,我们考虑协变量系数的一系列值。对于循环模型,我们总是把正弦项的系数取为余弦项的负值,所以我们只改变这个系数的值。对于每个模型和参数值集,我们模拟了长度为1825的500个数据集(相当于5年的数据),并计算了选择正确模型的这些数据集的比例。对于标准方法,我们考虑了85%、90%、95%和99%的阈值。这些图清楚地表明,在所有情况下,预处理方法都有较高的概率选择正确的模型,尤其是对于趋势系数的非常低的值。这似乎证实了我们的直觉,即预处理方法下的多重回归模型比标准方法下的多元回归模型更有可能正确识别响应-协变量关系。
图3
正确选择的协变量模型比例,P(P)A类,低于标准()和预处理()方法(标准方法使用85%、90%、95%和99%的阈值,从左到右,在每个图中;甘贝尔量表参数为k个在所有情况下=1;使用500个模拟数据集估计比例):(a)平均模型中的线性趋势;(b) 尺度模型中的线性趋势;(c) 均值模型中的循环趋势;(d) 尺度模型中的循环趋势
5.臭氧数据分析
5.1. 背景
我们现在讨论分析臭氧数据集的各种方法,如图1。自始至终,我们假设任何丢失的数据都是随机丢失的(例如,由于机器故障),因此没有信息。我们从一个简单的方法开始,假设数据是平稳的。标准诊断图,例如,平均剩余寿命和阈值形状图(Coles,2001)建议90%的分位数阈值,u个=100,应足够,且QQ(QQ)-图中所示图9(a)稍后在第5.2节表明,拟合到该阈值超出范围的GPD表现得相当好。然而,平稳模型在帮助我们估计数据趋势方面毫无用处;它也不允许我们建立与臭氧生成有关的已知物理机制。为了解决这一问题,我们按照中提出的三种方法中的每一种,用协变量拟合一个模型第2.2节和三.
图9
QQ(QQ)-通过使用(a)平稳、(b)标准、(c)和(d)预处理方法(图(a)和(b)仅显示观测数据的前10%,而图(c)、(d)显示前30%)拟合模型的估计边际收益水平图:图(b)和(c)显示模型1和图(d)的拟合模型2的拟合(,95%自举置信区间;/,完美贴合(45○线路))
参与臭氧生产的前体化学品是众所周知的,而且还知道这一过程取决于气象条件(见第1节). 潜在协变量的选择应该由这些信息驱动。作为本研究中的潜在协变量,我们有两种前体NO和NO的最大每日测量值2,以及两个气象变量,即温度(每日最大值)和日照(每日总和),如所示图4从英国气象局获得的气象协变量来自距空气污染监测点2公里的地点;这足以代表空气污染现场的情况。由于缺少协变量,例如未观测到的污染物、道路交通指标或与显示季节性行为的点源(如工厂)的接近度,为了考虑到进一步的季节趋势,我们使用四个季节性指标函数:冬季(12月至2月)、春季(3月至5月)、夏季(6月至8月)和秋季(9月至11月).
图4
每日最大值(a)NO水平(微克/立方米),(b)NO2水平(微克/立方米)和(c)温度(摄氏度),以及(d)日照总量(小时)
除了这些协变量外,我们还考虑使用自回归(AR)项,即我们允许模型参数是前一天每小时最大臭氧水平(即滞后1臭氧水平)的线性函数年t吨−1)以及上述协变量。还考虑了涉及更高滞后的模型,但在所有情况下,只有滞后1臭氧浓度被发现是显著的。包括臭氧浓度滞后的原因与包括季节性指标的原因类似,即由于缺少协变量,特别是气候事件(例如影响扩散速度的风速)而导致的剩余依赖性。在下文中,“模型1”是指我们不要试图将AR术语和“模型2”与我们的模型相匹配做允许AR条款。
我们观察到,在极值模型中使用AR项的一个特别困难是,如果滞后臭氧浓度在任何参数中都是一个显著的协变量,那么必须通过模拟来估计返回水平。对于预处理方法,通过对观测到的协变量进行条件处理,得到一组新的观测值可以从拟合模型进行如下模拟。第一次修复; 接下来,针对t吨⩾2,模拟均匀随机变量v(v)t吨.给定观测到的协变量向量x个t吨和模拟值,如果,然后模拟来自GPD模型;其他样品从观察到的非ceedance的经验分布来看{z(z)t吨|z(z)t吨<u个z(z)}. 模拟值然后使用进行反向转换方程式(3.1),更换x个t吨具有协变量的组合矢量和模拟滞后1臭氧.大量样本的经验分布然后可以用来估计有条件或(通过将模拟数据合并到协变量中)边际收益水平。然而,对于标准和可变阈值方法,由于我们不了解非ceedance的分布,因此在如何从AR模型进行模拟方面没有明显的策略。因此,我们主要将注意力限制在带有AR项的模型的预处理方法上。
标准阈值诊断图不再是非平稳数据的信息;相反,我们可以尝试在一系列阈值上拟合协变量模型,并在拟合中寻找一致性。然而,使用标准方法,我们在将协变量GPD模型拟合到超出阈值范围时遇到了困难,因为用于最大化可能性的数值例程在没有大量调整的情况下经常无法收敛。当使用预处理和可变阈值方法时,不会出现此问题。我们通过使用所有方法的90%阈值来显示结果。这保证了在每种方法中使用相同数量的超标,从而确保了方法的公平比较。恒定和变化(在模型1下)90%的阈值如所示图5(a).
用于模型拟合的可能性(请参见方程式(2.2)和(2.5))要求假设数据是独立的,而实际上不太可能是独立的。解释任何相关性的一种方法是使用所有数据来获得参数的点估计,然后使用块bootstrap方案来估计估计的置信区间。在假设序列是平稳的情况下,我们建议对预处理序列进行块引导{Z轴t吨}然后通过使用拟合到原始数据的参数将自举序列反变换到原始尺度。生成的引导样本可以通过使用标准、预处理或可变阈值方法进行建模,其结果用于获得每个方法下的模型参数或返回水平的采样分布。块大小是通过使用转换过程的自相关函数估计值来选择的{Z轴t吨}在两个安装的车型下。我们发现,在模型1下,大部分显著依赖性可以通过5天的区块长度来捕获,而对于模型2,转换过程在所有滞后时间都是独立的。前一个结果可能反映出这样一个事实,即(不)有利于臭氧生成的气候事件可能持续数天,并且模型1中缺少协变量,这将解释这一点。
5.2. 结果
选择实际的协变量模型并不简单,因为控制臭氧过程的机制本身非常复杂(汤普森等。,2001). 我们需要一个具有最少协变量的模型,该模型反映了对过程的科学理解,并能很好地表示数据。我们分阶段选择协变量;例如,对于Box–Cox参数λ(x个t吨),我们将具有可变Box–Cox参数的模型与那些在模型拟合之前将其视为常量并固定的模型进行了比较,或者将其视为由位置和比例参数估计的常量模型进行了对比。同样,我们首先尝试在没有季节指标的情况下拟合模型。最后,我们使用了显著性水平为1%的正向选择和反向选择的混合方法来决定每个参数中要包含哪些协变量(例如,McCullagh和Nelder(1989)). 在GPD模型中,我们遵循标准程序,并将形状参数固定为常量,因为估计此参数以及协变量函数所需的信息量太大。最后,我们并不认为下面给出的模型是地表臭氧浓度的最终模型;只是从科学和统计的角度来看,这似乎是合理的。
根据上述探索性分析,我们选择将Box–Cox参数修正为λ=0.5,因为这最大化了λ跨越一系列可解释值(例如。λ= −0.5, 0, 0.5, 1). 拿λ=0.5,我们将预处理模型中的平均值和标度建模为NO和NO平方根的函数2浓度,因为这些与臭氧浓度的平方根之间的关系似乎比臭氧与NO和NO的平方根更接近线性2在其观测尺度上的浓度。此外,这是在可比比例尺上模拟化学品的标准程序;因此,对于标准和可变阈值方法,如果我们在观测尺度上模拟臭氧,我们也保留NO和NO2在他们观察到的尺度上的水平。最佳拟合位置的MLE–在此程序下选择的比例参数如所示表1我们注意到,根据Akaike信息标准衡量,模型2比模型1更适合观测数据,事实上,它是我们为这些数据考虑的所有协变量模型中最适合的模型(未显示)。
表1两种预处理模型的位置和尺度参数中重要系数的MLE†
协变量. | 模型1的结果. | 模型2的结果. |
---|
μ(x个t吨). | 日志{σ(x个t吨)}. | μ(x个t吨). | 日志{σ(x个t吨)}. |
---|
常量 | 7.10 | −0.382 | 7.45 | −0.57 |
(√O)三)t吨−1 | † | † | 0.443 | ‡ |
(√否)t吨 | −0.266 | 0.0345 | −0.188 | 0.0431 |
(√否2)t吨 | 0.274 | ‡ | 0.174 | ‡ |
温度t吨 | 0.0434 | 0.0208 | ‡ | 0.0189 |
太阳t吨 | 0.113 | ‡ | 0.0910 | ‡ |
协变量. | 模型1的结果. | 模型2的结果. |
---|
μ(x个t吨). | 日志{σ(x个t吨)}. | μ(x个t吨). | 日志{σ(x个t吨)}. |
---|
常量 | 7.10 | −0.382 | 7.45 | −0.57 |
(√O)三)t吨−1 | † | † | 0.443 | ‡ |
(√否)t吨 | −0.266 | 0.0345 | −0.188 | 0.0431 |
(√否2)t吨 | 0.274 | ‡ | 0.174 | ‡ |
温度t吨 | 0.0434 | 0.0208 | ‡ | 0.0189 |
太阳t吨 | 0.113 | ‡ | 0.0910 | ‡ |
表1两种预处理模型的位置和尺度参数中重要系数的MLE†
协变量. | 模型1的结果. | 模型2的结果. |
---|
μ(x个t吨). | 日志{σ(x个t吨)}. | μ(x个t吨). | 日志{σ(x个t吨)}. |
---|
常量 | 7.10 | −0.382 | 7.45 | −0.57 |
(√O)三)t吨−1 | † | † | 0.443 | ‡ |
(√否)t吨 | −0.266 | 0.0345 | −0.188 | 0.0431 |
(√否2)t吨 | 0.274 | ‡ | 0.174 | ‡ |
温度t吨 | 0.0434 | 0.0208 | ‡ | 0.0189 |
太阳t吨 | 0.113 | ‡ | 0.0910 | ‡ |
协变量. | 模型1的结果. | 模型2的结果. |
---|
μ(x个t吨). | 日志{σ(x个t吨)}. | μ(x个t吨). | 日志{σ(x个t吨)}. |
---|
常量 | 7.10 | −0.382 | 7.45 | −0.57 |
(√O)三)t吨−1 | † | † | 0.443 | ‡ |
(√否)t吨 | −0.266 | 0.0345 | −0.188 | 0.0431 |
(√否2)t吨 | 0.274 | ‡ | 0.174 | ‡ |
温度t吨 | 0.0434 | 0.0208 | ‡ | 0.0189 |
太阳t吨 | 0.113 | ‡ | 0.0910 | ‡ |
从这些拟合中,我们可以看出,前体和气象协变量充分描述了臭氧过程,而不需要季节性指示函数。拟合的位置参数表明,高NO水平对应低臭氧水平(当条件有利于NO转化为臭氧产生时,可能会降低NO水平),而NO与2和臭氧浓度。正如我们预计的那样,温度和日照都会随着臭氧水平的升高而增加。模型2在预处理方法下的拟合表明,滞后1的臭氧是平均水平中最重要的因素,并且连续几天的臭氧水平之间存在正相关。有趣的是,两个模型的预处理尺度参数中的显著协变量是相同的。
现在我们考虑尾部参数。我们为各种方法以及在每种方法中,为两种备选协变量模型提供了这些信息。对于预处理方法,最适合的尾部模型是,对于模型1,
对于型号2,
在这两种情况下,我们都没有发现速率或GPD量表参数的显著协变量。对于可变阈值方法,我们发现温度在两个模型的GPD尺度参数中都很重要。通过定义此方法的阈值,速率参数与相关预处理模型的速率参数相同。模型1的拟合参数为,
对于型号2,
最后,我们展示了标准方法的结果。两种协变量模型的速率和GPD尺度参数均存在各种显著的协变量;对于型号1,我们有
对于型号2,
用预处理和变阈值方法得到的速率和尺度参数的函数形式比用标准方法得到的要简单得多。具体而言,对于预处理方法,没有证据表明速率或尺度参数存在任何协变量效应。此处未显示的结果表明,这些发现适用于一系列阈值。预处理方法的GPD模型简单的一个结果是,在平稳性假设下,可以使用标准方法(Coles,2001). 另请注意,尽管协变量关系在标准方法下的GPD和速率参数中确定,但对于这两种模型,该方法都没有确定使用预处理方法发现的所有协变量关系。特别是NO水平2在使用标准方法拟合的两个模型中均不显著,在模型1中,弹簧指标显著,而在等效预处理模型中则不显著。
在模型1下,图5(b)显示了标准方法的估计速率参数图。与其他方法的恒速参数相比,这显示出相当大的变化。具体来说,在夏季期间,根据标准方法观察到超标的概率极高,大多数天至少为50%,这表明这些观察结果并不极端。相比之下,预处理方法在相同的时间段内具有较高的阈值,因为标准方法具有增加的速率参数,因此,通过考虑确定阈值的基本机制,预处理法可以确保恒定的超越速率。聚丙烯-(未显示)和QQ(QQ)-图(仅在预处理方法下的模型1中显示图6)建议模型1和模型2的GPD部分在所有三种方法下都能很好地拟合超标。
图6
QQ(QQ)-通过使用模型1的预处理拟合来显示GPD模型对90%阈值超标的拟合优度:该图以标准指数标度显示
我们现在比较了模型1(使用三种方法中的每一种进行拟合)和模型2(仅使用预处理方法进行拟合)预测收益水平的能力。回忆一下,对于标准方法,如果φu个(x个t吨) <第页我们只知道年第页,t吨⩽u个在这种情况下,通过采取年第页,t吨=u个,我们得到了错误的高点估计和错误的窄置信区间。然而,通过选择第页足够小的话,我们会尽量减少这种情况的发生。我们看看条件回报水平年第页,t吨哪里第页= (365n个)−1; 如果的值相同x个t吨每天观察n个我们可以期待几年年第页,t吨超过一次。
图7显示了观测数据与使用模型1的标准、预处理和可变阈值拟合以及模型2的预处理拟合估计的10年条件收益率水平之间的差异。对于模型2,通过对每一协变量向量的100年数据进行模拟,并取其中的第10个最大值,得到每组引导参数的估计值。的比较图7(a)具有图7(b)-7(d)表明,与标准方法下的估计相比,使用预处理或可变阈值方法进行的估计更符合观测数据的模式。在冬季,相对于其他方法,标准方法似乎高估了回报水平;本季用这种方法估算的结果似乎也显示出更大的不确定性。这可能是因为冬季观察到的超标情况很少(如标准方法所定义)。图8显示了95%置信区间宽度的方框图,如图7。即使考虑到标准方法下某些估计的错误狭窄的置信区间,两种预处理模型的置信区间范围都较窄,其大小通常小于标准方法。
图7
估计的10年期有条件回报水平之间的差异年第页,t吨和观测到的臭氧水平年t吨对于(a)标准(模型1)、(b)预处理(模型1(,预处理方法下差异的平均值):对于模型2,通过模拟得出估计值
图8
方框图总结了10年条件回报率水平的95%置信区间宽度,如图7对于(从左到右)标准(模型1)、预处理(模型1和2)和可变阈值(模型1
最后,考虑观察期和未来协变量条件下的边际收益水平估计。对于观察期,使用平稳GPD、标准(模型1)和预处理(模型1和模型2)方法估计的边际收益水平以以下形式进行比较:QQ(QQ)-中的绘图图9。因为我们只考虑观察期,所以我们可以将经验分布作为协变量联合分布的估计。作为图9显示,我们发现边际回报水平特别难以估计。我们发现,平稳GPD和标准方法的估计值之间有相当大的相似性,在此期间,两个预处理模型之间也有相似性。与预处理方法相比,平稳GPD和标准方法提供了更好的边缘分布估计,至少对于观测数据而言。然而,图9重申一下,使用预处理方法,我们可以做出低于常数阈值的估计(在本例中低于100μ克(百万)−3).
我们认为预处理下的边际分布估计不足,如图9,是由于模型中缺少协变量,特别是在解释1999年夏天观测到的最高值方面。具体来说,对于这个数据集,我们已经设法用额外的协变量(未显示)来拟合预处理模型,这些协变量提供了更好的边际拟合。然而,使用这种模型进行预测是有问题的,因为额外的协变量主要由年度指标函数以及这些协变量与其他协变量之间的相互作用组成。即使考虑到图9,我们仍然相信,如果对未来的协变量场景感兴趣,那么预处理方法具有明显的优势。如果协变情景与观察到的情景有很大不同,那么平稳的GPD模型显然是不合适的。与标准方法相比,预处理方法在捕获潜在数据生成机制方面的优势可能会导致在更大范围的协变量场景下改进边际收益水平估计。
6.讨论和比较
本文介绍的非平稳过程极值建模的预处理方法似乎在其他方法上有所改进。首先,我们看看中讨论的可变阈值方法第3.2节; 这可以看作是将数据拆分为“季节”并在季节内单独建模数据的扩展。与完全预处理方法相比,该方法的缺点是,由于过剩是在原始尺度上建模的,因此无法区分GPD参数中发现的影响分布中心的协变效应和影响尾部的协变影响。这也意味着GPD参数中可能存在更显著的协变量,而用于估计其形式的数据较少,这表明存在复杂的数值模型拟合情况。年臭氧数据分析结果第5节还表明,与预处理方法相比,该方法下的预测具有更大的不确定性。
我们现在比较预处理和标准方法。首先,预处理方法更好,因为数据集中非国家性的原因通常与生成基础过程的机制密切相关,因此在基础过程中建模非国家性更有可能捕获适当形式的非国家性。在某些情况下,潜在流程的模型可能已经存在。中的模拟研究第4节证实了利用机制的完整结构的好处,表明预处理方法比标准方法更有可能正确选择协变量模型。此外,预处理方法下的阈值超标是指当我们考虑协变量关系时出现的极端值。这不一定适用于标准方法,这使得标准方法的理论依据似乎很薄弱。
预处理方法还可以产生更简单、更有效的模型拟合;如果体内的协变量效应和过程的极端之间没有差异{年t吨}然后,使用所有数据来估计这些影响的预处理方法必将比速率和GPD参数更有效φz(z),u个(x个t吨),ψz(z),u个(x个t吨)和ξz(z)(x个t吨)将独立于协变量。或者,如果体内存在不同的协变量效应{年t吨}然后,标准模型将这些因素混淆,而预处理模型允许对每一个因素进行单独估计,从而对协变量效应给出了更清晰的科学解释。
我们认为,对于模型极值分量的假设检验,预处理方法改变了协变量模型拟合的策略,使其科学合理。如果在极值数据的基础上没有明显证据表明包含了协变量,那么标准方法将从模型中剔除协变量,在这种情况下图3提示,通常会出现对协变量的排斥。相比之下,预处理方法主要测试是否有来自极值的显著证据表明协变量形式偏离了使用数据体估计的形式。
上述讨论假设预处理阶段所选协变量形式中没有错误指定。我们预计,由于预处理序列不会出现静止状态,因此标准诊断工具会识别出严重的错误。相反,请考虑少量的错误说明。由于可变阈值方法不同于仅选择极端事件进行分析的标准方法,因此可变阈值应该更好,因为它将使用通常更合适的数据。由于预处理方法仅在协变量形式的选择上与可变阈值方法不同,如果每次分析都有相同的协变量,我们认为预处理方法的性能没有理由比可变阈值方法差。
预处理方法还具有计算更简单的优点,因为变换过程的极值{Z轴t吨}比原始流程更接近平稳性{年t吨}. 因此,阈值选择在预处理方法中更容易,因为用于平稳极值阈值选择的工具可能适用于{Z轴t吨}极端但不是{年t吨}极端情况。还可以看出,由于GPD尺度参数更有可能独立于协变量,因此它更有可能满足在第2.2节.
需要进一步研究如何在存在协变量的情况下对GPD参数建模,以保持阈值稳定性,以便即使预处理方法表明协变量是必要的,也能保持不变。我们对如何解决这个问题的初步想法如下。史密斯(1989)通过极值的一般点过程结果表明,广义极值分布参数与GPD参数之间存在联系。广义极值分布的所有参数都是阈值不变的,因此利用此链接可能会有所帮助。鉴于这一特性,在本文的极值建模中,使用广义极值模型而不是GPD模型似乎更可取。然而,我们认为通过GPD公式将非平稳模型参数化很重要,因为这会导致速率和超额分布的正交参数。
致谢
我们感谢英国气象局和英国大气数据中心提供气象数据;空气污染数据是从英国空气质量档案馆下载的。我们中的一人(EFE)在开展这项工作时得到了工程和物理科学研究委员会学生奖学金的资助。我们还感谢克里斯平·哈尔萨尔(Crispin Halsall)对大气化学的有益评论,以及扬·赫夫南(Jan Heffernan)在项目初始阶段的帮助,以及副主编和审稿人对改进论文表述的有益评论。
工具书类
贝兰特
,J。
,戈盖贝尔
,年。
,塞格斯
,J。
和标致
,J。
(
2004
)极值统计:理论与应用
.奇切斯特
:威利
.布尚德
,T.A.公司。
(
1993
)降雨深度-饱和度-频率曲线;相依极端的问题。在环境统计
(编辑五、。
巴奈特
和K.F.公司。
土库曼语
),第页。183
–197
.奇切斯特
:威利
.查特菲尔德
,C、。
(
2004
)时间序列分析及引言
,第6版。博卡拉顿:查普曼和霍尔
.Chavez Demoulin公司
,五、。
和戴维森
,交流。
(
2005
)样本极值的广义加性建模
.申请。统计师。
,54
,207
–222
.科尔斯
,S.G.公司。
(
2001
)极值统计建模简介
.伦敦
:施普林格
.戴维森
,交流。
和拉梅什
,N.I.公司。
(
2000
)样本极值的局部似然平滑
.J.R.统计。Soc.B公司
,62
,191
–208
.戴维森
,交流。
和史密斯
,共和国。
(
1990
)超出高阈值的模型(含讨论)
.J.R.统计。Soc.B公司
,52
,393
–442
.伊斯托
,E.F.公司。
(
2007
)相依和非平稳极端事件的统计模型
.博士论文
.兰卡斯特大学
兰卡斯特。德汉
,L。
和费雷拉
,答:。
(
2006
)极值理论导论
.柏林
:施普林格
.霍尔
,第页。
和塔伊维迪
,N。
(
2000
)极值数据拟合参数模型时时间趋势的非参数分析
.统计师。科学。
,15
,153
–167
.赫夫南
,J·E。
和Tawn公司
,J.A.公司。
(
2004
)多元极值的条件方法(附讨论)
.J.R.统计。Soc.B公司
,66
,497
–546
.库申霍夫
,H。
和塔默鲁斯
,英国。
(
1996
)慕尼黑空气污染数据的极值分析
.环境。经济。统计师。
,三
,127
–141
.麦库拉
,第页。
和内尔德
,J.A.公司。
(
1989
)广义线性模型
,第2版。伦敦
:查普曼和霍尔
.皮克兰德
,J。
(
1975
)利用极值顺序统计进行统计推断
.安。统计师。
,三
,119
–131
.史密斯
,共和国。
(
1989
)环境时间序列极值分析在地面臭氧趋势检测中的应用
.统计师。科学。
,4
,367
–393
.史密斯
,共和国。
和Shively公司
,T.S.公司。
(
1995
)基于高阈值超越的对流层臭氧趋势模拟的点过程方法
.大气。环境。
,29
,3489
–3499
.史密斯
,共和国。
,Tawn公司
,J.A.公司。
和科尔斯
,S.G.公司。
(
1997
)阈值超标的马尔可夫链模型
.生物特征
,84
,249
–268
.汤普森
,M.L.公司。
,雷诺
,J。
,考克斯
,L.H.公司。
,古托普
,第页。
和桑普森
,P.D.公司。
(
2001
)对流层臭氧气象调整的统计方法综述
.大气。环境。
,35
,617
–630
.
©2009皇家统计学会