总结

最近的金融危机期间,市场的统计结构在短时间内频繁发生变化,这表明非平稳建模在金融时间序列中的重要性。基于这一观察结果,我们提出了一种快速、性能良好且理论上易于处理的方法,用于检测具有分段常数参数值的财务收益自回归条件异方差模型结构中的多个变化点。我们的方法称为BASTA(用于转换后的自回归条件异方差的二进制分割),分为两个阶段:过程转换和二进制分割。过程转换将原始过程重新关联,并使其尾部变亮;二进制分割一致地估计变化点。我们提出并证明了两种特殊的变换,并使用模拟来微调它们的参数以及二进制分割阶段的阈值参数。一项比较模拟研究表明,与现有技术相比,该公司表现良好,对英国《金融时报》证券交易所富时100指数的分析显示,估计的变化点与最近金融危机的主要事件之间存在有趣的对应关系。虽然该方法易于实现,但提供了现成的R软件。

1.简介

投机价格的对数回归,如股票指数、货币汇率和股价,通常表现出以下众所周知的特性(例如,参见里德伯格(2000)):观测序列的样本平均值接近于0;边缘分布大致对称或略有偏斜,峰值在零,且具有重尾;尽管绝对值和平方的样本自相关在大量滞后情况下是显著的,但样本自相关在几乎所有滞后情况下都是“小”的;波动性是“聚集的”,无论是大的还是小的波动,都有可能随后出现具有类似特征的日子。

为了获得这些特性,我们需要超越平稳线性时间序列框架,并且为了保持平稳性,已经提出了大量非线性模型。其中,两个分支是迄今为止最流行的:自回归条件异方差(ARCH)家族(Engle,1982)和广义自回归条件异方差(GARCH)(Bollerslev,1986泰勒,1986)模型以及“随机波动率”模型家族(泰勒,1986). 有关ARCH、GARCH和随机波动率建模的最新进展,我们请读者参考Fan和Yao(2003)和Giraitis. (2005).

虽然从估计的角度来看平稳性是一个很有吸引力的假设,但一些研究人员指出,利用非平稳模型可以更好地解释上述特性。Dahlhaus和Subba Rao(2006)提出了一种时变ARCH模型,其中模型参数随时间连续演化。米科斯和斯特里克(2004)考虑了分段平稳GARCH模型的概率特性,表明该模型很好地解释了对数回归平方中的“长记忆”效应。这些方法的基础是观察到,考虑到世界经济的变化速度,对数回报序列不太可能在很长一段时间内保持不变。例如,考虑到最近金融危机期间市场波动的“爆发”,很难用相同的平稳时间序列模型很好地描述危机之前和期间的波动动态。的确,珍妮威(2009)进一步指出,金融理论家认为

“金融时间序列的统计属性,如方差、相关性和流动性,是平稳过程产生的稳定观测值”

可能是这场危机的促成因素。

在本文中,我们重点讨论了参数值为分段常数的过程,这是偏离平稳性的最简单形式。这种建模的吸引力在于它很容易解释,因为它将数据分割成时间间隔,而过程参数保持不变。此外,分段常数参数法可用于预测,在预测中,通常需要获得数据的“最后”平稳段,然后才能用于预测未来的行为。我们考虑的模型是具有分段常数参数的ARCH过程。我们注意到Fryzlewicz. (2008)证明了时变ARCH过程很好地捕捉了第一段所列对数回归序列的经验特征。由于时变GARCH过程的估计是一项更具挑战性的任务(因为似然函数通常是“平坦的”),而时变ARCH过程通常能够很好地描述典型的对数回归,因此我们在本文中不考虑时变GARC过程。

在任何具有分段常数参数的模型中,一项有趣的任务是检测,后部改变点,即过程参数改变时的时间瞬间。例如,Chu研究了检测单个变化点的问题(1995)以及Kulparger和Yu(2005)GARCH模型和Kokoszka和Leipus(2000)用于ARCH模型。Adak等人研究了线性时间序列的多变量检测(或分割)问题(1998),加料机. (2002)、戴维斯. (2006)、Last和Shumway(2008),腮腺炎(2010)以及Cho和Fryzlewicz(2012). ARCH型工艺的这项任务更为困难,许多研究人员尚未对其进行严格研究。Andreou和Ghysels的启发式过程(2002)因为GARCH模型是基于Lavielle和Moulines的工作(2000)用于检测其他平稳时间序列平均值中的多个中断。我们还提到Davis的计算密集型程序. (2008)对于非线性时间序列,基于最小描述长度原则和Lavielle和Teyssiere方法(2005)基于惩罚高斯对数似然,其中惩罚参数是自动选择的。

本文的目的是设计一种统计严谨、性能良好且快速的技术,用于分段常数参数的ARCH模型中的多变量检测,其中假设变化的数量和幅度都未知。我们的方法,称为BASTA(转换自回归条件异方差的二进制分割),分两个阶段进行:工艺改造二进制分割我们现在依次简要描述的阶段。

1.1工艺改造

给定来自ARCH过程的一段数据X(X)t吨,第一步是形成数据的转换,U型t吨=(X(X)t吨,,X(X)t吨τ)(对于特定的固定τ其目标是双重的:确保U型t吨有界,并确保U型t吨小于X(X)t吨2正式地说,BASTA的目的是检测U型t吨。我们讨论了两种合适的选择,导致两种算法:BASTA-res和BASTA-avg。在前者,更复杂的构造中,我们首先选择以这样一种方式,它对应于X(X)t吨在无变化点的零假设下。这让我们考虑一系列的转换,C类,由向量常量索引C类,讨论了其合适的默认选择。在后者中,结构更简单,对应于的本地平均值X(X)t吨2,适当地进行二次采样以减少自相关,并进行记录以稳定方差。

1.2. 二进制分割

在BASTA算法的第二阶段,我们对序列执行二进制分割过程U型t吨,目的是检测E类(U型t吨)在算法上,我们的二进制分割过程与Venkatraman(1992)检测高斯白噪声序列中均值漂移的方法类似,只是我们使用了更通用的阈值形式。我们证明,BASTA能够对E类(U型t吨)。我们注意到需要修改证明技术,因为U型t吨是一个高度结构化的时间序列,而不是高斯白噪声序列。在广泛的模拟研究的基础上,我们提出了阈值常数的默认选择,这(令人放心)对所提出的两种变换都很有效.

论文组织如下。章节2描述了模型和问题。章节介绍了我们的通用算法并展示了它的一致性。章节4讨论了函数的两种特殊选择和阈值常数。章节5描述了一项比较模拟研究的结果,在该研究中,我们将我们的方法与最新技术进行了比较。第节6描述了我们的方法在《金融时报》证券交易所富时100指数中的应用,并揭示了估计的变化点与最近金融危机的一些重大事件之间(可能)令人着迷的对应关系。一致性结果的证明见附录A.  附录B提供了额外的技术资料。

实现BASTA的R软件可以从http://stats.lse.ac.uk/fryzlewicz/basta/basta.html.

2.模型和问题设置

分段常数参数ARCH(第页)模型X(X)t吨我们在本文中考虑的定义如下:

X(X)t吨=Z轴t吨σt吨,σt吨2=0(t吨)+j个=1第页j个(t吨)X(X)t吨j个2,t吨=0,,T型1,
(1)

其中独立和相同分布的创新Z轴t吨是这样的E类(Z轴t吨)=0E类(Z轴t吨2)=1和非负数(带0(t吨)>0第页(t吨)0)分段常数参数向量{j个(t吨)}t吨N个更改点0<η1<<ηN个<T型1(η0=0,ηN个+1=T型1),即每个η,= 1,…,N个,至少有一个参数向量{j个(t吨)}t吨这样的话j个(η)j个(η1)在假设1中,第节3.2,我们对{j个(t吨)}这样的话X(X)t吨几乎可以肯定地承认一个定义明确的解决方案,并指定我们要求参数在每个恒定段之间差异的程度。为了完整性,我们假设X(X)t吨对于t吨=−1,−2,…来自固定的拱形(第页)带参数的过程{j个(0)}j个=0第页.

数字都不是N个也不是地点η其中的变化点被假设为已知的,我们的目标是估计它们。当然,我们也不假设参数值j个(t吨)已知。N个允许随样本量缓慢增加T型,但以这样的方式ηs被保留(精确速率见假设1)。我们假设我们观察到{X(X)t吨;t吨=1,,T型},正式情况下,j个(t吨),N个η全部取决于样本量T型,尽管为了简单起见,这并没有反映在我们的符号中。我们不研究分段常数参数ARCH过程的顺序选择问题:如果顺序第页不知道,我们注意到,在我们的设置中,在选择第页与真阶不同并不影响理论或算法的有效性,但可能会降低估计量的质量。

3.通用算法和一致性结果

3.1. 一般方法和动机

在第节描述的框架中,我们的多变化点检测方法2称为BASTA。它的主要组成部分是二进制分割过程,经过适当修改后用于具有分段常数参数的ARCH模型。Sen和Srivastava首先介绍了用于检测正态随机变量平均值变化的二进制分割程序(1975). Vostrikova证明了更大类进程的二进制分割的一致性(1981); 然而,一致性条件是在对变化点的假设比我们更严格的情况下制定的,并且由于难以计算变化点检测统计量的零分布,该过程本身不容易实现。文卡特拉曼(1992)使用一种特别简单的测试统计量形式,证明了高斯函数加噪声模型中二进制分割过程的一致性。

我们注意到Fryzlewicz的(2007)高斯函数加噪声模型中用于函数估计的非平衡Haar技术与二进制分割有关,因为二者都是通过对数据迭代拟合最佳步长函数以递归方式进行的(参见Fryzlewicz(2007)以讨论这两种方法之间的相似性和差异)。事实上,我们选择二进制分割作为分段常数参数ARCH模型中变化点检测的合适方法,是因为高斯函数加噪声模型的非平衡Haar估计技术具有良好的实际性能。

由于BASTA通过作用于由先前检测到的变化点确定的子样本以递归方式进行,因此可以将其视为“多尺度”过程。下一节对BASTA进行了更精确的描述,并制定了一致性结果。

3.2. 算法和一致性结果

BASTA算法由两个阶段组成。

第一阶段:在第一阶段,一个过程U型t吨=(X(X)t吨,X(X)t吨1,,X(X)t吨τ)已形成。合适的选择(·)和τ将在第节中讨论4.过程U型t吨以这样一种方式设计,即其时变期望携带关于X(X)t吨以及相应的变化点。

第二阶段有以下三个步骤。

  • 第1步:以开头(j个,) = (1, 1). j个,=0u个j个,=T型1.

  • 第2步:表示n个=u个j个,j个,+1,计算
    U型~j个,,u个j个,b条=(u个j个,b条){n个(b条j个,+1)}t吨=j个,b条U型t吨(b条j个,+1){n个(u个j个,b条)}t吨=b条+1u个j个,U型t吨
    为所有人b条(j个,,u个j个,).表示b条j个,=参数最大值b条|U型~j个,,u个j个,b条|.
  • 步骤3:对于给定的阈值b条~T型,如果|U型~j个,b条j个,,u个j个,|<b条~T型,然后在间隔上停止算法[j个,,u个j个,]。否则,添加b条j个,估计的变化点集,以及

    • (a)

      商店(j个0,0)=(j个,),让(j个+1,21,u个j个+1,21):=(j个,,b条j个,),更新j个: =j个+ 1,:=2−1,然后转至步骤2;

    • (b)

      回忆(j个,)=(j个0,0)存储在步骤(a)中,让(j个+1,2,u个j个+1,2):=(b条j个,+1,u个j个,),更新j个: =j个+ 1,:=2,然后转至步骤2。

统计数据的最大化|U型~j个,,u个j个,b条|上述算法的步骤2中是众所周知的累积和测试的一个版本,在Brodsky和Darkhovsky中有更详细的描述(1993)第3.5节。如果U型t吨是一个序列独立的高斯序列,在其他相同分布的变量中有一个变化点,b条1,1将是检测变化点可能位置的最大似然统计,并且在Brodsky和Darkhovsky定理3.5.3的意义上是最优的(1993). 在我们的设置中,它只是提供了一个最小二乘型估计器;注意,由于我们的U型t吨是一个高度结构化的时间序列,其变化点的精确最大似然估计不容易获得,即使它们是,其最优性(或其他)也不容易调查。步骤3(a)和3(b)描述了每个检测到的变化点左右的二进制递归;因此得名“二进制分割”。我们用以下公式表示获得的thus变化点估计数N个^及其位置b条j个,,按递增顺序排序η^1,,η^N个^我们注意到阈值b条~T型取决于长度T型初始样本的长度,而不是每个子段的长度变化[j个,,u个j个,].

以下符号为本文的主要结果奠定了基础:BASTA的一致性结果。{X(X)~t吨}t吨表示a固定的建筑(第页)带参数的过程0(η),,第页(η)(= 0,…,N个)通过使用相同的创新序列构建Z轴t吨作为原始流程(1)。对于每个,我们形成流程U型~t吨=(X(X)~t吨,,X(X)~t吨τ),任何固定τ.让υ(t吨)成为索引最大变化点的η小于或等于t吨。我们定义

t吨=E类(U型~t吨υ(t吨)).

我们注意到,与E类{(X(X)t吨,,X(X)t吨τ)},t吨在每对变化点之间都是恒定的(η,η+1)以下一致性结果的证据将取决于t吨在某种意义上,是E类{(X(X)t吨,,X(X)t吨τ)}.

在我们为BASTA制定一致性结果之前,我们指定了以下技术假设。C类表示通用正常量,每次使用时其值不一定相同。

假设1
  • (a)

    对于所有人T型,我们有最小值{=0,,N个}{η+1η}δT型,其中最小间距δT型满足δT型=C类T型Θ具有Θ(4,1].

  • (b)

    数字N个变化点的范围由样本大小的函数从上方限定T型在中指定附录B.

  • (c)

    功能:R(右)τ+1R(右)满足|(·)|¯<并且Lipschitz在其平方参数中是连续的(即满足|(x个0,,x个τ)(0,,τ)|C类Σ=0τ|x个22|).

  • (d)

    对于一些人>0和所有T型,序列t吨满足最小值{=1,,N个}|ηη1|.

  • (e)

    阈值b条~T型满足b条~T型=cT型θ具有θ(14,Θ12)c>0.

  • (f)

    对于一些人δ1>0以及所有T型,我们有最大值1t吨T型Σ=1第页(t吨)1δ1.

  • (g)

    对于一些人δ2>0C类<∞,以及所有T型,我们有最小值1t吨T型0(t吨)>δ2最大值1t吨T型0(t吨)C类<.

  • (h)

    (f)Z轴2表示的密度Z轴t吨2在表达式(1)中。对于所有人>0我们有|(f)Z轴2(u个)(f)Z轴2{u个(1+)}|d日u个K(K)对一些人来说K(K)独立于.

假设1第(a)部分规定了连续变化点之间的最小允许距离;第(b)部分确定了改变点数量随样本大小增加的速度。在(c)部分中技术假设不仅有助于我们的证明,而且也意味着我们可以避免在Z轴t吨.假设1第(d)部分要求渐近平均函数的连续水平t吨应与邻居充分隔开。假设1第(e)部分确定了阈值的大小。(f)部分意味着几乎可以肯定X(X)t吨有一个独特的因果解决方案。此外,要求第(f)-(h)部分保证X(X)t吨以几何速率强烈混合;参见Fryzlewicz和Subba Rao中的假设3.1(及其讨论)以及定理3.1(2011). 假设1第(h)部分是一个温和的假设,并被许多著名的分布所满足,如下面Fryzlewicz和Subba Rao中的假设3.1所解释的(2011). 以下定理指定了BASTA的一致性结果。

定理1

假设假设1成立。N个η1,,ηN个分别表示变化点的数量和位置。N个^表示数字,以及η^1,,η^N个^BASTA获得的变化点估计值的位置,按递增顺序排序。存在正常数C类α这样的话P(P)(A类T型)1,其中

A类T型={N个^=N个;|η^j个ηj个|C类εT型对于1j个N个},

具有εT型=T型1/2日志α(T型).

我们注意到T型1/2日志α(T型)出现在事件中A类T型是因为变化点ηj个以“实时”方式测量t吨∈ {0,…,T型−1},与重标时间相反t吨/T型∈ [0, 1]. 解释上述结果的另一种方法是|η^j个/T型ηj个/T型|C类T型1/2日志α(T型)定理1的证明见附录A.

最后,我们注意到,虽然定理1的证明大部分依赖于X(X)t吨以及它的混合速率,而不是来自特定的时间序列模型,关键引理1是ARCH特有的(第页)具有分段常数参数的模型。例如,它可以推广到具有分段常数参数的ARCH(∞)模型,但在技术上具有挑战性(参见第节4.2在Fryzlewicz和Subba Rao(2011))如果没有对ARCH(∞)参数的额外假设,则无法继续。在当前工作中,我们不追求这种扩展。

4.两种特殊的选择(·)阈值常数的函数和选择c

4.1. 一般要求

在本节中,我们将讨论我们推荐的转换函数选择。我们首先回顾转换过程的所需属性U型t吨=(X(X)t吨,X(X)t吨1,,X(X)t吨τ).

  • (a)

    随时间变化的期望U型t吨应携带有关更改点的信息,即应在更改点位置更改。

  • (b)

    高度的自相关U型t吨这是不可取的,因为它可能会影响统计数据U型~j个,,u个j个,b条从而错误地描述了变化点的位置。因此,我们的目标是流程U型t吨具有尽可能少的自相关度。

  • (c)

    此外,假设1(c)部分要求函数应该是有界的,并且Lipschitz在其平方参数中是连续的。

直观地,需求(a)意味着过程U型t吨应该是的函数即使的权力X(X)t吨这是因为,如果Z轴t吨对称分布,那么也是X(X)t吨也就是说,对于q个奇数,如果E类(X(X)t吨q个)存在,则它等于0。因此X(X)t吨从变化点检测的角度来看是“无趣的”。

要求(b)表明,任何“对角线”变换,其中(X(X)t吨,X(X)t吨1,,X(X)t吨τ)是的函数X(X)t吨仅限,不应使用。(此类转换的示例包括U型t吨=(X(X)t吨)=X(X)t吨2U型t吨=(X(X)t吨)=日志(X(X)t吨2)这是因为,根据ARCH过程的定义X(X)t吨,平方过程X(X)t吨2具有高度的自相关,通常在类型的对角线变换中保持(X(X)t吨).

我们还注意到,需求(c)可以防止转换,例如在X(X)t吨2,例如转换(X(X)t吨)=X(X)t吨2。即使是高斯创新Z轴t吨,X(X)t吨2通常不具有所有有限时刻,我们在整个论文中将其称为“重尾”。然而,沉重的尾巴(·)可能会扭曲二进制分割的性能,因为在最极端的情况下,可能会将程序产生一致结果的允许阈值范围减少到空集。

4.2. BASTA-res:基于残差的BASTA

我们第一次提议的改造U型t吨,导致BASTA-res公司算法(基于残差的BASTA)构造如下。在平稳性的零假设下,过程

U型t吨(1)=X(X)t吨20+=1第页X(X)t吨2=Z轴t吨2

是固定的,并且完全去相关,因为它只是一个独立的、相同分布的平方创新序列Z轴t吨2显然,在实践中,这种转换是不可能实现的,因为它涉及未知的参数值相反,我们用一个变换来“近似”它

U型t吨(2)=X(X)t吨2C类0+=1第页C类X(X)t吨2,

在零假设下,这也导致了一个平稳的过程,并且由于其接近于U型t吨(1).参数C类=(C类0,,C类第页)将需要根据数据进行估计,我们稍后将介绍如何进行估计。

为了确保U型t吨,我们增加了一个附加条款εX(X)t吨2在分母中,这将导致转换

U型t吨()=X(X)t吨2C类0+=1第页C类X(X)t吨2+εX(X)t吨2.
(2)

在本文中,为了简单起见,我们不详细讨论ɛ:事实上,在后面描述的数值实验中,我们总是假设ɛ默认值为10,使用X(X)t吨以数据向量的样本方差的方式进行规范化X(X)t吨等于1。以不同的目的构建,与U型t吨()也出现在《政治》杂志上(2007).

如上所述,我们希望U型t吨()将生产,并有合适的选择C类,在平稳性零假设下近似过程的经验残差平方的序列。在替代假设下,U型t吨()仍然是(通过构造)一个非负随机变量序列,其从一个(近似)平稳段到另一个平稳段的期望变化反映了不同的参数状态。实际上,U型t吨()倾向于具有高度向右倾斜的分布。这并不奇怪,因为U型t吨()是形式σ~t吨2Z轴t吨2,其中Z轴t吨2是真实的平方残差,以及σ~t吨2是一个非负随机变量(类似于条件方差)。

为了减轻上述向右倾斜,并使模型更接近加法,我们考虑我们的最终转换

U型t吨(4)=日志(ε+U型t吨()),
(3)

其中,为简单起见,默认值为ɛ与中相同U型t吨()以上。请注意,我们不能简单地使用日志(U型t吨())作为功能要求之一(·)它应该是有界的(因为U型t吨()是有界的且非负的,并且ɛ>0,如下所示U型t吨(4)有界)。

我们注意到U型t吨(4)是可逆的,即。X(X)t吨2可以通过应用逆变换从中恢复。这意味着X(X)t吨2(即时变ARCH参数的变化)必须通过检查U型t吨(4).BASTA-res通过搜索平均值的变化来继续U型t吨(4),而不是在完全(联合)分布中,并且有很好的理由进行这种简化。首先,U型t吨(4)是专门构建的,与原始进程相比具有较少的自相关性X(X)t吨2第二,中的对数转换U型t吨(4)旨在稳定此序列中的方差,即使其更均匀。总的来说,希望这能带来U型t吨(4)接近“函数加上独立且相同分布的噪声”设置,其中联合分布的任何变化都必须反映在平均值的变化中U型t吨(4)这正是巴斯塔雷斯所寻找的。尽管这种仅考虑平均值的论点仅仅是启发式的,但我们认为BASTA-res良好的经验性能证明了这一点。在我们稍后描述的模拟中U型t吨()U型t吨(4)使用。

4.2.1. 默认选择C类

我们建议对向量常量进行以下默认选择C类在我们的变换(2)和(3)中。在第一阶段,我们(不一定正确)表现得好像{X(X)t吨}t吨=1n个是带参数的平稳ARCH过程的实现0,,第页并遵循标准化最小二乘程序(Fryzlewicz.,2008)估计0,,第页作为^0,,^第页.如果{X(X)t吨}t吨=1n个确实是平稳的,即不包含变化点,计算值^0,,^第页然后对真实参数进行有意义的估计0,,第页.

因此,在没有变化点的无效假设中,如果我们要设置C类:=^对于= 0,…,第页,对应的变换序列U型t吨()U型t吨(4)确实会接近模型的经验残差(分别为平方、平方和对数),如上所述。希望我们的变化点检测程序能够通过确定模型中不存在变化点来正确地对这种构造做出反应。但是,不是直接设置C类:=^对于= 0,…,第页,我们通过引入积极因素为我们的建设增加了额外的灵活性F类⩾1,我们用它来“阻尼”常数的值C类1,,C类第页如下:

C类0:=^0,C类:=^/F类,=1,,第页.

上述阻尼值的影响C类1,,C类第页是这样吗F类增加,U型t吨()是,直到乘法常数,越来越接近X(X)t吨2自身。事实上,在极限范围内F类→ ∞, 我们有

U型t吨()X(X)t吨2C类0+εX(X)t吨2

(请记住ɛ很小)。经验证据表明F类可以在存在变化点的替代假设中更好地暴露变化点,但代价是在经验分布中引入更高程度的自相关和更厚的尾部U型t吨()。当然,这也适用于U型t吨(4),但程度较小。

通常,由于F类将导致更好的变化点暴露,但也会引入更高的自相关,最好选择F类在这两种趋势之间取得平衡。章节4.2.2将讨论提议的默认选择F类基于广泛的模拟研究。

4.2.2. 默认选择F类c通过模拟

我们进行了一项模拟研究,评估了我们的程序对于各种ARCH(1)和ARCH(2)模型的经验性能,这些模型具有分段常数参数和不同的样本大小。我们提到,我们的经验表明,高达2阶的时变ARCH过程通常足以很好地建模和预测广泛的低频回报;参见示例Fryzlewicz. (2008). 阻尼常数F类(参见第节4.2.1)范围从1到10,阈值常数c(参见第节3.2)范围为0.1至1。变化点的数量从0到2不等,如果存在,它们在整个系列中分别位于三分之二和三分之一的位置。样本大小从n个=750至n个= 3000.

发现基于序列的算法U型t吨(4)表现比基于U型t吨():这是因为“噪音”U型t吨(4)由于使用了对数变换,具有更均匀的结构。这并不奇怪:回想一下U型t吨()形式为σ~t吨2Z轴t吨2,其中Z轴t吨2是真实的平方残差,以及σ~t吨2是非负随机变量。因此U型t吨(4)使模型接近可加模型日志(σ~t吨2)+日志(Z轴t吨2),其中噪音日志(Z轴t吨2)具有恒定的方差。因此,我们的门槛b条~T型其震级在局部范围内与t吨,可以预期为更同质的模型提供更好的性能U型t吨(4),尽管我们强调我们的方法对这两种情况都是一致的U型t吨()U型t吨(4).

在选择F类。我们发现c就正确检测真实变化点数量的概率而言,区间[0.4,0.6]内的测距是最佳选择。明显的例外是不包含变化点的“零假设”模型,正如预期的那样,对于这些模型c导致性能优于较低的值。下面,我们提供了所使用模型的详细信息:

  • (a)

    具有一个变化点,三分之二路径的ARCH(1)模型(1为常数,等于0.7,且0从1到1.5、2.0或2.5的变化);

  • (b)

    具有一个变化点,三分之二路径的ARCH(1)模型(0为常数,等于1,并且1从0.7变为0、0.3或0.9);

  • (c)

    具有一个变化点,三分之二路径的ARCH(1)模型(1从0.7变为0、0.3或0.9,以及0也会在同一时间点发生变化,从而使过程的无条件方差始终保持不变);

  • (d)

    无变化点的ARCH(1)模型(0等于1,并且1设置为0、0.5或0.9);

  • (e)

    一个ARCH(2)模型,有两个变化点,以第三种方式发生(在2只有)和三分之二的路程(英寸1仅限)(0=1贯穿始终;如果1更改自αβ,然后2更改自βα的值(α,β)是(0,0.7),(0.2,0.6)或(0.4,0.1))。

在图的彩色“地图”中12颜色越浅,正确检测到各种模型变化点数量的比例越高(超过100个模拟)U型t吨(4).图1(a) –(c)显示模型(a)、(b)、(c)和(e)的平均地图(以及01)样品尺寸为750(图。1(a) ),1500(图。1(b) )和3000(图。1(c) )。1(d) –1(f) 显示模型(d)上的平均地图(以及1); 样本大小相应。对于无变化点模型(d),阈值越高越好,这一事实解释了列之间模式的差异。

图1

BASTA-res中正确检测到的变化点数量图,取决于F类c:见第节4.2.2用于描述

图2

BASTA-res中正确检测到的变化点数量图,取决于F类c参见第节4.2.2用于描述

图。2(a) 显示了模型(a)、(b)、(c)和(e)的平均结果(以及01)并对750、1500和3000个样本进行平均。图。2(b) 显示了模型(d)上的类似平均结果(以及1)样本大小分别为750、1500和3000。

从结果来看,配置(c,F类)=(0.5,8)是一个合理的默认选择。然而,在实践中,应用额外的“校正”,并对较大的样本量使用稍低的阈值,对较小的样本量则使用稍高的阈值,这可能是有益的。这是因为,如图。1,常数c=0.4对样本量3000产生最佳结果,c=0.5是样本量1500和c=0.6是样本量750的最佳值。这并不奇怪,因为必须记住,我们的模拟使用了一个阈值b条~T型订单的T型/8,而指数的最大允许范围θ在里面b条~T型θ(14,12)应用额外的校正将对应于选择稍低的指数θ在阈值中。总之,我们提出以下实用建议:使用(c,F类)=(0.6,8),样本大小不超过1000(c,F类)=(0.5,8),对于1000至2000之间的样本量,以及(c,F类)=(0.4,8),对于2000至3000之间的样本量。对于较长的序列,我们建议将该过程应用于长度不超过3000的段,而不是一次性应用于整个序列。我们强调,BASTA-res是一个完全指定的过程,我们为其所有参数提供默认值。

4.3. BASTA平均值:基于二次抽样局部平均值的BASTA

我们现在描述BASTA-avg算法的构造,它是BASTA-res的一种更简单的替代方案,需要选择的参数比后者少。我们之前认为,其中的对角线变换(·)是的函数X(X)t吨2只是不适合我们的目的,因为它们保留了过程中通常存在的高度自相关X(X)t吨2然而,该过程的非重叠局部平均值X(X)t吨2是我们转型的一个有趣的候选者(·)因为它们比X(X)t吨2。更正式地说,我们认为

U型t吨(5)=日志最小值1j个=t吨(t吨+1)1X(X)j个2+ε,M(M)

(它只是日志(1Σj个=t吨(t吨+1)1X(X)j个2)). 有效样本量U型t吨(5)T型/但是,因为是一个常量,这是正常的O(运行)(T型)并且定理1中的速率不受影响。我们现在研究二进制分割过程在序列上的性能U型t吨(5).始终规范我们的流程X(X)t吨因此它的样本方差为1,我们设置ɛ等于10如BASTA-res中所述;天花板M(M)设为10。这两个参数似乎对程序的实际性能没有太大影响,在本工作中我们不详细讨论它们的选择θ被认为是8:这处于最大允许范围的中间(14,12)不出所料,我们发现它在我们的数值实验中表现最好。仍然存在选择跨度常数的问题和阈值缩放常数c我们首先检查了第节中训练模型(a)–(e)中这两个参数范围内新程序的性能4.2.2.

图。类似于图。1对于BASTA-res:它可视化了BASTA-avg在非平稳模型(a)、(b)、(c)和(e)上的平均性能(图(a) ȁ(c))和静止模型(d)(图(d) ȁ(f)),对于样品尺寸750(图(a) 和(d) ),1500(图(b) 和(e) )和3000(图(c) 和(f) )。每张图像中较浅的颜色意味着在很大程度上检测到了正确数量的变化点(超过100次)。

图3

BASTA-avg中正确检测到的变化点数量图,取决于跨度c参见第节4.3有关详细信息

如预期,跨度与跨度2或5相比,=1(相当于根本没有平均值)没有产生良好的性能。对于后一个跨度,我们可以观察到最佳性能出现在以下值c大约在0.5左右,尽管“最佳”值似乎略低=5,对于较长的数据集。

最后,我们再次强调,我们的理论不允许根据数据选择常数cθ,因此有可靠的默认常量值供我们使用非常重要。我们发现,尽管BASTA-res和BASTA-avg中的数据转换是以两种完全不同的方式构建的,但(c,θ)接近(0.5,8)发现这两种算法的性能都最佳。

5.绩效评估

在这项比较模拟研究中,我们使用我们的算法BASTA-res和BASTA-avg重新检查Davis中报告的GARCH过程示例. (2008)这似乎是GARCH模型中最先进的变化点检测程序。我们记得Y(Y)t吨遵循GARCH(第页,q个)模型,如果它在表达式(1)中定义,除了σt吨2定义为

σt吨2=0+=1第页Y(Y)t吨2+j个=1q个b条j个σt吨j个2.

在其他车型中,Davis. (2008)考虑具有样本量的10个GARCH(1,1)模型n个=1000,且三个变量中最多出现一个变化点(0,1,b条1)时间t吨=501如下:

  • (a)

    (0.4, 0.1, 0.5)(0.4、0.1、0.5)(注意此模型是静止的);

  • (b)

    (0.1, 0.1, 0.8)(0.1、0.1、0.8)(注意该模型是静止的);

  • (c)

    (0.4, 0.1, 0.5)(0.4, 0.1, 0.6);

  • (d)

    (0.4, 0.1, 0.5)(0.4、0.1、0.8);

  • (e)

    (0.1, 0.1, 0.8)(0.1, 0.1, 0.7);

  • (f)

    (0.1, 0.1, 0.8)(0.1, 0.1, 0.4);

  • (g)

    (0.4, 0.1, 0.5)(0.5, 0.1, 0.5);

  • (h)

    (0.4、0.1、0.5)(0.8, 0.1, 0.5);

  • (i)

    (0.1, 0.1, 0.8)(0.3, 0.1, 0.8);

  • (j)

    (0.1, 0.1, 0.8)(0.5, 0.1, 0.8).

1显示了正确变化点数量的模拟运行比例(模型(a)和(b)为0;对于三种相互竞争的方法:Andreou和Ghysels(2002)戴维斯的. (2008)和我们的(BASTA-res和BASTA-avg)。(Andreou-Ghysels方法的结果来自Davis. (2008).) BASTA-res使用默认值c=0.6和F类=8(根据第节中的建议4.2.2),基于序列U型t吨(4)和使用的订单第页= 1. BASTA-avg使用了两对值c: (,c)=(2,0.5)(表中的BASTA-avg11)和(5,0.4)(BASTA-avg2)。进行了100次模拟运行。我们还尝试了Lavielle和Teyssiere的方法(2005)(使用MATLAB实现DCPC),尽管我们发现它的性能很好,但总体上要比所有上述方法差得多,因此我们不在这里报告详细信息。

表1

模型(a)–(j)中检测到正确数量的变化点的次数比例,以及三种竞争方法中所有模型的平均检测次数比例

方法以下模型的结果:平均
(a)(b)(c)(d)(e)(f)(g)(h)(i)(j)
戴维斯. (2008)0.960.960.190.960.630.980.120.910.910.950.757
Andreou和Ghysels(2002)0.960.880.240.950.750.720.140.940.940.860.738
BASTA-res公司0.980.930.250.940.750.950.180.900.960.930.777
BASTA-版本10.980.970.170.910.880.910.070.960.860.920.763
BASTA-版本20.980.860.290.920.910.890.110.990.90.850.77
方法以下模型的结果:平均
(a)(b)(c)(d)(e)(f)(g)(h)(i)(j)
戴维斯. (2008)0.960.960.190.960.630.980.120.910.910.950.757
Andreou和Ghysels(2002)0.960.880.240.950.750.720.140.940.940.860.738
BASTA-res公司0.980.930.250.940.750.950.180.900.960.930.777
BASTA-版本10.980.970.170.910.880.910.070.960.860.920.763
BASTA-版本20.980.860.290.920.910.890.110.990.90.850.77
表1

模型(a)–(j)中检测到正确数量的变化点的次数比例,以及三种竞争方法中所有模型的平均检测次数比例

方法以下模型的结果:平均
(a)(b)(c)(d)(e)(f)(g)(h)(i)(j)
戴维斯. (2008)0.960.960.190.960.630.980.120.910.910.950.757
Andreou和Ghysels(2002)0.960.880.240.950.750.720.140.940.940.860.738
BASTA-res公司0.980.930.250.940.750.950.180.900.960.930.777
BASTA-版本10.980.970.170.910.880.910.070.960.860.920.763
BASTA-版本20.980.860.290.920.910.890.110.990.90.850.77
方法以下模型的结果:平均
(a)(b)(c)(d)(e)(f)(g)(h)(i)(j)
戴维斯. (2008)0.960.960.190.960.630.980.120.910.910.950.757
Andreou和Ghysels(2002)0.960.880.240.950.750.720.140.940.940.860.738
BASTA-res公司0.980.930.250.940.750.950.180.900.960.930.777
BASTA-版本10.980.970.170.910.880.910.070.960.860.920.763
BASTA-版本20.980.860.290.920.910.890.110.990.90.850.77

虽然BASTA并不总是这三种方法中最好的,但我们注意到,它总是最好的或接近最好的,包括在最佳和最差性能相差很大的模型中。事实上,BASTA-res在所有测试模型中取得了最高的平均正确率。尽管BASTA-avg很简单,但它在这两个参数集上都表现得很好,总体结果仅落后于BASTA-res。

6.富时100指数分析

在本节中,我们将BASTA-res技术应用于富时100指数的一系列不同收盘价:伦敦证券交易所上市的100家资本金最高的英国公司的股票指数,目的是调查发现的任何变化点是否以及如何与最近金融危机的里程碑相对应。该系列有1000个观测值,范围从2005年7月27日至2009年7月13日,即大约4个交易年。如前所述,我们的方法使用了第节中建议的默认值4.2.2,基于序列U型t吨(4)和使用的订单第页= 1.

有趣的是,可以观察到估计的变化点,如图所示。4确实与最近金融危机中的重要事件相对应。更准确地说,估计的变化点如下。

图4

(a) 富时100指数2005年7月27日至2009年7月13日的收盘价(1000次观察:约4个交易年)和(b)该期间指数的差异值(见第6节的评论):图解的,BASTA-res在底部序列上检测到的变化点作为输入

  • (a)

    t吨=467,对应于2007年6月5日:2007年夏天被广泛认为是次级抵押贷款对冲基金危机的开始,主要投资银行贝尔斯登(Bear Stearns)在2007年7月披露,他们的两支次级对冲基金几乎损失了全部价值。

  • (b)

    t吨=773,与2008年8月18日相对应:将这一估计变化点归因于主要金融服务公司雷曼兄弟(Lehman Brothers)的破产可能是安全的。

  • (c)

    t吨=850,对应于2008年12月4日:尽管很难将这一日期归因于特定事件,但我们指出,2008年底是政府,国家银行和国际货币基金组织等国际机构宣布并开始实施一系列金融措施,以帮助萎靡不振的世界经济。

工具书类

阿达克
,
美国。
(
1998
)
非平稳时间序列的时间相关谱分析
.
《美国统计杂志》。助理。
,
93
,
1488
——
1501
.

安德烈欧
,
E.公司。
盖泽尔
,
E.公司。
(
2002
)
检测金融市场波动动态的多重突破
.
J.应用。经济计量学。
,
17
,
579
——
600
.

博勒斯莱文
,
T。
(
1986
)
广义自回归条件异方差
.
《经济学杂志》。
,
31
,
307
——
327
.

博斯克
,
D。
(
1998
)
随机过程的非参数统计
.
纽约
:
施普林格
.

布罗德斯基
,
B。
达尔霍夫斯基
,
B。
(
1993
)
变点问题中的非参数方法
.
多德雷赫特
:
Kluwer公司
.

,
H。
Fryzlewicz公司
,
第页。
(
2012
)
非平稳时间序列一致分割的多尺度多级技术
.
统计师。罪。
,
22
,
207
——
229
.

,
C.-S.J.公司。
(
1995
)
GARCH模型中参数漂移的检测
.
经济计量学。修订版。
,
14
,
241
——
266
.

达尔豪斯
,
R。
苏巴·拉奥
,
美国。
(
2006
)
时变ARCH过程的统计推断
.
安。统计师。
,
34
,
1075
——
1114
.

戴维森
,
J。
(
1994
)
随机极限理论
.
牛津
:
牛津大学出版社
.

戴维斯
,
R。
,
,
T。
罗德里格斯-扬
,
G.公司。
(
2006
)
非平稳时间序列模型的结构突变估计
.
《美国统计杂志》。助理。
,
101
,
223
——
239
.

戴维斯
,
R。
,
,
T。
罗德里格斯-扬
,
G.公司。
(
2008
)
一类非线性时间序列模型的突变检测
.
J.时间序列。分析。
,
29
,
834
——
867
.

恩格尔
,
无线电频率。
(
1982
)
英国通货膨胀方差估计的自回归条件异方差
.
计量经济学
,
50
,
987
——
1008
.

风扇
,
J。
姚明
,
问:。
(
2003
)
非线性时间序列
.
纽约
:
施普林格
.

Fryzlewicz公司
,
第页。
(
2007
)
非参数函数估计的非平衡Haar方法
.
《美国统计杂志》。助理。
,
102
,
1318
——
1327
.

Fryzlewicz公司
,
第页。
,
萨帕蒂纳斯
,
T。
苏巴·拉奥
,
美国。
(
2008
)
时变ARCH模型中的归一化最小二乘估计
.
安。统计师。
,
36
,
742
——
786
.

Fryzlewicz公司
,
第页。
苏巴·拉奥
,
美国。
(
2011
)
关于ARCH过程和时变ARCH过程的混合性质
.
伯努利
,
17
,
320
——
346
.

Giraitis公司
,
L。
,
莱普斯
,
R。
苏盖利斯
,
D。
(
2005
)
ARCH建模的最新进展
.英寸
经济学中的长期记忆
(编辑
答:。
基尔曼
G.公司。
泰西埃
),第页。
——
39
.
柏林
:
施普林格
.

珍妮威
,
西。
(
2009
)
早餐前六件不可能的事:危机的教训
.
重要性
,
6
,
28
——
31
.

科科什卡
,
第页。
莱普斯
,
R。
(
2000
)
ARCH模型中的变点估计
.
伯努利
,
6
,
513
——
539
.

库尔伯格
,
R。
,
H。
(
2005
)
GARCH模型残差的高矩部分和过程及其应用
.
安。统计师。
,
33
,
2395
——
2422
.

最后
,
M。
舒姆韦
,
R。
(
2008
)
检测分段局部平稳时间序列中的突变
.
J.Multiv.公司。分析。
,
99
,
191
——
214
.

拉维埃尔
,
M。
鼠标线
,
E.公司。
(
2000
)
时间序列中未知移位数的最小二乘估计
.
J.时间序列。分析。
,
21
,
33
——
59
.

拉维埃尔
,
M。
泰西埃
,
G.公司。
(
2005
)资产价格波动中多个变化点的自适应检测。
经济学中的长期记忆
(编辑
答:。
基尔曼
G.公司。
泰西埃
),第页。
129
——
157
.
柏林
:
施普林格
.

米科斯
,
T。
圣里奇
,
C、。
(
2004
)
金融时间序列的非平稳性、长期依赖性和IGARCH效应
.
经济收益率。统计师。
,
86
,
378
——
390
.

教皇炎
,
E.公司。
(
2010
)
用滚动局部周期图验证时间序列分析中的平稳性假设
.
《美国统计杂志》。助理。
,
105
,
839
——
851
.

波利蒂斯
,
D。
(
2007
)
无模型与基于模型的波动率预测
.
J.菲南。经济计量学。
,
5
,
358
——
389
.

里德伯格
,
T。
(
2000
)
财务数据的现实统计建模
.
国际统计。修订版。
,
68
,
233
——
258
.

,
答:。
斯里瓦斯塔瓦
,
医学硕士。
(
1975
)
水平变化的一些单侧测试
.
技术计量学
,
17
,
61
——
65
.

加料机
,
D。
,
Ombao公司
,
H。
泰勒
,
D。
(
2002
)
局部谱包络:一种基于二进树的自适应分割方法
.
Ann.Inst.统计。数学。
,
54
,
201
——
223
.

泰勒
,
S.J.公司。
(
1986
)
金融时间序列建模
.
奇切斯特
:
威利
.

文卡特拉曼
,
E.S.公司。
(
1992
)
一致性会导致多个转换点问题
.技术报告24斯坦福大学统计系。(可从http://statistics.stanford.edu/~ckirby/tech-reports/NSA/SIE%20NSA%2024.pdf)

沃斯特里科娃
,
洛杉矶。
(
1981
)
检测多维随机过程中的“无序”
.
苏联。数学。多克。
,
24
,
55
——
59
.

附录A:定理1的证明

下面的引理是在假设1下证明的。

我们首先收集主要部分中给出的一些定义。X(X)~t吨满足X(X)~t吨=σ~t吨Z轴t吨哪里

(σ~t吨)2=0(η)+j个=1第页j个(η)(X(X)~t吨j个)2,t吨T型1.
(4)

υ(t吨)成为索引最近变化点的η小于或等于t吨η(t吨)最大变化点的位置小于或等于t吨(ηt吨). 在下面的引理中,我们证明了分段常数平方ARCH过程X(X)t吨2“接近”(X(X)~t吨υ(t吨))2.

引理1

X(X)t吨X(X)~t吨分别定义为表达式(1)和(4);那么我们有

|X(X)t吨2(X(X)~t吨υ(t吨))2|V(V)t吨,

哪里E类(V(V)t吨)C类ρt吨η(t吨),使用0<ρ<1和C类是一些独立于t吨.

证明

由于证明只涉及平方ARCH过程,为了减少繁琐的符号,我们让ξt吨=X(X)t吨2ξ~t吨υ(t吨)=(X(X)~t吨υ(t吨))2.让[·]表示向量的第个元素。对于通用平方拱(第页)过程Y(Y)t吨=Z轴t吨2{α0(t吨)+Σj个=1第页αj个(t吨)Y(Y)t吨j个}(无论是否时变)迭代k个后退一步

Y(Y)t吨=Z轴t吨2{P(P)k个,t吨Y(Y)(Z轴t吨,t吨k个)+k个,t吨Y(Y)(Y(Y)t吨k个)},

哪里Z轴t吨,t吨k个=(Z轴t吨2,,Z轴t吨k个+12),Y(Y)t吨k个=(Y(Y)t吨k个,,Y(Y)t吨k个第页+1),

P(P)k个,t吨Y(Y)(Z轴t吨,t吨k个)=α0(t吨)+[A类t吨第页=0t吨k个j个=1第页A类~t吨j个b条t吨第页1]1,k个,t吨Y(Y)(Y(Y)t吨k个)=[A类t吨j个=1k个1A类~t吨j个Y(Y)t吨k个]1

A类~t吨=α1(t吨)Z轴t吨2α2(t吨)Z轴t吨2α第页(t吨)Z轴t吨21000100010,b条t吨=(α0(t吨)Z轴t吨2,0,,0)

A类t吨=E类(A类~t吨)。我们现在考虑上述两种扩展ξt吨ξ~t吨υ(t吨).使用上述符号并迭代ξt吨向后的k个=t吨η(t吨)步骤(即从下面到其最近的变化点)给出

ξt吨=Z轴t吨2{P(P)t吨η(t吨),t吨ξ(Z轴t吨,η(t吨))+t吨η(t吨),t吨ξ(ξη(t吨))}

以及类似的ξ~t吨υ(t吨)产量

ξ~t吨υ(t吨)=Z轴t吨2{P(P)t吨η(t吨),t吨ξ~υ(t吨)(Z轴t吨,η(t吨))+t吨η(t吨),t吨ξ~υ(t吨)(ξ~η(t吨)υ(t吨))}.

回顾这两者ξt吨ξ~t吨υ(t吨)在上共享相同的时变系数η(t吨),…,t吨和相同的创新序列{Z轴t吨}t吨我们有P(P)t吨η(t吨),t吨ξ(Z轴t吨,η(t吨))=P(P)t吨η(t吨),t吨ξ~υ(t吨)(Z轴t吨,η(t吨))因此,考虑到差异,我们

ξt吨ξ~t吨υ(t吨)=Z轴t吨2{t吨η(t吨),t吨(ξη(t吨))t吨η(t吨),t吨(ξ~η(t吨)υ(t吨))}.

定义正随机变量V(V)t吨=Z轴t吨2{t吨η(t吨),t吨(ξη(t吨))+t吨η(t吨),t吨(ξ~η(t吨)υ(t吨))}那么很明显|ξt吨ξ~t吨υ(t吨)|V(V)t吨因此,自A类t吨,,A类t吨η(t吨)共享相同的ARCH系数,我们有E类(V(V)t吨)=[A类t吨t吨η(t吨)E类(ξt吨k个)]1+[A类t吨t吨η(t吨)E类(ξ~t吨k个υ(t吨))]1因此E类(V(V)t吨)A类t吨t吨η(t吨)E类(ξt吨k个)1+A类t吨t吨η(t吨)E类(ξ~t吨k个υ(t吨))1.自A类t吨非负,如果x个是长度的列向量第页这样的话0x个组件式(其中0是长度为0s的列向量第页),然后A类t吨t吨η(t吨)x个A类t吨t吨η(t吨)组件化。根据定理1的假设(f)和(g)E类(ξt吨k个)E类(ξ~t吨k个υ(t吨))由向量从上方按分量定界C类/δ11,其中1是长度为1s的列向量第页.因此E类(V(V)t吨)C类A类t吨t吨η(t吨)11对于一些常量C类但从矩阵的形式来看A类t吨,再次使用假设(f),很明显A类t吨第页1(1δ1)1组件化。这最终导致E类(V(V)t吨)C类{(1δ1)1/第页}t吨η(t吨),这就完成了1埃玛1的证明。

在定理1的其余证明中,我们使用了分解

U型t吨=t吨+εt吨,t吨=0,,T型1,

注意到了|εt吨|2¯,其中¯=啜饮t吨|U型t吨|一般来说,E类(εt吨)0,但它在下面引理4中解释的意义上接近于0。X(X)t吨是一个强α-几何速率混合过程ρ,其中1δ1<ρ<1(见Fryzlewicz和Subba Rao中的定理3.1(2011)),也是U型t吨εt吨,具有相同的速率(参见戴维森的示例定理14.1(1994)).

u个满足η第页0<η第页0+1<<η第页0+q个<u个η第页0+q个+1对于0第页0N个q个,在算法的所有阶段都是如此。表示n个=u个+1,我们定义

U型~,u个b条=(u个b条){n个(b条+1)}t吨=b条U型t吨(b条+1){n个(u个b条)}t吨=b条+1u个U型t吨,~,u个b条=(u个b条){n个(b条+1)}t吨=b条t吨(b条+1){n个(u个b条)}t吨=b条+1u个t吨,

哪里b条满足b条<u个.

在下面的引理2-6中,我们至少施加了以下条件之一:

<η第页0+第页C类δT型<η第页0+第页+C类δT型<u个对一些人来说1第页q个;
(5)
最大值{最小值(η第页0+1,η第页0),最小值(η第页0+q个+1u个,u个η第页0+q个)}C类εT型.
(6)

在整个算法中,条件(5)和条件(6)都适用于从结束于u个其中包含以前未检测到的更改点。由于引理7涉及检测到所有变化点的情况,所以它不使用这些条件中的任何一个。

证明的结构如下:引理2用于引理3;外稃1/4;外稃3和4在5中;外稃5在6中;引理6和7证明了定理1。

引理2

u个满足条件(5);那么就有了1第页*q个这样的话

|~,u个η第页0+第页*|=最大值<t吨<u个|~,u个t吨|C类δT型T型1/2.
(7)
证明

表达式(7)中的等式是文卡特拉曼引理2.3的精确表述(1992). 对于不等式部分,我们注意到,在t吨,第页条件(5)符合第页*我们可以使用t吨更改点的左侧和右侧显示

|~,u个η第页0+第页|=(η第页0+第页+1)(u个η第页0+第页)n个(η第页0+第页η第页0+第页+1),

从下面以C类δT型T型1/2在多个变化点的情况下,我们注意到,对于任何第页满足条件(5),上述顺序保持不变,因此结果(7)如下。

引理3

假设条件(5)成立,进一步假设~,u个η第页0+第页>0对于某些1≤第页q个。那么对于任何k个令人满意的|η第页0+第页k个|=C类0εT型~,u个η第页0+第页>~,u个k个我们有足够大的T型,~,u个η第页0+第页~,u个k个+C类C类0εT型T型1/2.

证明

在不失一般性的情况下,假设η第页0+第页<k个.如引理2所示,我们首先导出t吨以下方程式成立:

~,u个k个=(η第页0+第页+1)(u个k个)(u个η第页0+第页)(k个+1)~,u个η第页0+第页,

˜,u个η第页0+第页˜,u个k个={1(η第页0+第页+1)(u个k个)(u个η第页0+第页)(k个+1)}~,u个η第页0+第页=(1+k个η第页0+第页η第页0+第页+1)(1k个η第页0+第页u个η第页0+第页)(1+k个η第页0+第页η第页0+第页+1)˜,u个η第页0+第页(1+c1C类0εT型/2δT型)(1+c2C类0εT型/2δT型)+o(o)(εT型/δT型)2˜,u个η第页0+第页C类C类0εT型δT型δT型T型1/2=C类C类0εT型T型1/2.
引理4

定义

B类T型=最大值,b条,u个|U型~,u个b条~,u个b条|C类日志α(T型).

我们有P(P)(B类T型)1对于一些积极的αC类.

证明

我们表示

U型~,b条=(u个b条){n个(b条+1)}t吨=b条U型t吨,U型~b条,u个=(b条+1){n个(u个b条)}t吨=b条+1u个U型t吨,~,b条=(u个b条){n个(b条+1)}t吨=b条t吨,~b条,u个=(b条+1){n个(u个b条)}t吨=b条+1u个t吨,

以便U型~,u个b条=U型~,b条U型~b条,u个~,u个b条=~,b条~b条,u个.我们有

P(P){最大值,b条,u个|U型~,u个b条~,u个b条|λ}P(P){最大值,b条,u个|U型~,b条~,b条|+|U型~b条,u个~b条,u个|λ}P(P){最大值,b条,u个|U型~,b条~,b条|λ/2}+P(P){最大值,b条,u个|U型~b条,u个~b条,u个|λ/2}2P(P){最大值,b条,u个|U型~,b条~,b条|λ/2}.

我们现在根据差异以两种不同的方式限制上述概率b条.

  • (a)
    b条“小”:我们有
    U型~,b条~,b条=(u个b条){n个(b条+1)}t吨=b条εt吨;
    注意
    (u个b条){n个(b条+1)}=(u个b条)(u个+1)ν1/2ν1/2,
    哪里ν=b条+ 1. 我们绑定|U型~,b条~,b条|2¯ν1/2,不超过λ/只要νλ2/(16¯2)(其中λ是对数,将在下面建立),它定义了我们所说的小b条.
  • (b)
    b条“大”:在这种情况下ν>λ2/(16¯2),在那里我们可以自由选择λ只要是O(运行){日志α(T型)}主要工具是Bosq中的定理1.3,第(i)部分(1998). 我们首先观察到E类(U型t吨)t吨然而,通过使用引理1,我们证明了,对于t吨远离变化点η(t吨),他们非常接近。考虑差异并使用引理1,我们得到
    |E类(U型t吨)t吨|=|E类({(X(X)t吨,,X(X)t吨τ)}E类{(X(X)~t吨υ(t吨),,X(X)~t吨τυ(t吨))}|C类=0τE类|X(X)t吨2(X(X)~t吨υ(t吨))2|C类=0τE类(V(V)t吨)C类(τ)ρt吨η(t吨),
    (8)
    哪里C类(τ)是一个通用常数(根据此处和下面的方程式变化,取决于τ)以上是由于Lipschitz连续性(·)在其平方参数中。因此我们有
    U型t吨t吨=U型t吨E类(U型t吨)+{E类(U型t吨)t吨}:=εt吨+d日t吨
    (9)
    哪里εt吨=U型t吨E类(U型t吨)|d日t吨|C类(τ)ρt吨η(t吨)(通过表达式(8))。因此,对所有人来说b条我们有
    t吨=b条|d日t吨|t吨=η1T型1|d日t吨|C类(τ)t吨=η1T型1ρt吨η(t吨)=C类(τ)=1N个t吨=ηη+1ρt吨ηC类(τ)N个.
    (10)
    我们在下面使用这个结果。我们绑定了
    P(P){最大值,b条,u个|U型~,b条~,b条|λ/2},b条P(P){最大值u个|U型~,b条~,b条|λ/2}T型2最大值,b条P(P){最大值u个|U型~,b条~,b条|λ/2}.
  • (a)
    此外,通过使用表达式(9)和(10),
    P(P){最大值u个|U型~,b条~,b条|λ/2}P(P)ν1/2t吨=b条(εt吨+d日t吨)λ/2(通过方程式(9))P(P)ν1/2t吨=b条εt吨+ν1/2t吨=b条|d日t吨|λ/2P(P)ν1/2t吨=b条εt吨λ/2C类(τ)ν1/2N个(通过表达式(10))。
    表示λ~=λ/2C类(τ)ν1/2N个.使用Bosq公式(1.25)(1998),我们有
    P(P)ν1/2t吨=b条εt吨λ~4经验λ~2C类~1νq个(ν,T型)+221+C类~2ν1/2λ~1/2q个(ν,T型)αν2q个(ν,T型),
    (11)
    哪里C类~1C类~2是正常数,q个(ν,T型)是[1,…,中的任意整数,…,ν/2], []是的整数部分α(k个)是α-混合系数X(X)t吨哪些是正常的ρk个.合适的选择q个(ν,T型)至关重要。我们设定为q个(ν,T型) =ν/小时(T型),其中小时(T型)顺序与λ~.很明显q个(ν,T型)≤ν/2作为小时(T型)→∞ 还有q个(ν,T型)⩾1作为ν至少是正常的O(运行)(λ~2)。选择以下选项q个(ν,T型),不等式(11)中的界至多变为4经验(λ~/C类~)+C类~4T型5/4ρλ~/2,对于合适的对数选择,它以指数速度收敛到0λ~(请参见附录B有关此费率的详细信息)。这就完成了作为结果的证明λ也是对数的,正如证明声明中所要求的那样。

引理5

假设表达式(5)和(6)。关于活动B类T型从引理4,forb条=参数最大值<t吨<u个|U型~,u个t吨|,存在1≤第页q个这样,对于大多数T型,|b条η第页0+第页|C类εT型.

证明

b条1=参数最大值<t吨<u个|~,u个t吨|.从引理4,|~,u个b条1||U型~,u个b条1|+C类日志α(T型)|U型~,u个b条||~,u个b条|+C类日志α(T型)根据的定义b条,我们有|U型~,u个b条1||U型~,u个b条|把这些放在一起,我们得到

|~,u个b条1||U型~,u个b条1|+C类日志α(T型)|U型~,u个b条|+C类日志α(T型)|~,u个b条|+2C类日志α(T型).
(12)

假设b条(η第页0+第页+C类εT型,η第页0+第页+1C类εT型)对一些人来说第页并且不失通用性~,u个b条>0.来自Venkatraman中的引理2.2(1992),我们有

  • (b)

    ~,u个t吨要么是单调的,要么是递减的,然后是递增的[η第页0+第页,η第页0+第页+1]

  • (c)

    最大值(~,u个η第页0+第页,~,u个η第页0+第页+1)>~,u个b条.

如果~,u个b条局部减少于b条,然后~,u个η第页0+第页>~,u个b条并且,从引理3来看,对于C类足够大,存在b条(η第页0+第页,η第页0+第页+C类εT型]这样的话~,u个η第页0+第页~,u个b条+2C类日志α(T型).自~,u个b条>~,u个b条,这反过来会导致|~,u个b条1||~,u个η第页0+第页|>|~,u个b条|+2C类日志α(T型),这将与结果(12)相矛盾。类似的论点(但涉及η第页0+第页+1而不是η第页0+第页)适用条件是~,u个b条局部增加于b条.

引理6

关于活动B类T型根据引理4,以及表达式(5)和(6),|U型~,u个b条|>C类T型θ,其中b条=参数最大值<t吨<u个|U型~,u个t吨|.

证明

|U型~,u个b条||U型~,u个η第页0+第页*||~,u个η第页0+第页*|C类日志α(T型)C类{δT型T型1/2日志α(T型)}>C类T型θ.

引理7

对于一些正常数C类C类,让u个满足任一条件

  • (a)

    ∃1 ≤第页N个这样的话η第页u个(η第页+1)(u个η第页)C类εT型

  • (b)

    ∃1 ≤第页N个这样的话η第页η第页+1u个(η第页+1)(u个η第页+1)C类εT型.关于活动B类T型从引理4,|U型~,u个b条|<C类T型θ,其中b条=参数最大值<t吨<u个|U型~,u个t吨|.

证明
|U型~,u个b条||~,u个b条|+C类日志α(T型)C类{εT型1/2+日志α(T型)},

其中最后一个不等式使用了~,u个t吨以及条件(a)或(b)。这是,大的T型,其量级低于C类T型θ作为θ>14.

利用引理1–7,定理的证明1简单;事件发生了以下情况B类T型。在算法开始时,作为=0和u个=T型−1,满足引理6的所有条件,并在距离内找到一个变化点C类εT型从真正的变化点,通过引理5.在定理假设下1,条件(5)和条件(6)在每个段内都满足,直到中的每个变化点t吨已确定。然后,满足引理7的两个条件(a)和(b)中的任何一个,并且没有检测到进一步的变化点。

附录B:N作为T函数的说明

允许的最大值N个可以从引理4推断。数量4经验(λ~/C类)+C类4T型5/4ρλ~/2需要收敛到0。该比率是任意的,但要将其设置为T型Δ(Δ<0)或更快,我们需要λ~/C类Δ日志(T型)54日志(T型)+(λ~/2)日志(ρ)Δ日志(T型),给出

λ~最大值2(Δ54)日志(ρ),C类Δ日志(T型)=:C类¯日志(T型).

回顾λ~=λ/2C类(τ)ν1/2N个并选择λ=C类日志α(T型)如引理4所示,我们得到C类(τ)ν1/2N个(C类/2)日志α(T型)C类¯日志(T型)回顾一下ν>λ2/(16¯2),由担保

N个C类日志α(T型){(C类/2)日志α(T型)C类¯日志(T型)}4C类(τ)¯.

这决定了允许的最大更改点数量N个从上述公式可以看出,随着样本量的增加,允许缓慢增加到∞。

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)