总结
考虑由形式的半空间深度函数HD引起的极限分位数区域,因此对于给定的,非常小的第页> 0. 由于这涉及到数据云外的外推,因此很难通过完全非参数程序估计该区域。利用极值理论构造了该分位数区域的自然半参数估计,并证明了一个精确的一致性结果。仿真研究清楚地证明了我们估计器的良好性能。我们将风险管理程序应用于股票市场回报,从而进行风险管理。
1.简介
深度-边远-分位数-排名Serfling范式(2010)说明深度和分位数的概念在某些正则性条件下对于-值随机向量X.统计深度函数(Zuo和Serfling中的定义2.1(2000年))从中心(深度值最大的点)向外提供基于概率的排序,因此在适当的正则性条件下导出多元分位数函数,反之亦然;例如,请参见Serfling(2006). 这里我们考虑一个在Tukey中引入的开创性示例(1975)称为半空间深度由定义哪里P(P)是的概率度量X和是闭半空间类。 深度函数从全局角度测量点相对于中心的边距。这个极端基于深度的分位数区域由非常外围的点组成,即它的形式(1)
对于给定的非常小的数字(在下文中,毫无疑问,我们使用了符号,,和可互换。)它是(1−第页)第个中心区域本身具有许多理想的性质,包括凸性(如果P(P)具有连续分布函数)和嵌套;见左和塞弗林(2000亿). 相应地,极限分位数轮廓定义为值得注意的是,分位数区域也可以在没有任何深度设置的情况下由方向分位数生成;参见Hallin等. (2010)以及Kong和Mizera(2012). 然而,这两种方法需要一个明确的值β,这在这里通常是未知的。极端多元分位数的定义类似,但根据概率密度,在Cai中进行了研究等. (2011); 见第节备注52. 基于深度的极端分位数具有很强的实用价值,特别是在经济学和金融学研究中。一个直接的应用是检测发生概率极低的数据异常值,例如与错误交易和金融危机等异常市场行为相对应的金融数据。第二个应用是揭示多元风险的联合极端行为。这对于风险或投资组合经理了解多种风险或资产之间的多样性非常重要。最后但并非最不重要的是,基于极端深度的分位数可以定义压力测试的不太可能的场景(McNeil和Smith,2012).
本文的目的是估计分位数区域(或分位数轮廓)从随机样本中P(P).的自然非参数估计量可以通过简单地利用样本深度函数来获得。在这里,本着极值统计的精神,第页非常小,通常为1阶/n个。这意味着位于很小,甚至可以是0,为非参数估计它留下的信息很少。事实上,直接基于样本深度的估计器性能较差,这在我们的模拟研究中得到了明确证明。
我们考虑多元规则变化分布,因为我们的兴趣是在远离分布中心和原点的极端分位数区域;例如,请参阅Resnick中的第5.4节(2007).
假设1
随机向量X多元是有规律变化的,即有一个度量ν(指数度量),例如t吨→ ∞,(2)
对于每个Borel集合远离原点并满足ν(∂B类)=0和tB型= {t吨 x个:x个∈B类}. 此外,让ν(B类)>0,如果B类⊃H(H)对一些人来说.
这里的“‖·‖”可以表示.为方便起见,我们将‖·‖作为-规范贯穿本文。当概率分布处于Fréchet分布的最大吸引域时,这种极限关系是单变量极值理论(EVT)中规则变化条件的多变量模拟。它被许多尾部较重的多元分布所满足。例如α-稳定分布和带有重尾的椭圆分布,如多元t吨-分配。什么时候?天=2,也可以使用Einmahl和Krajina中的程序进行正式测试(2016). 由此可见ν是同质的,即存在γ>0,以便所有人t吨> 0(3)
例如,见德哈恩和雷斯尼克(1979). 数字γ被称为极值指数。显然,ν定义了中开放单位球补码的概率测度.利用这个假设,我们将构造一个基于极值统计方法。我们会证明的ν渐进地确定极端分位数区域的形状。我们还假设ν在半空间上为正,以防止极端分位数区域在某些方向上退化。 尽管有许多不同的数据深度概念,但无论其基本分布和广泛适用性如何,半空间深度都有许多吸引人的内在属性。因此,在非参数研究中,它通常是首选的;例如,看Donoho和Gasko(1992)Yeh和Singh(1997)、斯特鲁伊夫和卢梭(1999)和刘等. (1999). 在左和塞弗林(2000年)这可以概括为“与各种竞争对手相比,我们发现半空间深度总体上表现得非常好”。其他深度,如马哈拉诺比斯(1936),空间(乔杜里,1996; 瑟夫林,2002)或基于投影的深度(左,2003),对许多应用都很有用,但主要是因为它们在中部地区的分布特征,而不是在尾部。相反,如下图所示,半空间深度传达了关于尾部概率结构的深刻信息,并提供了与多元EVT的自然联系。更准确地说,我们有以下结果:如果具有概率测度和P(P)和在的某个有界子集外是相同的那么,对于半空间深度和非常小的第页,而对于刚才提到的深度之一(马氏体,基于空间或投影),我们不一定有作为第页↓ 0(其中Δ表示“对称差”)。
不方便的是,在数据的凸包外,样本半空间深度等于0。这可以通过考虑总体上支持的经验分布的平滑版本来规避我们提出的过程可以被视为基于尾部经验分布的这种平滑版本,其中通过使用极值统计来进行平滑。这不仅具有平滑点质量和产生正值的优点(可以通过多种方式实现),而且最重要的是,还可以从统计上更好地估计尾部的半空间深度。许多其他深度,例如空间深度、马氏深度和基于投影的深度,不会受到经验分布离散性的影响,但这本身并不能保证其经验版本尾部具有良好的统计特性。由于未知的潜在深度值,其对应的极端分位数区域的估计仍然是一个问题β,这在尾部很难近似。
本文的结构如下。在节中2我们构造了我们的估计量并展示了它的一些性质,并且建立了一个精确的一致性结果。章节三在模拟研究中证明了我们估计器的卓越性能,而4展示了一个真实的财务应用程序。在线提供证明补充材料.
本文中分析的数据和用于分析这些数据的程序可以从
http://wileyonlinelibrary.com/journal/rss-datasets
2.主要成果
考虑一个随机样本从P(P).定义半径R(右)= ‖X和对于我= 1,…,n个。我们订购s作为.定义和,其中是的左连续逆。我们需要以下假设。
假设2
为所有人β> 0.
这是为了确保为所有人第页∈ (0, 1).
提议1
在假设2下,对于任何0<第页<1,它认为,其中.
从上面可以看出该函数,t吨>0,在∞时随指数−1有规律地变化/γ我们进一步假设如下。
假设3
这比通常使用的带有负二阶参数的二阶条件弱ρ; 参见de Haan和Ferreira中的定理2.3.9(2006).
我们将半空间参数化通过一对参数(第页,u个)带有和.在这里u个是其单位法向量第页是两个值之间内积的下限u个和中的点H(H)。确切地说,我们写作及其收藏然后,半空间深度函数可以简化为因此,我们希望估计的极端分位数区域可以重写为哪里具有作为n个→ ∞. 这意味着两者和β依靠n个,即。和. 根据Tukey的半空间深度,定义极端半空间深度函数请注意对于任何一半空间具有第页⩽0. HD(·,P(P))和HD(·,ν).
提议2
我们通过使用以下关系推导出估计量t吨=U型(n个/k个),其中是一个中间序列,即我们有以下假设。
假设4
满足k个→ ∞ 和k个/n个→ 0,作为n个→ ∞.
第二部分需要应用命题2;第一部分将确保有效样本量趋于∞。现在,通过命题2和ν,我们可以近似具有(4)
替换隐式β通过其近似值第页/ν(S公司)(请参见引理6在线补充材料中)得出哪里 因此,我们需要估算U型(n个/k个),γ,ν(S公司)和S公司。我们从的(k个+1)数据中第个最大半径。极值指数γ可以通过各种方法利用半径的单变量数据进行估计;例如,请参见Hill(1975),史密斯(1987)和德克尔等. (1989). 估计量的典型收敛速度正常对于其余部分,提供度量的估计器就足够了ν,它决定了这两个集合S公司和ν(S公司). 的自然估计ν(B类)在任何Borel集合上B类是使用示例版本哪里是经验概率度量, …,然而,为了恢复ν在我们的估计中,我们采用了另一个关于半空间的估计由提供具有然后我们定义 收集我们估计的以上所有估计量通过和通过 我们给出了估计分位数区域的一些性质.
提案3
在假设2下,估计的分位数区域几乎可以肯定具有以下特性。
有关基于真实或样本半空间深度的分位数区域的类似结果,请参见Donoho和Gasko(1992)左和瑟夫林(2000年,2000亿).
我们现在用“'表示概率收敛。
定理1
假设假设1-4成立是这样的估计量。如果,作为n个→ ∞, 日志(净现值)/√k个→ 0,然后
备注1
上述方法处理第页如显式给出的,并解决隐式β我们认为,相反β明确给出;参见,例如Hallin等. (2010)还有Kong和Mizera(2012). 在这种情况下,可以省略推导估计器的一个步骤:替换β用它的未知渐近代换第页/ν(S公司)现在没有必要,因此程序变得更容易;参见方程式(4)及以下。特别是,我们不需要估计ν(S公司). 准确地说,估计区域变为和修改后的分位数轮廓可以类似地定义。命题3和定理1仍然成立替换为和通过.
备注2
什么时候?第页足够小,我们可以写和具有(唯一)正半径函数ρ和然后,使用在线补充材料可以看出哪里λ表示勒贝格测度。
备注3
我们可以区分以下选项k个用于估算γ和措施ν分别为和说吧。那么定理1要求和满足假设4,和.
实际选择k个对于有限样本来说,这是一个众所周知的问题。启发式指导原则是选择k个这与附近地区的估计值几乎相同。例如,这里可以采用两步选择程序。绘图反对k个,搜索图中的第一个稳定区域并选择作为该区域的中点,并求出γ。然后选择以类似的方式绘制(使用刚刚获得的)反对k个.
备注4
请注意形状与相同S公司,不依赖于n个这意味着极端分位数区域几乎是相似的。此处为极限形状,即S公司,完全由指数度量表征ν通常,极限分位数区域的形状由深度函数的选择决定,但不一定由尾分布情况。例如,对于基于投影的深度,此形状由比例度量确定,通常取投影随机变量的中值绝对偏差;见左(2003).
备注5
蔡等. (2011)研究了以密度而非深度定义的相关极值分位数区域。因此,与本文相比,对于这些分位数区域的构造,显然需要密度的存在,并且为了推导其渐近性质,需要在密度水平上有更强的多元正则变分。因此,本方法具有更广泛的适用性。注意,基于密度的区域可能与当前区域大不相同;例如,它们相应的中心区域不必是凸的。这取决于应用程序的类型,该区域的哪些功能是首选的。
备注6
在Einmahl等. (2015)样本半空间深度已经被细化,以产生在分布的中心部分和尾部都表现良好的估计器。本论文的程序和目标与Einmahl的程序和目的有很大不同等. (2015). 目标是估计HD(·,P(P))在一个非常大的区域为了应用这个改进的估计器,而这里我们关注的是一个在尾部表现良好的过程,并将其用于估计极端分位数区域。更具体地说,在那里,首先在预测数据的单变量水平上对估计量进行细化,而在这里直接使用多元方法。
3.仿真研究
在本节中,我们进行了一项仿真研究,以评估我们的极值分位数估计的有限样本性能。极值指数γ据希尔估计(1975)估计器。箱线图是基于100个场景绘制的。我们考虑以下多元分布:
- a。
- b。
双变量学生-分配()具有密度(5)
- c。
- d。
二元Cauchy的仿射变换(γ=1)随机向量Y(Y),(6)
- e、。
双变量三叶草分布具有密度(这是一种具有三叶草形状(因此是非椭圆形和非凸形)密度轮廓的分布;见蔡等. (2011); 然而,回想一下,基于半空间深度的分位数轮廓总是凸的); - f、。
图。1显示的是二元分布的真实分位数区域和估计分位数区域第页=1/2000,1/5000,1/10000,样本量n个=5000和k个= 400. (对于二元三叶草分布,由于计算复杂性,我们只能描绘近似的真实分位数轮廓。)估计的区域都接近真实区域。很明显,我们(估计)的极端分位数区域属于一个“几乎为空”的空间,即一个几乎没有观测值的空间。
图1。
真的()和估计()分位数区域第页= 1/2000, 1/5000,在一个尺寸为5000的样品上选择k个=400:(a)二元Cauchy;(b) 双变量学生;(c) 二元椭圆;(d) 仿射二元柯西;(e) 二元三叶草
表1显示了EVT估计器相对误差的中位数第页=1/5000,基于100个样本的大小n个=5000或n个= 1000. 在前一种情况下,我们考虑三种不同的选择k个:200、400和800。我们的EVT估计器在所有这些情况下都表现良好。
分发. | . | . |
---|
二元Cauchy | 0.35 | 0.21 | 0.22 | 0.43 | 0.49 | 0.34 | 0.30 | 0.62 |
双变量学生 | 0.42 | 0.29 | 0.33 | 0.42 | 0.70 | 0.52 | 0.55 | 0.84 |
椭圆形 | 0.37 | 0.26 | 0.20 | 0.64 | 0.77 | 0.53 | 0.39 | 1.06 |
阿芬·柯西 | 0.30 | 0.30 | 0.38 | 0.52 | 0.55 | 0.47 | 0.60 | 0.82 |
三元Cauchy | 0.29 | 0.32 | 0.23 | 0.47 | 0.54 | 0.51 | 0.36 | 0.81 |
分发. | . | . |
---|
二元Cauchy | 0.35 | 0.21 | 0.22 | 0.43 | 0.49 | 0.34 | 0.30 | 0.62 |
双变量学生 | 0.42 | 0.29 | 0.33 | 0.42 | 0.70 | 0.52 | 0.55 | 0.84 |
椭圆形 | 0.37 | 0.26 | 0.20 | 0.64 | 0.77 | 0.53 | 0.39 | 1.06 |
阿芬·柯西 | 0.30 | 0.30 | 0.38 | 0.52 | 0.55 | 0.47 | 0.60 | 0.82 |
三变量柯西 | 0.29 | 0.32 | 0.23 | 0.47 | 0.54 | 0.51 | 0.36 | 0.81 |
分发. | . | . |
---|
二元Cauchy | 0.35 | 0.21 | 0.22 | 0.43 | 0.49 | 0.34 | 0.30 | 0.62 |
双变量学生 | 0.42 | 0.29 | 0.33 | 0.42 | 0.70 | 0.52 | 0.55 | 0.84 |
椭圆形 | 0.37 | 0.26 | 0.20 | 0.64 | 0.77 | 0.53 | 0.39 | 1.06 |
阿芬·柯西 | 0.30 | 0.30 | 0.38 | 0.52 | 0.55 | 0.47 | 0.60 | 0.82 |
三元Cauchy | 0.29 | 0.32 | 0.23 | 0.47 | 0.54 | 0.51 | 0.36 | 0.81 |
分发. | . | . |
---|
二元Cauchy | 0.35 | 0.21 | 0.22 | 0.43 | 0.49 | 0.34 | 0.30 | 0.62 |
双变量学生 | 0.42 | 0.29 | 0.33 | 0.42 | 0.70 | 0.52 | 0.55 | 0.84 |
椭圆形 | 0.37 | 0.26 | 0.20 | 0.64 | 0.77 | 0.53 | 0.39 | 1.06 |
阿芬·柯西 | 0.30 | 0.30 | 0.38 | 0.52 | 0.55 | 0.47 | 0.60 | 0.82 |
三元Cauchy | 0.29 | 0.32 | 0.23 | 0.47 | 0.54 | 0.51 | 0.36 | 0.81 |
接下来,我们将EVT估计与(完全)非参数估计进行比较n个=5000。在非参数文献中,只建立了深度的估计值,而不是分位数。因此,我们考虑以下情况β= 1/n个并使用修改后的估计量用于极端分位数区域(见备注1),以确保这些方法具有可比性。一种简单的非参数估计是直接基于样本深度函数的数据凸壳补集的闭包。或者,可以使用Hallin的样本方向分位数线的包络来估计分位数区域等. (2010)或者Kong和Mizera(2012). 图。2显示了一个示例。显然,我们的EVT估计完全优于非参数估计。
图。三清楚地证明了EVT估计器的良好性能。与完全非参数方法相比,它在概率和深度水平上为我们考虑的所有分布产生了更小的中位数和相对误差范围。
图3。
(a)–(e)的箱线图和(f)–(j)对于EVT、非参数(NPar)、Kong和Mizera(2012)(KM)和Hallin等. (2010)(HPS)基于100个5000大小样本的估计β=1/5000(我们选择k个EVT估计值=400):(a),(f)二元Cauchy;(b) ,(g)双变量学生;(c) ,(h)二元椭圆;(d) ,(i)仿射柯西;(e) ,(j)三变量柯西
4.应用
在本节中,我们将介绍一个真实的财务应用程序。从Datastream下载的数据集包括美国标准普尔500指数、英国金融时报证券交易所富时100指数和日本日经225指数的每日国际市场价格指数。样本期为2001年7月2日至2007年6月29日。然后,将每日市场回报率计算为当前价格与一个时期前价格之比的对数,得出每个国家1564个观察值。
与往常一样,股票收益率的平方表现出适度的自相关,Ljung–Box检验拒绝了所有这些单变量数据集的序列独立性。因此,我们无法处理原始数据,因为独立和相同分布观测的假设可能不合适。相反,解决方案是致力于“创新”,这可以通过从原始回报数据中过滤出波动性聚集和杠杆效应来获得。对于每个市场收益的时间序列,我们假设一个指数广义自回归条件异方差GARCH(1,1)模型(Nelson,1991)并通过最大化对应于Student的拟似然拟合参数-t吨-分布式创新,表示为z(z),自由度未知。现在,Ljung–Box测试不会拒绝5%水平下原始、绝对或平方样本创新的序列独立性。创新z(z)也被称为过滤返回。我们对有条件的,根据当时的信息t吨−1,联合原始收益的极端分位数区域,因为它描述了提前1天的分布尾部。这个条件分位数区域可以通过仿射变换从,可以通过我们的方法直接估计。
接下来,我们检查假设1所暗示的单变量收益率正尾和负尾的极值指数的相等性。希尔估计k个=80,对于所有三个市场中过滤收益的右尾数和左尾数,按递增顺序为0.1775、0.1779、0.2230、0.2247、0.2550和0.2614。最大差值为0.0839,根据Hill估计量的渐近正态性,它对应于一个近似值第页-值为0.165。因此,没有证据表明这六个极值指数不相等。我们还使用Einmahl和Krajina的测试测试了三个可能的市场对的过滤收益的二元规则变化(2016). 此外,这三项测试并没有拒绝无效假设(在5%的显著性水平上)。
图。4显示了预测的二元极端分位数区域或原始回报的轮廓第页=2007年7月2日(即提前一个交易日)的1/2000、1/5000、1/10000k个= 160. 这些数字向风险经理传达了关键信息。极端分位数区域揭示了国际资本市场的(有条件的)尾部依赖结构。忽视联合行为可能导致过高估计国际市场风险的多样性,从而低估系统风险;例如,看朗金和索尼克(2001). 此外,这些极端分位数区域还为压力测试提供了一组不太可能的场景(McNeil和Smith,2012).
图4。
2007年7月2日(前一个交易日)原始收益的预测双变量分位数区域第页= 1/2000, 1/5000,基于2001年7月2日至2007年6月29日的价格数据(绘制的回报观测值是使用预测方差根据过滤后的回报计算得出的):(a)美国与英国;(b) 美国与日本;(c) 英国与日本
基于深度的极端分位数区域的另一个应用是检测数据异常值。在这里,我们考虑了离群值的实际定义,即数据点具有罕见的联合创新行为:更准确地说,其创新位于(估计的)过滤收益的分位数区域中,且该分位数区域非常小第页,比如1/10000。注意,高维空间中的异常值不一定是其降维子空间中的意外值。这意味着结果取决于数据空间的选择。在我们的样本中,我们观察到2007年2月27日,在著名的“中国调整”事件中,美国市场出现了最大的亏损。同一天,中国市场指数下跌9%,打破了10年来的记录。我们从图中观察到。5该数据点位于估计值内k个=300,极端三变量分位数区域第页=1/10000,即表面上方的空间。我们得出结论,这一点是三维空间中的一个异常值。
图5。
过滤收益的估计三变量分位数区域第页=
致谢
我们非常感谢两位审稿人,即联合主编和副主编,他们提出了许多有见地的意见、问题和建议,使原稿得到了极大的改进。
工具书类
©2016英国皇家统计学会