摘要
研究了一个相当一般的过程,以扰动满足弱形式多元对称性的多元密度,并生成一组完整的非对称密度。该方法具有足够的通用性,涵盖了文献中的一些最新建议,这些建议与偏态正态分布有各种各样的关系。详细研究了斜椭圆密度的特殊情况,并与现有的类似工作建立了联系。本文的最后部分进一步专门讨论了一种多元斜交形式t吨-密度。对这种分布的似然推断进行了检验,并用数值例子进行了说明。
1.简介
1.1. 动机和目标
人们对多元分布的参数族越来越感兴趣,这些参数族在某种意义上代表了对多元正态族的偏离。这些努力的动机是引入更灵活的参数族,这些参数族能够尽可能地适应实际数据,特别是在非常常见的现象情况下,这些现象的经验结果表现为非正态方式,但仍然与多元正态分布保持一些广泛的相似性。通常,这种偏离常态的现象以大致钟形密度的形式出现,但轮廓线的形状不是很椭圆,和/或轮廓线的间距不是正常密度规定的那么大。
其中一些文献与阿扎里尼和达拉·瓦莱最近研究的所谓多元斜正态(SN)分布有关(1996)阿扎里尼和卡皮塔尼奥(1999);其他研究人员对此进行了进一步的研究,他们的工作将在本节稍后部分引用。这个d日-尺寸SN密度为“标准”形式,不包括位置和比例参数
哪里是密度年对于某些相关矩阵,Φ(·)是N个(0,1)分布函数和α∈ ℝd日.在这里α起形状参数的作用;什么时候α=0,我们恢复正常正常密度。
作为正态分布的进一步推广,阿扎里尼和卡皮塔尼奥(1999)第599页,提出了一个引理,该引理导致构造一个“斜椭圆”密度,即椭圆密度乘以一个合适的倾斜因子,从而使乘积仍然是一个适当的密度。布兰科和戴伊(2001)考虑另一种形式的斜椭圆分布,其与上述分布的联系将在本文中广泛讨论。Genton和Loperfido还完成了椭圆族扩展的其他工作(2002),其中表明了椭圆变量的某些函数的分布性质扩展到它们的偏斜变体,推广了Branco和Dey的类似结果(2001).
阿诺德和海狸(2000年)研究了一种表达变体(1)它将Φ的参数替换为α0+αT型年,其中α0是一个附加参数,随后会调整规范化常数。Capitanio考虑了SN分布的相同变体等。(2003)在图形模型的上下文中。萨胡等. (2001)研究了另一种形式的斜椭圆分布,其中斜因子是d日-维数分布函数,而不是像前面提到的那样的标量函数。以与表达相同的精神(1)阿诺德和海狸(2000亿)研究了多元斜Cauchy分布的一种形式。有关其他参考文献和相关文献的最新评论,请参阅Arnold和Beaver(2002).
本文的一个目的是提出一个相当普遍的表达式扩展(1); 此外,还试图更好地理解上述一些提案之间的联系和相似之处。下面给出了一个广泛的公式第2节专门用于中的斜椭圆形式第3节这一方法涵盖了若干现有提案,似乎为特殊情况提供了一个潜在的总体框架。我们详细讨论了其中的几个问题第4节接下来,我们关注一种形式的多元偏斜t吨-分配。由于这在数学上代表了一个相当容易管理的分布,允许在偏度和峰度方面有足够的灵活性,因此它似乎是一个解决广泛实际问题的有前途的工具。这种偏差的相关似然推断t吨-分布和示例如所示第5节。最后一节提供了简短的一般性讨论。关于SN分布和椭圆族的一些背景信息在本介绍部分的第二部分中给出。
为了简洁起见,论文早期版本中包含的各种结果和证明必须删除。该论文的完整版本可在http://www.stat.unipd.it网站/~azzalini/SN,在那里还可以获得文中提到的免费软件。
1.2. 一些准备工作
1.2.1. 斜态正态分布
给予满分d日×d日协方差矩阵Ω=(ω秒),定义
然后让是相关的相关矩阵;也让ξ,α∈ ℝd日.A型d日-维随机变量Z轴如果密度函数在z(z)∈ ℝd日类型为
然后我们将写信Z轴~序号d日(ξ,Ω,α),指ξ、Ω和α分别作为位置、离散度和形状或偏度参数。密度(1)对应于“标准”分布.
通过改变α,我们得到了各种形状;阿扎里尼和达拉山谷(1996)当d日= 2. 很明显,什么时候α=0,我们回到N个d日(ξ,Ω)密度。累积生成函数为
哪里
从的表达式δ我们有
至少有两种随机表示Z轴这些对于生成随机数和以简单的方式派生几个形式属性很有用。
- (a)
调节方法:假设U型0是标量随机变量,并且U型是一个d日-尺寸变量,使得其中Ω*是一个满秩相关矩阵。那么(U型|U型0>0)是哪里α是的函数δ和; 事实上,我们还可以设置通过对产生的变量进行仿射变换,我们得到了(2). - (b)
转换方法:假设现在其中Ψ是满秩相关矩阵,并定义其中−1<δj个<1适用于j个= 1,…,d日。那么(Z轴1,…,Z轴d日)有d日-尺寸SN分布,参数为δs和Ψ。
已知在标量情况下存在第三种表示。如果(U型0,U型1)是一个具有标准化边缘和相关性的二元正态变量ρ,然后
哪里α= {(1−ρ)/(1+ρ)}1/2罗伯茨给出了这个结果(1966)在标量SN分布的早期显式出现中,后来被Loperfido发现(2002);同样的结论也可以从大卫引用的H.N.Nagaraja的结果中得出(1981),练习5.6.4。将这种表示推广到多元设置以获得密度(1)通过对正态变量的一组max(·)运算是一个悬而未决的问题。
在与正规类共享的许多形式属性中,一个值得注意的事实是
阿扎里尼和卡皮塔尼奥给出了SN变量二次型的其他性质(1999)、杰顿等。(2001)和洛佩西多(2001). 该类的另一个重要属性是变量仿射变换下的闭包Z轴; 特别是,这意味着边缘化下的封闭,即所有子向量的分布Z轴仍为类型(2).
缺少的是条件下的闭包,即Z轴给定另一组组件不是类型(2)。此属性是通过表达式的简单扩展实现的(2)已经被Arnold和Beaver检查过了(2000年)和Capitanio等。(2003). 密度的这种变化形式
哪里τ(τ∈ℝ)是一个附加参数
什么时候?τ= 0,α0=0和表达式(10)降低到密度(2)。不幸的是χ2-财产(9)密度不合适(10),如果τ≠0.密度成因的一种形式(10)通过条件作用使用表达式(6)是通过考虑(U型|U型0+τ> 0).
1.2.2. 椭圆分布
我们简要总结了一些关于椭圆分布的概念,并建立了椭圆分布的表示法,将我们局限于没有离散分量的随机变量。为了全面了解这个话题,我们让读者参考方等。(1990).
A类d日-维连续随机变量年如果是这种形式,则称其为椭圆密度
哪里ξ∈ ℝd日,Ω是协方差矩阵,是来自ℝ的合适函数+至ℝ+称为“密度发生器”,以及c(c)d日是一个规范化常数。然后我们将写信.
基本情况通过设置和c(c)d日=(2π)负极d日/2导致多元正态密度。多元皮尔逊VII型分布提供了另外两个重要的特殊情况,将在下文中广泛使用,其生成器和归一化常数为
哪里ν>0和M(M)>d日/2,根据多元Pearson II型分布
其中0≤x个≤1和ν> −1. VII型分布的特殊重要性在于它包括多变量t吨-密度,当M(M)= (d日+ν)/2,因此也是柯西分布。对于这些分布,我们将使用符号PVIId日(ξ,Ω,M(M),ν)以及分别是。
一种方便的随机表示年是
哪里L(左)T型L(左)=Ω,随机矢量S公司均匀分布在单位球面上d日和R(右)是独立于S公司,称为生成变量。这种表述的直接后果是
哪里意味着分配平等。
椭圆分布在仿射变换和条件下是闭合的。特别是在边缘化的情况下,从以下意义上来说,它们是封闭的:考虑块分割哪里和对应的分区ξ和Ω;然后
同样,对于条件密度,我们有
哪里密度发生器和不一定与.卡诺(1994)已经表明,密度生成器的形式仅在椭圆分布的情况下才在边缘化下保持不变,而椭圆分布可以从正态变量的比例混合中获得。例如,对于多元皮尔逊VII型和II型分布,此属性是正确的。发电机条件分布的大小通常取决于数量问年,但正态分布除外。
2.中心对称性及其扰动得到的分布
我们的出发点是以下命题,它与Azzalini和Capitanio的引理1密切相关(1999). 严格地说,本声明比先前的结果稍有限制,但它的主要优点是需要一组条件,这些条件的满足情况检查起来要简单得多,而且它仍然是一个非常通用的公式。
结果涉及中心对称,这是一个简单而广泛的对称概念,在非参数统计中常用;见左和塞弗林(2000). 其他研究人员用其他术语来指代相同的属性。A类d日-维随机变量年被称为围绕一点中心对称ξ如果.由于我们将处理连续变量,因此上述要求意味着相应的密度函数(f)满足(f)(年负极ξ) =(f)(ξ负极年)为所有人年∈ ℝd日,可忽略不计。可以立即看到,各种丰富的族满足了中心对称的条件;椭圆密度就是一个重要的例子。
提议1。表示方式(f)(年)a的密度函数d日-在0左右中心对称的维连续随机变量G公司标量分布函数,如下所示G公司(−x个)=1−G公司(x个)一切都是真的x个.如果w个(年)是ℝ的函数d日使w个(−年)=−w个(年)为所有人年∈ ℝd日,然后
是密度函数。
证明。表示方式年具有密度的随机变量(f),和依据X(X)具有分布函数的随机变量G公司,独立于年。为了证明这一点W公司=w个(年)具有约为0的对称分布,表示为A类实际直线和by−的Borel集合A类其镜像集通过反转的每个元素的符号而获得A类然后,考虑到这一点年和−年具有相同的分布,
证明了这一点W公司具有指示的属性。然后,注意到X(X)负极W公司具有约为0的对称分布,请写入
这就完成了证明。
以图形方式演示通过表达式获得的充分灵活性(12)选择合适的(f),G公司和w个,我们在案例中给出了以下示例d日= 2. 考虑非椭圆分布
通过将两个对称β密度乘以区间(−1,1)得到,带正参数一和b条。我们通过选择来扰动此密度
哪里第页1,第页2,q个1和q个2是附加参数。我们已经绘制了几幅这种密度的图,获得了一组极其丰富的表面,如以下给出的此类密度的小集合所示图1图中显示了扰动的影响(f)via表达式(12)比正常密度的倾斜因子所带来的影响要复杂得多(2)显然图1纯粹是说明性的,在没有进一步研究的情况下,不建议在实践中使用这类密度函数。
图1
扰动对称β密度示例:(a)(一,b条,第页,q个)=(2, 3, (3, 3), (0, 0)); (b)(一,b条,第页,q个)=(2, 3, (8, 8), (0, 0)); (c)(一,b条,第页,q个)=(3, 1, (−1, 3), (2, 1)); (d)(一,b条,第页,q个)=(3,1.5,(3.1),(2.5,1))
对于具有密度的随机变量(12),Azzalini和Capitanio给出的随机表示(1999),第599页,对于稍微不同的情况,仍然有效。事实上,它的有效性所需的条件实际上是命题1的条件。具体来说,如果年具有密度函数(f)和X(X)是具有分布函数的自变量G公司,然后
具有密度函数(12)。显然,这为生成Z轴这也将被证明是有益的理论目的。
可以看出,从表达式生成SN随机变量的条件处理方法(5)是表达式的特例(13)事实上,考虑到U型0删除上的回归后U型,定义变量
独立于U型.替换符号后,条件的第一个方程式(13)等于U型0>0,如果α由提供方程式(4); 第二个存在类似的对应关系方程式(13)类似地,变量随密度的随机表示(10)通过(U型|U型0+τ>0)可以根据条件重新制定.
如果(f)是椭圆密度,G公司对应于对称于0和w个(年) =αT型年对一些人来说α∈ ℝd日则满足命题1所要求的条件。然后我们得到阿扎里尼和卡皮塔尼奥推论2产生的密度族(1999).
提议2。表示方式年和Z轴二d日-具有密度函数的维数随机变量(f)和表达式(12)分别满足命题1的条件。如果t吨(·)是来自ℝ的函数d日到一些欧几里德空间t吨(−年) =t吨(年)为所有人年∈ ℝd日,然后
证明。证据立竿见影(13).
当t吨(年)表示与原点的距离。因为任何选择t吨(·)必须满足对称条件t吨(年) =t吨(−年),则随机点到原点距离的概率分布与年和用于Z轴特别是我们可以写
对于任何正定矩阵B类.当(f)是Genton和Loperfido给出的椭圆分布(2002).
关于SN变量二次型的各种结果提供了命题2的一组相关应用,所有这些结果都导致了这样的结论:如果变量是SN型的,则正态变量的已知分布结果仍然成立。这组结果包括阿扎里尼和卡皮塔尼奥的命题7-9(1999)和洛佩西多的命题1、2和6(第一部分和第三部分)(2001). 对于这些结论,我们必须考虑函数t吨(·)在命题2中,取适当欧氏空间中的值,例如ℝ+×ℝ+如果考虑两个二次型的独立性。注意阿扎里尼和卡皮塔尼奥的命题8和命题9(1999)在上添加了条件α-参数,但这些不是必需的。与目前的结论没有冲突,因为在他们的命题8中,这个额外的条件是充分性要求的一部分,而他们的命题9(Fisher–Cochran类型的定理)是以比实际可能更严格的形式表述的。
我们在本节结束时讨论了命题1的可能推广。密度的一种非常普遍的形式,类似于密度(12)是沿着以下路线的。表示方式X(X)= (X(X)1,…,X(X)米)T型一个米-具有分布函数的维数随机变量G公司,由年独立人士d日-具有密度函数的维数随机变量(f)和依据w个1(年),…,w个米(年)来自ℝ的一组函数d日到ℝ。目前,我们删除了关于(f),G公司和w个我s;假设这一点不失普遍性w个我(0)=0. 然后
是任意实数选择的密度函数b条1,…,b条米,如果
显然,困难在于计算归一化常数第页。当X(X)和年是多元正态变量。一个相当简单的特殊表达式(15)由表达式给出(10)哪里G公司是标量正态分布函数,并且(f)是φd日(x个;Ω). 密度的一个例子(15)多变量G公司由Sahu提供等. (2001);就他们而言,(f)是d日-尺寸法向密度,G公司是d日-维正态分布函数w个j个是d日线性组合年以及所有b条j个s为0。阿扎里尼绘制的多元分布(1985),第4节以及Arnold和Beaver提出的多重约束模型(2000年),第6节,具有G公司它是米(米≥1)Φ型术语(α我年我)或分别是。Gupta提到的“一般多元偏正态分布”等。(2001),第5节,自从他们采用了G公司哪个是米-维正态分布函数。
什么时候?(f)或G公司或者两者兼而有之(15),不是高斯型,评估第页通常问题要大得多。然而,必须施加某种形式的限制,不仅是为了使问题易于处理,而且因为考虑密度的意义不大(15)在它的全部通用性中,它是如此广泛以至于几乎失去了任何结构。合理的设置如下:假设(f)和G公司都是中心对称的w个我(−年) = −w个我(年)为所有人年∈ ℝd日然后,通过使用与命题1的证明基本相同的论点,我们得出如下结论W公司= (W公司1,…,W公司米) = (w个1(年),…,w个米(年))中心对称;因此如此V(V)= (X(X)1负极W公司1,…,X(X)米负极W公司米)利用中心对称函数的性质。阿诺德和比弗讨论的斜柯西分布及其变体提供了这种设置的一个容易处理的例子(2000亿),使用单变量G公司.
3.斜椭圆密度
本节重点介绍密度的一个重要亚类(12)使用组件(f)椭圆形状,针对三个主要目标。第一是证明阿扎里尼和卡皮塔尼奥提出的两种形式的斜椭圆密度(1999)第599页,布兰科和戴伊(2001)紧密相连。第二个目标是表明SN变量的三种随机表示形式之间的关系在第1.2节结转至斜椭圆变量。此外,随机表示的模拟(11)对于椭圆变量,得到了斜椭圆变量。
3.1. 调节斜椭圆密度
为了简化表示,我们将使用相关矩阵和位置参数0。对于本节的其余部分,U型*表示(d日+1) -分为标量分量的维变量U型0和ad日-量纲向量U型.
布兰科和戴伊(2001)引入了一类通过应用于(d日+1) -维椭圆变量-与中描述的调节方法相同第1.2节与序列号分布相关。下面的命题回顾了他们的关键陈述,直到符号的一些无关紧要的变化。
提案3。考虑随机向量其中Ω*在表达式中定义(5)然后是概率密度函数Z轴= (U型|U型0>0)是
哪里
向量α定义于方程式(4),(f)U型是的密度U型,是的密度发生器(U型0|U型=z(z))以及c(c)1是关联的规范化常数。
为便于以后使用,请注意密度的另一种表达式(16)是
关于定义F类问z(z)(·)为密度发生器对应的分布函数,这个结果导致了Branco和Dey(2001)重写表达式(16)在表格中
其中分布函数F类问z(z)实际上在每个选定点上都不同z(z)。此表达式似乎与表达式不同(12)其中固定分布函数F类涉及。
然而,当数量问z(z)可以从表达式中积分的参数中删除(16)通过适当改变变量,得到的密度函数将变为
哪里F类是一个单变量分布函数w个是这样的对于某些功能小时来自×+很容易证明w个(−z(z))=−w个(z(z))必须保持;因此密度(20)类型为(12).
很难描述类型密度的一般条件(19)可以转换为形式之一(20),但存在可行的特殊情况。我们现在将详细研究这种形式的两个重要案例,即U型*具有PVIId日+1或PIId日+1这是Branco和Dey考虑的分布(2001).
提案4。如果随机向量U型*有PVIId日+1(0,Ω*,M(M),ν)分布,然后是概率密度函数Z轴= (U型|U型0>0)是
哪里问z(z)由提供方程式(17),(f)U型是a的密度分配和F类1(·;M(M),1)是分配。
证明。在Fang中使用结果等。(1990),第82–83页,我们有
和
即PVII的密度1(0,1,M(M),ν+问z(z))和的随参数变化和ν分别是。设置时x个=年(ν+问z(z))−1/2,表达式中的积分(16)成为
它是PVII的分布函数1(0,1,M(M),1)在该点评估变量αT型z(z)(ν+问z(z))−1/2.
3.1.1. 示例1:倾斜t吨-分配
PVII的相关性d日类是由于包含了多变量t吨-家庭作为特殊情况M(M)= (d日+ν)/2. 命题4的相应说明产生了一种形式的多元偏斜t吨-密度。自第4节将完全致力于此分发,我们将推迟到那时进行详细讨论。
提案5。如果(d日+1) -维椭圆随机向量U型*有PIId日+1(0,Ω*,ν)分布,然后是概率密度函数Z轴= (U型|U型0>0)是
哪里问z(z)由提供方程式(17),(f)U型是a的密度变量和F类1(·;ν)是PII的分布函数1(0,1,ν)变量。
证明。考虑到Fang中定义的PII的边缘分布和条件分布的密度,该证明与命题4的证明相同等。(1990),第89-91页。
缺少问z(z)条件密度表征了椭圆族成员之间的多元正态分布。这个事实可以用来对斜椭圆族中的SN分布进行类似的表征。
提案6。功能w个在表达式中(20)是这样的w个(z(z)) =αT型z(z)当且仅当U型*为高斯,即。Z轴为序号。
证明。密度(U型|U型0=z(z))不依赖于问z(z)当且仅当U型*为高斯;参见Fang的定理4.12等。(1990). 在这种情况下,表达式中的积分(16)变成Φ(αT型z(z)),所以.
SN分布和其他类型的斜椭圆分布之间已经显示出一些相似之处。下一个结果允许我们构造一个随机变量扮演与等式中的角色类似的角色(14)对于PVII的歪斜版本d日和PIId日分配。
提案7。让U型*~PVIId日+1(0,Ω*,M(M),ν). 然后
独立于U型.如果U型*~PIId日+1(0,Ω*,ν)那么
独立于U型.
证明。证明是通过直接计算得出的。
因此,我们可以设置
哪里w个(z(z))是z(z)用于F类1在表达式中(21)和(22); 旨在适当分配U型*和转型已选定。此公式建立了类型的方法(13)生成倾斜PVIId日和偏斜PIId日变量。
阿扎利尼和卡皮塔尼奥提案之间的联系(1999)布兰科和戴伊(2001)可以概括如下。调节参数是从正态分布生成SN分布的机制之一,可用于从椭圆分布生成一种形式的斜椭圆分布,从而产生密度(19)或Branco和Dey获得的类似形式。至少在一些重要的特殊情况下,这种类型的表达式可以转换为一种倾斜因子为(f)是一个固定的分布函数,如表达式所示(21)和(22)。这些表达式的类型为(12)本质上是阿扎里尼和卡皮塔尼奥的形式。自然的问题是所有类型的密度(19)可以改写为(12),但我们无法总体证明这一事实。注意,相反的夹杂物不是真的,即并非所有类型的密度(12)可以写在表格中(19),除非对密度分量施加额外限制(12)除了明显的条件(f)是椭圆形的。
下一个结果涉及类型的随机表示(11)对于类型的分布(12)当密度(f)是椭圆形的。例如,该表示法适用于阿扎里尼和卡皮塔尼奥定义的斜椭圆密度(1999),第599页,以及PVII的倾斜版本d日和PIId日之前检查过。
提案8。如果Z轴具有类型的密度(12),其中(f)是的密度,然后Z轴承认随机表示
哪里,R(右)>0的分布与随机表示的半径相同(11)属于U型、和S公司′在ℝ的单位球面上具有非均匀分布d日具体来说,使用球坐标S公司'等于
哪里是来自ℝ的合适函数d日至ℝ,以及X(X)是具有分布函数的独立随机变量G公司此外S公司'给定R(右)=第页类型为(12),具有密度
证明。有关证明,请参阅本文完整版本的附录a,其中还包括函数的定义.
3.1.2. 示例2:随机表示(23)对于斜态正态分布
如果,然后通过应用命题8,我们得到和下列球坐标表示S公司′:
哪里θ= (θ1,θ2,…,θd日−1)T型,α*=L(左)α和X(X)至N个(0,1)独立于R(右)最后,请注意d日1/2X(X)R(右)−1有一个t吨-分配d日自由度,我们有
哪里T型1(·;d日)是标量的分布函数t吨-分配d日自由度。
3.2. 用变换法测定斜椭圆密度
下一个结果显示了这类斜椭圆分布如何反映SN分布的另一个特性。事实上,通过调节方法获得的斜椭圆密度类别与通过应用中回顾的变换方法获得的密度类别相等第1.2节.
提案9。考虑随机向量其中Ψ*如表达式中所示(6),并定义
其中−1<δj个<1.然后是(Z轴1,…,Z轴d日)类型为(16),其中
证明。首先要注意的是|U型0|和U型采取形式。表示方式B类的(d日+1) ×(d日+1) 隐式定义的矩阵方程式(24)这样的话(Z轴0,Z轴1,…,Z轴d日)T型=B类(|U型0|,U型T型)T型,并应用线性变换的常用公式。然后是密度函数(Z轴1,…,Z轴d日)结果是
哪里A类=B类Ψ*B类T型是相关矩阵。考虑表达式(18)结果如下。
变换方法的直接结果是二元情形的进一步生成方法。同样,这为斜椭圆族再现了一种已知适用于SN分布的生成方法。
提案10。如果,由生成的类Z轴=最大值(U型0,U型)等于命题9的转换方法生成的类d日= 2.
证明。首先要注意的是.作为(U型负极U型0)(2−2ρ)−1/2和(U型+U型0)(2+2ρ)−1/2是,其中ρ表示Ω的非对角元素*,结果是命题9直接应用于强制.
4.歪斜t吨-分配
在论文的其余部分,我们将重点关注多元Student的非对称版本的开发t吨-分布,已在中绘制第3.1节本节的目的是为其定义提供更多支持,并更仔细地研究其属性。相关的推理方面将在下一节中讨论。
4.1. 定义和密度
通常的结构t吨-分布是通过正态变量的比率和χ2-变量。如果我们想引入t吨-分布,很自然的选择是用SN变量替换上面的正态变量。
需要γ变量的初步结果。在我们的参数化中,gamma(ψ,λ)指具有平均值的伽马变量ψ/λ和方差ψ/λ2.
引理1。如果V(V)~伽马射线(ψ,λ),那么对于任何一,b条∈ ℝ
哪里T型表示非中心t吨-用2变量ψ自由度和非中心性参数−b条.
证明。让U型至N个(0,1); 然后
哪里
有报价吗t吨-分配。
如前所述,我们定义了歪斜t吨-作为与转换相对应的分布
哪里Z轴具有密度函数(2)具有ξ=0,和,独立于Z轴.对年将其视为SN变量的比例混合,具有混合比例因子V(V)−1/2.引理1对a的应用变量和一些简单的代数导致了年,这是
哪里ω在的开头定义第1.2节,
是a的密度函数d日-维度的t吨-用…变化ν自由度和T型1(x个;ν+d日)表示标量t吨分布函数ν+d日自由度。我们将调用分配(26)倾斜t吨然后写
很容易检查密度(26)与中的草图一致第3.1节使用类型为的命题4(12)此外,出于中解释的原因第3.1节,分发(26)依次与斜面重合t吨-Branco和Dey的分布(2001),尽管从推导中看不到这个等式,因为它们没有提供上述密度的闭合形式表达式。
因此,我们已经看到了定义歪斜的几种不同方法t吨-分布都导致相同的密度(26)。尽管提出了引入歪斜形式的额外建议t吨-密度是可能的,这一点的优点是产生于各种生成标准,而这些标准又与文献的其他部分相联系。
这篇论文的一位评论家评论道,如果我们设置d日= 1,密度(26)不减为形式2t吨1(年;ν)T型1(α年;ν),这似乎是“最自然的”单变量形式的歪斜t吨-Azzalini引理1生成的密度(1985),命题1的先驱。尽管后一种密度具有略为简单的数学表达式的吸引力,但上一段中指出的论点使我们更喜欢密度(26)事实上,人们可以推翻推理,声称Azzalini的引理1(1985)“应该”以命题1的形式陈述d日= 1; 换句话说,没有理由限制w个(年)线性形式α年尤其是在正常情况下。
单变量偏差的备选方案t吨-Fernández和Steel进行了分配(1998)其构造类似于所谓的两件式正常密度(2001)由Jones和Faddy开发(2003)基于β密度的适当转换。偏态的多元形式t吨-琼斯提出了分配方案(2002)但相关的推理方面尚未讨论。多元偏斜的另一种形式t吨-Sahu考虑的分配等. (2001)与…一致方程式(26)在这种情况下d日= 1; 一般情况下d日,它们的密度涉及多变量t吨-分布函数。本文所研究的密度允许进行相对简单的数学处理,并且通过已经提到的机制,它更自然地与SN分布联系在一起。因此,分布具有各种有用的形式属性,这将在本节的其余部分中进行研究。
4.2. 一些属性
4.2.1. 分布函数
为了简化说明,我们得到了年在“标准”情况下ξ=0和.考虑到Z轴根据条件,写
其中(U型0,U型)具有分发(5)不等式符号是按分量表示的。最后一个表达式涉及多变量的积分(d日+1) -尺寸t吨-变量T型′的色散矩阵与分布矩阵相似(5),但符号为δGenz和Bretz给出了计算此类分布函数的算法(1999).
4.2.2. 力矩
使用表示法(25),很容易计算年。为了便于代数,我们假设ξ始终为0。如果表示顺序时刻米,写入
哪里Z轴具有密度函数(2)具有ξ= 0. 众所周知
而对于,我们使用Azzalini和Capitanio给出的结果(1999)还有Genton等. (2001).
首先,我们申请方程式(28)到标量情况。关于定义
我们获得,因为ξ= 0,
前提是ν大于力矩的相应阶数。这些表达与Branco和Dey给出的表达一致(2001),但没有给出更高的时刻。进一步应用方程式(28)给出了三阶和四阶矩,从而得出偏度和峰度指数
在多元情况下,我们从方程式(28)那个仍然有效,前提是ν>1和方程式(29)和ω分别以向量和矩阵形式表示;此外
导致
4.2.3. 线性和二次型
考虑仿射变换一+是的哪里一∈ ℝ米和A类是一个米×d日秩常数矩阵米.使用方程式(25)我们可以写
哪里ξ′ =一+A类ξ。考虑到这一点
根据Azzalini和Capitanio给出的结果(1999)其中的显式表达式α'已给出;Capitanio提供了类似的结果,但形式更为方便等。(2003),附录A.2。因此,我们获得
特别是对于单个组件,年第页说(第页∈ {1,…,d日}),我们有
哪里α第页'由表达式给出(10)属于卡皮塔尼奥等。(2003).
类似地,对于二次型,问= (年负极ξ)T型B类(年负极ξ),其中B类是对称的d日×d日矩阵,我们可以写
对于适当的选择B类,分布Z轴T型B类Z轴是为了一些价值ν‘自由度。其中一个例子是表达式(9),其中B类= Ω−1阿扎里尼和卡皮塔尼奥(1999),第3.3节,考虑了B类; 另请参见Genton等。(2001)以获取更多结果。在所有情况下,当χ2-财产持有Z轴,我们可以立即声明
此属性允许我们生成Healy-type图(Healy,1968)作为数据拟合中的诊断工具,类似于正常和SN情况,仅使用Snedecor分布作为参考分布,而不是χ2-分配。该装置将在随后的数值计算中进行说明。
4.2.4. 扩展的歪斜t吨-分配
如果组件Z轴在里面方程式(25)被视为已分发(10)而不是(2),我们得到了一个与分布作用相似的密度(10)用于倾斜t吨-密度;现在简要讨论一下这一点。
通过再次使用引理1,新的密度被证明是类型(26),除了那个T型1现在指的是t吨-非中心参数分布1,正火常数2替换为1/Φ(τ). 论文的扩展版本中提供了其他属性。
5.偏差的统计方面t吨-分配
5.1. 可能性推断
考虑n个满足该类型回归模型的独立观测值
对于我= 1, …,n个; 在这里x个我是一个第页-维向量和β是一个第页×d日参数矩阵。还让
成为n个×第页设计矩阵。我们有效地考虑了带有偏差误差项的多元回归模型t吨类型。使用这样的分布,实际上甚至是规则的椭圆分布,对n个观察,因为通常这些都应该独立运行。
通过书写来重新参数化问题很方便
哪里A类是上三角形d日×d日对角线项等于1的矩阵ρ∈ ℝd日.个人的贡献我参数的log-likelihood函数θ= (β,A类,ρ,η,日志(ν))就是那个时候
哪里
对数似然函数的最大化必须通过数值实现。为了提高效率,可以将对数似然的导数提供给优化算法;本文扩展版的附录中给出了计算这些导数的详细信息。已经开发了一套R例程,用于评估上述对数似然数及其衍生物,可在前面所示的万维网地址获得。
关于SN分布,Azzalini(1985)阿扎里尼和卡皮塔尼奥(1999)已经强调了似然函数的一些有问题的方面。一个关键特征是α始终有一个平稳点α=0,这又与信息矩阵在α= 0. 这些有问题的特性是引入替代参数化的动机,它克服了大多数(如果不是全部)这些问题。
令人欣慰的是,在目前的情况下,对数似然函数的行为将更加规则,至少对于我们已经探讨过的那些数值例子来说是如此。下面给出了该语句的图形说明图5稍后,它显示了一些剖面对数似然图。这些图指的是一个特定的数据集,但在我们考虑的其他一些数据集中也发现了类似的规律。
图5
Martin-Marietta数据:(a)参数的二次曲线负相对对数似然α和(b)α与日志(ν)
对log-likelihood函数为什么使用skew有一些理论见解是有用的t吨-分布的行为与SN模型非常不同,并且可以收集更多关于其行为的数字证据。然而,这个主题似乎是一个独立的项目,不能在这里进行。
另一方面,费尔南德斯和钢铁(1999)强调了当假设误差项具有t吨-根据数据估计自由度未知的分布。具体地说,他们的定理5指出,如果允许自由度跨越整个范围,参数空间中的某些点的似然函数将变得无界ν∈ (0,∞). 为了避免这种影响,我们必须限制ν到间隔(ν0,∞),其中阈值ν0是的函数X(X)和年例如,对于一个简单的随机样本年我s、 我们获得ν0=d日/(n个−1),这施加了非常轻微的限制。对于Fernández和Steel讨论的烟囱损失数据示例(1999)带有d日=1和第页=3ν0很小,8/13。此外,他们还回忆了一些文献中的数值例子,在这些例子中,不同的研究人员发现了极点;然而,在所有这些情况下,这些极点的值为ν这是非常小的,总是低于0.30。
因此,在实践中,可以通过避开参数空间的某一部分来规避这些困难,而这一部分无论如何都会有点奇怪。然而,事实是ν0依赖于响应变量导致程序缺乏似然推理理论的完全支持。正如Fernández和Steel所倡导的那样(1999)因此,需要从理论上更好地理解这类模型及其相关的对数似然性质。
具有偏斜的回归模型是合理的t吨误差项的行为与使用正则表达式的类似情况非常相似t吨-分布,如Fernández和Steel所讨论的现象(1999). 在下一小节的数值计算中,我们受到了上述考虑因素的驱动,决定忽略对数似然极点ν= 0. 然而,我们已经搜索了它们,但我们唯一成功找到一个的情况是使用堆栈丢失数据ν=0.06,而最大值高于阈值ν0=8/13为.
5.2. 数值示例
5.2.1. 澳大利亚体育数据研究所
基于偏差检查数据拟合过程的结果是有指导意义的t吨-在一些实际案例中进行分配。澳大利亚体育研究所收集了来自202名运动员的几个生物医学变量的数据;见库克和魏斯伯格(1994)用于描述。
我们在这里考虑四个变量(BMI、Bfat、ssf、LBM),分别表示体重指数、体脂百分比、皮肤皱褶总数和瘦体重。安街4-已将分布拟合到202个点,并且图2显示了关联的希利图,使用多元正态分布和偏差t吨-分布,如第4.2节图中显示了与偏差提供的数据的令人满意的拟合t吨-分布,明显优于正态分布拟合。
图2
澳大利亚体育协会数据:(a)正态分布或(b)偏斜时的Healy图t吨-将分布拟合到数据中
图2比赛图6阿扎里尼和卡皮塔尼奥(1999),他们将序列号分布拟合到相同的数据。尽管SN拟合明显优于正态分布拟合,但仍存在一些与现在几乎完全消失的同一直线的差异。
图6
Martin Marietta数据:(a)正态分布或(b)偏斜时的Healy图t吨-将分布拟合到数据中
估计参数的完整列表并不特别有趣,但值得注意的是这证实了存在比正态分布更长的尾巴。
5.2.2. Martin Marietta数据
我们的第二个示例考虑了来自巴特勒表1的数据等. (1990). 根据他们提出的论点,引入线性回归:
哪里年是Martin Marietta公司的超额收益率,CRSP是整个纽约市场超额收益率的指数ε是一个误差项,在我们的情况下,它被视为。一段时间内的数据n个=连续60个月可用。
结果拟合线如所示图3,它显示数据的散点图,其中叠加了最小二乘线和调整后从上述模型获得的线,其截距和斜率为
分别是。这些值与使用Jones(2001)skew获得的值非常接近t吨-分布,以及将相应的回归线添加到图3几乎看不见,基本上与我们的路线一致。估计的偏度参数为标准值1.246/0.653≈1.908,显著性5.6%。估计的自由度为标准误差1.43)。
图3
Martin-Marietta数据:散点图和拟合回归线;-·-·-,最小二乘拟合;--,使用倾斜进行拟合t吨-误差项
作为观测数据和拟合分布之间一致性的进一步指示,图4显示删除线条后残差的直方图和拟合斜度t吨-密度;双方似乎达成了令人满意的协议。
图4
Martin Marietta数据:线性回归残差直方图和拟合偏差t吨-分配
其他有趣的特性由参数的两倍配置文件log-likelihood函数表示α和(α,日志(ν))报告于图5。选择双参数情况的轮廓线,以对应于与最大值的差异,最大值等于的分位数为0.50、0.75、0.90、0.95和0.99-分布;因此,在引用的置信水平下,每个轮廓区域可以解释为这对参数的置信区域。如前所述,这些曲线具有非常规则的行为,离二次函数不远。
最后,图6比较正常和歪斜的希利图t吨已安装的车型。正如预期的那样,正常模型显示出明显的不足,而倾斜t吨-模型表现令人满意。
6.讨论
在多元SN分布的连接概念下,最近的文献中出现了一些广泛相关的建议和结果。本文通过检查它们之间的联系,并提供一种更通用的方法来获得几个具体结果,从而检查了上述许多建议之间的关系,特别是那些处理斜椭圆族各种公式的建议。
在偏斜椭圆族的广泛类别中,多元偏斜t吨-分布提供了足够的灵活性,可以适应非常广泛的实际情况,而且它仍然保持了数学上的可处理性和一组吸引人的形式属性。一些数值证据和为推断开发的软件的可用性为在实际案例中使用该分布提供了额外的支持。文献中还提出了其他有趣的分布,其中大多数属于密度的一般保护伞(12)及其扩展在第2节.
一组广泛且紧密相连的具体结果正在朝着一个相当一般的框架发展。正如我们在本文的不同观点中所提到的,在这一工作领域的概率和推理方面仍存在一些开放性问题,将发现更多但意想不到的结果。然而,在我们看来,现阶段更重要的工作方向是利用现有成果解决实际问题。这是决定所有这些工作实际有用性的最终测试。
鸣谢
我们感谢克里斯·琼斯(Chris Jones)向我们发送了他的论文的初步版本,感谢乔斯·阿尔默·桑基(JoséAlmer Sanqui)提请我们注意罗伯茨(Roberts)(1966)以及一名裁判对本文早期版本的有益评论。这项研究得到了意大利国立理工大学(Universityáe della Ricerca,Italy)教育部(Ministero dell’Instruzione)的资助,资助计划为Progetti di Ricerca di Interesse Nazionale 2000。
工具书类
阿诺德
,公元前。
和海狸
,R·J。
(
2000年
)隐藏截断模型
.Sankhya A公司
,62
,22
–35
.阿诺德
,公元前。
和海狸
,R·J。
(
2000亿
)斜Cauchy分布
.统计师。普罗巴伯。莱特。
,49
,285
–290
.阿诺德
,公元前。
和海狸
,R·J。
(
2002
)与隐藏截断和/或选择性报告相关的倾斜多元模型
.测试
,11
,7
–54
.阿扎利尼
,答:。
(
1985
)包含正态分布的一类分布
.扫描。J.统计。
,12
,171
–178
.阿扎利尼
,答:。
和卡皮塔尼奥
,答:。
(
1999
)多元正态分布的统计应用
.J.R.统计。Soc.B公司
,61
,579
–602
.阿扎利尼
,答:。
和达拉法里
,答:。
(
1996
)多元斜态正态分布
.生物特征
,83
,715
–726
.布兰科
,医学博士。
和戴伊
,D.K.博士。
(
2001
)一类一般的多元斜椭圆分布
.J.Multiv.公司。分析。
,79
,99
–113
.巴特勒
,共和国。
,麦当劳
,J.B。
,纳尔逊
,钢筋混凝土
和白色
,S.B.公司。
(
1990
)回归模型的稳健和部分自适应估计
.经济收益率。统计师。
,72
,321
–327
.卡皮塔尼奥
,答:。
,阿扎利尼
,答:。
和斯坦盖利尼
,E.公司。
(
2003
)斜正态变量的图形模型
.扫描。J.统计。
,30
,在媒体上。厨师
,钢筋混凝土。
和韦斯伯格
,美国。
(
1994
)回归图形简介
.纽约
:威利
.大卫
,H.A.公司。
(
1981
)订单统计
,第2版。纽约
:威利
.方
,K.-T.公司。
,克茨
,美国。
和Ng公司
,英国。
(
1990
)对称多元及相关分布
.伦敦
:查普曼和霍尔
.费尔南德斯
,C、。
和钢材
,M.F.J.医学博士。
(
1998
)胖尾和偏态的贝叶斯建模
.《美国统计杂志》。助理。
,93
,359
–371
.费尔南德斯
,C、。
和钢材
,M.F.J.医学博士。
(
1999
)多元学生-t吨回归模型:陷阱和推断
.生物特征
,86
,153
–168
.让东
,M.G.公司。
,他
,L。
和刘
,十、。
(
2001
)斜法向随机向量的矩及其二次型
.统计师。普罗巴伯。莱特。
,51
,319
–325
.根茨
,答:。
和布雷茨
,F、。
(
1999
)多元数值计算t吨-概率及其在多重对比度功率计算中的应用
.J.统计。计算机模拟
,63
,361
–378
.希利
,M·J·R。
(
1968
)多元正态标绘
.申请。统计师。
,17
,157
–161
.琼斯
,M.C.公司。
(
2001
)歪斜t吨分布
.英寸概率和统计模型及其应用:纪念Theophilos Cacoullos的卷
(编辑C.答。
拉兰比德斯
,M.V.公司。
库特拉斯
和N。
巴拉克里希南
),第页。269
–278
.伦敦
:查普曼和霍尔
.琼斯
,M.C.公司。
(
2002
)多变量t吨与多变量相关的Beta分布F类分配
.梅特里卡
,54
,215
–231
.琼斯
,M.C.公司。
和Faddy公司
,医学博士。
(
2003
)的斜扩展t吨-分发,带应用程序
.J.R.统计。Soc.B公司
,65
,159
–174
.卡诺
,年。
(
1994
)椭圆概率密度函数的一致性
.J.Multiv.公司。分析。
,51
,139
–147
.洛佩尔菲多
,N。
(
2001
)斜法向随机向量的二次型
.统计师。普罗巴伯。莱特。
,54
,381
–387
.洛佩尔菲多
,N。
(
2002
)选择性报告推断结果的统计含义
.统计师。普罗巴伯。莱特。
,56
,13
–22
.罗伯茨
,C、。
(
1966
)双胞胎研究中有用的相关模型
.《美国统计杂志》。助理。
,61
,1184
–1190
.左
,年。
和Serfling公司
,R。
(
2000
)关于相对于多元对称性一般概念的一些鲁棒非参数定位测度的性能
.J.统计。计划信息。
,84
,55
–79
.
©2003皇家统计学会