跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
统计正弦。作者手稿;PMC 2021年4月7日提供。
以最终编辑形式发布为:
统计正弦。2021年4月;31(2): 571–601.
数字对象标识:10.5705/ss.202019.0052
预防性维修识别码:项目管理委员会8026145
美国国立卫生研究院:美国国家卫生研究院1602372
PMID:33833489

高维尖峰模型样本相关矩阵特征结构的渐近性

关联数据

补充资料

摘要

样本相关矩阵被广泛使用,但对于高维数据,除了“零模型”(假设数据具有独立坐标)外,对其光谱特性知之甚少。在尖峰模型类中,我们应用随机矩阵理论推导了样本相关矩阵的主导特征值和特征向量的渐近一阶和分布结果,假设高维区域中零件编号,变量数量第页按样本大小n个,收敛到一个正常量。虽然样本相关矩阵的一阶谱特性与样本协方差矩阵的谱特性相匹配,但它们的渐近分布可能会显著不同。事实上,样本特征值和特征向量的基于相关性的波动通常显著小于其样本协方差对应项的波动。

关键词:样本相关性、特征结构、峰值模型

1.简介

估计相关矩阵是一项基本的统计任务。它广泛应用于生物学中的病毒序列分析和疫苗设计等领域(Dahirel等人,2011年,Quadeer等人,2014年,2018)金融领域的大型投资组合设计(Plerou等人,2002年)射电天文学中的信号检测(Leshem和van der Veen,2001年)和协作筛选(刘等人,2014,阮等,2016)等等。在经典统计设置中,变量数量有限第页和大量样本n个,样本相关矩阵表现良好,并且很好地理解了其统计特性;例如,请参见,吉希克(1939),Konishi(1979),Fang和Krishnaiah(1982),斯科特(1991),Kollo和Neudecker(1993)、和Boik(2003)然而,现代应用程序往往表现出高维度第页在许多情况下n个在这种情况下,由于统计噪声在本征谱中可见的矩阵坐标上的聚集,样本相关矩阵变得不准确(El Karoui,2009年). 这在主成分分析(PCA)中尤其重要,PCA通常涉及将数据投影到样本相关矩阵的主要特征向量上,或者在对数据进行标准化后,将其等效投影到样本协方差矩阵的特征向量上。

尽管广泛使用了样本相关矩阵,但对其高维特征谱的理论性质知之甚少。相比之下,样本协方差矩阵已经被广泛研究,并且现在有大量的文献(例如。,Yao等人(2015)). 它们的渐近性质通常是在高维环境中描述的,在这种环境中,根据随机矩阵理论,样本和变量的数量都会增加,但通常不是以相同的速度增长。样本协方差矩阵的特征值和特征向量的具体一阶和二阶结果在Bai和Silverstein(2009),Couillet和Debbah(2011年)、和Yao等人(2015).

对于高维样品的光谱相关性矩阵,当前的理论结果集中于最简单的“零模型”场景,其中假设数据是独立的。在这个零模型中,相关矩阵与来自独立同分布(i.i.d.)数据的协方差矩阵具有许多相同的渐近性质,平均值和单位方差为零。因此,经验特征值分布几乎可以肯定地收敛到Marchenko–Pastur分布(江,2004b),最大和最小特征值收敛到该分布的边(江,2004b,肖和周,2010). 此外,重标的最大和最小特征值渐近遵循Tracy–Widom定律(Bao等人,2012年,Pillai和Yin,2012年). 还导出了线性谱统计的中心极限定理(CLT)(Gao等人,2017). 另一项工作是研究样本相关矩阵的最大绝对非对角项,称为“相干性”(江,2004a,蔡和江,2011,2012),已被提议作为进行独立性测试的统计数据;另请参见Cochran等人(1995年),梅斯特和瓦莱特(2017)以及其中的参考文献。《英雄与拉贾拉特南》(2011),2012)使用相关统计来识别表现出强相关性的变量,这种方法被称为“相关性筛选”

然而,对于非平凡相关模型,样本相关矩阵谱的渐近结果非常稀少。尤其是,El Karoui(2009年)研究表明,对于谱范数有界的一类比较一般的协方差模型,样本相关矩阵的特征值与单位方差数据的样本协方差矩阵的特征值渐近重合,推广了前人的结果江(2004b)肖和周(2010)在类似的协方差假设下,最近的工作还提出了样本相关矩阵线性谱统计的CLT(梅斯特和瓦莱特,2017年),扩展了Gao等人(2017)。一阶行为再次与样本协方差的行为一致。然而,样本相关矩阵的渐近涨落是完全不同的。

这项研究考虑了一类特殊的相关矩阵模型,即所谓的“尖峰模型”,其中假设种群协方差(或相关)矩阵的几个大或小的特征值与其他特征值很好地分离(约翰斯通,2001). 峰值协方差模型与主要协方差信息位于相对较少的特征模式中的应用相关。这些应用包括认知无线电系统中的协作信号检测(Bianchi等人,2009年),传感器网络中的故障检测(Couillet和Hachem,2013年)阵列处理中的自适应波束形成(Hachem等人,2013年,Vallet等人,2015年,Yang等人,2018)以及生物学中的蛋白质接触预测(Cocco等人,2011年,2013). 对尖峰协方差模型的谱特性进行了深入研究,建立了特征值和特征向量的一阶渐近性质和分布性质的精确分析结果;例如,请参见,Baik等人(2005年),Baik和Silverstein(2006),保罗(2007),白和姚(2008),Benaych-Georges和Nadakuditi(2011年),Couillet和Hachem(2013),Bloemendal等人(2016)。有关评论,另请参阅Couillet和Debbah(2011年,第9章)和Yao等人(2015),第11章)。

对于尖峰模型下样本相关矩阵的谱知之甚少。虽然渐近一阶行为预计与样本协方差的行为一致El Karoui(2009年)一个简单的模拟揭示了样本特征值和特征向量波动的显著差异;看见图1.

保存图片、插图等的外部文件。对象名为nihms-1602372-f0001.jpg

一个简单的模拟显示了样本协方差和样本相关性之间显著的分布差异。发件人n个=200 i.i.d.高斯样本,x100,协方差∑=blkdiag(∑,90),其中(Σ),j个=110=(第页|j个|),j个=110,用于第页=0.95,我们计算样本协方差和样本相关性,并显示:(a)最大样本特征值的经验密度(归一化直方图),以及高斯分布及其估计平均值和标准偏差(实线),以及(b)投影到第二个(x轴)上的领先样本特征向量的散点图和第四(y轴)种群特征向量。在(A)和(b)的样本相关性中观察到显著的方差减少。对于(b)中不同的种群特征向量选择,观察到类似的方差减少;所选择的选择(作为第二和第四特征向量)有助于说明样本到群体特征向量投影中的附加相关性效应。

在这里,我们给出了描述这些观察到的现象的理论结果。在尖峰模型下,我们得到了样本相关矩阵的特征值和特征向量的渐近一阶和分布结果。保罗(2007)在高斯数据的特殊情况下,证明了样本协方差矩阵的定理。本质上,我们给出了样本相关矩阵的这些定理的类比,并将其扩展到非高斯数据。到一阶,特征值和特征向量与样本协方差矩阵的特征值和特点向量渐近重合;然而,它们的波动可能会有很大不同。事实上,对于两个最大样本相关特征值(定理1)以及相应特征向量的投影(定理2),渐近方差允许分解为三项。第一项是高斯数据产生的样本协方差矩阵的渐近方差;第二种方法添加由于非高斯性引起的校正,第三种方法捕获由于样本相关矩阵施加的数据归一化引起的进一步校正。(这最后相当于使用样本方差对样本协方差矩阵的条目进行归一化)。与中所示的示例一致图1(a)在领先样本特征值的CLT中,样本相关特征值通常表现出较低的波动,但方差归一化除外,这与样本协方差特征值相比。如中所示图1(b),(归一化)特征向量投影通常是渐近相关的,即使是高斯数据,与保罗(2007),定理5)。

技术贡献

我们建立并扩展了一组随机矩阵工具,用于研究峰值协方差模型。配套手稿(Johnstone和Yang,2018年)[JY]对样本协方差矩阵进行了阐述和并行处理。这里需要进行重要的调整,以说明样本相关矩阵所施加的数据归一化。在我们工作的关键技术贡献中,以我们的主要定理为基础的是双线性形式和具有归一化项的矩阵二次形式的渐近一阶和分布性质,第4节.在“亚临界”特征值尖峰的情况下,使用一种新的基于正则化的证明策略来确定特征向量投影的不一致性,定理3.

M型

x+第页是有限(4)的随机向量+δ)对一些人来说是第几刻δ> 0. 考虑分区

x=[ξη].

假设ξ具有均值零和协方差∑,并且与η第页,具有i.i.d成分η均值为零,单位方差为。ΣD类=诊断(σ12,,σ2)是包含方差的对角矩阵ξ,并让Γ=ΣD类1/2ΣΣD类1/2是的相关矩阵ξ特征分解Γ=PLP公司T型,其中P(P)= [第页1, …,第页]是特征向量矩阵,并且L(左)=诊断(1, …,)包含峰值相关特征值1≥ … ≥> 0.

的相关矩阵x因此为Γx=blkdiag(Γ,),具有特征值1, …,、1、…、1和相应的特征向量第页1,,第页,e(电子)+1, …,e(电子)+第页,其中第页=[第页T型0第页T型]T型e(电子)j个j个第个规范向量(即除j个th坐标)。

考虑一系列的身份证副本x,第一个n个其中填充了(+第页) ×n个数据矩阵X(X)= (xij公司). 我们假设是固定的,而第页n个增加

γn个=第页/n个γ>0作为第页,n个.

符号

S公司=n个−1XX年T型是样本协方差矩阵,以及S公司D类=诊断(σ^12,,σ^+第页2)是包含样本方差的对角矩阵。R(右)=S公司D类1/2S公司S公司D类1/2为样本相关矩阵,对应ν样本特征值和特征向量满足

R(右)第页^ν=^ν第页^ν,

其中,为了以后使用,我们对第页^ν=[第页^νT型,v(v)^νT型]T型。在这里第页^ν是的子向量第页^ν限制在第一个协调。

对于>1+γ,定义

ρ(,γ)=+γ1,ρ˙(,γ)=ρ(,γ)=1γ(1)2.

对于索引ν,其中ν>1+γ是一个简单的特征值集

ρν=ρ(ν,γ),ρνn个=ρ(ν,γn个),ρ˙ν=ρ˙(ν,γ),ρ˙v(v)n个=ρ˙(ν,γn个).
(1.1)

我们指满足的特征值ν>1+γ作为“超临界”ν1+γ作为“次临界”,数量1+γ称为“相变”

为了描述和解释要遵循的极限分布中的方差项,我们需要一些定义。ξ¯=ξ/σκj个=E类ξ¯ξ¯j个表示的缩放分量ξ及其协方差;当然κii(ii)= 1. 相应的缩放四阶累积量为

κj个j个=E类[ξ¯ξ¯j个ξ¯ξ¯j个]κj个κj个κj个κj个κκj个j个.
(1.2)

什么时候?ξ是高斯的,κj个j个0.

相关矩阵中方差缩放的效果使用以下附加的二次函数进行描述(ξ¯),由定义

χj个=ξ¯ξ¯j个,ψj个=κj个(ξ¯2+ξ¯j个2)/2
(1.3)

κˇj个j个=Cov公司(ψj个,ψj个)Cov公司(ψj个,χj个)Cov公司(χj个,ψj个).
(1.4)

张量表示法

为了方便起见,可以考虑κj个j个κˇj个j个作为四维张量阵列的项κκˇ分别定义一个附加数组P(P)μμνν包含个条目第页μ,第页μ,j个第页ν,第页ν,j个此外,定义P(P)ν作为P(P)νννν最后,对于第二个阵列A类尺寸相同,

[P(P)ν,A类]=,j个,,j个P(P)j个j个νA类j个j个.

2.主要成果

我们的第一个主要结果在第5节,给出了样本相关矩阵最大(峰值)特征值的渐近性质:

定理1

假设模型M、,还有那个 ν>1+γ 是一个简单的特征值。按p/nγ> 0,

()^ν美国。ρν,()n个(^νρνn个)D类N个(0,σ˜ν2),
(2.5)

哪里

σ˜ν2=2ρ˙νν2+ρ˙ν2[P(P)ν,κ]+ρ˙ν2[P(P)ν,κˇ].
(2.6)

居中于ρνn而不是在ρν非常重要。例如,如果,γn个=γ+一个−1/2,然后

n个(^νρν)D类N个(ν(ν1)1,σ˜ν2),

我们看到了一个有限的转变。此外,考虑σ˜νn个2而不是σ˜ν2,通过替换获得ρ˙ν具有ρ˙νn个在里面(2.6),因此

n个(^νρνn个)/σ˜νn个D类N个(0,1).

中的渐近一阶极限(),这很容易导致El Karoui(2009年),与ν从总体协方差Γ数据计算样本协方差矩阵的第h个最大特征值(保罗,2007). 这意味着,在构建R(右)样本方差的归一化对主要特征值没有影响,至少对一阶特征值没有。

然而,当观察渐近分布时,可以看到关键差异,如(ii(ii)),以及方差公式中的(2.6)特别地。这很容易解释。第一项对应于高斯协方差情况下的方差Paul(2007),对于协方差Γ的样本也是如此。第二种方法对非高斯数据的结果进行了修正,请参阅配套文章[JY]。第三项描述了样本相关矩阵的特定贡献,表示样本方差对数据归一化的影响。该项通常为负值,并在推论1如下所示,在补充材料,第1.1节.

推论1

对于ξ高斯定理1简化为

σ˜ν2=2ν2ρ˙ν[1ρ˙ν(2ν信托收据P(P)D类,ν4信托收据(P(P)D类,νΓP(P)D类,ν)2)],

其中PD类,ν=诊断(第页ν,1, …,第页ν,).

因此,计算样本相关性会导致渐近方差按1ρ˙νΔν,相对于样本协方差,其中

Δν=2ν信托收据P(P)D类,ν4信托收据(P(P)D类,νΓP(P)D类,ν)2=2ν第页ν,4,j个(第页ν,κj个第页ν,j个)2

通常是正的,这意味着样本相关性的峰值特征值通常表现出比样本协方差的方差小的方差。事实上,如果

,j个(第页ν,κj个第页ν,j个)2<2ν第页ν,4=,j个第页ν,κj个第页ν,j个(第页ν,2+第页ν,j个2),
(2.7)

最后一个身份来自以下事实ν第页ν,=j个κj个第页ν,j个.条件(2.7),以及方差减少,适用于以下情况:

  1. Γ和第页ν有非负条目,或
  2. 2ν第页ν,4>1,或
  3. 2ν>12.

在情况(i)中,不等式0第页ν,κj个第页ν,j个2第页ν,第页ν,j个第页ν,2+第页ν,j个2产量(2.7)注意,如果Γ具有非负项,则Perron–Frobenius定理建立了具有非负分量的特征向量的存在性1; 此外,如果Γ有正项,根据相同的定理,1是简单的并且与具有正分量的特征向量相关联。案例(ii)源自,j个(第页ν,κj个第页ν,j个)2,j个(第页ν,第页ν,j个)2=1,如果ν>米/2,因为第页ν,41/案例(iii)源自不等式2第页ν,2第页ν,j个2第页ν,4+第页ν,j个4j个κj个2=(Γ2)Γ2=12注意,这是相当特殊的,因为它与特征向量无关,并且它保持不变的必要条件是1≤ 2.

条件(2.7)然而,可能会失败。例如,即使第页∈(0,1),考虑

Γ=(1第页第页1)1/21/2T型,

其中1米/2是(米/2) -所有一的维向量,对应于相同随机向量的两个负相关组。这有简单的超临界特征值1= (1 +第页)米/2和2= (1 −第页)米/2时>2(1+γ)/(1第页),使用第页ν,2=1对于ν= 1, 2. 我们发现Δ2= (1 − 2第页第页2)/2<0第页>21,尽管Δ1>0是因为1>米/2,这意味着情况(ii)。

我们现在讨论特征向量。同样,修复索引ν对于其中ν>1+γ是Γ的简单特征值,具有相应的特征向量第页ν=[第页νT型0第页T型]T型回忆一下第页^ν=[第页^νT型v(v)^νT型]T型ν的第个样本特征向量R(右),并让ν=第页^ν/第页^ν是对应的归一化子向量第页^ν,限制为第一个协调。下一个结果确定了特征向量投影的极限第页^ν,第页ν和用于标准化交叉投影的CLTP(P)T型ν=[第页1T型ν,,第页T型ν]T型; 看见第6.1节6.2.

定理2

假设模型M、,还有那个 ν>1+γ 是一个简单的特征值。然后,作为p/nγ> 0,

()第页^ν,第页ν2美国。ρ˙νν/ρν,()n个(P(P)T型νe(电子)ν)D类N个(0,Σν),

哪里 Σν=D类νΣ˜νD类ν 具有

D类ν=k个ν(νk个)1e(电子)k个e(电子)k个T型
(2.8)

Σ˜ν,k个=ρ˙ν1k个νδk个,+[P(P)k个νν,κ]+[P(P)k个νν,κˇ],
(2.9)

其中δk、 我= 1如果k=l,否则为零.

CLT导致(ii(ii))可以根据以下条目重新表述ν我们很容易获得n个(ν第页ν)D类N个(0,P(P)ΣνP(P)T型); 注意∑ν中有零ν第行和ν第th列。

至于特征值,定理2结果表明,样本相关矩阵的峰值特征向量与样本协方差的峰值特征矢量表现出相同的一阶行为(保罗,2007). 差异再次在于由协方差矩阵∑捕获的渐近波动ν。请注意,它被分解为D类ν对角矩阵与矩阵Σ˜ν,其中包括(2.9)。这些术语的解释与之前在(2.6)也就是说,第一项捕获高斯-协方差模型的渐近波动(保罗,2007)第二项捕获协方差情况下非高斯性的影响[JY],第三项捕获特定于相关情况的信息,表示由于样本方差归一化而产生的波动。注意,只有第一项通常是对角的,这表明特征向量投影可能是渐近相关的,如前面所示图1(b),右侧面板。这也适用于高斯数据,在推论2下方;看见补充材料,第1.2节为了证明。我们注意到协方差矩阵的特征向量投影有一个有趣的对比(保罗,2007),仅由中的前导词描述(2.9).

推论2

对于ξGaussian定理2减少到 Σν=D类νΣ˜νD类ν,

Σ˜ν=νρ˙νL(左)+(ν+L(左))(12Z轴νY(Y))(ν+L(左))+ν(ν2Y(Y)L(左)Y(Y)L(左)),

哪里 Z轴=P(P)T型P(P)D类,ν(ΓΓ)P(P)D类,νP(P),Y(Y)=P(P)T型P(P)D类,ν2P(P),表示哈达玛产品.

因此,对于高斯数据,渐近协方差矩阵的条目由(k个,ν)

Σν,k个=(νk个)1(ν)1[νρ˙νk个δk个,+(ν+k个)(ν+)Z轴k个2ν(ν(k个+)+2k个)Y(Y)k个].

现在考虑次临界情况,其中ν是这样的1<ν1+γ.让第页ν表示相应的种群特征向量,并让^ν第页^ν分别表示相应的样本特征值和特征向量。证据延期至第5.1节6.3,我们得到以下结果:

定理3

假设模型M之间,还有那个 1<ν1+γ 是一个简单的特征值。然后,作为p/nγ> 0,

()^ν美国。(1+γ)2,()第页^ν,第页ν2美国。0.

同样,样本特征值及其相关特征向量的一阶渐近极限与样本协方差的渐近极限相同(Paul,2007年).

回想一下,我们的高维结果假设了一个渐近状态,其中零件编号γ>0,与经典体制相反,其中第页是固定的,并且n个→ ∞. 固定的情况第页对应于γ=0,并且很好地理解了样本相关矩阵的光谱特性;例如,吉希克(1939),Konishi(1979),Fang和Krishnaiah(1982),斯科特(1991),Kollo和Neudecker(1993)、和Boik(2003).何时γ=0,函数ρ()还原为身份。的确,对于固定第页,没有高维分量η在模型M中,因此对ρ(,γ)在以下情况下发生γ> 0. 特别是对于固定第页我们没有对手定理3.

总之,与高维相比(零件编号γ>0)样本协方差设置,我们对样本相关矩阵的尖峰特征值和特征向量的结果证实了一阶渐近行为确实等价于样本协方差矩阵的渐近行为,与以前的结果和观察结果一致(El Karoui,2009年,梅斯特和瓦莱特,2017年). 而特征值限制在定理1定理3作为直接的结果El Karoui(2009年),特征向量结果定理2-()和定理3-(ii(ii))不要。与一阶等价物相反,特征值和特征向量的涨落都存在重要差异,如定理1-(ii(ii))和定理2-(ii(ii)).

我们用一个具有协方差的简单示例来说明这些差异Γ=(1第页)+第页11T型,其中第页∈ [0, 1]; 也就是说,一个具有单位方差和常数相关性的模型第页跨所有组件。此外,ξ为简单起见,假设为高斯。在这种情况下,L(左)=诊断(1, 1 −第页, …, 1 −第页),其中1= 1 +第页(−1)为超临界iff第页>γ/(1).考虑最大样本特征值^1在这种超临界情况下。发件人推论1,可以计算样本协方差和样本相关性的渐近方差,从而得出

σ12=212ρ˙1,σ˜12=σ12(1ρ˙1Δ),

分别使用Δ=21信托收据P(P)D类4信托收据(P(P)D类ΓP(P)D类)2,以及其中

P(P)D类P(P)D类,1=1/2,ρ˙1=1γ第页2(1)2.

图2(a)绘制这些渐近方差与第页用于各种(γ,). 事实上,样本相关性的方差(波动)始终小于样本协方差的方差。差异是惊人的,随着第页1.在各种选择中观察到类似的趋势γ,越高越明显,虽然受变化的影响不大γ这可以从以下事实中理解:=第页(2 −第页) + (1 −第页)2−1= 1 − (1 −第页)2(1 −−1),

σ˜12σ12=1ρ˙1Δ{γ(1)2作为第页1,固定的(1第页)2作为,第页固定的。

现在转到前面的样本特征向量的波动,与上面的设置相同。请注意,在推论2对于这种特殊情况,可以从P(P)T型ΓP(P)=L(左)那个

Z轴=1(1第页2)+第页2e(电子)1e(电子)1T型,Y(Y)=1.

也来自推论2,归一化样本对种群特征向量投影的渐近方差第页2T型1,在样本协方差和样本相关情况下,计算如下

Σ1,22覆盖(cov)=12(第页)2ρ˙1,Σ1,22=Σ1,22覆盖(cov)ζ(rm(毫米))212(1+2),

分别,其中ζ=1第页+12(1+第页)(1+1第页第页)1我们记得1= 1 −第页+rm(毫米)2= 1 −第页。这些差异在以下方面进行了数值评估图2(b)对于与之前相同的参数选择,以及作为的函数第页然而,请注意,为了更好地进行视觉欣赏第页被限制在临界点以上的超临界值γ/(1),因为方差在那一点爆炸。比较评估再次显示样本相关性的较小方差。这里的方差减少在图中不太明显,因为∑1,22Σ1,22覆盖(cov)消失为第页1.然而,该比率的表现与方差比率非常相似σ˜12/σ12:

Σ1,22Σ1,22覆盖(cov)=1ζρ˙1(1+2){γ(1)2作为第页1,固定的(1第页)(1第页/2)作为,第页固定的。

保存图片、插图等的外部文件。对象名为nihms-1602372-f0002.jpg

样本特征值和特征向量波动的差异Γ=(1第页)+第页11T型对于(a)最大样本特征值,示出了非对称方差^1和(b)归一化样本对种群特征向量投影第页2T型1.

我们在结束对主要结果的讨论时,对可能的扩展进行了几点评论。我们的结果假设ν>1是一个简单的特征值,但对具有ν<1,对于具有多重性的峰值应是可能的。对于样本协方差矩阵,已获得特征值的类似结果ν<1,包括大于1的多重数(例如,参见白和姚(2008)),给出了期望相关矩阵得到相应结果的理由。简单样本相关矩阵特征值和特征向量结果的推广ν<1应该相当简单,尽管情况如此γ< 1,γ=1,和γ>1需要单独治疗。对具有多重性的峰值的扩展也是可能的,但在这种情况下,特征向量没有很好地定义,需要考虑子空间投影,需要对我们的技术论点进行非平凡的修改。

本文的其余部分进行如下。首先,在第3节,我们介绍了推导中使用的关键量和恒等式。第4节给出了双线性形式和具有归一化项的矩阵二次形式的必要渐近性质,并将相应的证明归结为补充材料,S3剖面这些性质为描述样本相关矩阵的特征值和特征向量的渐近收敛性和分布提供了基础第5节6分别是。

如前所述,协方差矩阵的简单情况的并行处理在补充手稿[JY]。这旨在统一阐述加标协方差矩阵的已知光谱性质,作为当前工作的基准,以及对文献的额外引用。

3.前期工作

我们从块表示和样本相关矩阵的一些相关约简开始R(右)这些在协方差矩阵设置中是众所周知的。与分区一样x在模型M中,考虑

X(X)=[X(X)1X(X)2],X(X)1×n个,X(X)2第页×n个.

写入S公司D类=blkdiag(S公司D类1,S公司D类2),带有S公司D类1包含对应于ξ、和S公司D类2包含对应于η定义“标准化”数据矩阵X(X)¯1=S公司D类11/2X(X)1X(X)¯2=S公司D类21/2X(X)2,因此

R(右)=n个1[X(X)¯1X(X)¯1T型X(X)¯1X(X)¯2T型X(X)¯2X(X)¯1T型X(X)¯2X(X)¯2T型]=[R(右)11R(右)12R(右)21R(右)22];第页^ν=[第页^νv(v)^ν].

特征向量方程的这种划分R(右)第页^ν=^ν第页^ν,以及第页^ν=[第页^νT型,v(v)^νT型]T型,收益率

R(右)11第页^ν+R(右)12v(v)^ν=^ν第页^v(v)

R(右)21第页^ν+R(右)22v(v)^ν=^νv(v)^ν.

根据第二个方程,v(v)^ν=(^ν第页R(右)22)1R(右)21第页^ν。将其代入第一个方程式中,得出

K(K)(^ν)第页^ν=^ν第页^ν,具有K(K)(t吨)=R(右)11+R(右)12(t吨第页R(右)22)1R(右)21.

因此,^v(v)是的特征值K(K)(^ν),带有相关特征向量第页^ν; 这是我们推导的核心。请注意K(K)(^ν)定义明确,如果^v(v)R(右)22;第5.1节表明这种情况发生的概率为1n个什么时候ν是超临界的。此外,归一化条件,第页^νT型第页^ν+v(v)^νT型v(v)^ν=1产量

第页^νT型(+ν)第页^ν=1,ν=R(右)12(^ν第页R(右)22)2R(右)21.

用信号空间归一化特征向量表示ν=第页^ν/第页^ν,我们有

K(K)(^ν)ν=^νν,νT型(+ν)ν=第页^ν2.
(3.10)

还要注意的是,样本到群体的内积可以重写为

第页^ν,第页ν=第页^ν,第页ν=第页^νν,第页ν.
(3.11)

在CLT结果的推导中,我们使用了一个特征向量扰动公式,其二次误差界在[JY,引理13]中给出,它本身是对保罗(2007)。这将产生密钥扩展

ν第页ν=R(右)νn个D类ν第页ν+第页ν,
(3.12)

哪里

R(右)νn个=νρνn个k个ν(k个ν)1第页k个第页k个T型,D类ν=K(K)(^ν)(ρνn个/ν)Γ,第页ν=O(运行)(D类ν2).

我们的特征值和特征向量结果的推导,如第5节6分别取(3.10),(3.11)(3.12)作为出发点,并依赖于关键对象的渐近性质K(K)(^ν)ν特别是,K(K)(t吨)可以表示为随机矩阵二次型

K(K)(t吨)=n个1X(X)¯1B类n个(t吨)X(X)¯1T型,
(3.13)

使用伍德伯里的身份,

B类n个(t吨)=n个+n个1X(X)¯2T型(t吨第页R(右)22)1X(X)¯2=t吨(t吨n个n个1X(X)¯2T型X(X)¯2)1.

因此,我们的主要目标是涉及规范化数据矩阵的随机二次型X(X)¯1X(X)¯2这些形式的渐近性质是我们结果的基础,下面将介绍。

4.具有规范化条目的二次型

在本节中,我们建立了该类型矩阵二次型的一阶(确定性)收敛性和CLTn个1X(X)¯1B类n个X(X)¯1T型,其中B类n个是谱范数有界的矩阵。虽然对我们的目的至关重要,但一些技术成果可能具有独立的意义;因此,我们首先给出一般结果,然后将其应用于模型M的上下文中。

4.1. 一阶收敛

为了建立一阶收敛性,我们首先需要关于单位长度相关随机向量双线性形式的一些结果。主要技术成果(见补充材料,第3.1条)如下所示:

引理1

设B是一个n×n非随机对称矩阵x,n个是平均值为零、方差为一的身份证条目的随机向量,E类|x|,E类||ν、和E类[x]=ρ.让x¯=n个x/x¯=n个/.然后,对于任意s≥1,

E类|n个1x¯T型B类¯ρn个1信托收据B类|C类[n个(ν2信托收据B类+(ν4信托收据B类2)/2)+B类(n个/2ν4/2+n个+1ν2)],

哪里C类是一个仅依赖于s的常数。

这是对Gao等人(2017年),引理5),其建立了归一化二次型的对应界。引理1导致以下一阶收敛结果:

推论3

让x,y是i的随机向量..d日.平均值为零的条目,方差一,E类|x|4+δ,E类||4+δ< 对于某些δ> 0,E类[x]=ρ.定义x¯=n个x/x¯=n个/,然后让Bn个 是n的序列×n个对称矩阵,具有B类n个有界的.然后,

n个1x¯T型B类n个¯n个1ρ信托收据B类n个美国。0

证明.因为(4+δ)th力矩和‖B类n个‖有界,从引理1,

E类|n个1x¯T型B类n个¯n个1ρ信托收据B类n个|2+δ/2O(运行)(n个(1+δ/4)).

然后根据马尔可夫不等式和Borel-Cantelli引理进行收敛。

我们现在将其应用于M型随机的,随机的矩阵B类n个(X(X)¯2),独立于X(X)¯1:

引理2

假设模型M,并假设B类n个=B类n个(X(X)¯2)是随机对称矩阵序列,其中‖Bn个‖为O美国。(1). 然后,

n个1X(X)¯1B类n个(X(X)¯2)X(X)¯1T型n个1信托收据B类n个(X(X)¯2)Γ..0

证明这遵循福比尼定理。具体来说,可以使用[JY,引理5]的证明中的参数,应用推论3,并注意到X(X)¯1独立于B类n个(X(X)¯2). ☐

4.2. 中心极限定理

为了建立我们的主矩阵二次型CLT结果,我们首先推导了涉及归一化随机向量的标量双线性形式的CLT。为此,我们必须引入一些进一步的符号。考虑零位随机向量(x,)M(M)×M(M),使用

Cov公司(x)=C类=(C类xxC类xC类xC类),

哪里C类x=E类[x].假设C类xx=C类=1; 也就是说x向量具有单位方差和ρ=C类x=E类[x]。我们首先介绍一些二次函数的符号x,.让z(z),w个M(M),使用

z(z)=x,w个=ρ(x2+2)/2,C类z(z)z(z)=Cov公司(z(z)),C类w个z(z)=Cov公司(z(z),w个),e(电子)t吨c.

X(X)= (x)M(M)×n个Y(Y)= ()M(M)×n个be数据矩阵基于n个i.i.d.观察(x,),并定义“标准化”数据矩阵X(X)¯=Σ^x1/2X(X)Y(Y)¯=Σ^1/2Y(Y),其中Σ^x=诊断(σ^x12,,σ^xM(M)2),Σ^=诊断(σ^12,,σ^M(M)2)、和σ^x2=n个1=1n个x2,σ^2=n个1=1n个2。然后,我们对行使用以下符号x¯T型¯T型标准化数据矩阵的

X(X)¯=(x¯)M(M)×n个=[x¯1T型x¯M(M)T型],Y(Y)¯=(¯)M(M)×n个=[¯1T型¯M(M)T型].

通过这种设置,我们得到了以下结果,在补充材料,第3.2条:

提议1

让Bn个=(b)n、 ij公司)是随机对称的n×n矩阵,与X、Y无关,因此对于某些有限的β,‖Bn个‖所有n≤β,以及

n个1=1n个b条n个,2第页ω,n个1信托收据B类n个2第页θ,(n个1信托收据B类n个)2第页ϕ,

都是有限的。此外,定义Z轴n个M(M),带组件

Z轴n个,=n个1/2[x¯.T型B类n个¯.ρ信托收据B类n个].

然后,Z轴n个D类N个M(M)(0,D类),使用

D类=(θω)J+ωK(K)1+ϕK(K)2=θJ+ωK(K)+ϕK(K)2,
(4.14)

其中K=K1−J和J、K1,K2矩阵定义为

J=C类xC类x+C类xxC类K(K)1=C类z(z)z(z)K(K)2=C类w个w个C类w个z(z)C类z(z)w个.
(4.15)

的条目K(K)是的四阶累积量x:

K(K)=E类(xx)E类(x)E类(x)E类(x)E类(x)E类(xx)E类().
(4.16)

因此,K(K)消失,如果x,均为高斯分布。

在[JY定理10]中建立了具有非正规化向量的相应结果。条款θJ+ωK出现在这种情况下,以及附加条款K2反映了x¯.¯.和[JY]一样,证明是基于鞅CLT,而不是基于白和姚(2008),对涉及未归一化随机向量的二次型给出了类似的结果。

虽然可能具有独立利益,提议1通过将其应用于M型,对我们的目的很重要。

提议2

假设模型M,考虑Bn个如中所示提议1.然后,

W公司n个=n个1/2[X(X)¯1B类n个X(X)¯1T型(信托收据B类n个)Γ]D类W公司,

其中W是具有项目W的对称m×m高斯矩阵ij公司,均值为零,协方差由

Cov公司[W公司j个,W公司j个]=θ(κj个κj个+κκj个j个)+ωκj个j个+ϕκˇj个j个,
(4.17)

对于i≤j和i′≤j′。

证明结果如下:提议1通过旋转矩阵二次型X(X)¯1B类n个X(X)¯1T型变成双线性形式的向量;例如,参见[JY,Proposition 6]和白和姚(2008,建议3.1)。具体来说,使用索引对于M(M)=(+ 1)/2对(,j个),1≤j个.构建随机向量(x,)的提议1如下所示:如果= (,j个),然后设置x=ξ=ξj个j个在得到的协方差矩阵中C类的(x,),如果也是′ = (′,j个′),

C类x=E类[ξξj个]/(σσj个)=κj个,C类x=κj个,C类xx=κ,C类=κj个j个

尤其是,ρ=C类x=κj个ρ=κj个,而C类xx=C类=1.组件W公司n个,ij公司对应于组件Z轴在里面提议1因此,我们得出结论:W公司n个D类W公司,其中W公司是均值为零的高斯矩阵Cov公司(W公司j个,W公司,j个)=D类,由提供提议1.仍需解释(4.14)就M型而言,替代x=ξ¯=ξ¯j个进入之内(4.16)并追踪定义,我们得到J=κj个κj个+κκj个j个K(K)=κj个j个.观察z(z)=x=χij公司w个=ρ(x2+2)/2=ψj个,我们同样发现K(K)2,=κˇj个j个. ☐

5.特征值结果的证明

在本节中,我们推导了主要的特征值结果,如定理1定理3-().

5.1. 前期工作

特征值的收敛性R(右)22

众所周知S公司22弱a.s.收敛于Marchenko–Pastur(MP)定律F类γ,并且极值非平凡特征值收敛到F类γ。对于样本相关性情况,江(2004b)表明同样适用于R(右)22即特征值的经验分布μ1≥ … ≥μ第页“噪声”相关矩阵的R(右)22=n个1X(X)¯2X(X)¯2T型弱a.s.收敛于MP定律F类γ,支持于[γ,b条γ]=[(1γ)2,(1+γ)2],如果γ≤1,且在{0}к上[γ,b条γ]否则。此外n个×n个伴随矩阵C类n个=n个1X(X)¯2T型X(X)¯2,用F表示n个,弱收敛于“伴随MP定律”Fγ= (1 −γ)1[0,∞)+γFγ,其中1A类表示集合A上的指示器功能。

此外,江(2004b)说明了这一点

μ1..b条γμ第页n个..γ.
(5.18)

根据这些结果,如果(f)n个(f)一致地作为闭包上的连续函数F的支撑的有界邻域γ,然后:

(f)n个(x)F类n个(d日x)..(f)(x)F类γ(d日x).
(5.19)

如果支持(Fn个)不包含在中,则可能无法定义左侧积分。然而,这样的事件发生的次数最多是有限的n个概率为1。

几乎确定的极限^ν

中的语句定理1-()和定理3-()根据已知结果轻松地进行跟踪。具体来说,表示ν样本协方差的第个特征值S公司通过λ^ν.几乎可以确定的限制

λ^ν..{ρν,ν>1+γ(1+γ)2,1<ν1+γ
(5.20)

成立于Baik和Silverstein(2006).从证明El Karoui(2009年,引理1),

最大值=1,...,|λ^^|..0

因此,与(5.20)等待^ν.

高盈利活动J,Jnϵ1

必要时,我们可以将注意力集中在该事件上Jn个ϵ={^ν>最小值(ρν,ρνn个)ϵ,μ1b条γ+ϵ}Jn个ϵ1={μ1b条γ+ϵ},使用ϵ>0选择为ρνb条γ≥ 3ϵ,因为来自(2.5)(如上所述)和(5.18),这些事件发生的概率为1n个.

的渐近展开K(K)(^ν)

我们建立了二次型的渐近随机展开式K(K)(^ν)具体来说,使用分解

K(K)(^ν)=K(K)(ρνn个)+[K(K)(^ν)K(K)(ρνn个)],
(5.21)

我们证明了这一点

K(K)(ρνn个)..ρν(ρν;γ)Γ=(ρν/ν)Γ
(5.22)

K(K)(^ν)K(K)(ρνn个)=(^νρνn个)[c(ρν)Γ+o个..(1)],
(5.23)

其中,对于t吨支持(F类γ),

(t吨;γ)=(xt吨)1F类γ(d日x),c(t吨)=x(t吨x)2F类γ(d日x).

这里,m是伴随分布F的Stieltjes变换γ.

在建立(5.22),先取足够大的n个使得|ρνnρν| ≤ϵ,使用ϵ定义如上。对于这种情况n个,上的Jnϵ1,我们有

B类n个(ρνn个)ρν+ϵϵ.

因为Jnϵ1持有概率为1的所有大n个, ‖B类n个(ρ¦Αn)‖ =O(运行)美国。(1) 因此,它是由引理2那个

K(K)(ρνn个)n个1信托收据B类n个(ρνn个)Γ..0

此外,(5.19)产量

n个1信托收据B类n个(ρνn个)=ρνn个(ρνn个x)1F类n个(d日x)美国。ρν(ρνx)1F类γ(d日x)=ρν(ρν;γ).

显式求值给出m(ρν;γ) = −1/ℓν[JY,附录A],以及(5.22)跟随。

建立(5.23),我们首先回顾一下C类n个=n个1X(X)¯2T型X(X)¯2,并介绍预解式表示法Z轴(t吨) = (tI公司n个C类n个)−1,因此B类n个(t吨) =tZ(tZ)(t吨)和K(K)(t吨)=n个1X(X)¯1t吨Z轴(t吨)X(X)¯1T型。从预解恒等式,即,A类−1B类−1=A类−1(B类A类)B类−1对于正方形可逆A类B类,并注意到tZ(tZ)(t吨) =C类n个Z轴(t吨) +从伍德伯里的身份来看t吨1,t吨2>b条γ,

t吨1Z轴(t吨1)t吨2Z轴(t吨2)=(t吨1t吨2)C类n个Z轴(t吨1)Z轴(t吨2)

因此,

K(K)(^ν)K(K)(ρνn个)=(^νρνn个)n个1X(X)¯1C类n个Z轴(^ν)Z轴(ρνn个)X(X)¯1T型.

此外,根据预解恒等式,Z轴(^ν)=Z轴(ρνn个)(^νρνn个)Z轴(^ν)Z轴(ρνn个),它产生

K(K)(^ν)K(K)(ρνn个)=(^νρνn个)n个1X(X)¯1B类n个1(ρνn个,ρνn个)X(X)¯1T型+(^νρνn个)2n个1X(X)¯1B类n个2(^ν,ρνn个)X(X)¯1T型,
(5.24)

具有B类编号(t吨1,t吨2)定义为

B类n个第页(t吨1,t吨2)=C类n个Z轴(t吨1)Z轴第页(t吨2).
(5.25)

我们现在描述了中两个矩阵二次型的一阶行为(5.24)首先,我们简单地反映了(5.22)以获得

n个1X(X)¯1B类n个1(ρνn个,ρνn个)X(X)¯1T型美国。c(ρν)Γ.

对于第二种情况,我们再次应用类似的推理,对事件进行操作J具体来说,很容易在J、和用于n个足够大|ρνnρν| ≤ϵ,B类n个2(^ν,ρνn个)有界。因此,B类n个2(^ν,ρνn个)=O(运行)..(1),它是从引理2(5.19)那个

n个1X(X)¯1B类n个2(^ν,ρνn个)X(X)¯1T型=O(运行)..(1).

年的扩张(5.23)通过将后两个方程与(5.24).

的CLTK(K)(ρνn)

我们现在专攻提议2对于矩阵二次型K(K)(ρνn).

提案3

假设模型M,并定义ρνn通过(1.1)和K(ρνn)由(3.13).然后,

W公司n个(ρνn个)=n个[K(K)(ρνn个)n个1信托收据B类n个(ρνn个)Γ]D类W公司ν,

它是一个带有入口的对称高斯随机矩阵W公司j个ν,均值为零,协方差由

Cov公司[W公司j个ν,W公司j个ν]=ρν2ν2ρ˙ν(κj个κj个+κκj个j个)+ρν2ν2(κj个j个+κˇj个j个),
(5.26)

其中ρνρ˙ν定义于(1.1),括号中的术语定义见(1.2)(1.4).

证明回忆一下J1= {μ1b条γ+ϵ},并考虑足够大n个这样的话ρνn>ρνϵ.然后,我们可以申请提议2具有B类n个=B类n个(ρνn个)1Jn个1,独立于X(X)¯1,其中‖B类n个‖有界。具体来说,结果如下:提议2W公司n个(ρνn个)1Jn个1以及以下事实1Jn个1美国。1和详细说明ω,θ、和ϕ在里面(4.17)。这些数量分别表示为ων,θν、和ϕν,可按[JY,附录A]计算,得出

ων=ϕν=(ν1+γ)2(ν1)2=ρν2ν2,θν=(ν1+γ)2(ν1)2γ=ωνρ˙ν.

密封性能

最后,我们建立了推导二阶结果所必需的一些紧性。

我们首先建立了(5.22).定义K(K)0(ρ;γ) := −ρ米(ρ;γ)Γ,这样(5.22)被重写为K(K)(ρνn个)美国。K(K)0(ρν;γ).设置ρ(x) =ρ(ρx)−1,然后写入

信托收据B类n个(ρ)==1n个ρ(ρμ)1==1n个ρ(μ).

此外,引入

n个():==1n个(μ)n个(x)F类γn个(d日x),

我们有

K(K)(ρ)K(K)0(ρ;γn个)=K(K)(ρ)n个1信托收据B类n个(ρ)Γ+ρn个1[=1n个(ρμ)1n个(ρx)1F类γn个(d日x)]Γ=n个1/2W公司n个(ρ)+n个1n个(ρ)Γ.
(5.27)

引理3

假设模型M成立,并且ν>1+γ很简单。对于某些b>ρ1,让我表示间隔[bγ+3ϵ,b]。然后,

{n个(ρ),ρ}u个n个(f)o个第页t吨小时t吨,
(5.28)

{n个1/2[K(K)(ρ)K(K)0(ρ;γn个)],ρ}u个n个(f)o个第页t吨小时t吨,
(5.29)

^νρνn个=O(运行)第页(n个1/2),
(5.30)

ν第页ν=O(运行)第页(n个1/2).
(5.31)

证明.的证明(5.28)(5.30)出现在补充材料,S2系列.我们展示(5.31)使用扩展ν第页ν=R(右)νn个D类ν第页ν+第页ν,中给出(3.12),我们回忆起‖第页ν‖ =O(运行)(‖D类ν2)并注意到R(右)νn个C类D类ν=K(K)(^ν)K(K)0(ρνn个;γn个)。然后我们有ν第页ν=O(运行)第页(‖D类ν‖ + ‖D类ν2). 此外,从

D类νK(K)(^ν)K(K)(ρνn个)+K(K)(ρνn个)K(K)0(ρνn个;γn个),

第一学期是O(运行)第页(n个−1/2)由(5.23)(5.30)第二学期(5.29)因此,

D类ν=O(运行)第页(n个1/2),
(5.32)

证明已经完成。

5.2. 特征值推论(定理1-(ii(ii)))

证明定理1-(ii(ii))依赖关键扩展

n个(^νρνn个)[1+c(ρν)ν+o个第页(1)]=第页νT型W公司n个(ρνn个)第页ν+o个第页(1),
(5.33)

通过组合向量方程得到K(K)(^ν)ν=^ννK(K)0(ρνn;γn个)第页ν=ρνn第页ν带有扩展(5.24)对于K(K)(^ν)K(K)(ρνn个)(5.27)对于K(K)(ρνn) −K(K)0(ρνn;γn个). 具体来说,我们首先使用[K(K)(^ν)^ν]ν=0以获得

第页νT型[K(K)(^ν)^ν]第页ν=(ν第页ν)T型[K(K)(^ν)^ν](ν第页ν)=O(运行)第页(n个1),
(5.34)

因为K(K)(^ν)^ν=O(运行)第页(1)(5.21)(5.23)(2.5)、和ν第页ν=O(运行)第页(n个−1/2)来自引理3。此外,因为[K(K)0(ρνn;γn个) −ρνn]第页ν=0,如下所示

第页νT型[K(K)(^ν)^ν]第页ν=第页νT型[K(K)(^ν)K(K)0(ρνn个;γn个)(^νρνn个)]第页ν=第页νT型[K(K)(^ν)K(K)(ρνn个)(^νρνn个)]第页ν+第页νT型[K(K)(ρνn个)K(K)0(ρνn个;γn个)]第页ν=(^νρνn个)[1+c(ρν)ν+o个第页(1)]+n个1/2第页νT型W公司n个(ρνn个)第页ν+o个第页(n个1/2),
(5.35)

其中最后一个等式来自(5.23),(5.27)、和(5.28).组合(5.34)(5.35)产量(5.33).

的渐近正态性n个(^νρνn个)现在从提案3,具有渐近方差

σ˜ν2=[1+c(ρν)ν]2变量[第页νT型W公司ν第页ν]=(ρ˙νν/ρν)2,j个,,j个P(P)j个j个νCov公司[W公司j个ν,W公司j个ν],

哪里W公司ν×中定义的对称高斯随机矩阵提案3,具有协方差Cov公司[W公司j个ν,W公司j个ν]由提供(5.26)。在上述方差的开发表达式中使用此项将导致

σ˜ν2=ρ˙ν,j个,,j个P(P)j个j个ν(κj个κj个+κκj个j个)+ρ˙ν2[P(P)ν,κ+κˇ].
(5.36)

通过对称性和本征方程(Γ第页ν)=j个κj个第页ν,j个=ν第页ν,,我们有

,j个,,j个P(P)j个j个νκκj个j个=,j个,,j个P(P)j个j个νκj个κj个=,j个第页ν,第页ν,j个(Γ第页ν)(Γ第页ν)j个=ν2,j个(第页ν,第页ν,j个)2=ν2.

因此(5.36)减少到2ρ˙νν2,屈服公式(2.6)属于定理1.

6.特征向量结果的证明

我们现在推导出主要特征向量结果,如定理2定理3-(ii(ii)).

6.1. 特征向量不一致(定理2-())

的收敛结果定理2-()以下是两个事实:ν..第页νν..c(ρν)Γ,如下所示。一旦这些事实成立(3.10),

第页^ν2美国。第页νT型(+c(ρν)Γ)第页ν=1+c(ρν)ν=ρννρ˙ν,

这将导致

美国。第页^ν,第页ν2=美国。第页^ν,第页ν2=美国。第页^ν2=νρ˙νρν.

的证明ν美国。第页ν

这是以下情况的直接后果(3.12)

D类ν=K(K)(ρνn个)(ρνn个/ν)Γ+K(K)(^ν)K(K)(ρνn个)..0,

以下为(5.22),(5.23)以及以下事实^νρνn个美国。0,中给出(2.5).

的证明ν..c(ρν)Γ

使用Z轴ˇ(t吨)=(t吨第页R(右)22)1,我们有

ν=R(右)12Z轴ˇ2(ρν)R(右)21+R(右)12[Z轴ˇ2(^ν)Z轴ˇ2(ρν)]R(右)21ν1+ν2.

重写ν1=n个1X(X)¯1B类ˇn个1X(X)¯1T型,使用B类ˇn个1=n个1X(X)¯2T型Z轴ˇ2(ρν)X(X)¯2.关于高概率事件J1= {μ1b条γ+ϵ},使用ϵ>0,这样ρνb条γ≥ 2ϵ,很容易确定B类ˇn个1是有界的,因此B类ˇn个1=O(运行)..(1)因此,引理2可以应用于ν1此外,来自(5.19)并注意到

n个1信托收据B类ˇn个1=n个1信托收据B类n个1(ρν,ρν),

具有B类n个1定义于(5.25),我们有

n个1信托收据B类ˇn个1..x(ρνx)2F类γ(d日x)=c(ρν).

这个和引理2暗示ν1美国。c(ρν)Γ.

还有待展示ν2..0。使用预解式标识的变体,即,A类−2B类−2= −A类−2(A类2B类2)B类−2对于正方形可逆A类B类,我们重写

ν2=2(^νρν)n个1X(X)¯1B类ˇn个2X(X)¯1T型,

具有B类ˇn个2=n个1X(X)¯2T型Z轴ˇ2(^ν)[12(^ν+ρν)R(右)22]Z轴ˇ2(ρν)X(X)¯2.处理高概率事件J,可以验证B类ˇn个2=O(运行)..(1)因此,引理2与一起(5.19)暗示n个1X(X)¯1B类ˇn个2X(X)¯1T型=O(运行)..(1).因为^ν..ρν,我们得出结论ν2美国。0.

6.2. 特征向量波动(定理2-(ii(ii)))

同样,我们使用密钥扩展(3.12).因为‖第页ν‖ =O(运行)(‖D类ν2) =O(运行)第页(n个−1)来自(5.32),我们有

n个(ν第页ν)=R(右)νn个n个D类ν第页ν+o个第页(1).

此外,使用类似的分解推导(5.35),

n个D类ν=n个[K(K)(^ν)K(K)(ρνn个)]+n个[K(K)(ρνn个)K(K)0(ρνn个,γn个)]=W公司n个(ρνn个)n个(^νρνn个)c(ρν)Γ+o个第页(1),

我们使用的位置(5.23)(5.27),以及(5.28)(5.30)属于引理3因此,请注意R(右)νn个Γ第页ν=νR(右)νn个第页ν=0从定义R(右)νn个在里面(3.12),我们有

n个(ν第页ν)=R(右)νn个W公司n个(ρνn个)第页ν+o个第页(1),

或同等标准,

n个(P(P)T型νe(电子)ν)=R(右)˜νn个W公司˜n个(ρνn个)e(电子)ν+o个第页(1),

哪里

R(右)˜νn个=νρνn个k个ν(k个ν)1e(电子)k个e(电子)k个T型,W公司˜n个(ρνn个)=P(P)T型W公司n个(ρνn个)P(P).

的CLTP(P)T型 ν现在从提案3特别是,

n个(P(P)T型νe(电子)ν)D类R(右)˜νw个ν~N个(0,Σν),

哪里R(右)˜ν=(ν/ρν)D类ν,召回(2.8)、和w个ν=P(P)T型 W公司ν第页ν,使用W公司ν定义于提案3.协方差矩阵Σν=R(右)˜νE类[w个νw个νT型]R(右)˜ν=D类νΣ˜νD类ν,使用Σ˜ν=(ν/ρν)2E类[w个νw个νT型]. Thek个的第个分量w个ν由提供w个ν(k个)=第页k个T型W公司ν第页ν=,j个第页k个,W公司j个ν第页ν,j个因此,

Σ˜ν,k个=,j个,,j个第页k个,第页ν,j个第页,第页ν,j个(ν/ρν)2Cov公司[W公司j个ν,W公司j个ν].
(6.37)

定理2-(ii(ii))替换后跟随(5.26)对于Cov公司[W公司j个ν,W公司j个ν]并注意到,当k个,ν,

,j个,,j个第页k个,第页ν,j个第页,第页ν,j个(κκj个j个+κj个κj个)=第页k个T型Γ第页第页νT型Γ第页ν+第页k个T型Γ第页ν第页νT型Γ第页=δk个k个ν.

6.3. 亚临界情况下的特征向量不一致性(定理3-(ii(ii)))

发件人(3.10)(3.11),足以证明νT型νν..为了定理3-(ii(ii))等待。我们通过展示λ最小值(ν)美国。。该方法使用的是ν,

νϵ(t吨)=R(右)12[(t吨第页R(右)22)2+ϵ2第页]1R(右)21,

对于ϵ> 0. 请注意ννϵ(^ν),因此

inf公司λ最小值(ν)inf公司λ最小值(νϵ(^ν))=inf公司λ最小值(νϵ(b条γ)+Δνϵ),

哪里Δνϵ:=νϵ(^ν)νϵ(b条γ)(回忆一下^ν美国。b条γ)。我们证明了这一点Δνϵ..0、和

νϵ(b条γ)..x[(b条γx)2+ϵ2]1F类γ(d日x)Γ=cγ(ϵ)Γ,
(6.38)

说。因为λ最小值(·)是上的连续函数×矩阵,我们得出以下结论

inf公司λ最小值(ν)cγ(ϵ)λ最小值(Γ),
(6.39)

而且因为cγ(ϵ) ≥c(b条γ+ϵ)和c(b条γ+ϵ) ↗ ∞ 作为ϵ0,通过[JY,附录A],我们获得λ最小值(ν)美国。.我们写作νϵ(t吨)=n个1X(X)¯1B类ˇn个ϵ(t吨)X(X)¯1,使用

B类ˇn个ϵ(t吨)=n个1X(X)¯2T型[(t吨第页n个1X(X)¯2X(X)¯2T型)2+ϵ2第页]1X(X)¯2=H(H)诊断{(f)ϵ(μ,t吨)}H(H)T型,

如果我们写下奇异值分解n个1/2X(X)¯2=V(V)M(M)1/2H(H)T型,使用M(M)=诊断(μ)=1第页并定义(f)ϵ(μ,t吨)=μ[(t吨μ)2+ϵ2]1显然,B类ˇn个ϵ(t吨)ϵ2μ1几乎肯定是有界的。因此,引理2可以应用于νϵ(b条γ),因为

n个1信托收据B类ˇn个ϵ(b条γ)..(f)ϵ(x,b条γ)F类γ(d日x)=cγ(ϵ)

(5.19),我们的索赔(6.38)跟随。

现在考虑Δνϵ.修复这样‖2=1,并设置b条=n个1/2H(H)T型X(X)¯1T型.我们有

T型Δνϵ==1第页b条2[(f)ϵ(μ,^ν)(f)ϵ(μ,b条γ)].

因为|(f)ϵ(μ,t吨)/t吨|=|2μ(t吨μ)|/[(t吨μ)2+ϵ2]2μ/ϵ,用于μ,ϵ>0,通过算术平均-几何平均不等式,我们得到

|T型Δνϵ|μ1ϵ|^νb条γ|b条22=μ1ϵ|^νb条γ|T型R(右)11μ1ϵ|^νb条γ|^1美国。0,

根据对称矩阵特征值的柯西交错不等式,定理1-()和定理3-(). 因此,Δνϵ..0和证明(6.39)因此定理3-(ii(ii))已完成。

补充材料

供应_初始_最终.pdf

单击此处查看。(249K,pdf)

致谢

这项工作得到了NIH R01 EB001988(IMJ,JY)、香港RGC普通研究基金16202918(MRM,DMJ)和三星奖学金(JY)的部分支持。

脚注

补充材料

在线补充材料提供以下证据:()我们主要结果的高斯特殊化(推论12); (ii(ii))仪表气密性引理3; 和()中归一化双线性形式的渐近性质引理1提议1; 看见截面S1,S2系列、和第3章分别是。

工具书类

  • Bai Z和Yao J-F(2008)。尖峰种群模型特征值的中心极限定理.《亨利·庞加莱研究所年鉴》,概率与统计 44(), 447–474.[谷歌学者]
  • Bai ZD和Silverstein J(2009)。大维随机矩阵的谱分析(第二版)。纽约:斯普林格。[谷歌学者]
  • Baik J、Ben Arous G和PéchéS(2005年)。非零复样本协方差矩阵最大特征值的相变.概率年报 33(5), 1643–1697.[谷歌学者]
  • Baik J和Silverstein JW(2006)。尖峰种群模型大样本协方差矩阵的特征值.多元分析杂志 97(6), 1382–1408.[谷歌学者]
  • Bao Z、Pan G和Zhou W(2012)。样本相关矩阵极值特征值的Tracy-Widom定律.概率电子杂志 17, 1–32.[谷歌学者]
  • Benaych-Georges F和Nadakuditi RR(2011年)。大型随机矩阵有限低秩摄动的特征值和特征向量.数学进展 227(1), 494–521.[谷歌学者]
  • Bianchi P、Najim J、Maida M和Debbah M(2009年)。基于特征的协同感知假设检验的性能分析2009年IEEE/SP第15届统计信号处理研讨会,第5-8页。[谷歌学者]
  • Bloemendal A、Knowles A、Yau H-T和Yin J(2016)。关于样本协方差矩阵的主成分.概率论及其相关领域 164(1), 459–552.[谷歌学者]
  • Boik RJ(2003)。相关矩阵的主成分模型.生物特征 90(), 679–701.[谷歌学者]
  • Cai TT和Jiang T(2011)。随机矩阵相干性的限制律及其在协方差结构测试和压缩传感矩阵构造中的应用.统计年刊 39(), 1496–1525.[谷歌学者]
  • Cai TT和Jiang T(2012)。高维随机矩阵相干极限分布中的相变.多元分析杂志 107, 24–39.[谷歌学者]
  • Cocco S、Monasson R和Sessak V(2011年)。广义Hopfield模型的高维推理:主成分分析和修正.物理审查E 83(5), 051123. [公共医学][谷歌学者]
  • Cocco S、Monasson R和Weigt M(2013年)。从主成分到蛋白质协同进化的直接耦合分析:结构预测需要低本征值模式.计算生物学 9(8), 1–17.[PMC免费文章][公共医学][谷歌学者]
  • Cochran D、Gish H和Sinno D(1995年)。一种多通道信号检测的几何方法.IEEE信号处理汇刊 43(9), 2049–2057.[谷歌学者]
  • Couillet R和Debbah M(2011年)。无线通信中的随机矩阵方法剑桥大学出版社。[谷歌学者]
  • Couillet R和Hachem W(2013)。传感器网络中尖峰随机矩阵模型的波动与故障诊断.IEEE信息理论汇刊 59(1), 509–525.[谷歌学者]
  • Dahirel V、Shekhar K、Pereyra F、Miura T、Artyomov M、Talsania S、Allen TM、Altfeld M、Carrington MN、Irvine DJ、Walker BD和Chakraborty AK(2011年)。HIV进化的协调联系揭示了免疫脆弱性区域.美国国家科学院院刊 108(28), 11530–11535.[PMC免费文章][公共医学][谷歌学者]
  • El Karoui N(2009年)。随机矩阵的测度和谱的集中:在相关矩阵、椭圆分布及其他方面的应用.应用概率年鉴 19(6), 2362–2405.[谷歌学者]
  • Fang C和Krishnaiah P(1982)。非正态总体随机矩阵特征值函数的渐近分布.多元分析杂志 12(1), 39–63.[谷歌学者]
  • 高J、韩X、潘G和杨Y(2017)。高维相关矩阵:中心极限定理及其应用.英国皇家统计学会杂志:B辑(统计方法) 79(), 677–693.[谷歌学者]
  • Girshick MA(1939年)。行列式方程根的抽样理论.数理统计年报 10(), 203–224.[谷歌学者]
  • Hachem W、Loubaton P、Mestre X、Najim J和Vallet P(2013年)。大随机矩阵定秩扰动的子空间估计.多元分析杂志 114, 427–447.[谷歌学者]
  • 《英雄A》和《拉贾拉特南B》(2011年)。大尺度相关筛选.美国统计协会杂志 106(496), 1540–1552.[谷歌学者]
  • 英雄A和拉贾拉特南B(2012)。部分相关图中的中心发现.IEEE信息理论汇刊 58(9), 6064–6078.[谷歌学者]
  • 姜涛(2004a)。样本相关矩阵最大项的渐近分布.应用概率年鉴 14(2), 865–880.[谷歌学者]
  • 江T(2004b)。样本相关矩阵特征值的极限分布.桑赫拉:印度统计杂志(2003-2007) 66(1), 35–48.[谷歌学者]
  • Johnstone IM(2001)。主成分分析中最大特征值的分布.统计年刊 29(2), 295–327.[谷歌学者]
  • Johnstone IM和Yang J(2018)。关于非高斯数据尖峰模型样本特征结构渐近性的注记.arXiv:1810.10427.[谷歌学者]
  • Kollo T和Neudecker H(1993年)。样本方差矩阵和相关矩阵的特征值和单位长度特征向量的渐近性.多元分析杂志 47(2), 283–300.[谷歌学者]
  • Konishi S(1979)。主成分分析中基于样本相关矩阵的统计分布的渐近展开式.广岛数学杂志 9(), 647–700.[谷歌学者]
  • Leshem A和van der Veen A-J(2001)。基于未校准接收机的高斯信号多通道检测.IEEE信号处理信件 8(4), 120–122.[谷歌学者]
  • 刘华、胡忠、勉A、田华和朱X(2014)。一种新的用户相似性模型用于提高协同过滤的准确性.基于知识的系统 56, 156–166.[谷歌学者]
  • Mestre X和Vallet P(2017年)。样本相关矩阵的相关检验和线性谱统计.IEEE信息理论汇刊 63(7), 4585–4618.[谷歌学者]
  • Paul D(2007)。大维尖峰协方差模型样本特征结构的渐近性.中国统计局 17, 1617–1642.[谷歌学者]
  • Pillai NS和Yin J(2012)。相关矩阵的边普适性.统计年刊 40(), 1737–1763.[谷歌学者]
  • Plerou V、Gopikrishnan P、Rosenow B、Amaral L、Guhr T和Stanley H(2002年)。金融数据互相关的随机矩阵方法.物理审查E 65, 066126. [公共医学][谷歌学者]
  • Quadeer AA、Louie RHY、Shekhar K、Chakraborty AK、Hsing I-M和McKay MR(2014)。基因型1a丙型肝炎病毒非结构蛋白3患者衍生序列替代的统计连锁分析暴露了免疫原设计的靶点.病毒学杂志 88(13), 7628–7644.[PMC免费文章][公共医学][谷歌学者]
  • Quadeer AA、Morales-Jimenez D和McKay MR(2018年)。HIV/HCV的协同进化网络是模块化的,与结构和功能直接相关.计算生物学 14(9), 1–29.[PMC免费文章][公共医学][谷歌学者]
  • 阮D、孟T和高K(2016)。基于降维优化的混合推荐技术2016年第八届国际建模、识别和控制会议(ICMIC),第429-433页。[谷歌学者]
  • Schott JR(1991)。相关矩阵特定主成分的测试.美国统计协会杂志 86(415), 747–751.[谷歌学者]
  • Vallet P、Mestre X和Loubaton P(2015)。一种改进MUSIC DoA估计器的性能分析.IEEE信号处理汇刊 63(23), 6407–6422.[谷歌学者]
  • Xiao H和Zhou W(2010)。某些样本相关矩阵最小特征值的几乎必然极限.理论概率杂志 23(1), 1–20.[谷歌学者]
  • Yang L、McKay MR和Couillet R(2018年)。高维MVDR波束形成:基于峰值随机矩阵模型的优化解决方案.IEEE信号处理汇刊 66(7), 1933–1947.[谷歌学者]
  • 姚J、郑S和白Z(2015)。大样本协方差矩阵与高维数据分析。剑桥统计与概率数学系列剑桥大学出版社。[谷歌学者]