跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
J统计计划推断。作者手稿;PMC 2022年7月1日提供。
以最终编辑形式发布为:
PMCID公司:PMC7751936号
NIHMSID公司:美国国家卫生研究院1649071
PMID:33364672

量子系统的最优稀疏特征空间和低秩密度矩阵估计

关联数据

补充资料

摘要

量子态层析成像技术在量子科学和量子技术中发挥着重要作用,其目的是估计由密度矩阵描述的量子态。本文研究了基于泡利测量的特征空间估计和大型低秩密度矩阵的重建。研究了特征空间的普通主成分分析(PCA)和迭代阈值稀疏PCA(ITSPCA)估计,并建立了各自的收敛速度。特别地,我们证明了ITPCA估计器是速率最优的。利用ITSPCA估计对大的低秩密度矩阵进行了重构,得到了其最优收敛速度。对所提出的估计量的有限样本性能进行了数值研究。

关键词:迭代阈值、极小极大估计、泡利矩阵、主成分分析、量子态层析成像

1.简介

在量子科学和量子技术中,我们经常需要学习和设计量子系统。量子信息科学就是一个明显的例子(尼尔森和庄,2010年;王,2011,2012;王和宋,2020年). 一个量子系统是由它的状态来描述的,因此为了研究它,我们需要重建量子状态。在文献中,研究人员经常通过一个复杂矩阵(即所谓的密度矩阵)来表征量子状态,并指的是通过量子状态层析重建量子状态。传统上,量子态层析成像使用经典统计模型和方法从量子测量推断量子态,量子测量是通过测量相同制备的量子系统获得的观测结果。由于量子系统的指数复杂性及其相应密度矩阵的指数增长,量子态层析成像经常需要重建高维密度矩阵。众所周知,经典统计方法在恢复大密度矩阵时既不高效也不有效。

蔡等(2016)研究了由泡利矩阵表示的大型稀疏密度矩阵的估计,并建立了其估计量的最优收敛速度。然而,在蔡等(2016)可能不是很合理。例如,低秩密度矩阵不满足泡利表示下的条件。Koltchinskii和Xia(2015)研究了低秩密度矩阵的重构及其最优估计。我们注意到,特征空间的估计在低秩密度矩阵的重建中也起着重要作用,现代高维统计表明,特征空间最佳估计取决于特征向量的稀疏结构。请参见Birgé(2001);Cai等人(2013),2015);Johnstone和Lu(2009);马(2013);Vu和Lei(2013)用于相关研究工作。Koltchinskii和Xia(2015)考虑到一大类低秩密度矩阵可能不适合具有稀疏特征向量的密度矩阵,因此,对于具有稀疏特征矢量的密度矩阵来说,它们的最优速率不明显。

本文研究基于泡利测量的量子自旋系统的本征空间估计问题。由于所有泡利矩阵都有±1个特征值,泡利测量也采用二进制值1和−1,而它们的分布对应于移位和重标度的二项式分布(蔡等,2016;王,2013年). 因此,本文研究的特征空间估计问题是一个具有二项式分布的高维统计问题,其中矩阵大小和样本大小都可以无限大。具体来说,我们分析了主成分分析(PCA)估计量的渐近行为,并建立了它们在稠密和稀疏特征向量设置下的收敛速度。在稀疏特征向量条件下,我们导出了特征空间估计过程的极小极大下界,并证明了由马(2013)可以达到最小最大下界,因此ITSPCA是速率最优的。本文用二项分布代替通常的正态分布进行渐近分析,得到了收敛速度和极小极大下界。利用ITSPCA特征空间估计器,我们可以估计相应的特征值并重构大密度矩阵。我们表明,构造的低秩密度矩阵也是速率最优的。

本文的其余部分进行如下。第2节简要回顾了量子态和通过泡利矩阵表示的密度矩阵及其估计。第3节描述了迭代阈值估计算法,并定义了特征向量的稀疏条件。给定稀疏条件,第4节建立了迭代阈值估计的渐近理论,推导了谱和Frobenius范数下特征空间估计的极小极大下界,其中矩阵大小和样本大小都允许趋于无穷大。第5节提出了特征值和低秩密度矩阵估计,并推导了它们的收敛速度。第6节以数值研究为特色,说明所提出的估计量的有限样本性能。所有证据都收集在第7节更多技术细节见附录.

2.量子态层析成像综述

2.1. 量子态和密度矩阵

对于d日-维量子系统,我们用密度矩阵描述其量子态ρd日-维复空间C类d日,其中密度矩阵ρ是一个d日-由-d日满足(1)厄米特的复矩阵,即,ρ等于其共轭转置;(2) 正半定;(3) 单位追踪。密度矩阵ρ可以用d日-维Pauli矩阵。具体来说,让

σ0=(1001),σ1=(0110),σ2=(0110),σ=(1001),

哪里σ1,σ2,以及σ称为泡利矩阵。通过张量积定义了高维泡利矩阵。d日= 2b条对于某个整数b条.我们形成b条-折叠张量积σ0,σ1,σ2,以及σ以获得d日-维Pauli矩阵

P(P)={B类j个=σ1σ2σb条,(1,2,,b条){0,1,2,}b条},

和基数P(P)第页= 4b条.我们设置B类1=d日,其中d日d日-维度单位矩阵。表示为C类d日×d日所有人的空间d日-由-d日具有Frobenius范数的复矩阵。中的命题1Cai等人(2016)显示了所有Pauli矩阵B类1, …,B类第页构造复厄米矩阵的正交基C类d日×d日,以及任何密度矩阵ρ可以在泡利基础下扩展如下:

ρ=d日1(d日+j个=2第页βj个B类j个),

其中系数βj个的满意程度βj个=tr(ρB类j个)和|βj个| ≤ 1.

2.2. 泡利测量和密度矩阵估计

泡利矩阵在量子物理和量子信息科学中广泛用于进行量子测量,量子测量通常基于可观测值,其中可观测值被定义为C类d日具体来说,假设进行一项实验,对每个泡利观测值进行测量B类j个独立于n个在相同量子态下制备相同的量子系统ρ.作为每个B类j个具有±1的特征值,量子力学理论表明泡利测量值取1和-1,因此是伯努利试验。表示方式N个j个平均值n个通过测量获得的测量结果B类j个,j个= 2, …,第页.然后n个(N个j个+1)/2服从二项分布n个试验和细胞概率(1+βj个)/2,其中E(N个j个) =βj个变量(N个j个)=(1βj个2)/n个(蔡等,2016). 本文的目标是估计ρ基于数据N个2, …,N个第页.

估计密度矩阵的特征空间ρ,我们首先需要一个ρ基于泡利测量N个2, …,N个第页。给定二项式分布,我们很容易得出每个N个j个是的MLE和UMVUEβj个因此ρ由提供

ρ^=(ρ^j个),j个=1,,d日=1d日(d日+j个=2第页β^j个B类j个),
(2.1)

哪里β^j个=N个j个.

3.特征空间估计

3.1. 密度矩阵的特征分解

假设密度矩阵ρ具有有限秩第页.通过光谱分解,我们得到

ρ=ν=1第页λνq个νq个ν,
(3.1)

哪里λν的是特征值,因此λ1λ2≥ ⋯ ≥λ第页>0和ν=1第页λν=1此外,q个1,,q个第页C类d日是它们相应的特征向量。

在本文中,我们考虑了由第一个的特征向量ρ也就是说,我们的目标是估计由=(q个1,,q个)C类d日×,哪里是给定的整数。为了使特征空间估计问题得到很好的定义,我们需要假设第页λλ+1>C类λ对于一些通用的正常数C类λ可用,共n个d日也就是说,特征值之间存在差距λλ+1为了研究特征空间估计的渐近性质,相应的特征空间被很好地分离。

3.2. 普通PCA

我们定义了由第一个跨越的本征空间密度矩阵估计的特征向量ρ^英寸(2.1). 作为特征向量来自普通PCA,定义的特征空间估计器称为普通PCA估计器,表示为^在研究它的渐近性质之前,我们首先修正了一些符号。对于x个=(x个1,,x个d日)C类d日A类=(A类j个)C类d日×d日,定义α-规范,

x个α=(=1d日|x个|α)1/α,A类α=啜饮{A类x个α,x个α=1},1α.

那么矩阵谱范数‖A类2等于最大特征值的平方根AA公司此外,请注意

A类1=最大值1j个d日=1d日|A类j个|,A类=最大值1d日j个=1d日|A类j个|.

我们有以下不等式,

A类22A类1A类.

矩阵Frobenius范数表示为A类F类=信托收据(A类A类)对于对称或复埃尔米特矩阵A类, ‖A类F类是特征值平方和的平方根,‖A类2等于其最大绝对特征值,且‖A类2≤ ‖A类1= ‖A类。表示方式C类值不含n个第页并且可能会从外观到外观发生变化。对于阳性序列φn、 d日ψn、 d日依靠n个d日,我们使用φn、 天ψn、 d日表示他们的比率φn、 d日n、 d日由正的泛型常数从下方和上方渐近限定为n、 d日→ ∞.

为了测量所提出的特征空间估值器的性能,我们定义了特征空间之间距离的符号。具体来说,跨越的两个特征空间之间的距离12由定义

(1,2)F类2=11(22)F类2
(3.2)

(1,2)22=11(22)22,
(3.3)

哪里1122是特征空间上的投影矩阵12对于给定的投影矩阵,分别为和P(P),我们有P(P)=d日P(P)距离是指12这就概括了线间角度的概念。

以下定理建立了普通PCA估计的收敛速度。

定理1 假设满足以下条件之一,

  1. n个α1d日≤exp(n个α2)对于某些α1> 1/2 α2< 1;
  2. d日n个1/2 日志n个d日0 作为n→ ∞.

那么我们有

啜饮V(V)d日,E类[(,^)22]啜饮V(V)d日,E类[(,^)F类2]C类n个1,
(3.4)

哪里 V(V)d日,={C类d日×:=d日} 是d-by-m正交矩阵的复Stiefel流形,C是不含n和d的一般常数.

备注1定理1表明,普通PCA估计器的收敛速度为n个−1/2不考虑特征向量的稀疏条件。由于PCA方法不使用任何稀疏特征向量,因此它只能实现n个−1/2特征向量稀疏的密度矩阵的收敛速度。稍后我们将说明,对于稀疏情况,此收敛速度是次优的。此外,由于使用了证明技术,我们在d日在条件(i)和(ii)中,即,d日介于n个1/2n个α1或低于对数n个然而,作为α1可以非常接近1/2,经典PCA理论表明该定理对于固定的情况是正确的d日,差距非常小。当然,未来的工作可能会解决这个问题。

3.3. 迭代阈值稀疏主成分分析

当量子系统的复杂性与其组成部分成指数级增长时,维数d日密度矩阵的指数增长且通常非常大。在通常的高维统计中,我们可以对密度矩阵的特征向量施加稀疏条件,并估计第一个特征向量所跨越的特征空间相应地稀疏特征向量。对于A类C类d日×,A类IJ公司表示的子矩阵A类由索引位于J型,其中J型是{1,…,的子集…,d日}. 什么时候?J型包括所有索引,我们将其替换为点。例如,A类.J型是的子矩阵A类所有行和列都由索引J型.

我们现在将稀疏条件施加在第一个第页的特征向量ρ定义于(3.1)如下所示。对于每个ν= 1, …,第页,假设对于一些δ∈ [0, 2),

q个νΞδ(π(d日))=定义{=(1,,d日):ν=1d日|ν|δπ(d日)ν=1d日|v(v)|2=1},
(3.5)

哪里π(d日)是的确定函数d日缓慢发散的,如对数d日稀疏条件通常用于高维统计,包括稀疏协方差矩阵估计(Bickel等人,2008年;蔡和刘,2011年;蔡和周,2012),稀疏综合波动率矩阵估计(Kim等人,2018年,2016;Tao等人,2013a,b条;王和邹,2010)和稀疏PCA(Birnbaum等人,2013年;Kim和Wang,2016年;Johnstone和Lu,2009年;2013年5月;Vu和Lei,2013年;Vu等人,2013年).

正交迭代可以用于计算给定埃尔米特矩阵的前导本征空间(Golub和Van Loan,1996年),得出普通PCA估计量。正如我们在中所示第3.2节,普通PCA估计量的收敛速度为n个−1/2然而,就均方误差(MSE)而言,普通PCA方法可能不是稀疏特征向量估计的最佳方法。在稀疏条件下获得更好的特征空间估计(3.5),我们使用迭代阈值算法,称为迭代阈值稀疏PCA(ITSPCA),该算法由马(2013)并在中进行了描述算法1.

如中所示算法1ITSPCA方法有三个步骤:乘法、阈值化和QR分解。ITSPCA方法没有阈值步骤,返回到普通的正交迭代方法。阈值化步骤删除以下弱信号元素T型(k个)具有用户特定的阈值功能T型这满足了

|T型(t吨,γ)t吨|γT型(t吨,γ)1(|t吨|γ)=0为所有人t吨以及所有γ>0,
(3.6)

哪里1E类表示事件的指示函数E类我们注意到这两个硬阈值规则T型H(H)(t吨,γ)=t吨1(|t吨|>γ)和软阈值规则T型S公司(t吨,γ)=e(电子)1θ最大值(0,|t吨|γ)满足(3.6),其中t吨=|t吨|e(电子)1θ,以及θ是复数的相位t吨.

算法1

迭代阈值稀疏PCA(ITSPCA)

输入:
(1) 估计密度矩阵ρ^;
(2) 目标子空间维数;
(3) 初始正交矩阵^(0);
(4) 阈值功能T型(t吨,γ)、和阈值级别γ新泽西州,j= 1, …,.
1:重复
2:  乘法:T型(k个)=(t吨νj个(k个))=ρ^^(k个1);
三:  阈值:T型^(k个)=(t吨^νj个(k个)),具有t吨^νj个(k个)=T型(t吨νj个(k个),γn个j个);
4:  QR分解:^(k个)^(k个)=T型^(k个);
5:直到 ^(k个)^(k个1)F类c(c)q个对于一些预先选择的小c(c)q个.

要在中利用ITSPCA算法算法1,我们需要一个合适的初始正交矩阵^(0).Johnstone和Lu(2009)引入对角阈值稀疏PCA(DTSPCA)方法估计特征空间,并证明了其一致性。我们建议使用中描述的DTSPCA算法2以获得^(0).给定输出^S公司=(q个^1,,q个^|S公司|),我们可以先吃列作为初始正交矩阵^(0)=(q个^1,,q个^)对于算法1。我们选择c(c)q个数值研究中=0.001。

算法2

对角阈值稀疏PCA(DTSPCA)

输入:
  (1) 估计密度矩阵ρ^;
  (2) 对角线阈值参数αn个.
输出:正交矩阵^S公司.
1:选择:选择集合S公司坐标:
S公司={ν:ρ^νναn个};
2:简化PCA:计算特征向量,q个^1S公司,,q个^|S公司|S公司子矩阵的ρ^不锈钢;
3:零填充:构造^S公司=(q个^1,,q个^|S公司|)这样的话
q个^j个S公司=q个^j个S公司,q个^j个S公司c(c)=0,j个=1,,|S公司|.

4.特征空间估计的渐近理论

4.1. PCA估计的收敛速度

假设密度矩阵ρ属于以下类别,

F类δ(π(d日))={ρ=ν=1第页λνq个νq个ν:q个νΞδ(π(d日))为所有人ν{1,,第页}},
(4.1)

其中δ(π(d日))定义于(3.5). 对于本征空间密度矩阵的ρ,我们考虑ITSPCA估计^()哪里是在此之后的迭代次数算法1停下来进行理论研究

=1.11S公司S公司+1S公司(日志n个+0.5日志(d日n个)),

[]表示天花板,j个S公司=j个(ρ^S公司S公司)0,以及j个(ρ^S公司S公司)j个-第个最大特征值ρ^不锈钢.

下面的定理建立了本征空间估计器的收敛速度^()获得自算法1.

定理2 假设密度矩阵ρ由模型给出(3.1)属于 F类δ(π(d日)) 定义于(4.1)所以对于一些δ∈ (0, 2/3),

π(d日)C类τn个δ/41/2,
(4.2)

哪里 ρn个=日志(d日n个)n个d日, C是一个不含d和n的常数。取αn个=Cατn个在里面 算法2 γn个j个=C类γj个S公司τn个 在里面 算法1 对于某个常数Cα和Cγ去掉n和d,然后让

=γ1λγ+1(日志n个+0.5日志(d日n个)).

则存在常数C0 和Cu个这样,对于(n、 d,π(d日))令人满意的(4.2),均匀覆盖 F类δ(π(d日)),至少有可能1 −C类0(d日n个)−2,和R∈ [, 2]我们有

(,^())22(,^())F类2C类u个π(d日)T型n个2δ.

备注2由于使用了证明技术,我们施加了限制δ∈(0,2/3)。这种限制主要是因为我们需要用泡利矩阵表示大密度矩阵,并处理泡利表示结构和截断表示的近似误差。我们预计未来可以放宽甚至取消限制。

备注3稀疏条件(4.2)需要获得建议估计的一致性。在高维统计中,如大协方差矩阵估计,渐近分析通常会施加类似的条件,其中π(d日)通常在d日以日志为例d日.条件(4.2)在这个意义上不是很严格π(d日)=对数d日满足条件,事实上,当δ<2/3,条件(4.2)表示π(d日)是最正常的d日有一些积极的力量。

定理2的结果可以推广到MSE的上界。请注意(d日n个)2=o(o)(π(d日)T型n个2δ)和损失函数(3.2)和(3.3),以为界第页和1。以下推论是定理2的直接结果。

推论1 在定理2的条件下,我们得到

啜饮ρF类δ(π(d日))E类[(,^())22]啜饮ρF类δ(π(d日))E类[(,^())F类2]C类u个π(d日)T型n个2δ.

备注4因为在高维统计中,存在一个常数C类可用,共n个d日这样的日志(d日n个) ≤C类日志d日定理2和推论1表明,ITSPCA估计的收敛速度为π(d日)1/2[n个−1 d日−1日志d日]1/2−δ/4在Frobenius和光谱规范下。作为d日通常比n个,此收敛速度比n个−1/2,普通PCA情况下的收敛速度。

虽然我们的主要目标是估计特征空间,但当单个特征向量q个k个是可识别的,检验ITSPCA方法是否可以估计q个k个好。下面的推论表明k个第列,共列^()为良好分离的q个k个.

推论2 假设对于一些km、 λk个λk个+1C类λ1 和λk个−1λk个C类λ2 对于一些正常数Cλ1 和Cλ2 在定理2的条件下,我们得到第k列 q个^k个() 属于 ^() 满足

啜饮ρF类δ(π(d日))E类[(q个k个,q个^k个())22]啜饮ρF类δ(π(d日))E类[(q个k个,q个^k个())F类2]C类u个π(d日)τn个2δ.

4.2. ITSPCA估计的最优性

本节建立了估计由模型下(3.1),均匀覆盖F类δ(π(d日)),并表明ITSPCA估计量达到了极大极小下界,因此其收敛速度是最优的。

下面的定理提供了Frobenius和谱范数下特征空间估计的极小极大下界。

定理3 对于模型(3.1),假设对于一些δ∈ [0, 2),作为d,n→ ∞,

π(d日)d日(1δ/2)N个n个δ/2日志δ/2d日,
(4.3)

哪里 N个(0,1) 是一个不含n和d的常数。然后存在一个正常数CL(左)没有n和d,因此(n、 d,π(d日))令人满意的(4.3),

inf公司ˇ啜饮ρF类δ(π(d日))E类[(,ˇ)22]C类L(左)π(d日)[日志d日n个d日]1δ/2,

inf公司ˇ啜饮ρF类δ(π(d日))E类[(,ˇ)F类2]C类L(左)π(d日)[日志d日n个d日]1δ/2,

哪里 ˇ 表示的任何估计值基于N2, …,N个第页.

备注5定理3中的下限与定理2中ITSPCA估计的收敛速度相匹配,因此我们得出结论,ITSPCA估计器在Frobenius和谱范数下(特别是当d日n个). 也就是说,在稀疏条件下,收敛速度,π(d日)1/2[n个−1 d日−1日志d日]1/2−δ/4ITSPCA估计的,是最优的,而收敛速度,n个−1/2普通PCA估计量的是次优的。另一方面,如果没有特征空间上的稀疏性假设,即:,π(d日) =d日δ=0,我们可以证明估计本征空间的极小极大下界ρn个−1/2因此,定理1中普通PCA估计量的上界是稠密特征空间情况下的最佳速率。

备注6 蔡等(2016)研究了常用矩阵稀疏性框架下密度矩阵估计的最优性。本文考虑了大型低秩密度矩阵的估计,并研究了特征空间估计的相关最优性问题。因此,为了推导定理3中的下限,我们考虑了,然后采取ρ=−1QQ(QQ),然后像往常一样,我们应用Fano引理来获得极大极小下界(Birnbaum等人,2013年;Vu和Lei,2013年). 我们的方法与文献中的方法之间的关键区别在于,我们的观测值具有二项式分布的特征,而不是通常的正态分布,因此,需要不同的证明参数来获得极大极小下界(参见第7节更多详细信息)。

备注7什么时候?δ=0,条件(4.3)成为π(d日)d日1N个具有N个>0,且最小最大下界适用于π(d日)非常接近d日.考虑δ>0,以及d日通常以多项式或指数形式增长n个.如果d日以指数形式增长n个也就是说,d日=e(电子)n个κ,那么π(d日)d日(1δ/2)N个(日志d日)δ/2(11/κ),以及N个可以选择非常小的值,以便π(d日)正常d日有一些积极的力量。在以下情况下d日=n个κ,因为量子系统通常具有d日,我们可以考虑d日n个并采取κ≥1,因此π(d日)x个d日(1δ/2)N个δ/(2κ)(日志d日)δ/2,这是正常的d日有一些积极的力量。因此,条件(4.3)是可行的。还有条件(4.2)和(4.3)在合理的环境下兼容,例如[日志d日/(n个d日)]δ/8+1/4d日1N个由泛型常量限定。当然是条件(4.3)可以放松,未来的工作可能会减少限制。

备注8 Koltchinskii和Xia(2015)研究了一类低秩密度矩阵估计的最优收敛速度。例如,在泡利基下Koltchinskii和Xia(2015)表明估计低秩密度矩阵的最佳速率为n个−1/2我们可以通过普通PCA估计器获得(参见中的定理5第5节). 它们的低秩类包括密集和稀疏两种情况,因此最小最大速率由具有密集特征向量的子类确定。然而,正如我们在定理3和定理4中所示n个−1/2在稀疏条件下不是最优的(3.5). 他们的分析还集中在估算低秩密度矩阵本身。另一方面,本文致力于研究稀疏条件下的特征空间估计(3.5). 我们的分析表明,在稀疏条件下估计低秩密度矩阵的最佳速率为π(d日)1/2[n个1d日1日志d日]1/2δ/4(参见中的定理4第5节).

5.大型低秩密度矩阵估计

本节使用普通PCA和ITSPCA方法提出低秩密度矩阵估计。我们首先发展了低秩密度矩阵特征值的估计ρ如下:

λ^ν()=λ˜ν()j个=1第页λ˜j个()λ^ν*=λ˜νj个=1第页λ˜j个对于ν=1,,第页,

哪里

λ˜ν()=最大值[(q个^ν())ρ^q个^ν(),0],λ˜ν=最大值[q个^νρ^q个^ν,0],

q个^ν()q个^νν第列,共列^()^分别是。请注意λ^ν()λ~ν是非负的,并且每组估计的特征值的和是1。使用特征值和特征空间估值器,我们可以重构低秩密度矩阵,如下所示:

ρ^()=ν=1第页λ^ν()q个^ν()(q个^ν())ρ^=ν=1第页λ^νq个^νq个^ν.

这两个估计量是定义明确的密度矩阵,如下所示第2.1节.

下列定理提供了特征值估计的收敛速度λ^ν()λ^ν*,和低秩密度矩阵估计ρ^()ρ^*.

定理4 在ITSPCA定理2的假设下,对于ν= 1, …,第页,

E类[|λ^v(v)()λv(v)|]C类π(d日)1/2τn个1δ/2
(5.1)

E类[ρ^()ρF类]C类π(d日)1/2τn个1δ/2,
(5.2)

其中C是不含n和d的通用常数.

定理5 在定理1对普通PCA的假设下,我们对ν= 1, …,第页,

E类[|λ^v(v)λv(v)|]C类(n个1(n个d日)1/2)E类[ρ^ρF类]C类n个1/2,

其中C是不含n和d的通用常数.

备注9 当δ=0,收敛速度E类[ρ^()ρF类]π(d日)1/2d日1/2(日志(d日n个)n个)1/2,与定理1中稀疏表示下的最优密度矩阵估计的收敛速度相同蔡等(2016)也在稀疏条件下(3.5),估计低秩密度矩阵的极小极大下界为π(d日)1/2T型n个1δ/2,其可以使用在定理3的证明中使用的相同子类来建立。

备注10阈值密度矩阵估计器具有收敛速度(d日/n个)1/2在Frobenius范数下(参见引理3Cai等人(2016)). 另一方面,低秩密度矩阵估计具有收敛速度n个−1/2这是给定一般低秩密度矩阵类的最优速率(Koltchinskii和Xia,2015年).

备注11提出的低秩密度矩阵估计程序需要知道真实秩第页.实践中第页未知,我们可以估计第页从数据中执行程序。例如,Kim和Wang(2017)建立了密度矩阵特征向量的渐近分布,并发展了一些选择秩的初步方法第页本文主要研究已知稀疏特征向量的估计第页.我们可以调查等级的选择第页在未来的研究中。

6.数值研究

我们进行了仿真,以检查所提出的估计量的有限样本性能第6.1节6.2,并研究了他们在第6.3节.

6.1. 一级案例的模拟

我们首先考虑了密度矩阵ρ英寸(3.1)有第页=1,和

ρ==d日1(d日+j个=2第页βj个B类j个),

哪里C类d日βj个=tr(ρB类j个)的j个= 1, …,d日2.特征向量生成如下。首先,它π(d日)组件由生成π(d日)i.i.d.随机变量U型1+U型21,哪里U型j个的是[-1,1]上的i.i.d.均匀分布,其余的是d日π(d日)组件设置为零。然后将生成的向量除以2-范数,以便生成满足‖2= 1. 我们改变了π(d日)从5日志(d日)至d日−1,带d日= 64,128. 整个过程重复了200次。

对于每个模拟数据集,我们估计使用硬阈值ITSPCA(ITS-H)、软阈值ITSPCA(ITS-S)、DTSPCA和普通PCA算法。特征空间估计器的最小均方误差^和低秩密度矩阵估计ρ^,E类(^,)F类2E类ρ^ρF类2,通过对相应的平方规范求平均值来计算^ρ^200多个模拟。对于中的ITSPCA和DTSPCA算法算法1和2,2分别设置调谐参数(C类α,Cγ)通过在{3,2.5,…,0.5,0.1}范围内搜索,ITS-H、ITS-S和DTSPCA分别为(0.1,2)、(0.5,1)和(0,1)2以最小化MSE。我们使用了硬阈值规则T型H(H)(t吨,γ)=t吨1(|t吨|>γ)和软阈值规则T型S公司(t吨,γ)=e(电子)1θ最大值(0,|t吨|γ)用于中的阈值步骤算法1对于ITS-H和ITS-S,其中t吨=|t吨|e(电子)1θ。我们停止了一次迭代(^(k个),^(k个1))2n个1d日1.

表1总结了特征空间和密度矩阵估值器的最小均方误差。关于特征空间估值器,图1绘制MSEπ(d日)对于不同的n个d日值,同时图2绘制ITS-H、ITS-S、DTSPCA和PCA估计量相对于样本量的相对效率n个对于不同的d日π(d日)值。数值结果表明,MSE通常会减小样本量n个ITSPCA和DTSPCA估计量的MSE随着π(d日)当主成分分析估计器的性能对π(d日). 对于稀疏特征向量π(d日)=5 logd日或5d日1/2,ITSPCA估计量通常比DTSPCA和PCA估计量具有更好的性能,而对于非解析情况π(d日) =d日−1,PCA估计器总体表现出最佳性能。密度矩阵估值器的数值结果总结于表1显示出与特征空间估计结果类似的行为,而ρ^英寸(2.1)表现出比PCA型估计器差得多的性能。

保存图片、插图等的外部文件。对象名为nihms-1649071-f0001.jpg

中小企业反对π(d日)对于ITS-H、ITS-S、DTSPCA和PCA估值器n个=100、500、2000和d日= 64, 128. (a) -(c)是基于Frobenius规范的MSE图n个分别=100、500、2000,其中d日= 64. (d) -(f)是基于Frobenius范数的MSE图n个分别=100、500、2000,其中d日= 128.

保存图片、插图等的外部文件。对象名为nihms-1649071-f0002.jpg

相对效率与样本量的关系图n个对于ITS-H、ITS-S、DTSPCA和PCA估计器π(d日)=5 log(d日), 5d日1/2,d日−1,带d日=64和128。(a) -(c)是基于Frobenius范数的相对效率图π(d日)=5 log(d日), 5d日1/2,d日分别为-1,带d日= 64. (d) -(f)是基于Frobenius范数的相对效率图π(d日)=5 log(d日), 5d日1/2,d日−1,其中d日= 128.

表1:

d日=64128和n个=100,200,5001000,2000(我们将最小的MSE加粗)。

MSE(特征空间)×102
MSE(密度矩阵)×102
d日π(d日)n个ITS-H公司其-SDTSPCA公司PCA公司ITS-H公司ITS-S公司DTSPCA公司PCA公司ρ^
645日志(d日)1000.30080.43831.16290.96270.60160.87672.32581.925463.0741
2000.14530.21550.54890.49090.29060.43101.09770.981931.5377
5000.05770.08780.22510.19290.11530.17570.45010.385812.6377
10000.02840.04430.11630.09480.05680.08850.23270.18956.3216
20000.01420.02240.04380.04850.02840.04470.08770.09703.1531
5d日1/21000.89611.00464.83670.96801.79212.00939.67331.935963.0148
2000.40820.52952.40860.48550.81651.05904.81730.970931.5230
5000.13470.21291.08780.19410.26930.42592.17560.388212.6007
10000.05930.10850.48850.09610.11860.21700.97710.19226.2871
20000.03040.05760.24330.04840.06070.11510.48660.09693.1456
d日− 11001.38001.567012.38860.98762.76003.134024.77721.975163.0856
2000.64850.79036.31410.48711.29701.580612.62820.974231.5273
5000.19520.33252.49120.19300.39050.66494.98250.386012.5754
10000.09570.17131.36450.09710.19140.34272.72900.19436.3095
20000.04850.08810.58350.04930.09700.17621.16710.09853.1518
1285日志(d日)1000.20840.32701.47920.99790.41690.65392.95841.9958127.2219
2000.08830.16000.65000.49160.17650.32001.30010.983263.4730
5000.03600.06910.29960.19540.07210.13820.59910.390925.3742
10000.01820.03590.15930.09900.03640.07180.31860.197912.6988
20000.00900.01880.07750.04980.01800.03770.15500.09956.3408
5d日1/21000.54610.70294.89510.98191.09211.40589.79021.9638126.9431
2000.20970.35142.20880.48560.41950.70294.41770.971163.5284
5000.08410.14680.93270.19680.16820.29371.86540.393625.4182
10000.04300.07600.55970.09880.08600.15191.11950.197712.7027
20000.02160.03880.23780.04960.04330.07760.47560.09936.3566
d日− 11001.66281.487819.13280.99263.32562.975538.26561.9851127.0068
2000.70280.781411.40920.49031.40561.562922.81840.980763.5389
5000.23540.34785.13770.19640.47080.695710.27540.392925.4193
10000.11440.18382.54180.09790.22870.36765.08370.195712.7010
20000.05530.09621.28050.04880.11060.19242.56100.09766.3562

6.2. 四级案例的模拟

我们现在模拟了密度矩阵ρ使用(3.1)带有第页=4并选择任意特征空间0V(V)π(d日),4,其中V(V)小时,k个是Stiefel流形小时-由-k个正交矩阵。首先,我们生成了一个π(d日)-由-π(d日)一致随机变量的正定埃尔米特矩阵,具体来说,矩阵的对角元素取1,对于非对角元素(h、 k个)th和(k、 小时)第个元素是U型1+1U型2,其中U型的遵循均匀分布(0.5,0.5)。然后我们成立了d日-乘4矩阵=(0T型,0)T型.特征值Λ选自(0.25,0.25,0.25,0.25),(0.4,0.3,0.2,0.1),(0.5,0.3,0.19,0.01)。密度矩阵ρ通过以下方式获得:

ρ=ν=14λνq个νq个ν=d日1(d日+j个=2d日2βj个B类j个),

哪里= (q个1, …,q个4)和d日= 27。使用ρ上面,我们计算了βj个=tr(ρB类j个)的j个= 1, …, 214,其中B类j个的是泡利矩阵。对于每个模拟数据集,我们估计对于=4,使用与一级案件相同的方案。

表2总结了特征空间和密度矩阵估值器的MSE,以及图3绘制特征空间估计器的MSEπ(d日)针对不同的样本大小n个和特征值Λ.图4进一步绘制ITS-H、ITS-S、DTSPCA和PCA估计量相对于样本量的相对效率n个对于不同的π(d日)和特征值Λ。我们注意到n个π(d日)能级类似于秩一的情况,因此我们将重点放在第四特征值大小的影响上λ4在里面Λ.数值结果表明λ4起着重要作用。什么时候?λ4较大(如0.25),MSE相对较小,并且我们的方法显示出比基准测试更好的性能。什么时候?λ4很小,例如0.01,所有估计器对于较大的最小均方误差都表现出较差的性能,并且它们的相对效率很接近。

保存图片、插图等的外部文件。对象名为nihms-1649071-f0003.jpg

中小企业反对π(d日)对于ITS-H、ITS-S、DTSPCA和PCA估值器n个=100、500、2000和d日= 128. (a1)-(a3)是基于Frobenius范数的MSE图n个分别=100、500、2000,其中Λ= (0.25, 0.25, 0.25, 0.25). (b1)-(b3)是基于Frobenius范数的MSE图n个分别=100、500、2000,其中Λ= (0.4, 0.3, 0.2, 0.1). (c1)-(c3)是基于Frobenius范数的MSE的图n个分别=100、500、2000,其中Λ= (0.5, 0.3, 0.19, 0.01).

保存图片、插图等的外部文件。对象名称为nihms-1649071-f0004.jpg

相对效率与样本量的关系图n个对于ITS-H、ITS-S、DTSPCA和PCA估计器π(d日)=5 logd日, 5d日1/2,d日−1,带d日= 128. (a1)-(a3)是基于Frobenius范数的相对效率图π(d日)=5 log(d日), 5d日1/2,d日分别为-1,带Λ= (0.25, 0.25, 0.25, 0.25). (b1)-(b3)是基于Frobenius范数的相对效率图π(d日)=5 log(d日), 5d日1/2,d日分别为-1,带Λ= (0.4, 0.3, 0.2, 0.1). (c1)-(c3)是基于Frobenius范数的相对效率图π(d日)=5 log(d日), 5d日1/2,d日分别为-1,带Λ= (0.5, 0.3, 0.19, 0.01).

表2:

ITS-H、ITS-S、DTSPCA和PCA估计量的MSE及其相应的低秩密度矩阵估计量n个=100、200、500、1000、2000和Λ=(0.25,0.25,0.25,0.25),(0.4,0.3,0.2,0.1),(0.5,0.3,0.19,0.01),以及π(d日)=5 logd日, 5d日1/2,d日−1,带d日=128(我们将最小MSE加粗)。

MSE(本征空间)
MSE(密度矩阵)
π(d日)Λn个ITS-H公司ITS-S公司DTSPCA公司PCA公司ITS-H公司ITS-S公司DTSPCA公司PCA公司ρ^
5日志d日(0.25, 0.25, 0.25, 0.25)1000.18610.19410.35320.62150.02400.02480.04480.07811.2792
2000.07220.09250.17240.30990.00950.01190.02200.03910.6386
5000.02310.03530.06480.12400.00310.00460.00830.01570.2555
10000.01090.01750.03100.06220.00150.00230.00400.00790.1277
20000.00520.00850.01510.03090.00070.00110.00190.00390.0638
(0.4, 0.3, 0.2, 0.1)1000.59350.56260.77341.26080.03090.03450.05190.09021.2787
2000.24440.24910.39230.69030.01280.01500.02490.04360.6384
5000.08460.09030.14880.27580.00440.00550.00920.01650.2553
10000.04150.04400.07210.13790.00190.00270.00440.00800.1276
20000.01950.02110.03440.06870.00090.00130.00200.00400.0638
(0.5, 0.3, 0.19, 0.01)1001.11321.11371.22721.40190.02570.03210.05270.08511.2782
2001.03711.04861.09971.19510.01430.01700.02750.04550.6378
5001.00311.01251.02191.07360.00700.00780.01170.01940.2552
10000.98870.99750.98731.03100.00400.00440.00570.01000.1275
20000.97410.98170.95141.00410.00220.00240.00290.00510.0637
5d日1/2(0.25, 0.25, 0.25, 0.25)1000.61630.42330.59530.62010.07750.05330.07470.07791.2799
2000.25710.21690.31320.30850.03250.02740.03940.03890.6385
5000.08130.08820.13430.12390.01040.01120.01700.01570.2553
10000.03470.04420.06830.06200.00440.00560.00860.00790.1276
20000.01520.02200.03360.03080.00200.00280.00420.00390.0638
(0.4, 0.3, 0.2, 0.1)1001.18280.99321.08241.27130.07790.06310.08390.08991.2790
2000.52890.45850.56030.69140.03290.03060.04200.04350.6382
5000.17730.17010.23000.27320.01130.01170.01820.01640.2553
10000.08150.08400.11720.13690.00500.00580.00980.00800.1276
20000.03850.04210.06220.06880.00210.00290.00540.00400.0638
(0.5, 0.3, 0.19, 0.01)1001.31231.25431.38401.40030.11990.10890.15540.16301.3185
2001.05651.12651.19831.19610.06850.07230.12590.12600.6779
5000.92641.04941.07581.07630.04930.05080.10950.10740.2952
10000.88091.02081.03481.03460.04400.04520.10820.10370.1676
20000.86581.00511.01881.01450.04120.04220.10880.10350.1037
d日− 1(0.25, 0.25, 0.25, 0.25)1001.54370.81331.12140.61870.19300.10200.14010.07781.2761
2000.69460.43660.69170.30790.08700.05490.08650.03890.6394
5000.23160.18860.35120.12390.02910.02370.04390.01570.2553
10000.09960.09860.19680.06180.01250.01240.02460.00780.1278
20000.04320.05030.10200.03090.00550.00630.01280.00390.0638
(0.4, 0.3, 0.2, 0.1)1002.06361.45481.69281.27130.20200.11270.16400.09011.2750
2001.15700.84581.09750.69770.09020.06050.10190.04370.6392
5000.41810.33070.52060.27380.02870.02440.05070.01650.2552
10000.18990.17020.27610.13720.01200.01240.02750.00800.1278
20000.08750.08870.14060.06980.00500.00630.01390.00400.0637
(0.5, 0.3, 0.19, 0.01)1001.94421.51991.75851.39880.16110.09650.15790.08471.2743
2001.44691.27061.47231.19670.07920.05350.10270.04560.6389
5001.13901.10811.24261.07240.02710.02410.05530.01950.2552
10001.04721.04821.13591.03010.01230.01280.03300.00990.1277
20001.00681.01091.06391.00340.00550.00680.01850.00510.0637

6.3. 真实数据示例

在本节中,我们进行了蒙特卡罗模拟,以分析通过以下公式估算的密度矩阵哈夫纳等人(2005)。我们考虑了两个密度矩阵d日= 27和28,并表示为ρ7ρ8分别是。基于每个密度矩阵ρ,我们首先计算βj个=tr(ρB类j个),其中B类j个的是泡利矩阵,然后生成n个每个泡利矩阵的泡利度量。给定生成的泡利测量,我们估计ρITS-H、ITS-S、DTSPCA和PCA。我们分别为ITS-H、ITS-S和DTSPCA估计量选择了调谐参数(0.1、2)、(0.5,1)和(0,1),并使用了Kim和Wang(2017)确定等级第页.我们改变了n个并将整个过程重复了200次。

图5绘制与前六个特征向量对应的特征向量元素的绝对值ρ7ρ8,而ρ7是(0.7825、0.0605、0.0445、0.0324、0.023、0.0167)和ρ8为(0.7514、0.0609、0.0456、0.04、0.0233、0.0189)。因此,密度矩阵,ρ7ρ8,具有稀疏特征向量的低秩结构,满足本文的假设。由此可见,迭代阈值估计器(如ITPCA和DTSPCA)可以表现出良好的性能。

保存图片、插图等的外部文件。对象名为nihms-1649071-f0005.jpg

对应于前6个特征值的特征向量的绝对元素的图。(a1)-(f1)是ρ7.(a2)-(f2)是ρ8

表3介绍了ITS-H、ITS-S、DTSPCA和PCA密度矩阵估值器的MSE。图6绘制相对于PCA估计器相对于样本大小的相对效率n个和用于d日= 128, 256. 发件人表3图6,我们可以看到MSE在样本量中减少n个而迭代阈值方法通常比PCA密度矩阵估计器或估计器具有更小的MSEρ^英寸(2.1).

保存图片、插图等的外部文件。对象名为nihms-1649071-f0006.jpg

相对效率与样本量的关系图n个对于相对于PCA估计器的ITS-H、ITS-S、DTSPCA和PCA估计器。(a) -(b)是基于Frobenius范数的相对效率图d日分别为128和256。

表3:

ITS-H、ITS-S、DTSPCA和PCA密度矩阵估计量的Frobenius范数中的MSEd日=128、256和n个=100,200,5001000,2000(我们将最小的MSE加粗)。

d日n个ITS-H公司ITS-S公司DTSPCA公司PCA公司ρ^
1281000.046720.049750.051570.068371.27381
2000.033600.036320.033470.048970.63686
5000.020600.020600.017810.027040.25442
10000.012330.012220.010560.015570.12727
20000.007500.007060.006300.007810.06376
2561000.045290.056160.059880.090432.55323
2000.036120.037780.039660.052781.27709
5000.019950.019700.018680.028760.51098
10000.012460.011870.010410.016630.25544
20000.007960.007580.006490.009780.12770

7.证明

表示方式C类C类1其值不含n个第页并且可能会从外观到外观发生变化。

7.1. 定理证明1-2

7.1.1. 定理1的证明

定理证明1.由于戴维斯·卡恩的罪过θ定理(中的定理3.1李(1998年b)),我们得到以下不等式来建立(3.4),

(,^)F类2(ρρ^)F类2(λλ^+1)2,
(7.1)

哪里λ^-的第个特征值ρ^.对于右侧的分母(7.1),作为λλ+1从泛型常量下界C类λ,我们只需要学习λ^+1λ+1根据Weyl定理(中的定理4.3李(1998年a)),我们有

|λ^+1λ+1|最大值1νd日|λ^νλν|ρ^ρ22.

简单的代数操作显示

最大值j个d日1(β^j个βj个)B类j个22d日

d日2j个=2第页E类[(β^j个βj个)2B类j个T型B类j个]21n个.

然后,通过矩阵Bernstein不等式(特罗普(2012)),我们得到

P(P)(ρ^ρ2t吨)=P(P)(d日1j个=2第页(β^j个βj个)B类j个2t吨)2d日经验(t吨2/2n个1+2t吨/(d日)).

首先考虑条件(). 我们接受t吨=6日志(d日n个)/n个然后获得

P(P)(ρ^ρ26日志(d日n个)/n个)2(d日n个)2.
(7.2)

考虑右边的分子(7.1). 对于任何=(1,,d日)C类d日这样的话22=1,自(β^j个βj个)与均值为零无关,我们有

E类[(ρ^ρ)22]=1d日2j个=2第页E类[(β^j个βj个)2]B类j个22=1d日2j个=2第页1βj个2n个=1n个v(v)=1第页λv(v)2d日n个,

其中包括q个ν22=1意味着

E类[(ρρ^)F类2]=ν=1E类[(ρρ^)q个ν22]=(1n个ν=1第页λν2d日n个).
(7.3)

最终自(^,)F类2,我们得出结论

E类[(^,)F类2]=E类[(^,)F类21E类]+E类[(^,)F类21E类c(c)]2(d日n个)2+E类[(ρ^ρ)F类2](λλ+16日志(d日n个)n个)22n个+n个(λλ+16日志(d日n个)n个)2=O(运行)(n个1(λλ+1)2),

哪里E类={最大值1v(v)d日|λ^v(v)λv(v)|6日志(d日n个)n个},第二和第三个不合格是由于(7.2)和(7.3)分别是。我们在条件(i)中证明了这个定理。

对于这种情况(ii(ii)),我们采取t吨=2 log无日期并更换(7.2)由

P(P)(ρ^ρ22日志n个/d日)2n个2.
(7.4)

同样的论点可以用来证明如下定理,

E类[(^,)F类2]=E类[(^,)F类21E类]+E类[(^,)F类21E类c(c)]4n个2+E类[(ρ^ρ)F类2](λλ+12日志n个d日)24n个+n个(λλ+12日志n个d日)2=O(运行)(n个1(λλ+1)2),

哪里E类={最大值1v(v)d日|λ^v(v)λv(v)|2日志n个/d日},第二和第三个不合格是由于(7.4)和(7.3)分别是。

7.1.2. 定理证明2

定理证明2.定义高信号坐标集,

H(H)=H(H)(τ)={ν:|q个νj个|C类ττn个,对一些人来说1j个第页},

哪里C类τ是一个常量。然后,类似于中引理3.1的证明马(2013)),我们可以展示

第页|H(H)|C类π(第页)τn个δ.
(7.5)

此外,让L(左)= {1, …,d日} \H(H)。在这里和后面,我们使用了一个额外的上标“o(o)“以指示oracle数量。那就是,让我们

ρ=[ρH(H)H(H)ρH(H)L(左)ρL(左)H(H)ρL(左)L(左)]ρo(o)=[ρH(H)H(H)000].

ρ^ρ^o(o)是的估计量ρρo(o)分别是。明确地,

ρ^=(ρ^j个),j个=1,,第页ρ^o(o)=[ρ^H(H)H(H)000].

使用算法1,我们构造了一个oracle序列d日-由-正交矩阵{^(k个),o(o),k个1}带有首字母^(0),o(o).建造^(0),o(o),我们使用oracle版本的算法2具体来说,S公司o(o)=S公司H(H)。这确保了^L(左)(0),o(o)=0.

概率至少为1−C类0(d日n个)−2,我们有

(,^())F类2C类{(,o(o))F类2+(o(o),^o(o))F类2+(^o(o),^(),o(o))F类2+(^(),o(o),^())F类2}C类π(d日)τn个2δ(λλ+1)2,

其中第一个不等式是由三角不等式和Jensen不等式引起的,最后一个不等式来自下面的命题1-4。

提议1 在定理2的假设下,我们有

(,o(o))F类2C类π(d日)τn个2δ(λλ+1)2.

提议2 在定理2的假设下,我们至少有概率1 −C类0(d日n个)−2

(o(o),^o(o))F类2C类π(d日)τn个2δ(λλ+1)2.

提案3 在定理2的假设下,我们至少有概率1 −C类0(d日n个)−2,

(^o(o),^(),o(o))F类2C类π(d日)τn个2δ(λλ+1)2.

提案4 在定理2的假设下,我们至少有概率1 −C类0(d日n个)−2,

^(k个),o(o)=^(k个)对于k个0.

上述命题1-4的证明见附录.

7.2. 定理证明3

为了获得下界,我们考虑实值密度矩阵,ρ也就是说,βj个对应于复值Pauli矩阵的是零。

我们使用以下Fano引理(引理A.5 inBirnbaum等人(2013)).

引理1(Fano引理) 表示方式{P(P)θ:θ∈ Θ}公共可测空间上的概率分布族,其中Θ是任意参数集。那么,对于任何有限子集 ={θ1,,θM(M)} 属于Θ,我们有

inf公司T型啜饮θΘP(P)θ(T型θ)1inf公司F类M(M)1k个=1M(M)D类(P(P)k个F类)+日志2日志M(M),

其中F是任意概率分布,P(P)k个=P(P)θk个,T表示θ的任意估计量,其值为Θ,和D(P(P)k个F类)是库尔巴克雷伯乐吗(吉隆坡)F与P的散度k个.

引理2 对于k= 1, 2,

ρk个=1d日B类1+1d日j个=2第页βj个(k个)B类j个

和Pk个是二项式概率测度的乘积,B类(n个,1+β2(k个)2),,B类(n个,1+β第页(k个)2).那么我们有

D类(P(P)1P(P)2)n个j个=2第页(βj个(1)βj个(2))21(βj个(2))2.

引理3 对于ϵ∈ [0, 1],函数 A类ϵ:V(V)d日,V(V)d日, 以块形式定义为

A类ϵ(J型)=((1ϵ2)1/2ϵJ型),

哪里 V(V)d日,小时={d日×小时:=} 是d-by-h正交矩阵的Stiefel流形。对于 J型1,J型2V(V)d日,,我们有

(A类ϵ(J型1),A类ϵ(J型2))22ϵ2(1ϵ2)J型1J型222,

ϵ2(1ϵ2)J型1J型2F类2(A类ϵ(J型1),A类ϵ(J型2))F类2ϵ2J型1J型2F类2.

证明:类似于引理3的证明(Kim和Wang(2016)),我们可以显示此语句。

引理4 设h是满足e的整数h、 让我们∈ [1,小时].存在一个子集 {J型1,,J型M(M)}V(V)小时,1 满足以下属性:

  1. J型j个J型j个221/4 对于所有jj′;
  2. J型j个0s代表所有j;
  3. 日志M(M)≥最大值{反恐精英[1+日志(小时/秒)],日志小时}其中c> 1/30是绝对常数.

证明:参见中引理A.5的证明Vu和Lei(2013). ■

定理证明3由于泡利矩阵构成了所有复厄米矩阵的正交基,对于任何给定的A类V(V)d日,,其中V(V)d日,是Stiefel流形d日-由-正交矩阵,有β′j个这样的话

ρ(A类)=d日1(d日+j个=2第页βj个B类j个)=1A类A类T型.

我们认为A类如下所示。

A类ϵ(J型)=((1ϵ2)1/2ϵJ型),
(7.6)

哪里是一个-由-单位矩阵,以及ϵ∈[0,1],和J型V(V)d日,.使用引理4,我们构造了J型如下所示。定义T型={J型1,,J型M(M)}具有小时= ⌊(d日)/⌋和=ϱ小时,其中ϱ∈ (1/小时, 1). 那么,从引理4,(i)logM(M)′ ≥c(c)最大值{[1−logϱ],日志d日}对于一些常量c(c)自由的n个第页; (ii)‖J型0为所有人j个= 1, …,M(M)′; (iii)J型j个J型j个221/4为所有人j个j个′. 选择J型英寸(7.6)如下:

J型(1,,)=(100020000),

哪里j个τ为所有人j个.让(J型)={J型(1,,),j个T型(f)o(o)第页j个=1,,}然后,从τ,(J型)V(V)d日,,以及(J型)M(M)= (M(M)′)。请注意日志M(M)mc公司最大值{[1−log(对数)ϱ],日志d日},对于任何J型k个(J型),存在βj个(k个),这样的话

ρ(J型k个)=d日1(d日+j个=2第页βj个(k个)B类j个)=1A类ϵ(J型k个)A类ϵ(J型k个)T型.

在不失一般性的情况下,我们假设第一个d日泡利矩阵,B类j个的,对应于对角Pauli矩阵。定义P(P)0二项式概率测度的乘积,B类(n个,1+β2(0)2),,B类(n个,1+β第页(0)2)具有βj个(0)确定如下:

βd日+1(0)==β第页(0)=0

β1(0),,βd日(0)是以下方程的解,

ρ0=1d日j个=1d日βj个(0)B类j个=1((1ϵ2)00ϵ2d日d日).

β(0)=(β1(0),,βd日(0))T型β(k个)=(β1(k个),,βd日(k个))T型H(H)= (b条1, …,b条d日),其中b条j个=诊断(B类j个)的j个= 1, …,d日然后,通过构造泡利矩阵,H(H)d日-由-d日阿达玛矩阵。我们有

β(0)=H(H)T型诊断(ρ0)β(k个)=H(H)T型诊断(ρ(J型k个)).

然后

j个=2d日|βj个(k个)βj个(0)2|=H(H)T型[诊断(ρ(J型k个))诊断(ρ0)]22=d日[诊断(ρ(J型k个))诊断(ρ0)]T型[诊断(ρ(J型k个))诊断(ρ0)]=2米1d日ϵ4
(7.7)

第二个等式是由以下事实建立的H(H)T型H(H)=d日d日。请注意|βj个(0)|1ϵ2/2为所有人j个= 2, …,d日对于非对角项,我们有k个= 1, …,M(M),

ρ(J型k个)ρ0F类2=d日j个=1第页|βj个(k个)βj个(0)|2=2(0(1ϵ2)1/2ϵJ型k个T型(1ϵ2)1/2ϵJ型k个ϵ2J型k个J型k个T型ϵ2d日d日)F类2=1[2(1ϵ2)ϵ2+ϵ4+ϵ4/(d日)]21ϵ2.

所以,我们有

j个=d日+1第页|βj个(k个)βj个(0)|221ϵ2.
(7.8)

然后,通过引理2,我们可以获得KL散度的上界,如下所示:

D类(P(P)k个P(P)0)n个j个=2第页(βj个(k个)βj个(0))21(βj个(0))2=n个[j个=2第页(βj个(k个)βj个(0))21(βj个(0))2+j个=d日+1第页(βj个(k个)βj个(0))21(βj个(0))2]n个[j个=2d日(βj个(k个)βj个(0))21(1ϵ2/2)2+j个=d日+1第页(βj个(k个)βj个(0))2]n个[4d日1ϵ4ϵ2+21d日ϵ2]=61n个d日ϵ2,
(7.9)

其中第三个不等式是由于(7.7)和(7.8).

根据引理3和4,我们有任何k个k个′,

(A类ϵ(J型k个),A类ϵ(J型k个))22ϵ2(1ϵ2)J型k个J型k个2214ϵ2(1ϵ2).
(7.10)

通过切比雪夫不等式和引理1,我们得到了所有ϵ2∈ [0, 1/2],

最大值k个E类P(P)k个(A类^,A类ϵ(J型k个))22ϵ2(1ϵ2)16[161d日n个ϵ2+日志2c(c)最大值{d日ϱ[1日志ϱ],日志d日}]ϵ2(1ϵ2)16[16d日n个ϵ2c(c)2d日ϱ[1日志ϱ]日志2c(c)日志d日]ϵ232[126d日n个ϵ2c(c)2d日ϱ[1日志ϱ]],

其中第一个不等式是由于(7.9)和(7.10). 采取

ϵ2=c(c)224ϱd日[1日志ϱ]d日n个=c(c)224ϱ[1日志ϱ]n个.

然后

最大值k个E类P(P)k个(A类^,A类ϵ(J型k个))221128ϵ2.
(7.11)

确保ρ(A类ϵ(J型k个))的位于稀疏子空间中,F类δ(π(d日)),我们需要以下条件

1+ϵδS公司(2δ)/2π(d日).
(7.12)

采取

ϱ=c(c)ϱπ(d日)d日1(日志d日n个d日)δ/2,

哪里c(c)ϱ=12(c(c)224)δ/2.然后(4.3)暗示

ϱπ(d日)n个1d日1(日志d日n个d日)δ/2d日N个,N个(0,1),

而1/小时=/(d日) ≍d日−1因此,渐近地,我们有ϱ∈ (1/小时, 1]. 阿尔索

ϵ2c(c)ϱc(c)224π(d日)d日1n个1(日志d日n个d日)δ/2[1+12(1δ/2)日志d日+δ/2日志日志d日]c(c)ϱc(c)224π(d日)(日志d日n个d日)1δ/21/2,

最后一个不平等是由于(n个,d日,π(d日))令人满意的(4.3),π(d日)(日志d日n个d日)1δ/2正常n个1d日N个日志d日这是可以忽略的。

简单代数显示

ϵ2δ(2δ)c(c)ϱ2(c(c)224)δ(π(d日)(日志d日n个d日)1δ/2)δ(π(d日)(日志d日n个d日)δ/2)2δ=12π(d日)2(日志d日n个d日)δ(日志d日n个d日)δ=12π(d日)2.

因此(7.12)持有。现在,从(7.11),我们有

最大值k个E类P(P)k个(A类^,A类ϵ(J型k个))22C类π(d日)n个1d日1(日志d日n个d日)δ/2×[1+N个日志d日日志(c(c)ϱπ(d日)d日N个1(日志d日n个d日)δ/2)]C类π(d日)n个1d日1(日志d日n个d日)δ/2日志d日=C类π(d日)(日志第页n个d日)1δ/2,
(7.13)

其中第二个不等式是由于(4.3).

对于Frobenius范数,根据引理3和4,我们有任何k个k个′,

(A类ϵ(J型k个),A类ϵ(J型k个))F类2ϵ2(1ϵ2)J型k个J型k个F类24ϵ2(1ϵ2).

然后,类似于(7.13),我们可以展示

最大值k个E类P(P)k个(A类^,A类ϵ(J型k个))F类2C类π(d日)(日志d日n个d日)δ/2.

补充材料

1

单击此处查看。(267K,pdf)

致谢。

Tony Cai的研究部分得到了NSF拨款DMS-1712735和NIH拨款R01-GM129781和R01-GM123056的支持。金东雨的研究部分得到了KAIST新任教员安置/研究补助金G04170049和KAIST教员基础研究基金(A0601003029)的支持。宋新余的研究得到了中央高校基本科研业务费专项资金(2018110128)和国家自然科学基金(11871323)的资助。王亚珍的研究得到了国家科学基金会(NSF)拨款DMS-15-28375、DMS-17-07605和DMS-19-13149的部分支持。

脚注

出版商免责声明:这是一份未经编辑的手稿的PDF文件,已被接受出版。作为对客户的服务,我们正在提供这份早期版本的手稿。手稿将经过编辑、排版和校对,然后才能以最终形式出版。请注意,在制作过程中可能会发现错误,这可能会影响内容,所有适用于该杂志的法律免责声明都适用。

工具书类

  • Bickel PJ、Levina E等人(2008年)。基于阈值的协方差正则化.统计年鉴,36(6):2577–2604.[谷歌学者]
  • BirgéL(2001年)。一个旧结果的新观点:Fano引理.[谷歌学者]
  • Birnbaum A、Johnstone IM、Nadler B和Paul D(2013年)。含噪声高维数据的稀疏主成分分析的极大极小界.统计年鉴,41(): 1055.[PMC免费文章][公共医学][谷歌学者]
  • Cai T、Kim D、Wang Y、Yuan M和Zhou HH(2016)。基于泡利测量的最优大规模量子态层析成像.统计年鉴,44(2):682–712.[谷歌学者]
  • Cai T和Liu W(2011)。稀疏协方差矩阵估计的自适应阈值法.美国统计协会杂志,106(494):672–684.[谷歌学者]
  • Cai T、Ma Z和Wu Y(2015)。稀疏尖峰协方差矩阵的最优估计和秩检测.概率论及其相关领域,161(3-4):781–815.[PMC免费文章][公共医学][谷歌学者]
  • 蔡TT、马Z和吴毅(2013)。稀疏PCA:最优速率和自适应估计.统计年鉴,41(6):3074–3110.[谷歌学者]
  • Cai TT和Zhou HH(2012)。l1范数下大协方差矩阵的极大极小估计.中国统计局,22(4):1319–1349.[谷歌学者]
  • Golub G和Van Loan C(1996年)。矩阵计算第三版约翰·霍普金斯大学出版社。[谷歌学者]
  • Häffner H、Hänsel W、Roos C、Benhelm J、Chwalla M、Kbrber T、Rapol U、Riebe M、Schmidt P和Becher C(2005)。囚禁离子的可伸缩多粒子纠缠.自然,438(7068):643. [公共医学][谷歌学者]
  • Johnstone IM和Lu AY(2009年)。高维主成分分析的一致性和稀疏性.美国统计协会杂志,104(486):682–693.[PMC免费文章][公共医学][谷歌学者]
  • Kim D、Kong X-B、Li C-X和Wang Y(2018年)。基于高频金融数据的大波动率矩阵估计的自适应阈值.计量经济学杂志,203(1):69–79.[谷歌学者]
  • Kim D和Wang Y(2016)。基于具有测量误差的高维ito过程的稀疏pca.多元分析杂志,152:172–189.[谷歌学者]
  • Kim D和Wang Y(2017)。基于泡利测度的量子系统大密度矩阵的假设检验.物理学A:统计力学及其应用,469:31–51.[谷歌学者]
  • Kim D、Wang Y和Zou J(2016)。基于高频金融数据的大波动率矩阵估计的渐近理论.随机过程及其应用,126(11):3527–3577.[谷歌学者]
  • Koltchinskii V和Xia D(2015)。低秩密度矩阵的最优估计.机器学习研究杂志,16(53):1757–1792.[谷歌学者]
  • Li R-C(1998年a)。相对微扰理论:I.特征值和奇异值的变化.SIAM矩阵分析与应用杂志,19(4):956–982.[谷歌学者]
  • Li R-C(1998年b)。相对摄动理论:II。本征空间与奇异子空间变异.SIAM矩阵分析与应用杂志,20(2):471–492.[谷歌学者]
  • 马Z(2013)。稀疏主成分分析与迭代阈值.统计年鉴,41(2):772–801.[谷歌学者]
  • Nielsen MA和Chuang IL(2010年)。量子计算与量子信息剑桥大学出版社。[谷歌学者]
  • Tao M、Wang Y和Chen X(2013a)。使用高频金融数据估计大波动率矩阵的快速收敛速度.计量经济学理论,29(4):838–856.[谷歌学者]
  • Tao M、Wang Y和Zhou HH(2013b)。具有测量误差的高维itó过程的最优稀疏波动矩阵估计.统计年鉴,41(4):1816–1864.[谷歌学者]
  • Tropp JA(2012)。随机矩阵和的用户友好尾界.计算数学基础,12(4):389–434.[谷歌学者]
  • Vu VQ、Cho J、Lei J和Rohe K(2013)。范托普投影与选择:稀疏PCA的近最优凸松弛.神经信息处理系统研究进展,2:2670–2678.[谷歌学者]
  • Vu VQ和Lei J(2013)。高维Minimax稀疏主子空间估计.统计年鉴,41(6):2905–2947.[谷歌学者]
  • 王毅(2011)。量子蒙特卡罗模拟.应用统计学年鉴,5(2安培):669–683.[谷歌学者]
  • 王勇(2012)。量子计算与量子信息.统计科学,27():373–394.[谷歌学者]
  • 王毅(2013)。量子态层析成像与噪声矩阵补全的渐近等价性.统计年鉴,41(5):2462–2504.[谷歌学者]
  • 王毅和宋十(2020)。量子科学与量子技术.统计科学,35(1):51–74.[谷歌学者]
  • 王毅(Wang Y)和邹杰(Zou J)(2010)。高频金融数据的巨大波动矩阵估计.统计年鉴,38(2):943–978.[谷歌学者]