×

隐变量多元反应回归中的自适应估计。 (英语) Zbl 1486.62158号

摘要:科学研究人员的一个突出关注点是关联分析中存在未观察到的隐藏变量。忽略隐藏变量往往会产生有偏见的统计结果和误导性的科学结论。基于这一实际问题,本文研究了带隐变量的多元响应回归,其中,(Y={(Psi^{ast})^T}X+{(B^{ast{)^T}Z+E)是响应向量,(X\in{mathbb{R}^m})是可观测特征,(Z\in{mathbb{R}^K})代表不可观测隐变量向量,可能与\(X\)相关,而\(E\)是一个独立的错误。隐藏变量(K)的数量未知,允许(m)和(p)随样本大小(n)增长,但不是必需的。
虽然由于隐藏变量的存在,\(\Psi^{\ast}\)被证明是不可识别的,但我们建议标识\(\Psi^{\ast}\)到\(B^{\asp}\)行空间的正交补码上的投影,用\(Theta^{\last})表示。量\({(Theta^{ast})^T}X\)测量\(X)对\(Y)的影响,无法通过隐藏变量进行解释,因此\(Theta_{ast}\)被视为感兴趣的参数。受可辨识性证明的启发,我们提出了一种新的估计算法,称为HIVE,该算法适用于同方差误差下的(Theta^{ast})估计。该算法的第一步估计给定(X)的(Y)的最佳线性预测,其中未知系数矩阵表现为(Psi^{ast})的加性分解和由于(X)和(Z)之间的相关性而产生的稠密矩阵。在(Psi^{ast})稀疏性假设下,我们分别通过群最小二乘和多元岭对(Psi_{ast}\)和稠密矩阵进行正则化,以最小化惩罚最小二乘损失。建立了样本内预测误差的非渐近偏差界。我们的第二步通过利用第一步剩余向量的协方差结构来估计(B^{ast})的行空间。在最后一步中,我们通过将(Y)投影到(B^{ast})的估计行空间的正交补上来估计(Theta^{ast{),以消除隐藏变量的影响。建立了对任意(m,p,K)和(n)有效的(Theta^{ast})最终估计量的非渐近误差界。我们进一步证明,在温和的假设下,我们的估计量的速率与已知的(B^{ast})的最佳可能速率相匹配,并且适用于由(Psi^{ast{)的稀疏性引起的(Theta^{astneneneep)的未知稀疏性。模型的可辨识性、估计算法和统计保证进一步扩展到具有异方差误差的情况。提供了详尽的数值模拟和两个实际数据示例来支持我们的理论结果。

MSC公司:

62甲12 多元分析中的估计
62J07型 岭回归;收缩估计器(拉索)

软件:

跳跃;DDL公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ahn,S.C.和Horenstein,A.R.(2013)。因子数的特征值比检验。计量经济学81 1203-1227. ·Zbl 1274.62403号 ·doi:10.3982/ECTA8968
[2] ALDRIN,M.(1996)。多元反应数据的适度投影寻踪回归。计算。统计师。数据分析。21 501-531. ·Zbl 0900.62334号 ·doi:10.1016/0167-9473(94)00029-8
[3] Anderson,T.W.(1984)。多元统计分析导论,第2版。概率与数理统计中的威利级数:概率论与数理统计纽约威利·Zbl 0651.62041号
[4] Bai,J.(2003)。大维度因子模型的推理理论。计量经济学71 135-171. ·Zbl 1136.62354号 ·数字对象标识代码:10.1111/1468-0262.00392
[5] Bai,J.和Ng,S.(2002年)。确定近似因子模型中的因子数。计量经济学70 191-221. ·Zbl 1103.91399号 ·数字对象标识代码:10.1111/1468-0262.00273
[6] Bai,Z.D.和Yin,Y.Q.(1993)。大维样本协方差矩阵最小特征值的极限。安·普罗巴伯。21 1275-1294. ·Zbl 0779.60026号
[7] Belloni,A.、Chernozhukov,V.和Wang,L.(2014)。在非参数回归中通过平方根拉索进行枢轴估计。安。统计师。42 757-788. ·Zbl 1321.62030号 ·doi:10.1214/14-AOS1204
[8] Bickel,P.J.、Ritov,Y.和Tsybakov,A.B.(2009年)。同时分析套索和Dantzig选择器。安。统计师。37 1705-1732. ·Zbl 1173.62022号 ·doi:10.1214/08-AOS620
[9] BING,X.,NING,Y.和XU,Y.(2022)。补充“带隐藏变量的多元响应回归中的自适应估计”https://doi.org/10.1214/21-AOS2059SUPP网站
[10] BING,X.和WEGKAMP,M.H.(2019年)。高维多变量响应回归模型中系数矩阵秩的自适应估计。安。统计师。47 3157-3184. ·Zbl 1477.62140号 ·doi:10.1214/18-AOS1774
[11] Bloom,J.S.、Ehrenreich,I.M.、Loo,W.T.、Lite,T.-L.V.和Kruglyak,L.(2013)。寻找酵母杂交中缺失遗传力的来源。自然494 234-237.
[12] Bühlmann,P.和van de Geer,S.(2011)。高维数据统计.统计学中的斯普林格系列海德堡施普林格·Zbl 1273.62015年 ·doi:10.1007/978-3-642-20192-9
[13] BUJA,A.和EYUBOGLU,N.(1992年)。关于平行分析的备注。多变量。行为。物件。27 509-540. ·doi:10.1207/s15327906mb2704_2
[14] BUNEA,F.、LEDERER,J.和SHE,Y.(2014)。方圆套索组:理论性质和快速算法。IEEE传输。Inf.理论60 1313-1325. ·Zbl 1364.94113号 ·doi:10.1109/TIT.2013.2290040
[15] BUNEA,F.、SHE,Y.和WEGKAMP,M.H.(2011年)。高维矩阵降秩估计的最优选择。安。统计师。39 1282-1309. ·兹比尔1216.62086 ·doi:10.1214/11-AOS876
[16] BUNEA,F.、SHE,Y.和WEGKAMP,M.H.(2012年)。高维矩阵简约估计的联合变量和秩选择。安。统计师。40 2359-2388. ·Zbl 1373.62246号 ·doi:10.1214/12-AOS1039
[17] BUNEA,F.、STRIMAS-MACKEY,S.和WEGKAMP,M.(2020年)。潜在因素回归模型下的插值·Zbl 07415120号
[18] CANDÈS,E.J.、LI,X.、MA,Y.和WRIGHT,J.(2011)。稳健的主成分分析?美国临床医学杂志58 11:1-11:37. ·Zbl 1327.62369号 ·doi:10.145/1970392.1970395
[19] Candès,E.J.和Tao,T.(2010年)。凸松弛的威力:近最优矩阵补全。IEEE传输。Inf.理论56 2053-2080. ·Zbl 1366.15021号 ·doi:10.1109/TIT.2010.2044061
[20] ch EVID,D.、BüHLMANN,P.和MEINSHAUSEN,N.(2020年)。通过扰动稀疏线性模型进行谱解算。J.马赫。学习。物件。21第232号文件·Zbl 1533.62050 ·doi:10.22405/2226-8383-2020-21-1-221-232
[21] CHAKRABORTY,S.、DATTA,S.和DATTA,S(2012)。基因表达研究中使用偏最小二乘法(SVA-PLS)进行替代变量分析。生物信息学28 799-806. ·doi:10.1093/bioinformatics/bts022
[22] Chandrasekaran,V.、Parrilo,P.A.和Willsky,A.S.(2012)。基于凸优化的潜在变量图形模型选择。安。统计师。40 1935-1967. ·Zbl 1257.62061号 ·doi:10.1214/11-AOS949
[23] CHERNOZHUKOV,V.、HANSEN,C.和LIAO,Y.(2017)。对密集和稀疏信号总和恢复的熔岩攻击。安。统计师。45 39-76. ·兹比尔1422.62248 ·doi:10.1214/16-AOS1434
[24] DIAZ,E.(2017)。因果关系和替代变量分析。可从arXiv:1704.00588获取。
[25] DICKER,L.H.(2016)。增长维球面上的岭回归和渐近极小极大估计。伯努利22 1-37. ·Zbl 1388.62205号 ·doi:10.3150/14-BEJ609
[26] Fan,J.、Liao,Y.和Mincheva,M.(2011)。近似因子模型中的高维协方差矩阵估计。安。统计师。39 3320-3356. ·Zbl 1246.62151号 ·doi:10.1214/11-AOS944
[27] Fan,J.、Liao,Y.和Mincheva,M.(2013)。通过阈值化主正交补码进行大协方差估计。J.R.统计社会服务。B.统计方法。75 603-680. ·Zbl 1411.62138号 ·doi:10.1111/rssb.12016
[28] FAN,J.、XUE,L.和YAO,J.(2017)。使用因子模型进行充分预测。J.计量经济学201 292-306. ·Zbl 1377.62185号 ·doi:10.1016/j.jeconom.2017.08.009
[29] GAGNON-BARTSCH,J.A.和SPEED,T.P.(2012)。使用控制基因纠正微阵列数据中不需要的变异。生物统计学13 539-552.
[30] GIRAUD,C.(2011)。低秩多元回归。电子。J.统计。5 775-799. ·Zbl 1274.62434号 ·doi:10.1214/11-EJS625
[31] 郭,Z.,cho EVID,D.和BüHLMANN,P.(2020)。双重衰退套索:隐藏混淆下的高维推理。
[32] HOUSEMAN,E.A.、ACCOMANDO,W.P.、KOESTLER,D.C.、CHRISTENSEN,B.C.、MARSIT,C.J.、NELSON,H.H.、WIENCKE,J.K.和KELSEY,K.T.(2012)。Dna甲基化阵列作为细胞混合物分布的替代测量。BMC生物信息。13 86. ·doi:10.1186/1471-2105-13-86
[33] HOX,J.J.和BECHGER,T.M.(1998年)。结构方程建模简介。
[34] HSU,D.、KAKADE,S.M.和ZHANG,T.(2011)。具有稀疏损坏的鲁棒矩阵分解。IEEE传输。Inf.理论57 7221-7234. ·兹伯利1365.15018 ·doi:10.1109/TIT.2011.2158250
[35] HSU,D.、KAKADE,S.M.和ZHANG,T.(2014)。岭回归的随机设计分析。已找到。计算。数学。14 569-600. ·Zbl 1298.62120号 ·doi:10.1007/s10208-014-9192-1
[36] IZENMAN,A.J.(2008)。现代多元统计技术:回归、分类和流形学习.统计中的Springer文本纽约州施普林格·Zbl 1155.62040号 ·doi:10.1007/978-0-387-78189-1
[37] Lam,C.和Yao,Q.(2012年)。高维时间序列的因子建模:因子数量的推断。安。统计师。40 694-726. ·Zbl 1273.62214号 ·doi:10.1214/12-AOS970
[38] LEE,S.、SUN,W.、WRIGHT,F.A.和ZOU,F.(2017)。通过系数调整改进的显式替代变量分析程序。生物特征104 303-316. ·Zbl 1506.62337号 ·doi:10.1093/biomet/asx018
[39] LEEK,J.T.和STOREY,J.D.(2007)。通过替代变量分析捕获基因表达研究中的异质性。公共科学图书馆-遗传学。3 1724.
[40] Leek,J.T.和Storey,J.D.(2008)。多重测试依赖性的通用框架。程序。国家。阿卡德。科学。美国105 18718-18723. ·Zbl 1359.62202号
[41] Lounici,K.、Pontil,M.、van de Geer,S.和Tsybakov,A.B.(2011年)。Oracle不等式与群稀疏下的最优推理。安。统计师。39 2164-2204. ·Zbl 1306.62156号 ·doi:10.1214/11-AOS896
[42] MCKENNAN,C.和NICOLAE,D.(2019年)。解释高维生物数据中具有不同程度可估计性的未观察协变量。生物特征106 823-840. ·Zbl 1435.62396号 ·doi:10.1093/biomet/asz037
[43] OBOZINSKI,G.、WAINWRIGHT,M.J.和JORDAN,M.I.(2011年)。支持高维多元回归中的联合恢复。安。统计师。39 1-47. ·Zbl 1373.62372号 ·doi:10.1214/09-AOS776
[44] Rudelson,M.和Zhou,S.(2013)。从各向异性随机测量中重建。IEEE传输。Inf.理论59 3434-3447. ·Zbl 1364.94158号 ·doi:10.1109/TIT.2013.2243201
[45] Sun,Y.、Zhang,N.R.和Owen,A.B.(2012)。针对潜在变量调整的多重假设检验,应用于AGEMAP基因表达数据。附录申请。斯达。6 1664-1688. ·Zbl 1257.62115号 ·doi:10.1214/12-AOAS561
[46] TESCHENDORFF,A.E.、ZHUANG,J.和WIDSCHWENDTER,M.(2011)。在大规模微阵列分析研究中消除混杂因素的独立替代变量分析。生物信息学27 1496-1505. ·doi:10.1093/bioinformatics/btr171
[47] Vershynin,R.(2012)。介绍随机矩阵的非渐近分析。压缩传感210-268. 剑桥大学出版社,剑桥。
[48] Wang,J.、Zhao,Q.、Hastie,T.和Owen,A.B.(2017)。多重假设检验中的混淆调整。安。统计师。45 1863-1894. ·Zbl 1486.62223号 ·doi:10.1214/16-AOS1511
[49] Yu,Y.,Wang,T.和Samworth,R.J.(2015)。对于统计学家来说,戴维斯-卡汉定理的一个有用变体。生物特征102 315-323. ·Zbl 1452.15010号 ·doi:10.1093/biomet/asv008
[50] Yuan,M.和Lin,Y.(2006)。分组变量回归中的模型选择和估计。J.R.统计社会服务。B.统计方法。68 49-67. ·Zbl 1141.62030号 ·doi:10.1111/j.1467-9868.2005302.x
[51] ZHANG,A.、CAI,T.T.和WU,Y.(2018)。异链酶Pca:算法、最优化和应用
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。