×

应用于图形模型推断的异质性调整。 (英语) Zbl 1409.62124号

摘要:在分析来自多个来源的聚合数据集时,异质性是一种不需要的变化。尽管针对异质性调整提出了不同的方法,但还没有系统的理论来证明这些方法的合理性。在这项工作中,我们提出了一个名为ALPHA(自适应低秩主异质性调整的缩写)的通用框架,用于对原始数据的异质性进行建模、估计和调整。一旦异质性得到调整,我们就能够消除批处理效应,并通过聚合来自多个来源的均匀残差来增强推断能力。在普遍假设潜在异质性因素同时影响一部分观测变量的情况下,我们提供了一个严格的理论来证明所提出的框架。我们的框架还允许纳入信息协变量,并呼吁“维数的祝福”。作为该通用框架的一个示例性应用,我们考虑了基于多个数据集的图形模型推理的高维精度矩阵估计问题。我们还对合成数据集和大脑成像数据集进行了深入的数值研究,以证明所开发的理论和方法的有效性。

MSC公司:

62H25个 因子分析和主成分;对应分析
62华氏35 多元分析中的图像分析
62页第10页 统计学在生物学和医学中的应用;元分析

软件:

玻璃制品
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ahn,S.C.和Horenstein,A.R.(2013)。因子数的特征值比检验。,计量经济学81 1203-1227·Zbl 1274.62403号 ·doi:10.3982/ECTA8968
[2] Alter,O.、Brown,P.O.和Botstein,D.(2000)。用于全基因组表达数据处理和建模的奇异值分解。,国家科学院院刊97 10101-10106。
[3] Bai,J.(2003)。大维度因子模型的推理理论。,计量经济学71 135-171·Zbl 1136.62354号 ·数字对象标识代码:10.1111/1468-0262.00392
[4] Bai,J.和Ng,S.(2002年)。确定近似因子模型中的因子数。,计量经济学70 191-221·Zbl 1103.91399号 ·数字对象标识代码:10.1111/1468-0262.00273
[5] Bai,J.和Ng,S.(2013年)。主成分估计和静态因素识别。,计量经济学杂志176 18-29·Zbl 1284.62350号 ·doi:10.1016/j.jeconom.2013.03.007
[6] Biswal,B.B.,Mennes,M.,Zuo,X.-N.,Gohel,S.,Kelly,C.,Smith,S.M.,Beckmann,C.F.,Adelstein,J.S.,Buckner,R.L.和Colcombe,S.(2010)。走向人类大脑功能的发现科学。,国家科学院学报107 4734-4739。
[7] Cai,T.T.、Li,H.、Liu,W.和Xie,J.(2012)。协方差调整精度矩阵估计及其在遗传基因组学中的应用。,生物特征AS058·Zbl 1284.62648号 ·doi:10.1093/biomet/ass058
[8] Cai,T.T.、Li,H.、Liu,W.和Xie,J.(2015)。多个高维精度矩阵的联合估计。,统计年鉴38 2118-2144。
[9] Cai,T.T.,Liu,W.和Luo,X.(2011)。受约束的\(ℓ_1)稀疏精度矩阵估计的最小化方法。,美国统计协会杂志106 594-607·Zbl 1232.62087号 ·doi:10.1198/jasa.2011.tm10155
[10] Cai,T.T.,Ma,Z.和Wu,Y.(2013)。稀疏PCA:最优速率和自适应估计。,统计年鉴41 3074-3110·Zbl 1288.62099号 ·doi:10.1214/13-AOS1178
[11] Chen,C.、Grennan,K.、Badner,J.、Zhang,D.、Gershon,E.、Jin,L.和Liu,C.(2011)。消除表达微阵列数据分析中的批量效应:六种批量调整方法的评估。,请访问one6 e17238。
[12] Chen,X.(2007)。半非参数模型的大样本筛分估计。,计量经济学手册6 5549-5632。
[13] Connor,G.、Hagmann,M.和Linton,O.(2012年)。fama-french模型的有效半参数估计及其推广。,计量经济学80 713-754·Zbl 1274.91485号 ·doi:10.3982/ECTA7432
[14] Connor,G.和Linton,O.(2007年)。基于特征的普通股收益因子模型的半参数估计。,《实证金融杂志》14 694-717。
[15] Danaher,P.、Wang,P.和Witten,D.M.(2014)。多类协方差逆估计的联合图形套索。,英国皇家统计学会杂志:B辑(统计方法)76 373-397·Zbl 07555455号
[16] Fan,J.、Ke,Y.和Wang,K.(2016a)。高维稀疏回归协变量的去相关。,arXiv预打印arXiv:1612.08490。
[17] Fan,J.、Liao,Y.和Mincheva,M.(2013)。基于主正交补码阈值的大协方差估计。,英国皇家统计学会杂志:B辑(统计方法)75 603-680·Zbl 1411.62138号
[18] Fan,J.、Liao,Y.和Wang,W.(2016b)。因子模型中的预测主成分分析。,统计年鉴44 219-254·Zbl 1331.62295号 ·doi:10.1214/15-OS1364
[19] Fan,J.、Rigollet,P.和Wang,W.(2015)。稀疏协方差矩阵泛函的估计。,统计年鉴43 2706·Zbl 1327.62338号 ·doi:10.1214/15-AOS1357
[20] Friedman,J.、Hastie,T.和Tibshirani,R.(2008)。图形Lasso.的稀疏逆协方差估计。,生物统计9 432–441·Zbl 1143.62076号 ·doi:10.1093/biostatistics/kxm045
[21] Guo,J.,Cheng,J.、Levina,E.、Michailidis,G.和Zhu,J.(2015)。使用点名投票应用程序估计离散数据的异构图形模型。,应用统计学年鉴·兹比尔1397.62195 ·doi:10.1214/13-AOAS700
[22] Guo,J.、Levina,E.、Michailidis,G.和Zhu,J.(2011)。多图形模型的联合估计。,生物特征asq060·Zbl 1214.62058号 ·doi:10.1093/biomet/asq060
[23] Higgins,J.、Thompson,S.G.和Spiegelhalter,D.J.(2009)。随机效应元分析的重新评估。,英国皇家统计学会杂志:A辑(社会统计)172 137-159。
[24] Hsu,D.、Kakade,S.M.和Zhang,T.(2012)。亚高斯随机向量二次型的尾部不等式。,电子。Commun公司。可能17·Zbl 1309.60017号
[25] Johnson,W.E.、Li,C.和Rabinovic,A.(2007年)。使用经验贝叶斯方法调整微阵列表达数据中的批量效应。,生物统计8 118-127·Zbl 1170.62389号 ·doi:10.1093/biostatistics/kxj037
[26] Johnstone,I.M.和Lu,A.Y.(2009年)。关于高维主成分分析的一致性和稀疏性。,美国统计协会杂志104 682-693·Zbl 1388.62174号 ·doi:10.1198/jasa.2009.0121
[27] Lam,C.和Fan,J.(2009年)。大协方差矩阵估计的稀疏性和收敛速度。,统计年鉴37 4254·Zbl 1191.62101号 ·doi:10.1214/09-AOS720
[28] Lam,C.和Yao,Q.(2012)。高维时间序列的因子建模:因子数量推断。,统计年鉴40 694-726·Zbl 1273.62214号 ·doi:10.1214/12-AOS970
[29] Leek,J.T.、Scharpf,R.B.、Bravo,H.C.、Simcha,D.、Langmead,B.、Johnson,W.E.、Geman,D.、Baggerly,K.和Irizarry,R.A.(2010年)。解决高吞吐量数据中批量效应的广泛而关键的影响。,《自然评论遗传学》11 733-739。
[30] Leek,J.T.和Storey,J.D.(2007)。通过替代变量分析捕捉基因表达研究中的异质性。,公共科学图书馆Genet3 1724-1735。
[31] Liu,H.、Han,F.和Zhang,C.-H.(2012)。跨椭圆图形模型。年,《神经信息处理系统进展》。
[32] Liu,H.、Lafferty,J.和Wasserman,L.(2009)。非paranormal:高维无向图的半参数估计。,机器学习研究杂志10 2295-2328·Zbl 1235.62035号
[33] Loh,P.-L.和Wainwright,M.J.(2013)。离散图形模型的结构估计:广义协方差矩阵及其逆矩阵。,统计年鉴41 3022-3049·Zbl 1288.62081号 ·doi:10.1214/13-AOS1162
[34] Lorentz,G.G.(2005)。,函数近似,第322卷。美国数学学会。
[35] Meinshausen,N.和Bühlmann,P.(2006)。高维图和用套索选择变量。,《统计年鉴》1436-1462年·Zbl 1113.62082号 ·doi:10.1214/0090536000000281
[36] Negahban,S.和Wainwright,M.J.(2011年)。带噪声和高维标度的(近)低秩矩阵估计。,统计年鉴1069-1097·Zbl 1216.62090号 ·doi:10.1214/10-AOS850
[37] Onatski,A.(2012)。具有弱影响因子的大因子模型主成分估计的渐近性。,计量经济学杂志168 244-258·Zbl 1443.62497号 ·doi:10.1016/j.jeconom.2012.01.034
[38] Paul,D.(2007年)。大维尖峰协方差模型样本特征结构的渐近性。,《中国统计》17 1617·Zbl 1134.62029号
[39] Power,J.D.、Cohen,A.L.、Nelson,S.M.、Wig,G.S.、Barnes,K.A.、Church,J.A.、Vogel,A.C.、Laumann,T.O.、Miezin,F.M.和Schlaggar,B.L.(2011年)。人脑的功能网络组织。,神经元72 665-678。
[40] Ravikumar,P.、Wainwright,M.J.、Raskutti,G.和Yu,B.(2011年)。基于最小化的高维协方差估计\(ℓ_1)-惩罚对数决定散度。,电子统计杂志5 935-980·Zbl 1274.62190号 ·doi:10.1214/11-EJS631
[41] Rudelson,M.和Vershynin,R.(2013)。Hanson-wright不等式与亚高斯浓度。,电子。Commun公司。大概18·兹比尔1329.60056 ·doi:10.1214/ECP.v18-2865
[42] Shen,X.、Pan,W.和Zhu,Y.(2012)。基于似然的选择和尖锐参数估计。,美国统计协会杂志107 223-232·Zbl 1261.62020年 ·doi:10.1080/01621459.2011.645783
[43] Sims,A.H.、Smethurst,G.J.、Hey,Y.、Okoniewski,M.J.,Pepper,S.D.、Howell,A.、Miller,C.J.和Clarke,R.B.(2008)。消除乘法性、系统性偏差可以整合乳腺癌基因表达数据集,从而改进荟萃分析和预后预测。,BMC医学基因组学142。
[44] Stock,J.H.和Watson,M.W.(2002年)。使用大量预测因子的主成分进行预测。,美国统计协会杂志97 1167-1179·Zbl 1041.62081号 ·doi:10.1198/016214502388618960
[45] Verbeke,G.和Lesaffre,E.(1996年)。随机效应群体中具有异质性的线性混合效应模型。,美国统计协会杂志91 217-221·Zbl 0870.62057号 ·网址:10.1080/01621459.1996.10476679
[46] Wang,W.和Fan,J.(2017)。高维尖峰协方差经验特征结构的渐近性。,统计年鉴45 1342-1374·Zbl 1373.62299号 ·doi:10.1214/16-AOS1487
[47] Yang,S.、Lu,Z.、Shen,X.、Wonka,P.和Ye,J.(2015)。融合多个图形套索。,SIAM优化杂志25 916-943·Zbl 1320.90055 ·doi:10.137/130936397
[48] 袁明(2010)。基于线性规划的高维逆协方差矩阵估计。,《机器学习研究杂志》11 2261-2286·Zbl 1242.62043号
[49] Yuan,M.和Lin,Y.(2007)。高斯图形模型中的模型选择和估计。,生物特征94 19-35·Zbl 1142.62408号 ·doi:10.1093/biomet/asm018
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。