×

结构因子模型中的自适应估计及其在重叠聚类中的应用。 (英语) Zbl 1455.62116号

小结:这项工作介绍了一种新的估计方法,称为LOVE,用于估计潜在因子模型(X=AZ+E)中的加载矩阵(a)的条目和结构,用于可观测随机向量(X\in\mathbb{R}^p),具有相关的不可观测因子(Z\in\mathbb{R}^K),具有未知的(K)和不相关的噪声(E)。\(A\)的每一行都被缩放,并允许稀疏。为了识别载荷矩阵(A),我们需要存在纯变量,它们是通过(A)与一个且只有一个潜在因素关联的(X)的分量。尽管因子的数量(K)、纯变量的数量及其位置都是未知的,但我们只需要在协方差矩阵(Z)上有一个温和的条件,并且每个潜在因子至少只有两个纯变量,以表明(a)是唯一定义的,直到符号置换。我们对模型可辨识性的证明是有建设性的,并由此引出了我们从(X)的观测值大小样本中估计因子数和纯变量集的新方法。这是我们的LOVE算法的第一步,它是无优化的,并且具有低阶计算复杂度\(p^2 \)。LOVE的第二步是一个易于实现的线性程序,用于估计(A\)。我们证明了所得到的估计量对于(A\),对于(q\geq1)的损失,直到(p\)中的对数因子,都是接近最小最大速率最优的,并且在许多情况下它可以是最小速率最优的。
模型结构的动机是数据科学中普遍存在的重叠变量聚类问题。我们将种群水平簇定义为通过矩阵(A)与相同的不可观察潜在因子关联的(X)组分,并且允许多因素关联。簇分别由纯变量锚定,并形成(p)维随机向量(X)的重叠子群。(L)atent模型方法OVE公司rlapping聚类反映在我们的算法LOVE的名称中。
LOVE的第三步根据估计的\(A\)列的支持来估计簇。我们保证集群恢复具有零假阳性比例和假阴性比例控制。通过对RNA-seq数据集的分析,说明了LOVE的实际相关性,该数据集用于确定功能未知基因的功能注释。

MSC公司:

62H25个 因子分析和主成分;对应分析
62H30型 分类和区分;聚类分析(统计方面)

软件:

玻璃制品
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Anderson,T.W.(2003)。多元统计分析导论,第三版,《概率统计中的威利级数》。Wiley Interscience,新泽西州霍博肯。Zentralblatt数学:1039.62044
·Zbl 1039.62044号
[2] Anderson,T.W.和Amemiya,Y.(1988年)。一般条件下因子分析中估计量的渐近正态分布。安。统计师。16 759-771. Zentralblatt数学:0646.62051
数字对象标识符:doi:10.1214/aos/1176350834
欧几里德项目:Euclid.aos/1176350834
·Zbl 0646.62051号 ·doi:10.1214/aos/1176350834
[3] Anderson,T.W.和Rubin,H.(1956年)。因子分析中的统计推断。《第三届伯克利数理统计与概率研讨会论文集》,1954-1955年,第V卷111-150。加州大学出版社,伯克利和洛杉矶·Zbl 0070.14703号
[4] Arora,S.、Ge,R.、Halpern,Y.、Mimno,D.M.、Moitra,A.、Sontag,D.、Wu,Y.和Zhu,M.(2013)。具有可证明保证的主题建模实用算法。在ICML(2)280-288中。
[5] Ashburner,M.、Ball,C.A.、Blake,J.A.、Botstein,D.、Butler,H.、Cherry,J.M.、Davis,A.P.、Dolinski,K.、Dwight,S.S.等人(2000年)。基因本体:生物学统一的工具。自然遗传学。25 25-29.
[6] Bai,J.和Li,K.(2012年)。高维因子模型的统计分析。安。统计师。40 436-465. Zentralblatt数学:1246.62144
数字对象标识符:doi:10.1214/11-AOS966
欧几里德项目:Euclid.aos/1334581749
·Zbl 1246.62144号 ·doi:10.1214/11-AOS966
[7] Bai,J.和Ng,S.(2002年)。确定近似因子模型中的因子数。《计量经济学》70 191-221。Zentralblatt数学:1103.91399
数字对象标识符:doi:10.111/1468-0262.00273
·Zbl 1103.91399号 ·数字对象标识代码:10.1111/1468-0262.00273
[8] Bekker,P.A.和ten Berge,J.M.F.(1997)。因子分析中的通用全局识别。线性代数应用。264 255-263. Zentralblatt数学:0902.62066
数字对象标识符:doi:10.1016/S0024-3795(96)00363-1
·Zbl 0902.62066号 ·doi:10.1016/S0024-3795(96)00363-1
[9] Belloni,A.、Rosenbaum,M.和Tsybakov,A.B.(2017年)。高维变量误差模型中的线性和二次规划估值器。J.R.统计社会服务。B.统计方法。79 939-956. Zentralblatt数学:1411.62180
数字对象标识符:doi:10.1111/rssb.12196
·Zbl 1411.62180号 ·doi:10.1111/rssb.12196
[10] Best,M.G.,Sol,N.,Kooi,I.,Tannous,J.,Westerman,B.A.,Rustenburg,F.,Schellen,P.,Verschueren,H.,Post,E.等人(2015年)。肿瘤诱导血小板的RNA-seq使基于血液的泛癌、多类和分子途径癌症诊断成为可能。癌细胞28 666-676。
[11] Bezdek,J.C.(1981年)。模糊目标函数算法的模式识别。纽约Plenum出版社。由L.a.Zadeh撰写前言,《模式识别的高级应用》。Zentralblatt数学:0503.68069
·Zbl 0503.68069号
[12] Bhattacharya,A.和Dunson,D.B.(2011年)。稀疏贝叶斯无限因子模型。生物特征98 291-306。Zentralblatt数学:1215.62025
数字对象标识符:doi:10.1093/biomet/asr013
·Zbl 1215.62025号 ·doi:10.1093/biomet/asr013
[13] Bien,J.、Bunea,F.和Xiao,L.(2016)。协方差矩阵的凸带。J.Amer。统计师。协会111 834-845。
[14] Bing,X.,Bunea,F.和Wegkamp,M.H.(2018年)。针对主题数量未知的主题模型,提出了一种具有极大极小最优保证的快速算法。ArXiv电子打印ArXiv:1805.06837。arXiv公司:1805.06837
Zentralblatt数学:1434.68396
数字对象标识符:doi:10.3150/19-BEJ1166
欧几里德项目:Euclid.bj/1587974523
·Zbl 1434.68396号 ·doi:10.3150/19-BEJ1166
[15] Bing,X.和Wegkamp,M.H.(2018年)。高维多元响应回归模型中系数矩阵秩的自适应估计。arXiv:1704.02381。arXiv:1704.02381
Zentralblatt数学:07151057
数字对象标识符:doi:10.1214/18-AOS1774
欧几里德项目:Euclid.aos/1572487389
·Zbl 1477.62140号 ·doi:10.1214/18-AOS1774
[16] Bing,X.、Bunea,F.、Ning,Y.和Wegkamp,M.(2020年)。补充“结构因子模型中的自适应估计与重叠聚类应用”https://doi.org/10.1214/19-AOS1877SUPP。
[17] Bittorf,V.、Recht,B.、Re,C.和Tropp,J.A.(2012年)。用线性程序分解非负矩阵。arXiv:1206.1270。arXiv:1206.1270
[18] Bollen,K.A.(1989年)。具有潜在变量的结构方程。概率与数理统计中的威利级数:应用概率与统计。纽约州威利,威利国际科学出版物。Zentralblatt数学:0731.62159
·Zbl 0731.62159号
[19] Bunea,F.、Giraud,C.和Luo,X.(2016)。G模型中基于cord的Minimax最优变量聚类。ArXiv预印ArXiv:1508.01939。1939年8月15日
[20] Bunea,F.、She,Y.和Wegkamp,M.H.(2011年)。高维矩阵降秩估计量的最优选择。安。统计师。39 1282-1309. Zentralblatt数学:1216.62086
数字对象标识符:doi:10.1214/11-AOS876
欧几里德项目:Euclid.aos/1304947051
·Zbl 1216.62086号 ·doi:10.1214/11-AOS876
[21] Bunea,F.、Giraud,C.、Royer,M.和Verzelen,N.(2016)。PECOK:变量聚类的凸优化方法。ArXiv预打印ArXiv:1606.05100。arXiv:1606.05100
[22] Bunea,F.、Giraud,C.、Luo,X.、Royer,M.和Verzelen,N.(2018年)。模型辅助变量聚类:Minimax-optimal恢复和算法。ArXiv电子打印ArXiv:1508.01939。安。统计师。出现。arXiv:1508.01939
Zentralblatt数学:07196532
数字对象标识符:doi:10.1214/18-AOS1794
欧几里德项目:Euclid.aos/1581930128
·Zbl 1441.62164号 ·doi:10.1214/18-AOS1794
[23] Cai,T.、Liu,W.和Luo,X.(2011)。稀疏精度矩阵估计的约束(ell_1)最小化方法。J.Amer。统计师。协会106 594-607。Zentralblatt数学:1232.62087
数字对象标识符:doi:10.1198/jasa.2011.tm10155
·Zbl 1232.62087号 ·doi:10.1198/jasa.2011.tm10155
[24] Cai,T.T.,Liu,W.和Zhou,H.H.(2016)。估计稀疏精度矩阵:最佳收敛速度和自适应估计。安。统计师。44 455-488. Zentralblatt数学:1341.62115
数字对象标识符:doi:10.1214/13-AOS1171
欧几里德项目:Euclid.aos/1458245724
·Zbl 1341.62115号 ·doi:10.1214/13-AOS1171
[25] Candès,E.J.、Li,X.、Ma,Y.和Wright,J.(2011)。稳健的主成分分析?J.ACM 58第11、37条·Zbl 1327.62369号
[26] Carvalho,C.M.、Chang,J.、Lucas,J.E.、Nevins,J.R.、Wang,Q.和West,M.(2008)。高维稀疏因子建模:在基因表达基因组学中的应用。J.Amer。统计师。协会103 1438-1456。Zentralblatt数学:1286.62091
数字对象标识符:doi:10.1198/0162145000000869
·Zbl 1286.62091号 ·doi:10.1198/0162145000000869
[27] Chandrasekaran,V.、Parrilo,P.A.和Willsky,A.S.(2012)。通过凸优化选择潜在变量图形模型。安。统计师。40 1935-1967. Zentralblatt数学:1257.62061
数字对象标识符:doi:10.1214/11-AOS949
欧几里德项目:Euclid.aos/1351602527
·Zbl 1257.62061号 ·doi:10.1214/11-AOS949
[28] Chandrasekaran,V.、Sanghavi,S.、Parrilo,P.A.和Willsky,A.S.(2011年)。矩阵分解的秩稀疏不相干。SIAM J.Optim公司。21 572-596. Zentralblatt数学:1226.90067
数字对象标识符:doi:10.1137/090761793
·Zbl 1226.90067号 ·数字对象标识代码:10.1137/090761793
[29] Craddock,R.C.、James,G.A.、Holtzheimer,P.E.、Hu,X.P.和Mayberg,H.S.(2012)。通过空间约束谱聚类生成的全脑功能磁共振成像图谱。33 1914-1928.
[30] Craddock,R.C.、Jbabdi,S.、Yan,C.-G.、Vogelstein,J.T.、Castellanos,F.X.、Di Martino,A.、Kelly,C.、Heberlein,K.、Colcombe,S.等人(2013年)。在宏观尺度上成像人类连接体。自然方法10 524-539。
[31] Donoho,D.和Stodden,V.(2004)。非负矩阵分解在什么时候给出了正确的分解?神经信息处理系统进展16(S.Thrun,L.K.Saul和P.B.Schölkopf编辑)1141-1148。麻省理工学院出版社。
[32] Everitt,B.S.(1984)。潜在变量模型简介。统计学和应用概率专著。CRC出版社,伦敦;由纽约Methuen公司发行。Zentralblatt MATH:0583.62049
·Zbl 0583.62049号
[33] Fan,J.、Liao,Y.和Mincheva,M.(2013)。通过阈值化主正交补码进行大协方差估计。J.R.统计社会服务。B.统计方法。75 603-680. 57位作者进行了33次讨论,范、廖和明切娃作了答复。Zentralblatt数学:1411.62138
数字对象标识符:doi:10.1111/rssb.12016
·Zbl 1411.62138号 ·doi:10.1111/rssb.12016
[34] Friedman,J.、Hastie,T.和Tibshirani,R.(2008)。用图形套索进行稀疏逆协方差估计。生物统计学9 432-441。Zentralblatt数学:1143.62076
数字对象标识符:doi:10.1093/biostatistics/kxm045
·Zbl 1143.62076号 ·doi:10.1093/biostatistics/kxm045
[35] Gautier,E.和Tsybakov,A.B.(2011年)。高维工具变量回归和置信集。ArXiv预打印ArXiv:1105.2454v4。arXiv:1105.2454v4
[36] Geweke,J.和Zhou,G.(1996年)。测量套利定价理论的定价误差。财务版次。螺柱9 557-587。
[37] Hsu,D.、Kakade,S.M.和Zhang,T.(2011)。具有稀疏损坏的鲁棒矩阵分解。IEEE传输。通知。理论57 7221-7234。Zentralblatt数学:1365.15018
数字对象标识符:doi:10.1109/TIT.2011.2158250
·Zbl 1365.15018号 ·doi:10.1109/TIT.2011.2158250
[38] Izenman,A.J.(2008)。现代多元统计技术:回归、分类和流形学习。统计中的斯普林格文本。纽约州施普林格。天顶广场数学:1155.62040
·Zbl 1155.62040号
[39] 江D.、唐C.和张A.(2004)。基因表达数据的聚类分析:一项调查。IEEE传输。知识。数据工程16 1370-1386。
[40] Koopmans,T.C.和Reiersöl,O.(1950)。结构特征的识别。安。数学。《法律总汇》第21卷第165-181页。Zentralblatt数学:0038.29303
数字对象标识符:doi:10.1214/aoms/1177729837
欧几里德项目:Euclid.aoms/1177729837
·Zbl 0038.29303号 ·doi:10.1214/aoms/1177729837
[41] Krishnapuram,R.、Joshi,A.、Nasraoui,O.和Yi,L.(2001)。用于web挖掘的低复杂度模糊关系聚类算法。IEEE传输。模糊系统。9 595-607.
[42] Lawley,D.N.和Maxwell,A.E.(1971年)。作为统计方法的因子分析,第二版,美国爱思唯尔出版公司,纽约。Zentralblatt MATH:0251.62042
·Zbl 0251.62042号
[43] Ledermann,W.(1937年)。关于多因素分析中约化相关矩阵的秩。《心理测量学2》85-93。Zentralblatt数学:63.1109.03
数字对象标识符:doi:10.1007/BF02288062
·JFM 63.1109.03标准 ·doi:10.1007/BF02288062文件
[44] McDonald,R.P.(1999)。测试理论:统一处理。泰勒和弗朗西斯。
[45] Meinshausen,N.和Bühlmann,P.(2006)。高维图和用套索选择变量。安。统计师。34 1436-1462. Zentralblatt数学:1113.62082
数字对象标识符:doi:10.1214/0090536000000281
欧几里德项目:Euclid.aos/1152540754
·Zbl 1113.62082号 ·doi:10.1214/0090536000000281
[46] Rubin,D.B.和Thayer,D.T.(1982年)。ML因子分析的EM算法。《心理测量学》47 69-76。Zentralblatt数学:0483.62046
数字对象标识符:doi:10.1007/BF02293851
·Zbl 0483.62046号 ·doi:10.1007/BF02293851
[47] 夏皮罗(1982)。对称矩阵的秩可约性和最小迹因子分析的抽样理论。《心理测量学》47 187-199。Zentralblatt数学:0539.62065
数字对象标识符:doi:10.1007/BF02296274
·Zbl 0539.62065号 ·doi:10.1007/BF02296274
[48] 夏皮罗(1985)。因子分析的可识别性:一些结果和未决问题。线性代数应用。70 1-7. Zentralblatt数学:0584.62089
数字对象标识符:doi:10.1016/0024-3795(85)90038-2
·兹伯利0584.62089 ·doi:10.1016/0024-3795(85)90038-2
[49] Wegkamp,M.和Zhao,Y.(2016)。半参数椭圆copula相关矩阵的自适应估计。伯努利22 1184-1226。Zentralblatt数学:1388.62162
数字对象标识符:doi:10.3150/14-BEJ690
欧几里德项目:Euclid.bj/1447077773
·Zbl 1388.62162号 ·doi:10.3150/14-BEJ690
[50] Wiwie,C.、Baumbach,J.和Röttger,R.(2015)。比较生物医学聚类方法的性能。自然方法12 1033-1038。
[51] 袁,M·Zbl 1142.62408号 ·doi:10.1093/biomet/asm018
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。