×

将协变量纳入多视角数据的综合因子分析。 (英语) Zbl 1405.62188号

摘要:在现代生物医学研究中,从不同角度(即多视图数据)在同一组样本上测量多个数据集是普遍存在的。例如,在遗传研究中,为了研究遗传调控,对一组普通个体测量不同分子水平或不同细胞类型的多个基因组数据集。多视图数据的集成和简化有可能利用不同数据集中的信息,并降低数据的数量和复杂性,以便进行进一步的统计分析和解释。在本文中,我们开发了一种新的统计模型,称为监督综合因子分析(SIFA),用于在合并辅助协变量的同时对多视图数据进行综合降维。该模型将数据分解为联合因素和个别因素,分别捕获多个数据集的联合变化和每个数据集的个别变化。此外,通过非参数模型,辅助协变量部分告知联合因素和个别因素。我们设计了一种计算效率高的期望最大化(EM)算法,以在某些可辨识条件下拟合模型。我们将该方法应用于基因型问题表达(GTEx)数据,并为多组织中基因表达的变异分解提供了新的见解。广泛的模拟研究和对儿科生长研究的附加应用表明,该方法优于其他竞争方法。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62H25个 因子分析和主成分;对应分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abdi,H.、Williams,L.J.和Valentin,D.(2013)。多因素分析:多表和多块数据集的主成分分析。威利跨学科评论:计算统计5,149-179。
[2] Ahn,J.和Marron,J.(2010年)。用于区分的最大数据堆积方向。生物特征97,254-259·Zbl 1182.62134号
[3] Björck,K.和Golub,G.H.(1973)。计算线性子空间之间角度的数值方法。计算数学27,579-594·Zbl 0282.65031号
[4] Brown,A.,Ding,Z.,Viñuela,A.,Glass,D.,Parts,L.,Spector,T.等人(2015)。基因表达数据的基于路径的因子分析产生与年龄相关的高度遗传表型。G3:基因|基因组|遗传学3-114。
[5] Fan,J.和Gijbels,I.(1996年)。局部多项式建模及其应用:统计学和应用概率专著,66。佛罗里达州博卡拉顿:CRC出版社·Zbl 0873.62037号
[6] Fan,J.、Liao,Y.和Wang,W.(2016)。因子模型中的预测主成分分析。统计年鉴44,219-254·Zbl 1331.62295号
[7] Gower,J.C.和Dijksterhuis,G.B.(2004)。处理问题,3。英国牛津:牛津大学出版社·Zbl 1057.62044号
[8] Hollander,M.、Wolfe,D.A.和Chicken,E.(2013年)。非参数统计方法。新泽西州霍博肯:John Wiley&Sons。
[9] Li,G.,Yang,D.,Nobel,A.B.和Shen,H.(2016)。监督奇异值分解及其渐近性质。多元分析杂志146,7-17·Zbl 1336.62129号
[10] Lock,E.F.、Hoadley,K.A.、Marron,J.S.和Nobel,A.B.(2013)。用于多数据类型综合分析的联合和个体差异解释(JIVE)。应用统计年鉴7523-542·Zbl 1454.62355号
[11] Löfstedt,T.、Hoffman,D.和Trygg,J.(2013)。onpls中用于多块数据分析的全局、局部和唯一分解。《分析化学学报》791,13-24。
[12] Mattila,P.(1999)。欧几里德空间中集合与测度的几何:分形与可校正性,44。英国剑桥:剑桥大学出版社·Zbl 0911.28005号
[13] Ravikumar,P.、Lafferty,J.、Liu,H.和Wasserman,L.(2009年)。稀疏加性模型。英国皇家统计学会杂志:B71系列,1009-1030·Zbl 1411.62107号
[14] Ray,P.、Zheng,L.、Lucas,J.和Carin,L.(2014)。异质基因组数据的贝叶斯联合分析。生物信息学301370-1376。
[15] Ribeiro,R.C.、Sandrini,F.、Figueiredo,B.、Zambetti,G.P.、Edson Michalkiewicz,E.、Lafferty,A.R.等人(2001年)。一种以组织特异性方式导致儿童肾上腺皮质癌的遗传性p53突变。《国家科学院院刊》98,9330-9335。
[16] Schouteden,M.、Van Deun,K.、Wilderjans,T.F.和Van Mechelen,I.(2014)。执行disco‐sca以搜索链接数据中的独特和常见信息。行为研究方法46576-587。
[17] Shabalin,A.和Nobel,A.(2013)。在高斯噪声存在下重建低秩矩阵。多元分析杂志118,67-76·Zbl 1280.15022号
[18] Tendler,Y.、Weisinger,G.、Coleman,R.、Diamond,E.、Lischinsky,S.、Kerner,H.等人(1999年)。神经系统中组织特异性p53表达。脑分子研究72,40-46。
[19] GTEx财团(2015)。基因型组织表达(gtex)初步分析:人类的多组织基因调控。科学348648-660。
[20] Tibshirani,R.(1996)。通过套索回归收缩和选择。英国皇家统计学会杂志:B58辑,267-288·Zbl 0850.62538号
[21] Tipping,M.E.和Bishop,C.M.(1999)。概率主成分分析。英国皇家统计学会杂志:系列B61611-622·兹比尔0924.62068
[22] Tseng,G.C.、Ghosh,D.和Zhou,X.J.(2015)。集成Omics数据。纽约州纽约市:剑桥大学出版社·Zbl 1320.92008年
[23] Yang,Z.和Michailidis,G.(2016)。一种非负矩阵分解方法,用于检测异质组学多模态数据中的模块。生物信息学32,1-8。
[24] Zhou,G.、Cichocki,A.、Zhang,Y.和Mandic,D.P.(2016)。多块数据的组分分析:公共特征和单个特征提取。IEEE神经网络和学习系统汇刊27,2426-2439。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。