×

解释了基于角度的关节和个体变化。 (英语) Zbl 1408.62113号

摘要:对在一组常见实验对象上测量的不同数据块进行综合分析是现代数据分析中的一个主要挑战。这种数据结构自然会激发对每个数据块中联合和个体变化的同时探索,从而产生新的见解。例如,人们强烈希望将多个基因组数据集整合到《癌症基因组图谱》中,以描述每个来源的癌症遗传学和细胞生物学的共同和独特方面。在本文中,我们介绍了基于角度的关节和个体变化解释——捕捉每个数据块中的关节和个体变化。在新的概念理解、更好地适应数据异构性和快速线性代数计算方面,这是对以前解决这一挑战的方法的重大改进。重要的数学贡献是使用分数子空间作为变异结构的主要描述符,并使用扰动理论作为变异分割的指导。这导致了一种探索性数据分析方法,它对数据块之间的异构性不敏感,并且不需要单独的规范化。癌症数据的应用揭示了每种类型信号在表征肿瘤亚型方面的不同行为。死亡率数据集的应用程序揭示了有趣的历史教训。GitHub提供软件和数据https://github.com/MeileiJiang/AJIVE_项目.

MSC公司:

62H25个 因子分析和主成分;对应分析
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿卜迪,H。;威廉姆斯,L.J。;Valentin,D.,多因素分析:多表和多块数据集的主成分分析,Wiley Interdiscip。版次计算。统计,5149-179(2013)
[2] 比约克,Ȧ。;Golub,G.H.,计算线性子空间之间角度的数值方法,数学。公司。,27, 579-594 (1973) ·Zbl 0282.65031号
[3] T.T.Cai,A.Zhang,奇异子空间的比率最优扰动界及其在高维统计中的应用,arXiv预印本arXiv:1605.00353;T.T.Cai,A.Zhang,奇异子空间的比率最优扰动界及其在高维统计中的应用,arXiv预印本arXiv:1605.00353·Zbl 1395.62122号
[4] Ciriello,G。;Gatza,M.L。;贝克,A.H。;医学博士威尔克森。;Rhie,S.K。;Pastore,A。;张,H。;麦克莱伦,M。;Yau,C。;坎多斯,C。;R.鲍尔比。;沈,H。;哈亚特,S。;R·菲尔德豪斯。;南卡罗来纳州莱斯特。;谢国美(Tse,G.M.)。;系数,R.E。;柯林斯,L.C。;Allison,K.H。;Chen,Y.Y。;Jensen,K。;约翰逊,N.B。;奥斯特赖希,S。;米尔斯,G.B。;Cherniack,A.D。;Robertson,G。;奔驰,C。;桑德,C。;Laird,P.W。;霍德利,K.A。;King,T.A.,TCGA研究网络,C.M.Perou,侵袭性小叶性乳腺癌的综合分子肖像,Cell,163,506-519(2015)
[5] 德雷珀,B。;柯比,M。;马克斯,J。;Marrinan,T。;Peterson,C.,混合维子空间有限集合的标志表示,线性代数应用。,451, 15-32 (2014) ·Zbl 1326.14118号
[6] 哈纳菲,M。;科勒,A。;Qannari,E.-M.,《多重共惯性分析与共识主成分分析之间的联系》,化学计量学。智力。实验室系统。,106, 37-40 (2011)
[7] Hanley,J.A。;McNeil,B.J.,接收器工作特性(ROC)曲线下面积的含义和使用,放射学,143,29-36(1982)
[8] Horst,P.,《m套测量之间的关系》,《心理测量学》,第26卷,第129-149页(1961年)·Zbl 0099.35801号
[9] Hotelling,H.,两组变量之间的关系,生物统计学,28,321-377(1936)·Zbl 0015.40705号
[10] Jere,S。;Dauwels,J。;阿西夫,M.T。;新墨西哥州维市。;Cichocki,A。;Jaillet,P.,通过矩阵分解提取铁路网络中的通勤模式,(2014年第13届控制自动化机器人与视觉国际会议,2014年第十三届控制自动化机械与视觉国际大会,(ICARCV)(2014),IEEE),541-546
[11] 约旦,C.,Essai sur la géométrieà(n)dimensions,布尔。社会数学。法国,3103-174(1875)·JFM 07.0457.01号
[12] Kettering,J.R.,《多组变量的规范分析》,《生物统计学》,433-451(1971)·Zbl 0225.62072号
[13] 科茨,S。;Nadarajah,S.,《多元分布及其应用》(2004),剑桥大学出版社·Zbl 1100.62059号
[14] Kühnle,O.,《癌症研究中多个高通量数据类型的整合》(2011年),德国慕尼黑路德维希·马克西米利安大学(博士论文)
[15] J.Kuligowski,D.Pérez-Guaita,阿拉斯加州。Sánchez-Illana,Z.León-González,M.de la Guardia,M.Vento,E.F.Lock,G.QuintáS,《利用解释的联合和个体变异分析多源代谢组学数据》(JIVE),分析员。;J.Kuligowski,D.Pérez-Guaita,阿拉斯加州。Sánchez Illana,Z.León-González,M.de la Guardia,M.Vento,E.F.Lock,G.QuintáS,使用联合和个体变异解释的多源代谢组学数据分析(JIVE),分析师。
[16] 莱曹,K.-A。;马丁·P·G。;罗伯特·格拉尼(Robert-Granié),C。;Besse,P.,《生物数据集成的稀疏规范方法:跨平台研究的应用》,BMC生物信息学,10,34(2009)
[17] Lee,M.H.,高维低样本数据中的连续方向向量(2007),北卡罗来纳大学教堂山分校:北卡罗来那大学教堂山校区,北卡罗莱纳州,(博士论文)
[18] S.Lee,典型相关分析的高维、低样本量渐近性,arXiv预印本arXiv:1609.02992;S.Lee,典型相关分析的高维、低样本量渐近性,arXiv预印本arXiv:1609.02992
[19] 锁,E.F。;Dunson,D.B.,贝叶斯一致性聚类,生物信息学,292610-2616(2013)
[20] 锁,E.F。;霍德利,K.A。;Marron,J.S.(马伦,J.S.)。;Nobel,A.B.,《多数据类型综合分析的联合和个体变异解释(JIVE)》,Ann.Appl。统计,7523-542(2013)·Zbl 1454.62355号
[21] Löfstedt,T。;霍夫曼,D。;Trygg,J.,用于多块数据分析的OnPLS中的全局、局部和唯一分解,Anal。蜂鸣器。《学报》,791,13-24(2013)
[22] Marron,J.S.(马伦,J.S.)。;Alonso,A.M.,《面向对象数据分析概述》,《生物医学杂志》,第56期,第732-753页(2014年)·Zbl 1309.62008号
[23] Miao,J。;Ben-Israel,A.,关于(R^n)中子空间之间的主角,线性代数应用。,171, 81-98 (1992) ·Zbl 0779.15003号
[24] 莫奇。;王,S。;Seshan,V.E。;Olshen,A.B。;北卡罗来纳州舒尔茨。;桑德,C。;权力,R.S。;拉达尼,M。;Shen,R.,综合癌症基因组数据中的模式发现和癌症基因识别,Proc。国家。阿卡德。科学。美国,1104245-4250(2013)
[25] Network,C.G.A.,《人类乳腺肿瘤的综合分子肖像》,《自然》,490,61-70(2012)
[26] Nielsen,A.A.,多集典型相关分析和多光谱,真正的多时间遥感数据,IEEE Trans。图像处理。,11, 293-305 (2002)
[27] 奥康奈尔,M.J。;Lock,E.F.,R.JIVE,探索多源分子数据,生物信息学,32,2877-2879(2016)
[28] S.O’Rourke,V.Vu,K.Wang,低秩矩阵的随机扰动:改进经典界,arXiv预印本arXiv:1311.2657;S.O’Rourke,V.Vu,K.Wang,低秩矩阵的随机扰动:改进经典界,arXiv预印本arXiv:1311.2657
[29] Parkhomenko,E。;Tritchler博士。;Beyene,J.,基因表达与基因型的全基因组稀疏典型相关性,(BMC Proceedings,Vol.1(2007),BioMed Central),S119
[30] Parkhomenko,E。;Tritchler,D。;Beyene,J.,稀疏典型相关分析及其在基因组数据整合中的应用,Stat.Appl。遗传学。分子生物学。,8, 1-34 (2009) ·Zbl 1276.92071号
[31] 雷·P。;郑,L。;卢卡斯,J。;Carin,L.,异质基因组学数据的贝叶斯联合分析,生物信息学,30,10,1370-1376(2014)
[32] Samarov,D.V.,《典型相关分析的分析和高级扩展》(2009),北卡罗来纳大学教堂山分校:北卡罗来那大学教堂山校区,北卡罗莱纳州,(博士论文)
[33] 肖特登,M。;Van Deun,K。;Pattyn,S。;Van Mechelen,I.,SCA,通过轮换来区分链接数据中的常见和独特信息,Behav。研究方法,45,822-833(2013)
[34] 肖特登,M。;Van Deun,K。;Wilderjans,T.F。;Van Mechelen,I.,《执行DISCO-SCA以搜索链接数据中的独特和常见信息》,Behav。研究方法,46,576-587(2014)
[35] Smiled,A.K。;韦斯特胡斯,J.A。;de Jong,S.,序列多块组件方法框架,J.Chemom。,17, 323-337 (2003)
[36] 斯图尔特,G。;《矩阵微扰理论》,《计算机科学与科学计算》(1990),学术出版社·Zbl 0706.65013号
[37] Trygg,J。;Wold,S.,O2-PLS,带积分OSC滤波器的两块(X-Y)潜在变量回归(LVR)方法,J.Chemom。,17, 53-64 (2003)
[38] Vinod,H.D.,联合生产的标准岭和计量经济学,计量经济学杂志,4147-166(1976)·Zbl 0331.62079号
[39] Waaijenborg,S。;de Witt Hamer,私人有限公司。;Zwinderman,A.H.,通过惩罚典型相关分析量化基因表达和DNA标记之间的关联,Stat.Appl。遗传学。分子生物学。,7(2008),第3条·Zbl 1276.92077号
[40] Wedin,P.-A.,与奇异值分解相关的扰动界,BIT-Numer。数学。,12, 99-111 (1972) ·兹伯利0239.15015
[41] Wei,S。;Lee,C。;Wichers,L。;Marron,J.S.,高维假设检验的方向投影置换,J.Compute。图表。统计人员。,25, 549-569 (2016)
[42] 韦斯特胡斯,J.A。;Kourti,T。;MacGregor,J.F.,《多块和分层PCA和PLS模型分析》,J.Chemom。,12, 301-321 (1998)
[43] Witten,D.M。;Tibshirani,R.J。;Hastie,T.,惩罚矩阵分解,应用于稀疏主成分和规范相关性分析,生物统计学,10515-534(2009)·Zbl 1437.62658号
[44] H.Wold,偏最小二乘法,In:S.Kotz,N.L.Johnson(编辑),《统计科学百科全书》,第6卷,威利,纽约,第581-591页。;H.Wold,偏最小二乘法,In:S.Kotz,N.L.Johnson(编辑),《统计科学百科全书》,第6卷,威利,纽约,第581-591页。
[45] 沃尔德,S。;Geladi,P。;Esbensen,K。;Ùhman,J.,《多向主成分和PLS分析》,J.Chemom。,1, 41-56 (1987)
[46] 沃尔德,S。;Kettaneh,N。;Tjessem,K.,《分层多块PLS和PC模型,以便于模型解释,并作为变量选择的替代方法》,J.Chemom。,10, 463-482 (1996)
[47] 杨,Z。;Michailidis,G.,检测异质组学多模态数据中模块的非负矩阵分解方法,生物信息学,32,1-8(2015)
[48] 于清。;风险,B.B。;张凯。;Marron,J.S.,JIVE成像和行为数据的整合,NeuroImage,152,38-49(2017)
[49] Zhang,Y。;周,G。;Jin,J。;王,X。;Cichocki,A.,《在脑-计算机接口中使用共同特征分析进行SSVEP识别》,J.Neurosci。方法,244,8-15(2015)
[50] 周,G。;Cichocki,A。;Zhang,Y。;Mandic,D.,多块数据的组分分析:通用和单个特征提取,IEEE Trans。神经网络。学习。系统。,17, 2426-2439 (2016)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。