×

基于特征向量的稀疏典型相关分析:用于估计多个典型向量的快速计算。 (英语) Zbl 1476.62117号

总结:经典典型相关分析(CCA)要求矩阵是低维的,即特征的数量不能超过样本大小。CCA的最新发展主要集中在高维设置上,分析中的两个矩阵中的特征数量大大超过了样本量。这些方法对需要迭代求解的优化问题施加惩罚,并按顺序估计多个规范向量。在这项工作中,我们提供了稀疏多元回归与稀疏典型相关分析之间的明确联系,以及可以同时而不是顺序估计多个典型对的有效算法。此外,该算法自然允许并行计算。这些特性使算法非常有效。我们提供了关于正则对一致性的理论结果。该算法和理论发展是基于解决特征向量问题,这使我们的方法与现有方法显著不同。仿真结果支持该方法的改进性能。我们将基于特征向量的CCA应用于GTEx甲状腺组织学图像分析、SNP和RNA-seq基因表达数据分析以及微生物组研究。实际数据分析还显示,与传统的稀疏CCA相比,性能有所提高。

MSC公司:

62H20个 关联度量(相关性、典型相关性等)
62甲12 多元分析中的估计
62J07型 山脊回归;收缩估计器(拉索)
62页第10页 统计学在生物学和医学科学中的应用;元分析
92D20型 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿奎特,F。;Barbeira,A.N。;博纳佐拉,R。;A.布朗。;卡斯特尔,S.E。;乔·B。;卡塞拉,S。;Kim-Hellmuth,S。;梁,Y。;Oliva,M.,GTEx财团人类组织遗传调控效应图谱,BioRxiv,第787903条,pp.(2019)
[2] 巴里·J·D。;Fagny,M。;保尔森,J.N。;Aerts,H.J。;Platig,J。;Quackenbush,J.,免疫浸润变体的组织病理学图像QTL发现,IScience,5,80-89(2018)
[3] 陈,J。;F.D.布什曼。;刘易斯,J.D。;Wu,G.D。;Li,H.,结构约束稀疏典型相关分析及其在微生物数据分析中的应用,生物统计学,14,2,244-258(2012)
[4] 陈,M。;高,C。;任,Z。;Zhou,H.H.,通过精确调整迭代阈值的稀疏CCA(2013),ArXiv预打印ArXiv:1311.6186·Zbl 1432.62161号
[5] 塞拉蒂,T。;科萨,A。;Balogh,S.,《定量结构-张力关系研究中偏最小二乘法和典型相关分析的比较》,J.Biochem。生物物理学。方法,36,2-3,131-141(1998)
[6] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,通过坐标下降的广义线性模型的正则化路径,J.Stat.Softw。,33, 1, 1 (2010)
[7] 加林斯,P。;Saghapour,E。;Zhou,Y.-H.,探索非癌症组织学表型的图像/组学组合分析的局限性,前沿。遗传学。(2020)
[8] 高,C。;马,Z。;周海华,《稀疏CCA:自适应估计和计算障碍》,《统计年鉴》。,45, 5, 2074-2101 (2017) ·Zbl 1421.62073号
[9] 高,L。;齐,L。;Chen,E。;关,L.,信息融合的判别多重典型相关分析,IEEE Trans。图像处理。,27, 4, 1951-1965 (2017) ·Zbl 1409.94168号
[10] Glahn,H.R.,《典型相关及其与判别分析和多元回归的关系》,J.Atmos。科学。,25, 1, 23-31 (1968)
[11] González,I。;Déjean,S。;马丁·P·G。;Baccini,A.,CCA:扩展典型相关分析的r包,J.Stat.Softw。,23, 12, 1-14 (2008)
[12] 格雷尔曼,C。;比泽,S。;Neumann,J。;L.T.韦斯特利。;安德烈森,O.A。;维林格,A。;Horstmann,A.,《MRI和遗传数据联合分析中典型相关分析和偏最小二乘变量的比较》,Neuroimage,107,289-310(2015)
[13] A.Haghhi,P.Liang,T.Berg-Kirkpatrick,D.Klein,从单语语料库学习双语词汇,收录于:ACL-08:Hlt,2008年,第771-779页。
[14] Hardoon,D.R。;Shawe-Taylor,J.,稀疏典型相关分析,马赫。学习。,83, 3, 331-353 (2011) ·Zbl 1237.68148号
[15] 霍恩,R.A。;Johnson,C.R.,矩阵分析(2012),剑桥大学出版社:剑桥大学出版社
[16] Hotelling,H.,两组变量之间的关系,生物统计学(1936)
[17] Jordan,M.I.,《关于统计、计算和可伸缩性》,Bernoulli,19,4,1378-1390(2013)·Zbl 1273.62030
[18] 莱曹,K.-A。;马丁·P·G。;罗伯特·格拉尼(Robert-Granié),C。;Besse,P.,生物数据集成的稀疏规范方法:在跨平台研究中的应用,BMC生物信息学,10,1,34(2009)
[19] Lee,W。;Lee,D。;Lee,Y。;Pawitan,Y.,Scca:稀疏典型协方差分析(2011),https://rdrr.io/github/tomwhooo/scca_3.0/man/scca-package.html,R包版本1.1.1
[20] Lee,W。;Lee,D。;Lee,Y。;Pawitan,Y.,《高通量数据的稀疏典型协方差分析》,Stat.Appl。遗传学。分子生物学。,10, 1 (2011) ·Zbl 1296.92045号
[21] 李伟(Li,W.)。;张,S。;刘,C.-C。;周晓杰,从多维基因组数据中识别多层基因调控模块,生物信息学,28,19,2458-2466(2012)
[22] Lutz,J.G。;Eckert,T.L.,典型相关分析与多元多元回归之间的关系,教育。精神病。测量。,54, 3, 666-675 (1994)
[23] Mai,Q。;Zhang,X.,稀疏典型相关分析的迭代惩罚最小二乘法,生物统计学,75,3,734-744(2019)·Zbl 1436.62598号
[24] Mardia,K.V。;肯特,J.T。;Bibby,J.M.,多元分析(1979),学术出版社,伦敦·Zbl 0432.62029号
[25] 莫尔·R。;Divo,M。;Langbein,L.,《人类角蛋白:生物学和病理学》,组织化学。细胞生物学。,129, 6, 705 (2008)
[26] 宁,Y。;刘浩,稀疏高维模型的假设检验和置信域的一般理论,Ann.Statist。,45, 1, 158-195 (2017) ·Zbl 1364.62128号
[27] 帕克,C。;黄J.Z。;Ding,Y.,Gplp:高斯过程回归的局部并行计算工具箱,J.Mach。学习。研究,13775-779(2012)·Zbl 1283.68297号
[28] Parkhomenko,E。;Tritchler,D。;Beyene,J.,基因表达与基因型的全基因组稀疏典型相关性,(BMC Proceedings,Vol.1(2007),Springer),1-5
[29] Parkhomenko,E。;Tritchler,D。;Beyene,J.,稀疏典型相关分析及其在基因组数据整合中的应用,Stat.Appl。遗传学。分子生物学。,8, 1, 1-34 (2009) ·Zbl 1276.92071号
[30] Pau,G。;Fuchs,F。;O.斯科利亚尔。;Boutros,M。;Huber,W.,EBImage-一种应用于细胞表型的图像处理R包,生物信息学,26,7,979-981(2010)
[31] 彭春云。;Wu,C.J.,《关于确定性计算机实验克里金建模中金块的选择》,J.Compute。图表。统计学。,23, 1, 151-168 (2014)
[32] 萨马洛夫,D。;Marron,J。;刘,Y。;格鲁克,C。;Tropsha,A.,局部核典型相关分析及其在虚拟药物筛选中的应用,Ann.Appl。统计,5,3,2169(2011)·兹比尔1228.62072
[33] 萨金,M.E。;Yemez,Y。;Erzin,E。;Tekalp,A.M.,使用规范相关分析的视听同步和融合,IEEE Trans。多媒体。,9, 7, 1396-1403 (2007)
[34] Sass,J.O.,生酮和酮体利用的先天性错误,J.Inherit.Metab。数字化信息系统。,35, 1, 23-28 (2012)
[35] Shu,H。;曲,Z。;Zhu,H.,D-GCCA:基于分解的多高维数据集广义典型相关分析(2020),ArXiv预打印ArXiv:2001.02856
[36] Shu,H。;王,X。;Zhu,H.,D-CCA:高维数据集基于分解的典型相关分析,J.Amer。统计师。协会,115,529,292-306(2020)·Zbl 1437.62211号
[37] Song,Y。;施赖尔,P.J。;拉米雷斯,D。;Hasija,T.,高维数据的典型相关分析,非常小的样本支持,信号处理。,128, 449-458 (2016)
[38] Stein,M.L.,《空间数据插值:克里金的一些理论》(1999),Springer科学与商业媒体:Springer科技与商业媒体纽约·Zbl 0924.62100号
[39] Stewart,G.W.,与某些特征值问题相关的子空间的误差和扰动界,SIAM Rev.,15,4,727-764(1973)·Zbl 0297.65030号
[40] Suchard,医学硕士。;王,Q。;陈,C。;弗雷林格,J。;克罗恩。;West,M.,《理解GPU编程用于统计计算:大规模并行大规模混合的研究》,J.Compute。图表。统计学。,19, 2, 419-438 (2010)
[41] Sun,L。;季S。;于斯。;Ye,J.,关于典型相关分析和正交归一化偏最小二乘之间的等价性,(IJCAI,第9卷(2009)),1230-1235
[42] Tenenhaus,A。;Guillemot,V.,RGCCA:多块数据的正则化和稀疏广义典型相关分析(2017),https://CRAN.R-project.org/package=RGCCA,R包版本2.1.2
[43] Tenenhaus,A。;Tenenhaus,M.,正则化广义典型相关分析,《心理测量学》,76,2,257(2011)·Zbl 1284.62753号
[44] Tibshirani,R.,《通过套索进行回归收缩和选择》,J.R.Stat.Soc.Ser。B统计方法。,58, 1, 267-288 (1996) ·Zbl 0850.62538号
[45] Van Loan,C.F。;Golub,G.H.,《矩阵计算》(1983),约翰霍普金斯大学出版社:约翰霍普金大学出版社巴尔的摩·Zbl 0559.65011号
[46] 维诺库洛夫,A。;北卡罗来纳州克里斯蒂亚尼尼。;Shawe Taylor,J.,通过跨语言相关性分析推断文本的语义表示,(神经信息处理系统进展(2003)),1497-1504
[47] Waaijenborg,S。;de Witt Hamer,P.C.V.公司。;Zwinderman,A.H.,通过惩罚规范相关分析量化基因表达和DNA标记之间的关联,Stat.Appl。遗传学。分子生物学。,7,1,第3条pp.(2008)·Zbl 1276.92077号
[48] Wang,Y.R。;蒋,K。;费尔德曼,L.J。;比克尔,P.J。;Huang,H.,使用稀疏典型相关分析推断基因-基因相互作用和功能模块,Ann.Appl。《法律总汇》,9,1,300-323(2015)·Zbl 1454.62416号
[49] Witten,D.M。;Tibshirani,R.J.,稀疏典型相关分析的扩展及其在基因组数据中的应用,Stat.Appl。遗传学。分子生物学。,8, 1, 1-27 (2009) ·Zbl 1276.62099号
[50] 维滕,D。;Tibshirani,R.,PMA:惩罚多元分析(2020),https://CRAN.R-project.org/package=PMA,R包版本1.2.1
[51] Witten,D.M。;Tibshirani,R。;Hastie,T.,A惩罚矩阵分解,应用于稀疏主成分和典型相关分析,生物统计学,10,3,515-534(2009)·Zbl 1437.62658号
[52] 山本,H。;Yamaji,H。;福崎,E。;Ohno,H。;Fukuda,H.,多元回归的典型相关分析及其在代谢指纹识别中的应用,生物化学。《工程师杂志》,40,2,199-204(2008)
[53] 亚兹奇。;奥胡什,E。;Ankarali,H。;Gürbüz,F.,《非线性典型相关分析在医学数据中的应用》,土耳其医学科学杂志。,40, 3, 503-510 (2010)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。