×

比较高维基因组数据集成背景下线性和非线性主成分的性能。 (英语) Zbl 1371.92050号

摘要:线性主成分分析(PCA)是一种广泛使用的降低基因或miRNA表达数据集维数的方法。这种方法依赖于线性假设,而线性假设往往无法捕获数据中固有的模式和关系。因此,像核PCA这样的非线性方法可能是最优的。我们开发了一种基于连接函数的仿真算法,该算法考虑了这些数据集中观察到的相关性和非线性程度。使用该算法,我们进行了广泛的仿真,以比较线性主成分分析方法和核主成分分析方法在数据集成和死亡分类方面的性能。我们还使用肺癌患者基因和miRNA表达的真实数据集对这些方法进行了比较。与这种情况下的线性主成分相比,前几个内核主成分的性能较差。为此,使用线性主成分分析和逻辑回归模型来降低分类维数似乎是足够的。使用这两种方法之一集成来自多个数据集的信息可以提高结果的分类准确性。

MSC公司:

92C40型 生物化学、分子生物学
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aguilera,A.M.、M.Escabias和M.J.Valderrama(2006):“使用主成分估计高维多重共线性数据的逻辑回归”,计算。统计数据分析。,50, 1905-1924.; 阿奎莱拉,A.M。;Escabias,M。;Valderrama,M.J.,使用主成分估计高维多重共线数据的逻辑回归,计算。统计数据分析,50,1905-1924(2006)·Zbl 1445.62190号
[2] Ahmadi,H.、A.P.Mitra、G.A.Abdelsayed、J.Cai、H.Djaladat、H.M.Bruins和S.Daneshmand(2013):“基于主成分分析的膀胱切除前模型预测临床器官受限膀胱癌患者的病理分期”,《北京大学国际》,111,E173。;艾哈迈迪,H。;Mitra,A.P。;Abdelsayed,G.A。;蔡,J。;贾拉达特,H。;Bruins,H.M。;Daneshmand,S.,基于主成分分析的膀胱切除术前模型预测临床器官受限型膀胱癌患者的病理分期,BJU Int,111,E173(2013)
[3] Anagostopoulos,C.、D.J.Hand和N.M.Adams(2012):“衡量分类绩效:hmeasure包。”https://cran.r-project.org/web/packages/hmeasure/vignettes/hmeasure.pdf。; 阿纳格诺斯托普洛斯,C。;汉德,D.J。;亚当斯,N.M.,《衡量分类性能:hmeasure包》。(2012)
[4] Bunte,K.,E.Leppaaho,I.Saarinen和S.Kaski(2016):“多数据源双聚类的稀疏组因子分析”,生物信息学,322457-2463。;邦特,K。;Leppaaho,E。;萨里宁,I。;Kaski,S.,多数据源双聚类的稀疏组因子分析,生物信息学,322457-2463(2016)
[5] Chang,D.和A.Keinan(2014):“主成分分析表征了全基因组关联研究中的共同病因学”,《公共科学图书馆·计算》。生物学,10,第1003820.页。;Chang博士。;Keinan,A.,《主成分分析表征全基因组关联研究中的共享病原学》,PLoS Compute。生物,10,e1003820(2014)
[6] Cybenko,G.(1989):“通过sigmoid函数叠加的近似度”,《数学》。控制信号系统。,9, 303-314.; Cybenko,G.,通过sigmoid函数叠加的逼近度,数学。控制信号系统,9303-314(1989)·Zbl 0679.94019号
[7] Demartines,P.和J.Herault(1997):“曲线成分分析:数据集非线性映射的自组织神经网络”,IEEE Trans。神经网络。,8, 148-154.; Demartines,P。;Herault,J.,《曲线成分分析:数据集非线性映射的自组织神经网络》,IEEE Trans。神经网络,8148-154(1997)·Zbl 0844.94022号
[8] Eaton,S.、M.Ostrander、J.Santangelo和J.Kamal(2008):“使用商业智能技术管理现有医疗数据仓库中的数据质量。”摘自:AMIA年度研讨会论文集。第1076页。网址。;伊顿,S。;奥斯特兰德,M。;桑坦基罗,J。;Kamal,J.,使用商业智能技术管理现有医疗数据仓库中的数据质量,1076(2008)
[9] Frank,M.J.(1979):“关于F(x,y)和x+y-F(x、y)的同时结合性”,Aequationes Math。,19, 194-226.; Frank,M.J.,《关于F(x,y)和x+y-F(x、y)的同时结合性》,Aequationes Math,19,194-226(1979)·Zbl 0444.39003号
[10] Gao,Q.,Y.He,Z.Yuan,J.Zhao,B.Zhang和F.Xue(2011):“通过核主成分分析进行基于基因或区域的关联研究”,BMC遗传学。,12, 75.; 高奇。;何毅。;袁,Z。;赵,J。;张,B。;Xue,F.,通过核主成分分析进行基于基因或区域的关联研究,BMC Genet,12,75(2011)
[11] Gentleman,R.,V.Carey,W.Huber和F.Hahne(2015):“基因过滤器:高通量实验中筛选基因的方法。R包版本1.53.0。”URL。;绅士,R。;凯里,V。;Huber,W。;Hahne,F.,《基因过滤器:高通量实验中筛选基因的方法》。R包版本1.53.0(2015)
[12] Gibson,W.A.(1959):“三个多元模型:因子分析、潜在结构分析和潜在特征分析”,《心理测量学》,24,229-252。;Gibson,W.A.,《三个多元模型:因子分析、潜在结构分析和潜在特征分析》,《心理测量学》,24229-252(1959)·Zbl 0117.15001号
[13] Gloi,A.M.和R.Buchanan(2013):“通过主成分分析(PCA)对前列腺癌患者进行剂量学评估”。临床。医学物理学。,14, 3882.; Gloi,A.M。;Buchanan,R.,通过主成分分析(PCA)对前列腺癌患者进行剂量评估。,J.应用。临床。医学物理学,143882(2013)
[14] Gomez-Cabrero,D.,I.Abugessaisa,D.Maier,A.Teschendorff,M.Merkenschlager,A.Gisel,E.Ballestar,E.Bongcam-Rudloff,A.Conesa,and J.Tegnér(2014):“经济学时代的数据整合:当前和未来的挑战”,BMC系统。生物,8补遗2,I1。;Gomez-Cabrero,D。;Abugessaisa,I。;梅尔,D。;Teschendorff,A。;Merkenschlager,M。;Gisel,A。;Ballestar,E。;Bongcam-Rudloff,E。;Conesa,A。;Tegnér,J.,《经济学时代的数据集成:当前和未来的挑战》,BMC系统。生物,8,I1(2014)
[15] Goodman,L.A.(1974):“使用可识别和不可识别模型进行探索性潜在结构分析”,《生物统计学》,61215。;Goodman,L.A.,使用可识别和不可识别模型进行探索性潜在结构分析,Biometrika,61215(1974)·Zbl 0281.62057号
[16] Guo,X.,Y.Zhang,W.Hu,H.Tan和X.Wang(2014):“基于距离相关性从基因表达数据推断非线性基因调控网络”,《公共科学图书馆·综合》,9,1-7。;郭,X。;Zhang,Y。;胡,W。;Tan,H。;Wang,X.,基于距离相关性从基因表达数据推断非线性基因调控网络,PLoS One,9,1-7(2014)
[17] Hagenaars,J.A.和A.L.McCutcheon(2002):《应用潜在类分析》,剑桥:剑桥大学出版社。;Hagenaars,J.A。;McCutcheon,A.L.,《应用潜在类别分析》(2002)·Zbl 1003.00021号
[18] Hamid,J.S.,P.Hu,N.M.Roslin,V.Ling,C.M.T.Greenwood和J.Beyene(2009):“遗传学和基因组学中的数据整合:方法和挑战”,《基因组蛋白质组学》,8690,1-13。;哈米德,J.S。;胡,P。;新墨西哥州罗斯林。;Ling,V。;格林伍德,C.M.T。;Beyene,J.,《遗传学和基因组学中的数据集成:方法和挑战》,《基因组蛋白质组学》,8690,1-13(2009)
[19] Haque,W.、B.Urquhart、E.Berg和R.Dhanoa(2014):“使用商业智能分析和共享农村卫生机构的卫生系统基础设施数据”,JMIR Med.Inform。,2,e16。;哈克,W。;Urquhart,B。;Berg,E。;Dhanoa,R.,《使用商业智能分析和共享农村卫生机构的卫生系统基础设施数据》,JMIR Med.Inform,2,e16(2014)
[20] Hofert,A.M.、I.Kojadi和M.Maech(2014):“Copula:与copulas的多元相关性。R包版本0.999-14。”检索自http://cran.r-project.org/package=copula,URL。;Hofert,A.M。;科贾迪,I。;Maech,M.,Copula:与Copula的多元相关性。R包版本0.999-14(2014)
[21] Hotelling,H.(1933):“将复杂的统计变量分析为主成分”,J.Educ。心理医生。,24, 417-441, 498-520.; Hotelling,H.,《将复杂统计变量分析为主成分》,J.Educ。心理医生。,24, 417-441, 498-520 (1933) ·JFM 59.1182.04号文件
[22] Hotelling,H.(1936):“两组变量之间的关系”,《生物特征》,28,321-377。;Hotelling,H.,两组变量之间的关系,生物统计学,28,321-377(1936)·Zbl 0015.40705号
[23] ICGC(2014):“国际癌症基因组联盟数据门户”,2014年1月15日访问。URL;国际癌症基因组联盟数据门户(2014)
[24] Karatzoglou,A.、A.Smola、K.Hornik和A.Zeileis(2004):“kernlab-R中内核方法的S4包”,J.Stat.Softw。,11, 1-20.; 卡拉佐格鲁,A。;Smola,A。;霍尼克,K。;Zeileis,A.,kernlab——R,J.Stat.Softw中内核方法的S4包,11,1-20(2004)
[25] Khan,S.A.、S.Virtanen、O.P.Kallioniemi、K.Wennerberg、A.Poso和S.Kaski(2014):“与癌症药物反应相关的化学品结构特征的识别:系统数据驱动分析”,生物信息学,30497-504。;Khan,S.A。;Virtanen,S。;Kallioniemi,O.P。;Wennerberg,K。;Poso,A。;Kaski,S.,《与癌症药物反应相关的化学品结构特征的识别:系统数据驱动分析》,生物信息学,30497-504(2014)
[26] Korkeila,E.A.、J.Sundstrom、S.Pyrhonen和K.Syrjanen(2011年):“碳酸酐酶IX、低氧诱导因子-1α、ezrin和葡萄糖转运蛋白-1是直肠癌疾病预后的预测因素:通过临床病理学主成分分析数据缩减后的多变量Cox生存模型”,《抗癌研究》,31, 4529-4535.; Korkeila,E.A。;Sundstrom,J。;皮罗宁,S。;Syrjanen,K.,碳酸酐酶IX,低氧诱导因子-1α,ezrin和葡萄糖转运蛋白-1作为直肠癌疾病预后的预测因子:通过临床病理主成分分析进行数据缩减后的多变量Cox生存模型,抗癌研究,31,4529-4535(2011)
[27] Kramer,M.A.(1991):“使用自联想神经网络的非线性主成分分析”,AIChE J.,37,233-243。;Kramer,M.A.,使用自联想神经网络的非线性主成分分析,AIChE J,37,233-243(1991)
[28] Lee,S.、M.P.Epstein、R.Duncan和X.Lin(2012):“在全基因组关联研究中识别祖先信息标记的稀疏主成分分析”,《遗传学》。流行病。,36, 293-302.; Lee,S。;爱泼斯坦,M.P。;邓肯,R。;Lin,X.,在全基因组关联研究中识别祖先信息标记的稀疏主成分分析,Genet。《流行病学》,36,293-302(2012)
[29] Liu,Z.,D.Chen和H.Bensmail(2005):“利用核主成分分析进行基因表达数据分类”,《生物医学杂志》。生物技术。,2005年,155-159。;刘,Z。;陈,D。;Bensmail,H.,用核主成分分析进行基因表达数据分类。,J.生物识别。生物技术,2005,155-159(2005)
[30] Lu,J.,R.T.Kerns,S.D.Peddada和P.R.Bushel(2011):“基于主成分分析的过滤改进了Affymetrix基因表达阵列的检测”,《核酸研究》,39,1-8。;卢,J。;科恩斯,R.T。;佩达达,S.D。;Bushel,P.R.,基于主成分分析的过滤改进了Affymetrix基因表达阵列的检测,核酸研究,39,1-8(2011)
[31] Minnier,J.、M.Yuan、J.S.Liu和T.Cai(2015):“基于自适应朴素贝叶斯核机器模型的风险分类”,美国统计协会,110,393-404。;Minnier,J。;袁,M。;Liu,J.S。;Cai,T.,《基于自适应朴素贝叶斯核模型的风险分类》,美国统计协会,110,393-404(2015)·Zbl 1373.62297号
[32] Nelsen,R.B.(2006):Copulas简介,Springer统计系列,纽约:Springer-Verlag,第二版。;Nelsen,R.B.,《Copulas简介》(2006年)·Zbl 1152.62030
[33] Pearson,K.(1901):“在最接近空间点系的直线和平面上”,Philos。杂志,2559-572。;Pearson,K.,《关于最接近空间点系的直线和平面》,Philos。Mag,2559-572(1901年)·JFM 32.0246.07号文件
[34] Price,A.,N.J.Patterson,R.M.Plenge,M.E.Weinblatt,N.A.Shadick和D.Reich(2006):“主成分分析纠正了全基因组关联研究中的分层”,《自然遗传学》。,38, 904-909.; 价格,A。;新泽西州帕特森。;Plenge,R.M。;Weinblatt,M.E。;北卡罗来纳州沙迪克。;Reich,D.,《主成分分析修正全基因组关联研究中的分层》,《自然遗传学》,38,904-909(2006)
[35] Reverter,F.、E.Vegas和P.Sánchez(2010):“挖掘基因表达谱:核心主成分分析和奇异值分解的集成实现”,《基因组-蛋白质组学-生物信息》。,8200-2010。;变频器,F。;拉斯维加斯,E。;Sánchez,P.,《挖掘基因表达谱:核主成分分析和奇异值分解的集成实现》,《基因组蛋白质组学生物信息》,8200-210(2010)
[36] Reverter,F.、E.Vegas和J.M.Oller(2014):“增强可解释性的内核-PCA数据集成”,BMC系统。生物,8补遗2,S6。;变频器,F。;拉斯维加斯,E。;Oller,J.M.,《增强可解释性的内核-PCA数据集成》。,BMC系统。生物,8,S6(2014)
[37] Sammon,J.W.(1969):“用于数据结构分析的非线性映射”,IEEE Trans。计算。,C-18、401-409。;Sammon,J.W.,《数据结构分析的非线性映射》,IEEE Trans。计算。,C-18、401-409(1969)·Zbl 0523.65069号
[38] Schaid,D.J.(2010a):“基因组相似性和核心方法I:建立在数学和统计基础上的进步”,Hum.Hered。,70, 109-131.; Schaid,D.J.,《基因组相似性和核心方法I:建立在数学和统计基础上的进步》,Hum.Hered,70,109-131(2010)
[39] Schaid,D.J.(2010b):“基因组相似性和核方法II:基因组信息的方法”,Hum.Hered。,70, 132-140.; Schaid,D.J.,《基因组相似性和核方法II:基因组信息的方法》,Hum.Hered,70,132-140(2010)
[40] Schölkopf,B.、A.Smola和K.-R.Müller(1998):“作为核心特征值问题的非线性成分分析”,神经计算。,10, 1299-1319.; Schölkopf,B。;Smola,A。;Müller,K.-R.,作为核特征值问题的非线性分量分析,神经计算,101299-1319(1998)·Zbl 0910.68189号
[41] Scholz,M.、F.Kaplan、C.L.Guy、J.Kopka和J.Selbig(2005):“非线性PCA:缺失数据方法”,生物信息学,21,3887-3895。;Scholz,M。;卡普兰,F。;盖伊,C.L。;Kopka,J。;Selbig,J.,《非线性PCA:缺失数据方法》,生物信息学,213887-3895(2005)
[42] Skov,V.,M.Thomassen,C.H.Riley,M.K.Jensen,O.W.Bjerrum,T.A.Kruse,H.C.Hasselbalch和T.S.Larsen(2012):“主成分分析的基因表达谱描绘了从真性红细胞增多症上的原发性血栓性血小板增多症到骨髓纤维化的生物连续体,”实验血液学。,40, 771-780.; 斯科夫,V。;托马森,M。;莱利,C.H。;詹森,M.K。;Bjerrum,O.W。;Kruse,T.A。;哈塞尔巴赫,H.C。;Larsen,T.S.,主成分分析的基因表达谱描述了从真性红细胞增多症上的原发性血小板增多症到骨髓纤维化的生物连续体,实验血液学,40771-780(2012)
[43] Stacklies,W.、H.Redestig、M.Scholz、D.Walther和J.Selbig(2007):“pcaMethods是一种为不完整数据提供PCA方法的生物导体包”,《生物信息学》,第23期,第1164-1167页。;斯塔克利斯,W。;Redestig,H。;Scholz,M。;Walther,D。;Selbig,J.,pcaMethods-一种为不完整数据提供PCA方法的生物导体包,生物信息学,231164-1167(2007)
[44] Szekely,G.J.,M.L.Rizzo和N.K.Baki(2007):“通过距离相关性测量和测试依赖性,”Ann.Stat.,352769-2794。;Szekely,G.J。;Rizzo,M.L。;Baki,N.K.,《通过距离相关性测量和测试相关性》,《Ann.Stat》,35,2769-2794(2007)·Zbl 1129.62059号
[45] Venables,W.N.和B.D.Ripley(2002):《现代应用统计学与S》,纽约州纽约市:斯普林格出版社,第4版。;韦纳布尔斯,W.N。;里普利,B.D.,《现代应用统计学与S》(2002)·Zbl 1006.62003号
[46] Yeung,K.Y.(2001):“聚类基因表达数据的主成分分析”,生物信息学,21,3009-3016。;Yeung,K.Y.,聚类基因表达数据的主成分分析,生物信息学,21,3009-3016(2001)
[47] Yi,H.,H.Wo,Y.Zhao,R.Zhang,J.Bai,Y.Wei,F.Chen(2012):“基于基因的主成分logistic回归模型及其在全基因组关联研究中的应用”,中华刘兴兵学杂志,33,622-625。;Yi,H。;Wo,H。;Zhao,Y。;张,R。;Bai,J。;魏毅。;Chen,F.,基于基因的主成分logistic回归模型及其在全基因组关联研究中的应用,中华刘兴兵学杂志,33,622-625(2012)
[48] Zhang,J.,J.Baran,A.Cros,J.M.Guberman,S.Haider,J.Hsu,Y.Liang,E.Rivkin,J.Wang,B.Whitty,M.Wong-Erasmus,L.Yao和A.Kasprzyk(2011):“国际癌症基因组联盟数据门户:癌症基因组数据的一站式商店”,数据库,2011年1月10日。;张杰。;巴拉恩,J。;克罗斯,A。;古伯曼,J.M。;海德尔,S。;徐,J。;梁,Y。;Rivkin,E。;Wang,J。;惠蒂,B。;Wong-Erasmus,M。;姚,L。;Kasprzyk,A.,国际癌症基因组联盟数据门户:癌症基因组数据的一站式服务,数据库,2011年,1-10(2011)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。