×

基于模型的特征选择和RNA-seq数据聚类用于无监督亚型发现。 (英语) Zbl 1475.62259号

摘要:聚类是一种无监督学习形式,旨在基于一组特征之间的相似性来发现数据中的潜在组。这在生物医学研究中的一个常见应用是根据给定的一组信息基因,从患者基因表达数据中描绘出新的癌症亚型。然而,通常先验地不知道哪些基因在区分聚类和聚类的最佳数量方面可能是有信息的。很少有方法对RNA-seq样本进行无监督聚类,目前也没有一种方法可以调整样本间的全局归一化因子,选择聚类判别基因或考虑聚类过程中潜在的混杂变量。为了解决这些问题,我们提出了RNA-seq的特征选择和聚类(FSCseq):一种基于模型的聚类算法,该算法利用有限混合回归(FMR)模型和具有平滑剪裁绝对偏差(SCAD)惩罚的二次惩罚方法。最大化是通过惩罚分类EM算法实现的,允许我们在建模框架中包括归一化因子和混杂因素。给定拟合模型,我们的框架允许通过聚类成员的后验概率预测新患者的亚型,即使存在批处理效应。基于仿真和实际数据分析,我们展示了我们的方法相对于竞争方法的优势。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62H30型 分类和区分;聚类分析(统计方面)
62F07型 统计排名和选择程序
92D20型 蛋白质序列,DNA序列

关键词:

群集混杂因素RNA-序列
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Al-Khasawneh,M.F.(2010年)。估计负二项分散参数。亚洲数学杂志。斯达。3 1-15. ·doi:10.3923/ajms.2010.1.15
[2] Anders,S.和Huber,W.(2010年)。序列计数数据的差分表达式分析。基因组生物学。11 R106·doi:10.1186/gb-2010-11-10-r106
[3] Aran,D.、Sirota,M.和Butte,A.J.(2015)。肿瘤纯度的系统泛癌分析。国家公社。6. ·doi:10.1038/ncomms9971
[4] Biernacki,C.、Celeux,G.和Govaert,G.(2003年)。为EM算法选择初始值,以获得多元高斯混合模型中的最大似然。计算。统计师。数据分析。41 561-575. ·Zbl 1429.62235号 ·doi:10.1016/S0167-9473(02)00163-9
[5] Bourgon,R.、Gentleman,R.和Huber,W.(2010年)。独立滤波提高了高通量实验的检测能力。程序。国家。阿卡德。科学。美国107 9546-9551. ·doi:10.1073/pnas.0914005107
[6] Carter,S.L.、Cibulskis,K.、Helman,E.、McKenna,A.、Shen,H.、Zack,T.、Laird,P.W.、Onofrio,R.C.、Winckler,W.等人(2012年)。人类癌症中体细胞DNA变化的绝对量化。自然生物技术。30 413-421. ·doi:10.1038/nbt.2203
[7] Celeux,G.和Govaert,G.(1990年)。聚类的随机算法。InCOMPSTAT公司1990 (杜布罗夫尼克, 1990) 3-8. 海德堡物理学·Zbl 0729.62577号
[8] Celeux,G.和Govaert,G.(1992年)。一种用于聚类的分类EM算法和两种随机版本。计算。统计师。数据分析。14 315-332. ·兹比尔0937.62605 ·doi:10.1016/0167-9473(92)90042-E
[9] Charrad,M.、Ghazzali,N.、Boiteau,V.和Niknafs,A.(2014)。NbClust:用于确定数据集中相关簇数的软件包。J.统计软件。61. ·doi:10.18637/jss.v061.i06
[10] Chia,S.K.、Bramwell,V.H.、Tu,D.、Shepherd,L.E.、Jiang,S.等人(2012年)。一个用于预后和预测佐剂三苯氧胺疗效的50基因固有亚型分类器。临床。癌症研究。18 4465-4472. ·doi:10.1158/1078-0432.ccr-12-0286
[11] Chung,N.、Zhang,X.D.、Kreamer,A.、Locco,L.、Kuan,P.F.等人(2008年)。改进基因组RNAi筛选点击选择的中位绝对偏差。《生物分子杂志》。屏幕。13 149-158. ·doi:10.1177/1087057107312035
[12] Colaprico,A.、Silva,T.C.、Olsen,C.、Garofano,L.、Cava,C.、Carolini,D.等人(2015)。TCGAbiolinks:用于TCGA数据综合分析的R/Bioconductor包。核酸研究。44 e71-e71·doi:10.1093/nar/gkv1507
[13] Dellaert,F.(2002)。期望最大化算法。乔治亚理工学院技术报告。
[14] Fan,J.和Li,R.(2001)。通过非冲突惩罚似然及其oracle属性进行变量选择。J.Amer。统计师。协会。96 1348-1360. ·Zbl 1073.62547号 ·doi:10.1198/016214501753382273
[15] Friedman,J.、Hastie,T.和Tibshirani,R.(2010)。广义线性模型的坐标下降正则化路径。J.统计软件。33 1-22.
[16] Friedman,J.、Hastie,T.、Höfling,H.和Tibshirani,R.(2007)。路径坐标优化。附录申请。斯达。1 302-332. ·Zbl 1378.90064号 ·doi:10.1214/07-AOAS131
[17] Garcia,R.I.、Ibrahim,J.G.和Zhu,H.(2010)。随机缺失协变量的Cox回归模型中的变量选择。生物计量学66 97-104. ·Zbl 1187.62167号 ·文件编号:10.1111/j.1541-0420.2009.01274.x
[18] Gaujoux,R.和Seoighe,C.(2010年)。非负矩阵分解的一个灵活的R包。BMC生物信息。11 367·doi:10.1186/1471-2105-11-367
[19] Golub,T.R.、Slonim,D.K.、Tamayo,P.、Huard,C.、Gaasenbeek,M.、Mesirov,J.P.、Coller,H.、Loh,M.L.、Downing,J.R.等人(1999年)。癌症的分子分类:通过基因表达监测进行分类发现和分类预测。科学类286 531-537. ·doi:10.1126/science.286.5439.531
[20] Grossman,R.L.、Heath,A.P.、Ferretti,V.、Varmus,H.E.、Lowy,D.R.、Kibbe,W.A.和Staudt,L.M.(2016)。实现癌症基因组数据的共享愿景。北英格兰。医学杂志。375 1109-1112. ·doi:10.1056/nejmp1607591
[21] Grün,D.、Kester,L.和van Oudenaarden,A.(2014)。单细胞转录组学噪声模型的验证。自然方法11 637-640. ·doi:10.1038/nmeth.2930
[22] Hilbe,J.M.(2009)。建模计数数据剑桥大学出版社,剑桥。 ·doi:10.1017/cbo9781139236065
[23] Hoerl,A.E.和Kennard,R.W.(1970年)。岭回归:非正交问题的有偏估计。技术计量学12 55-67. ·Zbl 0202.17205号 ·网址:10.1080/00401706.1970.10488634
[24] Huszno,J.和Kolosza,Z.(2019年)。乳腺癌的分子特征与临床病理因素。摩尔临床。昂科尔。11 192-200. ·doi:10.3892/mco.2019.1869年
[25] Inouye,D.I.、Yang,E.、Allen,G.I.和Ravikumar,P.(2017)。从泊松分布导出计数数据的多元分布综述。威利公司(Wiley Interdiscip)。利润.:计算。斯达。9 e1398,25·doi:10.1002/wics.1398
[26] Jaskowiak,P.A.、Costa,I.G.和Campello,R.J.G.B.(2018年)。RNA-seq样本的聚类:癌症数据的比较研究。方法132 42-49. ·doi:10.1016/j.meth.2017.07.023
[27] Johnson,W.E.、Li,C.和Rabinovic,A.(2006年)。使用经验贝叶斯方法调整微阵列表达数据中的批量效应。生物统计学8 118-127. ·Zbl 1170.62389号 ·doi:10.1093/biostatistics/kxj037
[28] Klein,R.W.和Dubes,R.C.(1989年)。模拟退火投影和聚类实验。模式识别。22 213-220之间·Zbl 0709.62613号 ·doi:10.1016/0031-3203(89)90067-8
[29] Kobolt,D.C.、Fulton,R.S.、McLellan,M.D.、Schmidt,H.、KalickiVeizer,J.等人(2012年)。人类乳腺肿瘤的全面分子肖像。自然490 61-70. ·doi:10.1038/nature11412
[30] Leek,J.T.(2014)。svaseq:从测序数据中删除批处理效果和其他不需要的噪声。核酸研究。42 e161-e161·数字对象标识代码:10.1093/nar/gku864
[31] Leek,J.T.、Scharpf,R.B.、Bravo,H.C.、Simcha,D.、Langmead,B.、Johnson,W.E.、Geman,D.、Baggerly,K.和Irizarry,R.A.(2010年)。解决高吞吐量数据中批量效应的广泛而关键的影响。Nat.Rev.基因。11 733-739. ·doi:10.1038/nrg2825
[32] Li,B.和Dewey,C.N.(2011年)。RSEM:有或无参考基因组的RNA-seq数据的准确转录定量。BMC生物信息。12 323. ·数字对象标识代码:10.1186/1471-2105-12-323
[33] Li,P.、Piao,Y.、Shon,H.S.和Ryu,K.H.(2015)。比较Illumina高通量RNA-seq数据差异分析的归一化方法。BMC生物信息。16 347. ·doi:10.1186/s12859-015-0778-7
[34] Li,Q.、Noel-MacDonnell,J.R.、Koestler,D.C.、Goode,E.L.和Fridley,B.L.(2018)。使用负二项模型对小型转录组研究进行主题级聚类。BMC生物信息。19 474. ·doi:10.1186/s12859-018-2556-9
[35] Lim,D.K.,Rashid,N.U.和Ibrahim,J.G.(2021a)。附录A:支持基于模型的特征选择和RNA-seq数据聚类的信息,用于无监督子类型发现。https://doi.org/10.1214/20-AOAS1407SUPA网站
[36] Lim,D.K.,Rashid,N.U.和Ibrahim,J.G.(2021b)。附录B:FSCseq R包。https://doi.org/10.1214/20-AOAS1407SUPPB
[37] Lim,D.K.,Rashid,N.U.和Ibrahim,J.G.(2021c)。附录C:FSCseq再现性代码。https://doi.org/10.1214/20-AOAS1407SUPC网站
[38] Love,M.I.、Huber,W.和Anders,S.(2014)。利用DESeq2对RNA-seq数据的折叠变化和离散度进行适度估计。基因组生物学。15 550·doi:10.1186/s13059-014-0550-8
[39] Mao,J.-H.、van Diest,P.J.、Perez Losada,J.和Snijders,A.M.(2017)。回顾年龄和分子亚型对乳腺癌患者放疗后总体生存率的影响。科学。众议员。7 12587. ·doi:10.1038/s41598-017-12949-5
[40] McLachlan,G.J.和Krishnan,T.(2008)。EM算法及其扩展,第2版。概率统计中的威利级数。Wiley Interscience,新泽西州霍博肯·Zbl 1165.62019号 ·doi:10.1002/9780470191613
[41] 孟晓乐(1994)。关于ECM算法的收敛速度。安。统计师。22 326-339. ·Zbl 0803.65146号 ·doi:10.1214/aos/1176325371
[42] Meng,X.-L.和Rubin,D.B.(1993)。通过ECM算法的最大似然估计:一般框架。生物特征80 267-278. ·Zbl 0778.62022号 ·doi:10.1093/biomet/80.2.267
[43] Mo,Q.和Shen,R.(2019年)。iClusterPlus:多类型基因组数据的集成聚类。R包版本1.20.0。
[44] Mo,Q.,Wang,S.,Seshan,V.E.,Olshen,A.B.,Schultz,N.等人(2013)。整合癌症基因组数据中的模式发现和癌症基因识别。程序。国家。阿卡德。科学。美国110 4245-4250. ·doi:10.1073/pnas.1208949110
[45] Mootha,V.K.,Lindgren,C.M.,Eriksson,K.-F.,Subramanian,A.,Sihag,S.,Lehar,J.,Puigserver,P.,Carlsson,E.,Ridderstr Ye,M.等人(2003年)。参与氧化磷酸化的PGC-1反应基因在人类糖尿病中协调下调。自然遗传学。34 267-273. ·doi:10.1038/ng1180
[46] Neal,R.和Hinton,G.E.(1998年)。EM算法视图,用于证明增量、稀疏和其他变量的合理性。学习图形模型355-368. 多德雷赫特Kluwer学院·Zbl 0916.62019号
[47] Nocedal,J.和Wright,S.J.(2000)。数值优化.Springer运筹学系列纽约州施普林格·Zbl 0930.65067号 ·数字对象标识代码:10.1007/b98874
[48] Noel-MacDonnell,J.R.、Usset,J.、Goode,E.L.和Fridley,B.L.(2018年)。RNA-seq数据基于模型聚类的数据转换评估。公共科学图书馆13 e0191758·doi:10.1371/journal.pone.0191758
[49] Pan,W.和Shen,X.(2007)。基于惩罚模型的聚类及其在变量选择中的应用。J.马赫。学习。物件。8 1145-1164. ·兹比尔1222.68279
[50] Pan,W.,Shen,X.和Liu,B.(2013)。聚类分析:通过非凸惩罚的有监督学习进行无监督学习。J.马赫。学习。物件。1865-1889年·Zbl 1317.68179号
[51] Patro,R.、Duggal,G.、Love,M.I.、Irizarry,R.A.和Kingsford,C.(2017)。鲑鱼提供了快速且有偏见的转录表达量化。自然方法14 417-419. ·doi:10.1038/nmeth.4197
[52] Perou,C.M.、SØrlie,T.、Eisen,M.B.、van de Rijn,M.、Jeffrey,S.S.等人(2000年)。人类乳腺肿瘤的分子肖像。自然406 747-752. ·doi:10.1038/35021093
[53] Picornell,A.C.,Echavarria,I.,Alvarez,E.,López-Tarruella,S.,Jerez,Y.,Hoadley,K.,Parker,J.S.,del Monte-Millan,M.,Ramos-Medina,R.等人(2019年)。乳腺癌PAM50特征:三阴性乳腺癌系列中RNA-seq和数字复合基因表达技术之间的相关性和一致性。BMC基因组学20 452. ·doi:10.1186/s12864-019-5849-0
[54] Piegorsch,W.W.(1990)。负二项分散参数的最大似然估计。生物计量学46 863-867. ·doi:10.2307/2532104
[55] Raj-Kumar,P.-K.,Liu,J.,Hooke,J.A.,Kovatich,A.J.,Kvecher,L.,Shriver,C.D.和Hu,H.(2019年)。PCA-PAM50提高了乳腺癌固有亚型和临床亚型之间的一致性,将管腔a肿瘤的一个子集重新分类为管腔B。科学。众议员。9 7956. ·数字对象标识代码:10.1038/s41598-019-44339-4
[56] Reese,S.E.、Archer,K.J.、Therneau,T.M.、Atkinson,E.J.、Vachon,C.M.、de Andrade,M.、Kocher,J.-P.A.和Eckel-Passow,J.E.(2013)。一种新的统计方法,用于识别高通量基因组数据中的批处理效应,该方法使用指导性主成分分析。生物信息学29 2877-2883. ·doi:10.1093/bioinformatics/btt480
[57] Reichart,R.和Rappoport,A.(2009年)。NVI聚类评估指标。第十三届计算自然语言学习会议记录.CoNLL公司09 165-173. 计算语言学协会,美国宾夕法尼亚州斯特劳德斯堡。
[58] Reynolds,A.P.、Richards,G.和Rayward-Smith,V.J.(2004)。K-medoids和PAM在规则聚类中的应用。智能数据工程与自动学习-IDEAL2004, 5第届国际会议173-178.
[59] Risso,D.、Perraudeau,F.、Gribkova,S.、Dudoit,S.和Vert,J.-P.(2018年)。一种从单细胞RNA-seq数据中提取信号的通用且灵活的方法。国家公社。9 284·doi:10.1038/s41467-017-02554-5
[60] Robinson,M.D.、McCarthy,D.J.和Smyth,G.K.(2009年)。edgeR:用于数字基因表达数据差异表达分析的生物导体包。生物信息学26 139-140. ·doi:10.1093/bioinformatics/btp616
[61] Rose,K.(1998)。用于聚类、压缩、分类、回归和相关优化问题的确定性退火。程序。电气与电子工程师协会86 2210-2239. ·数字对象标识代码:10.1109/5.726788
[62] Schurch,N.J.、Schofield,P.、Gierliáski,M.、Cole,C.、Sherstnev,A.、Singh,V.、Wrobel,N.、Gharbi,K.、Simpson,G.G.等人(2016年)。RNA-seq实验需要多少生物复制,你应该使用哪种差异表达工具?核糖核酸22 839-851. ·doi:10.1261/rna.053959.115
[63] Schwarz,G.(1978年)。估算模型的维度。安。统计师。6 461-464. ·Zbl 0379.62005年
[64] Scrucca,L.、Fop,M.、Murphy,T.B.和Raftery,A.E.(2016)。mclust 5:使用高斯有限混合模型进行聚类、分类和密度估计。R J。8 289-317.
[65] Si,Y.,Liu,P.,Li,P.和Brutnell,T.P.(2013)。基于模型的RNA-seq数据聚类。生物信息学30 197-205. ·doi:10.1093/bioinformatics/btt632
[66] Smid,M.、Wang,Y.、Zhang,Y.,Sieuwerts,A.M.、Yu,J.、Klijn,J.G.M.、Foekens,J.A.和Martens,J.W.M.(2008)。乳腺癌的亚型显示复发的优先部位。癌症研究。68 3108-3114. ·doi:10.1158/0008-5472.can-07-5644
[67] Strehl,A.和Ghosh,J.(2003)。集群集成——用于组合多个分区的知识重用框架。J.马赫。学习。物件。3 583-617. ·Zbl 1084.68759号 ·doi:10.1162/153244303321897735
[68] Subramanian,A.、Tamayo,P.、Mootha,V.K.、Mukherjee,S.、Ebert,B.L.、Gillette,M.A.、Paulovich,A.、Pomeroy,S.L.、Golub,T.R.等人(2005年)。基因集富集分析:解释全基因组表达谱的基于知识的方法。程序。国家。阿卡德。科学。美国102 15545-15550. ·doi:10.1073/pnas.0506580102
[69] Tibshirani,R.、Walther,G.和Hastie,T.(2001)。通过间隙统计估计数据集中的簇数。J.R.统计社会服务。B.统计方法。63 411-423. ·兹比尔0979.62046 ·数字对象标识代码:10.1111/1467-9868.00293
[70] Townes,F.W.、Hicks,S.C.、Aryee,M.J.和Irizarry,R.A.(2019)。基于多项式模型的单细胞RNA-seq的特征选择和降维。基因组生物学。20 295. ·doi:10.1186/s13059-019-1861-6
[71] Tritchler,D.、Parkhomenko,E.和Beyene,J.(2009年)。筛选用于聚类和网络分析的基因。BMC生物信息。10 193. ·Zbl 1276.92071号 ·doi:10.1186/1471-2105-10-193
[72] 曾平(2001)。不可微极小化的块坐标下降法的收敛性。J.优化。理论应用。109 475-494·Zbl 1006.65062号 ·doi:10.1023/A:1017501703105
[73] van Laarhoven,P.J.M.和Aarts,E.H.L.(1987)。模拟退火:理论与应用.数学及其应用37.D.Reidel出版公司,多德雷赫特·Zbl 0643.65028号 ·doi:10.1007/978-94-015-7744-1
[74] Vidman,L.、Källberg,D.和Rydén,P.(2019年)。高维RNA-seq数据的聚类分析及其在癌症研究中的应用——一项评估研究。公共科学图书馆14电子0219102·doi:10.1371/journal.pone.0219102
[75] Vinh,N.X.、Epps,J.和Bailey,J.(2010)。聚类比较的信息论度量:变量、属性、归一化和机会修正。J.马赫。学习。物件。11 2837-2854. ·Zbl 1242.62062号
[76] Wu,T.T.和Lange,K.(2008)。套索惩罚回归的坐标下降算法。附录申请。斯达。2 224-244. ·Zbl 1137.62045号 ·doi:10.1214/07-AOAS147
[77] Wu,A.R.,Neff,N.F.,Kalisky,T.,Dalerba,P.,Treutlein,B.,Rothenberg,M.E.,Mburu,F.M.,Mantalas,G.L.,Sim,S.等人(2013)。单细胞RNA测序方法的定量评估。自然方法11 41-46. ·doi:10.1038/nmeth.2694
[78] Yang,F.、Ding,P.和Huang,R.(2015)。乳腺癌中CDH1的临床病理意义和潜在药物靶点:荟萃分析和文献综述。药物设计。开发和治疗。9 5277. ·doi:10.2147/dddt.s86929
[79] Yang,K.,Gao,J.和Luo,M.(2019年)。利用生物信息学分析鉴定基底样乳腺癌的关键通路和hub基因。Onco目标治疗。12 1319-1331. ·doi:10.2147/ott.s158619
[80] Yang,L.、Shen,Y.、Y.、袁,X.、Zhang,J.和Wei,J.(2017)。AP-ISA双聚类分析乳腺癌亚型。BMC生物信息。18 481·doi:10.1186/s12859-017-1926-z
[81] Yersal,O.和Barutca,S.(2014)。乳腺癌的生物亚型:预后和治疗意义。世界临床杂志。昂科尔。5 412-424. ·doi:10.5306/wjco.v5.i3.412
[82] Zou,H.和Hastie,T.(2005)。通过弹性网进行规则化和变量选择。J.R.统计社会服务。B.统计方法。67 301-320. ·Zbl 1069.62054号 ·数字对象标识代码:10.1111/j.1467-9868.2005.0050.x
[83] Zwiener,I.、Frisch,B.和Binder,H.(2014)。转换RNA-seq数据以提高预后基因特征的性能。公共科学图书馆9电子85150·doi:10.1371/journal.pone.0085150
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。