×

微阵列甲基化和表达数据的基于模型的集成聚类。 (英语) Zbl 1254.62113号

摘要:在许多领域,研究人员对大型复杂的生物过程感兴趣。两个重要的例子是遗传学中的基因表达和DNA甲基化。一个关键问题是确定这些过程的异常模式,并发现生物学上不同的群体。我们开发了一种基于模型的方法来对这些数据进行聚类。我们的方法的基础是为任何给定的主题划分构造一个似然。我们引入了特定于集群的潜在指标,这些指标与一些标准假设一起对每个集群施加特定的混合分布。使用EM算法进行估计。这些方法可以自然地扩展到具有相似性质的多个数据类型,从而在多个数据平台上进行集成分析,从而提高识别能力。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
92C40型 生物化学、分子生物学
62小时30分 分类和区分;聚类分析(统计方面)
65C60个 统计中的计算问题(MSC2010)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Armstrong,S.A.、Staunton,J.E.、Silverman,L.B.、Pieters,R.、den Boer,M.L.、Minden,M.D.、Sallan,S.E.、Lander,E.S.、Golub,T.R.和Korsmeyer,S.J.(2002)。MLL易位指定了一个独特的基因表达谱,以区分独特的白血病。自然遗传学。30 41-47.
[2] Banfield,J.D.和Raftery,A.E.(1993年)。基于模型的高斯和非高斯聚类。生物统计学49 803-821·Zbl 0794.62034号 ·doi:10.2307/2532201
[3] Cheeseman,P.和Stutz,J.(1995)。贝叶斯分类(AutoClass):理论和结果。《知识发现和数据挖掘进展》(U.Fayyad、G.Piatesky-Shapiro、P.Smyth和R.Uthurusamy编辑)49 153-180。AAAI出版社,加利福尼亚州帕洛阿尔托。
[4] Christensen,B.C.,Houseman,E.A.,Marsit,C.J.,Zheng,S.,Wrensch,M.R.,Wiemels,J.L.,Nelson,H.H.,Karagas,M.R.,Padbury,J.F.,Bueno,R.,Sugarbaker,D.J.,Yeh,R.-F.,Wiencke,J.K.和Kelsey,K.T.(2009年)。衰老和环境暴露依赖于CpG岛环境改变组织特异性DNA甲基化。PLOS遗传学5 e1000602。
[5] Dempster,A.P.、Laird,N.M.和Rubin,D.B.(1977年)。通过EM算法获得不完整数据的最大似然(讨论后)。J.罗伊。统计师。Soc.序列号。B 39 1-38·Zbl 0364.62022号
[6] Figueroa,M.E.,Reimers,M.,Thompson,R.F.,Ye,K.,Li,Y.,Selzer,R.R.,Fridriksson,J.,Paietta,E.,Wiernik,P.,Green,R.D.,Greally,J.M.和Melnick,A.(2008)。用于转录调控研究的综合基因组和表观基因组方法。公共图书馆·综合频道3 e1882。
[7] Figueroa,M.E.,Lugthart,S.,Li,Y.,Erpelinck-Verschueren,C.,Deng,X.,Christos,P.J.,Schifano,E.,Booth,J.,van Putten,W.,Skrabanek,L.,Campagne,F.,Mazumdar,M.,Greally,J.M.,Valk,P.J M.,Lowelberg,B.,Delwelsend,R.和Melnick,A.(2010年)。表观遗传学特征识别急性髓细胞白血病中生物学上不同的亚型。癌细胞17 13-27。
[8] Fraley,C.和Raftery,A.E.(1998年)。有多少簇?哪种聚类方法?通过基于模型的聚类分析回答。《计算机期刊》41 578-588·Zbl 0920.68038号 ·doi:10.1093/comjnl/41.8.578
[9] Fraley,C.和Raftery,A.E.(2002年)。基于模型的聚类、判别分析和密度估计。J.艾默。统计师。协会97 611-631·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[10] Friedman,J.H.和Meulman,J.J.(2003)。在属性子集上对对象进行聚类。斯坦福大学统计系和斯坦福直线加速器中心的技术报告·Zbl 1060.62064号 ·文件编号:10.1111/j.1467-9868.2004.02059.x
[11] Golub,T.R.、Slonim,D.K.、Tamayo,P.、Huard,C.、Gaasenbeek,M.、Mesirov,J.P.、Coller,H.、Loh,M.L.、Downing,J.R.,Caligiuri,M.A.、Bloomfield,C.D.和Lander,E.S.(1999)。《癌症的分子分类:通过基因表达监测进行分类发现和分类预测》,《科学》286 531-537·Zbl 1047.65504号
[12] Heard,N.A.、Holmes,C.C.和Stephens,D.A.(2006年)。按蚊免疫反应相关基因调控的定量研究:贝叶斯层次聚类曲线的应用。J.艾默。统计师。协会101 18-29·Zbl 1118.62368号 ·doi:10.1198/01621450050000187
[13] Houseman,E.A.、Christensen,B.C.、Yeh,R.-F.、Marsit,C.J.等人(2008年)。DNA甲基化阵列数据的基于模型的聚类:一种用于混合β分布的高维数据的递归分区算法。BMC生物信息学9,第365条。
[14] 易卜拉欣,J.G.,陈,M.H.和格雷,R.J.(2002)。基因表达与DNA微阵列数据的贝叶斯模型。J.艾默。统计师。协会97 88-99·Zbl 1073.62578号 ·doi:10.1198/016214502753479257
[15] Irizarry,R.A.、Hobbs,B.、Collin,F.、Beazer-Barclay,Y.D.、Antonellis,K.J.、Scherf,U.和Speed,T.P.(2003)。高密度寡核苷酸阵列探针水平数据的探索、规范化和总结。生物统计学4 249-264·Zbl 1141.62348号 ·doi:10.1093/biostatistics/4.2.249
[16] Ji,Y.,Wu,C.,Liu,P.,Wang,J.和Coombes,K.R.(2005)。贝塔混合模型在生物信息学中的应用。生物信息学21 2118-2122。
[17] Kettering,J.R.(2006)。聚类分析的实践。J.分类23 3-30·Zbl 06039701号 ·doi:10.1007/s00357-006-0002-6
[18] Kiefer,N.M.(1978年)。离散参数变化:切换回归模型的有效估计。《计量经济学》46 427-434·Zbl 0408.62058号 ·doi:10.2307/1913910
[19] Kim,S.、Tadesse,M.G.和Vannucci,M.(2006年)。通过狄利克雷过程混合模型进行聚类中的变量选择。生物特征93 877-893·Zbl 1436.62266号 ·doi:10.1093/biomet/93.4.877
[20] Kormaksson,M.、Booth,J.G.、Figueroa,M.E.和Melnick,A.(2012年)。补充“微阵列甲基化和表达数据的基于模型的集成聚类”·Zbl 1254.62113号
[21] Lindsay,B.G.(1988年)。复合似然法。《随机过程的统计推断》(Ithaca,NY,1987)。康斯坦普。数学。80 221-239. 阿默尔。数学。意大利普罗维登斯足球俱乐部·Zbl 0672.62069号 ·doi:10.1090/conm/080/999014
[22] McLachlan,G.J.和Basford,K.E.(1988)。混合模型:推理和聚类应用。统计学:教科书和专著84。纽约德克尔公司·兹比尔0697.62050
[23] McLachlan,G.J.、Bean,R.W.和Peel,D.(2002)。一种基于混合模型的微阵列表达数据聚类方法。生物信息学18 413-422。
[24] McLachlan,G.和Peel,D.(2000年)。有限混合模型。纽约威利·Zbl 0963.62061号
[25] Rodenhiser,D.和Mann,M.(2006年)。表观遗传学与人类疾病:将基础生物学转化为临床应用。CMAJ 174 341-348。
[26] Scott,A.J.和Symons,M.J.(1971)。基于似然比标准的聚类方法。生物统计学27 387-397。
[27] Siegmund,K.D.、Laird,P.W.和Laird-Offringa,I.A.(2004年)。使用DNA甲基化数据的聚类分析方法的比较。生物信息学20 1896-1904。
[28] Symons,M.J.(1981)。聚类标准和多元正态混合物。生物统计学37 35-43·Zbl 0473.62048号 ·doi:10.2307/2530520
[29] Tadesse,M.G.、Ibrahim,J.G.和Mutter,G.L.(2003)。高密度寡核苷酸阵列中差异表达基因的识别说明了该技术的量化限制。生物统计学59 542-554·Zbl 1210.62209号 ·数字对象标识代码:10.1111/1541-0420.0064
[30] Tadesse,M.G.、Sha,N.和Vannucci,M.(2005)。高维数据聚类中的贝叶斯变量选择。J.艾默。统计师。协会100 602-617·Zbl 1117.62433号 ·doi:10.1198/0162145000001565
[31] Thompson,R.F.、Reimers,M.、Khulan,B.、Gissot,M.,Richmond,T.A.、Chen,Q.、Zheng,X.、Kim,K.和Greally,J.M.(2008)。用于胞嘧啶甲基化研究的基因组表示的分析管道。生物信息学24 1161-1167。
[32] Valk,P.J.、Verhaak,R.G.、Beijen,M.A.、Erpelinck,C.A.、van Waalwijk van Doorn-Khosrovani,S.B.、Boer,J.M.、Beverloo,H.B.、Moorhouse,M.J.,van der Spek,P.J、Lowenberg,B.和Delwel,R.(2004)。急性髓细胞白血病的预后有用基因表达谱。北英格兰。《医学杂志》,第350卷,1617-1628页。
[33] van der Laan,M.J.和Pollard,K.S.(2003)。一种新的可视化和自举混合层次聚类算法。J.统计。计划。推断117 275-303·Zbl 1021.62048号 ·doi:10.1016/S0378-3758(02)00388-9
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。