×

用于注释基因表达数据的基于模型的聚类的模型选择标准。 (英语) Zbl 1330.92080号

摘要:在基因表达数据的共表达分析中,根据一组外部信息解释共表达基因簇通常很有意义,例如可能注释基因子集的功能属性的潜在不完整列表。基于有限混合模型的框架,我们提出了一个模型选择准则,该准则考虑了这些外部基因注释,为选择相关数量的聚类和聚类模型提供了一个有效的工具。该标准称为综合完整注释似然(ICAL),通过在惩罚似然中添加熵项来衡量聚类分区与外部注释信息之间的一致性。ICAL导致选择一个相对于已知功能基因注释更容易解释的模型。我们结合模拟基因表达数据和实际RNA-seq数据上的高斯混合模型说明了该模型选择标准的重要性。

MSC公司:

92D10型 遗传学和表观遗传学
92B15号机组 普通生物统计学
62小时30分 分类和区分;聚类分析(统计方面)
62F07型 统计排名和选择程序
PDF格式BibTeX公司 XML格式引用
全文: 内政部 哈尔

参考文献:

[1] Anders,S.和W.Huber(2010):“序列计数数据的差异表达分析”,《基因组生物学》,11,R106。;
[2] Ashburner,M.,C.A.Ball,J.A.Blake,D.Botstein,H.Butler,J.M.Cherry,A.P.Davis,K.Dolinski,S.S.Dwight,J.T.Eppig,M.A.Harris,D.P.Hill,L.Issel-Tarver,A.Kasarskis,S.Lewis,J.C.Matese,J.E.Richardson,M.Ringwald,G.M.Rubin和G.Sherlock(2000):“基因本体:生物学统一的工具。基因本体联盟”,《自然遗传学》,25,25-29。;
[3] Baudry,J.-P.,M.Cardoso,G.Celeux,M.J.Amorim和A.S.Ferreira(2014):“利用外部类别变量加强基于模型的聚类选择”,《数据分析和分类进展》,第1期,第1-20页·Zbl 1414.62226号
[4] Benjamini,Y.和Y.Hochberg(1995):“控制错误发现率:一种实用而有效的多重测试方法”,J.R.Stat.Soc.B Met。,57, 286-300.; ·Zbl 0809.62014号
[5] Biernacki,C.,G.Celeux和G.Govaert(2000):“评估具有综合完全可能性的聚类混合模型,”IEEE T.Pattern Anal。,22, 719-725.;
[6] Biernacki,C.、G.Celeux和G.Govaert(2003):“为em算法选择起始值,以获得多元高斯混合模型中的最大似然”,计算。统计数据An.,41,561-575·Zbl 1429.62235号
[7] Biernacki,C.、G.Celeux、G.Govaert和F.Langrognet(2006):“利用MIXMOD软件进行基于模型的聚类分析和判别分析”,计算。统计数据An.,51,587-600·Zbl 1157.62431号
[8] Datta,S.(2003):“微阵列基因表达数据统计聚类技术的比较与验证”,生物信息学,19459-466。;
[9] Dempster,A.、N.M.Laird和D.B.Rubin(1977):“通过EM算法从不完整数据中获得最大似然”,J.R.Stat.Soc.B Met。,39, 1-38.; ·Zbl 0364.62022号
[10] Eisen,M.B.、P.T.Spellman、P.O.Brown和D.Botstein(1998):“全基因组表达模式的聚类分析和显示”,P.Natl。A.科学。,95, 14863-14868.;
[11] Holmes,I.、K.Harris和C.Quince(2012):“Dirichlet多项式混合物:微生物宏基因组学的生成模型”,《公共科学图书馆·综合》,第7期,e30126页。;
[12] Huang,D.,P.Wei和W.Pan(2006):“在基于模型的聚类中结合基因注释和基因表达数据:加权方法”,奥密克戎,10,28-39。;
[13] Jiang,D.、C.Tang和A.Zhang(2004):“基因表达数据的聚类分析:调查”,IEEE T.Knowl。数据En。,16, 1370-1386.;
[14] Kanehisa,M.和S.Goto(2000):“KEGG:基因和基因组的京都百科全书”,Nuc。《酸类研究》,28,27-30。;
[15] Law,C.W.、Y.Chen、W.Shi和G.K.Smyth(2014):“Voom:精确权重解锁RNA-seq读取计数的线性模型分析工具”,《基因组生物学》,第15卷,R29页。;
[16] Lebret,R.,S.Iovleff,F.Langrognet,C.Biernacki,G.Celeux,and G.Govaert(2015):“Rmixmod:基于模型的无监督、监督和半监督分类mixmode库的R包”,《统计软件杂志》,正在出版。;
[17] Liberzon,A.、A.Subramanian、R.Pinchback、H.Thorvaldsdóttir、P.Tamayo和J.P.Mesirov(2011):“分子签名数据库(MSigDB)3.0”,生物信息学,271739-1740。;
[18] Mach,N.、M.Berri、D.Esquerré、C.Chevaleyre、G.Lemonnier、Y.Billon、P.Lepage、I.P.Oswald、J.Doré、C.Rogel-Gaillard和J.Estellé(2014):“转录组测序证明的猪小肠广泛表达差异”,PloS ONE,9,e88515。;
[19] Morlini,I.(2011):“在高斯混合模型中聚类混合二进制和连续变量的潜在变量方法”,《数据分析和分类进展》,6,5-28·Zbl 1284.62384号
[20] Mortazavi,A.、B.A.Williams、K.McCue、L.Schaeffer和B.Wold(2008):“通过RNA-Seq绘制和量化哺乳动物转录体”,《自然方法》,第5621-628页。;
[21] Pan,W.(2006):“将基因功能作为微阵列基因表达数据基于模型聚类的先验信息纳入”,生物信息学,22795-801。;
[22] Rau,A.、C.Maugis-Rabusseau、M.-L.Martin-Magniette和G.Celeux(2015):“利用泊松混合模型对高通量转录组测序数据进行共表达分析”,生物信息学,311420-1427。;
[23] Robinson,M.D.、D.J.McCarthy和G.K.Smyth(2010):“edgeR:数字基因表达数据差异表达分析的生物导体包”,生物信息学,26,139-140。;
[24] Schena,M.、D.Shalon、R.W.Davis和P.O.Brown(1995):“用互补DNA微阵列定量监测基因表达模式”,《科学》,270467-470。;
[25] Schwarz,G.(1978):“估计模型的维度”,《美国国家统计年鉴》,第6461-464页·Zbl 0379.62005年
[26] Smyth,G.K.(2004):“微阵列实验中评估差异表达的线性模型和经验贝叶斯方法”,《统计应用》。遗传学。分子生物学。,3, 1-25.; ·Zbl 1038.62110号
[27] Steuer,R.、P.Humburg和J.Selbig(2006):“基于基因本体论的基于表达的聚类的验证和功能注释”,BMC生物信息学,7380。;
[28] Subramanian,A.、P.Tamayo、V.K.Mootha、S.Mukherjee、B.L.Ebert、M.A.Gillette、A.Paulovich、S.L.Pomeroy、T.R.Golub、E.S.Lander和J.P.Mesirov(2005):“基因集富集分析:解释全基因组表达谱的基于知识的方法”,P.Natl。A.科学。,102, 15545-15550.;
[29] Tari,L.、C.Baral和S.Kim(2009):“利用先验生物学知识进行模糊C-均值聚类”,J.Biomed。通知。,42, 74-81.;
[30] Tipney,H.和L.Hunter(2010):“浓缩分析软件的有效使用简介”,《人类基因组学》,4202。;
[31] Verbanck,M.、S.Lé和J.PagèS(2013):“基于将生物知识集成到表达数据的新无监督基因聚类算法”,BMC生物信息学,14,42。;
[32] Yeung,K.Y.,C.Fraley,A.Murua,A.E.Raftery和W.L.Ruzzo(2001):“基因表达数据的基于模型的聚类和数据转换”,生物信息学,17,977-987。;
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。