×

兹马思-数学第一资源

基于模型的基因表达数据聚类模型选择准则。(英语) Zbl 1330.92080
摘要:在基因表达数据的共表达分析中,根据一组外部信息来解释共表达基因簇通常是有意义的,例如可能不完整的功能特性列表,其中可能有一个子集的基因可能被注释。基于有限混合模型的框架,我们提出了一种考虑外部基因注释的模型选择准则,为选择相关数量的聚类和聚类模型提供了一个有效的工具。该准则通过在惩罚似然中加入一个熵项来度量聚类划分与外部标注信息的一致性,称为综合完备注释似然(ICAL)。ICAL导致了对已知功能基因注释更容易解释的模型的选择。我们说明了这个模型选择标准与高斯混合模型对模拟基因表达数据和真实RNA序列数据的兴趣。
理学硕士:
92D10型 遗传学与表观遗传学
92B15号 一般生物统计学
62小时30分 分类和鉴别.聚类分析(统计方面)
62007年 统计排名和选择程序
PDF格式 BibTeX公司 XML 引用
全文: 内政部
参考文献:
[1] Anders,S.和W.Huber(2010):“序列计数数据的差异表达分析”,基因组生物学,11,R106。
[2] 卡斯泰尔,J.M.D.J.J.J.J.J.J.J.J.J.J.J.J.J.J.J.J.J.J.J.J.Burthill,G.M.D.Davis。基因本体论联盟,《自然遗传学》,25,25-29。
[3] Baudry,J.-P.,M.Cardoso,G.Celeux,M.J.Amorim和A.S.Ferreira(2014):“利用外部分类变量增强基于模型的聚类选择”,数据分析与分类进展,1,1-20。
[4] Benjamini,Y.和Y.Hochberg(1995):“控制错误发现率:一种实用而强大的多重测试方法”,J.R.Stat.Soc。B Met.,57,286-300。·Zbl 0809.62014
[5] Biernacki,C.,G.Celeux,和G.Govaert(2000):“用综合完全似然评估聚类的混合模型”,IEEE T.模式分析,22719-725。
[6] Biernacki,C.,G.Celeux,和G.Govaert(2003):“在多元高斯混合模型中选择em算法的初始值以获得最大似然,”计算。《统计数据》,41561-575。·Zbl 1429.62235
[7] Biernacki,C.,G.Celeux,G.Govaert,和F.Langrognet(2006):“基于模型的聚类分析和基于MIXMOD软件的判别分析”,计算。《统计数据》,51587-600。·Zbl 1157.62431
[8] Datta,S.(2003):“微阵列基因表达数据的统计聚类技术的比较和验证”,生物信息学,19459-466。
[9] Dempster,A.,N.M.Laird和D.B.Rubin(1977):“通过EM算法从不完全数据中获得的最大可能性”,J.R.Stat.Soc。第39页,第1-38页。·Zbl 0364.62022
[10] Eisen,M.B.,P.T.Spellman,P.O.Brown和D.Botstein(1998):“全基因组表达模式的聚类分析和显示”,P.Natl。A、 《科学》,9514863-14868。
[11] Holmes,I.,K.Harris和C.Quince(2012):“Dirichlet多项式混合物:微生物宏基因组学的生成模型”,PloS ONE,7,e30126。
[12] 与基于基因的基因表达模式相结合。
[13] 蒋,D.,唐,和A.张(2004):“基因表达数据的聚类分析:一项调查”,IEEE T.Knowl。数据英语,16,1370-1386。
[14] Kanehisa,M.和S.Goto(2000):“KEGG:京都基因和基因组百科全书”,Nuc。酸资源,28,27-30。
[15] Law,C.W.、Y.Chen、W.Shi和G.K.Smyth(2014):“Voom:精确权重解锁用于RNA序列读取计数的线性模型分析工具”,基因组生物学,15,R29。
[16] Lebret,R.,S.Iovleff,F.Langrognet,C.Biernacki,G.Celeux,和G.Govaert(2015):“Rmixmod:基于模型的无监督、监督和半监督分类mixmod库的R包”,《统计软件杂志》,出版。
[17] Liberzon,A.,A.Subramanian,R.Pinchback,H.Thorvaldsdóttir,P.Tamayo和J.P.Mesirov(2011):“分子特征数据库(MSigDB)3.0”,生物信息学,271739-1740。
[18] Mach,N.,M.Berri,D.Esquerré,C.Chevaleyre,G.Lemonnier,Y.Billon,P.Lepage,I.P.Oswald,J.Doré,C.Rogel Gaillard和J.Estellé(2014):“转录组测序证明的猪小肠的广泛表达差异”,《公共科学图书馆》第1期,第9期,第88515页。
[19] Morlini,I.(2011):“在高斯混合模型中聚类混合二元和连续变量的潜在变量方法”,《数据分析和分类进展》,6,5-28。·Zbl 1284.62384
[20] Mortazavi,A.,B.A.Williams,K.McCue,L.Schaeffer和B.Wold(2008年):“通过RNA序列定位和量化哺乳动物转录体”,自然方法,5621-628。
[21] Pan,W.(2006):“在基于模型的微阵列基因表达数据聚类中整合基因功能”,生物信息学,22795-801。
[22] Rau,A.,C.Maugis Rabusseau,M.-L.Martin Magniette,和G.Celeux(2015):“用泊松混合模型对高通量转录组测序数据的共表达分析”,生物信息学,311420-1427。
[23] Robinson,M.D.,D.J.McCarthy和G.K.Smyth(2010):“edgeR:用于数字基因表达数据差异表达分析的生物导体包”,生物信息学,26,139-140。
[24] Schena,M.,D.Shalon,R.W.Davis和P.O.Brown(1995):“用互补DNA微阵列定量监测基因表达模式”,《科学》,270467-470。
[25] Schwarz,G.(1978):“估计模型的维数”,安。Stat.,第6461-464页。·Zbl 0379.62005
[26] Smyth,G.K.(2004):“评估微阵列实验中差异表达的线性模型和经验贝叶斯方法”,Stat.Appl。吉奈特。分子生物学,3,1-25。·Zbl 1038.62110
[27] Steuer,R.,P.Humburg,and J.Selbig(2006):“基于基因本体论的表达簇的验证和功能注释”,BMC生物信息学,7380。
[28] Subramanian,A.,P.Tamayo,V.K.Mootha,S.Mukherjee,B.L.Ebert,M.A.Gillette,A.Paulovich,S.L.Pomeroy,T.R.Golub,E.S.Lander和J.P.Mesirov(2005):“基因集富集分析:基于知识的方法解释全基因组表达谱”,P.Natl。A、 《科学》,10215545-15550。
[29] Tari,L.,C.Baral和S.Kim(2009):“基于先验生物知识的模糊C-均值聚类”,J.Biomed。通知,42,74-81。
[30] Tipney,H.和L.Hunter(2010):“富集分析软件的有效使用简介”,人类基因组学,4202。
[31] Verbanck,M.,S.Lèand J.PagèS(2013):“基于将生物知识整合到表达数据中的新的无监督基因聚类算法”,BMC生物信息学,14,42。
[32] Yaung,K.Y.,C.Fraley,A.Murua,A.E.Raftery和W.L.Ruzzo(2001年):“基因表达数据的基于模型的聚类和数据转换”,生物信息学,17977-987。
此参考列表基于出版商或数字数学图书馆提供的信息。它的数学和标识符可能包含启发式匹配的数据项。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。