×

评估聚类方法与基因表达微阵列数据的一致性。 (英语) Zbl 1452.62825号

摘要:在快速发展的基因组学领域,已经开发出许多聚类和分类方法,并用于探索基因表达数据中的模式。生物学家面临着使用哪种聚类算法以及如何解释不同聚类算法的不同结果的选择。没有制定明确的客观标准来评估一致性并比较不同聚类方法的结果。我们描述了两种普遍适用的客观度量,以量化不同聚类方法之间的一致性。这两个度量被称为局部一致性度量,它是为每个基因/受试者定义的,而全局一致性度量是为整个基因表达实验定义的。一致性度量基于一种概率加权方案,该方案应用于两种聚类方法中的一致对和不一致对的数量。在比较和评估过程中,新开发的概念是在集群可靠性的框架下实施的。通过模拟说明了这些算法,然后将其应用于酵母孢子形成基因表达微阵列数据。对孢子形成数据的分析确定了(sim 5%)(477个基因中的23个)基因,这些基因没有使用神经网络算法和K-means或pam进行一致聚类。这两个一致性度量提供了客观标准来判断两种聚类方法是否一致。使用局部一致性度量,聚类一致的未知功能基因可以更自信地基于协同调节分配功能。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62H30型 分类和区分;聚类分析(统计方面)
62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Bö,T.H。;Dysvik,B。;Jonassen,I.,LSimpute:用最小二乘法准确估计微阵列数据中的缺失值,《核酸研究》,32,e34(2004)
[2] 楚,S。;DeRisi,J。;艾森,M。;Mulholland,J。;博茨坦,D。;布朗,P。;Herskowitz,I.,芽殖酵母产孢的转录程序,科学。,282, 699-705 (1998)
[3] de Brevern,A。;Hazout,S。;Malpertuy,A.,微阵列实验缺失值对基因组稳定性的影响,层次聚类,BMC生物信息学,5114(2004)
[4] 艾森,M.B。;斯佩尔曼,P.T。;布朗,P.O。;Botsein,D.,全基因组表达模式的聚类分析和显示,Proc。国家。阿卡德。科学。美国,9514863-14868(1998)
[5] Hartigan,J.A。;Wong,M.A.,A K-means聚类算法,应用。统计人员。,28, 100-108 (1979) ·Zbl 0447.62062号
[6] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素》(2001),Springer:Springer New York·Zbl 0973.62007号
[7] 考夫曼,L。;Rousseeuw,P.J.,《在数据中发现群体:聚类分析导论》(1990),威利:威利纽约·Zbl 1345.62009号
[8] 科尔,K。;Churchill,G.,Bootstrapping聚类分析:评估微阵列实验结论的可靠性,Proc。国家。阿卡德。科学。美国,981961-8965(2001)·兹比尔1047.62110
[9] Luan,Y。;Li,H.,使用带有B样条的混合效应模型对时间进程基因表达数据进行聚类,生物信息学,19474-482(2003)
[10] Magurran,A.E.,《生态多样性及其测量》(1988年),查普曼和霍尔:查普曼与霍尔伦敦,英国
[11] 蒙蒂,S。;Tamayo,P。;梅西洛夫,P。;Golub,T.,共识聚类:基于重采样的基因表达微阵列数据类发现和可视化方法,机器学习。,52, 101-118 (2003) ·Zbl 1039.68103号
[12] Quackenbush,J.,微阵列的计算分析,《遗传学自然评论》。,2, 418-427 (2001)
[13] 曲,Y。;Xu,S.,基于多元高斯混合的微阵列数据监督聚类分析,生物信息学,201905-1913(2004)
[14] Rand,W.M.,《聚类方法评估的客观标准》,J.Am.Statist。协会,66,846-850(1971)
[15] 斯内斯,P.H.A。;Sokal,R.R.,《数值分类学:数值分类的原则和实践》(1973),W.H.Freeman:W.H.Freeman San Francisco,CA·Zbl 0285.92001
[16] 斯佩尔曼,通过微阵列杂交对酿酒酵母细胞周期调控基因的综合鉴定,分子生物学。细胞,93273-3297(1998)
[17] 斯威夫特,S。;塔克,A。;文西奥蒂,V。;N.马丁。;奥伦戈,C。;刘,X。;Kellam,P.,基因表达数据的共识聚类和功能解释,基因组生物学。,1994年4月5日(2004年)
[18] Tamayo,P。;斯隆,D。;梅西洛夫,J。;朱,Q。;Kitareewan,S。;德米特罗夫斯基,E。;兰德,E.S。;Golub,T.R.,用自组织图解释基因表达模式:造血分化的方法和应用,Proc。国家。阿卡德。科学。美国,96,2907-2912(1999)
[19] Thalamuthu,A。;Mukhopadhyay,I。;郑,X。;Tseng,G.C.,微阵列分析中基因聚类方法的评估和比较,生物信息学,222405-2412(2006)
[20] Tibshirani,R。;沃尔瑟,G。;Hastie,T.,通过差距统计估计数据集中的聚类数量,J.Roy。统计师。Soc.系列。B、 63、411-423(1999)·Zbl 0979.62046号
[21] 曾,G.C。;Wong,W.H.,《紧密聚类:识别数据中稳定和紧密模式的基于重采样的方法》,《生物统计学》,第61期,第10-16页(2005年)·Zbl 1077.62049号
[22] Tuikkala,J。;Elo,L。;Aittokalio,T.,利用基因本体改进微阵列数据中的缺失值估计,生物信息学,22566-572(2006)
[23] 瓦沙夫斯基,R。;Gottlieb,A。;霍恩,D。;Linial,M.,《扰动下的无监督特征选择:迎接生物数据的挑战》,生物信息学,23,3343-3349(2007)
[24] Wong,D.S。;Wong,F.K。;Wood,G.R.,基因表达谱聚类和插补的多阶段方法,生物信息学,23998-1005(2007)
[25] Wu,L.F。;休斯·T·R。;Davierwala,A.P。;医学博士罗宾逊。;斯托顿,R。;Altschuler,S.J.,《利用重叠转录簇对酿酒酵母基因功能进行大规模预测》,《国家遗传学》,32,255-265(2002)
[26] Yeung,K.Y。;弗雷利,C。;Murua,A。;Raftery,A.E。;Ruzzo,W.L.,基因表达数据的基于模型的聚类和数据转换,生物信息学,17,977-987(2001)
[27] 杨国勇。;Haynor,D.R。;Ruzzo,W.L.,验证基因表达数据的聚类,生物信息学,17,309-318(2001)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。