×

一种概率松弛标记框架,用于减少基因表达数据的几何双聚类中的噪声影响。 (英语) Zbl 1175.68409号

摘要:双聚类是DNA微阵列分析中的一种重要方法,它可以应用于只有一个子集的基因在一个子集条件下共同表达的情况。与标准聚类分析不同,双聚类方法可以对微阵列数据矩阵中的基因和条件的两个维度进行同时分类。然而,双聚类算法的性能受到数据中固有噪声、双聚类类型和计算复杂性的影响。本文提出了一种基于霍夫变换和松弛标记技术的几何双聚类方法。与现有的许多双聚类算法不同,我们首先通过几何解释来考虑双聚类模式。这样的透视图可以将不同类型的双聚类统一为空间空间中的超平面,并有助于使用通用的平面查找算法进行双聚类检测。在我们的算法中,将霍夫变换用于子空间中的超平面检测,以降低计算复杂度。然后在概率松弛标记框架下将子双聚类合并为较大的双聚类。我们的仿真研究证明了算法对噪声和离群值的鲁棒性。此外,我们的方法能够从实际的微阵列基因表达数据中提取具有生物学意义的双聚类。

MSC公司:

68吨10 模式识别、语音识别
92-08 生物问题的计算方法
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Alizadeh,A.A。;艾森,M.B。;戴维斯,R.E。;马,C。;Lossos,美国。;罗森瓦尔德,A。;Boldrick,J.C。;萨贝特,H。;Tran,T。;Yu,X。;鲍威尔,J.I。;Yang,L。;马蒂,G.E。;摩尔,T。;哈德森,J。;卢,L。;刘易斯,D.B。;Tibshirani,R。;Sherlock,G。;Chan,W.C。;格雷纳,T.C。;维森伯格,D.D。;阿米蒂奇,J.O。;Warnke,R。;利维,R。;Wilson,W。;格雷弗,M.R。;Byrd,J.C。;博茨坦,D。;布朗,P.O。;Staudt,L.M.,通过基因表达谱确定的弥漫性大B细胞淋巴瘤的不同类型,《自然》,403,503-511(2000)
[2] Stoughton,R.B.,DNA微阵列在生物学中的应用,年。生物化学评论。,74, 53-82 (2005)
[3] Lazzeroni,L。;Owen,A.,基因表达数据的格子模型,Stat.Sin。,12, 61-86 (2002) ·Zbl 1004.62084号
[4] 南卡罗来纳州马德拉。;Oliveira,A.L.,《生物数据分析的双聚类算法:调查》,IEEE/ACM Trans。计算。生物.生物信息学,1,24-45(2004)
[5] Desper,R。;Khan,J。;Schaffer,A.A.,利用表达数据的系统发育方法进行肿瘤分类,J.Theor。生物学,228477-496(2004)·Zbl 1439.92107号
[6] Dudoit,S。;Fridlyand,J。;Speed,T.P.,《利用基因表达数据对肿瘤分类的判别方法比较》,美国统计协会杂志,97,77-87(2002)·Zbl 1073.62576号
[7] 艾森,M.B。;斯佩尔曼,P.T。;布朗,P.O。;Botstein,D.,全基因组表达模式的聚类分析和显示,Proc。国家。阿卡德。科学。,95, 14863-14868 (1998)
[8] Golub,T.R。;Slonim,D.K。;Tamayo,P。;华德,C。;加森贝克,M。;梅西洛夫,J.P。;科勒,H。;Loh,M.L。;唐宁,J.R。;Caligiuri,医学硕士。;哥伦比亚特区布隆菲尔德。;Lander,E.S.,《癌症的分子分类:通过基因表达监测进行分类发现和分类预测》,《科学》,286531-537(1999)
[9] Y.Cheng,G.M.Church,表达数据的双聚类,载《第八届分子生物学智能系统国际会议论文集》(ISMB'00),2000年,第93-103页。;Y.Cheng,G.M.Church,表达数据的双聚类,摘自:《第八届分子生物学智能系统国际会议论文集》(ISMB'00),2000年,第93-103页。
[10] 密特拉,S。;Banka,H.,基因表达数据的多目标进化双聚类,模式识别,39,2464-2477(2006)·Zbl 1103.68775号
[11] Tanay,A。;沙兰,R。;Shamir,R.,《双聚类算法:一项调查》(Aluru,S.,《计算分子生物学手册》(2006),查普曼和霍尔/CRC:查普曼与霍尔/CRC博卡拉顿,佛罗里达州)
[12] Hartigan,J.A.,数据矩阵的直接聚类,J.Am.Stat.Assoc.,67,123-129(1972)
[13] J.Yang,W.Wang,H.Wang,P.Yu,δ-簇:在大数据集中捕获子空间相关性,收录于:第18届IEEE国际数据工程会议论文集,2002年,第517-528页。;J.Yang,W.Wang,H.Wang,P.Yu,δ-簇:在大数据集中捕获子空间相关性,收录于:第18届IEEE国际数据工程会议论文集,2002年,第517-528页。
[14] Divina,F。;Aguilar Ruiz,J.,表达式数据的双聚类与进化计算,IEEE Trans。知识。数据工程,18,590-602(2006)
[15] S.Bleuler,A.Prelić,E.Zitzler,《基因表达数据双聚类的EA框架》,摘自:《2004年进化计算大会会议记录》(CEC-2004),第166-173页。;S.Bleuler,A.Prelić,E.Zitzler,《基因表达数据双聚类的EA框架》,载于:《2004年进化计算大会会议记录》(CEC-2004),第166-173页。
[16] J.Yang,W.Wang,H.Wang,P.Yu,表达数据的增强双聚类,收录于:第三届IEEE会议生物信息学和生物工程,2003年,第321-327页。;J.Yang,W.Wang,H.Wang,P.Yu,表达数据的增强双聚类,收录于《第三届IEEE会议生物信息学和生物工程学报》,2003年,第321-327页。
[17] 哈斯蒂,T。;莱文,E。;Domany,E.,“基因剃须”作为识别具有相似表达模式的不同基因集的方法,《基因组生物学》,10003.1-0003.21(2000)
[18] A.Ben-Dor,B.Chor,R.Karp,Z.Yakhini,《发现基因表达数据中的局部结构:有序-保留子矩阵问题》,载《第六届计算生物学国际年会论文集》,美国纽约州纽约市ACM出版社,2002年,第49-57页。;A.Ben-Dor,B.Chor,R.Karp,Z.Yakhini,《发现基因表达数据中的局部结构:有序-保留子矩阵问题》,载《第六届计算生物学国际年会论文集》,美国纽约州纽约市ACM出版社,2002年,第49-57页。
[19] Klugar,Y。;巴斯里(Basri),R。;Chang,J.T。;Gerstein,M.,微阵列数据的光谱双聚类:共聚类基因和条件,基因组研究,13,703-716(2003)
[20] 盖茨,G。;莱文,E。;Domany,E.,基因微阵列数据的耦合双向聚类分析,Proc。国家。阿卡德。科学。,97, 12079-12084 (2000)
[21] Tanay,A。;沙兰,R。;Shamir,R.,《在基因表达数据中发现具有统计意义的双聚类》,生物信息学,18,136-144(2002)
[22] 伊梅尔斯,J。;弗里德兰德,G。;Bergmann,S。;Sarig,O。;Ziv,Y。;Barkai,N.,《揭示酵母转录网络中的模块化组织》,《自然遗传学》。,31, 370-377 (2002)
[23] 伊梅尔斯,J。;Bergmann,S。;Barkai,N.,使用大规模基因表达数据定义转录模块,生物信息学,1993-2003年第20期(2004年)
[24] T.M.Murali,S.Kasif,从基因表达数据中提取保守基因表达基序,收录于:第八届太平洋生物计算研讨会论文集,夏威夷,2003年,第77-88页。;T.M.Murali,S.Kasif,从基因表达数据中提取保守的基因表达基序,收录于:第八届太平洋生物计算研讨会论文集,夏威夷,2003年,第77-88页·Zbl 1219.92024号
[25] 前奏曲,A。;布鲁勒,S。;齐默尔曼,P。;Wille,A。;Buhlmann,P。;格鲁伊斯姆,W。;Hennig,L。;Thiele,L。;Zitzler,E.,基因表达数据双聚类方法的系统比较和评估,生物信息学,22,1122-1129(2006)
[26] 甘,X。;Liew,A.W.C。;Yan,H.,基于高维线性几何的基因表达数据中发现双聚类,BMC生物信息学,9209(2008)
[27] Liew,A.W.C。;严,H。;Yang,M.,生物信息学新兴领域的模式识别技术:综述,模式识别,382055-2073(2005)
[28] 赵,H。;Liew,A.W.C。;谢,X。;Yan,H.,一种新的基于Hough变换的几何双聚类算法,用于分析大规模微阵列数据,J.Theo。《生物学》,251264-274(2008)·Zbl 1398.92087号
[29] 赵,H。;Yan,H.,HoughFeature:评估三色cDNA微阵列实验中药物效应的新方法,BMC生物信息学,8256(2007)
[30] 杜达,R.O。;Hart,P.E.,《使用霍夫变换检测图片中的直线和曲线》,Commun。ACM,第15页,第204-208页(1972年)
[31] Kittler,J.,概率松弛和Hough变换,模式识别,33705-714(2000)
[32] 巴拉德·D·H。;Brown,C.M.,《计算机视觉》(1982),新泽西州普伦蒂斯·霍尔:普伦蒂斯霍尔·恩格尔伍德克利夫斯
[33] 伊林沃思,J。;基特勒,J.,霍夫变换调查,计算机。视觉图形图像处理。,44, 87-116 (1988)
[34] 王浩,王文伟,杨建阳,余永生,大数据集模式相似性聚类,载《ACM SIGMOD会议论文集》,2002年,第394-405页。;王浩、王文伟、杨建阳、余永生,大数据集模式相似性聚类,载《ACM SIGMOD会议论文集》,2002年,第394-405页。
[35] Goldenshluger,A。;Zeevi,A.,《霍夫变换估计器》,Ann.Stat.,321908-1932(2004)·Zbl 1056.62030号
[36] Theis,F.J。;Georgiev,P。;Cichocki,A.,基于广义Hough变换的稳健稀疏分量分析,EURASIP J.高级信号处理。,52105 (2007) ·Zbl 1168.94447号
[37] Ballard,D.H.,将霍夫变换推广到检测任意形状,模式识别,13111-122(1981)·Zbl 0454.68112号
[38] 罗森菲尔德,A。;Hummel,R。;Zucker,S.,《通过松弛操作进行场景标记》,IEEE Trans。系统。人类网络。SMC,6420-433(1976)·Zbl 0335.68070号
[39] Kittler,J。;Illingworh,J.,松弛标记算法综述,图像视觉计算。,3, 158-189 (1985)
[40] Fu,A.M.N。;严浩,基于概率空间划分的概率松弛新方法,模式识别,1905-1917(1997),30
[41] Lam,B.S.Y。;Yan,H.,DNA微阵列数据聚类的基于亚维的相似性度量,Phys。E版,74041096(2006)
[42] Wang,H。;Hancock,E.R.,使用Fokker-Planck方程的概率松弛标记,模式识别,41,3393-3411(2008)·Zbl 1154.68504号
[43] Cho,R.J。;坎贝尔,M.J。;Winzeler,E.A。;斯坦梅茨,L。;Conway,A。;沃迪卡,L。;沃尔夫斯堡,T.G。;Gabrielian,A.E。;Landsman,D。;洛克哈特,D.J。;Davis,R.W.,有丝分裂细胞周期的全基因组转录分析,分子细胞,2,65-73(1998)
[44] 阿龙,美国。;北巴尔凯。;诺特曼,D.A。;Gish,K。;伊巴拉,S。;麦克,D。;Levine,A.J.,通过寡核苷酸阵列探测肿瘤和正常结肠组织的聚类分析揭示的广泛基因表达模式,Prob。国家。阿卡德。科学。,96, 6745-6750 (1999)
[45] Pan,W.,《在重复微阵列实验中发现差异表达基因的统计方法的比较综述》,生物信息学,12546-554(2002)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。