×

基于轮廓隐马尔可夫模型的选择性训练发现短线性蛋白质基序。 (英语) Zbl 1341.92055号

摘要:蛋白质中的短线性基序(SLiM)是蛋白质无序区域中相对保守的序列模式,通常长度为3–10个氨基酸。它们在介导蛋白质相互作用中发挥重要作用。通过计算方法发现SLiM已经引起了越来越多的关注,其中大多数是基于正则表达式和配置文件的。在本文中从头开始基于轮廓隐马尔可夫模型(HMM)提出了基序发现方法,该方法不仅可以提供SLiM定义位置氨基酸的发射概率,还可以对未定义位置进行建模。我们采用有序区域掩蔽和相对局部守恒(RLC)掩蔽来提高查询序列的信噪比,同时应用进化加权,通过轮廓HMM的选择性训练使进化过程中的重要序列得到更多关注。实验结果表明,我们的方法和基于轮廓的方法在SLiM数据集中返回了不同的子集,并且在更真实的发现数据集上,这两种方法的性能相当。基于HMM的模式发现方法补充了现有的方法,为SLiM分析提供了另一种方法。

MSC公司:

92D20型 蛋白质序列,DNA序列
60J22型 马尔可夫链中的计算方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Altschul,S.F。;Gish,W。;Miller,W。;Myers,E.W。;Lipman,D.J.,基本局部对齐搜索工具,J.Mol.Biol。,215, 3, 403-410 (1990)
[2] 安德列娃,A。;霍沃思,D。;Brenner,S.E。;哈伯德·T·J。;乔提亚,C。;Murzin,A.G.,2004年完善的Scop数据库整合了结构和序列家族数据,《核酸研究》,32,Suppl 1,D226-D229(2004)
[3] 阿尔斯兰,L.M。;Hansen,J.H.,隐马尔可夫模型的选择性训练及其在语音分类中的应用,IEEE Trans。语音音频处理。,7, 1, 46-54 (1999)
[4] Bailey,T.L.,发现序列基序,分子生物学方法。,395, 271-292 (2007)
[5] Bailey,T.L。;Elkan,C.,通过期望最大化拟合混合物模型以发现二聚物中的基序,Intell。系统。分子生物学。,2, 28-36 (1994)
[6] Bailey,T.L。;Elkan,C.,先验知识在发现MEME主题中的价值,Intell。系统。分子生物学。,3, 21-29 (1995)
[7] 贝利,T.L。;Elkan,C.,《使用期望最大化对生物聚合物中的多个基序进行无监督学习》,马赫。学习。,21, 1-2, 51-80 (1995)
[8] Bailey,T.L。;博登,M。;巴斯克,F.A。;弗里斯,M。;格兰特,C.E。;克莱门蒂,L。;Ren,J。;Li,W.W。;Noble,W.S.,MEME suitetools for motif discovery and searching,《核酸研究》,37,Suppl 2,W202-W208(2009)
[9] Bishop,C.M.,模式识别和机器学习,第1卷(2006),Springer:Springer纽约·Zbl 1107.68072号
[10] 戴维,N.E。;直流屏蔽。;Edwards,R.J.,Slimdiscshort,线性基序发现,纠正常见进化谱系,核酸研究,34,123546-3554(2006)
[11] 戴维,N.E。;爱德华兹·R·J。;Shields,D.C.,《蛋白质中的纤细服务器短线性基序发现》,《核酸研究》,35,Suppl 2,W455-W459(2007)
[12] 戴维,N.E。;直流屏蔽。;Edwards,R.J.,使用上下文特定进化保护的掩蔽残基显著改进了短线性基序发现,生物信息学,25,4,443-450(2009)
[13] 戴维,N.E。;爱德华兹·R·J。;Shields,D.C.,蛋白质短线基序的计算识别和分析,Front。生物科学。,15, 801-825 (2010)
[14] 戴维,N.E。;Van Roey,K。;Weatheritt,R.J。;脚趾,G。;乌亚尔,B。;Altenberg,B。;巴德,A。;Diella,F。;丁克尔,H。;Gibson,T.J.,短线基序的属性,分子生物学。,8, 1, 268-281 (2012)
[15] Diella,F。;哈斯拉姆,N。;奇卡,C。;巴德,A。;迈克尔·S。;Brown,N.P。;特雷夫,G。;Gibson,T.J.,《理解真核生物线性基序及其在细胞信号和调节中的作用》,Front。生物科学。,13, 6580-6603 (2008)
[16] 丁克尔,H。;迈克尔·S。;Weatheritt,R.J。;戴维,N.E。;Van Roey,K。;Altenberg,B。;脚趾,G。;乌亚尔,B。;塞勒,M。;巴德,A。;Joedicke,L。;Dammert,医学硕士。;施罗德,C。;锤子,M。;施密特,T。;Jehl,P。;McGuigan,C。;Dymecka,M。;Chica,C。;幸运,K。;Via,A。;Chatr-Aryamontri,A。;哈斯拉姆,N。;格雷布涅夫,G。;爱德华兹·R·J。;M.O.斯坦梅茨。;Meiselbach,H。;Diella,F。;Gibson,T.J.,真核生物线性基序资源elm10年和计数,核酸研究,42,D1,D259-D266(2014)
[17] 佐治亚州多斯坦伊。;Csizmok,V。;汤帕,P。;Simon,I.,IUPredweb服务器,用于基于估计的能量含量预测蛋白质的固有非结构化区域,生物信息学,21,1633433-3434(2005)
[18] Eddy,S.R.,剖面隐马尔可夫模型,生物信息学,14,9,755-763(1998)
[19] Eddy,S.R。;米奇逊,G。;Durbin,R.,序列一致性的最大判别隐马尔可夫模型,J.Compute。生物学,2,1,9-23(1995)
[20] Edgar,R.C.,《高精度和高通量肌肉多序列比对》,《核酸研究》,32,5,1792-1797(2004)
[21] 爱德华,R.J。;戴维,N.E。;Shields,D.C.,用于识别蛋白质中过度代表、聚合进化、短线性基序的SlimFindera概率方法,PloS One,2,10,e967(2007)
[22] 爱德华兹·R·J。;戴维,N.E。;Shields,D.C.,CompariMotifquick and easy comparions of sequence motifs,生物信息学,24,10,1307-1309(2008)
[23] R·D·芬恩。;贝特曼,A。;克莱门茨,J。;科吉尔,P。;Eberhardt,R.Y。;Eddy,S.R。;Heger,A。;Hetherington,K。;霍尔姆,L。;Mistry,J。;Sonnhammer,E.L.L。;Tate,J。;Punta,M.,《pfam蛋白质家族数据库》,《核酸研究》,第32卷,第1辑,D138-D141(2004)
[24] R·D·芬恩。;克莱门茨,J。;Eddy,S.R.,HMMER网络服务器交互式序列相似性搜索,《核酸研究》,39,Suppl 2,W29-W37(2011)
[26] Foo,S.W。;连,Y。;Dong,L.,使用自适应增强隐马尔可夫模型识别视觉语音元素,IEEE Trans。电路系统。视频技术。,14, 5, 693-705 (2004)
[27] Forney,G.D.,维特比算法,Proc。IEEE,61,3,268-278(1973)
[28] Fuxreiter,M。;汤帕,P。;Simon,I.,局部结构紊乱赋予线性基序可塑性,生物信息学,23,8,950-956(2007)
[29] 加拉塔,A。;约翰逊,N。;Hogg,D.,学习可变长度马尔可夫行为模型,计算。视觉。图像下划线。,81,3398-413(2001年)·Zbl 1011.68551号
[30] Gopalakrishnan,P。;Kanevsky,D。;Nadas,A。;Nahamoo,D.,有理函数不等式及其在一些统计估计问题中的应用,IEEE Trans。Inf.理论,37,1,107-113(1991)·兹比尔0713.62026
[31] 古普塔,S。;Stamatoyannopoulos,J.A。;Bailey,T.L。;Noble,W.S.,量化模体之间的相似性,基因组生物学。,8、2、R24(2007)
[32] 新泽西州哈斯拉姆。;Shields,D.C.,基于轮廓的短线性蛋白基序发现,BMC生物信息。,2014年1月13日(2012年)
[33] 胡,J。;李,B。;Kihara,D.,当前模体发现算法的局限性和潜力,核酸研究,33,15,4899-4913(2005)
[34] Larkin,医学硕士。;Blackshields,G。;Brown,N.P。;Chenna,R。;McGettigan,P.A。;McWilliam,H。;瓦伦丁,F。;I.M.华莱士。;Wilm,A。;洛佩兹,R。;汤普森,J.D。;Gibson,T.J。;希金斯,D.G.,Clustal W和Clustal X 2.0版,生物信息学,23,21,2947-2948(2007)
[35] 劳伦斯,C.E。;Reilly,A.A.,《识别和表征未对齐生物聚合物序列中常见位点的期望最大化(EM)算法》,《蛋白质:结构》。功能。生物信息。,7, 1, 41-51 (1990)
[36] Letunic,I。;多克斯,T。;Bork,P.,Smart 7蛋白质域注释资源的最新更新,核酸研究,40,D1,D302-D305(2012)
[37] 林,T.-h。;墨菲,R.F。;Bar-Joseph,Z.,预测蛋白质亚细胞定位的鉴别基序发现,IEEE/ACM Trans。计算。生物信息学。,8, 2, 441-451 (2011)
[38] Marchler-Bauer,A。;卢,S。;安德森,J.B。;Chitsaz,F。;德比郡,M.K。;DeWeese-Scott,C。;Fong,J.H。;Geer,L.Y。;吉尔·R.C。;冈萨雷斯,N.R。;瓜兹,M。;D.I.Hurwitz。;J.D.杰克逊。;Ke,Z。;Lanczycki,C.J。;卢·F。;Marchler,G.H。;穆洛坎多夫,M。;Omelchenko,M.V。;Robertson,C.L。;Song,J.S。;Thanki,N。;Yamashita,R.A。;张,D。;张,N。;郑,C。;Bryant,S.H.,蛋白质功能注释的CDDa保守域数据库,核酸研究,39,Suppl 1,D225-D229(2011)
[39] 梅耶,C。;Schramm,H.,在大词汇量语音识别中增强HMM声学模型,语音通信。,48, 5, 532-548 (2006)
[40] 内杜瓦,V。;Russell,R.B.,DILIMOT发现蛋白质中的线性基序,核酸研究,34,Suppl 2,W350-W355(2006)
[41] 内杜瓦,V。;林丁,R。;Su-Angrand,I。;斯塔克,A。;德马西,F。;Gibson,T.J。;刘易斯,J。;塞拉诺,L。;Russell,R.B.,《新识别肽介导蛋白质相互作用网络的系统发现》,《公共科学图书馆·生物学》。,3、12、e405(2005)
[42] Nguyen Ba,A.N。;Yeh,B.J。;van Dyk,D。;Davidson,A.R。;Andrews,B.J。;Weiss,E.L。;Moses,A.M.,《无序区域进化保守序列的全蛋白质组发现》,《科学》。信号。,5215,rs1(2012)
[43] Prasad,T.K。;Goel,R。;Kandasamy,K。;Keerthikumar,S。;库马尔,S。;Mathivanan,S。;Telikicherla,D。;Raju,R。;Shafreen,B。;Venugopal,A.,《2009年人类蛋白质参考数据库更新》,《核酸研究》,37,Suppl 1,D767-D772(2009)
[44] Rabiner,L.,语音识别中隐藏马尔可夫模型和选定应用的教程,Proc。IEEE,77,2,257-286(1989)
[45] 里古索斯,I。;Floratos,A.,《生物序列中的组合模式发现——TEIRESIAS算法》,生物信息学,14,1,55-67(1998)
[46] 里瓦斯,E。;Eddy,S.R.,插入和删除的概率系统发育推断,公共科学图书馆计算。生物学,4,9,e100172(2008)
[47] 罗素·R·B。;Gibson,T.J.,《蛋白质组相互作用中的一种小心的紊乱以及未来治疗的靶点》,FEBS Lett。,582, 8, 1271-1275 (2008)
[48] Schuster-Böckler,B。;舒尔茨,J。;Rahmann,S.,蛋白质家族可视化HMM徽标,BMC Bioninform。,5, 1 (2004)
[49] 西佩尔,A。;Bejerano,G。;佩德森,J。;Hinrichs,A。;侯,M。;罗森布鲁姆,K。;Clawson,H。;斯皮斯,J。;希利尔,L。;理查兹,S。;温斯托克,G。;威尔逊,R。;吉布斯,R。;Kent,W。;Miller,W。;Haussler,D.,脊椎动物、昆虫、蠕虫和酵母基因组中的进化保守元素,基因组研究,15,8,1034-1050(2005)
[50] Sillitoe,I。;袖口,A.L。;绝望地,B.H。;道森,N.L。;北弗纳姆。;Lee,D。;Lees,J.G。;Lewis,T.E。;Studer,R.A。;Rentzsch,R。;叶芝,C。;桑顿,J.M。;Orengo,C.A.,CATH中新的功能家族FunFams,以改进保守(功能)位点到3D结构的映射,核酸研究,41,D1,D490-D498(2013)
[51] 田中,E。;Bailey,T.L。;Keich,U.,《通过双层显著性分析改进MEME》,生物信息学,30,141965-1973(2014)
[52] 汤帕,M。;李,N。;Bailey,T。;Church,G。;De Moor,B。;Eskin,E。;法沃罗夫,A。;弗里斯,M。;Fu,Y。;Kent,W。;马克耶夫,V。;米罗诺夫,A。;诺布尔,W。;巴韦西,G。;Pesole,G。;Regnier,M。;北卡罗来纳州西蒙尼斯。;辛哈,S。;Thijs,G。;van Helden,J。;范登博加特,M。;翁,Z。;沃克曼,C。;Ye,C。;Zhu,Z.,评估用于发现转录因子结合位点的计算工具,国家生物技术。,23, 1, 137-144 (2005)
[53] Viterbi,A.,卷积码的误差界和渐近最优解码算法,IEEE Tran。Inf.理论,13,2,260-269(1967)·Zbl 0148.40501号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。