×

筛选退化模式并应用于蛋白质序列分析。 (英语) Zbl 1461.92072号

摘要:在生物学中,退化模式的概念在描述各种现象方面起着核心作用。例如,蛋白质活性位点模式,如PROSITE数据库中包含的模式,例如,\([FY]DPC[LIM][ASG]C[ASG]\),通常由带有字符类的退化模式表示。多年来,研究人员开发了几种方法来发现退化模式。尽管这些方法已经在基因组和蛋白质上进行了详尽和成功的测试,但其结果往往远远超过原始输入的大小,使得输出难以管理,并且难以通过需要手动检查的精细分析进行解释。在本文中,我们讨论了具有特征类且没有间隙的退化模式的特征,并且引入了模式优先级用于比较和排序不同的模式。我们定义了基本模式用于将任何退化模式集过滤为输入序列大小线性的新集。我们提出了一些检测蛋白质家族中细微信号的初步结果。结果表明,我们的方法大大减少了蛋白质分析工具输出的模式数,同时保留了具有代表性的模式。

MSC公司:

92D20型 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] 北卡罗来纳州胡洛市。;Bairoch,A。;布利亚德,V。;Cerutti,L。;Cuche,B。;德卡斯特罗,E。;拉查兹,C。;Langendijk-Genevaux,P。;西格里斯特,C。;PROSITE成立20年;核酸研究:2008;第36卷,D245-D249。
[2] 帕里达;生物信息学中的模式发现:理论和算法:博卡拉顿,佛罗里达州,美国2007年·Zbl 1302.92006年
[3] Jensen,K.L。;Styczynski,医学博士。;里戈索斯,I。;Stephanopulos,G.N。;一种通用的序列数据模体发现算法;生物信息学:2006;第22卷,第21-28页。
[4] 亚伯拉罕森,K。;广义字符串匹配;SIAM J.计算:1987; 第16卷,1039-1051·Zbl 0646.68079号
[5] 纳瓦罗,G。;拉夫诺特,M。;快速简单的字符类和有界间隙模式匹配,并应用于蛋白质搜索;J.计算。生物学:2003年;第10卷,903-923。
[6] 弗雷德里克森,K。;Grabowski,S。;具有一般间隙、字符类和转置不变性的高效模式匹配算法;信息检索:2008; 第11卷,335-357。
[7] Wu,S。;美国曼伯。;快速文本搜索:允许错误;Commun公司。ACM:1992年;第35卷,83-91。
[8] 索尔达诺,H。;维亚里,A。;Champesme,M。;利用非传递相似关系搜索柔性重复模式;模式识别。信函:1995; 第16卷,233-246。
[9] 北卡罗来纳州皮桑蒂。;索尔达诺,H。;卡彭蒂埃,M。;基于退化字母表的关系基序增量推理;莱克特。注释计算。科学:2005; 第3537、229-240卷·Zbl 1131.68496号
[10] 弗里斯,M.C。;桑德斯,N.F.W。;科比,B。;Bailey,T.L。;发现任意插入和删除的序列基序;公共科学图书馆计算。生物学:2008;第4卷。
[11] 辛哈,S。;汤帕,M。;通过统计超表达发现新的转录因子结合位点;核酸研究:2002;第30卷,5549-5560。
[12] Apostolico,A。;科明,M。;帕里达,L。;VARUN:发现饱和约束下的可扩展模体;IEEE/ACM传输。计算。生物信息:2010; 第7卷,752-762。
[13] 北卡罗来纳州皮桑蒂。;克罗西莫尔,M。;格罗西,R。;萨戈,M.F。;用通配符生成重复图案的基序;IEEE/ACM传输。计算。生物信息:2005; 第二卷,40-50页。
[14] Apostolico,A。;科明,M。;帕里达,L。;通过模体模式发现桥接有损压缩和无损压缩;莱克特。注释计算。科学:2006; 第4123卷,第793-813页·兹比尔1158.68389
[15] Apostolico,A。;科明,M。;帕里达,L。;《Ziv-Lempel-Welch Clef》中的主题;IEEE DCC数据压缩会议论文集:,72-81.
[16] Apostolico,A。;科明,M。;帕里达,L。;具有可扩展基元的挖掘、压缩和分类;算法分子生物学:2006; 第1卷·Zbl 1158.68389号
[17] 科明,M。;Verzotto,D。;蛋白质序列远程同源性检测的不冗余类方法;J.计算。生物:2011年;第18卷,1819-1829年。
[18] 科明,M。;Verzotto,D。;基于无冗余模式的蛋白质序列分类;BMC生物信息:2010; 第11卷·Zbl 1461.92072号
[19] 科明,M。;Verzotto,D。;使用底层子词的全基因组无对齐系统发育研究;BMC算法分子生物学:2012; 第7卷。
[20] 科明,M。;帕里达,L。;作为共识主题的细微变化检测;理论计算。科学:2008; 第395卷,158-170页·Zbl 1142.68063号
[21] 科明,M。;帕里达,L。;用于检测Dna调控位点的细微基序发现;第五届亚太生物信息学会议论文集,APBC:;第5卷,第27-36页。
[22] Jensen,K.L。;Styczynski,医学博士。;里戈索斯,I。;Stephanopulos,G.N。;一种通用的序列数据模体发现算法;生物信息学:2006;第22卷,第21-28页。
[23] 莱斯利,C.S。;Eskin,E。;科恩,A。;韦斯顿,J。;诺布尔,W.S。;错配字符串核在蛋白质分类中的应用;生物信息学:2004;第20卷,467-476。
[24] Di Ingegneria Dell'Informazione。
[25] Apostolico,A。;科明,M。;帕里达,L。;过度表示可扩展基序的保守提取;生物信息学:2005;第21卷,第9-18页。
[26] 门德斯,N.D。;卡西米罗。;桑托斯,P.M。;萨科雷亚,I。;奥利维拉,A.L。;弗里塔斯,A.T。;MUSA:一种识别生物重要基序的无参数算法;生物信息学:2006;第22卷,2996-3002。
[27] Peng,C.H。;Hsu,J.T。;Chung,Y.S。;林毅杰。;周,W.Y。;Hsu,D.F。;唐,C.Y。;基于位置限制选择和杂交排序组合的退化基序识别;核酸研究:2006;第34卷,6379-6391。
[28] 维什内夫斯基,O.V。;北卡罗来纳州科尔恰诺夫。;ARGO:一个用于检测简并基序和大规模识别真核启动子的网络系统;核酸研究:2005;第33卷,W417-W422。
[29] 查克拉瓦蒂,A。;卡尔森,J.M。;Khetani,R.S。;德齐尔,C.E。;格罗斯,R.H。;间隔物:识别具有非接触临界残基的顺式调节元素;生物信息学:2007年;第23卷,1029-1031。
[30] Wu,R。;Chaivorapol,C。;郑洁。;李,H。;Liang,S。;fREDUCE:利用与表达的相关性检测退化调节元件;BMC生物信息:2007年;第8卷。
[31] 王,G。;Yu,T。;张伟。;WordSpy:通过建立字典和学习语法来识别转录因子结合基序;核酸研究:2005;第33卷,W412-W416。
[32] 尤科宁,E。;字符串有间隙和无间隙基序的最大和最小表示;理论。计算。科学:2009; 第410卷,4341-4349·Zbl 1187.68187号
[33] Romer,K。;Kayombya,G.R。;Fraenkel,E。;WebMOTIFS:使用多个程序和贝叶斯方法自动发现、筛选和评分DNA序列模体;核酸研究:2007;第35卷,W217-W220。
[34] 张,S。;苏,W。;杨,J。;ARCS-Motif:从未对齐的生物序列中发现相关的基序;生物信息学:2009;第25卷,183-189。
[35] 科特尼,M。;Parthasarathy,S。;MotifMiner:有效识别分子中常见子结构的通用工具包;第三届IEEE BIBE会议记录:,336-340.
[36] Wijaya,E。;Yiu,S.M。;儿子,N.T。;卡纳加萨拜,R。;Sung,W.K。;MotifVoter:一种新的集成方法,用于细粒度集成通用基序搜索器;生物信息学:2008;第24卷,2288-2295。
[37] 汤帕,M。;李,N。;Bailey,T.L。;Church,G.M。;Church,G.M。;摩尔,不列颠哥伦比亚省。;Eskin,E。;Favorov,A.V.公司。;弗里斯,M.C。;Fu,Y。;W.J.肯特。;评估用于发现转录因子结合位点的计算工具;自然生物技术:2005; 第23卷,137-144。
[38] 爱德华兹,R.J。;新泽西州戴维。;直流屏蔽。;CompariMotif:快速简便地比较序列基序;生物信息学:2008年;第24卷,1307-1309。
[39] 姜浩。;Zhao,Y。;Chen,W。;郑伟。;基于紧后缀树的最大退化基元搜索;计算生物学进展:柏林/海德堡,德国2010;第680卷,19-26页。
[40] Edelman,G.M。;加利,J.A。;生物系统的退化性和复杂性;程序。国家。阿卡德。科学。美国:2001年;第98卷,13763-13768。
[41] Shinozaki,D。;Akutsu,T。;O.丸山。;寻找DNA序列中的最优退化模式;生物信息学:2003;第19卷,206-214。
[42] Bailey,T.L。;威廉姆斯,N。;Misleh,C。;李,W.W。;MEME:发现和分析DNA和蛋白质序列基序;核酸研究:2006;第34卷,369-373。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。