跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
BMC生物信息学。2004; 5: 187.
2004年11月30日在线发布。 数字对象标识:10.1186/1471-2105-5-187
PMCID公司:项目编号:543579
PMID:15571632

prot4EST:从被忽视的基因组翻译表达序列标签

摘要

背景

越来越多物种的基因组正在通过产生表达序列标签(EST)进行研究。然而,EST容易出现测序错误,并且通常定义不完整的转录本,这使得下游注释很困难。使用健壮的多肽翻译将大大改进注释。目前许多EST翻译解决方案都需要大量的全长基因序列用于训练目的,这是大多数EST项目无法获得的资源。

结果

作为我们正在进行的研究这些“被忽视”基因组的EST项目的一部分,我们开发了一种多肽预测管道prot4EST。它结合了免费可用的软件,以生成比任何单一方法得出的译文更准确的最终译文。我们表明,这种综合方法对克服培训数据的不足大有帮助。

结论

prot4EST提供了一种便携式EST翻译解决方案,可有效应用于95%以上的EST项目,以改进下游注释。可从以下地址免费获得http://www.nemoodes.org/PartiGene网站.

背景

需要更多顺序

完整的基因组测序是一项重大投资,不太可能应用于绝大多数生物,无论它们在进化、健康或生态方面的重要性如何。只有少数真核生物基因组有完整的基因组序列,其中大多数是模式生物。真核生物基因组测序的重点一直是已知多样性的有限子集,例如,近一半的完整或草稿阶段基因组来自脊椎动物。虽然节肢动物门和线虫门各有两个完整的基因组,但与预测的多样性(每个物种超过100万种)相比,其他十几个正在进行中,目前的基因组测序只揭示了这些门的一小部分。序列数据和生物学研究动机之间的差异是显著的。与这种基因组序列偏差相关的是衍生蛋白质组的功能注释偏差:由于生物医学研究的重点是人类和密切相关的模型物种(如小鼠),脊椎动物基因更有可能被赋予功能[1].

通过表达序列标签(EST)或基因组调查序列(GSS)对额外基因组进行鸟枪取样测序已被证明是一种经济高效且快速的方法,可用于识别目标生物体的大部分基因。因此,许多非传统模式生物的基因组计划都利用EST和GSS策略来深入了解“野生”生物。EST策略不会产生生物体所有表达基因的序列,因为有些基因可能在采样条件下不表达,而其他基因可能在很低的水平上表达,并通过该策略下的随机采样而缺失。然而,从不同的发育阶段或环境暴露等一系列条件创建EST文库,促进了对这些物种生物学的更深入研究。

有充分记录的系统发育序列缺陷[2]导致我们创造了一个术语“被忽视的基因组”。目前,许多研究小组正在对所选物种的EST进行测序,以便在比较生态毒理学的广泛学科中进行研究[]序列多态性的高通量检测[4,5]。EST项目对被忽视但与生物相关的生物体的贡献如图所示图1。1。与所有序列数据一样,获取高质量注释需要事先信息,并且需要大量劳动力。来自EST数据集的“部分基因组”信息为注释带来了特殊问题,我们正在开发用于此任务的工具。

保存图片、插图等的外部文件。对象名称为1471-2105-5-187-1.jpg

EST项目的培训设置赤字。大约85%的物种在dbEST中有代表性(>100个EST),EMBL数据库中的完整CDS条目少于100个。这些物种占所有ESTs的约45%。66个物种(246263个dbEST序列)没有全长CDS。资料来源:dbEST和EMBL数据库(2004年7月)。

需要高质量的翻译

PartiGene软件套件[6]简化了部分基因组的分析。EST分为假定的基因和确定的共识。所有数据都存储在关系数据库中,便于搜索。虽然可以根据核苷酸序列的BLAST分析进行初步注释,但需要更稳健的方法才能进行高质量的分析。EST的易出错特性使大多数注释工具的应用变得困难。为了改进注释并促进进一步开发,关键的一步是对EST或共识进行稳健翻译以生成预测的多肽。多肽序列为几乎所有注释提供了更好的模板,包括InterPro[7]和Pfam[8],以及构建更准确的多序列比对,以及创建用于蛋白质组学开发的蛋白质质量指纹库。高质量的多肽预测可以应用于功能注释和基因组后研究,其方法与用于完整基因组的方法类似。

转换表达序列标记

从EST中预测正确的多肽并不容易:

1.EST序列固有的低质量可能导致阅读框移位(缺失或插入碱基)或碱基模糊。这些错误妨碍了编码区域的正确识别。起始位点可能丢失,或在假定翻译中引入错误的终止密码子。

2.EST通常是mRNA的部分片段,由于大多数克隆技术偏向于基因的内部部分,因此可能会遗漏起始蛋氨酸密码子。这对一些从头开始使用起始蛋氨酸识别编码区的程序(如下所述)。

通过基于身份对序列进行聚类,可以提高序列质量。对于每个集群,可以确定共识[9]。然而,这种方法并不能解决整个问题,因为低质量的EST序列可能无法产生高质量的共识,而对于小批量项目,大多数基因只有一个EST代表。因此,必须应用其他方法来提供准确的多肽预测。

基于相似性的方法

确定正确编码多肽的可靠方法是将核苷酸序列映射到已知蛋白质上。这一概念是BLASTX的基础[10]、FASTX[11]和ProtEST[12]。BLASTX和FASTX使用核苷酸序列的六帧翻译来搜索蛋白质数据库。为每个重要命中生成的对齐提供了一个准确翻译的EST区域。BLASTX速度极快,但移码的出现终止了每个个体的局部排列,提前终止了多肽。FASTX能够识别可能的帧移位,但其动态编程方法明显慢于BLASTX。这些方法要求核苷酸序列与所选数据库中的蛋白质具有可检测的相似性。来自已被充分研究和忽视的基因组的许多基因与其他已知蛋白质没有可检测的相似性。例如,对秀丽隐杆线虫蛋白质组学显示,22000个预测中只有约50%包含Pfam标记的蛋白质结构域[8,13],40%与SwissProt/trEMBL数据库中的非线虫蛋白质没有显著相似性[14]。这一特征并非线虫门所独有,考虑到大多数蛋白质数据库的系统发育偏差,对于被忽视的基因组来说,这一特征可能更为极端。

ProtEST使用稍微不同的基于相似性的方法[12]。蛋白质序列与EST数据库进行比较。短语[9]用于根据发现的具有显著相似性的EST构建一致序列。然后使用ESTWISE将这些共识与原始序列进行比较(E.Birney,未发表[15])为可能的帧移位提供最大似然位置。该系统是准确的,但不容易适应处理大量无害环境技术时所需的高通量方法。更重要的是,与已知蛋白质没有显著相似性的EST不会被翻译。

“从头开始”预测

为了克服对序列相似性的依赖,从头开始基于低质量序列中潜在编码区域的识别、编码区域在正确帧中的重建以及具有编码潜力的EST与非编码区域的EST之间的区分,已经开发出了一些方法[16-18].

戴安娜·埃斯特[16]结合了三个人工神经网络(ANN),开发用于识别具有潜在帧移位的转录起始位点和编码区域。EST扫描2[18]将三个经过训练的隐马尔可夫模型组合在一起,使其在表达mRNA结构时具有容错性(建模5'和3'非翻译区域、起始蛋氨酸和编码区域)。解码器[17]使用基本上基于规则的方法来识别核苷酸序列中可能的插入和删除,以及最可能的起始位点,并开发用于完整cDNA序列翻译。

每种方法在识别精确编码区域的尝试中都有不同的优势;所有这些都需要事先的数据来训练模型。已发表的对其效用的描述基于人类全长编码序列(mRNAs)的训练,因此使用了数万个训练序列(数百万个编码核苷酸)来获得最佳结果。如上所述,绝大多数EST项目物种都无法获得这一数量的前期数据(图(图11).

新解决方案–prot4EST

在本项目之前,可通过NEMBASE获得线虫EST[19]已使用DECODER进行翻译,因为初步研究表明其优于其他可用方法(DIANA-EST和ESTScan1[20])(Parkinson pers.com)。在40000个预测的多肽中,有7388个可能翻译不良(<30个氨基酸),我们怀疑还有更多的多肽含有错误。这促使我们使用多种方法创建解决方案,以提高多肽预测的质量,利用它们的优势,同时认识到它们的缺点。prot4EST是一个用Perl编写的EST翻译管道,它有一个用户友好的界面,将其中一些描述的方法链接在一起。它为用户从联机数据库中检索和格式化文件。它被设计为用作独立工具,或作为PartiGene过程的一个组成部分[6].

实施

解码器

DECODER程序[17]被开发用于定义全长cDNA序列中的起始密码子和开放阅读框。它利用打球软件生成的序列的质量分数,例如phred[21,22],以及用于识别所有可能的编码区域的附加的基于文本的信息。在序列质量较低的区域,最多删除或插入2个核苷酸,表示可能的帧移位。计算每个可能的编码序列(CDS)的似然分数,并选择得分最低的一个作为正确的CDS。分数是根据生成具有更好Kozak一致性的随机序列(围绕真核生物mRNA起始密码子的核苷酸序列)、ATG位置和密码子用法的概率计算得出的。DECODER需要一个密码子偏差表,该表用于确定假定的编码区域最佳密码子使用情况。惩罚条款限制了更正CDS中插入/删除的次数。

ESTScan2.0软件

隐马尔可夫模型(HMM)可以以概率的方式表示已知的序列组成[23]。这一点最近被应用于寻找基因组序列中的基因[24,25],预测蛋白质序列中的结构域组成[26],并对齐多个序列[27]。ESTScan扫描[18]通过组合三个模型,利用隐马尔可夫模型的预测能力:

1.mRNA结构建模:ESTScan将可能的CDS与非翻译区(UTRs)分离。编码序列的核心由一个三周期非均匀隐马尔可夫模型表示。这个核心模型的侧面是在这些位置观察到的密码子的启动和停止剖面。未翻译区域的轮廓位于启动和停止状态的侧面。

2.容错:ESTScan允许在EST序列中插入和删除(indels)。例如,如果特定核苷酸更有可能是插入事件的结果,则从“校正”序列中省略。相反,如果HMM概率分数表明核苷酸已被删除,则模型会在“校正”序列中插入一个X来表示该预测。

3.EST结构:ESTScan认识到EST可能由5'UTR、CDS和3'UTR的组合组成。

ESTScan的隐马尔可夫模型使用EMBL或RefSeq数据库中的完整CDS条目进行训练。发行版中包含的脚本解析数据文件,提取必要的序列信息以生成模型文件。此时考虑的主要问题是冗余。如果训练数据在内部是冗余的,那么生成的模型只能在发现已知内容方面完全成功,并且在检测新转录本方面的能力会降低。默认参数用于ESTScan构建HMM和预测多肽。

HSP平铺

BLASTX计划[10]允许根据蛋白质数据库搜索核苷酸序列。核苷酸查询在所有六个帧中进行翻译,这些帧用作BLASTP搜索的查询序列。高得分片段对(HSP)被确定为最大化从氨基酸相似性矩阵中获得的位得分。如果核苷酸序列中出现单个indel,导致帧移位,则HSP要么终止于该位置,要么继续超出帧。在这个移码的下游,查询序列可能足够长,从而导致同一蛋白质序列的另一个重要HSP,这一次是在不同的帧中。简单提取最佳BLAST HSP将错过这些特征。prot4EST实现了一种基于规则的方法,该方法考虑所有HSP与数据库序列的匹配,并考虑是否可以识别帧移位。当识别出移码时,HSP被连接。在两个HSP重叠的情况下,使用具有更好比特分数的序列。

prot4EST管道

prot4EST是一个在分层、基于规则的系统中使用免费软件的集成管道(图(图22).

第1层:核糖体RNA(rRNA)基因的鉴定

蛋白质数据库包含核糖体RNA基因和基因片段的(可能是虚假的)翻译,因此在进一步处理之前,识别并删除假定的rRNA衍生序列非常重要。对核糖体数据库II中获得的rRNA序列数据库进行BLASTN搜索(表(表1;1; [28]). 使用e-65的BLAST期望值截止值来识别匹配项。截止值是一个保守值,以减少假阳性的数量。那些有显著匹配的核苷酸序列被注释为rRNA基因,并且不再参与翻译过程。

表1

用于相似性搜索的数据库的描述。

来源 层级* 数据库 链接
核糖体核糖核酸1RBP二http://rdp.cme.msu.edu
线粒体蛋白质2美国国立生物技术信息中心ftp://ftp.ncbi.nih.gov/blast/db/
蛋白质序列瑞士保护银行/TrEMBLhttp://ca.expasy.org/sprot/

*数据库在prot4EST管道中使用的阶段(见图2)。

第2层和第3层:相似性搜索

第二阶段和第三阶段相似。首先对线粒体基因组编码的蛋白质进行BLASTX搜索。线粒体蛋白质数据库来自NCBI ftp站点(表(表1)。1). 任何有显著点击的序列(截止点e-8)都被注释为线粒体编码基因,用于剩余的过程,相关的线粒体遗传代码用于翻译。使用BLASTX和SwissProt数据库比较与线粒体蛋白质没有显著相似性的序列[14]。不产生显著相似性的序列被转移到流程的第4层。

对于那些与任一数据库中的蛋白质序列具有显著相似性的序列,构建了HSP tile路径。然后,prot4EST考虑是否可以在同一阅读框架的两端扩展初生翻译。

Tier 4:ESTScan预测

ESTScan用于识别编码区域的隐马尔可夫模型是使用包中提供的脚本从完整CDS的EMBL格式文件中构造的。预处理集成在prot4EST中,包括EMBL文件的下载。在每个假定的多肽被接受之前,对其应用一对长度阈值标准。开放阅读框的长度必须至少为30个密码子,并且至少覆盖输入序列的10%。满足这些标准的多肽经过上述扩展过程,不符合任何标准的序列被传递到下一层。对那些超过阈值的序列执行扩展过程。

第5层:解码器预测

DECODER程序用于预测CDS,从而预测剩余核苷酸序列的多肽翻译。对于每个序列,都需要一个短语格式的质量文件。当质量文件不可用时,将为每个序列生成质量值为15的文件。DECODER所需的密码子使用表可以由用户指定,也可以从密码子使用数据库CUTG下载[29]。默认情况下,DECODER只处理每个序列的前向序列,因此每个序列的反向补码通过DECODER进行处理。每个核苷酸序列生成两个假定的多肽。选择较长的多肽作为更可能的翻译。使用与ESTScan相同的长度阈值标准检查多肽预测(如上)。

第6层:最长ORF

最后一次尝试提供假定的多肽翻译确定了序列六帧翻译的终止密码子不间断的最长氨基酸串。如果此字符串中存在蛋氨酸,则将其标记为潜在起始位点。

输出

prot4EST的主要输出由FASTA格式的推定多肽组成,并由包含描述翻译序列的信息的文件补充。这些信息包括:

翻译相对于核苷酸序列的位置,用于翻译的遗传代码,

平铺路径中使用的HSP的位置和BLAST统计信息。

所有这些附加信息都存储在两个CSV格式的文件中,允许解析和简单地插入到数据库中。

速度

这在很大程度上取决于数据集的组成和大小。作为指导,使用Athlon 1400 Mhz处理器进行2316序列输入时,在基准测试(如下)中执行的每个prot4EST运行不到一个小时。BLASTX搜索单独执行,并用作prot4EST的输入(有关详细信息,请参阅程序网页上提供的用户指南)。

标杆科技英语翻译方法

我们对五种翻译方法进行了基准测试,以测试它们的相对性能。DECODER设计为只考虑核苷酸序列的前向链,因为它最初是为全长CDS设计的。当应用于EST时,必须对两条链进行分析,因为会生成5'和3'EST。因此,还分析了每个核苷酸共识的反向补体。DECODER_default(1)仅考虑来自前向链的预测,而DECODER_best(2)使用更准确的预测。ESTScan(3)考虑了核苷酸序列的两条链,并以默认设置作为独立进程运行。

测试了prot4EST中的两种组件布置。prot4EST_ed(4)在对任何剩余的未翻译序列使用DECODER之前实现ESTScan。相反,prot4EST_de(5)首先使用DECODER,然后使用ESTScan。prot4EST中的DECODER模块考虑查询序列的正向和反向链上的翻译。

1数据集

测试EST数据集进行翻译

我们随机选择了4000人秀丽隐杆线虫来自dbEST的EST[30]。为了减少冗余,使用CLOBB对EST进行集群[31]。短语[9]然后用于推导每个聚类的一致序列。这导致了2899个核苷酸序列。为了确保共识对应于编码区域,我们针对完整的秀丽线虫cDNA数据集可从Wormbase获得(版本117)[32]。发现2372项共识存在显著匹配。最后,该集合用于查询秀丽线虫蛋白质数据集(Wormpep版本117),从而将每个核苷酸序列与相应的参考多肽相关联。最终生成了2316个一致序列的测试集。

培训数据集

1:秀丽隐杆线虫

ESTScan和DECODER都需要预先的基因序列。这个秀丽线虫获得了RefSeq集合,包括21033个条目(2003年12月[33]). 一个Perl脚本构建了随机训练集,给出了10000到350000个不同的编码核苷酸总数。每个级别组装了四套。build_tables脚本(ESTScan包的一部分)用于筛选出序列[18].

我们使用相同的训练集来构建DECODER所需的密码子使用表。来自EMBOSS的CUSP[34]用于构建表,并编写了一个单独的Perl脚本来将输出转换为DECODER所需的输出。对于任何给定的prot4EST运行,使用的ESTScan HMM训练集和密码子使用表都是从相同的训练集派生的秀丽线虫cDNA。

2:原核生物基因组

获得了167个完整原核生物基因组的GenBank条目(2004年5月)。编写了一个Perl脚本来提取CDS条目,并为每个原核生物物种构建RefSeq类型的资源(可根据要求提供)。如果一个分类单元的基因组由一个以上的巨质粒组成,则将这些序列合并。CDS注释不适用于11个基因组。我们使用156个分类群的CDS集合来确定AT含量,构建隐马尔可夫模型和密码子使用表。

3:拟南芥

28960个完整的CDS条目拟南芥从RefSeq数据库获得[35].

4:螺形纲(线虫纲)

我们向GenBank查询了线虫目螺虫属物种的所有完整CDS条目。

BLAST数据库

SwissProt(版本42.7)和TrEMBL(版本25.7)[14]合并为SwissAll数据库。为了重现被忽视的基因组分析所面临的情况,从NEWT分类数据库中检索了线虫目Rhabditida物种的所有蛋白质的登录号[36]这些条目(约23000条)已从SwissAll中删除。

2数据收集和分析

预测多肽与“真实”多肽的比较

我们比较了根据秀丽线虫使用NCBI分布中的bl2seq将数据集测试到其同源参考蛋白。除了理论数据库大小(-d)(设置为130000,即SwissProt的大小)之外,使用了默认参数。使用BioPerl模块分析爆炸报告[37]。每个秀丽线虫参考蛋白序列也使用带有默认参数的bl2seq与自身进行比较。记录原始和钻头得分。

比较统计的计算

使用方程式1对原始和钻头得分进行长度归一化,并与理论最大值进行对比,其中:

BITlocal是预测多肽与其同源参考蛋白之间的局部比对的位分数,

BITmax是参考蛋白与其自身对齐的位分数,

WPlength是蠕虫蛋白的长度,是核苷酸共识翻译的参考,

EST长度是已翻译的核苷酸共识的长度。

保存图片、插图等的外部文件。对象名称为1471-2105-5-187-i1.gif

(方程式1)

结果和讨论

为了测量翻译的准确性,通过比较预测多肽和参考多肽得出了两个统计数据。这个新闻报道是与参考物一致的预测多肽的百分比。这个位分数表示路线成对得分的总和,根据用于计算这些得分的替换矩阵进行归一化。在本研究中,位评分本身进行了归一化,以补偿每次比较的EST长度和最大可能位评分(见方法,方程式1)。翻译的共识数量与其同源引用有显著匹配秀丽线虫每次跑步也记录蛋白质。

训练密码子数的影响

无论训练集中有多少个核苷酸,DECODER的两个变体都无法为超过一半的核苷酸序列生成稳健的翻译(图(图3)。). 正如预期的那样,在DECODER分析中包含反向补码提高了其性能。DECODER无法翻译50%以上的多肽可以追溯到其核心假设。使用的一个标准是确定最可能的起始蛋氨酸。虽然这几乎总是存在于全长cDNA中(它是为其设计的),但在EST合意中任何ATG密码子的出现都不太确定。我们注意到,DECODER将尝试任何ATG密码子来开始预测,即使这会产生长度为2个氨基酸的多肽。

保存图片、插图等的外部文件。对象名称为1471-2105-5-187-3.jpg

多肽预测方法在不同训练模式下的表现。将预测的多肽与其参考进行比较。使用每个训练集大小的四个独立重复。a) 具有显著BLASTP匹配的预测多肽肽与其参考蛋白的比例。b) 预测多肽覆盖的每个序列的平均比例。c) 每种预测多肽与其参考蛋白的平均相对位得分。b)和c)中的分数是每种方法翻译的序列的平均值。ESTScan在5000和10000个非冗余编码核苷酸上显示的高分是由于该方法在提供的2316个核苷酸中最多返回一个多肽。

训练核苷酸的数量对ESTScan性能的影响是显著的。对于大多数重复,在每个训练集大小下,与参考序列有显著匹配的预测分数约为75%,但翻译数显著低于250000个训练核苷酸。然而,对于10000个或更少的编码核苷酸,不会产生健壮的翻译。此外,当训练核苷酸在20000到50000个之间时,ESTScan的表现也存在差异。对这些训练集的检查表明,与较大的训练集相比,AT含量没有差异,但确实表明可能涉及密码子使用偏差的波动。表现较差的复制品包含平均长度较短的序列,密码子偏差位于分布的极值(未显示)。序列组成的这种变化显然会影响ESTScan使用的HMM的填充概率。我们怀疑,当由150000到200000个编码核苷酸的数据集训练时,ESTScan预测健壮翻译的能力被夸大了,这是由于从完整的秀丽线虫转录组。在真实情况下,当公共数据库中只有少量全长CDS时,大量CDS将来自具有非典型密码子偏见和结构的高表达基因。这种偏差在成员少于200个(150000-200000个编码核苷酸)的实际CDS集合中会很明显。

当训练集包含大量非冗余编码核苷酸(>150000)时,prot4EST_ed和ESTScan表现同样好(图(图3a)。3a年). 当可用于训练和密码子偏差测定的编码核苷酸数量减少时,prot4EST翻译仍然在至少80%的情况下与正确的蛋白质显示出显著的相似性。

在所有编码核苷酸总数中,prot4EST_ed生成的翻译在覆盖率和比特分数方面都是最稳健的(图(图3b3亿3立方厘米). 随着训练中使用的编码核苷酸数量的减少,这两项指标都显示出轻微的减少。

替代prot4EST架构的性能

prot4EST_ed为更多训练序列生成了更健壮的翻译。然而,当使用较少的训练核苷酸总量时,替代结构prot4EST_de产生的翻译稍好(图(图3c),3立方厘米),尽管使用此设置生成的翻译比例较小(图(图3a3a年).

通过跟踪通过prot4EST管道的各个测试序列的结果,检查了prot4EST_ed的更好性能。通过在DECODER之前使用ESTScan,更大的训练集允许部署训练有素的HMM(图(图4)。4). 所有预测都满足长度和质量过滤器的要求,因此被认为是稳健的。相应的DECODER预测虽然满足长度过滤器的要求,但没有那么稳健。随着训练集的减小,ESTScan的预测没有通过过滤器,因此被忽略,而使用DECODER。

保存图片、插图等的外部文件。对象名为1471-2105-5-187-4.jpg

prot4EST管道中DECODER和ESTScan的不同组织的相对效率。图中显示了每个级别的培训中,由管道的每个部分翻译的共识序列的比例。粗体条:prot4EST_ed–ESTScan翻译比来自DECODER的翻译要早。散列条:prot4EST_de–与ESTScan相比,更倾向于使用稳健的DECODER翻译。

相似性搜索的性能

2316个序列中有7个被鉴定为第1层rRNA。prot4EST流水线的第2层和第3层利用查询序列和已知蛋白质之间的任何显著序列相似性来确定编码区。这种方法从不到一半的共识1131中确定了编码区域。19个被鉴定为线粒体基因组衍生。为了将相似性方法与其他概率方法进行比较,对1131个共识的预测准确性进行了比较。来自prot4EST第2层和第3层的翻译比来自ESTScan或DECODER的翻译更健壮(图(图55).

保存图片、插图等的外部文件。对象名称为1471-2105-5-187-5.jpg

比较HSP平铺、ESTScan和DECODER在翻译使用相似性标准翻译的1131个共识时的性能。

考虑到用于训练ESTScan的非冗余编码核苷酸数量的增加会产生更健壮的翻译,我们尝试使用到目前为止确定的编码区域来创建更大的训练集,并期望改进翻译。根据SwissAll数据库对BLASTX搜索的结果进行匹配检查,其中比对包括蛋白质序列的开始。这些结果包含构建伪CDS条目所需的信息,这些条目可以添加到训练集中,以填充ESTScan的HMM。在这项研究中,只有六个BLASTX比对提供了合适的伪CDS,未能显著增加非冗余编码核苷酸的水平。然而,我们研究的其他物种产生了更高数量的伪CDS,prot4EST使用这些伪CDS来提供改进的翻译(数据未显示)。

训练集和目标集序列组合的效果

由于任何EST集合的很大一部分都不会与已知序列共享相似性,从头开始翻译方法需要训练到尽可能高的水平。问题是,鉴于个别物种的先前序列数据不足,应该如何做到这一点。来自被认为与系统发育相关的物种的CDS应该合并还是应该使用来自模式生物的大集合?最近一项关于在新基因组中发现基因的研究表明,序列组成对基因结构预测有显著影响,如果密码子偏差与感兴趣的基因组显著不同,则与之密切相关的模型基因组提供的训练较差[25]。ESTScan的性能甚至受到序列组成的轻微波动的影响。我们检验了AT内容对翻译准确性的影响。如方法所述,组装了156个原核生物的完整CDS补体。这使AT含量范围从28%(腔色链霉菌)至78%(光肩星线虫),独立于由于有机体与秀丽线虫非冗余编码核苷酸的最低数量为461299,超过了稳健训练建议的最低数量。为了探索来自更密切相关来源的数据集,需要对线虫目Spirurida(最后一个共同祖先秀丽线虫475–500 MYA[38])和植物拟南芥[39]获得了。

训练集的AT含量与其参考多肽的假定覆盖率之间存在显著相关秀丽线虫蛋白质(r=0.49 P>0.001)(图(图6)。6). 最稳健的预测是由HMM根据AT内容类似于秀丽线虫对于原核生物训练集,使用的核苷酸数量对性能没有显著影响(数据未显示)。我们注意到一些原核生物训练集的AT内容接近秀丽线虫表现不佳:AT含量的同质性并不是万能药。使用拟南芥训练集的覆盖率明显好于与之关系更密切的Spirurida。由于植物数据集包含的编码核苷酸是Spiruridatraining集的130倍拟南芥建造了与Spirurida相当大小的训练装备。这些较小的训练集仍然比Spirurida训练集表现更好,尽管不如完整的CDS系列。

保存图片、插图等的外部文件。对象名为1471-2105-5-187-6.jpg

训练集AT内容对翻译准确性的影响。每个紫色菱形代表原核生物基因组的完整CDS集。橙色方框表示线虫目螺虫的所有CDS(约230000个非冗余编码核苷酸)。绿色三角形表示完整拟南芥RefSeq集合(约30000000个非冗余编码核苷酸)。绿色圆圈是拟南芥随机选择CDS RefSeq条目,总计约230000个非冗余编码核苷酸。AT内容秀丽线虫由垂直虚线显示。

结论

prot4EST是一种蛋白质翻译管道,利用了许多公开可用工具的优势。我们已经证明,对于很少或没有先验序列数据的物种,与单一方法相比,它可以产生更稳健的翻译。当前约四分之三的EST项目与<50000个编码核苷酸的训练集有关(图(图1)。1). 因此,prot4EST在这种现实情况下提供了显著的改进。即使有大量编码核苷酸,使用相似性搜索也意味着prot4EST能够超越最佳从头开始方法。鉴于提交给SwissProt/TrEMBL的蛋白质序列增加,prot4EST的能力和准确性只能随着时间的推移而增加。这些更准确的翻译为更严格的下游注释提供了平台。目前,我们正在使用prot4EST管道翻译来自30个物种的约95000条线虫共识序列。然后,这些翻译将被传递到我们正在开发的其他工具上,用于EST分析和注释(请参阅http://www.nemoodes.org/PartiGene网站).

可用性和要求

项目名称:保护4EST

项目主页:http://www.nemoodes.org/PartiGene网站

操作系统:在Linux上进行了全面测试–Redhat9.0、Fedora2.0。

编程语言:波尔

其他要求:

EST扫描2.0http://www.isrec.isb-sib.ch/ftp-server/ESTScan/

解码器rgscerg@gsc.riken.go.jp

BioPerl 1.4版http://bioperl.org

Transeq公司http://www.hgmp.mrc.ac.uk/Software/EMBOSS/

许可证:GNU通用公共许可证

非学者使用的任何限制:prot4EST源代码没有。DECODER需要许可证。请参阅《用户指南》。

作者的贡献

JW执行了所有分析并编写了所有Perl代码。MB监督了该项目并建议了其他功能。

两位作者共同负责撰写这份手稿。

鸣谢

这项工作由BBSRC CASE博士生向JW提供资助。我们感谢阿斯利康支持CASE计划。MB实验室的工作由NERC、BBSRC和Wellcome信托基金资助。我们感谢RIKEN DECODER研究所的Y.Fukunishi和Y.Hayashizaki、C.Iselli和C.Lottaz提供ESTscan包,以及我们的同事Ralf Schmid、John Parkinson、Ann Hedley和Makedonka Mitreva对手稿的支持和评论。

参考文献

  • Muller A、MacCallum RM、Sternberg MJ。人类蛋白质组的结构特征。基因组研究。2002;12:1625–1641. doi:10.1101/gr.221202。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 基因组测序:是时候拓宽我们的视野了。功能基因组学和蛋白质组学简介。2002;1:7–9.[公共医学][谷歌学者]
  • Stürzenbaum SR、Parkinson J、Blaxter ML、Morgan AJ、Kille P、Georgiev O。蚯蚓EST测序项目。土壤生物学。2003;47:447–451. [谷歌学者]
  • 程天聪、夏秋云、钱建飞、刘C、林毅、查芳、向志华。从家蚕、家蚕、近交系大枣EST数据中挖掘单核苷酸多态性。昆虫生物化学分子生物学。2004;34:523–530. doi:10.1016/j.ibmb.2004.02.004。[公共医学] [交叉参考][谷歌学者]
  • Barker G、Batley J、H OS、Edwards KJ和Edwards D.使用autoSNP基于冗余检测表达序列标签数据中的序列多态性。生物信息学。2003;19:421–422. doi:10.1093/bioinformatics/btf881。[公共医学] [交叉参考][谷歌学者]
  • Parkinson J,Anthony A,Wasmuth J,Schmid R,Hedley A,Blaxter M.PartiGene——构建部分基因组。生物信息学。2004;20:1398–1404. doi:10.1093/生物信息学/bth101。[公共医学] [交叉参考][谷歌学者]
  • Mulder NJ、Apweiler R、Attwood TK、Bairoch A、Barrell D、Bateman A、Binns D、Biswas M、Bradley P、Bork P、Bucher P、Copley RR、Courcelle E、Das U、Durbin R、Falquet L、Fleischmann W、Griffiths-Jones S、Haft D、Harte N、Hulo N、Kahn D、Kanapin A、Krestyaninova M、Lopez R、Letunic I、Lonsdale D、Silventoine V、Orchard SE、Pagni M、Peyruc D、,Ponting CP、Selengut JD、Servant F、Sigrist CJ、Vaughan R、Zdobnov EM。InterPro数据库,2003年带来了更多的覆盖面和新功能。核酸研究。2003;31:315–318. doi:10.1093/nar/gkg046。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 贝特曼A、科因L、杜宾R、芬恩RD、霍利希V、格里菲斯-琼斯S、坎纳A、马歇尔M、莫克森S、桑纳默EL、斯图霍尔姆DJ、叶芝C、埃迪SR。Pfam蛋白质家族数据库。核酸研究。2004;32数据库问题:D138–41。doi:10.1093/nar/gkh121。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Gordon D、Abajian C、Green P.Consed:序列整理的图形工具。基因组研究。1998年;8:195–202。[公共医学][谷歌学者]
  • Altschul SF、Madden TL、Schaffer AA、Zhang J、ZhangZ、Miller W、Lipman DJ。Gapped BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序。核酸研究。1997;25:3389–3402. doi:10.1093/nar/25.17.3389。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Pearson WR,Wood T,Zhang Z,Miller W.DNA序列与蛋白质序列的比较。基因组学。1997;46:24–36. doi:10.1006/geno.1997.4995。[公共医学] [交叉参考][谷歌学者]
  • 袖口JA、Birney E、Clamp ME、Barton GJ。ProtEST:表达序列标签的蛋白质多序列比对。生物信息学。2000;16:111–116. doi:10.1093/bioinformatics/16.2.111。[公共医学] [交叉参考][谷歌学者]
  • Stein LD、Bao Z、Blasiar D、Blumenthal T、Brent MR、Chen N、Chinwalla A、Clarke L、Clee C、Coghlan A、Coulson A、D'Eustachio P、Fitch DH、Fulton LA、Fulton-RE、Griffiths-Jones S、Harris TW、Hillier LW、Kamath R、Kuwabara PE、Mardis ER、Marra MA、Miner TL、Minx P、Mullikin JC、Plumb RW、Rogers J、Schein JE、Sohrmann M、Spieth J、Stajich JE、Wei C、,Willey D,Wilson RK,Durbin R,Waterston RH.briggsae隐杆线虫的基因组序列:比较基因组学的平台。《公共科学图书馆·生物》。2003;1:E45.doi:10.1371/journal.pbio.0000045。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Boeckmann B、Bairoch A、Apweiler R、Blatter MC、Estreicher A、Gasteiger E、Martin MJ、Michoud K、O’Donovan C、Phan I、Pilbout S、Schneider M。2003年的SWISS-PROT蛋白质知识库及其补充TrEMBL。核酸研究。2003;31:365–370. doi:10.1093/nar/gkg095。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Birney E.ESTWISE 2号机组[网址:http://www.ebi.ac.uk/Wise2/]
  • Hatzigeorgiou AG、Fiziev P、Reczko M.DIANA-EST:统计分析。生物信息学。2001;17:913–919. doi:10.1093/bioinformatics/17.10.913。[公共医学] [交叉参考][谷歌学者]
  • Fukunishi Y,Hayashizaki Y。带移码错误的全长cDNA序列的氨基酸翻译程序。生理基因组学。2001;5:81–87.[公共医学][谷歌学者]
  • Lottaz C,Iseli C,Jongeneel CV,Bucher P.通过组合隐马尔可夫模型来建模序列错误。生物信息学。2003;19补遗2:II103–II112。[公共医学][谷歌学者]
  • Parkinson J,Whitton C,Schmid R,Thomson M,Blaxter M.NEMBASE:寄生线虫EST的资源。核酸研究。2004;32:D427–30。doi:10.1093/nar/gkh018。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Iseli C,Jongeel CV,Bucher P.ESTScan:检测、评估和重建EST序列中潜在编码区域的程序。Proc Int Conf智能系统分子生物学。1999:138–148.[公共医学][谷歌学者]
  • Ewing B,Hillier L,Wendl MC,Green P.使用phred对自动测序器轨迹进行基线标定。I.准确性评估。基因组研究。1998年;8:175–185.[公共医学][谷歌学者]
  • Ewing B,Green P.使用phred对自动测序器记录道进行基线标定。二、。错误概率。基因组研究。1998年;8:186–194.[公共医学][谷歌学者]
  • Durbin R、Eddy S、Krogh A、Mitchison G。生物序列分析。蛋白质和核酸的概率模型。剑桥大学出版社;1998年,第356页。[谷歌学者]
  • Burge C,Karlin S.人类基因组DNA中完整基因结构的预测。分子生物学杂志。1997;268:78–94. doi:10.1006/jmbi.1997.0951。[公共医学] [交叉参考][谷歌学者]
  • Korf I.新基因组中的基因发现。BMC生物信息学。2004;5:59.网址:10.1186/1471-2105-5-59。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Sonnhammer EL、Eddy SR、Birney E、Bateman A、Durbin R.Pfam:蛋白质结构域的多重序列比对和HMM图谱。核酸研究。1998年;26:320–322. doi:10.1093/nar/26.1320。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Loytynoja A,Milinkovitch MC。渐进多重比对的隐马尔可夫模型。生物信息学。2003;19:1505–1513. doi:10.1093/bioinformatics/btg193。[公共医学] [交叉参考][谷歌学者]
  • Maidak BL、Cole JR、Lilburn TG、Parker CTJ、Saxman PR、Farris RJ、Garrity GM、Olsen GJ、Schmidt TM、Tiedje JM。RDP-II(核糖体数据库项目)核酸研究。2001;29:173–174. doi:10.1093/nar/29.1.173。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Nakamura Y、Gojobori T、Ikemura T。国际DNA序列数据库中列出的密码子使用情况:2000年状况。核酸研究。2000;28:292.doi:10.1093/nar/28.1292。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Kohara Y.[线虫秀丽隐杆线虫的基因组生物学]Tanpakushitsu Kakusan Koso公司。1999;44:2601–2608。[公共医学][谷歌学者]
  • Parkinson J,Guiliano D,Blaxter M.通过克隆EST序列来理解它们。BMC生物信息学。2002;:31.doi:10.1186/1471-2105-3-31。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Stein L、Sternberg P、Durbin R、Thierry-Mieg J、Spieth J.WormBase:秀丽隐杆线虫基因组和生物学的网络访问。核酸研究。2001;29:82–86. doi:10.1093/nar/29.1.82。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 斯坦因LD。互联网访问秀丽线虫基因组。趋势Genet。1999;15:425–427. doi:10.1016/S0168-9525(99)01805-3。[公共医学] [交叉参考][谷歌学者]
  • Rice P、Longden I、Bleasby A.EMBOSS:欧洲分子生物学开放软件套件。趋势Genet。2000;16:276–277。doi:10.1016/S0168-9525(00)02024-2。[公共医学] [交叉参考][谷歌学者]
  • Pruitt KD、Tatusova T、Maglott DR.NCBI参考序列项目:更新和当前状态。核酸研究。2003;31:34–37. doi:10.1093/nar/gkg111。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Phan IQ、Pilbout SF、Fleischmann W、Bairoch A.NEWT,一个新的分类门户。核酸研究。2003;31:3822–3823. doi:10.1093/nar/gkg516。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Stajich JE、Block D、Boulez K、Brenner SE、Chervitz SA、Dagdigian C、Fuelen G、Gilbert JG、Korf I、Lapp H、Lehvaslaiho H、Matsalla C、Mungall CJ、Osborne BI、Pocock MR、Schattner P、Senger M、Stein LD、Stupka E、Wilkinson MD、Birney E。Bioperl工具包:生命科学的Perl模块。基因组研究。2002;12:1611–1618. doi:10.1101/gr.361602。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Vanfleteren JR、Van de Peer Y、Blaxter ML、Tweedie SA、Trotman C、Lu L、Van Hauwaert ML、Moens L.基于细胞色素C和球蛋白氨基酸序列的一些线虫类群的分子系谱。分子系统进化。1994;:92–101. doi:10.1006/mpev.1994.1012。[公共医学] [交叉参考][谷歌学者]
  • 拟南芥测序联盟分析开花植物拟南芥(Arabidopsis thaliana)的基因组序列。自然。2000;408:796–815. doi:10.1038/35048692。[公共医学] [交叉参考][谷歌学者]

文章来自BMC生物信息学由以下人员提供BMC公司