摘要

提高基因启动预测的准确性是原核基因计算机预测中为数不多的悬而未决的问题之一。其困难是由于缺乏识别真正翻译起始位点的相对较强的序列模式。在当前的论文中,我们表明,在基于隐马尔可夫模型的迭代算法中,将蛋白质编码区和非编码区模型与基因启动附近的调控位点模型相结合,可以提高基因启动预测的准确性。这种新的基因预测方法称为GeneMarkS,它利用了一种非监督的训练程序,可以用于新测序的原核基因组,而无需事先了解任何蛋白质或rRNA基因。GeneMarkS实现使用了基因查找程序GeneMark.hmm的改进版本、编码和非编码区域的启发式马尔可夫模型以及吉布斯采样多重比对程序。GeneMarkS准确预测了GenBank注释的83.2%的翻译开始枯草芽孢杆菌基因和94.4%的翻译开始于一组经实验验证的大肠杆菌基因。我们还观察到,GeneMarkS通过识别包含真实基因的开放阅读框来检测原核基因,其准确性与当前使用的最佳基因检测方法的水平相匹配。准确的翻译起始预测,以及蛋白质序列N末端数据的精细化,可以精确定位基因起始上游的序列区域。因此,可以更精确地揭示和分析与转录和翻译调控位点相关的序列基序。这些基序被证明具有显著的变异性,并对其功能和进化联系进行了讨论。

2001年1月23日收到;2001年5月3日修订并接受。

简介

发展从头算基因发现的计算机方法由来已久,由菲克特的著作开创(1)格里布斯科夫. (2)和斯塔登(). 几种常用的技术采用局部贝叶斯方法,一次分析一个序列“窗口”或一个开放阅读框(ORF)。在此过程中,蛋白质编码区域由非均匀三周期马尔可夫模型表示,无论是固定顺序(4,5)或插值(6,7). 其他技术使用全局方法,并根据指定的隐马尔可夫模型(HMM)(无论是统一模型)找到最大似然序列解析(8),或一个具有持续时间(9). 许多现有的基因发现方法在检测原核基因所在的ORF时都是高度准确的。微生物基因组测序的加速导致了对使用非监督训练的基因发现方法的高度需求。描述了使用本地方法的非监督培训程序,如GeneMark或Glimmer(7,1012). 针对使用全局最大似然方法的GeneMark.hmm,提出了一种利用启发式构建伪计数模型的非监督训练过程(13). 非监督训练可能包括聚类例程,以建立非典型基因类的模型,该类基因被假定为在进化过程中水平转移到给定微生物基因组中的基因(10). ORPHEUS程序使用了一种基于序列相似性搜索的不同类型的无监督训练方法(14).

将基因检测为具有“开放”起点的蛋白编码ORF仍然不能为基因注释提供完整信息。尽管已经描述了几种基因启动预测准确性的程序(8,9,1416)实验验证的翻译开始次数不足,因此缺乏用于培训和测试的可靠数据,阻碍了对这些方法实际准确性的验证。在缺乏可靠的计算机程序进行基因启动预测的情况下,“最长ORF”规则经常被用于注释完整的微生物基因组,基因启动被指定给5′最大的ATG密码子(见表1). 对该规则准确性的简单估计如下。假设位于实际翻译起始点上游的DNA序列模型是一个多项式模型序列,核苷酸T、C、a和G的出现概率由它们在非编码DNA中的观察频率估计,并指定为(f)T型,(f)C类,(f)A类(f)G公司分别为。概率,P(P),给定ORF中最多5′的ATG是一个真正的平移起点,则由以下公式提供:

P(P)= 1 –(f)自动液位计/((f)自动液位计+(f)TAA公司+(f)标签+(f)TGA公司),其中(f)XYZ(XYZ)=(f)X(X)(f)Y(Y)(f)Z.

对于更复杂的DNA序列模型,可以进一步完善该公式。如果核苷酸频率相等,那么P(P)= 0.75. 这个值可以作为对大量基因组的“最长ORF”规则准确性的估计。这一水平似乎不够。前面描述的注释基因启动的计算机程序(8,9,1416)在大多数情况下,使用核糖体结合位点(RBS)模型,要么通过监督训练获得,要么根据物种16S rRNA序列的先前知识推断。GeneMark和GeneMark.hmm程序使用RBS模型(9,17)以位置核苷酸频率矩阵的形式,动机,其参数由位于注释翻译起始点上游的DNA序列的吉布斯采样多重比对得出。新程序GeneMark.hmm 2.0还使用了间隔区长度的概率分布,即RBS序列的最后一个核苷酸和基因的第一个核苷酸之间的序列。通常在原核生物中,一致的RBS序列与16S rRNA的一段3′末端序列是互补的(15)未明确使用RBS模型。它使用了一个HMM,该HMM具有多个隐藏状态,模拟紧邻上游序列的三核苷酸频率模式,上游序列,以及翻译开始站点的下游。注意,有人认为下游序列模式与核糖体结合机制无关,而是与蛋白质N末端附近氨基酸序列组成的偏差有关(18). ORPHEUS项目也使用RBS模型(14). 与GeneMark程序不同,ORPHEUS使用RBS的权重矩阵模型,位置频率由给定位置中最可能的核苷酸的频率标准化。ORPHEUS模型还考虑了间隔棒长度变化的模式。该模型是根据一组位于预测蛋白编码ORF上游(–1到–20)的序列的多重比对建立的,这些预测蛋白编码的ORF的起始点都位于距离替代起始密码子相对较远的位置,并且不与其他预测基因重叠。基因启动预测包括将通过蛋白质序列相似性搜索检测到的ORF种子扩展到5′-最可能的启动密码子。最近提到了另一种使用RBS模型进行基因启动预测的方法(16)尽管比奥菲斯的细节少得多。Glimmer 2.02默认情况下,将预测的基因开始指定给包含预测编码区的最长ORF的起始密码子。可选地,如程序文档中所述,Glimmer 2.02计算16S rRNA片段与位于可能起始密码子前面的任何固定长度区域之间的杂交能量的最大值。如果该值超过某个阈值,并且为所有其他替代启动定义的最大值,则选择有问题的密码子作为预测的基因启动。

在这篇文章中,我们描述了一种新的非监督迭代方法GeneMarkS,它在原核DNA中执行基因查找,并将重点放在识别基因起始点上。该方法利用了蛋白质编码区域的启发式马尔可夫模型以及我们在GeneMark和GeneMark.hmm早期项目中开发的算法(5,9,13). 吉布斯采样多重对准程序(19)也用作迭代例程的一部分,该例程创建位于上游序列中的保守进化位点的双成分统计模型。这两个分量是位置频率矩阵、基序和间隔长度分布。这个双组分模型包含在新的2.0版GeneMark.hmm使用的一组模型中。GeneMarkS迭代运行GeneMark.hmm程序,并在给定模型的情况下,将给定的匿名序列最大似然解析为蛋白质编码区和非编码区。新预测的序列解析用于更新下一次迭代中使用的模型。这个过程一直运行到收敛,就实现序列解析的变化而言,在随后的两次迭代中获得,小于一些预定义的小值。迭代GeneMarkS程序可以应用于匿名基因组DNA,而无需事先了解任何蛋白质或rRNA编码基因。

通过其设计,除了能够找到原核基因并推导编码区和非编码区的模型外,GeneMarkS还能够检测上游序列(如RBS)中的功能位点并推导其模型。已经描述了许多检测各种DNA功能位点的算法,包括RBS(17,2030). 在基因发现的背景下,在后处理步骤中使用单独衍生的RBS模型进一步细化预测基因(GeneMark.hmm、Glimmer、ORPHEUS)。这里,我们强调GeneMarkS是一个集成的过程,其中上游功能位点的模型参数是在基因预测算法中使用的所有模型与基因预测并行调整的过程中推导和优化的。

在用可靠注释的基因测试选定的基因组序列时,我们已经证明GeneMarkS的性能符合或超过了当前已知的标准,因此,GeneMarkS可以用作注释新测序原核基因组的单一或替代工具。

GeneMarkS在翻译起始上游序列中检测和建模功能位点的能力可能有助于更好地理解原核细胞的翻译起始机制。特别是,作为一个相当令人惊讶的观察结果,GeneMarkS程序能够阐明古生物基因组中与转录起始相关的序列基序嗜气热杆菌(M.Slupska、A.King、S.Fitz-Gibon、J.Besemer、M.Borodovsky和J.Miller出版社)和富氏古球虫.

材料和方法

基因组序列数据

当前研究中使用的序列数据包括GenBank数据库中可用的以下基因组:A.pernix公司(31),富氏A.fulgidus(32),枯草芽孢杆菌(33),大肠杆菌(34),流感嗜血杆菌(35),幽门螺杆菌(36),甲烷杆菌(37),詹氏甲烷球菌(38),结核分枝杆菌(39),协同孢子虫PCC6803型(40).

附加序列集

完整原核基因组的GenBank注释经常被用作基因发现准确性测试的基准。然而,对完整原核生物基因组的GenBank注释进行的简单分析提供了令人信服的证据,证明按照最长ORF规则对基因起始注释存在系统偏见(表1). 这种偏差在表的上半部分列出的基因组中最为明显1,几乎所有基因都被注释为最长的ORF(只有ATG被认为是可能的起始密码子)。在光谱的另一端(表1,底部),是几个原核基因组,其注释基因与最长的ORF在~80%的情况下一致。

除非涉及一种特殊的翻译机制,否则没有具体的理由可以证明DNA序列中普遍缺乏帧内起始密码子,该序列位于注释为最长ORF的基因的开始和第一个上游终止密码子之间。由于这种机制尚不清楚也可能不存在,GenBank注释,特别是表上半部分的基因组注释1,应谨慎使用。我们假设枯草杆菌基因组是为数不多的注释完整基因组之一,可用于评估针对基因起始点的基因发现方法的准确性。为了评估基因标记S对基因长度预测准确性的稳健性,我们使用了从枯草杆菌基因组序列并通过蛋白质相似性搜索进行验证。在另一项基因启动预测准确性测试中,我们使用了一组195大肠杆菌通过对其蛋白质产物的N末端测序实验证实其启动的基因(41).

GeneMarkS算法概述

序列数据处理和模型训练的分步图如图所示1在第一步中,启发式马尔可夫模型的参数由前面描述的方法确定(13). 该启发式模型集包括蛋白质编码序列的三周期二阶Markov模型和非编码序列的二阶齐次Markov模型。启发式模型的转移和初始概率参数可以从短至400 nt的样本DNA序列中估计(13). 该方法使用了先前列出的特定核苷酸的密码子位置特定频率与其全球频率之间的线性相关性,以及物种蛋白质组中特定氨基酸的频率与基因组GC%之间的线性依赖性。这些线性函数的参数由17个完整细菌基因组的回归分析确定(13).

启发式模型集还包括以分析或数值方式描述的编码和非编码区域的长度分布。该算法的准确性对这些长度分布中物种特定的变化相当不敏感(数据未显示)。因此,在程序中,我们使用了从GenBank注释导出的长度分布大肠杆菌基因组。

新的2.0版GeneMark.hmm基因预测算法用于连续基因发现和模型优化的多次迭代。在每次迭代中应用吉布斯抽样程序来对齐预测基因的上游序列。未标记的多重比对挑选出位于基因启动上游的保守位点。GeneMark.hmm 2.0程序中使用了该位点的位置核苷酸频率模型以及间隔区的长度分布来识别基因启动。

GeneMark.hmm的v2.0具有预测任意长度重叠的基因的能力(图。2). 新版本还将上游保守区的双组分模型、位置核苷酸频率模型和间隔区长度分布集成到Viterbi算法中。相比之下,前面描述的GeneMark.hmm(9)在后处理步骤中使用RBS的位置频率模型。

第一步中定义的一组启发式模型不包含位于基因启动上游的保守位点(即RBS)的模型。尽管如此,该算法将输入序列的全长解析为编码和非编码区域,并为基因启动提供了第一近似值(图。1). 根据这一信息,选择了一组上游序列。上游序列的长度是一个算法参数。在我们的计算中,它被选择为等于25或50 nt。注意,仅使用上游序列的子集可能就足以进行模型推导。一组基因的起始点与前一个基因有一定距离(即至少50 nt),可以构成这样的一个子集。这些基因的上游序列可能包含保守的功能位点,编码区没有重叠。从这样一个序列集中提取的位点基序是一个先验的,预计会更加明显。注意,这个推测与下面引用的序列分析结果一致。一组上游序列(默认情况下选择不包含预测编码区域)通过Gibbs采样过程进行无间隙对齐(19,24)确定了具有最高信息内容的多重对齐窗口(24). 从多序列比对的这个窗口宽的块中,可以立即定义位于翻译开始上游的保守功能位点的位置频率矩阵模型,即基序,此后称为启动前信号。当使用25 nt长的上游序列时,比对通常显示出一个与所研究物种的16S rRNA部分互补的一致序列基序。然而,如果在一些物种中使用50 nt长的上游序列,如下图所示,比对过程确定了启动子相关位点的典型模体。

间隔棒的长度定义了启动前信号相对于平移起点的精确位置。因此,两个模型描述了启动前信号、基模或位置频率矩阵以及间隔棒长度频率分布。在GeneMarkS训练的每一步中,这两个模型都是通过Gibbs采样多重比对在之前运行的GeneMark.hmm 2.0中定义的启动前序列而得到的。反过来,GeneMark 2.0程序在除第一步外的所有步骤中都使用了启动前基序和间隔长度分布(图。1). 在第一步中,程序仅使用编码和非编码区域的启发式模型运行,并生成第一个序列解析为编码和非代码区域。在规则循环的所有后续步骤中导出的编码和非编码区域的马尔可夫模型称为伪本征模型,因为它们是从分类的真实DNA序列中导出的生物信息学作为编码和非编码区域。与启发式模型相比,伪本地模型更能捕捉物种特异的寡核苷酸频率模式(13).

在每次迭代中使用预测的启动集来确定特定类型启动密码子ATG、GTG、CTG、TTG的分数。更新后的频率集在下一次迭代时用于GeneMark.hmm 2.0。

重复GeneMarkS迭代,直到序列解析与前一次迭代的99%相同,或者直到身份百分比开始在合理的高水平上波动。在最终迭代运行中生成的序列解析是程序输出,以及导出并优化到该点的模型。注意,非典型基因模型是原始GeneMark.hmm程序的一部分(9)在GeneMarkS迭代中被有效关闭。因此,由GeneMarkS产生的蛋白质编码区的马尔可夫模型必须被视为典型的基因模型。注意,使用启发式模型代替非典型基因模型是一个有趣的选择。我们在下面解决这个问题。

GeneMarkS程序不仅限于推导和使用二阶马尔可夫模型。如果认为应用合理,它可以构建更高阶的模型。然而,与之前报告的观察结果类似(9),在我们的GeneMarkS测试中,使用高阶模型(未显示数据)并没有显著提高准确性。二阶模型的稳健性预计适用于具有频繁长非中断蛋白编码区的原核基因组织类型。由于GeneMark.hmm的最大似然框架能够在长ORF内积累“编码区信号”,即使使用具有低信噪比的低阶模型,这些基因也可以通过低阶模型检测到。

结果和讨论

基因检测的准确性

首先,我们讨论用“开放启动”检测基因或预测蛋白质编码ORF的准确性传统上,原核基因发现工具的准确性取决于它们在识别原核基因的独特标记及其3′端方面的性能。GeneMarkS程序在八个匿名原核序列上运行,这些序列代表了富氏杆菌、枯草芽孢杆菌、大肠杆菌,流感嗜血杆菌,幽门螺杆菌、M.jannaschii、,热自养M协同孢子虫。在完成GeneMarkS迭代后,执行了GeneMark.hmm 2.0的特殊运行。在此过程中,新推导的蛋白质编码区的马尔可夫模型被用作典型的基因模型,另外两个模型由GeneMarkS推导,用于启动前信号、位置频率矩阵和间隔区长度分布。此外,为了完成一组可用于GeneMark.hmm 2.0的模型,我们使用了非典型基因模型和启发式方法定义的非编码区模型(13). 将预测基因的3′端与GenBank中注释的基因的3’端进行比较。表中显示了表征所有八个基因组预测的敏感性和特异性的数字2这些数字表明,对于一个自我训练的单序列基因探测仪来说,精确度相当高。

精确基因预测的准确性

对基因标记S在精确基因预测中的性能进行了一次测试枯草杆菌基因组。表的左半部分说明了迭代过程的进展。在第一次迭代时,使用GeneMark.hmm 2.0的启发式模型枯草杆菌在GenBank注释的4099个基因中,编码和非编码序列检测到98.0%。然而,当程序的RBS模块关闭时,只有56.6%的基因能准确预测基因启动。RBS模型的生成和添加将准确预测的基因百分比提高到80.8%,而检测到的基因百分比(98.1%)大致相同。下一步,生成和使用伪本地模型可以精确预测83.1%的数据枯草杆菌基因检出率下降到97.0%。检测到的基因数量的变化证实了早先的观察结果,即GeneMark.hmm程序中使用的启发式模型能够检测到Typical类和非典型类的基因(13). 然而,提高启发式模型的敏感性是以降低特异性为代价的。在三个常规周期后,与前一个周期相同的预测百分比达到99%,迭代停止。在最后一步,预测了4224个基因。与GenBank中注释的基因相比,83.2%的枯草杆菌基因预测准确,检测到96.7%的注释基因。由GeneMarkS导出的RBS基序和间隔区长度分布如图所示序列标志形式的A和B(42)和线图。以前报告的精确预测精度数据枯草杆菌基因如下。逐帧程序(15)发现85.8%的基因启动和ORPHEUS(14)预测80.2%的基因起始于346个基因的测试集。准确度数据的比较表明,GeneMarkS是一种自训练程序,它是一种合理的替代方案,既可以用于训练大量先前注释过的序列的逐帧程序,也可以用于ORPHEUS,它利用从序列比较到已知蛋白质序列的综合数据库中编译的非监督训练数据集。

整体上的类似测试大肠杆菌基因组显示,GeneMarkS的预测仅在69.7%的病例中与GenBank的基因启动注释相匹配。然而,鉴于缺乏关于已验证基因启动子的数据,应该谨慎对待这个数字。在一个更现实的测试中,我们使用了一组195大肠杆菌通过蛋白质N末端测序实验验证其启动的基因(41). (右半部分)详细描述了这个测试,一次又一次的迭代。在最后一步,准确预测了195个基因中的184个(94.4%),检测到所有195个(100%)。在此,应注意以下保留。195人的GeneMark得分分析大肠杆菌基因(5)结果显示,与平均得分分布相比,得分较高的基因比例略有上升,这表明密码子使用偏倚较高,可能表达水平较高大肠杆菌相同大小的基因集。因此,准确度也可能略有提高。

短基因

区分短基因和随机ORF是出了名的困难。为了测试GeneMarkS发现短基因的能力,我们使用了476个枯草杆菌基因库中注释的长度为300 nt或更短的基因。根据BLAST对其蛋白质产物的分析结果,汇编了该集合的三个子集(43). 第一组包括123个基因,这些基因的蛋白产物与已知蛋白质具有至少一个显著的序列相似性(电子-值<1e–4)。请注意,任何点击枯草杆菌注释为“假定”或“假设”的蛋白质或蛋白质被忽略。第二组包含72个基因,在蛋白质水平上至少有两个强烈的相似性。第三组有52个基因,包括那些蛋白质产品与已知蛋白质至少有10个强烈相似性的基因。

表中引用了GeneMarkS在每个集合中精确预测的基因和检测到的基因的百分比4可以看出,与整个基因集相比,短基因的精确度参数没有显著变化。因此,这些数据证明了程序性能对基因长度的鲁棒性。

与其他项目的比较

为了将GeneMarkS的性能与Glimmer和ORPHEUS的性能进行比较,我们必须下载并运行这两个程序。Glimmer 2.02是按照分发文件中的说明运行的。请注意,就基因检测而言,Glimmer 2.02使用默认参数运行时检测到的基因明显多于注释的基因枯草杆菌大肠杆菌虽然这些预测中的一些可能检测到GenBank中没有注释的真实基因,但假设GenBank忽略的真实基因的百分比如此之大可能是不现实的。尽管如此,我们并没有改变Glimmer的默认参数,该参数是由其作者选择的,作为设计决策(7). 为了获得精确的基因预测,Glimmer 2.02使用核糖体结合自由能计算。此功能需要给定物种的16S rRNA序列的事先数据。为每个物种提供16S rRNA序列。使用核糖体结合自由能的选项在Glimmer文档中被评论为“未经充分测试”然而,我们观察到,当启用此功能时,Glimmer结果总是会得到改善;因此,此选项被启用。

在运行ORPHEUS之前,通过合并更新的SWISS-PROT、TrEMBL和PIR数据库,并借助NRDB2软件(W.Gish,未出版材料),创建了一个非冗余蛋白质数据库。ORPHEUS的默认参数设置排除了发现<105 nt的基因。然而,在大肠杆菌测试集和短集枯草杆菌基因:最短114nt长。

就整体而言枯草杆菌基因组Glimmer 2.02检测到98.1%的注释基因,而GeneMarkS检测到96.7%,ORPHEUS检测到85%(表4). 反过来,GeneMarkS精确地发现了83.2%的基因,而ORPHEUS精确地预测了73.9%的基因,Glimmer预测了62.4%。注意,在中间步骤(步骤4.1,图。1)在检测到的基因方面,产生了与Glimmer几乎相同的结果(表). 在此步骤中,GeneMark.hmm 2.0使用启发式马尔可夫模型,检测到98.1%的注释枯草杆菌基因。尽管如此,GeneMark.hmm 2.0在这一步进行了4316个基因预测,而Glimmer 2.02进行了5075个预测。

195台经实验验证大肠杆菌基因,GeneMarkS和Glimmer 2.02都检测到了所有的基因(表4). GeneMarkS准确识别了94.4%的基因启动子,而ORPHEUS和Glimmer 2.02分别准确预测了75.9%和71.3%的病例的基因启动位置。

对于短集枯草杆菌基因(如表所示4)GeneMarkS的预测似乎比Glimmer的预测更准确。

就基因检测而言,我们使用大肠杆菌枯草杆菌我们已经指出,随着GeneMarkS迭代的进展,从对大量基因的不太精确预测到对较少基因的更精确预测的转变。这种变化是由于训练过程中从更敏感和不太具体的启发式模型逐渐过渡到更具体和稍微不太敏感的伪原生模型。从本质上讲,这种转变使GeneMarkS有更多的能力去发现典型类别的基因,同时失去了一些发现非典型基因的能力。

为了结合启发式模型和伪本机模型的优点,我们在额外运行的GeneMark.hmm 2.0中同时使用了这些模型,如上所述(参见表2). 通过此程序设置获得的结果枯草杆菌大肠杆菌基因组也如图所示4其中GeneMark.hmm 2.0预测与GenBank对这两个细菌基因组的注释以及Glimmer 2.02的预测进行了比较。

上游序列中基序的功能和进化变异性

GeneMarkS为研究基因启动上游区域的序列模式提供了新的机会。在许多原核基因组中,上游序列携带一个功能位点(即RBS位点),其特征为核苷酸频率基序(图。A) 以及垫片长度分布(图。B) ●●●●。

有趣的是,GeneMarkS衍生的上游信号模型可能因研究中的基因组和程序参数的设置而异。如下所示,上游序列集可能是不均匀的。一般来说,如果上游序列集合的不同子集对序列基序的不同部分起作用,则通过Gibbs采样的未映射多重比对不太适合导出模式。然而,可能有一些有趣的模式配置,该方法仍然有效。下面我们分别讨论了细菌物种和两组古菌物种Euryarchaeota和Crenarchaeota的分析细节。

在所研究的细菌基因组中,25或50 nt长上游序列的多重比对导致提取出一个明显的RBS基序,类似于枯草杆菌基因组(图。). 然而,仍然存在一些担忧。一个是一个基因组内RBS序列的可能变异性。为了探索这种可能性,我们对几个数据集进行了额外的分析。我们选择了一组与同一条链上的前一个基因重叠的基因。注意,观察到4 nt的同一链基因重叠是最常见的基因重叠。我们通过从RBS基序和背景模型导出的log-odds分数扫描并表征上游序列集中的六聚体。背景模型是基因重叠情况下编码区的普通马尔可夫模型。对于非重叠启动,它是非编码序列的普通马尔可夫模型。通过将假定的RBS确定为在50 nt上游区域内得分最高的RBS,我们对枯草杆菌,大肠杆菌M.jannaschii先生基因组。与非重叠区相比,由前一编码区重叠的RBS位点的得分分布没有显著差异(图。5). 重叠RBS的间隔棒长度分布确实呈现出三个周期性(数据未显示),而整个间隔棒长度的分布完全缺乏(图。B) ●●●●。

作为该分析的延伸,我们推导了与重叠基因启动相关的上游序列集的RBS基序。在一些情况下,观察到这些基序与非重叠起始基序之间的显著差异。有趣的是,对于结核分枝杆菌基因组——前一基因与4nt重叠的基因衍生的RBS基序比非重叠基因衍生的RBS基序更显著。请注意结核分枝杆菌基因组使RBS模式难以检测(30,39).

古生菌基因组的GeneMarkS分析结果与古生菌的转录和翻译机制是真核生物和细菌特性的复杂混合物这一概念相一致(44). 古生菌的转录起始机制与真核生物有很多相似之处。特别是,基本起始因子TFIIB和TFIID以及RNA聚合酶的八个“小”亚基显示出与真核生物对应物的同源性。此外,真核生物TATA-box结合蛋白在一些古生物物种中显示出同源蛋白。另一方面,细菌和古菌的翻译起始机制虽然由不同的成分组成,但长期以来一直被认为功能相似,主要集中在细菌型多顺反子mRNA的处理上(45). 翻译起始的古生物和真核生物机制之间的重要区别在于,真核生物mRNA CAP识别所涉及的蛋白质缺乏古生物同源物。

GeneMarkS在几个古菌基因组中的应用导致提取TATA盒或RBS型基序作为位于上游序列中的保守位点的模型。这种特殊的结果显然与操纵子中第一个和分离的基因相对于操纵子内部基因的比例有关。通过简单限制上游序列的长度,可以排除比对过程中RBS和启动子位点的竞争。特别是,长度必须至少为50 nt才能检测TATA盒相关模式。对于25 nt长的非重叠基因上游序列,多重比对过程通常产生RBS型模式。这一结果在许多古代物种中都得到了观察,但并非所有物种都是如此。

在Crenarchaeota,例如A.pernix公司嗜气芽孢杆菌我们发现TATA盒是非重叠基因上游序列的唯一一致模式。这一结果证实了实验观察到的对无领导转录本的强烈偏见嗜气芽孢杆菌(M.Slupska、A.King、S.Fitz-Gibon、J.Besemer、M.Borodovsky、J.Miller出版)。另一方面,重叠基因样本的上游序列集,可能是操纵子内部的序列,显示出与16S rRNA部分互补的基序A.pernix公司,GeneMarkS预测ATG和GTG启动密码子的频率几乎相等,这一有趣的偏差在任何其他物种中都没有观察到。另一种Crenarchaeote的基因组序列,硫矿硫化叶菌,并检测到上游序列中发现的基序的二元性,表明存在两种不同的翻译起始机制(46).

类似地,在嗜热亚麻子的上游序列中富氏A.fulgidusGeneMarkS检测到转录和翻译起始相关的基序(图67). 特别是,50 nt长上游序列中的主要保守基序似乎不是RBS基序,因为它与16S rRNA的任何部分都不兼容,并且定位在–30位置附近(图。8). 该基序具有一致性[G/a,G/a,a,a,a],可以解释为真核生物型启动子基序。这一结果与高温嗜热亚硫酸钠的结果形成了鲜明对比M.jannaschii先生其上游基序由GeneMarkS确定,倾向于定位在距离基因起点更短的距离上(图。8)通过与16S rRNA序列的一致互补,可识别为RBS基序。

在搜索富氏A.fulgidus基因组序列,我们对25 nt长的重叠基因上游序列进行Gibbs比对,这些重叠基因更可能位于操纵子内部。这个富氏A.fulgidus包含相对大量基因重叠的基因组允许仅使用与上游相邻基因重叠4 nt的基因来进一步减少选定的上游序列集。事实上,这组上游序列的吉布斯采样比对检测到一个与3′端一致的互补基序富氏A.fulgidus16S rRNA(图。7). 这一发现表明,在Crenarcheota中观察到的无铅转录物也可能存在于一些广叶珊瑚物种中,而含铅转录物的比例似乎要高得多。

有趣的是,在最近的NCBI注释中,发现了欧亚海龙类物种热浆火山(ftp://ncbi.nlm.nih.gov/genemos/细菌/热质_火山/),使用GeneMarkS程序时,上游序列的默认长度为50 nt。我们对运行上游序列长度为25 nt的GeneMarkS的测试结果非常接近,98.4%的基因启动预测在同一位置。

在细菌基因组中,我们观察到非重叠基因的50 nt上游序列的Gibbs采样比对收敛到带有RBS基序的比对。这一观察结果表明,启动子相关基序的表达程度低于RBS基序。

GeneMarkS在某些情况下产生的结果揭示了带有RBS基序的序列集的非同质性。我们为枯草杆菌热自养M图中的基因组9A和B。如果枯草杆菌两个六聚体AGGAGG和AGGTGA可以叠加在上游序列的吉布斯采样多重比对中。这两个六聚体是对重叠部分的补充枯草杆菌16S rRNA。六聚体在基因启动方面对mRNA内的位置有不同的偏好(图。9A) ●●●●。顺便说一句,这些偏好使得16S rRNA与一个或其他六聚体的结合将使核糖体与翻译起始位点保持相同的线性距离。翻译起始效率的实验突变研究结果也支持了对观察数据的这种解释(47).

请注意,将上游序列集拆分为两个(或多个)同质子集意味着一个事实,即特定物种的整个基因集可以分为两个或多个同质类,即典型和非典型基因类。然而,进一步的分析并没有提供任何明确的证据表明使用特定的六聚体与基因类型相关(数据未显示)。

对于古生物基因组热自养MGeneMarkS分析导致了对一组上游序列的非均质性的类似观察,如图所示9B.两个六聚体,GGAGGT和GGTGAT,可以叠加在吉布斯采样多重比对中。两个六聚体与热自养M16S rRNA。有趣的是,与枯草杆菌在这种情况下,GGTGAT六聚体更频繁地位于离基因起始点较短的距离处。

网络资源

GeneMarkS可通过互联网访问http://dixie.biology.gatech.edu/GeneMark/基因标记.cgi。输入序列由GeneMarkS分析,最终预测通过电子邮件返回给用户。GeneMarkS对许多公开可用的原核基因组进行预测的数据库可在http://dixie.biology.gatech.edu/基因标记/基因标记S/.三套短片枯草杆菌与用于测试的已知基因有很强同源性的基因以及一组经过实验验证的大肠杆菌基因。

致谢

M.B和J.B.感谢Sorel Fitz-Gibon和Jeffrey Miller对使用基因标记S进行基因组序列分析的持续兴趣,这促进了基因标记S的进一步发展。M.B.承认与加州大学圣巴巴拉分校理论物理研究所的Chris Burge、Phil Green和Gary Stormo进行了有益的讨论。作者感谢约翰·洛格斯顿对手稿的宝贵评论。J.B.、A.L和M.B.获得了美国国立卫生研究院(US National Institutes of Health)的部分资助。M.B.还获得了美国民间研究发展基金会(US Civil Research Development Foundation)的部分资助。

*

通信地址:美国佐治亚州亚特兰大乔治亚理工学院生物学院,邮编:30332-0230,电话:+1 404 894 8432;传真:+1 404 894 0519;电子邮件:mark@amber.gatech.edu

图1。GeneMarkS程序的分步图。

图1。GeneMarkS过程的分步图。

图2。(A) 在GeneMarkS训练过程中,没有将编码序列划分为两个簇。然而,在应用GeneMark.hmm 2.0程序时,由GeneMarkS导出的编码区域模型可用作典型模型,启发式模型可用作非典型模型(见表3)。为了简单起见,只显示了直接链。(B) 在这个GeneMark.hmm 2.0中隐藏状态转换的简化图中,状态“基因”表示一个由RBS加间隔子加蛋白质编码序列(CDS)组成的序列。基因重叠包括所有可能的重叠类型:基因在同一条链上的重叠(如在操纵子中观察到的),基因在相反链上的叠加,编码区与RBS的重叠,等等。

图2。(A类)在GeneMarkS训练过程中,没有将编码序列划分为两个簇。然而,在应用GeneMark.hmm 2.0程序时,由GeneMarkS导出的编码区域模型可用作典型模型,启发式模型可用作非典型模型(见表). 为了简单起见,只显示了直接链。(B类)在这个GeneMark.hmm 2.0中隐藏状态转换的简化图中,状态“基因”表示一个由RBS加间隔子加蛋白质编码序列(CDS)组成的序列。基因重叠包括所有可能的重叠类型:基因在同一条链上的重叠(如操纵子中观察到的),基因在相反链上的重合,编码区与RBS的重合,等等。

图3。(A类)序列标志表示GeneMarkS在分析中检测到的RBS位置频率模式枯草杆菌基因组数据。每个位置四个字母的总高度表示特定位置的信息内容,而每个字母的高度与核苷酸频率成比例(42)。(B类)间隔区长度的概率分布图,RBS序列和基因启动之间的序列。

图4。维恩图显示了GenBank注释与GeneMark.hmm 2.0和Glimmer 2.02检测到的枯草芽孢杆菌基因组(A)和大肠杆菌基因组(B)的基因集之间的组关系。

图4。维恩图显示了GenBank注释与GeneMark.hmm 2.0和Glimmer 2.02检测到的基因集之间的组关系枯草杆菌基因组(A)和大肠杆菌基因组(B)。

图5。由GeneMarkS检测到的RBS位点log-odds分数在以下基因组的重叠和非重叠中的分布(A类)枯草杆菌,(B类)大肠杆菌以及(C类)M.jannaschii先生如图所示,重叠基因可能位于操纵子内部,通常具有较强的RBS位点。然而,核糖体结合的大多数强位点位于非重叠基因之前(独立基因和主导操纵子的基因)。这种趋势在古生物基因组中更为明显M.jannaschii先生比在大肠杆菌枯草杆菌基因组。

图6。序列标志表示GeneMarkS检测到的富氏A.fulgidus上游序列基序。这个一致序列相当于一个真核类启动子元件,而不是原核生物中常见的RBS信号。尽管对上游序列子集的进一步分析揭示了与富氏A.fulgidus 16S rRNA的3′末端部分互补的第二个基序(见图7),但与该模式匹配的位点在富氏A.Fulgidu中普遍存在。

图6。代表GeneMarkS检测到的上游序列基序的序列标志A.fulgidus。这个一致序列相当于一个真核类启动子元件,而不是原核生物中常见的RBS信号。与此模式匹配的站点在富氏A.fulgidus尽管对上游序列子集的进一步分析揭示了第二个基序(见图。7)补充了富氏A.fulgidus16S rRNA。

图7。序列标志表示在富氏a.fulgidus基因组上游序列子集中观察到的RBS基序。该亚群由50 nt长的上游序列组成,与前一基因的3′端重叠。该模体的一致性是对富氏a.fulgidus 16S rRNA片段的补充。

图7。序列标志表示在上游序列子集中观察到的RBS基序富氏A.fulgidus基因组。该亚群由50 nt长的上游序列组成,与前一基因的3′端重叠。这个主题的共识是对富氏A.fulgidus16S rRNA。

图8。两个具有强RBS模式的物种枯草芽孢杆菌和大肠杆菌(分别为实线和虚线)以及一个具有强真核启动子样模式的物种富氏a.fulgidus(虚线)的间隔区长度分布。与枯草杆菌和大肠杆菌的RBS模式相比,富氏A.fulgidus的启动子样模式位于起始密码子的上游。

图8。具有强RBS模式的两个物种的间隔长度分布,枯草杆菌大肠杆菌(分别为实线和虚线),以及一个具有强真核启动子样模式的物种,富氏A.fulgidus(虚线)。启动子样模式富氏A.fulgidus位于起始密码子的上游,远比枯草杆菌大肠杆菌.

图9。(A类)观察到的间隔棒长度分布枯草杆菌两种不同类型的RBS六聚体的基因组:AGGAGG和AGGTGA。多重对齐允许这些六聚体重叠。在实际的上游序列中,这些六聚体往往占据相对于起始密码子的不同位置。当16S rRNA与mRNA结合时,这种偏好可能与核糖体在翻译起始位点的精确定位有关。与罕见的六聚体相比,在距离基因起始点较远的位置观察到的六聚物的平均频率更高。(B类)观察到的间隔棒长度分布热自养M两种不同类型RBS六聚体的基因组:GGAGGT和GGTGAT。这些六聚体的性质与枯草杆菌基因组(A),除了现在平均在距离基因起始点较近的位置发现了比罕见六聚体更频繁的六聚体。

表1。

GenBank中34个完全测序微生物基因组的特征

物种提交日期G+C(%)碱基对基因数量起始密码子不是最左起始密码子的基因数
聚胞菌PCC6803199747.73 573 47031630 (0%)
薰衣草199956.31 669 69526941 (0%)
肺炎支原体199640816 3946772 (0%)
普罗瓦泽基立克次体1998291 111 5238334 (0%)
伯氏疏螺旋体199728.6910 7248504 (0%)
霍里克希热球菌199841.91 738 50520588 (0%)
詹氏甲烷球菌199831.41 664 970171512 (1%)
超嗜热菌199743.51 551 335152221 (1%)
流感嗜血杆菌路199538.11 830 138170933 (2%)
霍乱弧菌200047.72 961 149273661 (2%)
生殖支原体199531.7580 07448012 (3%)
解脲支原体200025.5751 71961117 (3%)
空肠弯曲菌200030.51 641 481165355 (3%)
富氏古球虫199748.62 178 400240779 (3%)
鼠衣原体200040.31 069 41290934 (4%)
沙眼衣原体199841.31 042 51989236 (4%)
幽门螺杆菌26695199738.91 667 867156664 (4%)
肺炎衣原体199840.61 230 230105262 (6%)
甲烷杆菌199749.51 751 3771869120 (6%)
深海热球菌199944.71 765 1181763124 (7%)
大肠杆菌199850.84 639 2214288288 (7%)
幽门螺杆菌J99199939.21 643 8311478114 (8%)
Buchnera sp.APS公司200026.3640 68156449 (9%)
海洋热藻199946.21 860 7251846159 (9%)
耐辐射球菌1999672 648 6382580229 (9%)
盐杆菌属NRC-1200067.92 014 2392058221 (11%)
梅毒螺旋体199852.81 138 0111031133 (13%)
苛求木霉200052.72 679 3062766392 (14%)
脑膜炎奈瑟菌Z2491200051.82 184 4062143320 (15%)
结核分枝杆菌199865.64 411 5293909697 (18%)
枯草芽孢杆菌199743.54 214 8144097786 (19%)
嗜酸热浆菌2000461 564 9061478321 (22%)
耐盐芽孢杆菌200043.74 202 3534066888 (22%)
铜绿假单胞菌200066.66 264 40355651381 (25%)
物种提交日期G+C(%)碱基对基因数量起始密码子不是最左起始密码子的基因数
聚胞菌PCC6803199747.73 573 47031630 (0%)
薰衣草199956.31 669 69526941 (0%)
肺炎支原体199640816 3946772 (0%)
普罗瓦泽基立克次体1998291 111 5238334 (0%)
伯氏疏螺旋体199728.6910 7248504 (0%)
霍里克希热球菌199841.91 738 50520588 (0%)
詹氏甲烷球菌199831.41 664 970171512 (1%)
超嗜热菌199743.51 551 335152221 (1%)
流感嗜血杆菌路199538.11 830 138170933 (2%)
霍乱弧菌200047.72 961 149273661 (2%)
生殖支原体199531.7580 07448012 (3%)
解脲支原体200025.5751 71961117 (3%)
空肠弯曲菌200030.51 641 481165355 (3%)
富氏古球虫199748.62 178 400240779 (3%)
鼠衣原体200040.31 069 41290934 (4%)
沙眼衣原体199841.31 042 51989236 (4%)
幽门螺杆菌26695199738.91 667 867156664 (4%)
肺炎衣原体199840.61 230 230105262 (6%)
甲烷杆菌199749.51 751 3771869120 (6%)
深海热球菌199944.71 765 1181763124 (7%)
大肠杆菌199850.84 639 2214288288 (7%)
幽门螺杆菌J99199939.21 643 8311478114 (8%)
Buchnera sp.APS公司200026.3640 68156449 (9%)
海洋热藻199946.21 860 7251846159 (9%)
耐辐射球菌1999672 648 6382580229 (9%)
盐杆菌属NRC-1200067.92 014 2392058221 (11%)
梅毒螺旋体199852.81 138 0111031133 (13%)
苛求木霉200052.72 679 3062766392 (14%)
脑膜炎奈瑟菌Z2491200051.82 184 4062143320 (15%)
结核分枝杆菌199865.64 411 5293909697 (18%)
枯草芽孢杆菌199743.54 214 8144097786 (19%)
嗜酸热浆菌2000461 564 9061478321 (22%)
耐盐芽孢杆菌200043.74 202 3534066888 (22%)
铜绿假单胞菌200066.66 264 40355651381 (25%)

最后一列显示了注释起始密码子位于最长可能ORF内而不是其5′端的基因的百分比。

表1。

GenBank中34个完全测序微生物基因组的特征

物种提交日期G+C(%)碱基对基因数量起始密码子不是最左起始密码子的基因数
聚胞菌PCC6803199747.73 573 47031630 (0%)
薰衣草199956.31 669 69526941 (0%)
肺炎支原体199640816 3946772 (0%)
普罗瓦泽基立克次体1998291 111 5238334 (0%)
伯氏疏螺旋体199728.6910 7248504 (0%)
霍里克希热球菌199841.91 738 50520588 (0%)
詹氏甲烷球菌199831.41 664 970171512 (1%)
超嗜热菌199743.51 551 335152221 (1%)
流感嗜血杆菌路199538.11 830 138170933 (2%)
霍乱弧菌200047.72 961 149273661 (2%)
生殖支原体199531.7580 07448012 (3%)
解脲支原体200025.5751 71961117 (3%)
空肠弯曲菌200030.51 641 481165355 (3%)
富氏古球虫199748.62 178 400240779 (3%)
鼠衣原体200040.31 069 41290934 (4%)
沙眼衣原体199841.31 042 51989236 (4%)
幽门螺杆菌26695199738.91 667 867156664 (4%)
肺炎衣原体199840.61 230 230105262 (6%)
甲烷杆菌199749.51 751 3771869120 (6%)
深海热球菌199944.71 765 1181763124 (7%)
大肠杆菌199850.84 639 2214288288 (7%)
幽门螺杆菌J99199939.21 643 8311478114 (8%)
Buchnera sp.APS公司200026.3640 68156449 (9%)
海洋热藻199946.21 860 7251846159 (9%)
耐辐射球菌1999672 648 6382580229 (9%)
盐杆菌属NRC-1200067.92 014 2392058221 (11%)
梅毒螺旋体199852.81 138 0111031133 (13%)
苛求木霉200052.72 679 3062766392 (14%)
脑膜炎奈瑟菌Z2491200051.82 184 4062143320 (15%)
结核分枝杆菌199865.64 411 5293909697 (18%)
枯草芽孢杆菌199743.54 214 8144097786 (19%)
嗜酸热浆菌2000461 564 9061478321 (22%)
耐盐芽孢杆菌200043.74 202 3534066888 (22%)
铜绿假单胞菌200066.66 264 40355651381 (25%)
物种提交日期G+C(%)碱基对基因数量起始密码子不是最左起始密码子的基因数
聚胞菌PCC6803199747.73 573 47031630 (0%)
薰衣草199956.31 669 69526941 (0%)
肺炎支原体199640816 3946772 (0%)
普罗瓦泽基立克次体1998291 111 5238334 (0%)
伯氏疏螺旋体199728.6910 7248504 (0%)
霍里克希热球菌199841.91 738 50520588 (0%)
詹氏甲烷球菌199831.41 664 970171512 (1%)
超嗜热菌199743.51 551 335152221 (1%)
流感嗜血杆菌Rd199538.11 830 138170933 (2%)
霍乱弧菌200047.72 961 149273661 (2%)
生殖支原体199531.7580 07448012 (3%)
解脲支原体200025.5751 71961117 (3%)
空肠弯曲菌200030.51 641 481165355 (3%)
富氏古球虫199748.62 178 400240779 (3%)
鼠衣原体200040.31 069 41290934 (4%)
沙眼衣原体199841.31 042 51989236 (4%)
幽门螺杆菌26695199738.91 667 867156664 (4%)
肺炎衣原体199840.61 230 230105262 (6%)
甲烷杆菌199749.51 751 3771869120 (6%)
深海热球菌199944.71 765 1181763124 (7%)
大肠杆菌199850.84 639 2214288288 (7%)
幽门螺杆菌J99199939.21 643 8311478114 (8%)
Buchnera sp.APS公司200026.3640 68156449 (9%)
海洋热藻199946.21 860 7251846159 (9%)
耐辐射球菌1999672 648 6382580229 (9%)
盐杆菌属NRC-1200067.92 014 2392058221 (11%)
梅毒螺旋体199852.81 138 0111031133 (13%)
苛求木霉200052.72 679 3062766392 (14%)
脑膜炎奈瑟菌Z2491200051.82 184 4062143320 (15%)
结核分枝杆菌199865.64 411 5293909697 (18%)
枯草芽孢杆菌199743.54 214 8144097786 (19%)
嗜酸热浆菌2000461 564 9061478321 (22%)
耐盐芽孢杆菌200043.74 202 3534066888 (22%)
铜绿假单胞菌200066.66 264 40355651381 (25%)

最后一列显示了注释起始密码子位于最长可能ORF内而不是其5′端的基因的百分比。

表2。

GeneMark.hmm程序的基因预测准确性使用GeneMarkS导出的蛋白质编码模型作为典型基因模型,使用启发式模型作为非典型基因模型。还启发式导出了非编码序列的模型。

基因检测准确性
带注释的基因检测到的基因锡(%)Sp(%)
富氏A.fulgidus2406258398.591.8
枯草杆菌4099444598.891.1
大肠杆菌4288439796.994.5
流感嗜血杆菌1708180798.292.8
幽门螺杆菌1552175397.786.5
M.jannaschii先生1714189199.490.1
热自养M1868193597.994.5
协同孢子虫3168352198.788.8
平均98.391.3
基因检测准确性
带注释的基因检测到的基因锡(%)Sp(%)
富氏A.fulgidus2406258398.591.8
枯草杆菌4099444598.891.1
大肠杆菌4288439796.994.5
流感嗜血杆菌1708180798.292.8
幽门螺杆菌1552175397.786.5
M.jannaschii先生1714189199.490.1
热自养M1868193597.994.5
协同孢子虫3168352198.788.8
平均98.391.3

与GenBank注释基因的3′端匹配的预测数,其中5′端可能错位,占注释基因数的百分比。

表2。

GeneMark.hmm程序的基因预测准确性使用GeneMarkS导出的蛋白质编码模型作为典型基因模型,使用启发式模型作为非典型基因模型。还启发式导出了非编码序列的模型。

基因检测准确性
带注释的基因检测到的基因锡(%)Sp(%)
富氏A.fulgidus2406258398.591.8
枯草杆菌4099444598.891.1
大肠杆菌4288439796.994.5
流感嗜血杆菌1708180798.292.8
幽门螺杆菌1552175397.786.5
M.jannaschii先生1714189199.490.1
热自养M1868193597.994.5
协同孢子虫3168352198.788.8
平均98.391.3
基因检测准确性
带注释的基因检测到的基因锡(%)Sp(%)
富氏A.fulgidus2406258398.591.8
枯草杆菌4099444598.891.1
大肠杆菌4288439796.994.5
流感嗜血杆菌1708180798.292.8
幽门螺杆菌1552175397.786.5
M.jannaschii先生1714189199.490.1
热自养M1868193597.994.5
协同孢子虫3168352198.788.8
平均98.391.3

与GenBank注释基因的3′端匹配的预测数,其中5′端可能错位,占注释基因数的百分比。

表3。

GeneMarkS预测精度的参数显示在程序的中间步骤中,因为它在整个过程中运行枯草杆菌基因组和一组195个实验验证大肠杆菌基因

步骤枯草杆菌(全基因组)大肠杆菌(验证集)
精确预测的基因(%)检测到的基因b条(%)潜在新基因(%)精确预测的基因(%)检测到的基因b条(%)
256.69811.767.2100
480.898.17.285.199.5
4.183.1976.394.4100
4.283.596.86.494.4100
4.383.296.76.494.4100
步骤枯草杆菌(全基因组)大肠杆菌(验证集)
精确预测的基因(%)检测到的基因b条(%)潜在新基因(%)精确预测的基因(%)检测到的基因b条(%)
256.69811.767.2100
480.898.17.285.199.5
4.183.1976.394.4100
4.283.596.86.494.4100
4.383.296.76.494.4100

指5′端和3′端预测都与注释匹配的情况。

b条指3′端预测(不一定是5′端预测)与注释匹配的情况。

表3。

GeneMarkS预测精度的参数显示在程序的中间步骤中,因为它在整个过程中运行枯草杆菌基因组和一组195个实验验证大肠杆菌基因

步骤枯草杆菌(全基因组)大肠杆菌(验证集)
精确预测的基因(%)检测到的基因b条(%)潜在新基因(%)精确预测的基因(%)检测到的基因b条(%)
256.69811.767.2100
480.898.17.285.199.5
4.183.1976.394.4100
4.283.596.86.494.4100
4.383.296.76.494.4100
步骤枯草杆菌(全基因组)大肠杆菌(验证集)
精确预测的基因(%)检测到的基因b条(%)潜在新基因(%)精确预测的基因(%)检测到的基因b条(%)
256.69811.767.2100
480.898.17.285.199.5
4.183.1976.394.4100
4.283.596.86.494.4100
4.383.296.76.494.4100

指5′端和3′端预测均与注释匹配的情况。

b条指3′端预测(不一定是5′端预测)与注释匹配的情况。

表4。

在以下测试集上比较GeneMarkS、Glimmer 2.02和ORPHEUS基因预测程序:枯草杆菌GenBank(A)中注释的基因组;三套枯草芽孢杆菌短于300 nt的基因,具有至少一个(B)、至少两个(C)和至少10个(D)的显著同源性,通过BLAST分析确定;和一组195个实验验证大肠杆菌基因(E)

程序测试集测试集中的基因精确预测的基因检测到的基因b条(3′端)
闪光A类40992556 (62.4%)4023(98.1%)
奥菲斯A类3028 (73.9%)3484 (85.0%)
基因标记SA类3412(83.2%)3962 (96.7%)
闪光B类12370 (57.0%)112 (91.1%)
基因标记SB类102(82.9%)113(91.9%)
闪光C类7241 (57.0%)66 (91.7%)
基因标记SC类64(88.9%)68(94.4%)
闪光D类5126 (51.0%)45 (88.2%)
基因标记SD类46(90.2%)48(94,1%)
闪光电子195139 (71.3%)195(100%)
奥菲斯电子148 (75.9%)181 (92.8%)
基因标记S电子184(94.4%)195(100%)
程序测试集测试集中的基因精确预测的基因检测到的基因b条(3′端)
闪光A类40992556 (62.4%)4023(98.1%)
奥菲斯A类3028 (73.9%)3484 (85.0%)
基因标记SA类3412(83.2%)3962 (96.7%)
闪光B类12370 (57.0%)112 (91.1%)
基因标记SB类102(82.9%)113(91.9%)
闪光C类7241 (57.0%)66 (91.7%)
基因标记SC类64(88.9%)68(94.4%)
闪光D类5126 (51.0%)45 (88.2%)
基因标记SD类46(90.2%)48(94,1%)
闪光电子195139 (71.3%)195(100%)
奥菲斯电子148 (75.9%)181 (92.8%)
基因标记S电子184(94.4%)195(100%)

粗体数字表示每个测试集检测到的基因数量或准确预测的基因数量最多。

指5′端和3′端预测均与注释匹配的情况。

b条指3′端预测(不一定是5′端预测)与注释匹配的情况。

表4。

GeneMarkS、Glimmer 2.02和ORPHEUS基因预测程序在以下测试集上的比较:枯草杆菌GenBank(A)中注释的基因组;三套枯草芽孢杆菌短于300 nt的基因,具有至少一个(B)、至少两个(C)和至少10个(D)的显著同源性,通过BLAST分析确定;和一组195个实验验证大肠杆菌基因(E)

程序测试集测试集中的基因精确预测的基因检测到的基因b条(3′端)
闪光A类40992556 (62.4%)4023(98.1%)
奥菲斯A类3028 (73.9%)3484 (85.0%)
基因标记SA类3412(83.2%)3962 (96.7%)
闪光B类12370 (57.0%)112 (91.1%)
基因标记SB类102(82.9%)113(91.9%)
闪光C类7241 (57.0%)66 (91.7%)
基因标记SC类64(88.9%)68(94.4%)
闪光D类5126 (51.0%)45 (88.2%)
基因标记SD类46(90.2%)48(94,1%)
闪光电子195139 (71.3%)195(100%)
奥菲斯电子148 (75.9%)181 (92.8%)
基因标记S电子184(94.4%)195(100%)
程序测试集测试集中的基因精确预测的基因检测到的基因b条(3′端)
闪光A类40992556 (62.4%)4023(98.1%)
奥菲斯A类3028 (73.9%)3484 (85.0%)
基因标记SA类3412(83.2%)3962 (96.7%)
闪光B类12370 (57.0%)112 (91.1%)
基因标记SB类102(82.9%)113(91.9%)
闪光C类7241 (57.0%)66 (91.7%)
基因标记SC类64(88.9%)68(94.4%)
闪光D类5126 (51.0%)45 (88.2%)
基因标记SD类46(90.2%)48(94,1%)
闪光电子195139 (71.3%)195(100%)
奥菲斯电子148 (75.9%)181 (92.8%)
基因标记S电子184(94.4%)195(100%)

粗体数字表示每个测试集检测到的基因数量或准确预测的基因数量最多。

指5′端和3′端预测均与注释匹配的情况。

b条指3′端预测(不一定是5′端预测)与注释匹配的情况。

工具书类

1菲克特,J.W(

1981
)DNA序列中蛋白质编码区的识别。
核酸研究。
,
10
,
5303
–5318.

2 Gribskov,M.,Devereux,J.和Burgess,R.R(

1984
)密码子偏好图:蛋白质编码序列的图形分析和基因表达预测。
核酸研究。
,
12
,
539
–549.

3斯塔登,R(

1984
)蛋白质编码对DNA序列的影响的测量及其用于寻找基因。
核酸研究。
,
12
,
551
–567.

4 Borodovsky,M.Y.,Sprizhitskii,Y.A.,Golovanov,E.I.和Aleksandrov,A.A(

1986
)in中功能区初级结构的统计模式大肠杆菌基因组:III.编码区的计算机识别。
分子生物学。
,
20
,
1145
–1150.

5 Borodovsky,M.Y.和McIninch,J.D(

1993
)基因标记:两条DNA链的并行基因识别。
计算。化学。
,
17
,
123
–153.

6 Salzberg,S.L.、Delcher,A.L.、Kasif,S.和White,O(

1998
)使用内插马尔可夫模型进行微生物基因识别。
核酸研究。
,
26
,
544
–548.

7 Delcher,A.L.、Harmon,D.、Kasif,S.、White,O.和Salzberg,S.L(

1999
)改进GLIMMER微生物基因鉴定。
核酸研究。
,
27
,
4636
–4641.

8 Krogh,A.,Mian,I.S.和Haussler,D(

1994
) 发现基因的隐马尔可夫模型大肠杆菌DNA。
核酸研究。
,
22
,
4768
–4778.

9卢卡欣,A.V.和博罗多夫斯基,M(

1998
) GeneMark.hmm:基因发现的新解决方案。
核酸研究。
,
26
,
1107
–1115.

10 Hayes,W.S.和Borodovsky,M(

1998
)如何解释匿名细菌基因组:基因识别的机器学习方法。
基因组研究。
,
8
,
1154
–1171.

11 Audic,S.和Claverie,J.M(

1998
)微生物基因组中蛋白质编码区的自我识别。
程序。美国国家科学院。科学。美国
,
95
,
10026
–10031.

12巴尔迪,P(

2000
)微生物基因组中蛋白质编码区聚类算法的收敛性。
生物信息学
,
16
,
367
–371.

13 Besemer,J.和Borodovsky,M(

1999
)推导基因发现模型的启发式方法。
核酸研究。
,
27
,
3911
–3920.

14弗里希曼D.、米罗诺夫A.、梅韦斯H.-W.和盖尔芬德M(

1998
)在完全测序的细菌基因组中结合不同的基因识别证据。
核酸研究。
,
26
,
2941
–2947.[发表勘误表于
核酸研究。
(
1998
)
26
,
3870
]

15 Shmatkov,A.M.、Melikyan,A.A.、Chernousko,F.L.和Borodovsky,M(

1999
)通过“框架-五框架”算法发现原核基因:靶向基因启动和重叠基因。
生物信息学
,
15
,
874
–886.

16 Yada,T.、Nakao,M.、Totoki,Y.和Nakai,K(

1999
) 建模和预测大肠杆菌使用隐马尔可夫模型的基因。
生物信息学
,
15
,
987
–993.

17 Hayes,W.S.和Borodovsky,M(

1998
) 从未标记的DNA序列推导核糖体结合位点(RBS)统计模型,并使用RBS模型进行N末端预测。
派克靴。交响乐团。生物计算机。
,
279
–290.

18科扎克,M(

1999
)原核生物和真核生物翻译的起始。
基因
,
234
,
187
–208.

19 Neuwald,A.F.、Liu,J.S.和Lawrence,C.E(

1995
)吉布斯基序取样:细菌外膜蛋白重复序列的检测。
蛋白质科学。
,
4
,
1618
–1632.

20 Galas,D.J.,Eggert,M.和Waterman,M.S(

1985
)DNA序列的严格模式识别方法。启动子序列分析大肠杆菌.
分子生物学杂志。
,
186
,
117
–128.

21 Pevzner,P.A.,Borodovsky,M.Y.和Mironov,A.A(

1989
)核苷酸序列语言学。一: 偏离平均统计特征的显著性和单词出现频率的预测。
《生物分子杂志》。结构。动态。
,
6
,
1013
–1026.

22斯塔登,R(

1989
)在核酸序列中发现新基序的方法。
计算。申请。Biosci公司。
,
5
,
293
–298.

23赫兹,G.Z.,哈特泽尔,G.W.,III和斯托莫,G.D(

1990
)识别已知功能相关的未对齐DNA序列中的一致模式。
计算。申请。Biosci公司。
,
6
,
81
–92.

24 Lawrence,C.E.,Altschul,S.F.,Boguski,M.S.,Liu,J.S.,Neuwald,A.F.和Wootton,J.C(

1993
)检测细微序列信号:多重比对的吉布斯采样策略。
科学类
,
262
,
208
–214.

25赫兹,G.Z和Stormo,G.D(

1999
)通过多序列的统计显著比对来识别DNA和蛋白质模式。
生物信息学
,
15
,
563
–577.

26弗伦克尔、曼德尔、弗里德伯格和马加利特(

1995
)未对齐DNA序列中常见基序的识别:应用于大肠杆菌Lrp调节子。
计算。申请。Biosci公司。
,
11
,
379
–387.

27 Bailey,T.L.和Elkan,C(

1995
)利用MEME发现主题的先验知识的价值。
Ismb公司
,
,
21
–29.

28 van Helden,J.、Andre,B.和Collado-Vides,J(

1998
)通过寡核苷酸频率的计算分析从酵母基因上游区域提取调控位点。
分子生物学杂志。
,
281
,
827
–842.

29 Hannenhalli,S.S.、Hayes,W.S.、Hatzigeorgiou,A.G.和Fickett,J.W(

1999
)细菌起始位点预测。
核酸研究。
,
27
,
3577
–3582.

30汤帕,M(

1999
)一种在序列中发现短基序的精确方法,并应用于核糖体结合位点问题。
Ismb公司
,
262
–271.

31 Sako,Y.、Nomura,N.、Uchida,A.、Ishida,Y.和Morii,H.、Koga,Y.,Hoaki,T.和Maruyama,T(

1996
)薰衣草gen.nov.,sp.nov.是一种生长温度高达100℃的新型需氧高温古细菌。
国际期刊系统。细菌。
,
46
,
1070
–1077.

32 Klenk,H.P.,Clayton,R.A.,Tomb,J.,White,O.,Nelson,K.E.,Ketchum,K.A.,Dodson,R.J.,Gwinn,M.,Hickey,E.K.,Peterson,J.D.等人。 (

1997
) 高温硫酸盐还原古细菌的全基因组序列富氏古球虫.
自然
,
390
,
364
–370.

33 Kunst,F.、Ogasawara,N.、Mozier,I.、Albertini,A.M.、Alloni,G.、Azevedo,V.、Bertero,M.G.、Bessieres,P.、Bolotin,A.、Borchert,S.等人。 (

1997
) 革兰氏阳性菌的全基因组序列枯草芽孢杆菌.
科学类
,
390
,
249
–256.

34布拉特纳,F.R.,普朗基特,G.,III,布洛赫,C.A.,佩尔纳,N.T.,伯兰,V.,莱利,M.,科拉多·维德斯,J.,格拉斯纳,J.D.,罗德,C.K.,梅休,G.F.等人(

1997
)的完整基因组序列大肠杆菌K-12。
科学类
,
277
,
1453
–1474.

35 Fleischmann,R.D.,Adams,M.D.,White,O.,Clayton,R.A.,Kirkness,E.F.,Kerlavage,A.R.,Bult,C.J.,Tomb,J.,Dougherty,B.A.,Merrick,J.M.等人(

1995
) 全基因组随机测序和组装流感嗜血杆菌路。
科学类
,
269
,
496
–512.

36 Tomb,J.-F.,White,O.,Kerlavage,A.R.,Clayton,R.A.,Sutton,G.G.,Fleischmann,R.D.,Ketchum,K.A.,Klenk,H.P.,Gill,S.,Dougherty,B.A.等人(

1997
)胃病原体的完整基因组序列幽门螺杆菌.
自然
,
388
,
539
–547.

37 Smith,D.R.、Doucette-Stamm,L.A.、Deloughery,C.、Lee,H.-M.、Dubois,J.、Aldredge,T.、Bashirzadeh,R.、Blakely,D.、Cook,R.和Gilbert,K.等人(

1997
)的完整基因组序列甲烷杆菌δH:功能分析和比较基因组学。
J.细菌
.,
179
,
7135
–7155.

38 Bult,C.J.、White,O.、Olsen,G.J.、Zhou,L.、Fleischmann,R.D.、Sutton,G.G.、Blake,J.A.、Fitzgerald,L.M.、Clayton,R.A.、Gocayne,J.D.等人。 (

1996
)产甲烷古菌的完整基因组序列,詹氏甲烷球菌.
科学类
,
273
,
1058
–1073.

39科尔,S.T.、布罗希,R.、帕克希尔,J.、加里尔,T.、丘吉尔,C.、哈里斯,D.、戈登,S.V.、埃格迈耶,K.、加斯,S.、巴里,C.E.、III等人(

1998
)解读的生物学结核分枝杆菌来自完整的基因组序列。
自然
,
393
,
537
–544.

40 Kaneko,T.,Sato,S.,Kotani,H.,Tanaka,A.,Asamizu,E.,Nakamura,Y.,Miyajima,N.,Hirosawa,M.,Sugiura,M..,Sasamoto,S..等人(

1996
) 单细胞蓝藻基因组序列分析聚胞藻属. 应变PCC6803。二、。整个基因组的序列测定和潜在蛋白质编码区的分配。
DNA研究。
,
,
109
–136.

41 Link,A.J.,Robison,K.和Church,G.M(

1997
)比较基因组中编码的蛋白质的预测和观察特性大肠杆菌K-12。
电泳
,
18
,
1259
–1313.

42 Schneider,T.D.和Stephens,R.M(

1990
) 序列标识:一种显示一致序列的新方式。
核酸研究。
,
18
,
6097
–6100.

43 Altschul,S.F.、Gish,W.、Miller,W.,Myers,E.W.和Lipman,D.J(

1990
)基本本地对齐搜索工具。
分子生物学杂志。
,
215
,
403
–410.

北卡罗来纳州Kyrpides和北卡罗来那州Ouzounis 44号(

1999
)古菌中的转录。
程序。美国国家科学院。科学。美国
,
96
,
8545
–8550.

45 P.J.Keeling和W.F.Doolittle(

1995
)古生菌:缩小原核生物和真核生物之间的差距。
程序。美国国家科学院。科学。美国
,
92
,
5761
–5764.

46托尔斯特拉普,N.,森森,C.W.,加勒特,R.A.和克劳森,I.G(

2000
)archaeon翻译起始的两种不同且高度组织化的机制硫矿硫化叶菌.
极端嗜热菌
,
4
,
175
–179.

47 Chen,H.、Bjerknes,M.、Kumar,R.和Jay,E(

1994
)Shine–Dalgarno序列和大肠杆菌mRNA。
核酸研究。
,
22
,
4953
–4957

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看进一步的通知。