基因检测的准确性
首先我们讨论检测基因或预测蛋白质的准确性用“开放式开始”对ORF进行编码传统上,原核基因发现工具的准确性得到了表征通过它们在鉴定原核基因独特标记方面的表现,他们的3′端。GeneMarkS程序在八个匿名原核序列上运行全基因组富氏杆菌、枯草芽孢杆菌、大肠杆菌,流感嗜血杆菌,幽门螺杆菌、M.jannaschii、, 热自养M和协同孢子虫。于完成GeneMarkS迭代,一次特殊运行的GeneMark.hmm执行2.0。在此运行中,新推导的马尔可夫模型蛋白编码区被用作典型的基因模型由GeneMarkS导出的启动前信号的另两个模型,位置频率基质和间隔物长度分布。此外,要完成我们使用了一组可以在GeneMark.hmm 2.0中使用的模型非典型基因模型和定义的非编码区模型通过启发式方法(13). 这个比较预测基因的3′端带有基因3′端注释在GenBank中。表征敏感性和特异性的数字所有八个基因组的预测结果如表所示这些数字表明精度相当高用于一个自我训练的单序列基因查找器。
表2。
使用GeneMark.hmm程序的基因预测准确性以GeneMarkS作为典型基因推导的蛋白质编码模型模型和启发式模型作为非典型基因模型对于非编码序列也是启发式推导的。
| | | 基因检测准确性 | |
| 带注释的基因
| 检测到的基因一
| 锡(%)
| Sp(%)
|
富氏A.fulgidus | 2406 | 2583 | 98.5 | 91.8 |
枯草杆菌 | 4099 | 4445 | 98.8 | 91.1 |
大肠杆菌 | 4288 | 4397 | 96.9 | 94.5 |
流感嗜血杆菌 | 1708 | 1807 | 98.2 | 92.8 |
幽门螺杆菌 | 1552 | 1753 | 97.7 | 86.5 |
M.jannaschii先生 | 1714 | 1891 | 99.4 | 90.1 |
热自养M | 1868 | 1935 | 97.9 | 94.5 |
协同孢子虫 | 3168 | 3521 | 98.7 | 88.8 |
平均 | | | 98.3 | 91.3 |
精确基因预测的准确性
基因标记S在精确基因预测中的性能测试已完成枯草杆菌基因组。预付款迭代过程的步骤如左图所示表的一半.在第一次迭代时GeneMark.hmm 2.0的启发式模型枯草杆菌编码和非编码序列检测到注释的4099个基因中98.0%在GenBank中。然而,随着程序的RBS模块切换除此之外,只有56.6%的基因。RBS模型的生成和添加提高了百分比基因的准确预测为80.8%,而检测到的基因中,98.1%的基因基本相同。下一次允许生成的伪本机模型的步骤、生成和使用83.1%的准确预测枯草杆菌基因而检测到的基因比例下降到97.0%。检测到的基因数量的变化证实了早期观察到GeneMark.hmm程序中使用的启发式模型能够检测典型和非典型类别的基因(13). 启发式敏感性的增加然而,模型的实现是以特异性降低为代价的。经过三个常规周期后,预测值相同的百分比到前一个达到99%,迭代停止。在最后一步,预测了4224个基因。与相比GenBank中注释的基因似乎有83.2%枯草杆菌基因被精确预测,而96.7%的注释基因被检测到。RBS图案图中显示了由GeneMarkS导出的间隔棒长度分布在图中序列形式的A和B徽标(42)和线图。以前精确预测精度的报告数字枯草杆菌基因如下所示。逐帧程序(15)发现85.8%的基因启动和ORPHEUS(14)预测80.2%的基因起始于346个基因的测试集。比较的精度数据表明,GeneMarkS是一种自我训练程序,是两种帧对帧的合理替代方案该计划利用大量以前的注释序列,以及ORPHEUS,其用于非监督从序列比较到综合数据库的训练数据集已知蛋白质序列。
(A类)顺序表示检测到的RBS位置频率模式的徽标由GeneMarkS在分析枯草杆菌基因组学数据。每个位置四个字母的总高度表示位置特定的信息内容,而每个位置的高度字母与核苷酸频率成正比(42)。(B类)间隔棒长度的概率分布图,序列在RBS序列和基因启动之间。
表3。
GeneMarkS预测精度参数显示在中间整个过程运行时的步骤枯草杆菌基因组和一组195个实验验证大肠杆菌基因
步骤 | 枯草杆菌(整个基因组) | | | 大肠杆菌(已验证套) | |
| 基因准确无误预测一(%)
| 基因检测b条(%)
| 潜在的新基因(%)
| 基因准确无误预测一(%)
| 基因检测b条(%)
|
2 | 56.6 | 98 | 11.7 | 67.2 | 100 |
4 | 80.8 | 98.1 | 7.2 | 85.1 | 99.5 |
4.1 | 83.1 | 97 | 6.3 | 94.4 | 100 |
4.2 | 83.5 | 96.8 | 6.4 | 94.4 | 100 |
4.3 | 83.2 | 96.7 | 6.4 | 94.4 | 100 |
整体上的类似测试大肠杆菌基因组表明GeneMarkS的预测与GenBank的注释相匹配只有69.7%的病例出现基因突变。然而,考虑到缺乏已验证基因启动的数据,应采用此数字谨慎行事。在一个更现实的测试中,我们使用了一组195大肠杆菌起始基因已通过实验验证通过蛋白质N末端测序(41).表(右半部分)详细介绍对这个测试的描述,一次又一次的迭代。在最后一个步骤中,195个基因中有184个得到了准确预测(94.4%)共检出195例(100%)。这里有以下预订应该注意。195人的GeneMark得分分析大肠杆菌基因(5)表明得分较高的基因比例,表明密码子使用偏倚越高,可能表达水平越高,与平均得分分布相比略有上升对于大肠杆菌相同大小的基因集。因此,准确度也可能略有提高。
短基因
区分短基因和随机ORF是众所周知的困难。为了测试GeneMarkS寻找短基因的能力,我们使用476枯草杆菌长度为300nt的基因或更短,如GenBank中所述。该集合的三个子集是根据蛋白质分析结果汇编BLAST的产品(43). 第一个该组包括123个基因,其蛋白产物至少具有与已知蛋白质的一个重要序列相似性(与电子-值<1e–4)。请注意,任何点击至枯草杆菌蛋白质或注释为“假定”或“假设”的蛋白质忽略。第二组包含72个基因,其中至少有两个强基因在蛋白质水平上的相似性。第三组有52个基因,包括这些基因的蛋白产物与已知蛋白质。
精确预测和检测的基因百分比表中引用了每一组中的GeneMarkS可以看出,精度参数与整体相比,短基因的变化不明显基因集。因此,这些数据证明了基因长度方面的程序性能。
表4。
GeneMarkS和Glimmer 2.02的比较和ORPHEUS基因预测程序的测试集如下:这个枯草杆菌GenBank(A)中注释的基因组;三套枯草芽孢杆菌短于300的基因nt具有至少一个(B)、至少两个(C)和至少10个(D)显著同源性通过BLAST分析确定;和一组195个实验验证大肠杆菌基因(E)
程序
| 测试集
| 测试集中的基因
| 基因准确无误预测一
| 检测到的基因b条(3′端)
|
闪光 | A类 | 4099 | 2556 (62.4%) | 4023(98.1%) |
奥菲斯 | A类 | | 3028 (73.9%) | 3484 (85.0%) |
基因标记S | A类 | | 3412(83.2%) | 3962 (96.7%) |
闪光 | B类 | 123 | 70 (57.0%) | 112 (91.1%) |
基因标记S | B类 | | 102(82.9%) | 113(91.9%) |
闪光 | C类 | 72 | 41 (57.0%) | 66 (91.7%) |
基因标记S | C类 | | 64(88.9%) | 68(94.4%) |
闪光 | D类 | 51 | 26 (51.0%) | 45 (88.2%) |
基因标记S | D类 | | 46(90.2%) | 48(94,1%) |
闪光 | 电子 | 195 | 139 (71.3%) | 195(100%) |
奥菲斯 | 电子 | | 148 (75.9%) | 181 (92.8%) |
基因标记S | 电子 | | 184(94.4%) | 195(100%) |
与其他项目的比较
比较GeneMarkS与Glimmer和ORPHEUS的性能我们必须下载并运行这两个程序。Glimmer 2.02是按照分发文件中的说明运行。注释就基因检测而言,Glimmer 2.02运行使用默认参数检测到的基因明显多于注释的基因两者都适用于枯草杆菌和大肠杆菌.虽然其中一些预测可能检测到未注释的真实基因在GenBank中,假设百分比GenBank中遗漏的真实基因数量如此之大。然而,我们没有将Glimmer的默认参数更改为设计决策(7). 得到Glimmer 2.02使用无核糖体结合的精确基因预测能量计算。此功能需要16S rRNA的事先数据给定物种的序列。提供16S rRNA序列每个物种。核糖体结合自由能的选择在Glimmer文档中评论为“不完全经过测试。”然而,我们观察到Glimmer结果总是启用此功能时得到改进;因此,这个选项是打开。
在运行ORPHEUS之前,非冗余蛋白质数据库是通过合并更新的SWISS-PROT、TrEMBL和PIR数据库创建在NRDB2软件的帮助下(W.Gish,未发表的材料)。这个ORPHEUS的默认参数设置阻止查找<105的基因nt。然而,在大肠杆菌测试集合以及在短集合中枯草杆菌基因:最短为114nt长。
就整体而言枯草杆菌基因组闪光2.02检测到98.1%的注释基因,而GeneMarkS检测到96.7%,ORPHEUS检测到85%(表). 反过来,GeneMarkS准确地发现了83.2%的ORPHEUS的基因精确预测了73.9%的基因和Glimmer占62.4%。请注意,GeneMarkS位于中间步骤(步骤4.1,图。)得出了与Glimmer几乎相同的结果检测到的基因数量(表). 在这里step GeneMark.hmm 2.0使用启发式马尔可夫模型并检测98.1%的注释枯草杆菌基因。尽管如此,GeneMark.hmm 2.0在这一步做出了4316个基因预测Glimmer 2.02做出的5075个预测。
195台经实验验证大肠杆菌基因,GeneMarkS和Glimmer 2.02都检测到了所有的基因(表). GeneMarkS准确识别了94.4%的基因启动,而ORPHEUS和Glimmer 2.02精确预测基因起始位置分别为75.9%和71.3%。
对于短集枯草杆菌基因(as如表所示)预测人GeneMarkS似乎比Glimmer的更准确。
就基因检测而言,我们又进行了一次利用基因组进行比较测试大肠杆菌和枯草杆菌.我们已经指出了过渡从对大量基因的不太精确的预测到随着GeneMarkS迭代,对较少数量的基因进行更精确的预测进度。这种变化是由于从更敏感而不太具体的启发式进行训练的过程模型更具体,敏感性略低模型。本质上,这种转换给了GeneMarkS更多的功能在失去某些能力的情况下找到典型班级的基因寻找非典型基因。
为了结合启发式模型和伪本机模型的优点,我们在另一次运行GeneMark.hmm时同时使用了这些模型2.0如上所述(见表). 这个通过此程序设置获得的结果枯草杆菌和大肠杆菌基因组也如图所示其中比较了GeneMark.hmm 2.0预测,在基因检测方面,用GenBank注释这两个细菌基因组以及Glimmer 2.02的预测。
显示组的维恩图GenBank注释与检测到的基因集之间的关系由GeneMark.hmm 2.0和Glimmer 2.02为枯草杆菌基因组(A) 以及大肠杆菌基因组(B)。
基序的功能和进化变异性在上游序列中
GeneMarkS为研究序列模式提供了新的机会位于基因启动的上游区域。在许多原核生物中基因组,上游序列携带一个功能位点(即RBS位点)具有两个核苷酸频率基序(图。A) 以及垫片长度分布(图。B) ●●●●。
有趣的是,GeneMarkS导出了上游信号的模型可能因研究中的基因组和环境而异程序参数的。如下所示,上游序列集可能是不均匀的。通常,如果上游序列集有助于序列基序,通过Gibbs采样的未映射多重比对不太适合派生模式。然而,可能有是一些有趣的模式配置,其中方法仍然作品。下面我们分别讨论分析的细节细菌种类和两类古细菌和克里纳恰奥塔。
在研究的细菌基因组中,25或50nt长的上游序列导致显著的RBS图案,类似于为枯草杆菌基因组(图。). 然而,仍有几个担忧。一个是RBS序列在一个基因组。为了探索这种可能性,我们进行了额外的对几个数据集的分析。我们选择了一组基因起点被同一条链上的前一个基因重叠。请注意4nt的链基因重叠是最常见的基因重叠。我们扫描并表征了上游序列中的六聚体根据RBS主题和背景得出的log-odds分数模型。背景模型是一个普通的编码马尔可夫模型重叠基因的区域。对于非重叠启动这是一个非编码序列的普通马尔可夫模型。通过识别假定苏格兰皇家银行在50 nt上游地区内得分最高,我们对枯草杆菌,大肠杆菌和M.jannaschii先生基因组。RBS站点的分数分布与前一项重叠编码区与非重叠区相比没有显著差异(图。). 间隔棒长度分布重叠RBS的确有三个周期(未显示数据),整个间隔棒长度分布完全缺乏(图。B) ●●●●。
log-odds的分布GeneMarkS检测到的RBS站点的分数,以重叠的形式显示和非重叠基因(A类)枯草杆菌,(B类)大肠杆菌和(C类)M.jannaschii先生可以看出,重叠的基因可能位于操纵子内部,经常有强大的RBS站点。尽管如此,核糖体的大多数强位点结合先于非重叠基因(独立基因和引导操纵子的基因)。这种趋势在古细菌基因组案例M.jannaschii先生比在中大肠杆菌和枯草杆菌基因组。
作为此分析的扩展,我们导出了集合的RBS基序与重叠基因启动子相关的上游序列。在几个这些基序与衍生基序之间的显著差异观察到非重叠启动。有趣的是,对于结核分枝杆菌RBS基序衍生的基因组前一个基因与4nt重叠的基因更加明显而非重叠基因衍生的RBS基序。请注意G+C丰富度结核分枝杆菌基因组使RBS模式难以检测(30,39).
古生物基因组的GeneMarkS分析结果如下符合转录和翻译的概念古生菌的机械是真核生物和细菌的复杂混合物特性(44). 转录古生菌的形成机制与真核生物有很多相似之处。尤其,基本起始因子TFIIB和TFIID以及八个“小”亚基RNA聚合酶显示出与真核生物对应物的同源性。此外,真核生物TATA-box结合蛋白被证明具有几种古生物中的同源蛋白质。另一方面,细菌和古生菌的翻译起始机制长期以来一直被认为是功能上的不同组件类似,以细菌型多顺反子的加工为中心信使核糖核酸(45). 两者之间的重要区别翻译起始的古代和真核机制是真核生物中缺乏蛋白质的古菌同源物mRNA CAP识别。
GeneMarkS应用于几个古生物基因组提取TATA盒或RBS型图案作为模型位于上游序列的保守位置。这个特别的结果显然与第一个操纵子和与操纵子内部基因相关的分离基因。RBS和启动子位点在比对过程中的竞争可以通过简单限制上游长度来排除序列。特别是,长度必须至少为50 nt to检测TATA盒相关模式。对于25 nt长的上游序列非重叠基因的多重比对过程通常会产生RBS类型模式。许多古生物都观察到了这一结果物种,但不是所有物种。
在Crenarchaeota,例如A.pernix公司和嗜气芽孢杆菌我们发现了TATA盒是为非重叠基因的上游序列。这一结果得到了证实实验观察到的对无领导抄本的强烈偏见在里面嗜气芽孢杆菌(M.Slupska、A.King、S.Fitz-Gibon、,J.Besemer,M.Borodovsky,J.Miller,出版中)。另一方面,重叠基因样本的上游序列集合,据推测,操纵子中的那些内部分子表现出了这个主题与16S rRNA的一部分互补。请注意,对于重叠的基因A.pernix公司,GeneMarkS预测几乎相等启动密码子ATG和GTG的频率,一个有趣的偏差不是在任何其他物种中观察到。另一种Crenarchaeote的基因组序列,硫矿硫化叶菌,之前分析过并检测到上游序列中发现的基序的二元性翻译起始的两种不同机制的存在(46).
类似地,在嗜热亚麻子的上游序列中富氏A.fulgidusGeneMarkS检测到这两种转录和翻译起始相关的主题(图和). 尤其是占主导地位的保守派50 nt长上游序列中的基序似乎不是RBS由于其与16S rRNA和位置周围的定位–30(图。).这个主题有一个共识[G/a,G/a,A、 A,A,A],可以被解释为真核生物类型启动子基序。这一结果与获得的结果形成了鲜明对比用于嗜热性欧亚茶素M.jannaschii先生谁的由GeneMarkS确定的上游基序偏爱定位在距离基因起点更短的地方(图。)并被公认为RBS图案与16S rRNA序列互补。
序列标志代表GeneMarkS检测到的上游序列基序A.fulgidus。这个一致序列相当表明存在真核样启动子元素,而不是原核生物中常见的RBS信号。地点与此模式匹配的在富氏A.fulgidus,尽管对上游序列子集的进一步分析揭示了第二个图案(见图。)互补的至3′终端段富氏A.fulgidus16S rRNA。
序列标志代表在该基因上游序列子集中观察到的RBS基序富氏A.fulgidus基因组。该子集由50个nt长上游序列与3′端重叠前一个基因。这个主题的共识是互补的到的一部分富氏A.fulgidus16S rRNA。
间隔棒长度分布对于两个具有强RBS模式的物种,枯草杆菌和大肠杆菌(分别为实线和虚线),和一个具有强真核启动子样模式的物种,富氏A.fulgidus(虚线)。类促进者模式属于富氏A.fulgidus位于上游更远处比RBS模式的启动密码子枯草杆菌和大肠杆菌.
在搜索富氏A.fulgidus基因组序列,我们对25 nt长的上游序列进行了吉布斯比对重叠的基因更可能存在于操纵子内部。这个富氏A.fulgidus基因组包含相对较大的允许进一步减少集合的基因重叠数仅使用与他们上游的邻居正好减少了4 nt。事实上,吉布斯采样这组上游序列的比对检测到一个基序共识对3′端的补充的富氏A.fulgidus16S rRNA(图。). 这一发现表明,无领导的成绩单在Crenarcheota中观察到的也可能存在于一些euryarchaeote物种中,而含铅成绩单的比例似乎要高得多。
有趣的是,在最近的NCBI注释中,发现了欧亚海龙类物种热浆火山(ftp://ncbi.nlm.nih.gov/genemos/细菌/热质_火山/),GeneMarkS程序使用了上游序列的默认长度作为50 nt。我们对运行上游长度为25 nt的GeneMarkS的测试序列长度导致了非常接近的结果,其中98.4%基因开始预测在同一位置。
在细菌基因组中,我们观察到吉布斯取样非重叠基因的50nt上游序列比对汇聚成带有RBS图案的路线。这个观察结果提示启动子相关的基序在度比RBS基序高。
GeneMarkS在某些情况下产生的结果显示出非同质性带有RBS基序的序列集。我们举例说明的结果枯草杆菌和热自养M基因组在图中A和B。如果枯草杆菌二六聚体AGGAGG和AGGTGA可以叠加在Gibbs中上游序列的采样多重比对。两种六聚体是对重叠部分的补充枯草杆菌16秒rRNA。六聚体对内部位置有不同的偏好与基因启动有关的mRNA(图。A) ●●●●。顺便提一下,这些偏好使得16S rRNA的结合将核糖体定位在一个或另一个六聚体上与翻译起始地点的距离。这个解释实验突变的结果也支持了观测数据的翻译启动效率研究(47).
(A类)分发在枯草杆菌基因组针对两种不同类型的可能的RBS六聚体:AGGAGG和AGGTGA。多重对齐允许这些六聚体重叠。在实际上游序列中,这些六聚体往往占据不同的位置相对于起始密码子的位置。可能涉及此偏好翻译起始时核糖体的精确定位16S rRNA与mRNA结合的位点平均在距离基因起点较远的地方观察到而不是稀有的六聚体。(B类)间隔棒分布观察到的长度热自养M基因组针对两种不同类型的RBS六聚体:GGAGGT和GGTGAT。属性其中的六聚体与枯草杆菌基因组(A),除了更频繁的六聚体现在平均在离基因更近的地方被发现开始比罕见的六聚体。
注意,将上游序列集拆分为两个(或更多)同质子集暗示了一个事实,即整个基因集一个特定物种可以分为两个(或更多)同质物种类,即典型和非典型基因类。还有,更进一步分析没有提供任何明显的证据表明六聚体与基因类型相关(数据未显示)。
对于古生物基因组热自养MGeneMarkS分析导致了对集合非均匀性的类似观察如图所示B.两个六聚体GGAGGT和GGTGAT可以叠加在吉布斯采样多重对齐。这两种六聚体都是对重叠的部分热自养M16秒rRNA。有趣的是,与枯草杆菌案例,GGTGAT六聚体通常位于较短的距离从基因开始。