GeneMarkS: a self-training method for prediction of gene starts in microbial genomes. Implications for finding sequence motifs in regulatory regions

John Besemer; Alexandre Lomsadze; Mark Borodovsky

doi:10.1093/nar/29.12.2607

2001年6月15日；29(12):2607–2618. 数字对象标识：10.1093/nar/29.12.2607

GeneMarkS：一种自训练方法用于预测微生物基因组中的基因启动。启示在调控区域中寻找序列基序

约翰·贝塞默 ¹,亚历山大·隆萨泽 ^1,3,马克·博罗多夫斯基 ^1,2,^一

PMCID:PMC55746 PMID:11410670

摘要

提高基因启动预测的准确性是原核生物计算机预测中尚待解决的几个问题基因。它的困难是由于缺乏相对强大的识别真正翻译起始位点的序列模式。在当前的论文中，我们证明了基因启动预测的准确性可以通过结合蛋白质编码和非编码模型来改进基因启动子附近调控位点的区域和模型基于迭代隐马尔可夫模型的算法。新基因预测这种被称为GeneMarkS的方法利用了一种非监督的培训程序并可用于新测序的原核基因组任何蛋白质或rRNA基因的预先知识。GeneMarkS实现使用基因查找程序GeneMark.hmm的改进版本，编码和非编码区域的启发式马尔可夫模型及吉布斯采样多重对准程序。GeneMarkS准确预测了83.2%的GenBank注释的翻译开始芽孢杆菌枯草杆菌基因和94.4%的翻译开始在一组经过实验验证的大肠杆菌基因。我们还观察到GeneMarkS检测到原核基因，在识别包含真实基因的开放阅读框架方面，与当前使用的最佳基因水平相匹配检测方法。准确的翻译开始预测，此外对蛋白质序列N末端数据的精细化，提供了精确定位所处序列区域的好处基因开始的上游。因此，序列基序与转录和翻译调控位点可以被揭示和分析具有更高的精度。这些图案具有显著的变异性，其功能和进化联系进行了讨论。

简介

发展从头算基因的计算机方法这一发现由来已久，是由菲科特的著作所开创的(1)，格里布斯科夫等。(2)和斯塔登(三)。几种常用技术采用局部贝叶斯方法分析一个序列“窗口”或一个打开的读数一次帧（ORF）。这样，蛋白质编码区就被表示出来了通过非齐次三周期马尔可夫模型(4,5)或插入的(6,7)。其他技术使用全局方法并找到最大似然根据指定的隐马尔可夫模型（HMM）进行序列分析，要么穿制服(8)，或一个有持续时间(9). 许多电流基因发现方法在检测原核生物ORF中高度准确基因存在。微生物基因组测序的加速对使用非监督训练的基因发现方法的高度需求。非监督培训程序描述了使用本地方法，如GeneMark或Glimmer(7,10–12)。利用启发式模型的非监督训练过程为GeneMark.hmm提出了构建伪计数的方法，该方法使用一种全局最大似然方法(13)。非监督培训可能包括构建集群例程非典型基因类的模型，假设填充有基因水平转移到给定的微生物基因组中进化的过程(10)。一种不同类型的基于序列的无监督训练方法ORPHEUS程序使用相似性搜索(14)。

以“开放式”启动检测作为蛋白编码ORF的基因仍然没有为基因注释提供完整的信息。尽管基因启动预测准确性的几种程序描述(8,9,14–16),这些方法的实际准确性验证受到阻碍由于实验验证的翻译数量不足开始训练，因此缺乏可靠的训练数据测试。在缺乏可靠的基因计算机程序的情况下开始预测时，“最长ORF”的规则是常用于用基因起始注释完整的微生物基因组分配给5′-最大ATG密码子（参见表1). 准确度的简单估计这个规则的推导如下。让我们假设模型位于实际翻译起始点上游的DNA序列的具有发生概率的多项式模型序列核苷酸T、C、A和G，根据其观测频率估算在非编码DNA中被指定为（f）_T型,（f）_C类,（f）_A类和（f）_G公司分别是。概率，P（P），这是一个5英尺最大的自动液位计在给定的ORF中，是一个真正的转换开始，然后由公式：

表1。34个完整测序微生物基因组的特征在GenBank中。

物种	提交日期	G+C（%）	碱基对	基因数量	起始位置不是最左边的基因数起始密码子
聚胞菌PCC6803	1997	47.7	3 573 470	3163	0 (0%)
薰衣草	1999	56.3	1 669 695	2694	1 (0%)
肺炎支原体	1996	40	816 394	677	2 (0%)
普罗瓦泽基立克次体	1998	29	1 111 523	833	4 (0%)
伯氏疏螺旋体	1997	28.6	910 724	850	4 (0%)
horikoshii焦球菌	1998	41.9	1 738 505	2058	8 (0%)
詹氏甲烷球菌	1998	31.4	1 664 970	1715	12 (1%)
超嗜热菌	1997	43.5	1 551 335	1522	21 (1%)
流感嗜血杆菌道路	1995	38.1	1 830 138	1709	33 (2%)
霍乱弧菌	2000	47.7	2 961 149	2736	61 (2%)
生殖支原体	1995	31.7	580 074	480	12 (3%)
解脲支原体	2000	25.5	751 719	611	17（3%）
空肠弯曲菌	2000	30.5	1 641 481	1653	55 (3%)
富氏古球虫	1997	48.6	2 178 400	2407	79 (3%)
鼠衣原体	2000	40.3	1 069 412	909	34 (4%)
沙眼衣原体	1998	41.3	1 042 519年	892	36 (4%)
幽门螺杆菌26695	1997	38.9	1 667 867	1566	64 (4%)
肺炎衣原体	1998	40.6	1 230 230	1052	62 (6%)
甲烷杆菌	1997	49.5	1 751 377	1869	120 (6%)
深海热球菌	1999	44.7	1 765 118	1763	124 (7%)
大肠杆菌	1998	50.8	4 639 221	4288	288 (7%)
幽门螺杆菌J99	1999	39.2	1 643 831	1478	114 (8%)
Buchnera sp.APS公司	2000	26.3	640 681	564	49 (9%)
海洋热藻	1999	46.2	1 860 725	1846	159 (9%)
耐辐射球菌	1999	67	2 648 638	2580	229（9%）
盐杆菌属。NRC-1号机组	2000	67.9	2 014 239	2058	221 (11%)
梅毒螺旋体	1998	52.8	1 138 011	1031	133 (13%)
苛求木霉	2000	52.7	2 679 306	2766	392 (14%)
脑膜炎奈瑟菌Z2491号	2000	51.8	2 184 406	2143	320 (15%)
结核分枝杆菌	1998	65.6	4 411 529	3909	697 (18%)
枯草芽孢杆菌	1997	43.5	4 214 814	4097	786人（19%）
嗜酸热浆菌	2000	46	1 564 906	1478	321 (22%)
耐盐芽孢杆菌	2000	43.7	4 202 353	4066	888 (22%)
铜绿假单胞菌	2000	66.6	6 264 403	5565	1381 (25%)

在新选项卡中打开

最后一列表示注释的基因的百分比起始密码子位于尽可能长的ORF内，而不是在其5′端。

P（P）= 1 –（f）_{自动液位计}/(（f）_{自动液位计}+（f）_TAA公司+（f）_标签+（f）_TGA公司),哪里（f）_XYZ（XYZ）=（f）_X（X）（f）_Y（Y）（f）_Z轴。

对于更复杂的情况，可以进一步完善此公式DNA序列模型。如果核苷酸频率等于其他，那么P（P）= 0.75. 此值可能有用作为对“最长ORF”规则准确性的估计用于大量基因组。这一水平似乎不够。这个前面描述的注释基因启动的计算机程序(8,9,14–16)在大多数情况下，使用核糖体结合位点（RBS）模型，通过监督培训或根据先前知识推断得出16S rRNA序列。GeneMark和GeneMark.hmm计划使用RBS模型(9,17)以位置核苷酸频率的形式矩阵，动机，其参数由Gibbs导出位于上游的DNA序列的取样多重比对注释翻译开始。新增GeneMark.hmm 2.0程序使用间隔物长度的概率分布，序列RBS序列的最后一个核苷酸和第一个核苷酸之间基因。通常在原核生物中，一致的RBS序列是对3′端部分的补充16S rRNA序列。帧-帧程序(15)未明确使用RBS模型。它采用了一个HMM三核苷酸频率模式特异性的隐态建模对于紧靠上游的序列，上游序列,以及翻译起始站点的下游。请注意，它已经被争论过了下游序列模式与机制无关核糖体结合，而不是氨基组成的偏差接近蛋白质N末端的酸序列(18)。ORPHEUS项目也使用RBS模型(14)。与GeneMark程序不同，ORPHEUS使用权重矩阵模型RBS的位置频率由频率标准化给定位置上最可能的核苷酸。ORPHEUS模型还考虑了垫片长度变化的模式。这个模型是根据一组序列的多重比对建立的位于预测蛋白编码的上游（-1至-20）根据起点均位于的标准选择的ORF相对远离替代起始密码子且不重叠通过其他预测基因。基因启动预测包括扩展通过蛋白质序列相似性搜索检测到的ORF种子，5′-最可能的起始密码子。另一个提到了使用RBS模型进行基因启动预测的方法最近(16)，尽管有很多比奥菲斯的细节更少。Glimmer 2.02默认分配，预测的基因开始于包含最长ORF的起始密码子预测编码区域。可选，如程序中所述文档，Glimmer 2.02计算杂交的最大值16S rRNA片段与任何固定长度区域之间的能量位于可能的起始密码子前面。如果该值超过为所有其他值定义的特定阈值和最大值备选方案开始，然后选择所讨论的密码子作为预测基因启动。

在本文中，我们描述了一种新的非监督迭代方法，GeneMarkS，用特定的专注于识别基因启动。这种方法利用了启发式蛋白质编码区的马尔可夫模型以及开发的算法在我们早期关于GeneMark和GeneMark.hmm的项目中(5,9,13)。吉布斯采样多重对准程序(19)也用作创建双成分统计数据的迭代例程的一部分位于上游序列的保守进化位点模型。这两个分量是位置频率矩阵以及间隔棒长度分布。这个双组分模型是包含在GeneMark.hmm的新v2.0所使用的模型集中。GeneMarkS迭代运行GeneMark.hmm程序并查找给定匿名序列的最大似然解析为蛋白质编码和非编码区域。新预测序列parse用于更新下一次迭代中使用的模型。就实现变革而言，这一过程一直持续到趋同在随后的两次迭代中获得的序列解析中比一些预定义的小值。迭代GeneMarkS过程可以应用于未知基因组DNA任何蛋白质或rRNA编码基因。

通过它的设计，除了能够发现原核基因并导出编码区和非编码区的模型，GeneMarkS是能够检测上游序列中的功能位点（例如RBS）并推导其模型。多种检测算法包括RBS在内的DNA功能位点已被描述(17,20–30). 在基因发现的背景下在后处理步骤中使用了单独导出的RBS模型进一步完善预测基因（GeneMark.hmm、Glimmer、，奥菲斯）。这里，我们强调GeneMarkS是一个集成的过程其中导出了上游功能站点的模型参数并在调整基因中使用的所有模型的过程中进行细化预测算法与基因预测并行。

用可靠的注释测试选定的基因组序列我们已经证明GeneMarkS性能匹配或超过了当前已知的标准，因此，GeneMarkS可以用作新注释的单一或替代工具原核基因组测序。

GeneMarkS检测和建模功能站点的能力在翻译开始时，上游序列可能会导致更好的理解原核细胞翻译起始机制。尤其，令人惊讶的是，GeneMarkS程序能够阐明转录起始相关序列基序古生物基因组嗜气热杆菌（M.Slupska、A.King、，S.Fitz-Gibon、J.Besemer、M.Borodovsky和J.Miller，出版）和富氏古球虫。

材料和方法

基因组序列数据

当前研究中使用的序列数据包括以下基因组可在GenBank数据库中找到：A.pernix公司(31),富氏A.fulgidus(32),枯草芽孢杆菌(33),大肠杆菌(34),流感嗜血杆菌(35),幽门螺杆菌(36)，甲烷杆菌(37),詹氏甲烷球菌(38),结核分枝杆菌(39)，协同孢子虫 PCC6803型(40)。

其他序列集

GenBank对完整原核基因组的注释经常是用作基因发现准确性测试的基准。然而，a完整原核基因组GenBank注释的简单分析提供了令人信服的证据，证明对基因的系统偏见通过最长的ORF规则开始注释（表1). 这种偏见在基因组中最为明显列在表的上半部分1，带有几乎所有被注释为最长ORF的基因（只有ATG被认为是可能的起始密码子）。在光谱的另一端（表1，底部），是几个原核基因组其注释基因与最长ORF在～80%的病例中一致。

除非涉及特殊的翻译机制有理由证明普遍缺乏帧内启动DNA序列中位于注释的基因起始点之间的密码子作为最长的ORF和第一个上游终止密码子。既然如此机制未知且可能不存在，GenBank注释，特别是表格上半部分的基因组1，应谨慎使用。我们假设这个枯草杆菌基因组是少数注释之一可用于评估基因准确性的完整基因组开始寻找针对基因的方法。评估稳健性基因标记S对基因长度的预测准确性我们使用了从枯草杆菌基因组序列及蛋白质验证相似性搜索。在另一项基因启动预测准确性测试中我们用了195个大肠杆菌启动基因通过对其N末端的测序实验证实蛋白质产品(41)。

GeneMarkS算法概述

序列数据处理和模型训练的阶梯图如图所示1。在第一步中，确定了启发式马尔可夫模型的参数通过前面描述的方法(13)。这组启发式模型包括三个周期的二阶蛋白质编码序列的马尔可夫模型和二阶齐次非编码序列的马尔可夫模型。过渡和初始概率启发式模型的参数可以从样本DNA中估计序列短至400 nt(13)。此方法使用之前列出的线性相关性特定核苷酸及其密码子位置特异性频率全局频率，以及物种蛋白质组中给定的氨基酸和基因组。这些线性函数的参数由以下公式确定17个完整细菌基因组的回归分析(13)。

这组启发式模型还包括用解析或数值描述的编码和非编码区域。该算法的准确性被证明是相当不敏感的这些长度分布中的物种特定变化（数据未显示）。因此，在程序中，我们使用了长度分布源自的GenBank注释大肠杆菌基因组。

新的2.0版GeneMark.hmm基因预测算法是用于连续基因发现和模型的多次迭代精致。吉布斯采样程序应用于每次迭代对齐预测基因的上游序列。未映射倍数比对挑选出基因上游的保守位点启动。该位点的位置核苷酸频率模型在GeneMark.hmm中使用了间隔棒的长度分布识别基因启动的2.0程序。

GeneMark.hmm的v2.0具有预测基因的能力具有任意长度的重叠（图。2). 这个新版本还集成了上游保守的两组分模型区域、位置核苷酸频率模型和间隔区长度分布到Viterbi算法中。相比之下，以前描述了GeneMark.hmm(9)使用RBS在后处理步骤的位置频率模型。

(A类)在GeneMarkS培训过程中没有编码划分按顺序分为两组。然而，在应用GeneMark.hmm时2.0程序，由GeneMarkS导出的编码区域模型可以用作典型模型，以及用作非典型模型（见表三). 对于简单性，只显示了直接链。(B类)在这个GeneMark.hmm中隐藏状态转换的简化图中2.0，状态“基因”代表组成的序列一个RBS加上一个间隔子加上蛋白质编码序列（CDS）。基因重叠包括所有可能的重叠类型：重叠同一条链上基因的重叠（如操纵子中观察到的）相反链上的基因，编码区与RBS重叠，以及等等。

第一步中定义的启发式模型集不包含基因启动上游保守位点模型（即RBS）。尽管如此，该算法还是解析了输入的完整长度将序列划分为编码区和非编码区，并提供第一个基因启动的近似值（图。1). 鉴于根据这一信息，选择了一组上游序列。这个上游序列的长度是一个算法参数。在我们的计算中它被选择为等于25或50nt。注意对于模型来说，仅上游序列的子集可能就足够了推导。起始于某一特定位置的一组基因与前一个基因的距离（即至少50 nt）可能构成这样的子集。推测这些基因的上游序列包含保守的功能位点，不与编码区重叠。这个从这样的序列集中提取出的位点模体是预先期望的更加明显。注意，这个推测被发现是与下面引用的序列分析结果一致。一套上游序列，默认选择不包含预测编码区域，通过吉布斯抽样程序进行无间隙对齐(19,24)确定了具有最高信息内容的多重对齐窗口(24). 从这个窗外的街区对于多序列比对，可以立即定义守恒矩阵的位置频率矩阵模型位于翻译起始点上游并在下文中调用的功能站点起动前的信号。当使用25 nt长上游序列时，这种排列通常显示出一个具有一致序列互补的基序被研究物种16S rRNA的一部分。但是，如果在一些物种中使用了50 nt长的上游序列，如下所示，序列比对过程确定了启动子相关的典型基序地点。

间隔棒的长度定义了预启动的精确位置关于平移开始的信号。因此，有两种模型描述了启动前信号、图案或位置频率矩阵和间隔棒长度频率分布。在每个步骤中在GeneMarkS培训中，这两个模型是通过定义的启动前序列的吉布斯采样多重比对上一次运行GeneMark.hmm 2.0时。反过来，GeneMark 2.0程序使用预启动母题和间隔棒长度分布除第一步外的所有步骤（图。1). 在在第一步中，该程序仅使用编码和非编码区域并生成第一个序列解析分为编码区和非编码区。编码的马尔可夫模型和在正则的所有后续步骤中派生的非编码区域循环被称为伪本机模型，因为它们是从真正的DNA序列分类生物信息学作为编码和非编码区域。伪本地模型捕获物种特异性寡核苷酸频率模式比启发式模型更接近(13)。

在每次迭代中使用一组预测的开始来确定启动密码子ATG、GTG、，CTG、TTG。GeneMark.hmm中使用了更新的频率集2.0版本。

重复GeneMarkS迭代，直到序列解析与上一个迭代的99%相同，或者直到身份百分比开始波动相当高的水平。最终生成的序列解析迭代运行是程序输出以及导出的模型并完善到这一点。注意非典型基因模型成为原始GeneMark.hmm程序的一部分(9)在GeneMarkS迭代中被有效关闭。因此，GeneMarkS产生的蛋白质编码区的马尔可夫模型必须被视为典型的基因模型。请注意，有用启发式模型代替非典型模型的有趣选择基因模型。我们在下面解决这个问题。

GeneMarkS过程不限于派生和使用二阶马尔可夫模型。它可以建立更高的模型订单，如果认为申请合理。然而，类似地之前报告的观察结果(9)，在我们的GeneMarkS测试中使用高阶模型（未显示数据）。The robustness of the原核基因类型的二阶模型具有频繁的长非中断蛋白编码区的组织。由于这种能力，低阶模型可以检测到这些基因要累加的GeneMark.hmm最大似然框架长ORF偶数内的“编码区域信号”当使用低信噪比的低阶模型时。

结果和讨论

基因检测的准确性

首先我们讨论检测基因或预测蛋白质的准确性用“开放式开始”对ORF进行编码传统上，原核基因发现工具的准确性得到了表征通过它们在鉴定原核基因独特标记方面的表现，他们的3′端。GeneMarkS程序在八个匿名原核序列上运行全基因组富氏杆菌、枯草芽孢杆菌、大肠杆菌,流感嗜血杆菌,幽门螺杆菌、M.jannaschii、， 热自养M和协同孢子虫。于完成GeneMarkS迭代，一次特殊运行的GeneMark.hmm执行2.0。在此运行中，新推导的马尔可夫模型蛋白编码区被用作典型的基因模型由GeneMarkS导出的启动前信号的另两个模型，位置频率基体和间隔棒长度分布。此外，要完成我们使用了一组可以在GeneMark.hmm 2.0中使用的模型非典型基因模型和非编码区定义模型通过启发式方法(13). 这个比较预测基因的3′端带有基因3′端注释在GenBank中。表征敏感性和特异性的数字所有八个基因组的预测结果如表所示2.数字表明精度相当高用于一个自我训练的单序列基因查找器。

表2。使用GeneMark.hmm程序的基因预测准确性以GeneMarkS作为典型基因推导的蛋白质编码模型模型和启发式模型作为非典型基因模型对于非编码序列也是启发式推导的。

			基因检测准确性
	带注释的基因	检测到的基因^一	锡（%）	Sp（%）
富氏A.fulgidus	2406	2583	98.5	91.8
枯草杆菌	4099	4445	98.8	91.1
大肠杆菌	4288	4397	96.9	94.5
流感嗜血杆菌	1708	1807	98.2	92.8
幽门螺杆菌	1552	1753	97.7	86.5
M.jannaschii先生	1714	1891	99.4	90.1
热自养M	1868	1935	97.9	94.5
协同孢子虫	3168	3521	98.7	88.8
平均			98.3	91.3

在新选项卡中打开

^一匹配3′端的预测数GenBank注释的基因中，5′端可能错位，占总数的百分比注释基因。

精确基因预测的准确性

GeneMarkS在精确基因预测中的性能测试已完成枯草杆菌基因组。预付款迭代过程的步骤如左图所示表的一半三.在第一次迭代时带有启发式模型的GeneMark.hmm 2.0枯草杆菌编码和非编码序列检测到注释的4099个基因中98.0%在GenBank中。然而，随着程序的RBS模块切换除此之外，只有56.6%的人准确预测了基因启动基因。RBS模型的生成和添加提高了百分比基因的准确预测为80.8%，而检测到的基因中，98.1%的基因基本相同。下一次允许生成的伪本机模型的步骤、生成和使用83.1%的准确预测枯草杆菌基因而检测到的基因的百分比下降到97.0%。检测到的基因数量的变化证实了早期观察到GeneMark.hmm程序中使用的启发式模型能够检测典型和非典型类别的基因(13). 启发式敏感性的增加然而，模型是以特异性下降为代价实现的。经过三个常规周期后，预测值相同的百分比到前一个达到99%，迭代停止。在最后一步，预测了4224个基因。与相比GenBank中注释的基因似乎有83.2%枯草杆菌基因被精确预测，而96.7%的注释基因被检测到。RBS图案图中显示了由GeneMarkS导出的间隔棒长度分布在图中三序列形式的A和B徽标(42)和线图。以前精确预测精度的报告数字枯草杆菌基因如下所示。框架式程序(15)发现85.8%的基因启动和ORPHEUS(14)预测80.2%的基因起始于346个基因的测试集。比较的精度数据表明，GeneMarkS是一种自我训练程序，是两种帧对帧的合理替代方案该计划利用大量以前的注释序列和ORPHEUS，用于非监督从序列比较到综合数据库的训练数据集已知蛋白质序列。

表3。GeneMarkS预测精度参数显示在中间整个过程运行时的步骤枯草杆菌基因组和一组195个实验验证大肠杆菌基因。

步骤	枯草杆菌（全部基因组）			大肠杆菌（已验证套）
	基因准确无误预测^一(%)	基因检测到^b条(%)	潜在的新基因（%）	基因准确无误预测^一(%)	基因检测到^b条(%)
2	56.6	98	11.7	67.2	100
4	80.8	98.1	7.2	85.1	99.5
4.1	83.1	97	6.3	94.4	100
4.2	83.5	96.8	6.4	94.4	100
4.3	83.2	96.7	6.4	94.4	100

在新选项卡中打开

^一指5′端3′端预测与注释相符。

^b条指3′端的情况预测（不一定是5′端预测）匹配注释。

(A类)顺序表示检测到的RBS位置频率模式的徽标由GeneMarkS在分析*枯草杆菌*基因组学数据。每个位置四个字母的总高度表示位置特定的信息内容，而每个位置的高度字母与核苷酸频率成正比（42）。(B类)间隔长度的概率分布图，序列在RBS序列和基因启动之间。

整体上的类似测试大肠杆菌基因组表明GeneMarkS的预测与GenBank注释相匹配只有69.7%的病例出现基因突变。然而，考虑到缺乏已验证基因启动的数据，应采用此数字谨慎行事。在一个更现实的测试中，我们使用了一组195大肠杆菌起始基因已通过实验验证通过蛋白质N末端测序(41)。表三（右半部分）详细介绍对这个测试的描述，一次又一次的迭代。在最后一步，195个基因中有184个得到了准确预测（94.4%）共检出195例（100%）。这里有以下预订应该注意。195人的GeneMark得分分析大肠杆菌基因(5)表明得分较高的基因比例，表明密码子使用偏倚越高，可能表达水平越高，与平均得分分布相比略有提高对于大肠杆菌相同大小的基因集。因此，准确度也可能略有提高。

短基因

区分短基因和随机ORF是众所周知的困难。为了测试GeneMarkS发现短基因的能力，我们使用476枯草杆菌长度为300nt的基因或更短，如GenBank中所述。该集合的三个子集是根据蛋白质分析结果汇编BLAST的产品(43). 第一个该组包括123个基因，其蛋白产物至少具有与已知蛋白质的一个重要序列相似性（与电子-值<1e–4）。请注意，任何点击到枯草杆菌蛋白质或注释为“假定”或“假设”的蛋白质忽略。第二组包含72个基因，其中至少有两个强基因在蛋白质水平上的相似性。第三组有52个基因，包括这些基因的蛋白产物与已知蛋白质。

精确预测和检测的基因百分比表中引用了每一组中的GeneMarkS4可以看出，精度参数与整体相比，短基因的变化不明显基因集。因此，这些数据证明了基因长度方面的程序性能。

表4。GeneMarkS和Glimmer 2.02的比较和ORPHEUS基因预测程序的测试集如下：这个枯草杆菌GenBank（A）中注释的基因组；三套枯草芽孢杆菌短于300的基因nt具有至少一个（B）、至少两个（C）和至少10个（D）显著同源性通过BLAST分析确定；和一组195个实验验证大肠杆菌基因（E）。

程序	测试集	测试集中的基因	基因准确无误预测^一	检测到的基因^b条（3′端）
闪光	A类	4099	2556 (62.4%)	4023(98.1%)
奥菲斯	A类		3028 (73.9%)	3484人（85.0%）
基因标记S	A类		3412(83.2%)	3962 (96.7%)
闪光	B类	123	70 (57.0%)	112 (91.1%)
基因标记S	B类		102(82.9%)	113(91.9%)
闪光	C类	72	41 (57.0%)	66 (91.7%)
基因标记S	C类		64(88.9%)	68（94.4%）
闪光	D类	51	26 (51.0%)	45 (88.2%)
基因标记S	D类		46(90.2%)	48(94,1%)
闪光	电子	195	139 (71.3%)	195(100%)
奥菲斯	电子		148 (75.9%)	181 (92.8%)
基因标记S	电子		184(94.4%)	195(100%)

在新选项卡中打开

粗体数字表示检测到的基因数量最多或每个测试集精确预测的基因。

^一指5′端3′端预测与注释相符。

^b条指3′端的情况预测（不一定是5′端预测）匹配注释。

与其他项目的比较

比较GeneMarkS与Glimmer和ORPHEUS的性能我们不得不下载并运行这两个程序。Glimmer 2.02是按照分发文件中的说明运行。注释就基因检测而言，Glimmer 2.02运行使用默认参数检测到的基因明显多于注释的基因两者都适用枯草杆菌和大肠杆菌。虽然其中一些预测可能检测到未注释的真实基因在GenBank中，假设百分比GenBank中遗漏的真实基因数量如此之大。然而，我们没有将Glimmer的默认参数更改为设计决策(7). 得到Glimmer 2.02使用无核糖体结合的精确基因预测能量计算。此功能需要16S rRNA的事先数据给定物种的序列。提供16S rRNA序列每个物种。核糖体结合自由能的选择在Glimmer文档中评论为“不完全测试。”然而，我们观察到Glimmer结果总是启用此功能时得到改进；因此，这个选项是打开。

在运行ORPHEUS之前，非冗余蛋白质数据库是通过合并更新的SWISS-PROT、TrEMBL和PIR数据库创建借助NRDB2软件（W.Gish，未出版材料）。这个ORPHEUS的默认参数设置阻止查找<105的基因nt。然而，在大肠杆菌测试集合以及在短集合中枯草杆菌基因：最短为114nt长。

就整体而言枯草杆菌基因组闪光2.02检测到98.1%的注释基因，而GeneMarkS检测到96.7%，ORPHEUS检测到85%（表4). 反过来，GeneMarkS准确地发现了83.2%的ORPHEUS的基因精确预测了73.9%的基因和Glimmer占62.4%。请注意，GeneMarkS位于中间步骤（步骤4.1，图。1)得出了与Glimmer几乎相同的结果检测到的基因数量（表三). 在这里步骤GeneMark.hmm 2.0使用启发式马尔可夫模型并检测98.1%的注释枯草杆菌基因。尽管如此，GeneMark.hmm 2.0在这一步做出了4316个基因预测Glimmer 2.02做出的5075个预测。

195台经实验验证大肠杆菌基因，GeneMarkS和Glimmer 2.02都检测到了所有的基因（表4). GeneMarkS准确鉴定了94.4%的基因启动，而ORPHEUS和Glimmer 2.02精确预测基因起始位置分别为75.9%和71.3%。

对于短集枯草杆菌基因（as如表所示4)预测人GeneMarkS似乎比Glimmer的更准确。

就基因检测而言，我们又进行了一次利用基因组进行比较测试大肠杆菌和枯草杆菌.我们已经指出了过渡从对大量基因的不太精确的预测到随着GeneMarkS迭代，对较少数量的基因进行更精确的预测进度。这种变化是由于从更敏感而不太具体的启发式进行训练的过程模型更具体，敏感性略低模型。本质上，这种转换给了GeneMarkS更多的功能在失去某些能力的情况下找到典型班级的基因寻找非典型基因。

为了结合启发式模型和伪原生模型的强度，我们在另一次运行GeneMark.hmm时同时使用了这些模型2.0如上所述（见表2). 这个通过此程序设置获得的结果枯草杆菌和大肠杆菌基因组也如图所示4其中比较了GeneMark.hmm 2.0预测，在基因检测方面，用GenBank注释这两个细菌基因组以及Glimmer 2.02的预测。

显示组的维恩图GenBank注释与检测到的基因集之间的关系由GeneMark.hmm 2.0和Glimmer 2.02为*枯草杆菌*基因组（A）和*大肠杆菌*基因组（B）。

基序的功能和进化变异性在上游序列中

GeneMarkS为研究序列模式提供了新的机会位于基因启动上游的区域。在许多原核生物中基因组，上游序列携带一个功能位点（即RBS位点）具有两个核苷酸频率基序（图。三A）以及垫片长度分布（图。三B）。

有趣的是，GeneMarkS导出了上游信号的模型可能因研究中的基因组和环境而异程序参数的。如下所示，上游序列集可能是不均匀的。通常，如果上游序列集有助于序列基序，通过Gibbs采样的未映射多重比对不太适合派生模式。然而，可能有是一些有趣的模式配置，其中方法仍然作品。下面我们分别讨论分析的细节细菌种类和两类古细菌和克里纳恰奥塔。

在所研究的细菌基因组中，25或50 nt长的上游序列导致提取RBS图案，类似于为枯草杆菌基因组（图。三). 然而，仍有几个担忧。一种是RBS序列在一个基因组。为了探索这种可能性，我们进行了额外的对几个数据集的分析。我们选择了一组基因启动子被同一条链上的前一个基因重叠。请注意4nt的链基因重叠是最常见的基因重叠。我们扫描并表征了上游序列中的六聚体根据RBS主题和背景得出的log-odds分数模型。背景模型是编码的普通马尔可夫模型基因重叠情况下的区域。对于非重叠启动这是一个非编码序列的普通马尔可夫模型。通过识别假定苏格兰皇家银行在50 nt上游地区内得分最高，我们对枯草杆菌,大肠杆菌和M.jannaschii先生基因组。RBS站点的分数分布与前一项重叠编码区与非重叠区相比没有显著差异（图。5). 间隔棒长度分布重叠RBS的确有三个周期（未显示数据），整个间隔棒长度分布完全缺乏（图。三B）。

log-odds的分布GeneMarkS检测到的RBS站点的分数，以重叠的形式显示和非重叠基因(A类)*枯草杆菌，*(B类)*大肠杆菌*和(C类)*M.jannaschii先生*可以看出，重叠的基因可能位于操纵子内部，经常拥有强大的RBS站点。尽管如此，核糖体的大多数强位点结合先于非重叠基因（独立基因和引导操纵子的基因）。这种趋势在古菌基因组病例*M.jannaschii先生*比在中*大肠杆菌*和*枯草杆菌*基因组。

作为此分析的扩展，我们导出了集合的RBS基序与重叠基因启动子相关的上游序列。在几个这些基序与衍生基序之间的显著差异观察到非重叠启动。有趣的是，对于结核分枝杆菌基因组RBS基序前一个基因与4nt重叠的基因更加明显而非重叠基因衍生的RBS基序。请注意G+C丰富度结核分枝杆菌基因组使RBS模式难以检测(30,39)。

古生物基因组的GeneMarkS分析结果如下符合转录和翻译的概念古生菌的机械是真核生物和细菌的复杂混合物特性(44). 转录古生菌的形成机制与真核生物有很多相似之处。尤其，基本起始因子TFIIB和TFIID以及八个“小”亚基RNA聚合酶显示出与真核生物对应物的同源性。此外，真核生物TATA-box结合蛋白被证明具有几种古生物中的同源蛋白质。另一方面，细菌和古生菌的翻译起始机制长期以来一直被认为是功能上的不同组件类似，以细菌型多顺反子的加工为中心信使核糖核酸(45). 两者之间的重要区别翻译起始的古代和真核机制真核生物中是否缺少蛋白质的古代同源物mRNA CAP识别。

GeneMarkS应用于几个古生物基因组提取TATA盒或RBS型图案作为模型位于上游序列的保守位置。这个特别的结果显然与第一个操纵子和与操纵子内部基因相关的分离基因。RBS和启动子位点在比对过程中的竞争可以通过简单限制上游长度来排除序列。特别是，长度必须至少为50 nt to检测TATA盒相关模式。对于25 nt长的上游序列非重叠基因的多重比对过程通常会产生RBS类型模式。许多古生物都观察到了这一结果物种，但不是所有物种。

在克里特岛，如A.pernix公司和嗜气芽孢杆菌我们发现了TATA盒是为非重叠基因的上游序列。这一结果得到了证实实验观察到的对无领导抄本的强烈偏见在里面嗜气芽孢杆菌（M.Slupska、A.King、S.Fitz-Gibon、，J.Besemer，M.Borodovsky，J.Miller，出版中）。另一方面，重叠基因样本的上游序列集，据推测，操纵子中的那些内部分子表现出了这个主题与16S rRNA的一部分互补。请注意，对于重叠的基因A.pernix公司，GeneMarkS预测几乎相等启动密码子ATG和GTG的频率，一个有趣的偏差不是在任何其他物种中观察到。另一种Crenarchaeote的基因组序列，硫矿硫化叶菌，之前进行了分析并检测到上游序列中发现的基序的二重性翻译启动的两种不同机制的存在(46)。

类似地，在嗜热亚麻子的上游序列中富氏A.fulgidusGeneMarkS检测到这两种转录和翻译起始相关的主题（图6和7). 尤其是占主导地位的保守派50 nt长上游序列中的基序似乎不是RBS由于其与16S rRNA和位置周围的定位–30（图。8)。这个主题有一个共识[G/a，G/a，A、 A，A，A]，可以被解释为真核生物类型启动子基序。这一结果与获得的结果形成了鲜明对比用于嗜热性欧亚茶素M.jannaschii先生谁的根据GeneMarkS的测定，上游基序对定位在距离基因起点更短的地方（图。8)并被公认为RBS图案与16S rRNA序列互补。

序列标志代表GeneMarkS检测到的上游序列基序*富列杜斯。*这个一致序列相当表明存在真核样启动子元素，而不是原核生物中常见的RBS信号。地点与此模式匹配的在*富氏A.fulgidus*,尽管对上游序列子集的进一步分析揭示了第二个图案（见图。7)互补的至*富氏A.fulgidus*16S rRNA。

序列标志代表在该基因上游序列子集中观察到的RBS基序*富氏A.fulgidus*基因组。该子集由50个组成nt长上游序列与3′端重叠前一个基因。这个主题的共识是互补的到的一部分*富足A.fulgidus富足A.fulgidus富足A.fulgidus富足A.fulgidus富足A.fulgidus富足A.fulgidus富足A.fulgidus富足A.fulgidus富足A.fulgidus*16S rRNA。

间隔棒长度分布对于两个具有强RBS模式的物种，*枯草杆菌*和*大肠杆菌*（分别为实线和虚线），和一个具有强真核启动子样模式的物种，*富氏A.fulgidus*（虚线）。类促进者模式属于*富足A.fulgidus富足A.fulgidus富足A.fulgidus富足A.fulgidus富足A.fulgidus富足A.fulgidus富足A.fulgidus富足A.fulgidus富足A.fulgidus*位于上游更远处比RBS模式的启动密码子*枯草杆菌*和*大肠杆菌*。

在搜索中的RBS图案富氏A.fulgidus基因组序列，我们对25 nt长的上游序列进行了吉布斯比对重叠的基因更可能存在于操纵子内部。这个富氏A.fulgidus基因组包含相对较大的允许进一步减少集合的基因重叠数仅使用与他们上游的邻居正好减少了4 nt。事实上，吉布斯采样这组上游序列的比对检测到一个带有共识对3′端的补充的富氏A.fulgidus16S rRNA（图。7). 这一发现表明，无领导的成绩单在Crenarcheota中观察到的一些广角海龙物种中也可能存在，而含铅成绩单的比例似乎要高得多。

有趣的是，在最近的NCBI注释中，发现了欧亚海龙类物种热等离子体火山岩(ftp://ncbi.nlm.nih.gov/genemos/细菌/热质_火山/),GeneMarkS程序使用了上游序列的默认长度作为50 nt。我们对运行上游长度为25 nt的GeneMarkS的测试序列长度导致了非常接近的结果，98.4%的基因开始预测在同一位置。

在细菌基因组中，我们观察到吉布斯取样非重叠基因的50nt上游序列比对汇聚成带有RBS图案的路线。这个观察结果提示启动子相关的基序在度比RBS基序。

GeneMarkS在某些情况下产生的结果显示出非同质性带有RBS基序的序列集。我们举例说明的结果枯草杆菌和热自养M基因组在图中9A和B。如果枯草杆菌二六聚体AGGAGG和AGGTGA可以叠加在Gibbs中上游序列的采样多重比对。两种六聚体是对重叠部分的补充枯草杆菌16秒rRNA。六聚体对内部位置有不同的偏好与基因启动有关的mRNA（图。9A） ●●●●。顺便提一下，这些偏好使得16S rRNA的结合将核糖体定位在一个或另一个六聚体上与翻译起始地点的距离。这个解释实验突变的结果也支持了观测数据的翻译起始效率研究(47)。

(A类)分发在*枯草杆菌*基因组针对两种不同类型的可能的RBS六聚体：AGGAGG和AGGTGA。多重排列允许这些六聚体叠加。在实际上游序列中，这些六聚体往往占据不同的位置相对于起始密码子的位置。可能涉及此偏好翻译起始时核糖体的精确定位16S rRNA与mRNA结合的位点平均在距离基因起点较远的地方观察到而不是稀有的六聚体。(B类)间隔棒分布观察到的长度*热自养M*基因组用于两种不同类型的RBS六聚体：GGAGGT和GGTGAT。属性其中的六聚体与在*枯草杆菌*基因组（A），除了更频繁的现在发现六聚体与基因的平均距离更近开始比罕见的六聚体。

注意，将上游序列集拆分为两个（或更多）同质子集暗示了一个事实，即整个基因集一个特定物种可以分为两个（或更多）同质物种类，即典型和非典型基因类。还有，更进一步分析没有提供任何明显的证据表明六聚体与基因类型相关（数据未显示）。

对于古生物基因组热自养MGeneMarkS分析导致了对集合非均匀性的类似观察如图所示9B.两个六聚体，GGAGGT和GGTGAT，可以叠加在Gibbs中采样多重对齐。这两种六聚体都是对的重叠部分热自养M16秒rRNA。有趣的是，与枯草杆菌案例，GGTGAT六聚体通常位于较短的距离从基因开始。

网络资源

GeneMarkS可通过互联网访问http://dixie.biology.gatech.edu/GeneMark/基因标记.cgi。输入序列由GeneMarkS分析，最终预测如下通过电子邮件返回给用户。预测数据库由GeneMarkS为许多公开可用的原核基因组制造位于http://dixie.biology.gatech.edu/基因标记/基因标记S/。三组短片枯草杆菌基因强在这个位置可以获得与用于测试的已知基因的同源性以及一套经过实验验证的大肠杆菌基因。

致谢

M.B和J.B.感谢Sorel Fitz-Gibon和Jeffrey Miller继续对使用GeneMarkS进行基因组序列分析的兴趣刺激了GeneMarkS的进一步发展。M.B.承认有用与Chris Burge、Phil Green和Gary Stormo在加利福尼亚大学理论物理研究所在圣巴巴拉。作者感谢John Logsdon的宝贵评论在手稿上。J.B.、A.L和M.B.的部分支持美国国立卫生研究院的拨款。M.B.也是部分由美国民用研究发展局的拨款支持基金会。

工具书类

1Fickett J.W.（1981）DNA序列中蛋白质编码区的识别。细胞核的《酸类研究》，10，5303–5318。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
2格里布斯科夫·M·。，Devereux，J.和Burgess，R.R.（1984）密码子偏好图：蛋白质编码序列的图形分析和基因表达预测。核酸研究，12539–549。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
三。斯塔登·R（1984）蛋白质编码对DNA影响的测量序列及其在寻找基因中的应用。核酸研究，12551–567。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
4博罗多夫斯基M.Y。，Sprizhitskii，Y.A.、Golovanov，E.I.和Aleksandrov，A.A.（1986）功能区初级结构的统计模式在中大肠杆菌基因组：III.计算机识别编码区域的。分子生物学。，20, 1145–1150.[公共医学] [谷歌学者]
5Borodovsky M.Y.和McIninch，J.D.（1993）基因标记：平行基因识别用于两条DNA链。计算。化学。，17, 123–153.[谷歌学者]
6萨尔茨堡股份有限公司。，Delcher，A.L.、Kasif，S.和White，O.（1998）《微生物》使用插值马尔可夫模型进行基因识别。细胞核的《酸类研究》，26，544–548。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
7Delcher A.L.公司。，Harmon，D.、Kasif，S.、White，O.和Salzberg，S.L.（1999）《改善》GLIMMER微生物基因鉴定。细胞核的《酸类研究》，27，4636–4641。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
8Krogh A。，Mian，I.S.和Haussler，D.（1994）A发现基因的隐马尔可夫模型大肠杆菌DNA。细胞核的《酸类研究》，22，4768–4778。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
9Lukashin A.V.和Borodovsky，M.（1998）GeneMark.hmm：基因发现的新解决方案。《核酸研究》，26，1107–1115。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
10海斯W.S.和Borodovsky，M.（1998）如何解释匿名细菌基因组：基因识别的机器学习方法。基因组第8号决议，1154–1171。[内政部] [公共医学] [谷歌学者]
11奥迪公司和Claverie，J.M.（1998）蛋白质编码区的自我识别在微生物基因组中。程序。美国国家科学院。科学。美国，9510026–10031。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
12Baldi P.（2000）蛋白质编码聚类算法的收敛性微生物基因组中的区域。生物信息学，16，367–371。[内政部] [公共医学] [谷歌学者]
13贝塞默J.和Borodovsky，M.（1999）推导模型的启发式方法用于基因发现。核酸研究，273911–3920。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
14弗里希曼·D·。，Mironov，A.、Mewes，H.-W.和Gelfand，M.（1998）组合全序列细菌基因识别的多种证据基因组。核酸研究，26，2941–2947。[已发布核酸研究勘误表（1998）26，3870][内政部] [PMC免费文章] [公共医学] [谷歌学者]
15什马特科夫上午。，Melikyan，A.A.、Chernousko，F.L.和Borodovsky，M.（1999）用“框架-五框架”算法寻找原核基因：靶向基因启动和重叠基因。生物信息学，15874–886。[内政部] [公共医学] [谷歌学者]
16雅达·T。，Nakao，M.、Totoki，Y.和Nakai，K.（1999）建模和预测的转录单位大肠杆菌属大肠杆菌使用隐马尔可夫模型的基因。生物信息学，1987-993年。[内政部] [公共医学] [谷歌学者]
17Hayes W.S.和Borodovsky，M.（1998）衍生核糖体未标记DNA序列的结合位点（RBS）统计模型以及将RBS模型用于N端预测。派克靴。交响乐团。生物计算。，279–290.[公共医学] [谷歌学者]
18Kozak M.（1999）原核生物和真核生物翻译的起始。基因，234，187–208。[内政部] [公共医学] [谷歌学者]
19纽瓦尔德空军。，Liu，J.S.和Lawrence，C.E.（1995）吉布斯基序取样：检测细菌外膜蛋白重复序列。蛋白质科学。，4, 1618–1632.[内政部] [PMC免费文章] [公共医学] [谷歌学者]
20Galas D.J。，Eggert，M.和Waterman，M.S.（1985）严格的模式再认知DNA序列测定方法。启动子序列分析大肠杆菌.J.摩尔。生物学，186117-128。[内政部] [公共医学] [谷歌学者]
21佩夫茨纳P.A。，Borodovsky，M.Y.和Mironov，A.A.（1989）语言学核苷酸序列。一：偏离的重要性平均统计特征与频率预测单词的出现。《生物分子杂志》。结构。动态。，6, 1013–1026.[内政部] [公共医学] [谷歌学者]
22斯塔登·R（1989）发现核酸序列中新基序的方法。计算。申请。生物科学。，5, 293–298.[内政部] [公共医学] [谷歌学者]
23赫兹G.Z。，Hartzell，G.W.，III和Stormo，G.D.（1990）鉴定已知功能相关的未对齐DNA序列中的一致模式。计算。申请。生物科学。，6, 81–92.[内政部] [公共医学] [谷歌学者]
24劳伦斯C.E。，Altschul，S.F.、Boguski，M.S.、Liu，J.S.、Neuwald，A.F.和Wootton，J.C。（1993）检测细微序列信号：吉布斯采样策略用于多重对齐。《科学》，262208-214。[内政部] [公共医学] [谷歌学者]
25赫兹G.Z和Stormo，G.D（1999）用多序列的统计显著性比对。生物信息学，15663–577。[内政部] [公共医学] [谷歌学者]
26Fraenkel Y.M。，Mandel，Y.、Friedberg，D.和Margalit，H.（1995）《识别未对齐DNA序列中的常见基序：应用于大肠杆菌Lrp公司调节器。计算。申请。生物科学。，11, 379–387.[内政部] [公共医学] [谷歌学者]
27Bailey T.L.和Elkan，C.（1995）先验知识在发现中的价值MEME图案。Ismb，3，21–29岁。[公共医学] [谷歌学者]
28厢式货车Helden J.、Andre，B.和Collado-Vides，J。（1998）从上游提取监管站点基于寡核苷酸计算分析的酵母基因区域频率。分子生物学杂志。，281、827–842页。[内政部] [公共医学] [谷歌学者]
29Hannenhalli S.S.公司。，Hayes，W.S.，Hatzigeorgiou，A.G.和Fickett，J.W.（1999）细菌起始位点预测。核酸研究，27，3577–3582。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
30Tompa M.（1999）序列中短基序的精确查找方法及其应用核糖体结合位点问题。伊斯姆，262-271。[公共医学] [谷歌学者]
31Sako Y。，野村，N.，内田，A.，石田，Y.，Morii，H.，Koga，Y.和Hoaki，TMaruyama，T.（1996）薰衣草消息。11月，sp.nov.，一种新型需氧高温古菌生长温度高达100摄氏度时。细菌学。，46, 1070–1077.[内政部] [公共医学] [谷歌学者]
32Klenk H.P.公司。，Clayton，R.A.、Tomb，J.、White，O.、Nelson，K.E.、Ketchum，K.A.、Dodson，R.J.、。，Gwinn，M.，Hickey，E.K.，Peterson，J.D。等.（1997）完整高温硫酸盐还原古细菌的基因组序列富氏古球虫《自然》，第390、364–370页。[内政部] [公共医学] [谷歌学者]
33Kunst F.等人。，Ogasawara，N.、Mozier，I.、Albertini，A.M.、Alloni，G.、Azevedo，V.、。，M.G.Bertero、P.Bessieres、A.Bolotin、S.Borchert。et（等）铝.（1997）革兰氏阳性菌的全基因组序列芽孢杆菌枯草杆菌科学，390，249–256。[内政部] [公共医学] [谷歌学者]
34布拉特纳F.R。，普朗基特，G.，III，布洛赫，C.A.，佩纳，N.T.，伯兰，V.，莱利，M.，科拉多·维德斯，J。，格拉斯纳，J.D.，罗德，C.K.，梅休，G.F。等。(1997)的完整基因组序列大肠杆菌K-12。科学，2771453-1474。[内政部] [公共医学] [谷歌学者]
35弗莱什曼R.D。，医学博士Adams、O.White、R.A.Clayton、E.F.Kirkness、A.R.Kerlavage。，Bult，C.J.、Tomb，J.、Dougherty，B.A.、Merrick，J.M。et（等）等。（1995）全基因组随机排序和组装流感嗜血杆菌道路科学，269496-512。[内政部] [公共医学] [谷歌学者]
36J.-F.墓。，怀特（White，O.）、科尔拉瓦奇（Kerlavage，A.R.）、克莱顿（Clayton，R.A.）、萨顿（Sutton，G.G.）、弗利什曼（Fleischmann，R.D.）、。，Ketchum，K.A.、Klenk，H.P.、Gill，S.、Dougherty，B.A。等。（1997）胃的完整基因组序列病原体幽门螺杆菌《自然》，388539–547。[内政部] [公共医学] [谷歌学者]
37史密斯D.R。，Doucette-Stamm，洛杉矶，Deloughery，C.，Lee，H.-M.，Dubois，J.，Aldredge，T。，Bashirzadeh，R.、Blakely，D.、Cook，R.和Gilbert，K。等。（1997年）的完整基因组序列甲烷杆菌增量（deltaH）：功能分析和比较基因组学。细菌杂志。，179, 7135–7155.[内政部] [PMC免费文章] [公共医学] [谷歌学者]
38Bult C.J.公司。，White，O.，Olsen，G.J.，Zhou，L.，Fleischmann，R.D.，Sutton，G.G.，Blake，J.A。，L.M.菲茨杰拉德、R.A.克莱顿、J.D.戈凯恩。等.（1996）的完整基因组序列产甲烷古菌，詹氏甲烷球菌《科学》，2731058–1073。[内政部] [公共医学] [谷歌学者]
39科尔S.T。，Brosch，R.、Parkhill，J.、Garnier，T.、Churcher，C.、Harris，D.、Gordon，S.V.、。，Eiglmeier，K.，加斯，S.，巴里，C.E.，III等。（1998）解密生物结核分枝杆菌从完整的基因组序列。《自然》，393537-544。[内政部] [公共医学] [谷歌学者]
40Kaneko T。，佐藤，S.，小谷，H.，田中，A.，浅水，E.，中村，Y.，宫岛，N。，Hirosawa M.、Sugiura M.和Sasamoto S。等。（1996）单细胞基因组序列分析蓝藻聚胞藻属.应变PCC6803.二。整个基因组的序列测定和分配潜在的蛋白质编码区。DNA研究，3，109–136。[内政部] [公共医学] [谷歌学者]
41链接A.J。，Robison，K.和Church，G.M.（1997）比较预测值和基因编码蛋白质的观察特性大肠杆菌K-12。电泳，18，1259–1313。[内政部] [公共医学] [谷歌学者]
42Schneider T.D.和Stephens，R.M.（1990）序列标志：显示一致序列的新方法。细胞核的《酸类研究》，18，6097–6100。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
43Altschul S.F.公司。，Gish，W.、Miller，W.、Myers，E.W.和Lipman，D.J.（1990）基础局部对齐搜索工具。分子生物学杂志。，215, 403–410.[内政部] [公共医学] [谷歌学者]
44Kyrpides N.C.和Ouzounis，C.A.（1999）古菌的转录。程序。Natl公司阿卡德。科学。美国，96、8545–8550。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
45Keeling P.J.和Doolittle，W.F.（1995）《古菌：缩小两者之间的差距》原核生物和真核生物。程序。美国国家科学院。科学。美国，925761–5764。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
46托尔斯特拉普N。，Sensen，C.W.，Garrett，R.A.和Clausen，I.G.（2000）两种不同的以及archaeon中高度组织化的翻译启动机制硫矿硫化叶菌.嗜极性，4175-179。[内政部] [公共医学] [谷歌学者]
47陈海。，Bjerknes，M.、Kumar，R.和Jay，E.（1994）《决定》Shine–Dalgarno之间的最佳对齐间距序列与翻译起始密码子大肠杆菌属大肠杆菌mRNA。核酸研究，22，4953–4957[内政部] [PMC免费文章] [公共医学] [谷歌学者]

[gke384c1] 1Fickett J.W.（1981）DNA序列中蛋白质编码区的识别。细胞核的《酸类研究》，10，5303–5318。[内政部] [PMC免费文章] [公共医学] [谷歌学者]

[gke384c2] 2格里布斯科夫·M·。，Devereux，J.和Burgess，R.R.（1984）密码子偏好图：蛋白质编码序列的图形分析和基因表达预测。核酸研究，12539–549。[内政部] [PMC免费文章] [公共医学] [谷歌学者]

[gke384c3] 三。斯塔登·R（1984）蛋白质编码对DNA影响的测量序列及其在寻找基因中的应用。核酸研究，12551–567。[内政部] [PMC免费文章] [公共医学] [谷歌学者]

[gke384c4] 4博罗多夫斯基M.Y。，Sprizhitskii，Y.A.、Golovanov，E.I.和Aleksandrov，A.A.（1986）功能区初级结构的统计模式在中大肠杆菌基因组：III.计算机识别编码区域的。分子生物学。，20, 1145–1150.[公共医学] [谷歌学者]

[gke384c5] 5Borodovsky M.Y.和McIninch，J.D.（1993）基因标记：平行基因识别用于两条DNA链。计算。化学。，17, 123–153.[谷歌学者]

[gke384c6] 6萨尔茨堡股份有限公司。，Delcher，A.L.、Kasif，S.和White，O.（1998）《微生物》使用插值马尔可夫模型进行基因识别。细胞核的《酸类研究》，26，544–548。[内政部] [PMC免费文章] [公共医学] [谷歌学者]

[gke384c7] 7Delcher A.L.公司。，Harmon，D.、Kasif，S.、White，O.和Salzberg，S.L.（1999）《改善》GLIMMER微生物基因鉴定。细胞核的《酸类研究》，27，4636–4641。[内政部] [PMC免费文章] [公共医学] [谷歌学者]

[gke384c8] 8Krogh A。，Mian，I.S.和Haussler，D.（1994）A发现基因的隐马尔可夫模型大肠杆菌DNA。细胞核的《酸类研究》，22，4768–4778。[内政部] [PMC免费文章] [公共医学] [谷歌学者]

[gke384c9] 9Lukashin A.V.和Borodovsky，M.（1998）GeneMark.hmm：基因发现的新解决方案。《核酸研究》，26，1107–1115。[内政部] [PMC免费文章] [公共医学] [谷歌学者]

[gke384c10] 10海斯W.S.和Borodovsky，M.（1998）如何解释匿名细菌基因组：基因识别的机器学习方法。基因组第8号决议，1154–1171。[内政部] [公共医学] [谷歌学者]

[gke384c11] 11奥迪公司和Claverie，J.M.（1998）蛋白质编码区的自我识别在微生物基因组中。程序。美国国家科学院。科学。美国，9510026–10031。[内政部] [PMC免费文章] [公共医学] [谷歌学者]

[gke384c12] 12Baldi P.（2000）蛋白质编码聚类算法的收敛性微生物基因组中的区域。生物信息学，16，367–371。[内政部] [公共医学] [谷歌学者]

[gke384c13] 13贝塞默J.和Borodovsky，M.（1999）推导模型的启发式方法用于基因发现。核酸研究，273911–3920。[内政部] [PMC免费文章] [公共医学] [谷歌学者]

[gke384c14] 14弗里希曼·D·。，Mironov，A.、Mewes，H.-W.和Gelfand，M.（1998）组合全序列细菌基因识别的多种证据基因组。核酸研究，26，2941–2947。[已发布核酸研究勘误表（1998）26，3870][内政部] [PMC免费文章] [公共医学] [谷歌学者]

[gke384c15] 15什马特科夫上午。，Melikyan，A.A.、Chernousko，F.L.和Borodovsky，M.（1999）用“框架-五框架”算法寻找原核基因：靶向基因启动和重叠基因。生物信息学，15874–886。[内政部] [公共医学] [谷歌学者]

[gke384c16] 16雅达·T。，Nakao，M.、Totoki，Y.和Nakai，K.（1999）建模和预测的转录单位大肠杆菌属大肠杆菌使用隐马尔可夫模型的基因。生物信息学，1987-993年。[内政部] [公共医学] [谷歌学者]

[gke384c17] 17Hayes W.S.和Borodovsky，M.（1998）衍生核糖体未标记DNA序列的结合位点（RBS）统计模型以及将RBS模型用于N端预测。派克靴。交响乐团。生物计算。，279–290.[公共医学] [谷歌学者]

[gke384c18] 18Kozak M.（1999）原核生物和真核生物翻译的起始。基因，234，187–208。[内政部] [公共医学] [谷歌学者]

[gke384c19] 19纽瓦尔德空军。，Liu，J.S.和Lawrence，C.E.（1995）吉布斯基序取样：检测细菌外膜蛋白重复序列。蛋白质科学。，4, 1618–1632.[内政部] [PMC免费文章] [公共医学] [谷歌学者]

[gke384c20] 20Galas D.J。，Eggert，M.和Waterman，M.S.（1985）严格的模式再认知DNA序列测定方法。启动子序列分析大肠杆菌.J.摩尔。生物学，186117-128。[内政部] [公共医学] [谷歌学者]

[gke384c21] 21佩夫茨纳P.A。，Borodovsky，M.Y.和Mironov，A.A.（1989）语言学核苷酸序列。一：偏离的重要性平均统计特征与频率预测单词的出现。《生物分子杂志》。结构。动态。，6, 1013–1026.[内政部] [公共医学] [谷歌学者]

[gke384c22] 22斯塔登·R（1989）发现核酸序列中新基序的方法。计算。申请。生物科学。，5, 293–298.[内政部] [公共医学] [谷歌学者]

[gke384c23] 23赫兹G.Z。，Hartzell，G.W.，III和Stormo，G.D.（1990）鉴定已知功能相关的未对齐DNA序列中的一致模式。计算。申请。生物科学。，6, 81–92.[内政部] [公共医学] [谷歌学者]

[gke384c24] 24劳伦斯C.E。，Altschul，S.F.、Boguski，M.S.、Liu，J.S.、Neuwald，A.F.和Wootton，J.C。（1993）检测细微序列信号：吉布斯采样策略用于多重对齐。《科学》，262208-214。[内政部] [公共医学] [谷歌学者]

[gke384c25] 25赫兹G.Z和Stormo，G.D（1999）用多序列的统计显著性比对。生物信息学，15663–577。[内政部] [公共医学] [谷歌学者]

[gke384c26] 26Fraenkel Y.M。，Mandel，Y.、Friedberg，D.和Margalit，H.（1995）《识别未对齐DNA序列中的常见基序：应用于大肠杆菌Lrp公司调节器。计算。申请。生物科学。，11, 379–387.[内政部] [公共医学] [谷歌学者]

[gke384c27] 27Bailey T.L.和Elkan，C.（1995）先验知识在发现中的价值MEME图案。Ismb，3，21–29岁。[公共医学] [谷歌学者]

[gke384c28] 28厢式货车Helden J.、Andre，B.和Collado-Vides，J。（1998）从上游提取监管站点基于寡核苷酸计算分析的酵母基因区域频率。分子生物学杂志。，281、827–842页。[内政部] [公共医学] [谷歌学者]

[gke384c29] 29Hannenhalli S.S.公司。，Hayes，W.S.，Hatzigeorgiou，A.G.和Fickett，J.W.（1999）细菌起始位点预测。核酸研究，27，3577–3582。[内政部] [PMC免费文章] [公共医学] [谷歌学者]

[gke384c30] 30Tompa M.（1999）序列中短基序的精确查找方法及其应用核糖体结合位点问题。伊斯姆，262-271。[公共医学] [谷歌学者]

[gke384c31] 31Sako Y。，野村，N.，内田，A.，石田，Y.，Morii，H.，Koga，Y.和Hoaki，TMaruyama，T.（1996）薰衣草消息。11月，sp.nov.，一种新型需氧高温古菌生长温度高达100摄氏度时。细菌学。，46, 1070–1077.[内政部] [公共医学] [谷歌学者]

[gke384c32] 32Klenk H.P.公司。，Clayton，R.A.、Tomb，J.、White，O.、Nelson，K.E.、Ketchum，K.A.、Dodson，R.J.、。，Gwinn，M.，Hickey，E.K.，Peterson，J.D。等.（1997）完整高温硫酸盐还原古细菌的基因组序列富氏古球虫《自然》，第390、364–370页。[内政部] [公共医学] [谷歌学者]

[gke384c33] 33Kunst F.等人。，Ogasawara，N.、Mozier，I.、Albertini，A.M.、Alloni，G.、Azevedo，V.、。，M.G.Bertero、P.Bessieres、A.Bolotin、S.Borchert。et（等）铝.（1997）革兰氏阳性菌的全基因组序列芽孢杆菌枯草杆菌科学，390，249–256。[内政部] [公共医学] [谷歌学者]

[gke384c34] 34布拉特纳F.R。，普朗基特，G.，III，布洛赫，C.A.，佩纳，N.T.，伯兰，V.，莱利，M.，科拉多·维德斯，J。，格拉斯纳，J.D.，罗德，C.K.，梅休，G.F。等。(1997)的完整基因组序列大肠杆菌K-12。科学，2771453-1474。[内政部] [公共医学] [谷歌学者]

[gke384c35] 35弗莱什曼R.D。，医学博士Adams、O.White、R.A.Clayton、E.F.Kirkness、A.R.Kerlavage。，Bult，C.J.、Tomb，J.、Dougherty，B.A.、Merrick，J.M。et（等）等。（1995）全基因组随机排序和组装流感嗜血杆菌道路科学，269496-512。[内政部] [公共医学] [谷歌学者]

[gke384c36] 36J.-F.墓。，怀特（White，O.）、科尔拉瓦奇（Kerlavage，A.R.）、克莱顿（Clayton，R.A.）、萨顿（Sutton，G.G.）、弗利什曼（Fleischmann，R.D.）、。，Ketchum，K.A.、Klenk，H.P.、Gill，S.、Dougherty，B.A。等。（1997）胃的完整基因组序列病原体幽门螺杆菌《自然》，388539–547。[内政部] [公共医学] [谷歌学者]

[gke384c37] 37史密斯D.R。，Doucette-Stamm，洛杉矶，Deloughery，C.，Lee，H.-M.，Dubois，J.，Aldredge，T。，Bashirzadeh，R.、Blakely，D.、Cook，R.和Gilbert，K。等。（1997年）的完整基因组序列甲烷杆菌增量（deltaH）：功能分析和比较基因组学。细菌杂志。，179, 7135–7155.[内政部] [PMC免费文章] [公共医学] [谷歌学者]

[gke384c38] 38Bult C.J.公司。，White，O.，Olsen，G.J.，Zhou，L.，Fleischmann，R.D.，Sutton，G.G.，Blake，J.A。，L.M.菲茨杰拉德、R.A.克莱顿、J.D.戈凯恩。等.（1996）的完整基因组序列产甲烷古菌，詹氏甲烷球菌《科学》，2731058–1073。[内政部] [公共医学] [谷歌学者]

[gke384c39] 39科尔S.T。，Brosch，R.、Parkhill，J.、Garnier，T.、Churcher，C.、Harris，D.、Gordon，S.V.、。，Eiglmeier，K.，加斯，S.，巴里，C.E.，III等。（1998）解密生物结核分枝杆菌从完整的基因组序列。《自然》，393537-544。[内政部] [公共医学] [谷歌学者]

[gke384c40] 40Kaneko T。，佐藤，S.，小谷，H.，田中，A.，浅水，E.，中村，Y.，宫岛，N。，Hirosawa M.、Sugiura M.和Sasamoto S。等。（1996）单细胞基因组序列分析蓝藻聚胞藻属.应变PCC6803.二。整个基因组的序列测定和分配潜在的蛋白质编码区。DNA研究，3，109–136。[内政部] [公共医学] [谷歌学者]

[gke384c41] 41链接A.J。，Robison，K.和Church，G.M.（1997）比较预测值和基因编码蛋白质的观察特性大肠杆菌K-12。电泳，18，1259–1313。[内政部] [公共医学] [谷歌学者]

[gke384c42] 42Schneider T.D.和Stephens，R.M.（1990）序列标志：显示一致序列的新方法。细胞核的《酸类研究》，18，6097–6100。[内政部] [PMC免费文章] [公共医学] [谷歌学者]

[gke384c43] 43Altschul S.F.公司。，Gish，W.、Miller，W.、Myers，E.W.和Lipman，D.J.（1990）基础局部对齐搜索工具。分子生物学杂志。，215, 403–410.[内政部] [公共医学] [谷歌学者]

[gke384c44] 44Kyrpides N.C.和Ouzounis，C.A.（1999）古菌的转录。程序。Natl公司阿卡德。科学。美国，96、8545–8550。[内政部] [PMC免费文章] [公共医学] [谷歌学者]

[gke384c45] 45Keeling P.J.和Doolittle，W.F.（1995）《古菌：缩小两者之间的差距》原核生物和真核生物。程序。美国国家科学院。科学。美国，925761–5764。[内政部] [PMC免费文章] [公共医学] [谷歌学者]

[gke384c46] 46托尔斯特拉普N。，Sensen，C.W.，Garrett，R.A.和Clausen，I.G.（2000）两种不同的以及archaeon中高度组织化的翻译启动机制硫矿硫化叶菌.嗜极性，4175-179。[内政部] [公共医学] [谷歌学者]

[gke384c47] 47陈海。，Bjerknes，M.、Kumar，R.和Jay，E.（1994）《决定》Shine–Dalgarno之间的最佳对齐间距序列与翻译起始密码子大肠杆菌属大肠杆菌mRNA。核酸研究，22，4953–4957[内政部] [PMC免费文章] [公共医学] [谷歌学者]

PERMALINK公司

GeneMarkS：一种自训练方法用于预测微生物基因组中的基因启动。启示在调控区域中寻找序列基序

约翰·贝塞默

亚历山大·隆萨泽

马克·博罗多夫斯基

摘要