跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
2001年6月15日;29(12):2607-18.
doi:10.1093/nar/29.12.2607。

GeneMarkS:一种预测微生物基因组中基因启动的自训练方法。发现调控区序列基序的意义

附属公司

GeneMarkS:一种预测微生物基因组中基因启动的自训练方法。在调控区域中发现序列基序的意义

J贝塞默等。 核酸研究

摘要

提高基因起始点预测的准确性是原核生物基因计算机预测中剩下的几个未决问题之一。其困难是由于缺乏识别真正翻译起始位点的相对较强的序列模式。在当前的论文中,我们表明,在基于隐马尔可夫模型的迭代算法中,将蛋白质编码区和非编码区模型与基因启动附近的调控位点模型相结合,可以提高基因启动预测的准确性。这种新的基因预测方法称为GeneMarkS,它利用了一种非监督的训练程序,可以用于新测序的原核基因组,而无需事先了解任何蛋白质或rRNA基因。GeneMarkS实现使用了基因查找程序GeneMark.hmm的改进版本、编码和非编码区域的启发式马尔可夫模型以及吉布斯采样多重比对程序。GeneMarkS准确预测了GenBank注释的枯草芽孢杆菌基因83.2%的翻译起始点,以及实验验证的一组大肠杆菌基因94.4%的翻译起始值。我们还观察到,GeneMarkS通过识别包含真实基因的开放阅读框来检测原核基因,其准确性与当前使用的最佳基因检测方法的水平相匹配。准确的翻译起始预测,以及蛋白质序列N末端数据的精细化,可以精确定位基因起始上游的序列区域。因此,可以更精确地揭示和分析与转录和翻译调控位点相关的序列基序。这些基序被证明具有显著的变异性,并对其功能和进化联系进行了讨论。

PubMed免责声明

数字

图1
图1
的分步图GeneMarkS程序。
图2
图2
(A类)在GeneMarkS培训过程中没有编码划分按顺序分为两组。然而,在应用GeneMark.hmm时2.0程序,由GeneMarkS导出的编码区域模型可以用作典型模型,以及用作非典型模型(见表3)。对于简单性,只显示了直接链。(B类)在这个GeneMark.hmm中隐藏状态转换的简化图中2.0,状态“基因”代表组成的序列一个RBS加上一个间隔子加上蛋白质编码序列(CDS)。基因重叠包括所有可能的重叠类型:重叠同一条链上基因的重叠(如操纵子中观察到的)相反链上的基因,编码区与RBS重叠,以及等等。
图3
图3
(A类)顺序表示检测到的RBS位置频率模式的徽标由GeneMarkS在分析枯草杆菌基因组学数据。每个位置四个字母的总高度表示位置特定的信息内容,而每个位置的高度字母与核苷酸频率成正比(42)。(B类)间隔长度的概率分布图,序列在RBS序列和基因启动之间。
图3
图3
(A类)顺序表示检测到的RBS位置频率模式的徽标由GeneMarkS在分析枯草杆菌基因组学数据。每个位置四个字母的总高度表示位置特定的信息内容,而每个位置的高度字母与核苷酸频率成正比(42)。(B类)间隔长度的概率分布图,序列在RBS序列和基因启动之间。
图4
图4
显示组的维恩图GenBank注释与检测到的基因集之间的关系由GeneMark.hmm 2.0和Glimmer 2.02为枯草杆菌基因组(A) 和大肠杆菌基因组(B)。
图5
图5
log-odds的分布GeneMarkS检测到的RBS站点的分数,以重叠的形式显示和非重叠基因(A类)枯草杆菌,(B类)大肠杆菌和(C类)M.jannaschii先生可以看出,重叠的基因可能位于操纵子内部,经常拥有强大的RBS站点。尽管如此,核糖体的大多数强位点结合先于非重叠基因(独立基因和引导操纵子的基因)。这种趋势在古菌基因组病例M.jannaschii先生在中大肠杆菌枯草杆菌基因组。
图5
图5
log-odds的分布GeneMarkS检测到的RBS站点的分数,以重叠的形式显示和非重叠基因(A类)枯草杆菌,(B类)大肠杆菌和(C类)M.jannaschii先生可以看出,重叠的基因可能位于操纵子内部,经常拥有强大的RBS站点。尽管如此,核糖体的大多数强位点结合先于非重叠基因(独立基因和引导操纵子的基因)。这种趋势在古菌基因组病例M.jannaschii先生在中大肠杆菌枯草杆菌基因组。
图5
图5
log-odds的分布GeneMarkS检测到的RBS站点的分数,以重叠的形式显示和非重叠基因(A类)枯草杆菌,(B类)大肠杆菌和(C类)M.jannaschii先生可以看出,重叠的基因可能位于操纵子内部,经常拥有强大的RBS站点。尽管如此,核糖体的大多数强位点结合先于非重叠基因(独立基因和引导操纵子的基因)。这种趋势在古菌基因组病例M.jannaschii先生在中大肠杆菌枯草杆菌基因组。
图6
图6
序列标志代表GeneMarkS检测到的上游序列基序富列杜斯。这个一致序列相当表明存在真核样启动子元素,而不是原核生物中常见的RBS信号。地点与此模式匹配的在富氏A.fulgidus,尽管对上游序列子集的进一步分析揭示了第二个图案(见图7)互补富氏A.fulgidus16S rRNA。
图7
图7
序列标志代表在该基因上游序列子集中观察到的RBS基序富氏A.fulgidus基因组。该子集由50个组成nt长上游序列与3′端重叠前一个基因。这个主题的共识是互补的到的一部分富氏A.fulgidus16S rRNA。
图8
图8
间隔棒长度分布对于两个具有强RBS模式的物种,枯草杆菌大肠杆菌(分别为实线和虚线),和一个具有强真核启动子样模式的物种,富氏A.fulgidus(虚线)。类促进者模式属于富氏A.fulgidus位于上游更远处比RBS模式的启动密码子枯草杆菌大肠杆菌
图9
图9
(A类)分发枯草杆菌基因组针对两种不同类型的可能的RBS六聚体:AGGAGG和AGGTGA。多重排列允许这些六聚体叠加。实际上游序列中,这些六聚体往往占据不同的位置相对于起始密码子的位置。可能涉及此偏好翻译起始时核糖体的精确定位16S rRNA与mRNA结合的位点平均在距离基因起点较远的地方观察到而不是稀有的六聚体。(B类)间隔棒分布观察到的长度热自养M基因组用于两种不同类型的RBS六聚体:GGAGGT和GGTGAT。属性其中的六聚体与在枯草杆菌基因组(A),除了更频繁的现在发现六聚体与基因的平均距离更近开始比罕见的六聚体。
图9
图9
(A类)分发枯草杆菌基因组针对两种不同类型的可能的RBS六聚体:AGGAGG和AGGTGA。多重排列允许这些六聚体叠加。实际上游序列中,这些六聚体往往占据不同的位置相对于起始密码子的位置。可能涉及此偏好翻译起始时核糖体的精确定位16S rRNA与mRNA结合的位点平均在距离基因起点较远的地方观察到而不是稀有的六聚体。(B类)间隔棒分布观察到的长度热自养M基因组用于两种不同类型的RBS六聚体:GGAGGT和GGTGAT。属性其中的六聚体与在枯草杆菌基因组(A),除了更频繁的现在发现六聚体与基因的平均距离更近开始比罕见的六聚体。

类似文章

引用人

工具书类

    1. Fickett J.W.(1981)DNA序列中蛋白质编码区的识别。核酸研究,105303–5318。-项目管理咨询公司-公共医学
    1. Gribskov M.、Devereux,J.和Burgess,R.R.(1984)密码子偏好图:蛋白质编码序列的图形分析和基因表达预测。核酸研究,12539–549。-项目管理咨询公司-公共医学
    1. Staden R.(1984)蛋白质编码对DNA序列的影响的测量及其用于寻找基因。核酸研究,12551–567。-项目管理咨询公司-公共医学
    1. Borodovsky M.Y.、Sprizhitskii,Y.A.、Golovanov,E.I.和Aleksandrov,A.A.(1986)大肠杆菌基因组中功能区初级结构的统计模式:III.编码区的计算机识别。分子生物学。,20, 1145–1150.-公共医学
    1. Borodovsky M.Y.和McIninch,J.D.(1993)《基因标记:两条DNA链的平行基因识别》。计算。化学。,17, 123–153.

MeSH术语

物质