跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.1998年11月;8(11):1154-71.
doi:10.1101/gr.8.11.1154。

如何解释匿名细菌基因组:基因识别的机器学习方法

附属公司
免费文章

如何解释匿名细菌基因组:基因识别的机器学习方法

W S海耶斯等。 基因组研究. 1998年11月.
免费文章

摘要

在本报告中,我们解决了对基因组(或很大一部分)已测序但尚未进行实验表征的细菌物种的DNA序列进行准确统计建模的问题,无论是编码的还是非编码的。这些模型的可用性对于通过基因发现的统计方法成功解决基因组注释任务至关重要。我们提出了GeneMark-Genesis方法,该方法从匿名细菌基因组序列中学习蛋白质编码区和非编码区的马尔可夫模型参数。这些模型随后用于GeneMark和GeneMark.hmm基因查找程序。虽然对于给定的基因组来说,基本上有一个非编码区的模型,但几个蛋白质编码区模型是通过基因标记生成自动获得的。蛋白质编码模型的多样性反映了寡核苷酸组成的多样性,特别是在同一基因组的基因中观察到的密码子使用策略的多样性。在最简单也是最重要的情况下,只有两种基因模型——典型和非典型。我们表明,非典型模型允许我们预测逃避典型模型识别的基因。非典型模型预测的许多基因似乎是水平转移的基因。早期版本的GeneMark-Genesis被用于注释jannaschii甲烷球菌和幽门螺杆菌的基因组。我们报告了在10个完全测序的细菌基因组上对全尺寸版本的Gene Mark-Geness的准确性测试结果。有趣的是,使用GeneMark-Genesis定义的典型和非典型模型的GeneMark.hmm程序能够预测683个新的非典型基因,其中176个通过相似性搜索确认。

PubMed免责声明

类似文章

引用人

出版物类型

LinkOut-更多资源