How to interpret an anonymous bacterial genome: machine learning approach to gene identification

doi:10.1101/gr.8.11.1154

.1998年11月；8(11):1154-71.

doi:10.1101/gr.8.11.1154。

如何解释匿名细菌基因组：基因识别的机器学习方法

W S海耶斯¹, M博罗多夫斯基

附属公司

PMID： 9847079
内政部： 10.1101/gr.8.11.1154

免费文章

如何解释匿名细菌基因组：基因识别的机器学习方法

W S海耶斯等。基因组研究. 1998年11月.

免费文章

.1998年11月；8(11):1154-71.

doi:10.1101/gr.8.11.1154。

作者

W S海耶斯¹, M博罗多夫斯基

附属

¹美国佐治亚州亚特兰大市佐治亚理工学院生物学院，邮编：30332-0230。

PMID： 9847079
内政部： 10.1101/gr.8.11.1154

摘要

在本报告中，我们解决了对基因组（或很大一部分）已测序但尚未进行实验表征的细菌物种的DNA序列进行准确统计建模的问题，无论是编码的还是非编码的。这些模型的可用性对于通过基因发现的统计方法成功解决基因组注释任务至关重要。我们提出了GeneMark-Genesis方法，该方法从匿名细菌基因组序列中学习蛋白质编码区和非编码区的马尔可夫模型参数。这些模型随后用于GeneMark和GeneMark.hmm基因查找程序。虽然对于给定的基因组来说，基本上有一个非编码区的模型，但几个蛋白质编码区模型是通过基因标记生成自动获得的。蛋白质编码模型的多样性反映了寡核苷酸组成的多样性，特别是在同一基因组的基因中观察到的密码子使用策略的多样性。在最简单也是最重要的情况下，只有两种基因模型——典型和非典型。我们表明，非典型模型允许我们预测逃避典型模型识别的基因。非典型模型预测的许多基因似乎是水平转移的基因。早期版本的GeneMark-Genesis被用于注释jannaschii甲烷球菌和幽门螺杆菌的基因组。我们报告了在10个完全测序的细菌基因组上对全尺寸版本的Gene Mark-Geness的准确性测试结果。有趣的是，使用GeneMark-Genesis定义的典型和非典型模型的GeneMark.hmm程序能够预测683个新的非典型基因，其中176个通过相似性搜索确认。

PubMed免责声明

类似文章

通过“框架-五框架”算法发现原核基因：靶向基因启动和重叠基因。
Shmatkov AM、Melikyan AA、Chernousko FL、Borodovsky M。 Shmatkov AM等人。生物信息学。1999年11月；15（11）：874-86。doi:10.1093/bioinformatics/15.11.874。生物信息学。1999 PMID：10743554
识别原核基因组中基因的概率方法：与HMM理论的联系。
Azad RK、Borodovsky M。 Azad RK等人。简要生物信息。2004年6月；5（2）:118-30。doi:10.1093/bib/5.2.118。简要生物信息。2004 PMID：15260893
协同孢子虫PCC6803株1兆碱基连续基因组序列数据中可能基因的计算机调查。
Hirosawa M、Kaneko T、Tabata S、McIninch JD、Hayes WS、Borodovsky M、Isono K。 Hirosawa M等人。 DNA研究，1995年12月31日；2（6）：239-46。doi:10.1093/dnares/2.6.239。 1995年DNA研究。 PMID：8867797
原核生物泛基因组分析的第一步。
Costa SS、Guimaráes LC、Silva A、Soares SC、Baraúna RA。 Costa SS等人。 Bioninform Biol Insights公司。2020年8月7日；14:1177932220938064. doi:10.1177/1177932220938064。eCollection 2020。 Bioninform Biol Insights公司。2020 PMID：32843837 免费PMC文章。审查。
寻找基本基因。
帝国陆军。帝国陆军。 Res微生物。2000年6月；151(5):319-24. doi:10.1016/s0923-2508（00）00153-4。 Res微生物。2000 PMID：10919511 审查。

查看所有类似文章

引用人

自然界中核酸和肽短序列罕见的决定因素。
Chantzi N、Mareboina M、Konnaris MA、Montgomery A、Patsakis M、Mouratidis I、Georgakopoulos-Soares I。 Chantzi N等人。 NAR Genom Bioninform公司。2024年4月4日；6（2）：lqae029。doi:10.1093/nargab/lqae029。eCollection 2024年6月。 NAR Genom Bioninform公司。2024 PMID：38584871 免费PMC文章。
利用机器学习揭示大肠杆菌中的蛋白质降解。
Nagar N、Ecker N、Loewenthal G、Avram O、Ben Meir D、Biran D、Ron E、Pupko T。 Nagar N等人。 m系统。2021年2月2日；6（1）：e01296-20。doi:10.1128/mSystems.01296-20。 m系统。2021 PMID：33531410 免费PMC文章。
基因组序列的低维表示。
Tillquist RC，Lladser ME。蒂尔奎斯特RC等人。数学生物学杂志。2019年7月；79(1):1-29. doi:10.1007/s00285-019-01348-1。Epub 2019年3月30日。数学生物学杂志。2019 PMID：30929047
缺氧反应性钼辅因子生物合成途径的水平获得有助于结核分枝杆菌的病理适应。
Levillain F、Poquet Y、Mallet L、Mazères S、Marceau M、Brosch R、Bange FC、Supply P、Magalon A、Neyrolles O。 Levillain F等人。《公共科学图书馆·病理学》。2017年11月27日；13（11）：e1006752。doi:10.1371/journal.ppat.1006752。eCollection 2017年11月。《公共科学图书馆·病理学》。2017 PMID：29176894 免费PMC文章。
利用监督机器学习识别软腐相关病原体Dickeya dadantii 3937和胡萝卜果肉杆菌WPP14基因组中的宿主-微生物相互作用因子。
Ma B、Charkowski AO、Glassner JD、Perna NT。 Ma B等人。 BMC基因组学。2014年6月21日；15:508. doi:10.1186/1471-2164-15-508。 BMC基因组学。2014 PMID：24952641 免费PMC文章。

查看所有“引用者”文章

出版物类型

行动

物质

行动

LinkOut-更多资源

全文源
- HighWire（高线）
其他文献来源
- 镜片-专利引文

将引文保存到文件

电子邮件引文

添加到集合

添加到我的书目

您保存的搜索

为外部引文管理软件创建文件

您的RSS源

如何解释匿名细菌基因组：基因识别的机器学习方法

附属

如何解释匿名细菌基因组：基因识别的机器学习方法

作者

附属

摘要

类似文章

引用人

出版物类型

MeSH术语

物质

LinkOut-更多资源

全文源

其他文献来源