跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2016年8月19日;44(14):6614-24.
doi:10.1093/nar/gkw569。 Epub 2016年6月24日。

NCBI原核基因组注释管道

附属公司

NCBI原核基因组注释管道

塔蒂亚娜·塔图索娃等。 核酸研究. .

摘要

最近的技术进步为疾病暴发中致病物种种群的大规模测序和分析以及旨在扩大我们对整个原核生物领域的知识的大规模多样性研究提供了前所未有的机会。为了应对及时解释这一庞大遗传信息的结构、功能和意义的挑战,迫切需要一种全面的基因组自动注释方法。NCBI与佐治亚理工大学合作,开发了一种新的基因组注释方法,将基于比对的方法与直接从序列预测蛋白质编码和RNA基因及其他功能元件的方法相结合。一种新的基因发现工具GeneMarkS+使用蛋白质和RNA同源性放置的综合证据作为注释的初始地图,生成并修改整个基因组的从头算基因预测。因此,新NCBI的原核基因组注释管道(PGAP)在有可靠的比较数据时更依赖序列相似性,而在缺乏外部证据时更依赖统计预测。该管道提供了一个框架,用于生成和分析原核生物分类的全部注释。有关PGAP的更多信息,请参阅https://www.ncbi.nlm.nih.gov/geneme/annotation_prok/和NCBI手册,https://www.ncbi.nlm.nih.gov/books/NBK174280/。

PubMed免责声明

数字

图1。
图1。
对于给定的X(%),蛋白质簇的累积数量(Y)定义为包含支链所有成员分数X≥X的蛋白质簇的数量。给出了四个研究良好的分支的数据。
图2。
图2。
PGAP执行图的一个片段:预测结构RNA基因(ncRNA、tRNA、5S-、16S-、23S-rRNA)。
图3。
图3。
PGAP流程图。红色虚线表示第一道和第二道之间的分隔(详见正文)。
图4。
图4。
中的一个区域耐辐射球菌R1基因组组装(GCA_00008565.1)包含三个重叠的ORF,在PGAP的第一次传递中从头开始预测为CDS。通过第二次PGAP对跨物种蛋白质证据的自动评估揭示了与所有三个片段具有同源性的蛋白质。蛋白质与基因组的比对揭示了在其他方面无法预测的框架转移。绿色条代表基因,红色条代表编码区域;灰色条-与红色垂直条对齐,表示不匹配。(A类)第1号染色体的一个区域D.耐辐射药物包含三个CDS功能的(AE000513.1)与六帧转换一起显示。(B)同一区域,更新后包括带有移码CDS的最终注释标记,以及证明两个移码的一致模式和位置的支持蛋白质(用100 733和100 959处的箭头标记)。
图5。
图5。
基因组注释肠道沙门菌第(b)小节。血清型伤寒杆菌街道LT2(NC_003197)。蛋白质比对为基因启动选择提供支持。有关绿色、红色和灰色条的含义的描述,请参见图4的图例。(A类)来自核心蛋白簇的蛋白质代表的第一轮比对没有为基因启动选择提供足够的证据。(B)第二轮比对明确支持一个与上游基因不重叠的较短基因模型。
图6。
图6。
GenBank和RefSeq记录的COMMENT部分提供了PGAP基因组注释过程的总结。下面给出了以下示例单核细胞增多性李斯特菌菌株CFSAN010068,全基因组NZ_CP014250.1。
图7。
图7。
基因组的频率直方图,相对于RefSeq中蛋白质相似性支持的基因全补体的分数。在所考虑的基因组总数中,约50%的基因组(大多来自人口稠密的分支)中,95%以上的蛋白质编码基因由蛋白质序列相似性支持。

类似文章

引用人

工具书类

    1. Besemer J.、Lomsadze A.、Borodovsky M.GeneMarkS:预测微生物基因组中基因启动的自训练方法。在调控区域中发现序列基序的意义。2001年《核酸研究》;26:1107–1115.-项目管理咨询公司-公共医学
    1. Delcher A.L.、Harmon D.、Kasif S.、White O.、Salzberg S.L.使用GLIMMER改进微生物基因鉴定。1999年《核酸研究》;23:4636–4641.-项目管理咨询公司-公共医学
    1. Tatusov R.L.、Natale D.A.、Garkavtsev I.V.、Tatusova T.A.、Shankavaram U.T.、Rao B.S.、Kiryutin B.、Galperin M.Y.、Fedorova N.D.、Koonin E.V.COG数据库:全基因组蛋白质系统发育分类的新进展。2001年《核酸研究》;29:22–28.-项目管理咨询公司-公共医学
    1. Klimke W.、Agarwala R.、Badretdin A.、Chetvernin S.、Ciufo S.、Fedorov B.、Kiryutin B.、O'Neill K.、Resch W.、Resenchuk S.等。国家生物技术信息中心蛋白质簇数据库。核酸研究2009;37:D216–D223。-项目管理咨询公司-公共医学
    1. Nawrocki E.P.,Eddy S.R.Inferal 1.1:100倍的RNA同源性搜索速度。生物信息学。2013;29:2933–2935.-项目管理咨询公司-公共医学

出版物类型

物质