跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2011年1月;39(数据库问题):D52–D57。
2010年11月27日在线发布。 数字对象标识:10.1093/nar/gkq1237
PMCID公司:项目经理2013746
PMID:21115458

Entrez Gene:NCBI以基因为中心的信息

摘要

Entrez基因(http://www.ncbi.nlm.nih.gov/gene网站)是国家生物技术信息中心(NCBI)的基因特定信息数据库。Entrez Gene负责保存已完成测序的基因组记录,这些基因组有活跃的研究团体提交基因特定信息,或计划进行密集的序列分析。内容代表了NCBI参考序列项目(RefSeq)、合作模型生物数据库、基因本体等联盟以及NCBI内其他数据库的管理和自动化处理的集成。Entrez Gene中的记录被指定为唯一、稳定和跟踪的整数作为标识符。内容(命名法、基因组位置、基因产物及其属性、标记、表型和引文链接、序列、变异细节、地图、表达、同源物、蛋白质域和外部数据库)可通过NCBI的Entrez系统,通过NCBI's Entrez编程实用程序(E-utilities)进行交互式浏览以及通过FTP进行批量传输。

简介

Entrez Gene是美国国家生物技术信息中心(NCBI)的基因特定数据库,该中心是美国国家医学图书馆的一个部门,位于美国马里兰州贝塞斯达的美国国立卫生研究院校园内。Entrez基因生成唯一整数(GeneID)作为模式生物子集的基因和其他位点的稳定标识符。它跟踪这些标识符,并使用它们整合多种类型的信息,包括命名、摘要描述、基因特异性和基因产物特异性序列的获取、染色体定位、通路和蛋白质相互作用的报告、相关标记和表型。由于GeneID用于表示NCBI其他数据库中的基因特定信息,因此完整的Entrez gene报告包含大量链接,指向NCBI以外的基因特定文献引用、序列、变异、同源物和数据库。Entrez基因与NCBI的Entrex系统集成,用于交互式查询,E-Utilities的链接和访问(1).

Entrez Gene中的数据来自参考序列项目(RefSeq)工作人员对自动化分析和管理结果的整合。NCBI的RefSeq序列中的基因特异性注释(2)或国际核苷酸序列数据库合作组织(INSDC)()通常作为基础,利用来自合作模型生物数据库、公众用户和文献综述(尤其是公众和国家医学图书馆工作人员提交的功能或基因参考)的信息增加价值。每天都会发布更新信息,欢迎您提出更正或建议(http://www.ncbi.nlm.nih.gov/RefSeq/update.cgi).

截至2010年9月,Entrez基因中有近700万个当前记录,分布在7300多个分类群中(表1). 并不是所有的分类群都在Entrez基因中得到了全面的表示;例如,大多数真核生物只有线粒体或质体基因组的记录。基因统计网站(http://www.ncbi.nlm.nih.gov/projects/Gene/gentrez_stats.cgi)按分类节点和物种报告记录的当前和历史计数。历史报告可用于跟踪数据库的增长。例如,真核生物节点的历史(http://www.ncbi.nlm.nih.gov/projects/Gene/gentrez_stats.cgi?HIS=1&TAXORG=2759)结果表明,从2004年到现在,所代表的基因数量增加了近10倍(221997-2520683),物种数量增加了5倍(485-2265)。

表1。

代表性统计

类别出租车基因ID
带有GO术语的记录3724 1633
带有GenerRIF的记录147559 627
来自原肠/细菌22904 090 330
来自真菌190586 394
来自原生动物146400 187
来自病毒240482 684
来自植物148354 241
来自无脊椎动物670554 008
来自脊椎动物(非哺乳动物)1090134 355
来自哺乳动物311471 725

数据库的功能

该数据库的一个主要目标是促进对特定基因信息的访问,从而加快数据交换。分配给每个记录的唯一整数标识符(GeneID)是特定于物种的。换言之,人类营养不良蛋白的整数与其他物种的不同。GeneID在RefSeq记录中报告为“db_xref”(例如,/db_xref=“GeneID:1756”,采用GenBank格式)。GeneID还用于定义FTP可用的多个文件中的基因,以便提供与GeneID相关的信息供不受限制的公共使用。

Entrez Gene也是在NCBI上表示基因特定信息的关键。通过建立序列和GeneID之间的关系传递的信息被许多NCBI资源使用。例如,与GeneID关联的名称在HomoloGene、UniGene和RefSeq中使用。Entrez gene中报告的筛选基因与序列的关系用于通知基因组的自动注释和UniGene聚类。

WEB报告

Entrez Gene提供多个报告。对于交互式用户,默认值是要根据查询结果下载的网页或文件,可通过在激活“显示设置”或“发送到”时显示的选择进行访问(图1).

  1. “摘要显示”来自查询,并提供标准Entrez工具来导航到与查询匹配的记录集相关的信息(图1).
  2. 每个特定基因的“完整报告”都可以通过特定基因的URL(例如。http://www.ncbi.nlm.nih.gov/gene/7097)或单击摘要页面中的符号(图2).
    保存图片、插图等的外部文件。对象名称为gkq1237f2.jpg

    Entrez Gene中的代表性完整报告。此数字基于http://www.ncbi.nlm.nih.gov/gene/7097关闭多个部分以使报告适合一页。请注意,右上角目录中列举的概念在Entrez Gene完整报告中明确提供;链接部分中列举的概念来自NCBI的其他资源。链接部分中的一些标题与NCBI数据库的名称不完全对应。例如,RefSeq蛋白导致在蛋白质数据库中显示;RefSeq RNA和RefSeqGene在核苷酸数据库中显示,SNP GeneView在dbSNP中显示基因特异性。

  3. “基因表”显示(例如。http://www.ncbi.nlm.nih.gov/gene/7097?report=gene_table)报告基因的内含子/外显子组织,如RefSeq基因组序列上的注释所示,带有访问每个外显子、编码区或内含子序列的链接。如果一个基因在多个RefSeq基因组序列上表示,则会提供一个菜单供用户进行选择。用户还可以选择报告相对于所选序列或相对于基因的坐标。
  4. “GeneRIF”报告(例如。http://www.ncbi.nlm.nih.gov/gene/7097?report=GeneRif)提供了GeneRIF文本的表格显示,以及每篇论文的标题和作者。可以通过单击列标题对列进行排序。
  5. “XML”和“ASN.1”显示以文本形式提供,没有完整的Entrez功能。如果打开这些页面,用户必须使用浏览器的back功能返回Entrez环境。
  6. Summary(摘要)、Full Report(完整报告)和GeneTable(基因表)显示的文本可以通过右上角的“Send to”(发送到)功能生成,选择File(文件),然后从菜单中选择一个选项。

保存图片、插图等的外部文件。对象名为gkq1237f1.jpg

查询结果的代表性“摘要”报告。检索有关gckr作为哺乳动物或真菌基因符号的信息的查询结果(部分)。此图说明了几点:(i)在查询中使用字段限制;(ii)当调用“限制”来限制结果时的显示,在这种情况下,按物种显示;(iii)使用“显示设置”报告按基因权重排序的每页五条记录(根据特定基因引用和保守性的数量计算),以及(iv)使用MyNCBI以绿色突出显示与结果集中查询词的匹配。”限制激活”:哺乳动物、真菌表示从查询栏上的“限制”访问的表单上检查了哺乳动物和真菌。在返回的15个结果中,右上角“筛选您的结果”下的信息表示11个是当前的(仅当前,突出显示),5个在dbSNP(基因型)中有可用的基因型信息,9个可以在Map Viewer(基因图查看器)中查看,8个在UniGene(基因UniGene)中有表达数据。对于筛选查询返回的每个GeneID,摘要包括物种、首选和替代符号、首选和其他描述性名称、染色体定位、GeneID和MIM编号(如果合适)。单击任何符号链接到完整报告,或单击左上角的Entrez Gene文本返回Entrez基因的主页。右侧列中的“查找相关数据”菜单允许选择一个数据库,在其中查找与初始查询结果相关的数据。例如,要在结果集中查找基因的同源物,请从菜单中选择HomoloGene,阅读如何计算这些链接,然后单击“查找项目”。

FTP和电子公用设施

除了Entrez提供的这些视图外,Gene还提供了完整的数据库提取以及FTP传输的几个特殊报告(ftp://ftp.ncbi.nlm.nih.gov/gene/README). ftp站点上的大多数文件每天都会刷新。数据也可从Entrez的编程接口获得,即E-Utilities(1).

数据库内容

GeneID是什么时候分配的?每个GeneID是如何分类的?

GeneID通常分配给RefSeq记录上注释为基因的内容。例外情况包括细菌基因组中带有注释的全基因组鸟枪序列的RefSeq。当不存在RefSeq时,也可以分配GeneID。当一个基因组的权威来源,例如一个特定于生物体的模型数据库,为所谓的基因、映射位点或特征分配一个标识符时,可能会发生这种情况,即使该实体不是完全由序列定义的。当Entrez Gene中的记录建立后,它被指定一个与INSDC定义的分子类型一致的类别(例如蛋白质编码、假基因、rRNA、未知)。当RefSeq工作人员正在审查该类别时,会使用“未知”一词,比如定义基因的一些序列用编码区进行注释,但对该注释的支持是不确定的。类别可以在不更改GeneID的情况下更改。

代表性完整记录

Entrez Gene中的完整记录被细分为特定于内容的部分,如其目录和部分标题中所述(图2). 记录的每个部分都可以折叠,并且部分分隔符既有指向文档的链接(图标:问号),又有返回页面顶部的功能。并非所有记录都会在每个类别中包含内容,但所有记录都有一个GeneID、名称和支持创建记录的信息(序列、指向外部数据库或出版物的链接)。NCBI工作人员不会审查某些内容,而是自动集成。例如,交互部分和一般基因信息部分的几个部分的内容主要来自外部团体[例如EcoCyc(4),基因本体联盟(5)、KEGG(6),反应组(7)]. 当用该基因注释的基因组参考序列可用时,“基因组区域、转录物和产物”部分包括一个可以扩展的嵌入式交互式序列显示。为了加快网页的加载,完整记录的默认显示通常只呈现书目和交互信息的子集。这些部分中提供了链接以导航到其他页面。要在一页中获取完整报告,“发送到”选项允许将记录保存为文本文件。

NCBI书架上的基因帮助手册中提供了这些章节内容和维护的最新综合文档(http://www.ncbi.nlm.nih.gov/books/NBK3839/).

除了直接显示的内容外,Entrez Gene还提供了许多指向文本内和右侧链接菜单中其他数据库信息的链接(图2). 例如,单击右侧菜单中的“RefSeq蛋白质”、“RefSeq-RNA”或RefSeqGene,用户将进入核苷酸数据库,在该数据库中可以检索、查看和分析特定于一个基因的RefSeq记录。同样,用户可以选择同源基因或蛋白质簇(8)同系物信息集成链接、扩展基因组上下文和比较图的Map Viewer、表达数据的GENSAT、UniGene和GEO、蛋白质域内容的保守域数据库、OMIM(9)用于人类孟德尔病,PubMed和出版物书籍。Entrez Gene还提供了到其他浏览器中物种或基因特定数据库或基因记录的广泛链接。许多团体还使用LinkOut(1)方法将其资源链接到Entrez Gene中的信息。将与其他NCBI数据库中特定基因报告的明确内容链接以及与外部资源的链接集成在一起,都有助于使Entrez gene成为检索特定基因信息的有效网站。

获得ENTREZ基因

在NCBI可以通过多种方式访问Entrez Gene中的信息(表2). 最简单的方法是从NCBI主页向Entrez提交交互式查询并在Gene中显示结果,或者在任何Entrez查询栏中输入查询并将数据库搜索限制为Gene。直接从Entrez Gene开始,“限制”和“高级搜索”页面使构建复杂查询和提交查询变得更加容易。例如,“限制”页面支持通过染色体位置或分类节点查找基因,“高级搜索”页面具有查询生成器、浏览数据库中所有术语及其出现的字段的功能(浏览索引),以及合并和比较以前查询结果的工具(搜索历史)。Entrez Gene记录中的所有文本都被编入索引以支持检索。有关如何查询Entrez Gene的更全面的讨论,请参阅帮助文档的查询提示部分。如果记录中与查询词匹配的位置不是很明显,则感兴趣的文本可能位于分页部分的下一页。

表2。

进入Entrez基因

直接查询
输入搜索词并选择“基因”部分中显示的结果网址:http://www.ncbi.nlm.nih.govhttp://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi?
输入搜索词并仅查询Entrez基因网址:http://www.ncbi.nlm.nih.gov/gene或从任何Entrez查询栏中选择Gene作为搜索选项
E-Utilities:以交互方式检查结果。(提示:如果浏览器不显示XML,请查看源代码。)http://eutils.ncbi.nlm.nih.gov/enterz/eutils/esummary.fcgi?db=gene&id=672&retmode=xml
与其他NCBI数据库中基因的记录特异性连接
位于显示器右侧的链接菜单中的基因选项单击基因以查找与正在显示的记录相关的基因记录。
基因“广告”一个看起来像基因符号的查询会产生一个基因Ad(位于查询结果上方),建议用户检查Entrez gene以获取更多信息;或者,对于具有明确链接的序列记录,在右栏中提供了一个Ad,以突出显示与Entrez基因的链接。
基因符号或GeneID许多NCBI数据库提供了与基因符号或GeneID上锚定的Entrez Gene的链接。
称为基因或G的链接Map Viewer的基因注释;BLAST检索与基因记录相关的材料。
更多信息
帮助文档http://www.ncbi.nlm.nih.gov/books/NBK3839/
Entrez的一般使用http://www.ncbi.nlm.nih.gov/books/NBK3836/

访问Entrez Gene的另一种方法是利用Entrez系统计算的链接(1). 例如,从PubMed开始的用户可以使用“Find related data”或“All links from this record”选项来查找Entrez Gene中连接到出版物的记录。BLAST组使用Entrez Gene维护的GeneID–序列关系,帮助用户通过蓝色G图标从匹配序列查询的蛋白质或mRNA输入导航到Entrez基因。Map Viewer提供了从注释基因到Entrez基因的链接。RefSeq记录将GeneID作为db_xref包含在基因特征中。因此,用户不仅可以通过文本,还可以通过基因组位置、RefSeq注释和序列数据(BLAST、核苷酸、蛋白质)导航到Entrez Gene。

鼓励用户注册MyNCBI(http://www.ncbi.nlm.nih.gov/books/NBK3843/). 它支持在创建或更新记录时注册搜索和接收电子邮件。它还支持自定义显示,以标识查询返回的记录子集具有特定属性。

未来发展方向

随着新物种的测序和基因的鉴定,Entrez基因中的记录数量将继续增加。2011年期间,将在web界面中添加部分和/或增强内容,以便用户在导航到NCBI的相关网站之前在完整报告中获得更多信息。这一过渡始于2010年,增加了表型部分。最后,随着NCBI实施具有特定基因内容的新数据库,内容和/或链接将添加到Entrez gene。

反馈

我们欢迎有关Entrez Gene界面或其中包含的任何数据的反馈。请从任何基因页面上的反馈选项中选择(图1).

基金

开放获取费用资助:美国国立卫生研究院院内研究计划;国家医学图书馆。

利益冲突声明。未声明。

参考文献

1Sayers EW、Barrett T、Benson DA、Bolton E、Bryant SH、Canese K、Chetvernin V、Church DM、Dicuccio M、Federhen S等,国家生物技术信息中心数据库资源。核酸研究。2010;38:D5–D16。 [PMC免费文章][公共医学][谷歌学者]
2Pruitt KD、Tatusova T、Klimke W、Maglott D.NCBI参考序列:现状、政策和新举措。核酸研究。2009;37:D32–D36。 [PMC免费文章][公共医学][谷歌学者]
三。Benson DA、Karsch-Mizrachi I、Lipman DJ、Ostell J、Sayers EW。GenBank。核酸研究。2009;37:D46–D51。 [PMC免费文章][公共医学][谷歌学者]
4Keseler IM、Bonavides Martínez C、Collado Vides J、Gama Castro S、Gunsalus RP、Johnson DA、Krummenacker M、Nolan LM、Paley S、Paulsen IT等。EcoCyc:综合观点大肠杆菌生物学。核酸研究。2009;37:464–470. [PMC免费文章][公共医学][谷歌学者]
5基因本体联盟。2010年的基因本体论:扩展和完善。核酸研究。2010;38:D331–D335。 [PMC免费文章][公共医学][谷歌学者]
6Ogata H、Goto S、Sato K、Fujibuchi W、Bono H、Kanehisa M.KEGG:《京都基因和基因组百科全书》。核酸研究。1999;27:29–34. [PMC免费文章][公共医学][谷歌学者]
7Matthews L、Gopinath G、Gillespie M、Caudy M、Croft D、de Bono B、Garapati P、Hemish J、Hermjakob H、Jassal B等。人类生物途径和过程的反应组知识库。核酸研究。2010;37:D619–D622。 [PMC免费文章][公共医学][谷歌学者]
8Klimke W、Agarwala R、Badretdin A、Chetvernin S、Ciufo S、Fedorov B、Kiryutin B、O'Neill K、Resch W、Resenchuk S等。国家生物技术信息中心蛋白质簇数据库。核酸研究。37:D216–D223。 [PMC免费文章][公共医学][谷歌学者]
9.Amberger J、Bocchini CA、Scott AF、Hamosh A.McKusick的Onliine Mendelian人类遗传(OMIM)核酸研究。2009;37:D793–D796。 [PMC免费文章][公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社