跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2007年1月;35(数据库问题):D26–D31。
2006年12月5日在线发布。 数字对象标识:10.1093/nar/gkl993年10月10日
预防性维修识别码:项目经理1761442
PMID:17148475

Entrez Gene:NCBI以基因为中心的信息

摘要

Entrez基因(www.ncbi.nlm.nih.gov/enterz/query.fcgi?db=基因)是NCBI的基因特定信息数据库。Entrez Gene包括来自基因组的记录,这些记录已完成测序,有活跃的研究社区提供基因特定信息,或计划进行密集的序列分析。Entrez Gene的内容表示来自NCBI参考序列项目(RefSeq)、合作模型生物数据库和NCBI内其他数据库的数据的管理和自动集成结果。Entrez基因中的记录被指定为唯一、稳定和跟踪的整数作为标识符。内容(命名、地图位置、基因产物及其属性、标记、表型和引文链接、序列、变异细节、地图、表达、同源物、蛋白质域和外部数据库)通过NCBI的Entrez系统、NCBI Entrez编程实用程序(E-utilities)、,以及通过ftp进行批量传输。

简介

Entrez Gene是美国国家生物技术信息中心(NCBI)的基因特定数据库,该中心是美国国家医学图书馆(NLM)的一个分部,位于美国马里兰州贝塞斯达的美国国立卫生研究院(NIH)校园内。Entrez Gene为基因和其他基因座(例如官方命名的映射标记)提供唯一的整数标识符,用于模型生物体的子集。它跟踪这些标识符,并与Entrez系统集成,用于交互式查询、LinkOut和E-Utilities访问(1). 所维护的信息包括命名法、定义序列、染色体定位、基因产物及其属性(例如蛋白质相互作用)、相关标记、表型、相互作用和大量引用链接、相关序列、变异、图谱、表达、同源物、,蛋白质域内容和外部数据库。

Entrez Gene中的数据来自RefSeq工作人员的管理和自动分析。NCBI参考序列项目中的序列注释(2)或国际核苷酸序列数据库合作组织(DDBJ、EMBL、GenBank)()与来自合作模型生物数据库、公共用户和文献综述(尤其是功能或基因RIF中的基因参考)的信息集成。

Entrez基因是NCBI中基因特定信息表示的一个组成部分。通过建立序列和GeneID之间的关系传递的信息被其他NCBI资源使用(1)例如BLAST、dbSNP、GEO、HomoloGene、Map Viewer、Probe、UniGene、UniSTS和NCBI的基因组注释管道。例如,与GeneID关联的名称在HomoloGene、UniGene和哺乳动物基因集合中使用(4). NCBI RefSeq工作人员在与多个权威机构协商后,调查并解决了基因及其序列表示的不一致性(2). 尽管Entrez Gene的目标是提供稳定的界面,但批量传输的内容、显示或方法可能会发生变化。接收高级更改通知的一种方法是通过订阅vog.hin.mln.ibcn@ecnuonna-eneg.

数据库的功能

Entrez Gene的主要目标是为多个基因组的基因提供跟踪的、唯一的标识符,并报告与这些标识符相关的信息,以供不受限制的公众使用。指定的标识符(GeneID)是一个整数,并且是特定于物种的。换言之,人类营养不良蛋白的整数与其他物种的不同。GeneID在RefSeq记录中报告为“db_xref”(例如,/db_xref='GeneID:856646',采用GenBank格式)。

Entrez Gene提供多个报告。对于交互式用户,默认值是Entrez查询产生的HTML摘要显示(图1)或通过单击摘要页面中的符号访问特定于基因的报告(图2). 基因表显示选项可用于获得RefSeq基因组序列上注释的基因内含子/外显子组织的报告,并快速导航到任何这些基因特征的序列。除了Entrez的标准视图外,Gene还提供了完整的数据库提取以及ftp传输的几个特殊报告(ftp://ftp.ncbi.nih.gov/gene/README). 数据也可从Entrez的编程接口获得,即E-Utilities(1).

保存图片、插图等的外部文件。对象名为gkl993f1.jpg

查询结果的代表性“摘要”报告。检索哺乳动物中有缺陷基因划分信息的查询结果。此图说明了几个要点:(i)调用限制以限制结果集时的显示;(ii)拼写检查;(iii)使用My NCBI自定义选项卡,以突出显示结果集中记录的子类别;(iv)使用My NCBI更改链接菜单的显示。限制:哺乳动物表示从通过限制选项卡访问的页面中选择了哺乳动物,以将结果限制在哺乳动物的基因上。术语分区在数据库中没有匹配项;“details”页面解释说,只处理了术语“defective”。Entrez确定了可能的拼写错误,并建议了另一个查询(您的意思是:分区有缺陷吗?)。在返回的522个结果中,标签显示448个是当前结果(仅当前结果),350个在dbSNP(Gene genotype)中有可用的基因型信息,455个可以在Map Viewer(Gene Map Viewer:基因地图查看器)中查看,386个在UniGene(Gene UniGene)中具有表达数据。因为My NCBI环境将默认的链接菜单替换为文本,所以连接到每条记录的数据库将直接显示在结果页面上。摘要显示包括来源物种、首选和替代符号、首选和其他描述性名称、染色体定位、GeneID和MIM编号(如果合适)。单击任意符号链接到完整报告(图2). 顶部的黑色导航栏和左侧的蓝色侧栏提供了到其他站点的一般链接,包括基因组特定资源指南(基因组生物学)、FTP站点、提交反馈的表单(反馈)和订阅邮件列表的表单(邮件列表)。

保存图片、插图等的外部文件。对象名为gkl993f2a.jpg
保存图片、插图等的外部文件。对象名为gkl993f2c.jpg

()代表Entrez基因完整报告页,第1部分。完整报告显示。标准的基因特定报告页面以基因的摘要信息、目录和链接菜单开始。摘要部分包括名称和符号别名。如果基因有命名机构提供的官方名称,则这些名称将作为官方符号和官方全名进行报告,命名源将锚定链接。将显示该源提供的数据库标识符,并将链接锚定到该源的特定记录。该基因的所有RefSeq RNA的审查状态报告为RefSeq状态。如果该基因已注释在RefSeq基因组序列上,则会提供一张图表,以图解说明该基因的内含子/外显子组织(基因组区域、转录物和产物),以及基因组、mRNA和蛋白质RefSeq的接入与NCBI Entrez系统中序列记录的锚定链接,如果是蛋白质,则为BLink(1)如果RefSeq蛋白是CCDS组(2)的成员,则RefSeq蛋白质登录右侧的CCDS标识符锚定到CCDS数据库的链接。基因组背景部分绘制了基因及其相邻基因的位置。每个符号都将链接固定到Entrez Gene中的另一个记录。NCBI地图查看器的链接在本节中,与链接菜单中的链接相同。点击参考书目部分或链接菜单中的PubMed,可以访问PubMed中与基因记录相关的所有引文。导航到PubMed以获取与特定信息相关的引文,如GeneRIF或基因本体术语,这些元素会明确重复(b条). 链接菜单应用于确定关于基因的其他可用信息的类型和来源。在本例中,有关表达的信息可从GENSAT、GEO、UniGene和MGI获得;同源基因同源,SNP变异;支持证据查看器和ModelMaker的基因组注释、KEGG的通路等的cDNA(b)代表Entrez基因完整报告页,第2部分。完整报告显示的这一部分包括目录(a)中显示的记录部分,如书目、等位基因、一般基因信息和一般蛋白质信息。在GenerRIF部分,文本右侧的图标将链接指向支持GenerRIF的PubMed。如MGI锚定的链接所示,等位基因和基因本体部分中的数据是从MGI导入的。基因及其编码的蛋白质的替代名称列在一般蛋白质信息/名称下。如果这个基因编码一种酶,那么E.C.的名称也会出现在这一部分。(c(c))恩特雷兹基因代表完整报告页面,第3部分。完整报告显示的这一部分包括目录(a)中显示的记录部分,作为参考序列、相关序列和附加链接。参考序列部分根据报告的RefSeq类型细分为小节。第一部分(独立于注释基因组维护的RefSeq)报告了RefSeq基因组、RNA和蛋白质的来源,这些来源可以随时更新,因此可能与基因组注释中包含的版本或数量不同(2)。注释基因组的RefSeqs下报告的序列是染色体的基因组RefSeq以及参考和交替组合的连续体。这些RefSeq部分中的每一个,以及下面的相关序列部分,都将链接锚定到NCBI的Entrez系统中的记录,在该系统中提供了标准工具来处理序列(例如,更改范围、显示注释的SNPs或以多种格式下载)。相关序列部分列出了该基因或其编码蛋白的公共序列的来源和菌株。附加链接部分中的项目包含在链接菜单(a)中,但被选择在此处重复以增强访问,例如显示UniGene簇号。

数据库的范围

何时分配GeneID?

标识符总是分配给RefSeq记录上注释为基因特征的内容。当不存在RefSeq时,也可以分配标识符。当一个基因组的权威来源,例如一个特定于生物体的模型数据库,为所谓的基因、映射位点或特征分配一个标识符时,可能会发生这种情况,即使该实体不是完全由序列定义的。当建立基因记录时,它被指定一个类别(例如,蛋白质编码、假基因、rRNA、未知)。“未知”一词是在审查类别时使用的,例如定义基因的一些序列用编码区进行注释,但对该注释的支持尚不明确。指定的类别可以在不更改GeneID的情况下更改。

一些当前统计数据

截至2006年9月,Gene中有超过200万个当前记录,分布在超过3500个分类群中(表1). 并不是所有的分类群都在Gene中得到了完整的表示;例如,大多数真核生物只有线粒体基因组的基因记录。基因统计网站(http://www.ncbi.nlm.nih.gov/projects/Gene/gentrez_stats.cgi)按分类节点和物种报告记录的当前和历史计数。

表1

代表性统计

类别出租车基因ID
带有GO术语的记录30194446
带有GenerRIF的记录63130726
来自真核生物1077777108
来自真菌66135771
来自Archea6871805
来自细菌7851151407
来自病毒156946484

记录内容

图2显示可通过Entrez gene检索的代表性基因特定信息。例如,由公众和国家医学图书馆索引科提供的GeneRIF提供了一份关于当前文献中基因功能、发现和定位的注释参考书目。并非所有类别的信息都完全显示在基因报告中;许多详细信息可以通过链接检索(链接菜单,图2a)提供给其他数据库,如核苷酸和蛋白质用于序列,同源基因用于整合同源物信息,Map Viewer用于扩展基因组上下文和比较图,GENSAT、UniGene和GEO用于表达数据,Conserved Domain Database用于蛋白质域内容,OMIM用于人类孟德尔疾病,PubMed和Books用于出版物、物种特异性数据库和LinkOut链接,用于导航到已报告拥有更多与GeneID相关信息的外部数据库。还提供了指向BLink等工具的链接(1)支持由BLAST比对确定的相关蛋白质的许多观点。目标是集成足够的文本、关键字和链接,使Entrez Gene成为检索感兴趣信息的有效起点。

获得ENTREZ基因

在NCBI可以通过多种方式访问Entrez Gene中的信息(表2). 最直接的方法是从NCBI主页向Entrez提交查询并在Gene中显示结果,或者在任何Entrez查询栏中输入查询并将数据库搜索限制为Gene。另一种方法是利用Entrez系统计算的链接。例如,您可能会找到一条感兴趣的PubMed记录,并从PubMed's Links菜单中发现Entrez Gene中有一条记录连接到出版物。BLAST组使用Entrez Gene维护的GeneID<->序列关系,帮助您通过蓝色G图标从与查询匹配的蛋白质或mRNA输入导航到Entrez基因。Map Viewer提供了从注释基因到Entrez基因的链接。RefSeq记录将GeneID作为db_xref包含在基因特征中。因此,您不仅可以通过文本导航到基因,还可以通过基因组位置(Map Viewer)、RefSeq注释和序列数据(BLAST、核苷酸、蛋白质)导航到基因。

表2

访问Entrez基因

直接查询
输入搜索词并选择“基因”部分中显示的结果网址:www.ncbi.nlm.nih.govhttp://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi?
输入搜索词并仅查询Entrez Genewww.ncbi.nlm.nih.gov/enterz/query.fcgi?db=基因或从任何Entrez查询栏中选择Gene作为搜索选项
E-Utilities:以交互方式检查结果。(提示:如果浏览器不显示XML,请查看源代码。)http://eutils.ncbi.nlm.nih.gov/enterz/eutils/esummary.fcgi?db=gene&id=19,1130331321037339453789734631&retmode=xml
其他NCBI数据库中的特定记录连接
    非基因记录中显示右上角的链接菜单中的基因选项单击基因以查找与所显示记录相关的基因记录
    称为基因或G的链接Map Viewer的基因注释;与基因记录相关的材料的BLAST检索
更多信息
    帮助文档http://www.ncbi.nlm.nih.gov/bov.fcgi?rid=helpgene.TOC&depth=2
    如何计算Entrez链接http://www.ncbi.nlm.nih.gov/entrez/query/static/entrezlinks.html

如果您注册MyNCBI(http://www.ncbi.nlm.nih.gov/bws/bv.fcgi?rid=helpmyncbi.chapter.MyNCBI),您可以选择在创建或更新满足您喜爱的搜索的记录时接收电子邮件。您还可以自定义默认显示,以标识查询返回的记录子集具有特定属性(图1).

ENTREZ基因的外部数据库链接

Entrez Gene可以作为NCBI以外数据库的特定基因信息的目录。有两大类连接。一个来自与多个数据提供商的积极合作,如模型生物数据库、GO联盟、KEGG和Reactome(http://www.ncbi.nlm.nih.gov/bov.fcgi?rid=helpgene.table.EntrezGene.T1). 其他数据由注册NCBI LinkOut的数据提供商生成(1)系统。Entrez Gene的任何用户使用LinkOut检索记录后,都可以根据数据提供者的规范连接到注册的数据库。

反馈

我们欢迎您就Entrez Gene界面或其中包含的任何数据提供反馈。请从任何基因页面上的反馈选项中选择(图1).

致谢

美国国立卫生研究院为支付这篇文章的开放获取出版费用提供了资金。

利益冲突声明。未声明。

参考文献

1Wheeler D.L.、Barrett T.、Benson D.A.、Bryant S.H.、Canese K.、Chetvernin V.、Church D.M.、DiCuccio M.、Edgar R.、Federhen S.等,国家生物技术信息中心数据库资源。核酸研究。2007(已提交)[PMC免费文章][公共医学][谷歌学者]
2Pruitt K.D.、Tatusova T.、Maglott D.NCBI参考序列(RefSeq):基因组、转录物和蛋白质的精选非冗余序列数据库。核酸研究。2007(已提交)[PMC免费文章][公共医学][谷歌学者]
三。Benson D.A.、Karsch-Mizrachi I.、Lipman D.J.、Ostell J.、Wheeler D.L.GenBank。核酸研究。2007(已提交)[PMC免费文章][公共医学][谷歌学者]
4Strausberg R.L.、Feingold E.A.、Grouse L.H.、Derge J.G.、Klausner R.D.、Collins F.S.、Wagner L.、Shenmen C.M.、Schuler G.D.、Altschul S.F.等人。15000多条全长人和鼠cDNA序列的生成和初步分析。程序。美国国家科学院。科学。美国。2002;99:16899–16903. [PMC免费文章][公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社