跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2005年1月1日;33(数据库问题):D54–D58。
2004年12月17日在线发布。 数字对象标识:10.1093/nar/gki031号
预防性维修识别码:项目编号539985
PMID:15608257

Entrez Gene:NCBI以基因为中心的信息

摘要

Entrez基因(www.ncbi.nlm.nih.gov/enterz/query.fcgi?db=基因)是NCBI的基因特定信息数据库。它不包括所有已知或预测的基因;相反,Entrez Gene关注的是已经完全测序的基因组,这些基因组有活跃的研究社区来提供基因特定信息,或者计划进行密集的序列分析。Entrez Gene的内容表示来自NCBI参考序列项目(RefSeq)、合作模型生物数据库以及NCBI可用的许多其他数据库的数据的管理和自动集成结果。记录被指定为唯一、稳定和跟踪的整数作为标识符。内容(命名法、地图位置、基因产物及其属性、标记、表型、引文链接、序列、变异细节、地图、表达、同源物、蛋白质域和外部数据库)随着新信息的出现而更新。Entrez Gene是NCBI的LocusLink向前迈出的一步,它不仅大大增加了分类范围,而且通过与NCBI Entrez相关的许多工具改进了访问。

简介

Entrez Gene是美国国家生物技术信息中心(NCBI)的基因特定数据库,该中心是美国国家医学图书馆(NLM)的一个分部,位于美国马里兰州贝塞斯达的美国国立卫生研究院(NIH)校园内。Entrez Gene为模型生物子集的基因和其他位点提供唯一的整数标识符。它跟踪这些标识符,并与Entrez系统集成,用于交互式查询、LinkOut和E-utilities访问(1). 维护的信息包括命名法、染色体定位、基因产物及其属性(例如蛋白质相互作用)、相关标记、表型、相互作用,以及引用、序列、变异细节、地图、表达报告、同源物、蛋白质域内容和外部数据库的丰富链接。

Entrez Gene中的数据来自于管理和自动分析的混合。NCBI参考序列项目中的序列注释(2)或国际核苷酸序列数据库合作组织(DDBJ、EMBL、GenBank)()与来自合作模型生物数据库、文献综述(尤其是功能或基因RIF的基因参考)的信息集成(1)和公共用户,由RefSeq员工根据需要进行管理。

Entrez Gene是NCBI中基因特定信息表示的组成部分。通过建立“基因到序列”关系传递的信息被其他NCBI资源使用(1)例如BLAST、Geo、HomoloGene、Map Viewer、UniGene、UniSTS和NCBI的基因组注释管道。例如,与GeneID关联的名称在HomoloGene、Map Viewer、UniGene和哺乳动物基因集合中使用(4). NCBI工作人员与外部命名机构合作,调查并解决了基因及其序列表示的不一致性。

Entrez Gene的内容、显示和批量报告仍在开发中。用户可能有兴趣订阅vog.hin.mln.ibcn@ecnuonna-eneg以接收有关修改的信息。

数据库的功能

Entrez Gene的主要目标是为基因提供跟踪的唯一标识符,并报告与这些标识符相关的信息,以供不受限制的公共使用。指定的标识符(GeneID)是一个整数,并且是特定于物种的。换言之,人类营养不良蛋白的整数与其他物种的不同。对于在LocusLink中表示的基因组,GeneID与LocusID相同。GeneID在RefSeq记录中报告为“db_xref”(例如,/db_xref=“GeneID:856646”,采用GenBank格式)。

Entrez Gene提供多个报告。对于交互式用户,默认值是Entrez查询产生的HTML摘要显示(图(图1)1)或通过单击摘要页面中的符号获得特定于基因的报告(图(图2)。2). 基因表显示选项可用于获得RefSeq基因组序列上注释的基因内含子/外显子组织的报告,并快速导航到任何这些基因特征的序列。除了来自Entrez的多个视图外,Gene还提供了ASN.1格式的完整数据库提取,以及用于ftp传输的几个制表符分隔的报告(ftp://ftp.ncbi.nlm.nih.gov/gene公司/). 数据也可从Entrez的编程接口获得,即电子实用程序(1).

保存图片、插图等的外部文件。对象名为gki031f1.jpg

查询结果的摘要视图。该查询是胶原蛋白ix阿尔法2”. 这个短语阿尔法2以双引号提交,以限制alpha后跟2的查询。请注意,方框“仅当前记录”()自动选中;要检索过期记录,必须取消选中此框。默认的摘要显示选项允许通过链接菜单(展开显示,B类). 摘要包括物种起源、首选和替代(其他别名)符号、首选和其他(其他名称)描述性名称、染色体定位、GeneID。单击复选框左侧的任何符号(C类)链接到完整报告(图(图2)。2). 顶部的黑色导航栏和左侧的蓝色侧栏提供了到其他站点的一般链接,包括基因组特定资源指南(基因组生物学)、FTP站点、提交反馈(反馈)的表单,以及订阅邮件列表以了解更改的表单(订阅)。

保存图片、插图等的外部文件。对象名为gki031f2.jpg

部分报告页。标准的特定基因报告页面以首选符号(名称)和基因、物种和ID的描述开头。适当时,它使用与GenBank记录的特征注释一致的标签“基因座标签”提供指向关键外部资源的链接。如果该基因已注释在RefSeq基因组序列(NT_004511)上,则会提供一个图形,显示该基因及其相邻基因的位置。分配给mRNA和蛋白质的材料分别显示在左侧和右侧(本例中为NM_001852,NP_001843)。单击这些添加中的任何一个,将打开一个选项菜单以获取序列。蛋白质添加的菜单()显示您可以以FASTA、GenBank或图形格式链接到序列,或使用BLink(1)显示有关相关蛋白质或保守结构域的信息。完整记录右上角的链接菜单(在中展开B类)指示哪些资源具有与该基因特定相关的信息。其中一些链接与摘要显示中看到的链接相同(图(图1),1),但通常有其他无法直接从Entrez访问的信息链接。

数据库的范围

何时分配GeneID?

标识符总是分配给RefSeq记录上注释为基因的内容。当基因组的权威来源为基因、映射基因座或性状分配标识符时,也可以创建记录,即使该实体尚未由明确的序列定义。虽然这意味着Entrez基因并不局限于生物学上被认为是基因的东西,但随着性状或其他位点的分子基础的定义,预期这些记录中的一些将变得更加“类似基因”。每个基因记录都从Entrez-Gene的ASN.1规范中的枚举列表中分配一个类型。(有关更多信息,请参阅基因帮助文档。)此类型在Entrez中作为命名属性进行索引(例如基因型蛋白质编码),可以在不更改GeneID的情况下进行更改。

一些当前统计数据

截至2004年9月,Entrez Gene中有2400多个分类群,目前共有约958000个记录。并不是所有的分类群都在Entrez基因中得到了完整的表达;例如,大多数真核生物(总计约600种)只有线粒体基因组的基因记录。所代表的分类群中有一半以上是病毒(~1350)。下一个具有全面基因注释的基因组的是真细菌和古生菌(分别为~200和20)。大约95%的记录是关于蛋白质编码基因的。

记录内容

表11总结了可通过Entrez gene检索的基因特定信息、数据显示方式以及这些数据处理方式的一些方面。例如,GeneRIF主要由公众和国家医学图书馆索引部提供,它提供了一份关于当前文献中基因功能、发现和映射的注释书目,并在默认报告中显示。关于同源群簇(COG)的信息(5)可通过链接菜单访问。这种文本和连接的组合旨在提供足够的描述、关键字和链接,使Entrez Gene成为检索感兴趣信息的有效起点。

表1。

Entrez基因中的信息类别
子类别展示评论
术语  
基因符号和完整描述报告,表资料来源:外部机构、GenBank、出版物。”如果上述官方认可的命名法均无优先权,则分配LOC’+GeneID命名
蛋白质名称报告,表通常与基因名相同,但可以编辑以使直系人名统一
基因结构和序列  
基因结构报告,表基于参考序列的注释
参考序列报表、表、链接加入情况显示在报告页面中;序列是从核苷酸或蛋白质中检索的
相关序列报告,链接基于cDNA或蛋白质比较,最佳基因组放置和管理。访问权限显示在报告页面中;序列从核苷酸或蛋白质中检索
基因组位置  
按顺序报告,链接基因组注释
通过独立地图链接细胞遗传学位置的共享标记或报告
引文  
未添加注释链接来源:外部主管部门,RefSeq管理
带批注的报告,链接来源:外部数据库、GenerRIF
功能注释  
域内容报告,链接保留域数据库(CDD)
GO术语报告GO财团
途径和互动报告,链接KEGG,艾滋病毒相互作用数据库
疾病和其他表型报告,链接外部机构,如OMIM、RefSeq管理
同源性  
按基因链接同源基因
按蛋白质链接COG公司
保留的分段链接图谱浏览器
表达式  
无害环境技术链接非重复序列
外部资源链接外部资源被命名并用于锚定链接。表达式数据在该源中可用
阵列链接地理位置
相关信息  
由Gene员工整合链接可以显示在报告上,也可以显示在“链接”菜单中
外部来源链接“链接”菜单中的“链接输出”选项

显示信息的位置:报告、图形显示;表,基因表显示;链接,链接菜单。

获得ENTREZ基因

可在NCBI以多种方式访问Entrez Gene中的信息(表(表2)。2). 最直接的方法是从NCBI主页向Entrez提交查询并在Gene中显示结果,或者在任何Entrez查询栏中输入查询并将数据库搜索限制为Gene。另一种方法是利用Entrez系统计算的链接。例如,您可能会找到感兴趣的PubMed记录,并从PubMed's Links菜单中发现Gene中有一条记录连接到出版物。

表2。

访问Entrez基因
在线帮助文档“查询提示”部分中的直接查询详细说明:
http://www.ncbi.nlm.nih.gov/enterz/query/static/help/genehelp.html#query 
  网址:www.ncbi.nlm.nih.gov/Entrez/网址:www.ncbi.nlm.nih.gov输入搜索词并选择“基因”部分中显示的结果
  www.ncbi.nlm.nih.gov/enterz/query.fcgi?db=基因或从任何Entrez查询栏中选择Gene作为搜索选项输入搜索词
其他NCBI数据库中的特定记录连接 
非基因记录中显示右上角的链接菜单中的基因选项单击基因以查找与所显示记录相关的基因记录
称为基因或G的链接Map Viewer的基因注释;与基因记录相关的材料的BLAST检索

NCBI中的许多数据库利用Gene维护的GeneID<->序列关系,将感兴趣的序列连接到Entrez Gene记录。例如,BLAST查询匹配与Entrez基因记录相关联的蛋白质或mRNA输入,由蓝色G图标标识。Map Viewer提供了从注释基因到Entrez基因的链接。RefSeq记录将GeneID作为db_xref包含在基因特征中。因此,您不仅可以通过文本查询,还可以通过基因组位置(Map Viewer)、RefSeq注释和相关序列(BLAST、Entrez核苷酸、Entrez-Protein)获得基因特定信息。

ENTREZ基因的外部数据库链接

Entrez Gene可以作为NCBI以外数据库的特定基因信息的目录。外部数据库可以向LinkOut服务注册(1)并提交有关其数据库应如何连接到任何基因记录的信息。Entrez Gene的任何用户使用LinkOuts检索记录后,都可以根据数据提供者的规范连接到注册的数据库。

反馈

我们欢迎您就Entrez Gene界面或其中包含的任何数据提供反馈。您可以使用基因页面上的任何反馈选项(图(图11).

参考文献

1Wheeler D.L.、Benson D.A.、Bryant S.、Canese K.、Church D.M.、Edgar R.、Federhen S.、Helmberg W.、Kenton D.、Khovayko O。(2005)国家生物技术信息中心数据库资源:更新。核酸研究,33,D39–D45。[PMC免费文章][公共医学][谷歌学者]
2Pruitt K.D.、Tatusova,T.和Maglott,D.(2005)NCBI参考序列(RefSeq):基因组、转录物和蛋白质的精选非冗余序列数据库。核酸研究,33,D501–D504。[PMC免费文章][公共医学][谷歌学者]
三。Benson D.A.、Karsch Mizrachi,I.、Lipman,D.J.、Ostell,J.、Wheeler,D.L.(2005)GenBank。核酸研究,33,D34–D38。[PMC免费文章][公共医学][谷歌学者]
4Strausberg R.L.、Feingold,E.A.、Grouse,L.H.、Derge,J.G.、Klausner,R.D.、Collins,F.S.、Wagner,L.、Shenmen,C.M.、Schuler,G.D.、。,和哺乳动物基因采集项目团队。(2002)15000多个全长人类和小鼠cDNA序列的生成和初步分析。程序。美国国家科学院。科学。美国,99, 16899–16903.[PMC免费文章][公共医学][谷歌学者]
5Tatusov R.L.、Fedorova N.D.、Jackson J.D.、Jacobs A.R.、Kiryutin B.、Koonin E.V.、Krylov D.M.、Mazumder R.、Mekhedov S.L.、Nikolskaya A.N。(2003)COG数据库:更新版本包括真核生物。BMC生物信息学,4, 41.[PMC免费文章][公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社