核酸研究。2005年1月1日;33(数据库问题):D54–D58。
Entrez Gene:NCBI以基因为中心的信息
美国马里兰州贝塞斯达中心大道45号5AS.13B室,国立卫生研究院国家医学图书馆,国家生物技术信息中心,邮编:20892-6510
一本文的在线版本是在开放存取模式下发布的。用户有权出于非商业目的使用、复制、传播或展示本文的开放存取版本,但前提是:原创作者是正确且完全归属的;《华尔街日报》和牛津大学出版社被认为是原始出版地,并提供了正确的引用细节;如果一篇文章随后不是全部复制或传播,而是部分复制或作为衍生作品传播,则必须明确指出。有关商业再使用许可,请联系groSlanruojpuo@snoissimrep.slanruoj. 一©2005,作者
2004年9月15日收到;接受日期:2004年9月22日。
摘要
Entrez基因(www.ncbi.nlm.nih.gov/enterz/query.fcgi?db=基因)是NCBI的基因特定信息数据库。它不包括所有已知或预测的基因;相反,Entrez Gene关注的是已经完全测序的基因组,这些基因组有活跃的研究社区来提供基因特定信息,或者计划进行密集的序列分析。Entrez Gene的内容表示来自NCBI参考序列项目(RefSeq)、合作模型生物数据库以及NCBI可用的许多其他数据库的数据的管理和自动集成结果。记录被指定为唯一、稳定和跟踪的整数作为标识符。内容(命名法、地图位置、基因产物及其属性、标记、表型、引文链接、序列、变异细节、地图、表达、同源物、蛋白质域和外部数据库)随着新信息的出现而更新。Entrez Gene是NCBI的LocusLink向前迈出的一步,它不仅大大增加了分类范围,而且通过与NCBI Entrez相关的许多工具改进了访问。
简介
Entrez Gene是美国国家生物技术信息中心(NCBI)的基因特定数据库,该中心是美国国家医学图书馆(NLM)的一个分部,位于美国马里兰州贝塞斯达的美国国立卫生研究院(NIH)校园内。Entrez Gene为模型生物子集的基因和其他位点提供唯一的整数标识符。它跟踪这些标识符,并与Entrez系统集成,用于交互式查询、LinkOut和E-utilities访问(1). 维护的信息包括命名法、染色体定位、基因产物及其属性(例如蛋白质相互作用)、相关标记、表型、相互作用,以及引用、序列、变异细节、地图、表达报告、同源物、蛋白质域内容和外部数据库的丰富链接。
Entrez Gene中的数据来自于管理和自动分析的混合。NCBI参考序列项目中的序列注释(2)或国际核苷酸序列数据库合作组织(DDBJ、EMBL、GenBank)(三)与来自合作模型生物数据库、文献综述(尤其是功能或基因RIF的基因参考)的信息集成(1)和公共用户,由RefSeq员工根据需要进行管理。
Entrez Gene是NCBI中基因特定信息表示的组成部分。通过建立“基因到序列”关系传递的信息被其他NCBI资源使用(1)例如BLAST、Geo、HomoloGene、Map Viewer、UniGene、UniSTS和NCBI的基因组注释管道。例如,与GeneID关联的名称在HomoloGene、Map Viewer、UniGene和哺乳动物基因集合中使用(4). NCBI工作人员与外部命名机构合作,调查并解决了基因及其序列表示的不一致性。
Entrez Gene的内容、显示和批量报告仍在开发中。用户可能有兴趣订阅vog.hin.mln.ibcn@ecnuonna-eneg以接收有关修改的信息。
数据库的功能
Entrez Gene的主要目标是为基因提供跟踪的唯一标识符,并报告与这些标识符相关的信息,以供不受限制的公共使用。指定的标识符(GeneID)是一个整数,并且是特定于物种的。换言之,人类营养不良蛋白的整数与其他物种的不同。对于在LocusLink中表示的基因组,GeneID与LocusID相同。GeneID在RefSeq记录中报告为“db_xref”(例如,/db_xref=“GeneID:856646”,采用GenBank格式)。
Entrez Gene提供多个报告。对于交互式用户,默认值是Entrez查询产生的HTML摘要显示(图)或通过单击摘要页面中的符号获得特定于基因的报告(图). 基因表显示选项可用于获得RefSeq基因组序列上注释的基因内含子/外显子组织的报告,并快速导航到任何这些基因特征的序列。除了来自Entrez的多个视图外,Gene还提供了ASN.1格式的完整数据库提取,以及用于ftp传输的几个制表符分隔的报告(ftp://ftp.ncbi.nlm.nih.gov/gene公司/). 数据也可从Entrez的编程接口获得,即电子实用程序(1).
查询结果的摘要视图。该查询是胶原蛋白ix“阿尔法2”. 这个短语阿尔法2以双引号提交,以限制alpha后跟2的查询。请注意,方框“仅当前记录”(一)自动选中;要检索过期记录,必须取消选中此框。默认的摘要显示选项允许通过链接菜单(展开显示,B类). 摘要包括物种起源、首选和替代(其他别名)符号、首选和其他(其他名称)描述性名称、染色体定位、GeneID。单击复选框左侧的任何符号(C类)链接到完整报告(图). 顶部的黑色导航栏和左侧的蓝色侧栏提供了到其他站点的一般链接,包括基因组特定资源指南(基因组生物学)、FTP站点、提交反馈(反馈)的表单,以及订阅邮件列表以了解更改的表单(订阅)。
部分报告页。标准的特定基因报告页面以首选符号(名称)和基因、物种和ID的描述开头。适当时,它使用与GenBank记录的特征注释一致的标签“基因座标签”提供指向关键外部资源的链接。如果该基因已注释在RefSeq基因组序列(NT_004511)上,则会提供一个图形,显示该基因及其相邻基因的位置。分配给mRNA和蛋白质的材料分别显示在左侧和右侧(本例中为NM_001852,NP_001843)。单击这些添加中的任何一个,将打开一个选项菜单以获取序列。蛋白质添加的菜单(一)显示您可以以FASTA、GenBank或图形格式链接到序列,或使用BLink(1)显示有关相关蛋白质或保守结构域的信息。完整记录右上角的链接菜单(在中展开B类)指示哪些资源具有与该基因特定相关的信息。其中一些链接与摘要显示中看到的链接相同(图),但通常有其他无法直接从Entrez访问的信息链接。
数据库的范围
何时分配GeneID?
标识符总是分配给RefSeq记录上注释为基因的内容。当基因组的权威来源为基因、映射基因座或性状分配标识符时,也可以创建记录,即使该实体尚未由明确的序列定义。虽然这意味着Entrez基因并不局限于生物学上被认为是基因的东西,但随着性状或其他位点的分子基础的定义,预期这些记录中的一些将变得更加“类似基因”。每个基因记录都从Entrez-Gene的ASN.1规范中的枚举列表中分配一个类型。(有关更多信息,请参阅基因帮助文档。)此类型在Entrez中作为命名属性进行索引(例如基因型蛋白质编码),可以在不更改GeneID的情况下进行更改。
一些当前统计数据
截至2004年9月,Entrez Gene中有2400多个分类群,目前共有约958000个记录。并不是所有的分类群都在Entrez基因中得到了完整的表达;例如,大多数真核生物(总计约600种)只有线粒体基因组的基因记录。所代表的分类群中有一半以上是病毒(~1350)。下一个具有全面基因注释的基因组的是真细菌和古生菌(分别为~200和20)。大约95%的记录是关于蛋白质编码基因的。
记录内容
表总结了可通过Entrez gene检索的基因特定信息、数据显示方式以及这些数据处理方式的一些方面。例如,GeneRIF主要由公众和国家医学图书馆索引部提供,它提供了一份关于当前文献中基因功能、发现和映射的注释书目,并在默认报告中显示。关于同源群簇(COG)的信息(5)可通过链接菜单访问。这种文本和连接的组合旨在提供足够的描述、关键字和链接,使Entrez Gene成为检索感兴趣信息的有效起点。
表1。
Entrez基因中的信息类别
子类别 | 展示一 | 评论 |
---|
术语 | | |
基因符号和完整描述 | 报告,表 | 资料来源:外部机构、GenBank、出版物。”如果上述官方认可的命名法均无优先权,则分配LOC’+GeneID命名 |
蛋白质名称 | 报告,表 | 通常与基因名相同,但可以编辑以使直系人名统一 |
基因结构和序列 | | |
基因结构 | 报告,表 | 基于参考序列的注释 |
参考序列 | 报表、表、链接 | 加入情况显示在报告页面中;序列是从核苷酸或蛋白质中检索的 |
相关序列 | 报告,链接 | 基于cDNA或蛋白质比较,最佳基因组放置和管理。访问权限显示在报告页面中;序列从核苷酸或蛋白质中检索 |
基因组位置 | | |
按顺序 | 报告,链接 | 基因组注释 |
通过独立地图 | 链接 | 细胞遗传学位置的共享标记或报告 |
引文 | | |
未添加注释 | 链接 | 来源:外部主管部门,RefSeq管理 |
带批注的 | 报告,链接 | 来源:外部数据库、GenerRIF |
功能注释 | | |
域内容 | 报告,链接 | 保留域数据库(CDD) |
GO术语 | 报告 | GO财团 |
途径和互动 | 报告,链接 | KEGG,艾滋病毒相互作用数据库 |
疾病和其他表型 | 报告,链接 | 外部机构,如OMIM、RefSeq管理 |
同源性 | | |
按基因 | 链接 | 同源基因 |
按蛋白质 | 链接 | COG公司 |
保留的分段 | 链接 | 图谱浏览器 |
表达式 | | |
无害环境技术 | 链接 | 非重复序列 |
外部资源 | 链接 | 外部资源被命名并用于锚定链接。表达式数据在该源中可用 |
阵列 | 链接 | 地理位置 |
相关信息 | | |
由Gene员工整合 | 链接 | 可以显示在报告上,也可以显示在“链接”菜单中 |
外部来源 | 链接 | “链接”菜单中的“链接输出”选项 |
获得ENTREZ基因
可在NCBI以多种方式访问Entrez Gene中的信息(表). 最直接的方法是从NCBI主页向Entrez提交查询并在Gene中显示结果,或者在任何Entrez查询栏中输入查询并将数据库搜索限制为Gene。另一种方法是利用Entrez系统计算的链接。例如,您可能会找到感兴趣的PubMed记录,并从PubMed's Links菜单中发现Gene中有一条记录连接到出版物。
NCBI中的许多数据库利用Gene维护的GeneID<->序列关系,将感兴趣的序列连接到Entrez Gene记录。例如,BLAST查询匹配与Entrez基因记录相关联的蛋白质或mRNA输入,由蓝色G图标标识。Map Viewer提供了从注释基因到Entrez基因的链接。RefSeq记录将GeneID作为db_xref包含在基因特征中。因此,您不仅可以通过文本查询,还可以通过基因组位置(Map Viewer)、RefSeq注释和相关序列(BLAST、Entrez核苷酸、Entrez-Protein)获得基因特定信息。
ENTREZ基因的外部数据库链接
Entrez Gene可以作为NCBI以外数据库的特定基因信息的目录。外部数据库可以向LinkOut服务注册(1)并提交有关其数据库应如何连接到任何基因记录的信息。Entrez Gene的任何用户使用LinkOuts检索记录后,都可以根据数据提供者的规范连接到注册的数据库。
反馈
我们欢迎您就Entrez Gene界面或其中包含的任何数据提供反馈。您可以使用基因页面上的任何反馈选项(图).
参考文献
1Wheeler D.L.、Benson D.A.、Bryant S.、Canese K.、Church D.M.、Edgar R.、Federhen S.、Helmberg W.、Kenton D.、Khovayko O。等(2005)国家生物技术信息中心数据库资源:更新。核酸研究,33,D39–D45。[PMC免费文章][公共医学][谷歌学者] 2Pruitt K.D.、Tatusova,T.和Maglott,D.(2005)NCBI参考序列(RefSeq):基因组、转录物和蛋白质的精选非冗余序列数据库。核酸研究,33,D501–D504。[PMC免费文章][公共医学][谷歌学者] 三。Benson D.A.、Karsch Mizrachi,I.、Lipman,D.J.、Ostell,J.、Wheeler,D.L.(2005)GenBank。核酸研究,33,D34–D38。[PMC免费文章][公共医学][谷歌学者] 4Strausberg R.L.、Feingold,E.A.、Grouse,L.H.、Derge,J.G.、Klausner,R.D.、Collins,F.S.、Wagner,L.、Shenmen,C.M.、Schuler,G.D.、。,等和哺乳动物基因采集项目团队。(2002)15000多个全长人类和小鼠cDNA序列的生成和初步分析。程序。美国国家科学院。科学。美国,99, 16899–16903.[PMC免费文章][公共医学][谷歌学者] 5Tatusov R.L.、Fedorova N.D.、Jackson J.D.、Jacobs A.R.、Kiryutin B.、Koonin E.V.、Krylov D.M.、Mazumder R.、Mekhedov S.L.、Nikolskaya A.N。等(2003)COG数据库:更新版本包括真核生物。BMC生物信息学,4, 41.[PMC免费文章][公共医学][谷歌学者]