Gene: A Directory of Genes

Donna Maglott; Kim Pruitt; Tatiana Tatusova

NCBI书架。美国国立卫生研究院国家医学图书馆的一项服务。

McEntyre J，Ostell J，编辑。NCBI手册[互联网]。贝塞斯达（医学博士）：美国国家生物技术信息中心；2002-.

参见“NCBI手册，第2版”

本出版物仅供历史参考，信息可能已过时。

本出版物仅供历史参考，信息可能已过时。

NCBI手册[互联网]。

显示详细信息

<上一个下一步>

第19章基因：基因目录

唐娜·马格洛特,金·普鲁特、和塔蒂亚娜·塔图索娃.

创建：2005年3月3日; 上次更新时间：2011年12月12日.

预计阅读时间：16分钟

总结

基因组测序项目的一个主要目标是识别和表征基因。基因(1)已在国家生物技术信息中心(美国国立生物技术信息中心) (2)组织有关基因的信息，作为基因组图、序列、表达、蛋白质结构、功能和同源性数据连接中的主要节点。每个基因记录都分配了一个唯一的标识符基因ID，可以通过修订周期进行跟踪。基因记录是为已知或预测的基因建立的，这些基因由核苷酸序列或地图位置定义。并不是所有分类单元都被表示出来，当前范围与NCBI的范围相匹配“引用序列”组(三)和国家卫生研究院的哺乳动物基因收集(4).

基因在其前身LocusLink的基础上提供了一些改进(5). 这些包括更广泛的分类范围，更好地与中的其他数据库集成美国国立生物技术信息中心，以及NCBI提供的增强的查询和检索选项Entrez公司(6)系统。由LocusLink（称为LocusID）建立的标识符已作为基因ID.

本章介绍

如何在Gene中维护数据
查询策略
记录内容和显示
电力用户的技术信息

概述

基因是以下几种以基因为中心的资源之一：美国国立生物技术信息中心其他包括基因表达综合（GEO）,同源基因,人类孟德尔在线遗传（OMIM）、和非重复序列这些资源的分类范围不同。例如，UniGene具有Gene没有的某些物种的成簇转录信息，Gene的记录在UniGene中没有交叉引用。基因全权负责提供独特的基因ID用于识别基因和其他类型基因座的信息。

定期，生物模型数据库和其他贡献群体检查是否有新信息。如果记录已经存在于Gene中，则添加新信息并更正过期信息。否则，将创建新记录。

基因可以被认为是被管理的，因为许多有贡献的数据库都被管理。此外，Gene中的记录可以由美国国立生物技术信息中心员工。然而，Gene并不总是试图协调由各种注释管道定义的基因，这些管道可能在管理审查的级别和关于基因构成的规则方面有所不同。

基因是数据库内外的信息中心美国国立生物技术信息中心.记录可以逐个基因处理，也可以作为带注释的基因组或染色体提交的一部分进行处理。基因标识符、相关名称和序列输入为许多数据库提供了一个通用的参考框架。

对于某些基因组（例如人类、小鼠、大鼠、鸡、狗），基因记录会不断更新。对于其他基因组，基因的更新取决于从外部组重新提交基因组序列注释。

基因包括已确认基因和注释过程预测基因的记录。基因的证据可以从参考序列定义了它（有关状态定义的信息，请访问http://www.ncbi.nlm.nih.gov/RefSeq/key.html#状态). 例如，被称为预测或模型的RefSeq的支持证据少于验证、临时或审查类别中的RefSeqs。然而，每天都会向公共数据库提交新的序列信息，基因的状态可能无法反映当前的知识。有关相关序列的新信息可以通过以下链接从Gene查看恩特雷兹核苷酸,Entrez蛋白、和BLAST链接（BLink）.

基因并不声称是全面的；相反，它是其他数据库中附加信息的指南。例如，一个基因可以由多个序列表示，但并非所有序列都是由gene明确报告的。相反，连接由Gene提供给Entrez公司核苷酸、Entrez蛋白和Blink，其中可以检索到更多具有显著相似性的序列。除了多个指向美国国立生物技术信息中心数据库，链接输出从外部数据库提交给Gene支持快速导航到更多特定于基因的信息。基因的核心功能是为可追踪的基因建立唯一标识符，并在这样做时支持与定义序列、命名法和其他描述符的准确连接。有了这个基础设施，就可以：

支持NCBI注释管道基于已知GeneID序列的位置
为基因及其所有属性提供一个物种依赖的参考框架
支持公共数据库中序列代表的基因识别

维护数据

新记录

如果满足以下任何条件，记录将添加到Gene：

A类参考序列是为一个已完成测序的基因组创建的，该记录包含注释基因。在以下情况下核糖核酸带有多蛋白前体、注释蛋白的病毒被视为等同于基因。
一个公认的基因组特定数据库提供了有关基因（最好是定义序列）、映射表型或被视为不完全特征基因标记的序列（例如表达序列标签和基因陷阱）的信息。
这个美国国立生物技术信息中心注释管道识别潜在的基因（模型）。
提交给公共数据库的序列定义了一个新基因。对于一些基因组，基因的处理依赖于UniGene的聚类过程来识别单个代表性序列。

因此，Gene中记录所需的最小数据集是唯一标识符或基因ID分配人美国国立生物技术信息中心首选符号，以及来自公认权威机构的任何序列信息、地图信息或命名法。

更新数据

当收到新信息时，将更新现有记录。Gene的工作人员与特定组织数据库、命名权威机构、国际注释团体、其他团体的馆长合作美国国立生物技术信息中心以及其他有价值的贡献者来解决差异并改进数据。更新记录时，其修改日期会更改。对于某些基因组，当基因组被重新命名并转换为更新的基因组时，可能会发生这种情况参考序列对其他人来说，当附加在基因记录上的任何信息发生改变时，可能会发生这种情况。其他更改包括添加、更新或删除序列信息、通用RIF、术语、出版物和关键标识符，如分配给人类的孟德尔遗传(最小电流数字）和模型生物数据库中的ID。

取消显示记录

有时有必要合并基因记录或抑制错误创建的记录。当前或以前的记录可以通过基因ID。当辅助GeneID被替换为另一个时统一资源定位地址到当前记录。

补充信息

过滤器：其他Entrez数据库中的信息

查询Gene的大部分功能来自挖掘它与其他数据库的连接。基因记录上的修改日期中未捕捉到这些关系的变化。例如，如果有关基因中新的单核苷酸多态性（SNP）的信息提交给单核苷酸多态性数据库而此信息现在已连接到Gene，此更改不会反映在Gene中记录的修改日期中。换句话说，基于与dbSNP有连接的记录查询Gene（使用过滤器，如下文“如何查询Gene”中所述）将返回不同的记录集，尽管任何Gene记录中的修改日期都没有更改。

过滤器：链接到非NCBI数据库中的信息

外部数据库美国国立生物技术信息中心的Entrez公司系统可以随时提交和更新链接。用户登录性化服务可以选择显示任何链接输出带有标准图标。这些连接的变化不会反映在Gene中记录的修改日期中。

注：鼓励数据库提供商查看有关提供LinkOut的文档（有关更多信息，请参阅http://www.ncbi.nlm.nih.gov/entrez/linkout/doc/nonbiblinkout.html). 这是一种强大的方法，可以将Gene的用户吸引到您自己的数据库中。

如何查询基因

与通过访问的所有数据库一样Entrez公司，可以基于以下内容从Gene检索记录：

记录中的任何信息
指定字段中的信息(方框1)
有关记录属性的信息(方框2)
中任何记录与其他记录的关系Entrez公司系统或外部链接（过滤器、，方框3)

盒子

方框1：用于索引Gene的一些字段。

盒子

方框2：基因索引的一些属性。

盒子

方框3：基因中的一些过滤器。

查询可以简单到单个单词，也可以复杂到由布尔运算符使用字段限制、属性和筛选器限定的术语组合。标准的几个功能Entrez公司可帮助用户高效查询Gene。这些功能的描述如下：

限制支持通过物种组合、一个字段中的值和记录上的修改日期来限制结果。
预览/索引提供了Gene当前使用的字段、过滤器和属性的综合列表。它还报告每个字段、过滤器和属性中存储的出现次数和值，并允许您通过布尔运算符将任何术语与现有查询组合在一起。这是测试健壮查询策略的关键接口。
历史提供了对最近的查询和菜单的查看，这些查询和菜单可用于将这些查询组合到选定的感兴趣的集合。
剪贴板保存感兴趣的记录长达8小时。
细节显示如何处理查询。然后可以细化查询并重新提交。
我的美国国立生物技术信息中心允许用户保存搜索、自定义筛选器和安排文档交付。
Entrez公司公用设施允许用户基于交互使用的相同查询检索其他程序中的记录。

有关使用这些函数的更多详细信息，请参阅Entrez帮助文档和常见问题页面.

通过明智地使用字段、属性和过滤器（框），可以提高查询结果的特定性1,2和三). 为了帮助您决定使用哪一个，请将字段视为信息的子类别，将属性视为关键字或可能适用于许多Gene记录的术语，并将筛选器视为Gene与美国国立生物技术信息中心网站。为了选择要使用的过滤器，了解NCBI通过携带公共信息的数据库名称对许多过滤器进行命名可能会有所帮助。对于Gene，第一个数据库名称是基因因此，过滤器表示Gene和UniSTS公司被命名为“gene unists”，是gene和地理位置命名为“gene geo”等。属性可能有多个同名Entrez公司数据库。例如，Entrez核苷酸和蛋白质中使用的属性srcdb_refseq_known从Gene解释为“源数据库（srcdb）中存在关联的序列数据参考序列RefSeq的类型已知”。

为了阐明这些标准，请考虑以下示例：

例1：找到基因组上没有注释但经过审查的人类和小鼠基因参考序列记录。首先，你必须知道，如果一个基因被标注在最新的基因组注释上，那么就会设置“基因核苷酸位置”过滤器。然后您需要按物种和RefSeq类型限制查询。

如果以交互方式键入，则查询将为：

（人类[生物体]或小鼠[生物体]）和“srcdb refseq reviewed”[属性]不是“gene nucleotide pos”[过滤器]

一个简单得多的方法是：使用极限来设定物种；预览/索引以找到适当的属性（审查RefSeqs，多个基因记录的特征）；以及一个过滤器，用于查找基因组上未注释的基因（基于缺乏与康蒂格或基于染色体的RefSeqs）。

您可以遵循以下步骤：

1: 单击“限制”并在哺乳动物部分选中人类和老鼠。
2: 单击预览/索引，选择属性，单击索引，滚动直到看到“srcdb refseq reviewed”，选择它，然后单击and。
三。: 仍然在预览/索引中，选择填充，单击索引，滚动直到看到基因核仁pos，选择它，然后单击NOT。

示例2：从真菌中查找所有在UniGene或地理位置.

如果以交互方式键入，则查询将为：

真菌[生物]AND（“基因unigene”[过滤器]或“基因geo”[过滤器）

一种简单得多的方法是使用Limits设置分类组和预览/索引，以找到合适的过滤器并正确组合它们

您可以遵循以下步骤：

单击限制并检查真菌。
点击Preview/Index，选择过滤器，点击Index，滚动直到看到“gene unigene”，选择它，然后点击and。
仍然在预览/索引中，选择过滤器，单击索引，滚动直到看到“gene geo”，选择它，单击OR，然后单击GO。

Gene提供了更多示例查询帮助文档.

显示格式

Gene提供了几种不同内容和格式的显示器，帮助您查找和报告所需的信息。有两种默认显示：摘要HTML格式响应查询返回的页面，以及选择单个记录后返回的完整（图形）HTML显示。所有HTML显示都包含Links功能，该功能指示哪些其他资源包含其他信息。其中一些链接基于直接从Gene管理的信息。例如，链接到Entrez公司核苷酸，Entrez蛋白，公共医学、和OMIM公司基于序列、引用和MIM公司记录中包含的数字。其他链接通过Gene以外的数据库或其他数据库共享的信息进行管理。例如，链接到dbSNP，地理位置、同源基因、UniGene和UniSTS大学基于共享的核苷酸序列数据。链接到客户尽职调查基于共享的蛋白质序列。链接到图谱浏览器表明有关基因位置的信息是可用的。

另一种有用的显示格式是基因表。如果一个基因被注释在任何基因组上参考序列，的内含子/外显子总结了每个转录本的组织结构。如果是信使核糖核酸，总结了每个外显子的翻译区域。基因表有助于访问其他基因相关序列，例如完整的核糖核酸、蛋白质、特定外显子、内含子或编码区。其他显示格式包括XML格式和ASN1-每个规范都可以在基因帮助文档.

内容

基因记录的内容分为几个子类别。此处列出的内容大致对应于默认的完整（图形）显示。

术语

Gene使用官方符号和全名，并在可用时报告命名权威。否则，将从定义序列记录中选择符号和名称。例如，如果序列和位置同源(共生性)建议一个无名的轨迹在一个物种中，与另一个物种的命名基因同源正交曲线可以使用。如果没有识别出任何符号，并且基因组是逐个基因处理的，而不是作为一个完整的重新命名，则字母LOC将添加到基因ID。一旦识别出有意义的符号，人为的“LOC”符号就会被删除（因为记录仍然可以通过GeneID本身进行搜索和识别）。

除了官方符号和全名之外，Gene还提供了出版物和序列记录中看到的其他符号。这些替代名称并不全面，通常只有在参考序列正在审查中。

几个美国国立生物技术信息中心数据库使用Gene维护的命名法。这些名称主要基于名称合并-基因ID-Gene报告的序列关系。这些数据在以下几个文件中报告Gene的FTP站点，包括DATA/gene_info.gz和DATA/gene2accession.gz。

概述

基因记录的一些组成部分描述了基因的关键特征、功能和产品。总结，作者参考序列员工和/或外部贡献者，如OMIM公司或大鼠基因组数据库（RGD），提供了关于该基因的已知信息、其编码蛋白的功能或核糖核酸产品、疾病关联、空间和时间分布等。基因类型是从基因数据模型.

的价值参考序列状态表示提供给特定基因材料集的最高审查水平。

地图数据

基因记录中可能包含几种类型的地图信息。一种类型是以通常用于给定基因组的单位描述位置。遗传和物理地图位置来自于图谱浏览器。这些信息可以通过链接到地图查看器获得，而不是报告任何坐标系中任何基因的所有位置数据。还可以通过标记名访问信息，标记名链接到UniSTS大学记录。

当没有独立的图谱数据可用且基因已被放置在基因组集合上时，可以通过计算序列和其他图谱单元（例如细胞遗传学带）之间的对应关系来推断图谱位置。一个例子是根据Furey和Haussler开发的算法计算细胞遗传学位置(7). 随着基因组的每次重组，基因可能会转移到其他染色体上，从而确定更好的比对。如果标记和其他数据与已发布的地图位置一致但不同，则修改基因记录以与当前信息一致。

标记在Gene中报告为基因或与基因有计算或策划关系的标记。基因并不存储基因组的所有可用标记；这是的功能UniSTS大学基因中的标记数据来自以下任何一种：来自基因组特定数据库的报告；计算依据电子PCR这表明信使核糖核酸与基因相关；和基于e-PCR的基因组定位，定位在基因上游2 kb到下游0.5 kb的区域内。在由Gene发起的查询中，具有基于PCR标记的基因可以通过查询“Gene unists”[过滤器]进行识别。

当基因被注释在基因组上时参考序列地图信息也通过相邻基因的图形显示来呈现。箭头指示转录的方向。如果一个基因的名称太长而不能用作标签，则会用省略号（…）表示截断。所显示记录的特定基因将高亮显示。箭头和标签将链接指向这些基因的记录，支持快速导航。如果一个基因被标注在多个基因组RefSeq上，则只有一个用于图形显示。每个RefSeq的位置数据在ASN.1号完整的基因记录。

地图数据也由指向的命名链接支持图谱浏览器在“链接”菜单中。由于链接由Map Viewer数据库提供，因此这些链接中的更改不会反映在记录的修改日期中。对于在Map Viewer中可以获得比较图的基因组，还为这些视图提供了指向Map Viewers的链接。

序列相关数据

基因中的序列信息以多种形式呈现：

的图形显示内含子/外显子拼接变体的组织
的报告内含子/外显子中每个变体的组织基因表显示
的报告参考序列加入及其领域内容
来自的加入报告DDBJ公司,欧洲工商管理学院,GenBank（基因银行）和Swiss-Prot
以标准格式链接到基因基因组序列、单个内含子或外显子以及转录本的基因组序列(基因表显示器）
通过Conserved Domain数据库链接到相关记录
链接到眨眼蛋白质邻居查看器

序列信息（材料和链接）分布在整个基因记录中。例如，当基因被注释在基因组上时，会提供转录和产物图参考序列换句话说，当内含子/外显子/编码区信息在基因组坐标中可用。当由RefSeq表示时，基因产物的每个位置核糖核酸和/或蛋白质，是相对于基因组提供的DNA.每个RefSeq加入号码（基因组，信使核糖核酸和蛋白质）在Entrez公司核苷酸或Entrez蛋白（可以在图表中找到链接）。来自基因组序列登录号的链接仅显示基因特定区域。蛋白质来源上的锚也有助于检索特定的眨眼,客户尽职调查，或COG显示。

这个美国国立生物技术信息中心Reference Sequences（RefSeqs）部分列出了与基因相关的核苷酸和蛋白质来源，并提供了到中相应序列记录的链接Entrez公司核苷酸或Entrez蛋白。保守域按名称、序列上的位置和爆破分数证明了任务。

“相关序列”列出了与该基因相关的核苷酸和蛋白质接入，并提供了到中相应序列记录的链接Entrez公司核苷酸或蛋白质。如果蛋白质序列记录不是一组核苷酸记录及其编码的蛋白质的一部分，则在核苷酸列中打印单词“无”。核苷酸记录的类型在核苷酸加入之前打印，菌株在蛋白质加入之后打印（如适用）。

功能

基因使用几种方法来描述基因及其编码产物的功能。其中包括：

明确的描述性陈述(参考序列摘要和基因重组）
基因、产品和途径的名称
关联本体（GO）
互动报告
酶委员会（EC）编号
推论领域内容
疾病描述或等位基因-特定表型
到其他数据库的链接(OMIM公司、同源基因、，公共医学)

其中许多类别包含指向其他数据库中其他信息的链接。提供了指向数据源的链接。我们赞赏免费提供数据的资源的合作。

变更

基因不会直接报告变异信息。相反，它提供了三种类型的dbSNP链接，这些变量数据存储在dbSNP中。这些类型由过滤器基因snp、基因snp基因实现基因型和基因snp geneview（方框3）。

同源性

除了指示比较图的可用性（在本文撰写之时仅限于人类、小鼠和大鼠的基因记录）外，Gene仅通过显示HomoloGene和/或COG的链接提供同源性信息。它还提供了指向显示预先计算的序列关系的资源的链接，例如眨眼.

表达式

基因是否表达的定性评估在基因类型和与基因记录相关的序列材料类型中进行。表达的数量和时空方面存储在其他数据库中，包括地理位置和UniGene美国国立生物技术信息中心.

其他感兴趣的地点

基因在记录内和通过链接输出机制。随着越来越多的数据提供商将其LinkOut提交给Gene，第二种方法将变得越来越强大。用户可以通过注册My来利用LinkOut连接和其他过滤器美国国立生物技术信息中心和自定义显示。

工具书类

1: Maglott D.等人。基因：NCBI以基因为中心的信息。 核酸研究。2005;33（数据库问题）：D54–8。[PMC免费文章：PMC539985] [公共医学: 15608257]
2: Wheeler D.L.等人。国家生物技术信息中心的数据库资源。 核酸研究。2005;33（数据库问题）：D39-45。[PMC免费文章：PMC540016] [公共医学：15608222]
三。: 普鲁伊特K.D.、塔图索娃T.、马格洛特D.R。NCBI参考序列（RefSeq）：基因组、转录物和蛋白质的精选非冗余序列数据库。 核酸研究。2005;33（数据库问题）：D501–4。[PMC免费文章：PMC539979] [公共医学: 15608248]
4: Gerhard D.S.等人。NIH全长cDNA项目的现状、质量和扩展：哺乳动物基因收集（MGC）。 基因组研究。2004;14（10B）：2121-7。[PMC免费文章：PMC528928] [公共医学: 15489334]
5: Pruitt K.D.等人。介绍RefSeq和LocusLink：NCBI的人类基因组资源。 趋势Genet。2000;16(1):44–7.[公共医学: 10637631]
6: Schuler G.D.等人。分子生物学数据库和检索系统。 方法酶制剂。1996;266:141–62.[公共医学: 8743683]
7: Furey T.S.、Haussler D。细胞遗传学图谱与人类基因组序列草案的整合。 人类分子遗传学。2003;12(9):1037–44.[公共医学: 12700172]

书架编号：NBK21085