概述
基因是NCBI以基因为中心的资源之一。其他资源包括基因表达综合(GEO),同源基因,人类孟德尔在线遗传(OMIM)、和非重复序列这些资源的分类范围不同。例如,UniGene具有Gene没有的某些物种的成簇转录信息,Gene的记录在UniGene中没有交叉引用。基因只负责提供唯一的GeneID,用于识别基因和其他类型基因座的信息。
定期,生物模型数据库和其他贡献群体检查是否有新信息。如果记录已经存在于Gene中,则会添加新的信息并更正过时的信息。否则,将创建新记录。
基因可以被认为是被管理的,因为许多有贡献的数据库都被管理。此外,NCBI工作人员可能会审查Gene中的记录。然而,Gene并不总是试图协调由各种注释管道定义的基因,这些管道可能在管理审查的级别和关于基因构成的规则方面有所不同。
基因是NCBI内外数据库的信息中心。记录可以逐个基因处理,也可以作为带注释的基因组或染色体提交的一部分。基因标识符、相关名称和序列输入为许多数据库提供了一个通用的参考框架。
对于某些基因组(例如人类、小鼠、大鼠、鸡、狗),基因记录会不断更新。对于其他基因组,基因的更新取决于从外部组重新提交基因组序列注释。
基因包括已确认基因和注释过程预测基因的记录。基因的证据可以从定义它的RefSeq的状态中推断出来(有关状态定义的信息,请访问http://www.ncbi.nlm.nih.gov/RefSeq/key.html#状态). 例如,被称为预测或模型的RefSeq的支持证据少于验证、临时或审查类别中的RefSeqs。然而,每天都会向公共数据库提交新的序列信息,基因的状态可能无法反映当前的知识。有关相关序列的新信息可以通过以下链接从Gene查看Entrez核苷酸,Entrez蛋白、和BLAST链接(BLink).
基因并不声称是全面的;相反,它可以作为其他数据库中附加信息的指南。例如,一个基因可以由多个序列表示,但并非所有的序列都是由gene明确报告的。相反,基因与Entrez核苷酸、Entrez蛋白质和Blink之间的连接可以被检索到更多具有显著相似性的序列。除了与NCBI数据库的多个链接外,链接输出从外部数据库提交给Gene支持快速导航到更多特定于基因的信息。基因的核心功能是为可追踪的基因建立唯一标识符,并在这样做时支持与定义序列、命名法和其他描述符的准确连接。有了这个基础设施,就可以:
为基因及其所有属性提供一个物种依赖的参考框架
支持公共数据库中序列代表的基因识别
维护数据
新记录
如果满足以下任何条件,记录将添加到Gene:
RefSeq是为已完成测序且记录中包含注释基因的基因组创建的。在带有多蛋白前体的RNA病毒的情况下,注释的蛋白质被视为等同于基因。
一个公认的基因组特定数据库提供了有关基因(最好是定义序列)、映射表型或被视为不完全特征基因标记的序列(例如表达序列标签和基因陷阱)的信息。
NCBI注释管道识别潜在基因(模型)。
提交给公共数据库的序列定义了一个新的基因。对于某些基因组,基因的处理依赖于UniGene的聚类过程来识别单个代表性序列。
因此,Gene中记录所需的最小数据集是NCBI分配的唯一标识符或GeneID、首选符号,以及来自公认权威机构的任何序列信息、地图信息或命名法。
更新数据
当收到新信息时,将更新现有记录。Gene的工作人员与特定组织数据库的管理员、命名机构、国际注释组、NCBI中的其他组以及其他重要贡献者合作,以解决差异并改进数据。更新记录时,其修改日期会更改。对于某些基因组,当基因组重新命名并转换为更新的RefSeq时,可能会发生这种情况。对于其他人来说,当附加到基因记录的任何信息发生改变时,可能会发生这种情况。其他更改包括添加、更新或删除序列信息、通用RIF、术语、出版物和关键标识符,如分配给人类的孟德尔遗传(MIM编号)和模型生物数据库中的ID。
禁止记录
有时有必要合并基因记录或抑制错误创建的记录。当前或以前的记录可以通过GeneID从Gene检索。当辅助GeneID被替换为另一个时,将提供当前记录的URL。
如何查询基因
与通过Entrez访问的所有数据库一样,可以根据以下内容从Gene检索记录:
记录中的任何信息
任何记录与Entrez系统中或外部链接(过滤器,方框3)
查询可以简单到单个单词,也可以复杂到由布尔运算符使用字段限制、属性和筛选器限定的术语组合。Entrez的几个标准功能可帮助用户高效查询Gene。这些功能的描述如下:
限制支持通过物种组合、一个字段中的值和记录上的修改日期来限制结果。
预览/索引提供了Gene当前使用的字段、过滤器和属性的综合列表。它还报告每个字段、过滤器和属性中存储的出现次数和值,并允许您通过布尔运算符将任何术语与现有查询组合在一起。这是测试健壮查询策略的关键接口。
历史提供了对最近的查询和菜单的查看,这些查询和菜单可用于将这些查询组合到选定的感兴趣的集合。
剪贴板保存感兴趣的记录长达8小时。
细节显示如何处理查询。然后可以细化查询并重新提交。
性化服务允许用户保存搜索、自定义筛选器和安排文档交付。
Entrez公用设施允许用户基于交互使用的相同查询检索其他程序中的记录。
有关使用这些函数的更多详细信息,请参阅Entrez帮助文档和常见问题页面.
通过明智地使用字段、属性和过滤器(框),可以提高查询结果的特定性1,2和三). 为了帮助您决定使用哪一个,请将字段视为信息的子类别,将属性视为关键字或可能适用于许多Gene记录的术语,并将过滤器视为Gene与NCBI网站中其他数据库的关系的表示。为了选择要使用的过滤器,了解NCBI通过携带公共信息的数据库名称对许多过滤器进行命名可能会有所帮助。对于Gene,第一个数据库名称是基因因此,表示Gene和UniSTS中常见信息的过滤器被命名为“Gene UniSTS”,Gene和GEO中的常见信息被命名为”Gene GEO”等。属性在多个Entrez数据库中可能具有相同的名称。例如,Entrez核苷酸和蛋白质中使用的属性srcdb_refseq_known从Gene解释为“源数据库(srcdb)为RefSeq且RefSeq类型已知的关联序列数据”。
为了阐明这些标准,请考虑以下示例:
示例1:找到基因组上未注释但已审查RefSeq记录的人类和小鼠基因。首先,你必须知道,如果一个基因被标注在最新的基因组注释上,那么就会设置“基因核苷酸位置”过滤器。然后,您需要按物种和RefSeq类型限制查询。
如果以交互方式键入,则查询将为:
(人类[生物体]或小鼠[生物体])和“srcdb refseq reviewed”[属性]不是“gene nucleotide pos”[过滤器]
一个简单得多的方法是:使用极限来设定物种;预览/索引以找到适当的属性(审查RefSeqs,多个基因记录的特征);以及一个过滤器,用于查找基因组上未注释的基因(基于与contig或基于染色体的RefSeqs缺乏链接)。
您可以遵循以下步骤:
- 1
单击“限制”并在哺乳动物部分选中人类和老鼠。
- 2
单击预览/索引,选择属性,单击索引,滚动直到看到“srcdb refseq reviewed”,选择它,然后单击and。
- 三。
仍然在预览/索引中,选择填充,单击索引,滚动直到看到基因核素位置,选择它,然后单击NOT。
例2:从真菌中查找所有在UniGene或GEO中有表达数据的基因记录。
如果以交互方式键入,则查询将为:
真菌[生物]AND(“基因unigene”[过滤器]或“基因geo”[过滤器)
一种简单得多的方法是使用Limits设置分类组和预览/索引,以找到合适的过滤器并正确组合它们
您可以遵循以下步骤:
Gene提供了更多示例查询帮助文档.
内容
基因记录的内容分为几个子类别。此处列出的内容大致对应于默认的完整(图形)显示。
术语
Gene使用官方符号和全名,并在可用时报告命名权威。否则,将从定义序列记录中选择符号和名称。例如,如果序列和位置同源性(同系物)表明一个物种中的无名基因座与另一物种中的命名基因是同源的,则可以使用来自同源基因的符号。如果没有识别出任何符号,并且基因组是逐个基因处理的,而不是作为一个完整的重新命名,那么字母LOC将添加到GeneID之前。一旦识别出一个有意义的符号,人工设计的“LOC”符号就会被删除(因为记录仍然可以通过GeneID本身进行搜索和识别)。
除了官方符号和全名之外,Gene还提供了出版物和序列记录中看到的其他符号。这些替代名称并不全面,通常只有在审查RefSeq时才确定。
一些NCBI数据库使用由Gene维护的命名法。这些名称主要基于Gene报告的名称-GeneID-序列关系合并。这些数据在以下几个文件中报告Gene的FTP站点,包括DATA/gene_info.gz和DATA/gene2accession.gz。
概述
基因记录的一些组成部分描述了基因的关键特征、功能和产品。该摘要由RefSeq工作人员和/或外部贡献者(如OMIM或大鼠基因组数据库(RGD))编写,提供了关于该基因已知内容、其编码蛋白或RNA产物的功能、疾病关联、时空分布等的快速概要。基因类型是从基因数据模型.
的价值参考序列状态表示提供给特定基因材料集的最高审查水平。
地图数据
基因记录中可能包含几种类型的地图信息。一种是对给定基因组常用单位的位置描述。遗传和物理地图位置来自map Viewer中使用的已发布地图。无需报告任何坐标系中任何基因的所有位置数据,此信息可以通过链接到Map Viewer获得。还可以通过标记名访问信息,标记名链接到UniSTS记录。
当没有独立的图谱数据可用且基因已被放置在基因组集合上时,可以通过计算序列和其他图谱单元(例如细胞遗传学带)之间的对应关系来推断图谱位置。一个例子是根据Furey和Haussler开发的算法计算细胞遗传学位置(7). 随着基因组的每次重组,基因可能会转移到其他染色体上,从而确定更好的比对。如果标记和其他数据与已发布的地图位置一致但不同,则修改基因记录以与当前信息一致。
标记在Gene中报告为基因或与基因有计算或策划关系的标记。基因并不存储基因组的所有可用标记;这是UniSTS的功能。Gene中的标记数据来自以下任何一种:来自基因组特定数据库的报告;基于e-PCR的计算表明mRNA与该基因相关;和基于e-PCR的基因组定位,定位在基因上游2 kb到下游0.5 kb的区域内。在从Gene发起的查询中,具有基于PCR的标记的基因可以通过查询“Gene unists”[过滤器]来识别。
当一个基因被注释在基因组RefSeq上时,相邻基因的图形显示也会显示地图信息。箭头指示转录的方向。如果一个基因的名称太长而不能用作标签,则用省略号(…)表示截断。所显示记录的特定基因将高亮显示。箭头和标签将链接指向这些基因的记录,支持快速导航。如果一个基因被标注在多个基因组RefSeq上,则只有一个用于图形显示。每个RefSeq的位置数据在完整基因记录的ASN.1中提供。
链接菜单中指向地图查看器的命名链接也支持地图数据。由于链接由Map Viewer数据库提供,因此这些链接中的更改不会反映在记录的修改日期中。对于在Map Viewer中可以获得比较图的基因组,还为这些视图提供了指向Map Viewers的链接。
功能
基因使用几种方法来描述基因及其编码产物的功能。其中包括:
其中许多类别包含指向其他数据库中其他信息的链接。提供了指向数据源的链接。我们赞赏免费提供数据的资源的合作。
变更
基因不会直接报告变异信息。相反,它提供了三种类型的dbSNP链接,这些变量数据存储在dbSNP中。这些类型通过筛选基因snp、基因snp基因型和基因snp geneview实现(方框3)。
同源性
除了指示比较图的可用性(在本文撰写之时仅限于人类、小鼠和大鼠的基因记录)外,Gene仅通过显示HomoloGene和/或COG的链接提供同源性信息。它还提供了指向显示预先计算的序列关系(如BLink)的资源的链接。
表达式
基因是否表达的定性评估在基因类型和与基因记录相关的序列材料类型中进行。表达的数量和时空方面存储在其他数据库中,包括GEO和NCBI的UniGene。
其他感兴趣的地点
Gene在记录内和通过LinkOut机制提供有关其他感兴趣站点的信息。随着越来越多的数据提供商将其LinkOut提交给Gene,第二种方法将变得越来越强大。用户可以通过注册My NCBI并自定义显示来利用LinkOut连接和其他过滤器。