概述
基因是以下几种以基因为中心的资源之一:美国国立生物技术信息中心其他包括基因表达综合(GEO),同源基因,人类孟德尔在线遗传(OMIM)、和非重复序列这些资源的分类范围不同。例如,UniGene具有Gene没有的某些物种的成簇转录信息,Gene的记录在UniGene中没有交叉引用。基因全权负责提供独特的基因ID用于识别基因和其他类型基因座的信息。
定期,生物模型数据库和其他贡献群体检查是否有新信息。如果记录已经存在于Gene中,则添加新信息并更正过期信息。否则,将创建新记录。
基因可以被认为是被管理的,因为许多有贡献的数据库都被管理。此外,Gene中的记录可以由美国国立生物技术信息中心员工。然而,Gene并不总是试图协调由各种注释管道定义的基因,这些管道可能在管理审查的级别和关于基因构成的规则方面有所不同。
基因是数据库内外的信息中心美国国立生物技术信息中心.记录可以逐个基因处理,也可以作为带注释的基因组或染色体提交的一部分进行处理。基因标识符、相关名称和序列输入为许多数据库提供了一个通用的参考框架。
对于某些基因组(例如人类、小鼠、大鼠、鸡、狗),基因记录会不断更新。对于其他基因组,基因的更新取决于从外部组重新提交基因组序列注释。
基因包括已确认基因和注释过程预测基因的记录。基因的证据可以从参考序列定义了它(有关状态定义的信息,请访问http://www.ncbi.nlm.nih.gov/RefSeq/key.html#状态). 例如,被称为预测或模型的RefSeq的支持证据少于验证、临时或审查类别中的RefSeqs。然而,每天都会向公共数据库提交新的序列信息,基因的状态可能无法反映当前的知识。有关相关序列的新信息可以通过以下链接从Gene查看恩特雷兹核苷酸,Entrez蛋白、和BLAST链接(BLink).
基因并不声称是全面的;相反,它是其他数据库中附加信息的指南。例如,一个基因可以由多个序列表示,但并非所有序列都是由gene明确报告的。相反,连接由Gene提供给Entrez公司核苷酸、Entrez蛋白和Blink,其中可以检索到更多具有显著相似性的序列。除了多个指向美国国立生物技术信息中心数据库,链接输出从外部数据库提交给Gene支持快速导航到更多特定于基因的信息。基因的核心功能是为可追踪的基因建立唯一标识符,并在这样做时支持与定义序列、命名法和其他描述符的准确连接。有了这个基础设施,就可以:
为基因及其所有属性提供一个物种依赖的参考框架
支持公共数据库中序列代表的基因识别
维护数据
新记录
如果满足以下任何条件,记录将添加到Gene:
因此,Gene中记录所需的最小数据集是唯一标识符或基因ID分配人美国国立生物技术信息中心首选符号,以及来自公认权威机构的任何序列信息、地图信息或命名法。
更新数据
当收到新信息时,将更新现有记录。Gene的工作人员与特定组织数据库、命名权威机构、国际注释团体、其他团体的馆长合作美国国立生物技术信息中心以及其他有价值的贡献者来解决差异并改进数据。更新记录时,其修改日期会更改。对于某些基因组,当基因组被重新命名并转换为更新的基因组时,可能会发生这种情况参考序列对其他人来说,当附加在基因记录上的任何信息发生改变时,可能会发生这种情况。其他更改包括添加、更新或删除序列信息、通用RIF、术语、出版物和关键标识符,如分配给人类的孟德尔遗传(最小电流数字)和模型生物数据库中的ID。
取消显示记录
有时有必要合并基因记录或抑制错误创建的记录。当前或以前的记录可以通过基因ID。当辅助GeneID被替换为另一个时统一资源定位地址到当前记录。
如何查询基因
与通过访问的所有数据库一样Entrez公司,可以基于以下内容从Gene检索记录:
查询可以简单到单个单词,也可以复杂到由布尔运算符使用字段限制、属性和筛选器限定的术语组合。标准的几个功能Entrez公司可帮助用户高效查询Gene。这些功能的描述如下:
限制支持通过物种组合、一个字段中的值和记录上的修改日期来限制结果。
预览/索引提供了Gene当前使用的字段、过滤器和属性的综合列表。它还报告每个字段、过滤器和属性中存储的出现次数和值,并允许您通过布尔运算符将任何术语与现有查询组合在一起。这是测试健壮查询策略的关键接口。
历史提供了对最近的查询和菜单的查看,这些查询和菜单可用于将这些查询组合到选定的感兴趣的集合。
剪贴板保存感兴趣的记录长达8小时。
细节显示如何处理查询。然后可以细化查询并重新提交。
有关使用这些函数的更多详细信息,请参阅Entrez帮助文档和常见问题页面.
通过明智地使用字段、属性和过滤器(框),可以提高查询结果的特定性1,2和三). 为了帮助您决定使用哪一个,请将字段视为信息的子类别,将属性视为关键字或可能适用于许多Gene记录的术语,并将筛选器视为Gene与美国国立生物技术信息中心网站。为了选择要使用的过滤器,了解NCBI通过携带公共信息的数据库名称对许多过滤器进行命名可能会有所帮助。对于Gene,第一个数据库名称是基因因此,过滤器表示Gene和UniSTS公司被命名为“gene unists”,是gene和地理位置命名为“gene geo”等。属性可能有多个同名Entrez公司数据库。例如,Entrez核苷酸和蛋白质中使用的属性srcdb_refseq_known从Gene解释为“源数据库(srcdb)中存在关联的序列数据参考序列RefSeq的类型已知”。
为了阐明这些标准,请考虑以下示例:
例1:找到基因组上没有注释但经过审查的人类和小鼠基因参考序列记录。首先,你必须知道,如果一个基因被标注在最新的基因组注释上,那么就会设置“基因核苷酸位置”过滤器。然后您需要按物种和RefSeq类型限制查询。
如果以交互方式键入,则查询将为:
(人类[生物体]或小鼠[生物体])和“srcdb refseq reviewed”[属性]不是“gene nucleotide pos”[过滤器]
一个简单得多的方法是:使用极限来设定物种;预览/索引以找到适当的属性(审查RefSeqs,多个基因记录的特征);以及一个过滤器,用于查找基因组上未注释的基因(基于缺乏与康蒂格或基于染色体的RefSeqs)。
您可以遵循以下步骤:
- 1
单击“限制”并在哺乳动物部分选中人类和老鼠。
- 2
单击预览/索引,选择属性,单击索引,滚动直到看到“srcdb refseq reviewed”,选择它,然后单击and。
- 三。
仍然在预览/索引中,选择填充,单击索引,滚动直到看到基因核仁pos,选择它,然后单击NOT。
示例2:从真菌中查找所有在UniGene或地理位置.
如果以交互方式键入,则查询将为:
真菌[生物]AND(“基因unigene”[过滤器]或“基因geo”[过滤器)
一种简单得多的方法是使用Limits设置分类组和预览/索引,以找到合适的过滤器并正确组合它们
您可以遵循以下步骤:
Gene提供了更多示例查询帮助文档.
内容
基因记录的内容分为几个子类别。此处列出的内容大致对应于默认的完整(图形)显示。
术语
Gene使用官方符号和全名,并在可用时报告命名权威。否则,将从定义序列记录中选择符号和名称。例如,如果序列和位置同源(共生性)建议一个无名的轨迹在一个物种中,与另一个物种的命名基因同源正交曲线可以使用。如果没有识别出任何符号,并且基因组是逐个基因处理的,而不是作为一个完整的重新命名,则字母LOC将添加到基因ID。一旦识别出有意义的符号,人为的“LOC”符号就会被删除(因为记录仍然可以通过GeneID本身进行搜索和识别)。
除了官方符号和全名之外,Gene还提供了出版物和序列记录中看到的其他符号。这些替代名称并不全面,通常只有在参考序列正在审查中。
几个美国国立生物技术信息中心数据库使用Gene维护的命名法。这些名称主要基于名称合并-基因ID-Gene报告的序列关系。这些数据在以下几个文件中报告Gene的FTP站点,包括DATA/gene_info.gz和DATA/gene2accession.gz。
概述
基因记录的一些组成部分描述了基因的关键特征、功能和产品。总结,作者参考序列员工和/或外部贡献者,如OMIM公司或大鼠基因组数据库(RGD),提供了关于该基因的已知信息、其编码蛋白的功能或核糖核酸产品、疾病关联、空间和时间分布等。基因类型是从基因数据模型.
的价值参考序列状态表示提供给特定基因材料集的最高审查水平。
地图数据
基因记录中可能包含几种类型的地图信息。一种类型是以通常用于给定基因组的单位描述位置。遗传和物理地图位置来自于图谱浏览器。这些信息可以通过链接到地图查看器获得,而不是报告任何坐标系中任何基因的所有位置数据。还可以通过标记名访问信息,标记名链接到UniSTS大学记录。
当没有独立的图谱数据可用且基因已被放置在基因组集合上时,可以通过计算序列和其他图谱单元(例如细胞遗传学带)之间的对应关系来推断图谱位置。一个例子是根据Furey和Haussler开发的算法计算细胞遗传学位置(7). 随着基因组的每次重组,基因可能会转移到其他染色体上,从而确定更好的比对。如果标记和其他数据与已发布的地图位置一致但不同,则修改基因记录以与当前信息一致。
标记在Gene中报告为基因或与基因有计算或策划关系的标记。基因并不存储基因组的所有可用标记;这是的功能UniSTS大学基因中的标记数据来自以下任何一种:来自基因组特定数据库的报告;计算依据电子PCR这表明信使核糖核酸与基因相关;和基于e-PCR的基因组定位,定位在基因上游2 kb到下游0.5 kb的区域内。在由Gene发起的查询中,具有基于PCR标记的基因可以通过查询“Gene unists”[过滤器]进行识别。
当基因被注释在基因组上时参考序列地图信息也通过相邻基因的图形显示来呈现。箭头指示转录的方向。如果一个基因的名称太长而不能用作标签,则会用省略号(…)表示截断。所显示记录的特定基因将高亮显示。箭头和标签将链接指向这些基因的记录,支持快速导航。如果一个基因被标注在多个基因组RefSeq上,则只有一个用于图形显示。每个RefSeq的位置数据在ASN.1号完整的基因记录。
地图数据也由指向的命名链接支持图谱浏览器在“链接”菜单中。由于链接由Map Viewer数据库提供,因此这些链接中的更改不会反映在记录的修改日期中。对于在Map Viewer中可以获得比较图的基因组,还为这些视图提供了指向Map Viewers的链接。
功能
基因使用几种方法来描述基因及其编码产物的功能。其中包括:
基因、产品和途径的名称
关联本体(GO)
互动报告
酶委员会(EC)编号
其中许多类别包含指向其他数据库中其他信息的链接。提供了指向数据源的链接。我们赞赏免费提供数据的资源的合作。
变更
基因不会直接报告变异信息。相反,它提供了三种类型的dbSNP链接,这些变量数据存储在dbSNP中。这些类型由过滤器基因snp、基因snp基因实现基因型和基因snp geneview(方框3)。
同源性
除了指示比较图的可用性(在本文撰写之时仅限于人类、小鼠和大鼠的基因记录)外,Gene仅通过显示HomoloGene和/或COG的链接提供同源性信息。它还提供了指向显示预先计算的序列关系的资源的链接,例如眨眼.
表达式
基因是否表达的定性评估在基因类型和与基因记录相关的序列材料类型中进行。表达的数量和时空方面存储在其他数据库中,包括地理位置和UniGene美国国立生物技术信息中心.
其他感兴趣的地点
基因在记录内和通过链接输出机制。随着越来越多的数据提供商将其LinkOut提交给Gene,第二种方法将变得越来越强大。用户可以通过注册My来利用LinkOut连接和其他过滤器美国国立生物技术信息中心和自定义显示。