范围
基因概述
美国国立生物技术信息中心主要在两种情况下维护有关基因的信息。一个上下文由公共序列信息定义,例如RefSeq的注释(请参见参考序列第章)或与国际核苷酸序列数据库联盟中的记录链接,或INSDC公司(参见基因组参考联盟章节). 序列信息与GeneID或非重复序列 集群标识符对任何分析都至关重要基因表达定义基因的第二个上下文是通过映射表型GeneID并没有被分配给所有分类群的映射基因座,但当它们被分配时,预期基因最终将与序列相连,因为表型的分子基础已经确定。
一旦一个标识符被指定给一个基因的概念,多个数据库就会将信息连接到该概念。在美国国立生物技术信息中心这些数据库包括Gene,用于获取有关基因的原始数据以及有关其表达、产物、同源物和表型的信息门户;涉及其产品的途径的生物系统;GEO(参见GEO章节)和非重复序列有关表达的信息;用于出版物的书架、PubMed和PubMedCentral;数据库间隙P,PheGenI公司,MedGen公司和OMIM公司表型;同源基因对于同源性;变化的dbSNP、dbVar和ClinVar;和分类学,以获取有关该生物体的信息。换言之,NCBI有许多维护基因信息的资源,但本节重点关注这些:
表达式概述
几个资源位于美国国立生物技术信息中心保留有关组织、健康状态、基因表达的发育阶段或年龄,或影响基因表达的序列变异的原始数据。数据档案反映了生成这些数据的主要方法,从采样开始cDNA中非规范化库中的序列非重复序列,通过GEO中基于阵列或RNAseq的方法,获得GTex中的关联数据。这些资源还维护用于分析数据集的工具,这些数据集可能非常大。
历史
基因
将基因表示为具有稳定标识符的对象始于美国国立生物技术信息中心1995年,将GenBank第88版中的3’个未翻译区域聚类为特定基因集非重复序列. (1) . 当参考序列该项目始于1998年,是人类命名委员会(现在HGNC公司),OMIM公司和RefSeq团队收集用于跟踪的基因特定信息。这发展成为LocusLink(2)2004年进化为Gene(三). 在20世纪90年代末到2000年代初真核生物的由序列信息识别的基因由假定代表基因表达即cDNA。然而,现在许多基因首先是通过计算而不是直接序列证据来确定的,即通过基因预测软件来确定,该软件可以使用直接的实验结果,但也可以根据与相关物种的比较或预测蛋白质的分析来计算基因组序列的哪些区域可能是基因。
同源基因
通过对多个物种的评估,可以方便地检查基因的功能,同源基因(参见同源基因章节),于2000年作为一种独特的资源推出,旨在通过根据同源性,提供了用于比较的工具,并聚合了这些同源组的数据。
基因表达
识别区域的方法基因组这些年来,转录的内容发生了变化。大型cDNAI.M.A.G.E.等项目(4)和哺乳动物基因收集(MGC)(5)根据这些克隆的cDNA克隆和测序确定表达的序列。给定这些序列,使用基于阵列的技术来比较不同实验条件下序列的表达。现在,利用RNAseq的强大功能,无需克隆步骤即可对表达进行定性和定量分析。
影响序列变化基因表达也在评估中(6).PheGenI公司为这些数据提供了一个窗口。