历史
代表变化的主要数据库美国国立生物技术信息中心是数据库存档关于变异位置和类型的信息,即dbSNP用于小于约50个碱基对(bp)的变异,dbVar用于更长的变异,结构变化然后从NCBI的多个站点访问这些数据(例如,基因、核苷酸、,参考序列)或者通过在变异和多种表型之间建立联系,包括疾病名称、临床特征和基因表达(ClinVar、dbGaP和PheGenI公司). NCBI上的变更表示包括已收到提交的所有分类群。其范围为病毒将细菌病原体传染给人类。变异不一定是可遗传的;还介绍了在肿瘤或其他体细胞来源中观察到的序列变异。
尽管变异信息保存在不同的数据库中,但这些数据库中的表示正在标准化,以改进搜索、报告、评估和分析。例如,变异类型的表示(单核苷酸、插入、拷贝数增加),变异结果的表示(无意义、错义、,移帧)和功能后果(外显子损失)与序列本体中的术语一致(http://sequenceontology.org/). 随着2013年推出ClinVar,临床意义的标准化报告正从档案数据库转移到ClinVar。
dbVar和结构变化
数据库变量(网址:http://www.ncbi.nlm.nih.gov/dbvar)基因组档案信息结构变化来自提交给任何生物体的研究。一般来说,这些变体的长度超过50 bp。每个变量实例都分配了一个以nssv开头的标识符。同一位置的一个或多个变体实例被分配一个以nsv开头的标识符。此标识符标记基因组提交者定义为包含结构变化。变量区域指向一组样本变量实例,这些实例支持区域包含变量的断言。因为dbVar与DGVa交换数据(1),对于实例和区域,某些记录可能具有以essv或esv开头的加入。
随着档案数据库(dbSNP和dbVar)的建立,越来越多的数据被生成,以利用这种变异来提高我们对种群遗传学的理解,识别基因组影响罕见和常见疾病,并确定变异对基因表达因此,最初存档所有这些数据的dbSNP开始剥离或与具有特定范围的研究合作。这些资源包括下表中的资源:
数据模型
存档提交内容
dbSNP和dbVar的一个主要功能是归档提交。因此,每个人都管理有关提交者、提交日期、生成数据的研究以及内容的信息。存档功能的一部分包括验证提交,例如确定数据是否与基因组为其提供了提交文件。这些档案由dbSNP附加、分配ss标识符,并由dbVar酌情分配nssv标识符。
ClinVar还存档提交的文件,即与健康状态相关的序列变化解释。这些提交的文件被分配了一个12个字符的附件,以字母SCV开头,后面是填充到9位的数字。如果提交者提交更新,则会为登录分配一个新版本。
综合数据
dbSNP在基因组和变化类型。此聚合的结果被分配给参考SNP(rs)标识符,通常用于在后续研究和出版物中引用该变体位置。必须强调的是,rs标识符并不表示某个位置的显式序列更改。换言之,一个rs被分配到基因组上存在单核苷酸变异的位置,即使在该位置观察到了所有4个核苷酸。
ClinVar根据变化和表型这些集合被指定为12个字符的登录,以字母RCV开头,后面是填充到9位的数字。如果更新了SCV或将新SCV添加到集合中,则会对RCV添加进行版本控制,并分配新版本。