美国国旗

美国政府的官方网站

NCBI书架。美国国立卫生研究院国家医学图书馆的一项服务。

NCBI手册[互联网]。第二版。贝塞斯达(医学博士):美国国家生物技术信息中心;2013-.

  • 本出版物仅供历史参考,信息可能已过时。

本出版物仅供历史参考,信息可能已过时。

NCBI手册封面

NCBI手册[互联网]。第二版。

显示详细信息

短期遗传变异数据库(dbSNP)

,理学硕士,,博士,、MS和,博士。

创建:上次更新时间:2014年4月3日.

预计阅读时间:50分钟

范围

序列变异对群体遗传学家、遗传图谱绘制者以及研究变异和表型这些变异可以有几种类型,从不影响序列长度的简单替换,到导致微小长度差异的替换,再到影响多基因和多染色体的替换。变异也可以根据其在种群中的频率进行分类,从单个变异等位基因具有高度多态性的变异。

尽管SNP公司是“单核苷酸多态性,“dbSNP是所有短序列变异的公共档案,而不仅仅是在一个群体中频繁发生的单核苷酸替换被称为多态性。dbSNP包括广泛的简单遗传变异集合,例如单核苷酸替换、小规模多碱基缺失或插入以及微卫星重复。提交给dbSNP的数据可以来自任何生物体,也可以来自基因组,可以包括基因型等位基因频率数据(如果这些数据可用)。dbSNP接受所有类别的简单序列变异的提交,并提供具有临床意义的种系或体细胞起源的变异。

为了强调dbSNP内容的综合性数据库2011年7月,从“单核苷酸多态性数据库”更改为更具包容性的“短遗传变异数据库”。代表数据库的首字母缩写词将保留为“dbSNP”,以避免因完全更改名称而引起的任何混淆。

dbSNP中的每个记录都包括变体的序列上下文、群体中多态性的频率(如果可用)、合子性(如果可用的话)以及每个提交者用于分析变异的实验方法、协议和条件。单个提交文件被归入dbSNP参考记录(rs#)中,这些参考记录包含总结数据,其中可能包括来自ClinVar公司,与关联表型数据库间隙P,变异假阳性状态,等位基因起源(生殖系或体细胞)和提交者属性。

dbSNP旨在支持提交和研究广泛的生物问题,包括识别基因型-表型遗传和生理关系映射,功能分析,药物基因组学和关联研究。

医学遗传学

新一代测序技术的进步使研究人员能够生成大量序列数据。当使用这些技术对临床样本进行测序时,可能会发现在疾病中具有致病作用的新变体。dbSNP的职责是管理这些新变异体的位置和类型的信息,而ClinVar负责管理变异体临床的当前解释表型.

dbSNP整合来自ClinVar的临床属性数据(即临床断言和断言等位基因起源)变成新的和现有的人类参考SNP记录,以及包含次要属性的附加管理属性数据等位基因频率和变异假阳性状态。

VCF文件从dbSNP的精选记录生成的可用于从一组变体调用中筛选(减去)已知变体,以识别新变体或缩小可能需要进一步评估的潜在致因变体列表。

基因组定位

变异被用作遗传和物理的位置标记映射当核苷酸序列映射到基因组换句话说,dbSNP记录所代表的变异可以作为基因组中的稳定标志,即使变异是固定的等位基因在样本中。当在样本中观察到多个等位基因时血统,家系成员可以像传统的遗传作图研究那样测试变异基因型。为了帮助进行这种绘图工作,dbSNP在发布每个新的生物时更新每个生物的变异绘图和注释基因组组装.

分子和功能后果

基因功能区或保守非编码区发生的变异可能会影响转录、转录后处理或蛋白质产物。dbSNP根据美国国立生物技术信息中心的注释基因组提交人可能会报告功能后果。

协会研究

dbSNP注释了与表型来自dbGAP报告的全基因组关联研究(GWAS),并提供了常见变异的详细目录。dbSNP的GWAS注释和通用变体目录用于指导GWAS研究的设计、GWAS研究中使用的变体数组的创建以及GWAS研究结果的解释。

历史

创造与成长

dbSNP成立于1998年9月为了满足对基因组变异总目录的需求,该目录将促进科学界在遗传关联研究中的努力,基因映射,以及进化生物学。最初,dbSNP由小规模的基因座由侧翼不变序列定义的特定提交。随着高通量测序的出现和完整序列的可用性基因组然而,dbSNP现在可以接收更多的变体,这些变体是通过在参考序列.

提交内容的演变

因为dbSNP是在人类参考之前开发的装配当时,最初的提交物主要来自人类,并在侧翼序列的背景下定义了一个变异序列。支持证据或验证数据通常很少。随着测序和其他发现技术的改变,dbSNP发展迅速,现在包括来自300多个生物体的数据以及充足的验证数据,包括多个独立提交的数据、频率数据、,基因型数据,以及等位基因观察。满足社区对集中变体的需求数据库2008年春季,dbSNP开始接受新的和现有变异的临床断言以及变异位置的断言。这个ClinVar公司数据库,现在具有接受变化的角色临床断言数据按照其自身的加入过程,将新的变异位置路由到dbSNP,以分配ss(提交SNP公司)和rs(参考SNP)数字。

除了将临床断言集成到参考SNP记录,dbSNP在refSNP记录中引入了其他管理属性,如次要属性等位基因频率、断言的等位基因起源和潜在的假阳性状态。它还使用策划的记录生成VCF文件,可用于筛选新变体的变体调用,并识别潜在的致病变体。

使用演变

最初,dbSNP中的数据仅用于填充序列图,因为多态性标记密度太低,无法进一步应用数据。然而,到2007年,标记密度已经增加到足以在关联研究中使用变异数据,高分辨率映射以及许多其他应用,包括种群进化和系统发育研究,这些研究将继续加深我们对遗传关系和性状基因组基础的理解。

dbSNP目前将临床信息集成到dbSNP记录中,这将使dbSNP数据在分子医学和药物遗传学领域以及药物代谢组学和精确医学等新兴领域的研究中得到更大的应用。

数据模型

dbSNP数据模型将发展以捕获新内容,但目前有两大类数据。第一类是提交的数据,即序列变化的原始观测值,使用“提交的SNP公司“(ss)标识符。第二个类是在dbSNP构建周期中生成的(图1)通过聚合来自多个提交的数据以及来自其他来源的数据,并用“参考SNP”(rs)编号标识。rs标识符表示按序列更改类型和在基因组如果组装好的基因组可用,或者如果基因组不可用,则通过公共序列聚合。

图1。SNP构建周期。

图1。

SNP构建周期。dbSNP构建周期从关闭新提交的数据开始。dbSNP计算摘要属性,并为每个refSNP集群提供提交者断言的摘要属性。这些属性包括基因型、假阳性状态、,(更多…)

值得注意的是,无论数据是如何聚合的,rs标识符都是一个位置和变量类型的标识符——它不是在该位置观察到的每个序列的标识符。换句话说,如果有一个单核苷酸变异,其中的等位基因a、C、G和T都被观察到了,那么它们都具有相同的rs标识符。而且,如果在一个位置有一个单核苷酸变异和一个长度变异,那么将分配多个rs标识符,每个变异类型一个。

注释:dbSNP正在更新其装配过程。有关组件更改的更多信息将在动态SNP公司目前正在构建的文档。

提交的内容

dbSNP接受公共实验室和私人组织提交的文件。dbSNP不接受通过跨物种比对和分析确定的合成突变或变异。长度大于50个核苷酸的变异应提交给基因组结构变异数据库(数据库VAR).

dbSNP不会保存在特定日期或特定dbSNP构建中发布的数据。然而,如果您提交的是非临床人类数据或非人类数据,并且您的手稿需要dbSNP登录号(ss号)进行审查,我们可以保留提交的数据,直到出版物被接受,并且您已经通知我们dbSNP可以发布数据。一旦发出通知,dbSNP将在下一个构建发布周期中发布数据。请参阅ClinVar提交文件对于断言的临床变异数据保留策略。

一个称为“提交人手柄”的短标签或缩写唯一地定义了每个提交实验室,并将提交文件分组到数据库。请在线查看dbSNP提交说明以帮助准备提交。

提交的10个主要数据元素包括:

序列上下文

向dbSNP提交的一个基本组成部分是对所提交变体的序列上下文的明确定义。dbSNP不再接受序列上下文作为侧翼序列中的变量序列,现在最低限度地要求将序列上下文作为断言的位置参考序列INSDC公司序列。

断言的位置

断言位置是基于实验证据的声明,即变体位于公共添加序列的特定位置数据库.dbSNP倾向于在作为装配位于美国国立生物技术信息中心 程序集资源。如果没有可用的程序集,dbSNP将接受参考序列INSDC公司序列断言的位置与程序集无关的。

对于那些断言位置与装配,该变体的rs无法注释到程序集,因此不会显示在程序集的地图或图形表示中。但是,如果在将来的某个日期,在序列与之对齐的assembly Resource中创建了一个新的程序集,则此时将为报告的变体分配一个rs编号。一旦为变型分配了rs编号,变型将出现在装配的地图或图形表示上。

侧翼序列

dbSNP不再接受例行的侧翼序列,现在要求在属于装配位于NCBI程序集资源.

侧翼序列只能用于报告那些无法使用断言的位置.提交的带有侧翼序列的变更将分配给提交的SNP公司(ss)可以使用dbSNP主页“ID search”工具或通过文件传输协议下载。

因为用侧翼序列提交的变体将只分配一个ss ID,所以它们不会出现在装配。但是,如果程序集稍后可用,则允许我们按爆炸,如果可能的话,我们将为变量分配一个rs。dbSNP无法预测此类程序集何时可用,或何时可用映射将发生爆炸。

如果必须提交带有侧翼序列的变体,dbSNP将侧翼序列作为任一基因组DNAcDNA,并且变异两边的最小长度要求为25bp,以便在更大的上下文中最大限度地提高序列的特异性。

注释:dbSNP构建其提交文件,以便用户可以区分实际测量的分析序列区域与从已发布的参考序列以满足dbSNP的最小长度要求。

注释:SS编号可用于描述分析变体的出版物。

等位基因

通道定义每个变化类别(表1). dbSNP在其提交方案中将单核苷酸变体定义为G、A、T或C,并且不允许在等位基因变化的定义。在变体相互接近的情况下,dbSNP允许使用IUPAC代码,例如N,并且在变体的侧翼序列中,实际上鼓励使用它们。请参见(表1)用于指导dbSNP提交后处理为每个变异分配等位基因类的规则。

表1。

表1。

变异类根据等位基因定义组织提交。注:dbSNP的等位基因长度限制为<=50bp。将长度大于50个核苷酸的等位基因提交至基因组结构变异数据库(dbVAR)。

方法

每个提交人在其提交的文件中将方法定义为用于分析变异的技术或用于估计变异的技术等位基因频率。dbSNP按方法类对方法进行分组(表2)使用通用实验技术作为查询字段。提交者在方法的自由文本描述中提供了这些技术的所有其他细节。提交者还可以使用METHOD_EXCEPTION字段描述对特定数据集的通用协议的更改(特定于批的详细信息)。提交者通常在一次提交中只定义一次方法。

表2。

表2。

方法类通过方法或实验方法组织提交

断言巷子起源

提交者可以提供一个声明(断言),以支持变异体具有特定等位基因起源的实验证据。单个的断言参考SNP总结并给出生殖系或未知的属性值。体细胞起源的变体应提交给ClinVar公司未来将添加其他属性(例如父亲属性)。

人口

每个提交者将总体样本定义为最初用于识别变异的组,或用于识别特定人群的等位基因频率。在一些实验设计中,这些群体可能是一个并且是相同的。尽管dbSNP已经根据样本的地理来源将种群分配到一个种群类别,但我们将在不久的将来逐步取消这种做法,因为大多数种群描述现在都提交给生物样品。我们鼓励dbSNP提交者开始在BioSample中注册他们的样品,以获得他们可以在dbSNP的提交中使用的指定加入。

样本大小

dbSNP中有两个样本大小字段。SNPASSAY SAMPLE SIZE是一个字段,用于报告样本中用于初步确定或发现变异的染色体数量。另一个样本大小字段SNPPOPUSE sample size报告在计算等位基因频率。这两项措施不必相同。

特定人群的等位基因频率

等位基因在不同的人群中以不同的频率存在;非常常见的等位基因在一个种群中可能在另一种群中相当罕见。此外,当特定群体与邻近群体进行生殖隔离时,等位基因变体可以作为私人多态性出现,就像隔离或偏远群体的情况一样。

频率数据以如下方式提交给dbSNP等位基因计数或二进制频率间隔,取决于用于进行测量的实验方法的精度。dbSNP包含特定人群样本的等位基因频率记录,由每个提交者定义并用于验证提交的变异。请参见表3用于验证等位基因频率。

表3。

表3。

验证状态代码总结了可用的验证数据

群体特异性基因型频率

与等位基因类似,基因型在人群中具有可提交给dbSNP的频率,并用于验证提交的变异。

个体基因型

dbSNP接受捐赠者提供的样本中的个人基因型DNA公共场所的序列数据库(例如。,人类基因组单体型图或1000基因组项目)。dbSNP中报告的基因型包含与种群和方法描述的链接。概述基因型数据为个人提供基础单倍型定义和有助于在新实验中选择阳性和阴性对照试剂。

验证信息

dbSNP接受没有验证证据的单个分析记录(ss编号)。然而,在可能的情况下,dbSNP会尝试区分高质量的验证数据和未确认(通常是计算性的)变化报告。提交人通过验证部分直接验证的分析显示了用于确认差异的证据类型。此外,dbSNP将标记一个已验证的分析变异(表3)如果:

  • 有多个独立提交给参考SNP 集群使用至少一种非计算方法,

计算内容

dbSNP以定期“构建”的形式向公众发布其内容,这些构建与新版本的发布同步基因组每个生物体的组件(手册:真核基因组注释管道)。dbSNP构建过程如下:

1

自上次构建RefSNP(rs)以来提交的集群变体(ss)。

2

映射参考SNP集群到适当的装配.

三。

合并共定位参考SNP集群(如果合适)。

4

标记可疑的假阳性变体(参见“可疑变更“有关假阳性选择的更多信息,请参阅本章第节)。

5

计算映射变量的功能上下文。

6

计算次要等位基因频率以及平均杂合度和标准误差。

7

计算到其他相关的链接美国国立生物技术信息中心资源,如Gene、PubMed和参考序列用于RefSNP群集。

8

将所有聚集变体映射到参考序列序列。

请参见图1获取dbSNP构建过程的完整图形描述。

数据流

新提交文件和新构建的开始

每个构建都以“结束数据”开始,该数据定义了将映射到的新提交集基因组用于随后注释和将变异分组为refSNPs的序列。进入每个构建的新数据集通常包括自上一个构建中的数据关闭以来收到的所有提交。

提交的SNP和参考SNP集群

当一个新的变体被提交给dbSNP时,它被分配一个唯一的提交S公司NP ID编号(ss#)。如果提交的变更带有断言的位置,一旦分配了ss号,则断言的位置坐标为重新映射到电流上的相应坐标装配如果提交的变更带有侧翼序列,dbSNP将对齐每个提交的侧翼序列SNP公司到其适当的基因组位置。

当同一变更类别的多个提交文件(表1)具有相同权重(唯一性)的映射到装配,dbSNP对ss进行集群,定义“引用SNP公司 集群、“或”参考SNP,”,并为集群提供一个唯一的R(右)参考电压S公司NP ID编号(rs#)。如果提交的多个变异类别的SNP映射到单个位置,则将为该位置的每个变异类别分配一个rs号。如果只有一个提交映射到特定位置,则其ss被分配一个rs号,并且是其RefSNP集群的唯一成员,直到找到映射到相同位置的同一变体类的另一个提交SNP。

A类参考SNP 集群有许多摘要属性,这些属性是在所有集群成员上计算的(图2)、和用于注释其他美国国立生物技术信息中心资源。请参见图2A,2B型,2摄氏度二维refSNP集群报告中所有摘要属性和内部/外部资源链接的位置。

图2。refSNP摘要记录(refSNP集群报告)。

图2。

refSNP摘要记录(refSNP集群报告)。refSNP摘要记录,也称为refSNP集群报告,为用户提供由提交者提供的广泛摘要属性,由dbSNP根据提交的数据计算得出,或(更多…)

图2A。参考SNP总结报告:Allele总结和综合地图部分。

图2A。

参考SNP总结报告:Allele总结和综合地图部分。refSNP报告的等位基因摘要部分提供了临床意义(A类),其中可以通过点击VarView或OMIM按钮来查看表型;等位基因(更多…)

图2B。参考SNP摘要报告:GeneView部分。

图2B:。

参考SNP摘要报告:GeneView部分。GenView部分的顶部有一个Display(显示)菜单。完成菜单选择后,单击“Go”(开始)按钮(A类)将生成GeneView显示。默认设置(“临床(更多…)

图2C。refSNP摘要报告:GeneView显示。

图2C:。

refSNP摘要报告:GeneView显示。默认的GeneView显示提供了映射到特定基因剪接变体的变体的表格摘要。变更摘要按变更出现的顺序排列(更多…)

图2D。参考SNP总结报告:FASTA、资源链接、人口多样性和验证总结章节。

图2D。

参考SNP总结报告:FASTA、资源链接、人口多样性和验证总结章节。FASTA部分提供了变化5'侧翼序列(A类),等位基因(B类)和3'侧翼序列(C类)由提供(更多…)

dbSNP导出整个dbSNP参考SNP以多种报告格式设置为文件传输协议站点,并在用户执行dbSNP批处理时将其作为结果集交付查询.

注释:来自断言数据的摘要属性(例如,临床断言、断言位置、断言等位基因来源)基于实验证据,不能被视为对特定临床的确认表型,基因组位置或等位基因起源美国国立生物技术信息中心不独立验证断言,也不能认可其准确性。

基因组序列的映射

当一个新的基因组构建就绪,dbSNP使用装配-装配对齐到重新映射ss断言了从旧程序集到新程序集的位置和rs位置。

要将没有断言位置的提交映射到基因组组装,dbSNP获得美国金融服务贸易协会在“数据关闭”之前提交的SNP文件,以及当前构建中无法重新映射的refSNP的FASTA文件,然后使用爆炸中描述的步骤附件2.

如果一个有机体由多个集合表示,那么每个集合装配已添加注释。例如,dbSNP注释了两个主要的人类集合:基因组参考联盟(GRC)参考集合和单倍体葡萄胎(CHM1)集合。

refSNP聚类和refSNP定向

a的方向参考SNP,因此其序列和等位基因字符串,由第一个提交的SNP公司(ss)用于创建refSNP(rs)集群按照惯例,集群示例是refSNP集群的成员,该集群具有最长的侧翼序列,或者是集群中分配了断言位置的第一个变量。如果在以后的构建中,添加到集群中的新变体成为示例,并且恰好与refSNP的当前方向相反,dbSNP通过使用集群示例的反向补码来设置refSNP序列的方向,从而保留refSNP方向。

对于随断言的位置一旦dbSNP映射并验证了断言位置,侧翼序列将从断言位置导出,并用于确定变量方向,而不是侧翼序列。

一旦聚类过程确定了集群,它将为参考SNP集群。

在重新设计dbSNP之后,dbSNP将继续使用侧翼序列和样本,用于那些没有成熟的生物体装配,但一旦开始为使用侧翼序列提交的变体创建断言位置,将逐步淘汰“范例”概念。

注释:dbSNP报告装配.

重新映射、refSNP合并和refSNP拆分

重新映射和引用SNP合并

RefSNPs在操作上被定义为参考上某个位置的变化装配每次基因组组装更新时参考序列可能会发生变化,因此必须更新或重新聚集refSNPs。

重新聚集过程开始于美国国立生物技术信息中心更新基因组装配。所有现有的refSNP(rs)和新提交的SNP(ss)都映射到基因组组装使用assembly-assembly重新映射或多个爆炸和MegaBLAST周期,如附件2.

dbSNP集群中位于同一位置的变体基因组变成单曲参考SNP.新提交的变体可以共存以形成新的refSNP集群,或者可以使用现有的refSNP进行集群。当新提交的变体在它们之间聚类时,它们被分配一个新的refSNP编号,当它们与现有的refSNP聚类时,它们被添加到该refSNP聚类中。

有时存在参考SNP当dbSNP改进其聚类算法、更正提交或基因组程序集在dbSNP生成之间更改。当现有refSNP共存时,具有较高refSNP编号的refSNP将失效(永远不会被重用),所有已失效的提交SNP集群(s) 重新分配给保留的参考SNP。将提交的SNP从较高的refSNP号重新分配到refSNP编号较低的refSNP集群称为“合并”,发生在dbSNP的“rs合并”步骤中映射过程。合并仅用于减少rs编号目录中的冗余,以便每个位置都有唯一的标识符。所有发生的“合并”操作都会被记录和跟踪。

注释:最初,refSNP集群包含不同类类型的变体,因为提交的变体恰好映射到同一位置(trueSNP公司,indels,混合)。dbSNP发现,由于提交的数据不断膨胀,refSNP变得越来越难以解释,因为每个refSNP中都存在多种变体类类型集群由于不同的变异类别代表不同的遗传事件,dbSNP已经改变了参考SNP集群只包含一个变体类类型。

refSNP拆分

由于装配更改或软件更新,以前计算为相同的提交集群可以区分。在这种情况下,dbSNP将集群分离或“拆分”为两个或多个参考SNP集群取决于特定的环境。如果新提交的证据表明在一个refSNP编号内聚集了两个或多个变体类,dbSNP也可以分割一个集群。

当现有参考SNP被拆分,提交的SNP公司(ss)最近添加到集群将“分离”形成新的集群。当发生这种情况时,原始集群中剩余的ss编号保留旧的rsID编号,而“分割”的ss编号如果映射到另一个现有的refSNP,则会集群到另一现有的refSNP,或者被分配一个新的refSNP-编号。分裂产生的集群数量取决于现在可以识别的不同位置和变体类别的数量。

RefSNP编号稳定性

如果参考SNP数字已经被合并到另一个refSNP数字中或从另一个refSNP数字中分离出来,使用一个退役的refSNP数字来查找当前数字是非常容易的(见下面的提示)。换言之,refSNP编号可以称为稳定,因为合并或拆分的refSNP号始终可以追溯到以前的refSNP编号。

提示:
有三种方法可以定位合并的合作伙伴编号参考SNP以及一种查找拆分伙伴的方法参考SNP:
  • 如果在“搜索ID”搜索文本框中输入退休人员编号dbSNP主页,响应页面将声明SNP公司已合并,并将提供新的rs编号和指向参考SNP新的rs号码。
  • 您可以从中检索合并的rs编号列表Entrez SNP公司。只需在页面顶部的文本框中键入“mergedrs”(不带引号),然后单击“go”按钮。您可以通过单击“限制”选项卡,然后从有机体选择框中选择所需的有机体,将输出限制为特定物种中合并的rs编号。返回列表中的每个条目都将包括已合并的旧rs编号和已合并的新rs编号(带有指向参考SNP新rs编号的第页)。
  • 您还可以查看RsMergeArch表它跟踪dbSNP中发生的所有合并事件。此表在dbSNP上可用文件传输协议网站,可以在dbSNP数据字典,列定义位于dbSNP_main_table.sql.gz中,可以在共享​_模式dbSNP FTP站点的目录。
  • 您可以找到拆分的合作伙伴参考SNP仅通过使用SQL语言:

选择*
来自[human_9606]。[数据库]。[RsSplitArch]其中rs_2_split=26
rs_2_split rs_new_split split_build_id创建时间上次更新时间
26 78384355 132 2010-08-19 23:38:00 2010-08-19 23:38:00

然而,如果“稳定”是指参考SNP特定变化的数量始终保持不变,因此不应认为refSNP完全稳定,因为如果两个refSNP数字合并或拆分,refSNP数量可能会发生变化。如果新证据表明单个序列位置上的两个refSNP具有相同的变异类型,则可能发生合并;如果混合变异类(例如SNV和indel)聚集在单个refSNP中,则会发生分裂。有关合并和拆分的详细信息,请参阅“重新映射和RefSNP合并“节和”refSNP拆分“第节。

A类参考SNP在以下情况下,数字也可能发生变化:

  • 所有提交的SNP公司(ss)a中的数字参考SNP 集群被提交人撤回。
  • dbSNP分解现有的集群并基于来自dbSNP用户的报告冲突重新实例化失效的rs号。

可疑变更

目前,变体被标记为“可疑””,即,当在基因组(1,2)可能导致映射工件或是否有证据表明排序错误或计算工件。

dbSNP将在不久的将来更新其可疑假阳性标记系统,以便根据每个变体可用的支持证据数量对可疑变体进行排序参考SNP。那些可疑的refSNP集群,但有来自多个提交者的数据,表明存在杂合状态,在dbSNP的新系统中,作为一个值得信任的变体,其排名将比可疑refSNP更高,refSNP有来自单个提交的数据,有多个提交,但没有显示杂合性的证据,或者杂合性的证据相互矛盾。

分子类别

dbSNP通过检测侧翼序列中的基因特征来计算序列变化的分子背景康蒂格注释过程,并对参考序列/GenBank mRNA。

dbSNP已采用序列本体(SO)定义其变异分子类别的术语,以符合生物群落制定的标准。dbSNP用作函数类的SO术语子集可以在表4.

表4。

表4。

基因特征中refSNP的分子编码

一个变体可能有多个函数类。例如,当变量位于外显子一份成绩单和一份内含子同一基因的另一个。

临床断言

支持临床断言的新变体和实验证据(表5)提交给ClinVar。dbSNP和ClinVar将继续支持人类变异批量提交网站,作为一个基于Web的工具,可用于提交或更新医学上重要的变异提交。

表5。

表5。

临床意义按临床主张类型组织提交

当从ClinVar收到具有支持临床证据的新变体时,dbSNP重新映射变量相对于当前坐标的断言位置装配,以及到cDNA、蛋白质和参考SeqGene序列。映射变量后,dbSNP将为每个变量分配ssID和rsID。

通过支持人工变量批量提交网站提交的数据临床断言由ClinVar处理和提取,ClinVar使用数据为新变体分配临床属性或更新现有变体的临床属性(LSDB)。

一旦映射了提交的变体并分配了其属性,这些数据就可供其他人使用美国国立生物技术信息中心资源,包括VarView、ClinVar和Variation Reporter。

种群多样性数据

平均杂合度

衡量不同群体中变异多样性的最佳单一指标是其平均杂合度。这个测量值是指两个等位基因都位于二倍体个体或两条染色体样本中的一般概率。基于基础数据的样本大小,平均杂合度估计有一个伴随的标准误差,这反映了估计的总体不确定性。dbSNP可以计算RefSNP聚类的平均杂合度和标准误差联机请注意,dbSNP根据提交的等位基因频率对于每个变化。如果没有提交变异的频率数据,dbSNP无法计算杂合度值,因此参考SNP报告将不会显示杂合性估计。

计算的其他人口多样性数据参考SNP记录包括人口数量、变异样本、,基因型频率和哈迪·温伯格概率。

次要等位基因频率(MAF)

次要等位基因频率为等位基因频率为第二常见的等位基因。dbSNP聚集了每个基因的次要等位基因频率参考SNP 集群通过多次提交,帮助用户区分常见多态性和罕见变体。

考虑以下等位基因的变异等位基因频率:

参考等位基因=G;频率=0.600
备选通道=C;频率=0.399
备选通道=T;频率=0.001

根据上述MAF指南,未成年人等位基因是“C”,所以小调等位基因频率(MAF)为0.399。频率为0.001的等位基因“T”被视为罕见等位基因而非次要等位基因。

1000基因组小等位基因频率(1000G MAF)

“1000G MAF”是小调等位基因频率(见上文)基于基因型1000基因组项目[第一阶段]全球1094个个体的数据。

构建集成

dbSNP注释非冗余变体集(参考SNP 集群设置)参考基因组基因组序列、染色体、mRNA和蛋白质作为美国国立生物技术信息中心 参考序列项目。dbSNP计算每个refSNP集群的摘要属性,然后使用这些属性在Entrez公司数据库,并在NCBI map Viewer中更新变化图。最后,dbSNP更新dbSNP和BioProject、dbVar、dbGaP、Gene、,同源基因、核苷酸、,OMIM公司、Protein、PubChem Substance、PubMed、PubMed Central、VarView和Variation Reporter。

公开发布

新版本的公开发布涉及对公众的更新数据库以及在dbSNP上生成一组新文件文件传输协议现场。dbSNP向dbsnp-公告当有机体的新构建公开可用时的邮件列表。

dbSNP重新设计:对集群的更改

在撰写本文时,dbSNP正在计划重新设计,将对dbSNP的数据流引入一些基本更改。鼓励用户审查以下建议的更改,并将任何意见和建议提交给vog.hin.mln.ibcn@nimda-pns在这些变化中,有一种新的聚类算法。

虽然在基因组组装,人工序列复制将解决并崩溃,基因组的人工崩溃区域将扩大,缺失的序列区域将增加。在序列崩溃的情况下,变量在装配可能会减少,而在序列扩展或添加的情况下,变异对基因组的命中次数可能会增加。

为了具有处理这些问题所需的灵活性基因组组装变化,dbSNP 2.0将有一个新的聚类算法,它将改变参考SNP正如我们所知。这种新的聚类算法将改变控制聚类的规则,以反转当前存在的ss到rs关系。

目前,同一个rs中可以存在多个ss编号集群并且该集群中的每个ss号都链接到其对应的一个rs号。然而,新的聚类规则将改变这种关系,因为每个r代表一个唯一的位置。根据这些新规则,如果ss编号映射到多个位置,则单个ss编号可以链接到多个rs编号。

访问

这个SNP公司 数据库可以直接从顶部的搜索栏查询dbSNP主页,通过使用dbSNP资源的链接和主页上的搜索选项,或通过访问相关美国国立生物技术信息中心链接到dbSNP数据的资源。

dbSNP主页

dbSNP是Entrez公司综合信息检索系统,可以使用ID号进行搜索查询,或通过使用不同搜索字段和限定符的组合。

单个记录查询

使用顶部的搜索栏dbSNP主页使用dbSNP记录标识符查找变体。单个记录查询当前支持的记录标识符是SNP公司(参考SNP)集群身份证号(rs#),提交的SNP加入编号(ss#)和本地(或提交者)ID号。

复杂条目查询

使用SNP高级搜索生成器页面使用不同搜索字段和限定符的组合构造复杂搜索。高级搜索生成器允许您构造查询通过从大量字段和限定符中选择多个搜索词。请参阅高级搜索生成器视频教程获取有关如何在字段中查找现有值并将其组合以获得所需结果的信息。

dbSNP批处理查询

dbSNP批处理查询允许您查询使用在主搜索中收集的变体ID(rs ID、ss ID或本地ID),以选定的报告格式同时检索大量变体。可用的报告格式包括ASN.1号、床、,染色体,美国金融服务贸易协会,扁平锉,基因型报告,rs集群报告、ss详细报告和XML格式.

变体报告器

变体报告器将提交的变体调用与dbSNP或dbVar中的变体相匹配,从而允许通过Web搜索或应用程序编程接口进行访问(API程序)dbSNP拥有的用于匹配变体的所有数据和元数据。如果您提交了新的变体,并且您的数据与dbSNP或dbVar中的变体不匹配,则变体报告器将提供每个提交的变体的预测结果。

爆炸

爆炸可用于将提交的变量与断言位置匹配到匹配的dbSNP记录(请参阅以下位置的说明:ftp://ftp.ncbi.nih.gov/pub/factsheets/HowTo_Finding_SNP_by_BLAST.pdf.使用序列或查询BLAST克隆包含断言的位置的,然后选择适当的参考数据库作为BLAST目标。BLAST算法将查找任何现有的SNP公司映射到查询序列的记录,如果dbSNP记录恰好与之匹配,则映射到感兴趣的变量。

注释:如果爆炸无法为查询的序列中感兴趣的变化找到匹配的dbSNP记录:

1

在没有进一步研究的情况下,您不能假设该变体是新颖的,因为现有变体可能还没有dbSNP记录的原因有几个:

a。

参考中可能缺少现有变体的序列位置装配或变体的转录本位置尚未测序。

b。

现有变体可能是以低序列质量或不明确的基本调用提交的,这将禁止在参考上放置装配.

c。

该变体可能存在于文献中,但作者尚未提交以纳入dbSNP。对于历史文献中报道的那些变体来说,情况尤其如此。

2

你可以使用变体报告器得到人类变异的预测结果,以帮助您在变异已知序列位置时进行分析。

SNP提交信息查询

如果参考SNP(s)或提交SNP公司(ss)在搜索dbSNP记录时无法使用数字,请使用“提交信息“模块以构造查询其将基于与提交的变体相关联的其他可用信息来选择dbSNP变体记录:

  • 与提交者相关的信息
  • 有关包含兴趣变化的已提交批次的信息
  • 与用于分析变异的方法相关的信息(表2)
  • 与提交人口相关的信息
  • 与报告变体的出版物相关的信息

通过ClinVar、Gene或PubMed搜索

中有多个数据库美国国立生物技术信息中心维护与dbSNP的链接。dbSNP中的相关记录可以通过遵循摘要显示中的查找相关数据,或遵循单个记录的相关信息部分中的链接来识别。

Entrez编程实用程序(Eutils)

使用Entrez公司编程实用程序(电子公用事业或Eutils)到查询dbSNP并通过Web服务检索信息。您可以交互测试Entrez查询,然后使用Eutils执行该查询。有许多可用的Eutil程序,涵盖了广泛的查询类型。请参阅Entrez Programming Utilities帮助文档了解更多信息。

dbSNP FTP站点

美国国立生物技术信息中心通过提供多种不同格式的压缩数据转储,支持dbSNP数据的公共分发。访问NCBI文件传输协议网站可通过万维网访问(ftp://ftp.ncbi.nih.gov/snp/)或匿名FTP(主机FTP.ncbi.nih.gov cd snp)。除了FTP自述文件,其中包括ASN.1号,美国金融服务贸易协会、和XML格式,dbSNP FTP提供了两种附加格式:

VCF格式

变量调用格式(VCF)是为1000基因组项目作为存储大量序列变异数据(SNP、indels、较大的结构变异等)和任何伴随数据的标准格式基因型数据和注释。VCF文件包含一个标题部分和一个数据表部分。由于可以更改标题部分中的元数据行以适应要提交的数据的要求,因此可以使用VCF提交一个文件中包含的许多不同类型的常见变体(及其相关的基因型和注释)参考序列.VCF文件经过压缩(使用bgzip),易于访问。有关VCF的简要概述,请参见Danecek等人(3),以及1000个基因组的官方网站VCF格式的详细描述向dbSNP提交的文件目前使用VCF格式版本4.1.

BED格式

浏览器可扩展数据(BED)格式由UCSC基因组生物信息学作为显示数据行的方法基因组浏览器注释轨迹。BED格式的每一行表示一个带注释的特征,该特征使用必填字段和可选字段进行描述。dbSNP BED文件派生自dbSNP RS DocsumASN.1号(ftp://ftp.ncbi.nih.gov/snp/specs/docsum_3.4.xsd文件)并使用标准BED格式以及九个可选字段中的三个字段(name、score、strand)。dbSNP BED格式已经质量保证测试并与标准BED工具和基因组浏览器上传兼容,如美国国立生物技术信息中心重新映射服务(http://www.ncbi.nlm.nih.gov/genome/tools/remap),UCSC基因组浏览器(https://genome.ucsc.edu/cgi-bin/hg网关)和EBI基因组浏览器(http://www.ensembl.org(英语)).

dbSNP的本地副本

如果要创建SQL语言直接访问本地服务器上dbSNP的副本,请使用中的说明附录3从dbSNP模式、数据和SQL语句创建dbSNP的表和索引。

注释:我们将逐步淘汰关系型数据库在dbSNP重新设计期间使用dbSNP的体系结构,并正在考虑用面向服务的体系结构(SOA)和BLOB(博客)/CLOB公司将系统存储在dbSNP2.0中。然而,存储技术和对象模式仍在设计中。由于dbSNP 2.0可能不是SQL语言基于系统,我们将为用户提供API程序为那些想要创建dbSNP本地副本的人访问数据的批量转储。查看或订阅dbSNP新闻和公告网站,用于更新数据作为关系表或对象的重新设计和可用性。

有多种工具与处理或学习有关短序列变化的更多信息有关。这些在变体概述部分手册中。简言之,它们支持以下用例:

将一个部件或序列上的位置转换为另一个

NCBI的基因组重新定位服务(重映射)允许您根据路线将位置从一个序列转换为另一个序列。如果您已经在装配,或在参考SeqGene/LRG,并希望确定不同组件上的位置(或基因组对于RefSeqGene)。

巷子医学重要性解读史

ClinVar公司归档变体和表型通过添加和版本控制提交。

协会研究

数据库间隙P存档和分发研究数据,以检查表型基因型这些研究包括全基因组关联研究(GWAS)、医学测序和分子诊断分析。可以从dbGaP控制的访问记录到dbSNP中的相关变化数据进行链接,但除非聚合数据是公开的,否则dbSNP记录到dbGaP之间没有相互链接。这个参考SNP报告“Association”部分将链接到NHGRI GWAS目录和/或PheGenI公司关联数据可用时。

组织相容性

dbMHC公司提供了一个平台,用户可以在该平台上访问、提交和编辑与人类主要组织相容性复合体(也称为人类白细胞抗原(人类白细胞抗原)。

dbMHC和dbSNP都存储定义特定人类白细胞抗原等位基因。dbMHC在单倍型而dbSNP在单倍型水平上提供了对相关dbMHC记录的访问。

单元型

这个国际人类基因组单体型图计划该网站允许访问一些不同人群的统计相关变异目录,也称为单倍型,对于那些寻找与特定基因相关变异的研究人员来说是一个有用的资源。HapMap单倍型可以通过诸如参考SNP数字或基因符号,以及按序列区域或染色体区域。生成的HapMap报告包括一个表意图,其中包含可以更改以提供所需数据的各种轨迹,报告中的适当轨迹将提供到refSNP的直接链接集群记录。

变更批提交(VarBatch)

变量批处理是针对临床和非临床人类变异的在线提交资源,允许更新和注释以前提交的变异。当通过VarBatch处理断言的临床变异时,它被分配给提交的dbSNPSNP公司(ss)加入以及ClinVar加入(格式:SCV00000000.0),因为ClinVar加入代表所声称的变化/表型关系。

注释:由于VarBatch不接受频率,基因型或人口数据,将这些数据提交给dbSNP,作为对VarBatch提交的更新,使用dbSNP VCF或平面文件格式通过电子邮件或通过预先安排的文件传输协议将ss编号分配给您提交的变体后上传。

变体报告器

变体报告器将提交的变体调用数据与dbSNP或dbVAR中的变体进行匹配,从而允许访问dbSNP中任何已知匹配变体的所有数据和元数据。如果您向Variation Reporter提交新的变体,并且dbSNP或dbVAR中的数据变体之间没有匹配,则Variation Reporter将提供每个提交的变体的预测结果。

VarView(变量视图)

VarView报告显示与特定基因相关的详细变异信息,并且仅为那些声称存在临床变异的基因创建。可以通过两种方式访问VarView:

1

通过使用查询gene_snp_clin[过滤器]“以识别具有VarView报告的基因记录。

2

通过dbSNP或使用“VarView”链接图像dbSNP-Image001.jpg显示在中参考SNP报告具有临床意义的变体,或通过使用“snp_gene_clin[filter]”查询dbSNP来识别具有VarView报告的变体。

一旦选择了Gene或dbSNP记录,并且激活了记录上的VarView链接,就会出现一个VarView报告,其中包括:

  • 基因简介
  • 所有观察到的基因rs变体列表
  • 与内部和外部资源的链接,包括基因座特定数据库(LSDB),OMIM公司、基因和公共医学。

选择VarView报告中列出的rs变体之一后,报告的“提交详细信息”部分将提供与所选rs编号关联的ss编号列表,以及到提交者站点和每个ss报告的链接。

注:2014年4月,VarView将被新的变体基因查看器取代。此新资源将允许用户访问所有美国国立生物技术信息中心的变异数据(即dbSNP、dbVar、ClinVar)以基因为中心。

1000基因组浏览器

这个1000基因组浏览器提供1000个基因组数据的访问,包括GRCh37上下文中的变异、基因型和序列读取比对,参考装配1000基因组项目用于分析。该浏览器允许您配置显示,以包括多个感兴趣的数据轨迹,并提供到各种美国国立生物技术信息中心资源。1000基因组浏览器允许用户快速查看支持特定变异调用的比对,并可用于下载和读取感兴趣的小基因组区域的变异数据。

使用1000基因组浏览器链接从dbSNP访问1000基因组浏览器图像dbSNP-Image002.jpg在中参考SNP报告“集成地图”部分。

使用“临床频道”或“引用变体”曲目中的“悬停”功能从1000基因组浏览器访问dbSNP。单击显示的变体rsID。

工具书类

1
Musumeci L、Arthur JW、Cheung FS、Hoque A、Lippman S、Reichardt JK。dbSNP数据库中的单核苷酸差异(SND)可能会导致基因分型和单倍型研究中的错误。哼,变种。2010年1月;31(1):67–73.[PMC免费文章:PMC2797835] [公共医学: 19877174]
2
Sudmant PH、Kitzman JO、Antonacci F、Alkan C、Malig M、Tsalenko A、Sampas N、Bruhn L、Shendure J.1000基因组项目、Eichler EE。人类拷贝数变异和多拷贝基因的多样性。科学。2010年10月29日;330(6004):641–6.[PMC免费文章:PMC3020103] [公共医学: 21030649]
三。
Danecek P、Auton A、Abecasis G、Albers CA、Banks E、DePristo MA、Handsaker RE、Lunter G、Marth GT、Sherry ST、McVean G、Durbin R.1000基因组项目分析小组。变量调用格式和VCF工具。生物信息学。2011年8月1日;27(15):2156–8.[PMC免费文章:PMC3137218] [公共医学:21653522]

附录

附录1。dbSNP报告格式

ASN.1号

这个docsum_3.4.asn文件是的ASN结构定义文件ASN.1号位于/规格dbSNP的子目录文件传输协议现场。这个00自述文件位于主dbSNP FTP目录中,提供有关ASN.1数据结构和数据交换的信息。ASN.1文本或二进制输出可以转换为以下一种或多种格式:平面文件、,美国金融服务贸易协会、DocSum、染色体报告、RS/SS和XML格式.

注释:ASN.1号必须使用编程方式检索数据电子实用程序或使用dbSNP批处理查询服务.

浏览器可扩展数据(BED)格式由UCSC基因组生物信息学作为显示数据行的方法基因组浏览器注释轨迹。

BED格式的每一行表示一个带注释的特征,该特征使用必填字段和可选字段进行描述。dbSNP BED文件派生自dbSNP RS DocSumASN.1号(ftp://ftp.ncbi.nih.gov/snp/specs/docsum_3.4.xsd文件)并使用标准BED格式以及九个可选字段中的三个字段(name、score、strand)。

dbSNP BED格式已经质量保证经过测试,并与标准BED工具和基因组浏览器上传,如美国国立生物技术信息中心重新映射服务(http://www.ncbi.nlm.nih.gov/genome/tools/remap),UCSC基因组浏览器(https://genome.ucsc.edu/cgi-bin/hg网关)和EBI基因组浏览器(http://www.ensembl.org(英语)).

染色体报告

染色体报告格式提供了参考SNP的大致有序列表染色体坐标,并且包含关于每个变化的大量信息。由于此格式中使用的坐标系与美国国立生物技术信息中心基因组地图查看器,染色体报告包含有助于识别可用作标记的变异的信息。

染色体报告格式中提供的信息的完整描述可在00自述文件文件,位于SNP公司目录SNP FTP现场。

注释:染色体报告目录可能包含以下任何文件:

  • chr_AltOnly.txt。z: 映射到非引用的变体列表(备用)装配(例如,人类参考SNP映射到HuRef或TCAGChr7,但不映射到GRC)
  • chr_MT.txt.gz:映射到线粒体的变体列表chr_Multi.txt.gz:映射到多条染色体的变体列表
  • chr_未打开.txt.gz:未映射到任何染色体的变异列表
  • chr_PAR文本.gz:人类或类人猿X和Y染色体的假常染色体区变异列表。
  • chr_UN.txt.gz:未定位染色体上的映射变异列表

FASTA:ss和rs

这个美国金融服务贸易协会报告格式为dbSNP中的每个变化报告以及具有“无变化”报告的所有提交序列提供侧翼序列。FASTA数据格式通常用于使用爆炸.

在线的爆炸用于在美国金融服务贸易协会格式,而多个FASTA序列比较需要安装本地独立版本的BLAST,并构造本地数据库FASTA格式的数据。

中提供的信息的完整描述美国金融服务贸易协会报告格式在00自述文件文件,位于SNP公司目录SNP FTP现场。

基因报告

dbSNP基因报告是一份文本报告,它提供了当前已知位于特定基因中的所有refSNP的列表,以及每个所列变异的一般和临床信息摘要。gene_report的文件命名约定为“XXXXX_gene_rereport.txt.gz”,其中“XXXX”表示基因符号(例如LPL,脂蛋白脂肪酶的基因符号)。

gene_report格式中提供的信息的完整描述可在00通用报告格式自述位于人体内gene_report目录SNP公司 文件传输协议现场。

基因型报告

由于基因型我们从大型测序项目(例如1000个基因组)中获得的数据使得美国国立生物技术信息中心维护和查询dbSNPSQL语言表格中,我们将不再提供基因型数据或报告。

美国国立生物技术信息中心目前正在开发一种新的服务(Genotype Server),可以更有效地存储和服务基因型和频率数据使用API程序、互联网和文件传输协议。应在2014年某个时候提供。

这个基因型 XML格式,在dbSNP上FTP服务器,仍然可用,并为许多提交的SNP提供提交者和基因型信息。它组织在染色体“基因型子目录”中每个生物体目录下的特定文件(例如,人类基因型XML文件位于ftp://ftp.ncbi.nih.gov/snp/organims/human_9606基因型/). 然而,用户应该知道,基因型XML也正在逐步淘汰。

注释:截止日期美国国立生物技术信息中心的新基因服务器发布,基因型可以在这两个备选站点查询和下载数据:

1000个基因组:http://www.ncbi.nlm.nih.gov/variation/tools/1000基因组/

人类基因组单体型图:http://hapmap.ncbi.nlm.nih.gov/

rs docsum平面文件

rs docsum平面文件报告由ASN.1号数据文件,并在命名约定为“/ASN1_flat/ds_flat_chXX.flat”的文件中提供。文件生成依据染色体(文件名中为chXX),与所有大型报告转储一样。

因为平面文件报告很紧凑,所以它们提供的信息不会像ASN.1号二进制报告,但对于手动扫描人体很有用SNP公司数据,因为它们提供的详细信息一目了然。

rs-docsum平面文件格式中提供的信息的完整描述可在00readme文件中找到,该文件位于SNP公司目录SNP FTP现场。

VCF(沃尔沃汽车金融公司)

变体调用格式(VCF)是为1000基因组项目作为存储大量序列变异数据(SNP、indels、较大的结构变异等)和任何伴随数据的标准格式基因型数据和注释。

VCF文件包含一个标题部分和一个数据表部分。由于可以更改标题部分中的元数据行以适应要提交的数据的要求,因此可以使用VCF提交一个文件中包含的许多不同类型的常见变体(及其相关的基因型和注释)参考序列.VCF文件经过压缩(使用bgzip),并且易于访问。

有关VCF的简要概述,请参见Danecek等人(3)以及官方1000 Genomes网站VCF格式的详细描述向dbSNP提交的文件目前使用VCF格式版本4.1.

XML格式

这个XML格式格式提供了查询-有关的特定信息参考SNP集群,以及集群中的成员美国国立生物技术信息中心 SNP公司Exchange(NSE)格式。XML架构位于docsum_3.4.xsd文件,位于/规格dbSNP的子目录文件传输协议现场。NSE定义的可读文本形式可以在docsum_3.4.asn文件,也位于/规格dbSNP FTP站点的子目录。

注释:XML格式必须使用编程方式检索数据电子实用程序或使用dbSNP批处理查询服务.

附录2。制图规则和方法

的外观美国金融服务贸易协会-格式化基因组新生成的序列装配或新提交的重大应计项目SNP公司生物体的数据将启动一个MegaBLAST循环爆炸 对齐的变化美国国立生物技术信息中心 基因组组装生物体的。

通过重新映射放置变体

dbSNP使用序列比对将断言的位置和底层特征映射到参考序列。在构建过程中,dbSNP执行三种类型的重新映射:向上映射、向下映射和从程序集到程序集的重新映射。

向上映射

“向上映射”是指映射提交的变体,其位置基于参考序列,cDNA或蛋白质到电流基因组build和to参考SeqGene使用序列比对。

从cDNA到基因组序列的映射

如果提供的位置位于外显子,dbSNP将输入坐标直接映射到基因组通过可用的路线。如果提供的位置位于内含子dbSNP映射最接近内含子位置的外显子边界坐标,再次使用可用的比对。

从蛋白质到cDNA的映射

dbSNP将蛋白质的加入和位置以及蛋白质变异的断言位置与cDNA.这个对齐在核苷酸水平上生成多达三个可能的变异序列位置,在这里可以在蛋白质水平上识别所述的变异。

向下映射

“向下映射”是指使用基因组比对将基因组序列上的信息映射到转录序列和蛋白质的过程。

组件到组件的重新映射

装配-装配重映射允许从一个装配使用基因组比对将系统与另一个系统进行协调。dbSNP对源序列上的每个特征进行逐基分析,以便通过对齐到新序列。

BLAST的变更安置

当提交的变体的断言位置不可用时,dbSNP将尝试将变体放置在基因组通过BLASTing提交了针对基因组的变异侧翼序列装配.这个映射该过程是一个多步骤、基于计算机的过程,开始于参考SNP并提交SNP公司 美国金融服务贸易协会集合与最近的对齐基因组组装使用爆炸或MegaBLAST。每种产品的质量对齐使用路线轮廓函数确定。

这个爆炸/的MegaBLAST输出ASN.1号局部比对的二进制文件通过一种算法进行分析,以创建一组在序列上彼此靠近的局部比对。如果全球对齐大于或等于侧翼序列的预定百分比,它被认为是参考SNP或已提交SNP公司基因组组装.

然后对这组紧密的局部比对进行处理,以定义每个命中的等位基因和LOC类型,并确定命中位置。对输出进行过滤,以去除并行命中,并选择具有最大程度对齐特定的康蒂格。然后将输出放入文件并进行处理,以创建MD5公司每个变体的位置签名。然后将这些签名放置在SNP公司MAP INFO文件并加载到dbSNP中。

将前面步骤的所有结果加载到dbSNP后,dbSNP将查找集群候选。如果MD5公司特定签名SNP公司与另一个SNP的MD5签名不同,则每个SNP将具有唯一的命中模式,无需进行聚类。如果一个特定SNP的MD5签名与另一个SNP的相同,则这两个SNP可能具有相同的命中模式,如果进一步分析后发现命中模式相同,则两个SNPs将被聚集。

附录3。如何创建dbSNP的本地副本

如何创建dbSNP的本地副本

目前,dbSNP是一种关系型数据库包含数百个表。自构建125开始以来,设计dbSNP已更改为“轮辐式”模型,其中dbSNP_Main_Table充当轮辐的中心,存储数据库的所有中央表,而轮辐中的每个轮辐都是一个特定于组织的数据库,其中包含特定有机体的最新数据。dbSNP导出数据库的完整内容,供公众从dbSNP下载文件传输协议现场。然而,在dbSNP重新设计期间,我们将逐步淘汰dbSNP的关系数据库体系结构,并考虑用面向服务的体系结构(SOA)和BLOB(博客)/CLOB公司dbSNP 2.0中的存储系统。

由于安全问题和供应商认可问题,dbSNP无法向用户直接转储dbSNP。创建dbSNP的本地副本的任务可能很复杂,应该留给经验丰富的程序员完成。以下部分将指导您创建dbSNP的本地副本,但这些说明假设了解关系数据库,并且编写时没有考虑到新手。

如果在建立dbSNP的本地副本时遇到问题,请通过以下地址联系dbSNP:vog.hin.mln.ibcn@nimda-pns.

架构:dbSNP物理模型

模式是构建自己的dbSNP副本的必要部分,因为它是dbSNP的可视化表示,显示了数据之间的逻辑关系。可打印PDF格式 文件来自dbSNP文件传输协议现场。

dbSNP中的数据根据数据的性质被组织成“主题区域”。这个数据字典包括对dbSNP中的表以及列表及其属性的描述。外键在物理模型中没有强制使用,因为它们使异步加载表数据变得更加困难。未来,dbSNP将添加各个列的描述。这个数据字典也可从dbSNP网站在线获取。

创建dbSNP本地副本所需的资源

软件:

  • 关系数据库软件。如果您计划创建dbSNP的本地副本,则必须首先拥有关系数据库服务器,如Sybase、MicrosoftSQL语言服务器或Oracle。dbSNP位于美国国立生物技术信息中心在MSSQL server 2000版上运行,但有些用户已在Oracle上成功创建了dbSNP的本地副本。
  • 数据加载工具.从dbSNP加载数据文件传输协议将站点转换为数据库需要一个批量数据加载工具,该工具通常与数据库安装一起提供。此类工具的一个示例是Sybase附带的bcp(bulk-copy)实用程序,或MSSQL服务器中的“bulkinert”命令。
  • winzip/gzip解压缩文件传输协议文件夹。完成有关如何解压缩*.gz和*的说明。可以在dbSNP上找到Z文件文件传输协议现场。

硬件:

  • 计算机平台/OS

数据库可以通过互联网连接在任何PC、Mac或UNIX上维护。

  • 磁盘空间

要确定特定有机体的dbSNP完整副本所需的磁盘空间,请确定有机体的总下载文件大小作为起点。您至少需要三倍于数据文件大小的空间来创建索引和存储自己的工作表。dbSNP内部服务器上dbSNP human B137的分配大小为3TB,而鼠标B137的大小约为700GB。

  • 存储器

所需的最小内存量约为4GB.

  • Internet连接

dbSNP建议使用高速连接来下载如此大的数据库文件。

dbSNP数据位置

这个FTP数据库目录在dbSNP FTP站点中包含架构、数据和SQL语言语句创建dbSNP的表和索引:

  • 这个共享模式子目录包含模式DDL(SQL语言数据定义语言)。
  • 这个共享数据子目录包含所有生物体共享的dbSNP_main_table中的数据。
  • 这个组织_模式子目录包含指向每个特定生物体的模式DDL的链接数据库.
  • 这个组织_数据子目录包含指向存储在每个特定生物体中的数据的链接数据库。数据组织在表中,其中每个表有一个文件。文件名约定为:<tablename>.bcp.gz。的文件名约定映射表还包括dbSNP构建ID号和美国国立生物技术信息中心 基因组构建ID号。例如,B125_SNPContigLoc_35_1表示在dbSNP构建125期间,此SNPContigLoc表具有映射到NCBI的SNP康蒂格构建35版本1。数据文件的每个表行有一行。每个文件中的数据字段以制表符分隔。

dbSNP使用标准SQL语言DDL(数据定义语言)创建表、这些表的视图和索引。有许多实用程序可用于从数据库.

提示
如果防火墙阻止被动文件传输协议,您可能会收到一条错误消息:“被动模式被拒绝。关闭被动模式。没有命令的控制连接:没有这样的文件或目录。”如果发生这种情况,请尝试使用“智能”文件传输协议类似于客户端的NCFTP(在大多数UNIX机器上可用)。聪明文件传输协议客户更擅长主动/被动自动谈判文件传输协议连接比旧文件传输协议客户端(例如,Sun Solaris文件传输协议).

创建dbSNP本地副本的逐步过程

1

准备当地

(检查可用空间等)

2

下载架构文件

a。

从dbSNP下载以下文件共享​_模式子目录:dbSNP_main_table、dbSNP_main_index_contraint以及共享​_数据子目录。同时,这两个子目录中的文件将允许您为dbSNP_main_table创建表和索引。

b。

转到有机体​_模式子目录并选择要为其创建数据库。在本例中,选择了human_9606。选择human_9606后,您将被定向到人类组织模式子目录。下载此子目录中包含的所有文件。

c。

转到有机体​_数据子目录,然后选择要为其创建数据库。在本例中,选择了human_9606。选择human_9606后,您将被定向到人类有机体数据子目录。下载此子目录中包含的所有文件。

除了任何特定于生物体的内容外,用户必须始终下载位于shared_schema和shared_data子目录的最新版本中的文件。

将所有文件保存在本地目录中并解压缩。

提示:
在UNIX操作系统上,使用gunzip解压缩文件:dbSNP_main_table和dbSNP_main_index_constraint。
上的文件SNP公司 文件传输协议站点是UNIX文件。UNIX、MS-DOS和Macintosh文本文件使用不同的字符表示新行。在使用bcp之前,为您的系统加载适当的新行转换程序。

三。

创建dbSNP_main_table

a。

共享​_模式子目录中,使用dbSNP_main_table文件创建表,并使用dbSNP_main_index_constraint文件为dbSNP主目录创建索引数据库.

b。

加载位于共享​_数据您刚才使用的数据加载工具创建的dbSNP_main_table的子目录数据库服务器(例如,用于Sybase的bcp)。请参阅示例文件传输协议协议和Unix C Shell脚本示例(如下)以获取指导。

c。

通过打开dbSNP_main_index_constraint.sql文件创建索引。如果您正在使用数据库提供isql实用程序的服务器,然后使用以下命令:

isql-S<服务器名称>-U用户名-P密码-i dbSNP_main_index_contraint.sql

提示:
通过将字段分隔符设置为“tab”,可以将shared_data和organism_data子目录中的“.bcp”文件加载到大多数电子表格程序中。

4

创造有机体特异性数据库
创建dbSNP_main_table后,使用特定有机体的organim_schema和organim_data子目录中的文件创建有机体特定的数据库。在本例中,将使用Human_9606:

a。

创建human_9606数据库使用human 9606中的以下文件有机体​_模式:human_9606_table.sql.gz、human_966_view.sql.gz、human _9606_index_containt.sql.gz、,
和human_9606_foreign_key.sql.gz

b。

加载位于共享​_数据human9606的子目录数据库您刚刚使用数据库服务器的数据加载工具(例如,用于Sybase的bcp)创建了。请参阅示例文件传输协议协议和示例Unix C shell脚本(如下)以获取指导。

提示:
使用“ftp-i”在多个文件传输期间关闭交互式提示,以避免数百次点击“是”确认传输。
提示:
使用bcp命令选项时避免事务日志溢出
(在Sybase和SQL语言服务器),使用
命令选项:-b行数。例如,命令选项-b 10000将导致每10000行提交一次表。

5

样品文件传输协议加载协议

a。

键入ftp-i ftp.ncbi.nih.gov(使用“匿名”作为用户名,使用电子邮件作为密码)。

b。

类型:cd snp/数据库

c。

要获取共享表和共享数据的dbSNP_main:键入ls查看您是否在包含正确文件的目录中。然后键入“cd shared_schema”以获得dbSNP_main的模式文件,最后键入“cd shared_data”以获取dbSNP_main的数据。

d。

键入binary(设置二进制传输模式)。

e、。

键入mget*.gz(以启动传输)。根据连接速度的不同,这可能需要数小时,因为总传输大小为千兆字节,并且还在增长。

f、。

要解压缩*.gz文件,请键入gunzip*.gz。(目前,未压缩bcp文件的总大小超过10GB(英国)).

6

使用脚本自动加载数据。

a。

位于加载脚本dbSNP的子目录文件传输协议站点上,有一个名为cmd.create_local_dbSNP.txt的文件,它提供了一个示例UNIX C shell脚本,用于创建dbSNP_main的本地副本和特定有机体的本地副本数据库使用sharedschema和organismschema子目录中的文件。

b。

也在加载脚本dbSNP的子目录文件传输协议站点中,有一个名为cmd.bulkinsert.txt的文件,它提供了一个示例UNIX C shell脚本,用于加载包含shared_data和organizm_data子目录中文件的表。

7

数据完整性(创建dbSNP的部分本地副本)

dbSNP是一个关系型数据库。每个表都有唯一索引或主键。外键没有加强。这种方法有优点也有缺点。这种方法的优点是很容易使用dbSNP_main_table删除和重新创建表,从而可以创建dbSNP的部分本地副本。例如,如果您只对提交的原件感兴趣SNP公司和它们的种群频率,而不是在它们的地图位置上美国国立生物技术信息中心 基因组contigs或GenBank Accession数字(都是巨大的表),则可以跳过这些表(即SNPContigLoc和MapLink)。请记住映射SNPContigLoc等表的文件名中将包含构建ID前缀和后缀。(例如,SNP构建125和NCBI的SNPContigLoc将为b125_SNPContigLoc_35_1康蒂格构建35版本1)。当然,要为特定的查询需要理解每个表的内容和dbSNP实体关系(ER)图。非增强引用的缺点是,需要编写存储过程或外部代码来确保引用的完整性。

意见

最近的活动

您的浏览活动为空。

活动录制已关闭。

重新打开录制

查看更多。。。