范围
医学遗传学
基因组定位
分子和功能后果
协会研究
历史
创造与成长
提交内容的演变
使用演变
数据模型
提交的内容
序列上下文
断言的位置
侧翼序列
等位基因
方法
断言巷子起源
人口
样本大小
特定人群的等位基因频率
群体特异性基因型频率
计算内容
1 自上次构建RefSNP(rs)以来提交的集群变体(ss)。 2 三。 合并共定位 参考SNP 集群(如果合适)。 4 标记可疑的假阳性变体(参见“ 可疑变更 “有关假阳性选择的更多信息,请参阅本章第节)。 5 计算映射变量的功能上下文。 6 计算次要 等位基因频率 以及平均杂合度和标准误差。 7 计算到其他相关的链接 美国国立生物技术信息中心 资源,如Gene、PubMed和 参考序列 用于RefSNP群集。 8 将所有聚集变体映射到 参考序列 序列。
数据流
新提交文件和新构建的开始
提交的SNP和参考SNP集群
基因组序列的映射
refSNP聚类和refSNP定向
重新映射、refSNP合并和refSNP拆分
重新映射和引用SNP合并
refSNP拆分
RefSNP编号稳定性
|
可疑变更
分子类别
临床断言
种群多样性数据
平均杂合度
构建集成
dbSNP重新设计:对集群的更改
访问
dbSNP主页
单个记录查询
复杂条目查询
dbSNP批处理查询
变体报告器
爆炸
SNP提交信息查询
与提交者相关的信息 有关包含兴趣变化的已提交批次的信息 与提交人口相关的信息 与报告变体的出版物相关的信息
通过ClinVar、Gene或PubMed搜索
Entrez编程实用程序(Eutils)
dbSNP FTP站点
VCF格式
BED格式
ADA第508-节合规链接
相关工具和研究
将一个部件或序列上的位置转换为另一个
协会研究
组织相容性
单元型
与引文、基因、表型和其他NCBI数据库相关的变异
变更批提交(VarBatch)
变体报告器
VarView(变量视图)
1 通过使用 查询 “ gene_snp_clin[过滤器] “以识别具有VarView报告的基因记录。 2 通过dbSNP或使用“VarView”链接 显示在中 参考SNP 报告具有临床意义的变体,或通过使用“snp_gene_clin[filter]”查询dbSNP来识别具有VarView报告的变体。
基因简介 所有观察到的基因rs变体列表
1000基因组浏览器
工具书类
1 Musumeci L、Arthur JW、Cheung FS、Hoque A、Lippman S、Reichardt JK。 dbSNP数据库中的单核苷酸差异(SND)可能会导致基因分型和单倍型研究中的错误。 哼,变种。 2010年1月; 31 (1):67–73. [ PMC免费文章 :PMC2797835 ] [ 公共医学 : 19877174 ] 2 Sudmant PH、Kitzman JO、Antonacci F、Alkan C、Malig M、Tsalenko A、Sampas N、Bruhn L、Shendure J.1000基因组项目、Eichler EE。人类拷贝数变异和多拷贝基因的多样性。 科学。 2010年10月29日; 330 (6004):641–6. [ PMC免费文章 :PMC3020103 ] [ 公共医学 : 21030649 ] 三。 Danecek P、Auton A、Abecasis G、Albers CA、Banks E、DePristo MA、Handsaker RE、Lunter G、Marth GT、Sherry ST、McVean G、Durbin R.1000基因组项目分析小组。 变量调用格式和VCF工具。 生物信息学。 2011年8月1日; 27 (15):2156–8. [ PMC免费文章 :PMC3137218 ] [ 公共医学 :21653522 ]
附录
附录1。 dbSNP报告格式
ASN.1号
床
染色体报告
chr_MT.txt.gz :映射到线粒体的变体列表chr_Multi.txt.gz:映射到多条染色体的变体列表 chr_未打开.txt.gz :未映射到任何染色体的变异列表 chr_PAR文本.gz :人类或类人猿X和Y染色体的假常染色体区变异列表。 chr_UN.txt.gz :未定位染色体上的映射变异列表
FASTA:ss和rs
基因报告
基因型报告
rs docsum平面文件
VCF(沃尔沃汽车金融公司)
XML格式
附录2。 制图规则和方法
通过重新映射放置变体
向下映射
BLAST的变更安置
附录3。 如何创建dbSNP的本地副本
关系 数据库 软件 。如果您计划创建dbSNP的本地副本,则必须首先拥有关系数据库服务器,如Sybase、Microsoft SQL语言 服务器或Oracle。 dbSNP位于 美国国立生物技术信息中心 在MSSQL server 2000版上运行,但有些用户已在Oracle上成功创建了dbSNP的本地副本。
计算机平台/OS
磁盘空间
存储器
Internet连接
1 准备当地 (检查可用空间等) 2 下载架构文件 a。 从dbSNP下载以下文件 共享 _ 模式 子目录:dbSNP_main_table、dbSNP_main_index_contraint以及 共享 _ 数据 子目录。 同时,这两个子目录中的文件将允许您为dbSNP_main_table创建表和索引。 b。 转到 有机体 _ 模式 子目录并选择要为其创建 数据库 。在本例中,选择了human_9606。 选择human_9606后,您将被定向到 人类组织模式 子目录。 下载此子目录中包含的所有文件。 c。 转到 有机体 _ 数据 子目录,然后选择要为其创建 数据库 。在本例中,选择了human_9606。 选择human_9606后,您将被定向到 人类有机体数据 子目录。 下载此子目录中包含的所有文件。 除了任何特定于生物体的内容外,用户必须始终下载位于shared_schema和shared_data子目录的最新版本中的文件。 将所有文件保存在本地目录中并解压缩。
三。 创建dbSNP_main_table a。 从 共享 _ 模式 子目录中,使用dbSNP_main_table文件创建表,并使用dbSNP_main_index_constraint文件为dbSNP主目录创建索引 数据库 . b。 加载位于 共享 _ 数据 您刚才使用的数据加载工具创建的dbSNP_main_table的子目录 数据库 服务器(例如,用于Sybase的bcp)。 请参阅示例 文件传输协议 协议和Unix C Shell脚本示例(如下)以获取指导。 c。 通过打开dbSNP_main_index_constraint.sql文件创建索引。 如果您正在使用 数据库 提供isql实用程序的服务器,然后使用以下命令: isql-S<服务器名称>-U用户名-P密码-i dbSNP_main_index_contraint.sql 提示 : 通过将字段分隔符设置为“tab”,可以将shared_data和organism_data子目录中的“.bcp”文件加载到大多数电子表格程序中。
4 创造有机体特异性 数据库 创建dbSNP_main_table后,使用特定有机体的organim_schema和organim_data子目录中的文件创建有机体特定的数据库。 在本例中,将使用Human_9606: a。 创建human_9606 数据库 使用human 9606中的以下文件 有机体 _ 模式 :human_9606_table.sql.gz、human_966_view.sql.gz、human _9606_index_containt.sql.gz、, 和human_9606_foreign_key.sql.gz b。 加载位于 共享 _ 数据 human9606的子目录 数据库 您刚刚使用数据库服务器的数据加载工具(例如,用于Sybase的bcp)创建了。 请参阅示例 文件传输协议 协议和示例Unix C shell脚本(如下)以获取指导。 提示 : 使用“ftp-i”在多个文件传输期间关闭交互式提示,以避免数百次点击“是”确认传输。 提示 : 使用bcp命令选项时避免事务日志溢出 (在Sybase和 SQL语言 服务器),使用 命令选项:-b行数。 例如,命令选项-b 10000将导致每10000行提交一次表。
5 样品 文件传输协议 加载协议 a。 键入ftp-i ftp.ncbi.nih.gov(使用“匿名”作为用户名,使用电子邮件作为密码)。 b。 类型:cd snp/ 数据库 c。 要获取共享表和共享数据的dbSNP_main:键入ls查看您是否在包含正确文件的目录中。 然后键入“cd shared_schema”以获得dbSNP_main的模式文件,最后键入“cd shared_data”以获取dbSNP_main的数据。 d。 键入binary(设置二进制传输模式)。 e、。 键入mget*.gz(以启动传输)。 根据连接速度的不同,这可能需要数小时,因为总传输大小为千兆字节,并且还在增长。 f、。 要解压缩*.gz文件,请键入gunzip*.gz。 (目前,未压缩bcp文件的总大小超过10 GB(英国) ).
6 使用脚本自动加载数据。 7 数据完整性(创建dbSNP的部分本地副本) dbSNP是一个关系型 数据库 。每个表都有唯一索引或主键。 外键没有加强。 这种方法有优点也有缺点。 这种方法的优点是很容易使用dbSNP_main_table删除和重新创建表,从而可以创建dbSNP的部分本地副本。 例如,如果您只对提交的原件感兴趣 SNP公司 和它们的种群频率,而不是在它们的地图位置上 美国国立生物技术信息中心 基因组 contigs或GenBank Accession数字(都是巨大的表),则可以跳过这些表(即SNPContigLoc和MapLink)。 请记住 映射 SNPContigLoc等表的文件名中将包含构建ID前缀和后缀。 (例如,SNP构建125和NCBI的SNPContigLoc将为b125_SNPContigLoc_35_1 康蒂格 构建35版本1)。 当然,要为特定的 查询 需要理解每个表的内容和dbSNP实体关系(ER)图。 非增强引用的缺点是,需要编写存储过程或外部代码来确保引用的完整性。