ftp站点或通过电子工具访问的文件使用指南
背景
另请参阅我们的简介页
ClinVar数据库:
- 归档每个提交的分类及其支持证据,并以SCV开头的登录号
- 通过变量/条件组合和以RCV开头的登录号记录的档案汇总数据
- 按变型和以VCV开头的登录号记录的档案聚合数据
- 将数据库标识符、HGVS表达式和多个程序集上的位置等信息添加到VCV和RCV记录中
每个月的第一个星期四,ClinVar的完整数据集以XML文件的形式发布到FTP站点,这些XML文件由变量(VCV记录)或变量条件(RCV记录)聚合而成。这些文件将无限期存档。
XML文件每周也会在周一发布到FTP站点。这些文件只保留到下一个月发布为止。
VCV文件
- https://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/ClinVarVCVRelease_00-latest.xml.gz
- https://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/VCV_xml_old_format/ClinVarVariationRelease_00-latest.xml.gz
- 这是旧的XML格式;它将在2024年逐步淘汰,但至少保留到3月底
VCV版本中的每个记录(VariationArchive元素)表示VCV数据的聚合。
- 每个提交的记录(SCV)都由一个ClinicalAssertion元素表示。
- 在每个临床评估要素中,提交分类的证据以ObservedIn要素表示。
RCV文件
- https://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/RCV_release/ClinVarRCVRelease_00-latest.xml.gz
- https://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/RCV_xml_old_format/ClinVarFullRelease_00-latest.xml.gz
- 这是旧的XML格式;它将于2024年逐步淘汰,但至少要保留到3月底
RCV版本中的每个记录(ClinVarSet元素)都包含一个ReferenceClinVar Assertion元素,该元素表示RCV数据聚合。
- 每个提交的记录(SCV)都由ClinVarAssertion元素表示。
- 在每个ClinVarAssertion中,提交分类的证据以ObservedIn元素表示。
ClinVar中表示的变体的定义
变体和变体集
ClinVar中的绝大多数分类是针对单个变体的。有些情况下,分类是针对一组变体,如单倍型或基因型。因此,ClinVar中的所有变体都被视为变体集,即使大多数变体集只有一个成员。
ClinVar变体ID表示变体集;ClinVar等位基因ID表示集合中的每个单独变体。阅读ClinVar中标识符的更多信息。
变体的基因组坐标
ClinVar计算偏移量为1的变量的位置。请注意,XML(SequenceLocation元素)和制表符分隔文件中报告位置的约定与HGVS命名法一致(即右移),而VCF文件中的位置符合VCF标准(即左移)。换句话说:
- 对于不在重复区域的单核苷酸变体,基于VCF或HGVS的位置与核苷酸位置相匹配
- 对于重复区的插入、重复和缺失,左对齐(VCF)和右对齐(HGVS)的不同约定会使文件中等位基因位置的定义看起来不一致
无基因组坐标的变体
ClinVar中的少量记录报告了尚未映射到基因组坐标的变体。这有几个原因,按频率降序排列如下。
- ClinVar代表OMIM处理等位基因变体记录,直到最近,大多数等位基因变异体记录都不包含变异体的可计算序列定义。ClinVar没有资源来研究所有这些来定义变体,但我们的员工试图减少差距的数量。
- 变异最初是根据cDNA分析确定的,没有证据表明序列改变的基因组基础。一个例子是外显子缺失,没有证据表明基因组缺失或单核苷酸变化会影响剪接连接。
- 未验证序列定义而接受非OMIM来源的提交。这些记录很旧;ClinVar不再接受无法映射到基因组的变体。
- 数据库维护错误
XML文件
VCV XML
在每个变体档案/分类记录中,分类的变体或变体集由以下元素之一表示:
- SimpleAllele–用于单个变体的分类;ClinVar中的大多数记录都是针对单个变体的
- 单倍型——用于单倍型的分类;这不常见
- 基因型——用于基因型的分类,复合杂合子或二倍体;这不常见
在单倍型和基因型元件中,集合中的每个单个等位基因都由一个SimpleAllele元件表示。
RCV XML
路径//ReferenceClinVarAssertion/MeasureSet包含ClinVar积累的关于任何已分类变体或变体集的所有数据。大多数集合包含单个变量。
集合中的每个单个等位基因都在路径//ReferenceClinVarAssertion/MeasureSet/Measure中描述。
由于RCV记录代表一个变量/条件对,因此可以在多个RCV中报告相同的/MeasureSet。每个实例将具有相同的ID值。要查找变体的所有数据,我们建议改用VCV XML。
差异_摘要
以tab分隔的文件variant_summary.txt代表ClinVar中在基因组上有位置的所有变体。但是,该文件仅包含有关每个变量的选定元数据。此文件中的位置与HGVS表达式一致。该文件将于本月第一个星期四发布。
Entrez文件摘要
ClinVar数据可以通过以下方式访问电子工具、Entrez的编程工具.ClinVar的文档摘要由esummary命令访问,其结构围绕变体ID。
有关从esummary请求生成的xml的注释示例,请参阅
这些报告中的位置与HGVS的表达一致。
XML和JSON格式的当前视图:
http://eutils.ncbi.nlm.nih.gov/enterz/eutils/esummary.fcgi?db=clinvar&id=9&retmode=json
http://eutils.ncbi.nlm.nih.gov/enterz/eutils/esummary.fcgi?db=clinvar&id=9/retmode=XML
http://eutils.ncbi.nlm.nih.gov/enterz/eutils/esummary.fcgi?db=clinvar&id=1904&retmode=json
http://eutils.ncbi.nlm.nih.gov/enterz/eutils/esummary.fcgi?db=clinvar&id=1904&retmode=xml
VCF(沃尔沃汽车金融公司)
ClinVar的VCF文件包括长度小于10 kb的简单等位基因(非单倍型或基因型)变体,其精确终点映射到GRCh37或GRCh38人类基因组组合。其他变体不在范围内,包括细胞遗传学变体、具有内部和/或外部启动和停止坐标的拷贝数变体,以及大于10 kb的变体。
目录
GRCh37/hg19:https://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/
GRCh38/hg38:https://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/
查找变量的数据
无论条件如何,变量聚合的数据都可以在以下位置访问:
- VCV XML文件(见上文)
- VCV网页
- VCF文件(见上文)
- 通过esearch访问的Entrez文档摘要(参见上文)
- 以tab分隔的文件variantsummary.txt(参见上文)
查找变量和特定条件的数据
方差条件对聚合的数据只能在RCV XML中访问(见上文)。
根据个人评估或功能数据寻找证据
一些提交文件包括对测试个体或功能数据的详细描述,作为对变体的观察。此数据仅在ObservedIn元素下的ClinVar XML文件中表示。
例如,在个体中观察到的表型表示为/ObservedIn/TraitSet。
交叉引用摘要
tab-delimited目录中的两个文件报告ClinVar的AlleleID和VariationID以及其他数据库之间的交叉引用。
- 变量转换.txt(https://ftp.ncbi.nlm.nih.gov/pub/clinvar/tab_delimited/var_cations.txt%20)报告PubMed标识符以及来自dbSNP和dbVar的ID。
- 交叉引用.txt提供dbSNP和dbVar的标识符,以及上次修改它们的时间。