美国国旗

美国政府的官方网站

ftp站点或通过电子工具访问的文件使用指南

背景

另请参阅我们的简介页

ClinVar数据库:

  • 归档每个提交的分类及其支持证据,并以SCV开头的登录号
  • 通过变量/条件组合和以RCV开头的登录号记录的档案汇总数据
  • 按变型和以VCV开头的登录号记录的档案聚合数据
  • 将数据库标识符、HGVS表达式和多个程序集上的位置等信息添加到VCV和RCV记录中

每个月的第一个星期四,ClinVar的完整数据集以XML文件的形式发布到FTP站点,这些XML文件由变量(VCV记录)或变量条件(RCV记录)聚合而成。这些文件将无限期存档。

XML文件每周也会在周一发布到FTP站点。这些文件只保留到下一个月发布为止。

VCV文件

  • https://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/ClinVarVCVRelease_00-latest.xml.gz
    • 这是2024年1月引入的新XML格式
  • https://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/VCV_xml_old_format/ClinVarVariationRelease_00-latest.xml.gz
    • 这是旧的XML格式;它将在2024年逐步淘汰,但至少保留到3月底

VCV版本中的每个记录(VariationArchive元素)表示VCV数据的聚合。

  • 每个提交的记录(SCV)都由一个ClinicalAssertion元素表示。
  • 在每个临床评估要素中,提交分类的证据以ObservedIn要素表示。

RCV文件

  • https://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/RCV_release/ClinVarRCVRelease_00-latest.xml.gz
    • 这是2024年1月引入的新XML格式
  • https://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/RCV_xml_old_format/ClinVarFullRelease_00-latest.xml.gz
    • 这是旧的XML格式;它将于2024年逐步淘汰,但至少要保留到3月底

RCV版本中的每个记录(ClinVarSet元素)都包含一个ReferenceClinVar Assertion元素,该元素表示RCV数据聚合。

  • 每个提交的记录(SCV)都由ClinVarAssertion元素表示。
  • 在每个ClinVarAssertion中,提交分类的证据以ObservedIn元素表示。

ClinVar中表示的变体的定义

变体和变体集

ClinVar中的绝大多数分类是针对单个变体的。有些情况下,分类是针对一组变体,如单倍型或基因型。因此,ClinVar中的所有变体都被视为变体集,即使大多数变体集只有一个成员。

ClinVar变体ID表示变体集;ClinVar等位基因ID表示集合中的每个单独变体。阅读ClinVar中标识符的更多信息。

变体的基因组坐标

ClinVar计算偏移量为1的变量的位置。请注意,XML(SequenceLocation元素)和制表符分隔文件中报告位置的约定与HGVS命名法一致(即右移),而VCF文件中的位置符合VCF标准(即左移)。换句话说:

  • 对于不在重复区域的单核苷酸变体,基于VCF或HGVS的位置与核苷酸位置相匹配
  • 对于重复区的插入、重复和缺失,左对齐(VCF)和右对齐(HGVS)的不同约定会使文件中等位基因位置的定义看起来不一致

无基因组坐标的变体

ClinVar中的少量记录报告了尚未映射到基因组坐标的变体。这有几个原因,按频率降序排列如下。

  • ClinVar代表OMIM处理等位基因变体记录,直到最近,大多数等位基因变异体记录都不包含变异体的可计算序列定义。ClinVar没有资源来研究所有这些来定义变体,但我们的员工试图减少差距的数量。
  • 变异最初是根据cDNA分析确定的,没有证据表明序列改变的基因组基础。一个例子是外显子缺失,没有证据表明基因组缺失或单核苷酸变化会影响剪接连接。
  • 未验证序列定义而接受非OMIM来源的提交。这些记录很旧;ClinVar不再接受无法映射到基因组的变体。
  • 数据库维护错误

XML文件

VCV XML

在每个变体档案/分类记录中,分类的变体或变体集由以下元素之一表示:

  • SimpleAllele–用于单个变体的分类;ClinVar中的大多数记录都是针对单个变体的
  • 单倍型——用于单倍型的分类;这不常见
  • 基因型——用于基因型的分类,复合杂合子或二倍体;这不常见

在单倍型和基因型元件中,集合中的每个单个等位基因都由一个SimpleAllele元件表示。

RCV XML

路径//ReferenceClinVarAssertion/MeasureSet包含ClinVar积累的关于任何已分类变体或变体集的所有数据。大多数集合包含单个变量。

集合中的每个单个等位基因都在路径//ReferenceClinVarAssertion/MeasureSet/Measure中描述。

由于RCV记录代表一个变量/条件对,因此可以在多个RCV中报告相同的/MeasureSet。每个实例将具有相同的ID值。要查找变体的所有数据,我们建议改用VCV XML。

差异_摘要

以tab分隔的文件variant_summary.txt代表ClinVar中在基因组上有位置的所有变体。但是,该文件仅包含有关每个变量的选定元数据。此文件中的位置与HGVS表达式一致。该文件将于本月第一个星期四发布。

Entrez文件摘要

ClinVar数据可以通过以下方式访问电子工具、Entrez的编程工具.ClinVar的文档摘要由esummary命令访问,其结构围绕变体ID。

有关从esummary请求生成的xml的注释示例,请参阅

这些报告中的位置与HGVS的表达一致。

XML和JSON格式的当前视图:

http://eutils.ncbi.nlm.nih.gov/enterz/eutils/esummary.fcgi?db=clinvar&id=9&retmode=json

http://eutils.ncbi.nlm.nih.gov/enterz/eutils/esummary.fcgi?db=clinvar&id=9/retmode=XML

http://eutils.ncbi.nlm.nih.gov/enterz/eutils/esummary.fcgi?db=clinvar&id=1904&retmode=json

http://eutils.ncbi.nlm.nih.gov/enterz/eutils/esummary.fcgi?db=clinvar&id=1904&retmode=xml

VCF(沃尔沃汽车金融公司)

ClinVar的VCF文件包括长度小于10 kb的简单等位基因(非单倍型或基因型)变体,其精确终点映射到GRCh37或GRCh38人类基因组组合。其他变体不在范围内,包括细胞遗传学变体、具有内部和/或外部启动和停止坐标的拷贝数变体,以及大于10 kb的变体。

目录

GRCh37/hg19:https://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/

GRCh38/hg38:https://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/

查找变量的数据

无论条件如何,变量聚合的数据都可以在以下位置访问:

  • VCV XML文件(见上文)
  • VCV网页
  • VCF文件(见上文)
  • 通过esearch访问的Entrez文档摘要(参见上文)
  • 以tab分隔的文件variantsummary.txt(参见上文)

查找变量和特定条件的数据

方差条件对聚合的数据只能在RCV XML中访问(见上文)。

根据个人评估或功能数据寻找证据

一些提交文件包括对测试个体或功能数据的详细描述,作为对变体的观察。此数据仅在ObservedIn元素下的ClinVar XML文件中表示。

例如,在个体中观察到的表型表示为/ObservedIn/TraitSet。

交叉引用摘要

tab-delimited目录中的两个文件报告ClinVar的AlleleID和VariationID以及其他数据库之间的交叉引用。

  • 变量转换.txt(https://ftp.ncbi.nlm.nih.gov/pub/clinvar/tab_delimited/var_cations.txt%20)报告PubMed标识符以及来自dbSNP和dbVar的ID。
  • 交叉引用.txt提供dbSNP和dbVar的标识符,以及上次修改它们的时间。

上次更新时间:2024-01-28T15:59:40Z