VCF(变量调用格式)版本4.0

请参阅VCF_4.0秒用于1000基因组项目采用的以VCF 4.0格式编码结构变异的约定和扩展。此外,请注意,VCF 4.0不再是当前的VCF规范。有关VCF格式的其他信息可用.

0.示例

VCF是一种文本文件格式(很可能以压缩方式存储)。它包含元信息行、标题行,然后是数据行,每一行都包含基因组中某个位置的信息。

可以选择是否在每个位置的样本上包含基因型信息。

例子:

##文件格式=VCFv4.0##文件日期=20090805##源=myImputationProgramV3.1##参考=1000GenomesPilot-NCBI36##相位=部分##INFO=<ID=NS,Number=1,Type=Integer,Description=“带数据的样本数”>##INFO=<ID=DP,Number=1,Type=Integer,Description=“总深度”>##信息=<ID=AF,编号=。,类型=浮动,Description=“Allele Frequency”>##INFO=<ID=AA,Number=1,Type=String,Description=“祖先通道”>##INFO=<ID=DB,Number=0,Type=Flag,Description=“dbSNP成员,build 129”>##INFO=<ID=H2,Number=0,Type=Flag,Description=“HapMap2成员资格”>##FILTER=<ID=q10,Description=“质量低于10”>##FILTER=<ID=s50,Description=“少于50%的样本有数据”>##FORMAT=<ID=GT,Number=1,Type=String,Description=“Genotype”>##FORMAT=<ID=GQ,Number=1,Type=Integer,Description=“基因型质量”>##FORMAT=<ID=DP,Number=1,Type=Integer,Description=“读取深度”>##FORMAT=<ID=HQ,Number=2,Type=Integer,Description=“单体型质量”>#色度位置ID参考ALT质量过滤器信息格式NA00001 NA00002 NA0000320 14370 rs6054257 G A 29焊道NS=3;DP=14;AF=0.5;数据库;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:。,。20     17330   .         T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0 | 0:49:3:58,50 0 | 1:3:5:65,3 0/0:41:320 1110696 rs6040355 A G,T 67通道NS=2;DP=10;AF=0.33,0.667;AA=T;DB GT:GQ:DP:HQ 1 | 2:21:6:23,27 2 | 1:2:0:18,2 2/2:35:420     1230237 .         T、。47道NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:220 1234567 microsat1 GTCT G,GTACT 50 PASS NS=3;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3

这个例子依次显示了一个好的简单SNP,一个可能的SNP,因为其质量低于10而被过滤掉,一个被称为两个替代等位基因的位点,其中一个(T)是祖先的(可能是参考测序错误),一个被称为单态参考的位点(即没有替代等位基因),和一个具有两个替代等位基因的微卫星,一个是3个碱基的缺失(TCT),另一个是一个碱基(a)的插入。给出了三个样本的基因型数据,其中两个为阶段性样本,第三个为非阶段性样本。给出了每个样本的基因类型质量、深度和单倍型质量(后者仅适用于阶段性样本)以及基因型。微卫星呼叫是非相位的。

1.超信息线

文件元信息包含在##字符串之后,通常是键=值对。

“fileformat”字段始终是必需的,应详细说明VCF格式版本号。例如,对于VCF版本4.0,此行应为:

##文件格式=VCFv4.0

强烈建议在元信息部分包含描述VCF文件正文中使用的INFO、FILTER和FORMAT条目的信息行。尽管它们是可选的,但如果存在这些行,那么它们必须完全格式良好。

INFO字段应描述如下(需要所有键):

##信息=<ID=身份证件,编号=,类型=类型,说明=“描述”>

INFO字段的可能类型有:整数、浮点、标志、字符和字符串。

Number条目是一个Integer,描述可以包含在INFO字段中的值的数量。例如,如果INFO字段包含单个数字,则该值应为1。但是,如果INFO字段描述了一对数字,则该值应为2,以此类推。如果可能的值的数量变化、未知或无界,则该数值应为“.”。可能的类型有:Integer、Float、Character、String和Flag。“Flag”类型表示INFO字段不包含Value条目,因此在本例中,Number应为0。Description值必须用双引号括起来。

应用于数据的过滤器应描述如下:

##过滤器=<ID=身份证件,说明=“描述”>

同样,FORMAT字段中指定的基因型字段应描述如下:

##格式=<ID=身份证件,编号=,类型=类型,说明=“描述”>

FORMAT字段的可能类型有:整数、浮点、字符和字符串。

2.标题行语法

标题行命名了8个固定的必填列。这些列如下:

  1. #彩色
  2. 销售时点情报系统
  3. 身份证件
  4. 裁判
  5. 中高音
  6. 质量
  7. 过滤器
  8. 信息

如果文件中存在基因型数据,则后面是FORMAT列标题,然后是任意数量的样本ID。标题行以制表符分隔。

3.数据线

固定字段

每个记录有8个固定字段。所有数据行均以制表符分隔。在所有情况下,缺少的值都用点(“.”)指定。固定字段包括:

  1. 染色体:参考基因组的标识符。特定CHROM的所有条目应在VCF文件中形成一个连续的块。(字母数字字符串,必需)
  2. POS位置:参考位置,第一个底座具有位置1。位置在每个参考序列CHROM内按递增顺序进行数字排序。(整数,必需)
  3. ID分号分隔的唯一标识符列表(如果可用)。如果这是dbSNP变体,则鼓励使用rs编号。多个数据记录中不应存在标识符。如果没有可用的标识符,则应使用缺少的值。(字母数字字符串)
  4. REF参考基数:每个基数必须是A、C、G、T、N中的一个。基数应大写。允许使用多个底座。POS字段中的值是指字符串中第一个基数的位置。对于InDel,引用字符串必须包括事件之前的基数(必须反映在POS字段)。(字符串,必需)。
  5. 在至少一个样本上调用的交替非参考等位基因的ALT逗号分隔列表。选项是由基A、C、G、T、N或角支ID字符串组成的基本字符串(“<ID>”). 如果没有替代等位基因,则应使用缺失值。基数应为大写。(字母数字字符串;ID字符串本身不允许有空格、逗号或尖括号)
  6. QUAL对ALT中的断言进行质量评分,即给出-10log_10 prob(ALT调用错误)。如果ALT为“”(无变量)则为-10log_10 p(变量),如果ALT不是“”这是-10log10p(无变量)。QUAL分数高表示通话的可信度高。虽然传统上人们使用整数分,但如果需要,此字段可以作为浮点,以便为低置信度调用提供更高的分辨率。(数字)
  7. FILTER筛选器:如果此位置已通过所有筛选器,即在此位置进行调用,则为PASS。否则,如果站点没有通过所有筛选器,则会出现一个以分号分隔的失败筛选器代码列表。例如,“q10;s50”可能表示该站点的质量低于10,并且具有数据的样本数量低于样本总数的50%。“0”是保留的,不应用作筛选器字符串。如果尚未应用筛选器,则应将此字段设置为缺少的值。(字母数字字符串)
  8. INFO附加信息:(字母数字字符串)INFO字段编码为一系列分号分隔的短键,具有可选值,格式为:<key>=<data>[,data]。尽管保留了以下子字段(尽管可选),但允许使用任意键:
    • AA祖先等位基因
    • 基因型中每个ALT等位基因的AC等位基因计数顺序与所列顺序相同
    • 每个ALT等位基因的AF等位基因频率与所列顺序相同:根据原始数据估算时使用此值,不称为基因型
    • 已知基因型中的等位基因总数
    • 此位置的BQ RMS基本质量
    • 描述如何将替代等位基因与参考等位基因对齐的雪茄串
    • DB dbSNP成员资格
    • 样品的DP组合深度,例如DP=154
    • 本记录中描述的变型的结束位置(尤其是CNV)
    • hapmap2中的H2成员
    • MQ RMS映射质量,例如MQ=52
    • MQ0覆盖此记录的MAPQ读取数==0
    • NS带数据的样本数
    • 此位置的SB股偏压
    • SOMATIC表明该记录是癌症基因组的体细胞突变
    • 通过后续实验验证

等。应在元信息中指定每个INFO子字段的确切格式(如上所述)。

INFO字段示例:DP=154;MQ=52;H2.允许使用没有相应值的键来表示组成员身份(例如,H2表示在HapMap 2中找到SNP)。没有必要列出站点没有的所有属性,例如H2=0。

基因型字段

如果存在基因型信息,那么所有样本都必须存在相同类型的数据。首先给出一个FORMAT字段,指定数据类型和顺序。后面是每个样本一个字段,该字段中以冒号分隔的数据与格式中指定的类型相对应。第一个子字段必须始终是基因型(GT)。

与INFO字段一样,有几个常见的保留关键字是整个社区的标准:

如果缺少任何字段,则将其替换为缺少的值。例如,如果格式为GT:GQ:DP:HQ,则为A|A:。:23:23,34表示GQ缺失。尾部字段可以删除(GT字段除外,它应该始终存在)。

其他基因型字段可以在元信息中定义。然而,不保证对此类字段的软件支持。

4.了解VCF格式和单倍型表示

VCF记录使用单一通用系统表示遗传变异数据,包括:

VCF记录使用REF和ALT等位基因的简单单倍型表示来描述基因座的变异单倍型。ALT单倍型是从REF单倍型构建而来的,方法是在参考基因型的POS处取REF等位基因碱基,并用ALT碱基替换它们。本质上,VCF记录指定了a-REF-t,并且每个替代等位基因的替代单倍型是a-ALT-t。

如何表示VCF记录中的示例变化?

例如,假设我们正在查看基因组中的一个基因座:

参考:a t C g a//C是参考基准:t G G a//C基数在某些个体中是G:删除t-g a//C基数,同时引用:a t CAg a//插入基准序列

在上述情况下,什么是等位基因,它们将如何表示为VCF记录?

*首先是C/G→{C的SNP多态性,G}→C是参考等位基因

20     3 .         C集团。通过DP=100

*其次,C→{tC,t}→tC的1碱基缺失是参考等位基因

20     2 .         TC温度。通过DP=100

*第三,A→{tC;tCA}→tC的1个碱基插入是参考等位基因

20     2 .         TC TCA公司。通过DP=100

假设我在一组个体中看到了以下情况,并想代表这三个分离的等位基因:

参考:a t C g a//C是参考基准:t G G a//C基数在某些个体中是G:删除t-g a//C基数

我该如何表示?有三个分离的等位基因:{tC,tG,t}和相应的VCF记录:

20     2 .         TC TG,温度。通过DP=100

现在假设我有一个更复杂的例子:

参考:a t C g a//C是参考基准:a t-g a:a t--a:a t CAg a

实际上有四个分离的等位基因:{tCg、tg、t和tCAg},位于碱基2-4之上。这组复杂的等位基因在VCF中表示为:

20     2 .         TCG TG、T、TCAG。通过DP=100

请注意,在VCF记录中,上面在碱基比对中明确列出的分子等效性被丢弃,因此等效g的实际位置没有保留。

为了完整性,VCF记录是动态类型化的,因此VCF记录是否是SNP、Indel、Mixed或Reference位点取决于记录中等位基因的属性。

VCF记录示例表明与参考的差异是什么?

SNP VCF记录

假设我收到以下VCF记录:

20     3 .         C T。通过DP=100

这是一个SNP,因为它只有一个碱基替换,并且只有两个等位基因,所以我有以下两个分离单倍型:

参考:a t C g a//C是参考基准:t t g a//C基数在某些个体中是t
插入VCF记录

假设我收到以下VCF记录:

20     3 .         C CTAG公司。通过DP=100

这是一个插入,因为参考底座C被C[参考底座]加上三个插入底座TAG取代。同样只有两个等位基因,所以我有以下两种分离单倍型:

参考:a t C--g a//C是参考基准:a t C t a G G a//在C基之后插入3个基
删除VCF记录

假设我收到以下VCF记录:

20     2 .         TCG温度。通过DP=100

这是两个参考碱基的缺失,因为参考等位基因TCG被T(参考碱基)所取代。同样只有两个等位基因,所以我有以下两种分离单倍型:

参考:a t C g a//C是参考基准:a t--a//在C基之后删除了2个基
一颗微型卫星的混合VCF记录

假设我收到以下VCF记录:

20     2 .         TCGCG TCG、TCGCGCG。通过DP=100

这是一个混合类型记录,包含一个2基插入和一个2基址删除。有三种分离等位基因,所以我有以下三种单倍型:

参考:a t c g c g-a//c是参考基准:a t c g--a//在c碱基后面是2个碱基的缺失:a t c g c g c c g a//在c基之后插入2个基

请注意,在所有这些例子中,都添加了破折号以使单倍型更加清晰,但当然,VCF并没有提供碱基之间的等价性。从技术上讲,以下是一条等效路线:

参考:a t c g--c g a//c是参考基准:a t c g--a//在c碱基后面是2个碱基的缺失:a t c g c g c c g a//在c基之后插入2个基