请参阅VCF_4.0秒用于1000基因组项目采用的以VCF 4.0格式编码结构变异的约定和扩展。此外,请注意,VCF 4.0不再是当前的VCF规范。有关VCF格式的其他信息可用.
0.示例
VCF是一种文本文件格式(很可能以压缩方式存储)。它包含元信息行、标题行,然后是数据行,每一行都包含基因组中某个位置的信息。
可以选择是否在每个位置的样本上包含基因型信息。
例子:
##文件格式=VCFv4.0##文件日期=20090805##源=myImputationProgramV3.1##参考=1000GenomesPilot-NCBI36##相位=部分##INFO=<ID=NS,Number=1,Type=Integer,Description=“带数据的样本数”>##INFO=<ID=DP,Number=1,Type=Integer,Description=“总深度”>##信息=<ID=AF,编号=。,类型=浮动,Description=“Allele Frequency”>##INFO=<ID=AA,Number=1,Type=String,Description=“祖先通道”>##INFO=<ID=DB,Number=0,Type=Flag,Description=“dbSNP成员,build 129”>##INFO=<ID=H2,Number=0,Type=Flag,Description=“HapMap2成员资格”>##FILTER=<ID=q10,Description=“质量低于10”>##FILTER=<ID=s50,Description=“少于50%的样本有数据”>##FORMAT=<ID=GT,Number=1,Type=String,Description=“Genotype”>##FORMAT=<ID=GQ,Number=1,Type=Integer,Description=“基因型质量”>##FORMAT=<ID=DP,Number=1,Type=Integer,Description=“读取深度”>##FORMAT=<ID=HQ,Number=2,Type=Integer,Description=“单体型质量”>#色度位置ID参考ALT质量过滤器信息格式NA00001 NA00002 NA0000320 14370 rs6054257 G A 29焊道NS=3;DP=14;AF=0.5;数据库;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:。,。20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0 | 0:49:3:58,50 0 | 1:3:5:65,3 0/0:41:320 1110696 rs6040355 A G,T 67通道NS=2;DP=10;AF=0.33,0.667;AA=T;DB GT:GQ:DP:HQ 1 | 2:21:6:23,27 2 | 1:2:0:18,2 2/2:35:420 1230237 . T、。47道NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:220 1234567 microsat1 GTCT G,GTACT 50 PASS NS=3;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3
这个例子依次显示了一个好的简单SNP,一个可能的SNP,因为其质量低于10而被过滤掉,一个被称为两个替代等位基因的位点,其中一个(T)是祖先的(可能是参考测序错误),一个被称为单态参考的位点(即没有替代等位基因),和一个具有两个替代等位基因的微卫星,一个是3个碱基的缺失(TCT),另一个是一个碱基(a)的插入。给出了三个样本的基因型数据,其中两个为阶段性样本,第三个为非阶段性样本。给出了每个样本的基因类型质量、深度和单倍型质量(后者仅适用于阶段性样本)以及基因型。微卫星呼叫是非相位的。
文件元信息包含在##字符串之后,通常是键=值对。
“fileformat”字段始终是必需的,应详细说明VCF格式版本号。例如,对于VCF版本4.0,此行应为:
##文件格式=VCFv4.0
强烈建议在元信息部分包含描述VCF文件正文中使用的INFO、FILTER和FORMAT条目的信息行。尽管它们是可选的,但如果存在这些行,那么它们必须完全格式良好。
INFO字段应描述如下(需要所有键):
##信息=<ID=身份证件,编号=数,类型=类型,说明=“描述”>
INFO字段的可能类型有:整数、浮点、标志、字符和字符串。
Number条目是一个Integer,描述可以包含在INFO字段中的值的数量。例如,如果INFO字段包含单个数字,则该值应为1。但是,如果INFO字段描述了一对数字,则该值应为2,以此类推。如果可能的值的数量变化、未知或无界,则该数值应为“.”。可能的类型有:Integer、Float、Character、String和Flag。“Flag”类型表示INFO字段不包含Value条目,因此在本例中,Number应为0。Description值必须用双引号括起来。
应用于数据的过滤器应描述如下:
##过滤器=<ID=身份证件,说明=“描述”>
同样,FORMAT字段中指定的基因型字段应描述如下:
##格式=<ID=身份证件,编号=数,类型=类型,说明=“描述”>
FORMAT字段的可能类型有:整数、浮点、字符和字符串。
标题行命名了8个固定的必填列。这些列如下:
- #彩色
- 销售时点情报系统
- 身份证件
- 裁判
- 中高音
- 质量
- 过滤器
- 信息
如果文件中存在基因型数据,则后面是FORMAT列标题,然后是任意数量的样本ID。标题行以制表符分隔。
3.数据线
固定字段
每个记录有8个固定字段。所有数据行均以制表符分隔。在所有情况下,缺少的值都用点(“.”)指定。固定字段包括:
- 染色体:参考基因组的标识符。特定CHROM的所有条目应在VCF文件中形成一个连续的块。(字母数字字符串,必需)
- POS位置:参考位置,第一个底座具有位置1。位置在每个参考序列CHROM内按递增顺序进行数字排序。(整数,必需)
- ID分号分隔的唯一标识符列表(如果可用)。如果这是dbSNP变体,则鼓励使用rs编号。多个数据记录中不应存在标识符。如果没有可用的标识符,则应使用缺少的值。(字母数字字符串)
- REF参考基数:每个基数必须是A、C、G、T、N中的一个。基数应大写。允许使用多个底座。POS字段中的值是指字符串中第一个基数的位置。对于InDel,引用字符串必须包括事件之前的基数(必须反映在POS字段)。(字符串,必需)。
- 在至少一个样本上调用的交替非参考等位基因的ALT逗号分隔列表。选项是由基A、C、G、T、N或角支ID字符串组成的基本字符串(“<ID>”). 如果没有替代等位基因,则应使用缺失值。基数应为大写。(字母数字字符串;ID字符串本身不允许有空格、逗号或尖括号)
- QUAL对ALT中的断言进行质量评分,即给出-10log_10 prob(ALT调用错误)。如果ALT为“”(无变量)则为-10log_10 p(变量),如果ALT不是“”这是-10log10p(无变量)。QUAL分数高表示通话的可信度高。虽然传统上人们使用整数分,但如果需要,此字段可以作为浮点,以便为低置信度调用提供更高的分辨率。(数字)
- FILTER筛选器:如果此位置已通过所有筛选器,即在此位置进行调用,则为PASS。否则,如果站点没有通过所有筛选器,则会出现一个以分号分隔的失败筛选器代码列表。例如,“q10;s50”可能表示该站点的质量低于10,并且具有数据的样本数量低于样本总数的50%。“0”是保留的,不应用作筛选器字符串。如果尚未应用筛选器,则应将此字段设置为缺少的值。(字母数字字符串)
- INFO附加信息:(字母数字字符串)INFO字段编码为一系列分号分隔的短键,具有可选值,格式为:<key>=<data>[,data]。尽管保留了以下子字段(尽管可选),但允许使用任意键:
- AA祖先等位基因
- 基因型中每个ALT等位基因的AC等位基因计数顺序与所列顺序相同
- 每个ALT等位基因的AF等位基因频率与所列顺序相同:根据原始数据估算时使用此值,不称为基因型
- 已知基因型中的等位基因总数
- 此位置的BQ RMS基本质量
- 描述如何将替代等位基因与参考等位基因对齐的雪茄串
- DB dbSNP成员资格
- 样品的DP组合深度,例如DP=154
- 本记录中描述的变型的结束位置(尤其是CNV)
- hapmap2中的H2成员
- MQ RMS映射质量,例如MQ=52
- MQ0覆盖此记录的MAPQ读取数==0
- NS带数据的样本数
- 此位置的SB股偏压
- SOMATIC表明该记录是癌症基因组的体细胞突变
- 通过后续实验验证
等。应在元信息中指定每个INFO子字段的确切格式(如上所述)。
INFO字段示例:DP=154;MQ=52;H2.允许使用没有相应值的键来表示组成员身份(例如,H2表示在HapMap 2中找到SNP)。没有必要列出站点没有的所有属性,例如H2=0。
基因型字段
如果存在基因型信息,那么所有样本都必须存在相同类型的数据。首先给出一个FORMAT字段,指定数据类型和顺序。后面是每个样本一个字段,该字段中以冒号分隔的数据与格式中指定的类型相对应。第一个子字段必须始终是基因型(GT)。
与INFO字段一样,有几个常见的保留关键字是整个社区的标准:
- GT基因型,编码为以“/”或“|”分隔的等位基因值,例如,等位基因的值为0表示参考等位基因(参考序列中的内容),1表示ALT中列出的第一个等位基因,2表示ALT的第二等位基因列表,依此类推。对于二倍体调用,示例可以是0/1或1|0等。对于单倍体调用(例如Y、X、,线粒体,只需给出一个等位基因值。所有样品必须有GT呼叫信息;如果无法调用给定轨迹上的样本,“必须为GT字段中的每个缺失等位基因指定(例如,对于二倍体,./.)。分隔符的含义是:
- 此样本在此位置的DP读取深度(整数)
- FT样本基因型过滤器,指示该基因型是否被“调用”(在概念上类似于filter字段)。同样,使用PASS表示所有过滤器都已通过,以分号分隔的失败过滤器代码列表,或“”以指示尚未应用筛选器。这些值在元信息中的描述方式应与FILTERs(字母数字字符串)相同
- GL:AA、AB、BB基因型的三个浮点对数10标度可能性,其中A=ref和B=alt;如果站点不是双等位基因,则不适用。例如:GT:GL 0/1:-323.03、-99.29、-802.53(数字)
- GQ基因型质量,编码为分质量-10log_10p(基因型调用错误)(数字)
- HQ单倍型品质,两份品质以逗号分隔(数字)
如果缺少任何字段,则将其替换为缺少的值。例如,如果格式为GT:GQ:DP:HQ,则为A|A:。:23:23,34表示GQ缺失。尾部字段可以删除(GT字段除外,它应该始终存在)。
其他基因型字段可以在元信息中定义。然而,不保证对此类字段的软件支持。
VCF记录使用单一通用系统表示遗传变异数据,包括:
- 等位基因:代表单一遗传单倍型(A、T、ATC)。
- 基因型:单个命名样本在特定位点的每条染色体的等位基因分配。
- VCF记录:保存一个基因座上所有分离的等位基因的记录(以及基因型,如果合适的话,包含该基因座上等位基因多个个体的基因型)。
VCF记录使用REF和ALT等位基因的简单单倍型表示来描述基因座的变异单倍型。ALT单倍型是从REF单倍型构建而来的,方法是在参考基因型的POS处取REF等位基因碱基,并用ALT碱基替换它们。本质上,VCF记录指定了a-REF-t,并且每个替代等位基因的替代单倍型是a-ALT-t。
如何表示VCF记录中的示例变化?
例如,假设我们正在查看基因组中的一个基因座:
参考:a t C g a//C是参考基准:t G G a//C基数在某些个体中是G:删除t-g a//C基数,同时引用:a t CAg a//插入基准序列
在上述情况下,什么是等位基因,它们将如何表示为VCF记录?
*首先是C/G→{C的SNP多态性,G}→C是参考等位基因
20 3 . C集团。通过DP=100
*其次,C→{tC,t}→tC的1碱基缺失是参考等位基因
20 2 . TC温度。通过DP=100
*第三,A→{tC;tCA}→tC的1个碱基插入是参考等位基因
20 2 . TC TCA公司。通过DP=100
假设我在一组个体中看到了以下情况,并想代表这三个分离的等位基因:
参考:a t C g a//C是参考基准:t G G a//C基数在某些个体中是G:删除t-g a//C基数
我该如何表示?有三个分离的等位基因:{tC,tG,t}和相应的VCF记录:
20 2 . TC TG,温度。通过DP=100
现在假设我有一个更复杂的例子:
参考:a t C g a//C是参考基准:a t-g a:a t--a:a t CAg a
实际上有四个分离的等位基因:{tCg、tg、t和tCAg},位于碱基2-4之上。这组复杂的等位基因在VCF中表示为:
20 2 . TCG TG、T、TCAG。通过DP=100
请注意,在VCF记录中,上面在碱基比对中明确列出的分子等效性被丢弃,因此等效g的实际位置没有保留。
为了完整性,VCF记录是动态类型化的,因此VCF记录是否是SNP、Indel、Mixed或Reference位点取决于记录中等位基因的属性。
VCF记录示例表明与参考的差异是什么?
SNP VCF记录
假设我收到以下VCF记录:
20 3 . C T。通过DP=100
这是一个SNP,因为它只有一个碱基替换,并且只有两个等位基因,所以我有以下两个分离单倍型:
参考:a t C g a//C是参考基准:t t g a//C基数在某些个体中是t
插入VCF记录
假设我收到以下VCF记录:
20 3 . C CTAG公司。通过DP=100
这是一个插入,因为参考底座C被C[参考底座]加上三个插入底座TAG取代。同样只有两个等位基因,所以我有以下两种分离单倍型:
参考:a t C--g a//C是参考基准:a t C t a G G a//在C基之后插入3个基
删除VCF记录
假设我收到以下VCF记录:
20 2 . TCG温度。通过DP=100
这是两个参考碱基的缺失,因为参考等位基因TCG被T(参考碱基)所取代。同样只有两个等位基因,所以我有以下两种分离单倍型:
参考:a t C g a//C是参考基准:a t--a//在C基之后删除了2个基
一颗微型卫星的混合VCF记录
假设我收到以下VCF记录:
20 2 . TCGCG TCG、TCGCGCG。通过DP=100
这是一个混合类型记录,包含一个2基插入和一个2基址删除。有三种分离等位基因,所以我有以下三种单倍型:
参考:a t c g c g-a//c是参考基准:a t c g--a//在c碱基后面是2个碱基的缺失:a t c g c g c c g a//在c基之后插入2个基
请注意,在所有这些例子中,都添加了破折号以使单倍型更加清晰,但当然,VCF并没有提供碱基之间的等价性。从技术上讲,以下是一条等效路线:
参考:a t c g--c g a//c是参考基准:a t c g--a//在c碱基后面是2个碱基的缺失:a t c g c g c c g a//在c基之后插入2个基