VCF（变量调用格式）4.0版| 1000基因组

VCF（变量调用格式）版本4.0

请参阅VCF_4.0秒用于1000基因组项目采用的以VCF 4.0格式编码结构变异的约定和扩展。此外，请注意，VCF 4.0不再是当前的VCF规范。有关VCF格式的其他信息可用.

0.示例

VCF是一种文本文件格式（很可能以压缩方式存储）。它包含元信息行、标题行，然后是数据行，每一行都包含基因组中某个位置的信息。

可以选择是否在每个位置的样本上包含基因型信息。

例子：

##文件格式=VCFv4.0##文件日期=20090805##源=myImputationProgramV3.1##参考=1000GenomesPilot-NCBI36##相位=部分##INFO=<ID=NS，Number=1，Type=Integer，Description=“带数据的样本数”>##INFO=<ID=DP，Number=1，Type=Integer，Description=“总深度”>##信息=<ID=AF，编号=。，类型=浮动，Description=“Allele Frequency”>##INFO=<ID=AA，Number=1，Type=String，Description=“祖先通道”>##INFO=<ID=DB，Number=0，Type=Flag，Description=“dbSNP成员，build 129”>##INFO=<ID=H2，Number=0，Type=Flag，Description=“HapMap2成员资格”>##FILTER=<ID=q10，Description=“质量低于10”>##FILTER=<ID=s50，Description=“少于50%的样本有数据”>##FORMAT=<ID=GT，Number=1，Type=String，Description=“Genotype”>##FORMAT=<ID=GQ，Number=1，Type=Integer，Description=“基因型质量”>##FORMAT=<ID=DP，Number=1，Type=Integer，Description=“读取深度”>##FORMAT=<ID=HQ，Number=2，Type=Integer，Description=“单体型质量”>#色度位置ID参考ALT质量过滤器信息格式NA00001 NA00002 NA0000320 14370 rs6054257 G A 29焊道NS=3；DP=14；AF=0.5；数据库；H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:。，。20     17330   .         T A 3 q10 NS=3；DP=11；AF=0.017 GT:GQ:DP:HQ 0 | 0:49:3:58,50 0 | 1:3:5:65,3 0/0:41:320 1110696 rs6040355 A G，T 67通道NS=2；DP=10；AF=0.33,0.667；AA=T；DB GT:GQ:DP:HQ 1 | 2:21:6:23,27 2 | 1:2:0:18,2 2/2:35:420     1230237 .         T、。47道NS=3；DP=13；AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:220 1234567 microsat1 GTCT G，GTACT 50 PASS NS=3；DP=9；AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3

这个例子依次显示了一个好的简单SNP，一个可能的SNP，因为其质量低于10而被过滤掉，一个被称为两个替代等位基因的位点，其中一个（T）是祖先的（可能是参考测序错误），一个被称为单态参考的位点（即没有替代等位基因），和一个具有两个替代等位基因的微卫星，一个是3个碱基的缺失（TCT），另一个是一个碱基（a）的插入。给出了三个样本的基因型数据，其中两个为阶段性样本，第三个为非阶段性样本。给出了每个样本的基因类型质量、深度和单倍型质量（后者仅适用于阶段性样本）以及基因型。微卫星呼叫是非相位的。

1.超信息线

文件元信息包含在##字符串之后，通常是键=值对。

“fileformat”字段始终是必需的，应详细说明VCF格式版本号。例如，对于VCF版本4.0，此行应为：

##文件格式=VCFv4.0

强烈建议在元信息部分包含描述VCF文件正文中使用的INFO、FILTER和FORMAT条目的信息行。尽管它们是可选的，但如果存在这些行，那么它们必须完全格式良好。

INFO字段应描述如下（需要所有键）：

##信息=<ID=身份证件，编号=数，类型=类型，说明=“描述”>

INFO字段的可能类型有：整数、浮点、标志、字符和字符串。

Number条目是一个Integer，描述可以包含在INFO字段中的值的数量。例如，如果INFO字段包含单个数字，则该值应为1。但是，如果INFO字段描述了一对数字，则该值应为2，以此类推。如果可能的值的数量变化、未知或无界，则该数值应为“.”。可能的类型有：Integer、Float、Character、String和Flag。“Flag”类型表示INFO字段不包含Value条目，因此在本例中，Number应为0。Description值必须用双引号括起来。

应用于数据的过滤器应描述如下：

##过滤器=<ID=身份证件，说明=“描述”>

同样，FORMAT字段中指定的基因型字段应描述如下：

##格式=<ID=身份证件，编号=数，类型=类型，说明=“描述”>

FORMAT字段的可能类型有：整数、浮点、字符和字符串。

2.标题行语法

标题行命名了8个固定的必填列。这些列如下：

#彩色
销售时点情报系统
身份证件
裁判
中高音
质量
过滤器
信息

如果文件中存在基因型数据，则后面是FORMAT列标题，然后是任意数量的样本ID。标题行以制表符分隔。

3.数据线

固定字段

每个记录有8个固定字段。所有数据行均以制表符分隔。在所有情况下，缺少的值都用点（“.”）指定。固定字段包括：

染色体：参考基因组的标识符。特定CHROM的所有条目应在VCF文件中形成一个连续的块。（字母数字字符串，必需）
POS位置：参考位置，第一个底座具有位置1。位置在每个参考序列CHROM内按递增顺序进行数字排序。（整数，必需）
ID分号分隔的唯一标识符列表（如果可用）。如果这是dbSNP变体，则鼓励使用rs编号。多个数据记录中不应存在标识符。如果没有可用的标识符，则应使用缺少的值。（字母数字字符串）
REF参考基数：每个基数必须是A、C、G、T、N中的一个。基数应大写。允许使用多个底座。POS字段中的值是指字符串中第一个基数的位置。对于InDel，引用字符串必须包括事件之前的基数（必须反映在POS字段）。（字符串，必需）。
在至少一个样本上调用的交替非参考等位基因的ALT逗号分隔列表。选项是由基A、C、G、T、N或角支ID字符串组成的基本字符串(“<ID>”). 如果没有替代等位基因，则应使用缺失值。基数应为大写。（字母数字字符串；ID字符串本身不允许有空格、逗号或尖括号）
QUAL对ALT中的断言进行质量评分，即给出-10log_10 prob（ALT调用错误）。如果ALT为“”（无变量）则为-10log_10 p（变量），如果ALT不是“”这是-10log10p（无变量）。QUAL分数高表示通话的可信度高。虽然传统上人们使用整数分，但如果需要，此字段可以作为浮点，以便为低置信度调用提供更高的分辨率。（数字）
FILTER筛选器：如果此位置已通过所有筛选器，即在此位置进行调用，则为PASS。否则，如果站点没有通过所有筛选器，则会出现一个以分号分隔的失败筛选器代码列表。例如，“q10；s50”可能表示该站点的质量低于10，并且具有数据的样本数量低于样本总数的50%。“0”是保留的，不应用作筛选器字符串。如果尚未应用筛选器，则应将此字段设置为缺少的值。（字母数字字符串）
INFO附加信息：（字母数字字符串）INFO字段编码为一系列分号分隔的短键，具有可选值，格式为：<key>=<data>[，data]。尽管保留了以下子字段（尽管可选），但允许使用任意键：
- AA祖先等位基因
- 基因型中每个ALT等位基因的AC等位基因计数顺序与所列顺序相同
- 每个ALT等位基因的AF等位基因频率与所列顺序相同：根据原始数据估算时使用此值，不称为基因型
- 已知基因型中的等位基因总数
- 此位置的BQ RMS基本质量
- 描述如何将替代等位基因与参考等位基因对齐的雪茄串
- DB dbSNP成员资格
- 样品的DP组合深度，例如DP=154
- 本记录中描述的变型的结束位置（尤其是CNV）
- hapmap2中的H2成员
- MQ RMS映射质量，例如MQ=52
- MQ0覆盖此记录的MAPQ读取数==0
- NS带数据的样本数
- 此位置的SB股偏压
- SOMATIC表明该记录是癌症基因组的体细胞突变
- 通过后续实验验证

等。应在元信息中指定每个INFO子字段的确切格式（如上所述）。

INFO字段示例：DP=154；MQ=52；H2.允许使用没有相应值的键来表示组成员身份（例如，H2表示在HapMap 2中找到SNP）。没有必要列出站点没有的所有属性，例如H2=0。

基因型字段

如果存在基因型信息，那么所有样本都必须存在相同类型的数据。首先给出一个FORMAT字段，指定数据类型和顺序。后面是每个样本一个字段，该字段中以冒号分隔的数据与格式中指定的类型相对应。第一个子字段必须始终是基因型（GT）。

与INFO字段一样，有几个常见的保留关键字是整个社区的标准：

GT基因型，编码为以“/”或“|”分隔的等位基因值，例如，等位基因的值为0表示参考等位基因（参考序列中的内容），1表示ALT中列出的第一个等位基因，2表示ALT的第二等位基因列表，依此类推。对于二倍体调用，示例可以是0/1或1|0等。对于单倍体调用（例如Y、X、，线粒体，只需给出一个等位基因值。所有样品必须有GT呼叫信息；如果无法调用给定轨迹上的样本，“必须为GT字段中的每个缺失等位基因指定（例如，对于二倍体，./.）。分隔符的含义是：
- /：基因型无相位
- |：分阶段基因型
此样本在此位置的DP读取深度（整数）
FT样本基因型过滤器，指示该基因型是否被“调用”（在概念上类似于filter字段）。同样，使用PASS表示所有过滤器都已通过，以分号分隔的失败过滤器代码列表，或“”以指示尚未应用筛选器。这些值在元信息中的描述方式应与FILTERs（字母数字字符串）相同
GL：AA、AB、BB基因型的三个浮点对数10标度可能性，其中A=ref和B=alt；如果站点不是双等位基因，则不适用。例如：GT:GL 0/1:-323.03、-99.29、-802.53（数字）
GQ基因型质量，编码为分质量-10log_10p（基因型调用错误）（数字）
HQ单倍型品质，两份品质以逗号分隔（数字）

如果缺少任何字段，则将其替换为缺少的值。例如，如果格式为GT:GQ:DP:HQ，则为A|A:。：23:23,34表示GQ缺失。尾部字段可以删除（GT字段除外，它应该始终存在）。

其他基因型字段可以在元信息中定义。然而，不保证对此类字段的软件支持。

4.了解VCF格式和单倍型表示

VCF记录使用单一通用系统表示遗传变异数据，包括：

等位基因：代表单一遗传单倍型（A、T、ATC）。
基因型：单个命名样本在特定位点的每条染色体的等位基因分配。
VCF记录：保存一个基因座上所有分离的等位基因的记录（以及基因型，如果合适的话，包含该基因座上等位基因多个个体的基因型）。

VCF记录使用REF和ALT等位基因的简单单倍型表示来描述基因座的变异单倍型。ALT单倍型是从REF单倍型构建而来的，方法是在参考基因型的POS处取REF等位基因碱基，并用ALT碱基替换它们。本质上，VCF记录指定了a-REF-t，并且每个替代等位基因的替代单倍型是a-ALT-t。

如何表示VCF记录中的示例变化？

例如，假设我们正在查看基因组中的一个基因座：

参考：a t C g a//C是参考基准：t G G a//C基数在某些个体中是G：删除t-g a//C基数，同时引用：a t CAg a//插入基准序列

在上述情况下，什么是等位基因，它们将如何表示为VCF记录？

*首先是C/G→{C的SNP多态性，G}→C是参考等位基因

20     3 .         C集团。通过DP=100

*其次，C→{tC，t}→tC的1碱基缺失是参考等位基因

20     2 .         TC温度。通过DP=100

*第三，A→{tC；tCA}→tC的1个碱基插入是参考等位基因

20     2 .         TC TCA公司。通过DP=100

假设我在一组个体中看到了以下情况，并想代表这三个分离的等位基因：

参考：a t C g a//C是参考基准：t G G a//C基数在某些个体中是G：删除t-g a//C基数

我该如何表示？有三个分离的等位基因：{tC，tG，t}和相应的VCF记录：

20     2 .         TC TG，温度。通过DP=100

现在假设我有一个更复杂的例子：

参考：a t C g a//C是参考基准：a t-g a：a t--a：a t CAg a

实际上有四个分离的等位基因：{tCg、tg、t和tCAg}，位于碱基2-4之上。这组复杂的等位基因在VCF中表示为：

20     2 .         TCG TG、T、TCAG。通过DP=100

请注意，在VCF记录中，上面在碱基比对中明确列出的分子等效性被丢弃，因此等效g的实际位置没有保留。

为了完整性，VCF记录是动态类型化的，因此VCF记录是否是SNP、Indel、Mixed或Reference位点取决于记录中等位基因的属性。

VCF记录示例表明与参考的差异是什么？

SNP VCF记录

假设我收到以下VCF记录：

20     3 .         C T。通过DP=100

这是一个SNP，因为它只有一个碱基替换，并且只有两个等位基因，所以我有以下两个分离单倍型：

参考：a t C g a//C是参考基准：t t g a//C基数在某些个体中是t

插入VCF记录

假设我收到以下VCF记录：

20     3 .         C CTAG公司。通过DP=100

这是一个插入，因为参考底座C被C[参考底座]加上三个插入底座TAG取代。同样只有两个等位基因，所以我有以下两种分离单倍型：

参考：a t C--g a//C是参考基准：a t C t a G G a//在C基之后插入3个基

删除VCF记录

假设我收到以下VCF记录：

20     2 .         TCG温度。通过DP=100

这是两个参考碱基的缺失，因为参考等位基因TCG被T（参考碱基）所取代。同样只有两个等位基因，所以我有以下两种分离单倍型：

参考：a t C g a//C是参考基准：a t--a//在C基之后删除了2个基

一颗微型卫星的混合VCF记录

假设我收到以下VCF记录：

20     2 .         TCGCG TCG、TCGCGCG。通过DP=100

这是一个混合类型记录，包含一个2基插入和一个2基址删除。有三种分离等位基因，所以我有以下三种单倍型：

参考：a t c g c g-a//c是参考基准：a t c g--a//在c碱基后面是2个碱基的缺失：a t c g c g c c g a//在c基之后插入2个基

请注意，在所有这些例子中，都添加了破折号以使单倍型更加清晰，但当然，VCF并没有提供碱基之间的等价性。从技术上讲，以下是一条等效路线：

参考：a t c g--c g a//c是参考基准：a t c g--a//在c碱基后面是2个碱基的缺失：a t c g c g c c g a//在c基之后插入2个基

IGSR：国际基因组样本资源

支持开放的人类变异数据

VCF（变量调用格式）版本4.0

0.示例

1.超信息线

2.标题行语法

3.数据线

固定字段

基因型字段

4.了解VCF格式和单倍型表示

如何表示VCF记录中的示例变化？

VCF记录示例表明与参考的差异是什么？

SNP VCF记录

插入VCF记录

删除VCF记录

一颗微型卫星的混合VCF记录