皮卡德

生成状态

一组用于操作高通量测序(HTS)数据和格式(如SAM/BAM/CRAM和VCF)的命令行工具(Java)。

在GitHub上查看项目布罗德学院/皮卡德

Picard指标定义

单击度量以查看其字段的描述。

  1. 路线汇总指标:SAM文件中读取对齐的高级度量,由CollectAlignmentSummaryMetrics程序,通常存储在带有扩展名“.alignment_summary_metrics”。
  2. 按周期指标的基本分布:
  3. 群集交叉检查度量:保存聚集交叉检查指纹结果的Metric类。
  4. 收集HiSeqXPfFailMetrics。PFFailDetailed度量:用于描述从Illumina HiSeqX通道读取FP失败的度量类*
  5. 收集HiSeqXPfFailMetrics。PFFailSummaryMetric(PF故障摘要度量):GetHiSeqXPFFailMetrics程序生成的度量。
  6. 收集OxoG指标。CpcgMetrics公司:输出的度量类。
  7. 收集质量收益指标。质量收益指标:用于描述BAM文件的一般质量的一组度量
  8. 收集原始WgsMetrics。原始WgsMetrics:
  9. 收集变量调用度量。变量调用详细度量:给定样本的方差调用文件(VCF)中与snp和indel相关的度量集合。
  10. 收集变量调用度量。变量调用摘要度量:与变量调用文件(VCF)中的snp和indel相关的度量集合。
  11. 收集WgsMetrics。WgsMetrics公司:评估全基因组测序实验性能的指标。
  12. 收集非零覆盖的WgsMetrics。具有非零覆盖率的WgsMetrics:评估全基因组测序实验性能的指标。
  13. 交叉检查公制:保存交叉检查指纹结果的类。
  14. 重复度量:标记重复项过程中计算的度量在SAMRecords流中。
  15. 错误摘要度量:CollectSequentingArtifactMetrics生成的摘要度量,作为特定于上下文的错误率,以提供每种基替换类型的全局错误率。
  16. 提取照明条形码。条形码公制:ExtractIlluminaBarcode程序生成的度量,用于分析中的数据basecalls目录并确定每次读取应分配给哪个条形码。
  17. 指纹详细指标:指纹比较中单个SNP/单倍型比较的详细指标。
  18. 指纹汇总指标:关于序列数据比较的指纹度量和统计摘要从单个读取组(车道或车道内的索引)与。
  19. GcBiasDetailMetrics公司:类,该类包含特定窗口内读取的详细度量参考基因组上的GC盒。
  20. GcBiasMetrics公司:
  21. GcBiasSummaryMetrics公司:高水平指标,用于捕捉特定车道上覆盖范围的偏差程度。
  22. 基因型一致性应急指标:保存有关基因型一致性列联表的度量的类。
  23. 基因型一致性详细指标:保存有关基因型一致性的详细度量的类
  24. 基因型一致性摘要指标:保存有关基因型一致性的摘要度量的类
  25. HsMetrics公司:

    CollectHsMetrics生成的指标,用于分析目标捕获序列实验。

  26. Illumina基本呼叫指标:Illumina Basecalling的度量,以每个条形码为单位存储平均值和标准偏差。
  27. Illumina车道计量:体现描述车道的特征。
  28. 照明相位指标:Illumina Basecalling的指标,以每个模板、每个线路为基础存储中值相位和预相位百分比。
  29. 独立ReplicateMetric:存储生物速率估计相关信息的类
  30. 插入大小度量:由CollectInsertSizeMetrics程序,通常写入具有扩展名的文件“.insert_size_mmetrics”。
  31. 跳转库指标:关于内外对存在的高水平指标在使用跳转库生成的SAM文件中,由CollectJumpingLibraryMetrics程序,通常存储在带有扩展名“jump_metrics”。
  32. 孟德尔违规指标:描述在Trio中发现的孟德尔违规的类型和数量。
  33. 可合并MetricBase:MetricBase的扩展,它知道如何通过添加适当注释的字段进行合并。
  34. 多级度量:
  35. RnaSeqMetrics(RnaSeq指标):SAM文件中RNA-seq读取与基因对齐的度量,由CollectRnaSeqMetrics生成通常存储在扩展名为“.rnametrics”的文件中。
  36. RrbsPage详细指标:保存有关RRBS处理QC遇到的CpG站点的信息
  37. Rrbs汇总指标:保存RRBS处理QC的汇总统计信息
  38. 排序工件度量。诱饵偏差详细指标:诱饵偏差伪影按上下文分解。
  39. 排序工件度量。诱饵偏差汇总指标:单一诱饵偏差伪影的总结分析,也称为参考偏差伪影。
  40. 排序工件度量。预适配器详细指标:按上下文细分的预适配器工件。
  41. 排序工件度量。预适配器摘要指标:单个预适配器工件的摘要分析。
  42. 目标绩效指标:用于分析从靶向pcr实验中获得的读数的度量类,例如。
  43. UmiMetrics公司:标记重复项过程中计算的度量在SAMRecords流中使用UmiAwareDuplicateSetIterator。

注:标记为百分比的指标(完整指标名称中为“百分比”或输出文件中给定名称中为”PCT“)实际上表示为分数。例如,“PCT_TARGET_BASES_20X=0.85”应被解释为“85%的目标碱基被覆盖到20倍或更多”。

路线汇总指标

SAM文件中读取对齐的高级度量,由CollectAlignmentSummaryMetrics程序,通常存储在带有扩展名“.alignment_summary_metrics”。

字段描述
类别当度量仅用于在成对运行中第一次读取,当指标仅用于第二次读取时为SECOND_OF_PAIR在成对运行或PAIR中,当第一次和第二次读取的度量都被聚合时成双成对。
总计_读取包括所有PF和非PF读取的读取总数。当CATEGORY等于PAIR时这个值将是集群数量的2倍。
PF_航向PF被定义为通过Illumina过滤器的PF读取次数。
PCT_PF_读取PF读取的分数(PF_reads/TOTAL_reads)
PF_NOISE_READS公司标记为噪声读取的PF读取数。噪声读数是由完全由A基和/或N基组成。这些阅读被标记为通常是虚假的在下游分析中没有用处。
PF_读取_校准与参考序列对齐的PF读取数。这包括以下内容低质量对齐(即对齐不明确)。
PCT_PF_读取_校准与参考序列对齐的PF读取百分比。PF_READS_校准/PF_READS
PF_校准底座在所有映射的PF读取中,与参考序列对齐的对齐基的总数。
PF_HQ_校准_读数映射质量为的与参考序列对齐的PF读取数Q20或更高表示对准器估计有1/100(或更小)的概率对齐错误。
PF_HQ_对齐的基础在映射为高的读取中与引用序列对齐的碱基数质量。通常近似于PF_HQ_ALIGNED_READS*READ_LENGTH,但在以下情况下可能有所不同要么存在混合读取长度,要么许多读取与间隙对齐。
PF_HQ_校准_Q20_底座基本通话质量为Q20或更高的PF_HQ_ALIGNED_BASES的子集。
PF_HQ_媒体_匹配对齐读取中与参考序列不匹配的中位数高质量参考(即PF_HQ_ALIGNED READS)。
PF_匹配_比率所有与参考序列对齐的碱基与参考不匹配的比率。
PF_HQ_错误_比率PF HQ比对读数中与参考不匹配的碱基的分数。
PF_INDEL_RATE公司每100个对齐基数的插入和删除事件数。使用事件数作为分子,而不是插入或删除的基数。
平均读取长度所检查的读取集的平均读取长度。查看单车道数据时等长读取,这个数字就是读取长度。查看合并车道的数据时不同的读取长度这是所有读取的平均读取长度。
读取校准对配对对也与参考对齐的对齐读取数。
PCT_READS_ALIGNED_IN_PAIRS(PCT_读取_校准_配对)配对对也与参考对齐的读取数的分数。读取校准_IN_PAIRS/PF_READS_ALIGNED
PF_READS_IMPROPER_PAIRS公司成对**未**“正确”对齐的(主)对齐读取数(根据SAM标记0x2)。
PCT_PF_READS_IMPROPER_PAIRS公司成对*未*“正确”对齐的(主)读取部分(根据SAM标记0x2)。PF_READS_IMPROPER_PAIRS/PF_READS校准
BAD_自行车80%或更多基本呼叫为无呼叫的仪器周期数。
钢绞线平衡与基因组正链对齐的PF读取数除以PF读数与基因组对齐。
PCT_CHIMERAS公司超出最大插入尺寸(通常为100kb)或具有两端映射到不同的染色体。
PCT_适配器未对齐并与来自开始阅读。

按周期指标的基本分布

字段描述
读取_结束
CYCLE(循环)
PCT_A公司
PCT_C公司
PCT_G公司
百分比时间
个人计算机

群集交叉检查度量

保存聚集交叉检查指纹结果的Metric类。相同的度量将用于交叉检查读组、库、样本或文件。

字段描述
集群
群集_大小

收集HiSeqXPfFailMetrics。PFFailDetailed度量

用于描述Illumina HiSeqX通道中FP失败读取的度量类*

字段描述
瓦片此度量描述的平铺
X(X)瓷砖内读数的X坐标
Y(Y)瓷砖内读数的Y坐标
数字(_N)此读取中找到的N数
数字_Q_GT_TWO此读取中发现的质量分数大于2的数量
分类分类如下:{EMPTY,POLYCLONAL,MISALIGNED,UNKNOWN}(有关可能的分类的解释,请参阅PFFailSummaryMetric。)

收集HiSeqXPfFailMetrics。PFFailSummaryMetric(PF故障摘要度量)

GetHiSeqXPFFailMetrics程序生成的度量。用于从HiSeqX诊断车道排序,提供读取可能未通过PF的每个原因的数量和分数。可能的原因是EMPTY(从没有模板链的空井中读取)、POLYCLONAL(从具有多个链的井中读取克隆到它们中)、MISALIGNED(从贴片边缘附近的井读取)、UNKNOWN(读取未通过PF但无法诊断)

字段描述
瓦片由该度量描述的平铺。可以是字符串(如“All”),表示瓷砖上的一些边缘*
阅读检查的读取总数
PF_FAIL_READS(PF_FAIL _读取)此磁贴中的非PF读取数。
PCT_PF_FAIL_READS(PCT_PF_故障_读取)PF_READS的分数
PF_FAIL_空此磁贴中被视为空的非PF读取数。
PCT_PF_FAIL_空此瓦片中被视为空的非PF读取的分数(作为所有非PF读取的分数)。
PF_失败_多克隆此磁贴中被视为多克隆的非PF读取数。
PCT_PF_FAIL_POLYCLONAL公司此磁贴中被视为多克隆的非PF读取的部分(作为所有非PF读的部分)。
PF_FAIL_未对准此磁贴中被视为“未对齐”的非PF读取数。
PCT_PF_FAIL_未对准此磁贴中被视为“未对齐”的非PF读取的部分(作为所有非PF读的部分)。
PF_FAIL_未知此磁贴中尚未分类的非PF读取数。
PCT_PF_FAIL_未知此磁贴中未分类的非PF读取的部分(作为所有非PF读的部分)。

收集OxoG指标。CpcgMetrics公司

输出的度量类。

字段描述
样品_ALIAS正在分析的样本的名称。
图书馆正在分析的库的名称。
上下文正在报告的序列上下文。
总计_站点至少有一个基地覆盖的站点总数。
总计_基数在所有站点上观察到的基本调用总数。
参考NONOXO_BASES参考等位基因的数量在读1中观察到C,在读2中观察到G。
REF_OXO_基准参考等位基因的数量在读1中为G,在读2中为C。
参考总计基准观察到的参考等位基因总数
ALT_NONOXO_碱在C参考位置和T基本调用处观察到的A基本调用计数与仪器读数相关的G基准排除氧化是原因
ALT_OXO_碱在C参考位置和T基本调用处观察到的A基本调用计数与仪器读数相关的G基准这与氧化损伤一致。
氧化错误率氧错误率,计算为最大值(ALT_oxo_BASES-ALT_NONOXO_BASE,1)/TOTAL_BASES
氧化_Q-10*log10(氧化还原速率)
C_REF_REF_基础在基因组参考==C的位置观察到的ref基调用数。
G_REF_REF_基础在基因组参考==G的位置观察到的ref基调用数。
C_REF_ALT_基础在基因组参考==C的位置观察到的alt(A/T)碱基调用数。
G_REF_ALT_基础在基因组参考==G的位置观察到的alt(A/T)碱基调用数。
C_REF_OXO_错误_比率在C参考位点上观察到的C>A和G>T替换的速率高于预期速率,如果存在具有C参考基和G参考基的站点之间没有偏差。
C_REF_OXO_QC_REF_OXO_ERROR_RATE表示为分数质量分数。
G_REF_OXO_错误_比率在G参考位点上观察到C>A和G>T替换的速率高于预期速率,如果存在具有C参考基和G参考基的站点之间没有偏差。
G_参考_OXO_QG_REF_OXO_ERROR_RATE表示为分数质量分数。

收集质量收益指标。质量收益指标

用于描述BAM文件的一般质量的一组度量

字段描述
总计_读取输入文件中的读取总数
PF_航向PF通过过滤器的读取数
阅读_长度所有读取的平均读取长度(对于车道来说是固定的)
总计_基数所有读取中的基数总数
PF_基础所有PF读取中的基总数
问题20_基础所有读取中达到质量分数20或更高的基数
PF_Q20_基础PF读取中达到20或更高质量分数的碱基数
Q30_基础所有读取中达到质量分数30或更高的基数
PF_Q30_基础PF中达到质量分数30或更高的基数
Q20_当量_产量所有基地的质量分数之和除以20
PF_Q20_当量_屈服PF读数中所有基数的质量分数之和除以20

收集原始WgsMetrics。原始WgsMetrics

字段描述

收集变量调用度量。变量调用详细度量

给定样本的方差调用文件(VCF)中与snp和indel相关的度量集合。

字段描述
样品_ALIAS正在分析的样本的名称
HET_HOMVAR_RATIO公司此样本的(hets计数)/(纯合非ref计数)
PCT_GQ0_乘客特定样本中GQ得分为0的变体的百分比。
总计GQ0_乘客特定样本中GQ得分为0的变体总数。
总计_高度_深度传递此样本的双等位SNP hets的读取总数(来自AD字段)

收集变量调用度量。变量调用摘要度量

变体调用文件(VCF)中与snp和indel相关的度量集合。

字段描述
总计_SNPS通过检测的双等位SNP调用数(即非参考基因型)
编号_IN_DB_SNP在dbSNP中发现的通过双等位SNP的数量
NOVEL_SNPS公司dbSNP中未找到的调用的传递双等位SNPS的数量
过滤器_SNPS筛选的SNP数量
PCT_DBSNP公司dbSNP中双等位SNP的通过率
数据库名称(_T)在dbSNP位点进行的通过双等位基因SNP调用的转换/转译比率
NOVEL_TITV公司在非dbSNP站点发出的双等位SNP呼叫的转换/转换比率
总计_索引检查的通过indel调用数
新品_INDELS在dbSNP中找不到调用的传递索引数
过滤器_索引筛选的索引数
PCT_DBSNP_索引dbSNP中通过指数的分数
数字_IN_DB_SNP_INDELS在dbSNP中找到的传递索引数
DBSNP_INS_DEL_RATIO公司在dbSNP站点进行的indel调用的插入/删除比率
NOVEL_INS_DEL_RATIO公司在非dbSNP站点进行的indel调用的插入/删除比率
总计_ MULTIALLELIC_SNPS通过检查的多等位基因SNP呼叫数
数字_IN_DB_SNP_MULTIALLELICdbSNP中发现的通过多等位基因SNP的数量
总计_综合_索引已检查的传递的复杂indel调用数
数字_IN_DB_SNP_COMPLEX_INDELS在dbSNP中找到的传递复数索引数
SNP_参考_BIAS在ref/alt杂合SNP位点观察到参考碱基的比率。
NUM_SINGLETONS公司对于摘要指标,是指仅出现在一个样本中的变量数。对于详细指标,是指仅出现在当前样本中的变量数。

收集WgsMetrics。WgsMetrics公司

评估全基因组测序实验性能的指标。

字段描述
基因_错误基因组参考中用于评估覆盖率的非N碱基的数量。
平均覆盖率应用所有过滤器后,基因组区域基底的平均覆盖率。
SD_平均值应用所有过滤器后基因组覆盖率的标准偏差。
媒体_覆盖应用所有过滤器后,基因组区域基底的中位数覆盖率。
MAD_覆盖应用所有过滤器后,基因组覆盖率的中位绝对偏差。
PCT_EXC_MAPQ公司由于处于低映射质量读取中而被过滤掉的对齐碱基的比例(默认值<20)。
PCT_EXC_DUPE公司由于处于标记为重复的读取中而被筛选出的对齐碱基的分数。
PCT_EXC_未批准由于读取时没有映射配对而被过滤掉的对齐碱基的比例。
PCT_EXC_基础由于碱基质量低而被筛选出的对齐碱基的比例(默认值<20)。
PCT_EXC_重叠由于它们是具有重叠读取的插入中的第二个观察值而被过滤掉的对齐碱基的比例。
PCT_EXC_已批准由于将覆盖范围提高到上限值以上而被过滤掉的对齐基数的分数(默认上限=250x)。
PCT_EXC_总计由于所有过滤器而排除的对齐基的总分数。
PCT_1X型在后滤波基中达到至少1X序列覆盖率的基的分数。
PCT_5倍在后滤波基中达到至少5倍序列覆盖率的基的分数。
PCT_10X型在后滤波基中达到至少10X序列覆盖率的基的部分。
PCT_15倍在滤波后碱基中达到至少15X序列覆盖率的碱基部分。
PCT_20倍在后滤波基中达到至少20X序列覆盖率的基的分数。
PCT_25倍在后滤波基中达到至少25倍序列覆盖率的基的分数。
PCT_30倍在后滤波基中达到至少30X序列覆盖率的基的部分。
PCT_40倍在后滤波基中达到至少40X序列覆盖率的基的部分。
PCT_50倍在后滤波基中达到至少50X序列覆盖率的基的部分。
60倍百分比在滤波后碱基中达到至少60X序列覆盖率的碱基部分。
PCT_70X型在后滤波基中达到至少70X序列覆盖率的基的部分。
PCT_80倍在后滤波基中达到至少80X序列覆盖率的基的部分。
PCT_90倍在后滤波基中达到至少90X序列覆盖率的基的部分。
PCT_100X型在后滤波基中达到至少100X序列覆盖率的基的分数。
HET_SNP_灵敏度理论HET SNP敏感性。
HET_SNP_Q公司理论HET SNP敏感性的Phred量表Q分。

收集非零覆盖的WgsMetrics。具有非零覆盖率的WgsMetrics

评估全基因组测序实验性能的指标。

字段描述
类别WHOLE_GENOME或NON_ZERO_REGIONS之一

交叉检查公制

保存交叉检查指纹结果的类。相同的度量将用于交叉检查读组、库、样本或文件。

字段描述
左侧组值
右侧组值
结果
数据_类型
LOD_评分
LOD_SCORE_TUMOR_NORMAL(LOD_SCRE_正常)
LOD_SCORE_NORMAL_TUMOR(LOD_SCRE_NORMAL_TUMOR)
LEFT_RUN_BARCODE(左运行条形码)
左侧_区域
左_ OLECULAR_BARCODE_SEQUENCE
LEFT_LIBRARY(左侧_左侧)
左_样本
左侧文件
右_运行_条形码
右侧_车道
右_ OLECULAR_BARCODE_SEQUENCE
右侧_图书馆
右_样品
右侧文件

重复度量

标记重复项过程中计算的指标在SAMRecords流中。

字段描述
图书馆执行重复标记的库。
未付款_已审核检查的没有映射配对的映射读取数,要么是因为读取未配对,要么读取与未映射的配对配对。
READ_PAIRS_检查检查的映射读取对数。(主要,非补充)
第二个_OR_补充_RDS辅助或补充读取数
未应用_读取检查的未映射读取总数。(主要,非补充)
未配对读取副本标记为重复的碎片数。
读取PAR_DUPLICATES标记为重复的读取对数。
读取PAR_OPTICAL_副本由光学复制引起的读取对重复数。值始终为<READ_PAIR_DUPLICATES,它统计所有重复项,而不管源是什么。
复制百分比标记为重复的映射序列的部分。
估计_ IBRARY_SIZE基于PE复制的库中唯一分子的估计数量。

错误汇总度量

由{@link CollectSequencingArtifactMetrics}生成的摘要度量,作为特定于上下文的错误率,以提供每种基替换类型的全局错误率。错误被归一化为词汇上较低的参考基数,并汇总在一起。例如。G> T转换为C>A并与来自C>A的数据合并以进行报告。

字段描述
参考基础(_B)参考基数(或其补码)。
ALT_基础替代基(或其补码)。
替代为方便起见,表示从REF_BASE到ALT_BASE的替换的单个字符串。
引用计数观察到的参考基数。
ALT_COUNT(报警计数)观察到的alt碱基数。
替代_比率所讨论的替代率。

提取照明条形码。条形码公制

ExtractIlluminaBarcode程序生成的度量,用于分析中的数据basecalls目录并确定每次读取应分配给哪个条形码。

字段描述
条形码适用以下指标的条形码(来自预期条形码集)。请注意,NNNNNN的“符号”条形码用于报告所有读取的度量与条形码不匹配。
条形码_不带发送器
条形码_名称条形码名称。
图书馆_名称库的名称
阅读与条形码匹配的读取总数。
PF_航向与此条形码匹配的PF读取数(始终小于或等于reads)。
完美匹配与此条形码匹配且匹配0个错误或无错误的所有读取数。
PF_维护_匹配与此条形码匹配的PF读取数,该条形码匹配0个错误或没有调用。
ONE_MISMATCH_MATCHES(ONE_不匹配_匹配)与此条形码匹配且匹配1个错误或无错误的所有读取数。
PF_ONE_MISMATCH_MATCHES公司与此条形码匹配的PF读取数,该条形码与1个错误或无错误匹配。
PCT_匹配与此条形码匹配的车道中所有读取的部分。
比率_THIS_BARCODE_TO_BEST_BARCOD_PCT与此条码匹配的所有读取与与最高级条码匹配的全部读取的速率。对于大多数prevelant条码这将是1,对于所有其他条码,它将小于1(除了可能的与任何其他条形码相比,孤立读取次数更多的情况除外,在这种情况下,值可以是任意大的)。此列中最低数字的1表示fold-defference在条形码之间表示。
PF_PCT_匹配PF在与此条形码匹配的车道中读取的部分。
PF_RATIO_THIS_BARCODE_TO_BEST_BARCODE_PCT格式与此条形码匹配的PF读取速率与与最高级条形码匹配的PF读取速率。对于大多数prevelant条码这将是1,对于所有其他条码,它将小于1(除了可能的例外情况是,与其他条形码相比,孤立读取次数更多,在这种情况下,值可以任意大)。此列中最低数字的1表示fold-defference表示条形码之间的PF读取。
PF_规范化_匹配“标准化”与每个条形码匹配。这是根据匹配的pf读取数计算的此条形码覆盖所有与任何条形码匹配的pf读取的总和(不包括孤立的)。如果所有条形码均表示为1。

指纹详细指标

指纹比较中单个SNP/单倍型比较的详细指标。

字段描述
阅读_分组序列数据指纹的测序读取组。
样品与序列数据进行比较的样本基因型的名称。
SNP公司所比较单倍型中代表性SNP的名称。通常是外部基因分型的确切SNP。
SNP_ALLELES公司SNP的可能等位基因。
彩色SNP所在的染色体。
位置SNP在染色体上的位置。
预期_基因型SNP位点样本的预期基因型。
观察到的_基因类型最可能的基因型给出了测序数据中SNP位点的观察证据。
LOD(检测限)OBSERVED_GENOTYPE与测序数据中第二个最有可能的基因型的LOD得分。
观测站序列数据中SNP的第一个或A等位基因的观察数。
组织分解结构_B测序数据中SNP的第二个或B等位基因的观察数。

指纹汇总指标

关于序列数据比较的指纹度量和统计摘要从单个读取组(车道或车道内的索引)与一组已知基因型期望的样本。

字段描述
阅读_分组从中提取序列数据进行比较的读取组。
样品将序列数据与已知基因型的样本进行比较。
LL_预期_样本给定预期样本基因型的序列数据的对数似然。
LL_随机_样本从人群中随机抽样的序列数据的对数似然。
LOD_EXPECTED_样本预期样本与随机样本的LOD。正LOD表示序列数据通过LOD日志,更可能来自预期样本,而不是来自人群的随机样本。即,值为6表示序列数据更有可能来自预期的1000000样本,而不是随机样本。负LOD表示相反-序列数据更多可能来自随机样本,而不是来自预期样本。
HAPLOTYPES_WITH_GENOTYPES(单字类型_WITH_基因类型)具有预期基因型比较的单倍型数量。
HAPLOTYPES_CONFIDENTLY_CHECKED(单字类型_确认_检查)有足够序列数据的基因型单倍型的子集自信地对单倍型进行基因分型。注:所有序列覆盖的单倍型都有助于LOD得分,即使他们不能被单独“自信地检查”。
HAPLOTYPES_CONFIDENTLY_MATCHING(单字类型_一致性_匹配)符合预期基因型的自信检查单倍型子集。
HET_AS_HOM赫特数,观察为homs,LOD>阈值
主页_AS_HETHOM数,以HET表示,LOD>阈值
主页_其他_主页与LOD>阈值的其他homs一样观察到的homs数量

GcBiasDetails度量

类,该类保存有关特定窗口中的读取的详细度量参考基因组上的GC盒。

字段描述
蓄能器液位
读取_使用此选项用于标记包括或排除重复项。
GC公司此bin表示的参考序列的G+C含量。值为0%到100%
窗户参考基因组上具有此G+C内容的窗口数。
读取_启动开始位置位于此GC窗口开始处的读取数。
平均基础质量分配给此GC窗口的所有读取的所有基的平均质量(通过错误率确定)。
标准化_覆盖此GC箱中的“覆盖率”与所有GC箱的平均覆盖率之比。许多1表示平均覆盖率,小于1的数字表示低于平均覆盖率(例如0.5指平均覆盖范围的一半),而大于1的数字表示高于平均覆盖率(例如,3.1意味着该GC bin的每个窗口的读取次数是平均值的3.1倍)。
错误_棒_宽度此箱子中误差条的半径基于观测次数。例如,如果标准化覆盖率为0.75,误差条宽度为0.1,则误差条为从0.65到0.85。

GcBiasMetrics公司

字段描述
细节
总结

GcBiasSummaryMetrics公司

高水平指标,用于捕捉特定车道上覆盖范围的偏差程度。

字段描述
蓄能器液位
已使用读数此选项用于标记包括或排除重复项。
窗口_大小基因组上用于计算序列GC的窗口大小。
总计_集群在gc偏差计算中看到的簇总数。
校准_读数用于计算gc偏差度量的对齐读取总数。
AT_DROPOUT(自动跳出)Illumina-style AT辍学指标。通过单独取每个GC箱进行计算(%ref_at_gc-%reads_at_gc),并对gc的所有正值求和=[0..50]。
GC_输出Illumina-style GC辍学指标。通过单独取每个GC箱进行计算(%ref_at_gc-%reads_at_gc)并求和gc=[50..100]的所有正值。
GC_NC_0_19GC含量五分之一的归一化覆盖范围为0-19。
GC_NC_20_39GC含量每五分之一的标准化覆盖范围为20-39。
GC_NC_40_59GC含量每五分之一的标准化覆盖范围为40-59。
GC_NC_60_79GC含量每五分之一的标准化覆盖范围为60-79。
GC_NC_80_100号GC含量每五分之一的标准化覆盖范围为80-100。

基因型一致性应急指标

类,该类保存有关基因型一致性列联表的度量。

字段描述
变量_类型事件类型(即SNP或INDEL)
真实_示例“真相”样本的名称
呼叫_样本“调用”样本的名称
TP_数量所有变体的TP(真阳性)计数
TN_数量所有变体的TN(真阴性)计数
FP_计数所有变体的FP(假阳性)计数
FN_计数所有变体的FN(假阴性)计数
空_数量所有变体中的空(无应急信息)计数

基因型一致性详细指标

保存有关基因型一致性的详细度量的类

字段描述
变量_类型事件类型(即SNP或INDEL)
真实_示例“真相”样本的名称
调用样本“调用”样本的名称
真实_状态“真实”样本的状态(即HOM_REF、HET_REF_VAR1、HET_VAR1_VAR2…)
呼叫_状态“调用”样本的状态(即HOM_REF、HET_REF_VAR1…)
计数EVENT_type和SAMPLE的TRUTH_STATE和CALL_STATE类型的事件数
应急_价值根据引用,从真值/调用状态比较中推导出的列联表值列表(TP、TN、FP、FN)。一般来说,我们比较的是两组等位基因。因此,我们可以在一次比较中表示零个或多个列联表值。例如,如果trueset为具有两个非参考等位基因的杂合呼叫(HET_VAR1_VAR2),而呼叫集是两个等位基因均与其中一个替代等位基因非参考的杂合调用如果在调用集中匹配一个替代等位基因,我们会得到一个真阳性、假阳性和假阴性。真正的阳性来自匹配的替代等位基因假阳性是在调用集中发现但在真实集中未发现的替代等位基因,而假阴性是在调用集未发现的真实集中的替代基因。我们还包括在真实集和调用集中都发现参考等位基因的情况下的真阴性。

基因型一致性摘要指标

保存有关基因型一致性的摘要度量的类

字段描述
变量_类型事件类型(即SNP或INDEL)
真实_示例“真相”样本的名称
呼叫_样本“调用”样本的名称
HET_灵敏度所有杂合变异的敏感性(敏感性为TP/(TP+FN))
HET_PPV公司所有杂合变体的ppv(阳性预测值)(ppv是TP/(TP+FP))
HET_特性无法计算所有杂合变异体的特异性
HOMVAR_灵敏度所有纯合子变体的敏感性(敏感性为TP/(TP+FN))
HOMVAR_PPV(主变量_PPV)所有纯合子变体的ppv(阳性预测值)(ppv是TP/(TP+FP))
HOMVAR_规格无法计算所有纯合子变体的特异性。
变量敏感性对所有(杂合和纯合)变体的敏感性(敏感性为TP/(TP+FN))
VAR_PPV(无功功率_PPV)所有(杂合和纯合)变体的ppv(阳性预测值)(ppv是TP/(TP+FP))
VAR_规格所有(杂合和纯合)变体的特异性(特异性为TN/(FP+TN))
基因型_一致性所有可能状态的基因型一致性。基因型一致性是真值和调用状态完全匹配/所有真值和回调组合的次数
非参考类型_一致性非ref基因型一致性,即仅适用于所有var状态。Non-Ref Genotype Concordance是*vars only*/所有true和call*var*组合的真值和调用状态完全匹配的次数

HsMetrics公司

CollectHsMetrics生成的指标,用于分析目标捕获序列实验。指标这一类大致分为三类:

字段描述
BAIT_设置杂交选择中使用的诱饵集的名称。
GENOME_SIZE(发电机_尺寸)用于比对的参考基因组中的碱基数。
婴儿_错误定位于一个或多个诱饵的碱基数量。
目标(_T)实验中靶碱基的唯一数量,其中靶序列通常是外显子等。
BAIT_设计_效率TARGET_TERRITORY/BAIT_TERRITORY的比率。值为1表示完美的设计效率,而值为0.5表示诱饵区域内有一半的碱基不在目标区域内。
总计_读取检查的SAM或BAM文件中的读取总数。
PF_航向通过供应商筛选器的读取总数。
PF_单位_读数未标记为重复的PF读取数。
PCT_PF_读取通过供应商过滤器PF_reads/TOTAL_reads的读取部分。
PCT_PF_UQ_读取从TOTAL_READS、PF_UNIQUE_READS/TOTAL_READS得到的PF_UNIXE_READS的分数。
PF_UQ_READS_校准与映射得分>0的参考基因组对齐的PF_UNIQUE_READS数。
PCT_PF_UQ_READS_校准PF_UQ_READS_ALIGNED与PF读取总数的分数。
PF_基准_校准与参考基因组对齐且映射得分>0的PF唯一碱基的数量。
PF_UQ_基础_对齐PF_UQ_READS_ALIGNED读取的基址数。说明剪裁和间隙。
在BAIT_BASES上映射到基因组中被诱饵区域的PF_BASES_ALIGNED数量。
BAIT_BASES附近PF_BASES_ALIGNED的数量,这些PF_BASES_ALIGNED被映射到包含诱饵区域的固定间隔内,但不在诱饵部分本身内。
关闭BAIT_BASES映射到远离任何诱饵区域的PF_BASES_ALIGNED数量。
目标基础上映射到基因组目标区域的PF_BASES_ALIGNED数。
PCT_选择的_基础位于被诱饵区域(on_BAIT_BASES+near_BAIT-BASES)上或附近的PF_BASES_ALIGNED的分数/PF_BASES-ALIGNED。
PCT_OFF_BAIT公司映射到远离任何诱饵区域的PF_BASES_ALIGNED的分数,OFF_BAIT_BASES/PF_BAES_ALIGNED。
ON_BAIT_VS_选择毒饵覆盖的毒饵上或附近的碱基部分,on_BAIT_bases/(on_BAINT_bases+near_BAIT_FASES)。
平均等待时间平均实验中所有诱饵的平均覆盖范围。
平均目标覆盖目标区域的平均覆盖范围。
媒体目标覆盖目标区域的中间覆盖率。
最大目标覆盖映射到实验目标区域的读取的最大覆盖范围。
PCT_USABLE_BASES_ON_BAIT公司可用PF基地中对齐、去备份、诱饵基地的数量。
PCT_USABLE_BASES_ON_目标在所有可用的PF基地中,对齐、消除重复、目标基地的数量。
折叠_确认诱饵区在基因组背景上被放大的倍数。
零CVG_目标_PCT未达到覆盖范围的目标比例=任何基数上的1。
PCT_EXC_DUPE公司由于处于标记为重复的读取中而被筛选出的对齐碱基的分数。
PCT_EXC_MAPQ公司由于处于低映射质量读取中而被过滤掉的对齐碱基的比例。
PCT_EXC_基础因碱基质量低而被筛选出的对齐碱基的比例。
PCT_EXC_重叠由于它们是具有重叠读取的插入中的第二个观察值而被过滤掉的对齐碱基的比例。
PCT_EXC_OFF_目标由于未在目标基础上对齐而被过滤掉的对齐基础的分数。
折叠_80_基础_惩罚将“非零cvg”目标中80%的基地提高到这些目标的平均覆盖水平所需的重叠覆盖率。
PCT_目标_基础_1X所有目标基地达到1倍或更大覆盖范围的部分。
PCT_目标_基础_2X所有目标基地达到2倍或更大覆盖范围的部分。
PCT_目标_基础_10X所有目标基地达到10倍或更大覆盖范围的部分。
PCT_目标_基础_20X所有目标基地达到20倍或更大覆盖范围的部分。
PCT_目标_基础_30X所有目标基地达到30倍或更大覆盖范围的部分。
百分比目标基准40X达到40X或更大覆盖范围的所有目标基地的比例。
PCT_目标_基础_50X所有目标基地达到50倍或更大覆盖范围的部分。
PCT_目标_基础_100X所有目标基地达到100倍或更大覆盖范围的部分。
HS_LIBRARY_尺寸库中选定部分的独特分子的估计数量。
HS_启用_10X“混合选择惩罚”使80%的目标基数达到10倍。这个指标应该被解释为:如果我有一个10兆的目标设计,并且想要我需要对10X覆盖范围进行排序,直到PF_ALIGNED_BASES=10^7*10*HS_PENALTY_10X。
HS_启用_20X“混合选择惩罚”使80%的目标基数达到20倍。这个指标应该被解释为:如果我有一个10兆的目标设计,并且想要我需要对20X覆盖范围进行排序,直到PF_ALIGNED_BASES=10^7*20*HS_PENALTY_20X。
HS_启用_30X“混合选择惩罚”使80%的目标基数达到30倍。这个指标应该被解释为:如果我有一个10兆的目标设计,并且想要我需要对30X覆盖范围进行排序,直到PF_ALIGNED_BASES=10^7*30*HS_PENALTY_30X。
HS_启用_40X“混合选择惩罚”使80%的目标基数达到40倍。这个指标应该被解释为:如果我有一个10兆的目标设计,并且想要40X覆盖范围我需要排序,直到PF_ALIGNED_BASS=10^7*40*HS_PENALTY_40X。
HS_启用_50X“混合选择惩罚”使80%的目标基数达到50倍。这个指标应该被解释为:如果我有一个10兆的目标设计,并且想要我需要对50X覆盖范围进行排序,直到PF_ALIGNED_BASES=10^7*50*HS_PENALTY_50X。
HS_启用_100X“混合选择惩罚”使80%的目标基数达到100倍。这个指标应该被解释为:如果我有一个10兆的目标设计,并且想要100X覆盖范围我需要排序,直到PF_ALIGNED_BASES=10^7*100*HS_PENALTY_100X。
AT_输出衡量未覆盖<=50%GC区域相对于平均值的程度。对于每个GC箱[0..50]我们计算a=%的目标区域,b=%的对齐读取与这些目标对齐。然后,AT DROPOUT为abs(总和(a-b<0时为a-b))。例如,如果该值为5%,则表示总数的5%应该映射到GC的读取数<=50%映射到其他地方的区域。
GC_脱扣测量覆盖率>=50%GC区域相对于平均值的程度。对于每个GC箱[50..100]我们计算a=%的目标区域,b=%的对齐读取与这些目标对齐。GC DROPOUT为abs(总和(a-b<0时为a-b))。例如,如果该值为5%,则表示总数的5%应该映射到GC的读取数>=映射到其他地方的50%区域。
HET_SNP_灵敏度理论HET SNP敏感性。
HET_SNP_Q公司理论HET SNP敏感性的Phred量表Q分。

Illumina基本呼叫指标

Illumina Basecalling的度量,以每个条形码为单位存储平均值和标准偏差。平均值和手段被接管所有瓷砖。

字段描述
车道计算指标的车道。
分子_条形码_SEQUENCE_1计算度量的条形码序列。
分子_条形码_名称为其计算度量的条形码名称。
总计_基数分配给索引的基数总数。
PF_基础分配给索引的传递筛选器基的总数。
总计_读取分配给索引的读取总数。
PF_航向分配给索引的传递筛选器读取总数。
总计_集群分配给索引的簇总数。
PF_集群分配给索引的PF簇的总数。
平均值_群集_性能_文件每个平铺的平均簇数。
SD_CLUSTERS_PER文件每个平铺的簇的标准偏差。
MEAN_PCT_PF_CLUSTERS_PER文件每个平铺的pf簇的平均百分比。
SD_PCT_PF_CLUSTERS_PER文件每个平铺的pf簇百分比的标准偏差。
MEAN_PF_CLUSTERS_PER文件每个平铺的pf簇的平均数。
SD_PF_CLUSTERS_PER文件每个平铺的pf簇数的标准偏差。

Illumina车道计量

体现描述车道的特征。

字段描述
集群_密度此车道上单位面积上的簇数,单位为[cluster/mm^2]。
车道这条车道的号码。

照明相位指标

Illumina Basecalling的指标,以每个模板、每个线路为基础存储中值相位和预相位百分比。相位是指在读取周期中落后或超前(预相位)的分子比例。对于每个车道/模板读取#(即第一、第二)组合,我们将存储相位和预相位的中值该通道/模板读取对中每个磁贴的值。

字段描述
车道Illumina flowcell车道编号
类型名称定义Illumina模板读取编号(第一个或第二个)
PHASING_适用应用于第一个和第二个模板读取的车道中所有分幅的中间相位值
预处理_已应用应用于第一个和第二个模板读取的车道中所有瓷砖的中间值预相位

独立ReplicateMetric

存储生物速率估计相关信息的类

字段描述
n站点
三个无障碍网站
n总读数
n重复集
准确三分
nExactlyDouble(nExactly双精度)
在BigSets中读取
nDifferentAllelesBiDups(不同通道双重复)
参考AllelesBiDups
nAlternate Alleles双重复
nDifferentAllelesTriDups(不同通道三重奏)
nMismatchingAllelesBiDups
参考AllelesTriDups
nAlternate Alleles三重奏
nMismatchingAllelesTriDups
参考读数
n交替读取
nMismatchingUMIsInDiffBiDups
nMatchingUMIsInDiffBiDups
nMismatchingUMIsInSameBiDups
n匹配UMIsInSameBiDups
nMismatchingUMIsInCoOrientedBiDups
nMismatchingUMIsInContraOrientedBiDup
nBad条形码
n良好条形码
双站点异质性比率
三站点异质性比率
双站点同质性比率
三站点同质性比率
BiDups的独立复制率
三重数据的独立复制率
pSameUmiInIndependentBiDup
pSameAlleleWhen失配Umi
独立复制率
复制比率来自复制集

插入大小度量

关于成对-end库的插入大小分布的度量,由CollectInsertSizeMetrics程序,通常写入具有扩展名的文件“.insert_size_mmetrics”。此外,还绘制了镶块尺寸分布扩展名为“.insert_size_Histogram.pdf”的文件。

字段描述
媒体插入大小所有配对末端读数的MEDIAN插入大小,其中两端映射到同一染色体。
媒体_解决方案_偏差分布的中位数绝对偏差。如果分布基本上是正态的,那么标准偏差可估计为~1.4826*MAD。
最小插入尺寸最小测量插入尺寸。这通常是1,并不是很有用,因为它可能是人造的。
最大_插入_大小按对齐方式测量的最大插入尺寸。这通常非常高,表示工件或者可能存在结构重组。
平均插入尺寸分布“核心”的平均插入大小。分布中的人工异常值通常导致计算无意义的平均值和标准偏差值。为了避免这种情况,首先要修剪分布以中位插入尺寸周围+/-N中位绝对偏差的“核心”分布。默认情况下N=10,但这是可配置的。
标准_偏差分布“核心”上插件尺寸的标准偏差。
阅读_信息在整个分布中检查的读取对总数。
对方向(_O)此数据类别中读取的对方向。
10_百分比宽度箱子的“宽度”以中位数为中心,包含10%的所有读取对。
宽度_OF_20_PERCENT存储箱的“宽度”以中间值为中心,包含20%的所有读取对。
宽度_OF_30_PERCENT箱子的“宽度”以中间值为中心,包含30%的所有读取对。
宽度_OF_40_PERCENT存储箱的“宽度”以中间值为中心,包含40%的所有读取对。
宽度_OF_50_PERCENT存储箱的“宽度”以中间值为中心,包含50%的所有读取对。
宽度_OF_60_PERCENT以中位数为中心的存储箱的“宽度”,占所有读取对的60%。
宽度_OF_70%存储箱的“宽度”以中间值为中心,包含70%的所有读取对。当插入尺寸为分布是正态分布。
宽度_OF_80_PERCENT存储箱的“宽度”以中间值为中心,包含80%的所有读取对。
宽度_OF_90_PERCENT以中位数为中心的存储箱的“宽度”涵盖了90%的所有读取对。
宽度_OF_99_PERCENT箱子的“宽度”以中间值为中心,涵盖了所有读取对的100%。

跳转库指标

关于内外对存在的高水平指标在使用跳转库生成的SAM文件中,由CollectJumpingLibraryMetrics程序,通常存储在带有扩展名“jump_metrics”。

字段描述
跳线_鞋款SAM文件中的向外配对数
跳转_复制_图片重复的外部配对数
跳转_复制_PCT标记为重复的向外面对的分数
跳线_ IBRARY_尺寸外部配对的估计库大小
跳线_比赛_插入_尺寸外啮合副的平均插入尺寸
跳线_STDEV_INSERT_SIZE面向外成对镶块尺寸的标准偏差
非跳跃_空位SAM文件中的内面对数
非跳转_重复_PAIRS重复的内面配对数
非跳转_复制_PCT标记为重复的内面对的分数
非跳线_ IBRARY_SIZE内面对的估计库大小
非跳跃_学习_插入_大小内面对的平均镶块尺寸
非跳转_开发_插入_大小内对镶块尺寸的标准偏差
CHIMERIC_PAIRS公司(a)末端落在不同染色体上或(b)插入大小的对数大于最大值100000,或是外啮合副的插入尺寸模式的2倍。
碎片SAM文件中的片段数
PCT_跳跃以所有朝外配对总数的分数表示的朝外配对的数量,内面对和嵌合对。
PCT_非跳跃内表面对的数量表示为所有外表面对总数的一小部分,内面对和嵌合对。
PCT_CHIMERAS公司嵌合对的数量表示为所有外向对总数的一小部分,内面对和嵌合对。

孟德尔违规指标

描述在Trio中发现的孟德尔违规的类型和数量。

字段描述
家庭_ID分配给计算这些指标的三人组的族ID。
母亲三人组中母亲的ID。
父亲三人组中父亲的ID。
后代三人组中后代的ID。
OFFSRING_SEX系列后代的性别。
编号_船上_场地所有相关样本的双等位基因SNP位点的数量超过了最小的基因型质量和深度,并且至少有一个样本是变异的。
NUM_DIPLOID_DENOVO公司观察到潜在去卵形突变的二倍体位点的数量(即双亲均为hom-ref,后代不是hom-ref.)。
数字_洪量_洪量_HET双亲对非参考等位基因均为纯合且后代为杂合的位点数量。
NUM_HOMREF_HOMVAR_HOM编号一个亲本为纯合子参照物、另一个纯合子变体和子代为纯合子的位点数量。
NUM_HOM_HET_HOM编号一个亲本为纯合子,另一个为杂合子,后代为备选纯合子的位点数量。
数字应用程序后代为单倍体,亲本为纯合参考,后代为非参考的位点数量。
NUM_HAPLOID_其他子代为单倍体并显示出在父代中不存在的参考等位基因的位点数量。
数字_其他其他未分类事件的数量。
总计_孟德尔语_ IOLATIONS观察到的所有孟德尔违规行为的总数。

可合并MetricBase

MetricBase的扩展,它知道如何通过添加适当注释的字段来合并。它还提供了一个接口用于计算派生字段(以及通知所述字段已派生的注释)。最后,它还允许注释这意味着一个字段将被用作ID,因此合并只需要这些字段相等。merge-by-adding仅对以下类型启用:int、Integer、float、float、double、double、short、short、long、long、byte、byte。将检测到溢出(对于短类型和字节类型)并引发异常。

字段描述

多级指标

字段描述
样品这些指标适用的样本。如果为空,则表示它们适用文件中的所有读取。
图书馆应用这些指标的库。如果为null,则表示在样本水平上累积指标。
阅读_分组这些指标适用的读取组。如果为null,则表示度量是在库或样本级别上累积的。

RnaSeq度量

由CollectRnaSeqMetrics生成的SAM文件中RNA-seq读取与基因对齐的度量通常存储在扩展名为“.rnametrics”的文件中。

字段描述
PF_基础包括非对齐读取的PF基的总数。
PF_校准底座对齐的PF基的总数。非主要路线不计算在内。对齐的基数表示不符合参考(例如,软剪辑、插入)不计算在内。
核糖体_基底与核糖体序列对齐的初级比对中的碱基数。
编码_基准与某些基因的非UTR编码碱基(而非核糖体序列)对齐的初级比对中的碱基数。
UTR_基础与某些基因的UTR碱基(而非编码碱基)对齐的初级比对中的碱基数。
内部基础初级比对中与某些基因的内含子碱基对齐的碱基数,而不是编码碱基或UTR碱基。
INTERGENIC_基础初级比对中不与任何基因比对的碱基数。
忽略_读数映射到命令行上指定为IGNORED_sequence的序列的主对齐数。这些不是以PF_ALIGNED_BASES、CORRECT_STRAND_READS、INCORRECT_STRAND-READS或任何基本计数指标计算。这些读取在PF_BASES中计数。
更正_记录_读数映射到正确链的对齐读取数。如果库不是特定于股的,则为0。
错误_STRAND_READS映射到错误链的对齐读取数。如果库不是特定于股的,则为0。
数字_R1_TRANSCRIPT_STRAND_READS支持R1位于转录链上而R2位于相反的股。
数字R2_TRANSCRIPT_STRAND_READS支持R2位于转录链上而R1位于相反的模型的读取部分搁浅。
NUM_UNEXPLAINED_READS号无法推断出转录链模型的读数部分。
PCT_R1_变速箱SCRIPT_STRAND_READS支持R1位于转录链上而R2位于相反的股。对于非成对读取,它是转录链上读取的一部分(在所有读取中阅读)。
PCT_R2_传输SCRIPT_STRAND_READS支持R2位于转录链上而R1位于相反的模型的读取部分搁浅。对于未成对读取,它是与转录链(在所有读取中)。
PCT核糖体碱基映射到核糖体RNA编码区的PF_ALIGNED_BASES/PF_ALIGNED_BASES的部分
PCT_编码基础映射到基因蛋白质编码区的PF_ALIGNED_BASES的分数,coding_BASES/PF_ALIGNED_BASE
PCT_UTR_基础映射到基因非翻译区域(UTR)的PF_ALIGNED_BASES的分数,UTR_BASES/PF_ALIGNED_BASE
PCT_INTRONIC_基础对应基因内含子的PF_ALIGNED_BASES的分数,INTRONIC_BASES/PF_ALIGNED_BASE
PCT_INTERGENIC_基础映射到基因组DNA基因间区域的PF_ALIGNED_BASES的分数,intergenic_BASES/PF_ALIGNED_BASE
PCT_MRNA_基础映射到与UTR和mRNA转录物编码区相对应的区域的碱基总和,PCT_UTR_bases+PCT_coding_bases
PCT_可用基础映射到mRNA的碱基分数除以PF碱基总数,(CODING_bases+UTR_bases)/PF_bases。
PCT_CORRECT_STRAND_READS公司对应于映射到参考基因组正确链的mRNA转录本的读取片段=CORRECT_STRAND_READS/(CORRECT_STRAND-READS+INCORRECT_STRAND_READS)。如果库不是特定于股的,则为0。
媒体_视频_覆盖1000个最高表达转录本覆盖值的变异系数中值(CV)或标准偏差/平均值。理想值=0。
中央分隔带_5PRIME_BIAS1000个高表达转录本的中位5素数偏差。5素数偏差根据计算转录本as:5个质数最多的100个碱基的平均覆盖率除以整个转录本的平均覆盖度。
媒体_3PRIME_BIAS1000个高表达转录本的中位3素数偏差,其中3素数偏移是根据转录物为:3个素数最多100个碱基的平均覆盖率除以整个转录物的平均覆盖率。
媒体_5PRIME_TO_3PRIME_BIAS基于1000个最高表达的转录本,5个质数端与3个质数末端的覆盖率。

RrbsPage详细指标

保存有关RRBS处理QC遇到的CpG站点的信息

字段描述
序列_名称CpG出现的顺序
位置CpG站点序列中的位置
总计_站点遇到此CpG站点的次数
转换的站点该CpG位点被转换的次数(TG表示+链,CA表示-链)
PCT_转换CpG转换基/CpG总基(分数)

Rrbs汇总指标

保存RRBS处理QC的汇总统计信息

字段描述
读取_校准已处理的映射读取数
非CPG基础遇到非CpG胞嘧啶的次数
非CPG_CONVERTED_BASES非CpG胞嘧啶转化的次数(C->T表示+,G->a表示-)
PCT_NON_CPG_基础_转换NON_CPG_CONVERTED_BASES/NON_CPG_BASES(分数)
CPG_基础_搜索遇到的CpG站点数
CPG_基础_转换转换的CpG位点数量(TG表示+,CA表示-)
PCT_CPG_基础_转换CPG_BASES_CONVERTED/CPG_BASES_SEEN(分数)
平均CPG_覆盖CpG站点的平均覆盖率
媒体_媒体_覆盖CpG站点的中位数覆盖率
读取不含CPG由于没有CpG站点而丢弃的读取数
阅读_忽略_截图由于太短而丢弃的读取数
读取忽略的偏差因超过不匹配阈值而丢弃的读取数

排序工件度量。诱饵偏差详细指标

诱饵偏差伪影按上下文分解。

字段描述
样品_ALIAS
图书馆正在分析的库的名称。
参考基础(_B)参考钢绞线上的(大写)原始底座。
ALT_基础作为DNA损伤的结果而被称为(大写)替代碱基。
上下文分析受约束的序列上下文。
FWD_CXT_REF_基础具有给定参考上下文的站点上REF_BASE:REF_BOSE对齐的数量。
FWD_CXT_ALT_基础具有给定参考上下文的站点上REF_BASE:ALT_BASE路线的数量。
修订_文本_参考_基础与给定参考上下文互补的站点上~REF_BASE:~REF_ BASE比对的数量。
版次_文本_标签与给定参考上下文互补的站点上~REF_BASE:~ALT_BASE路线的数量。
转发错误速率REF_BASE的取代率:ALT_BASE,计算为max(1e-10,FWD_CXT_ALT_BASES/(FWD_CXT_ALT_BASES+FWD_CHT_REF_BASES))。
修订_错误_比率~REF_BASE:~ALT_BASE的替代率,计算为最大值(1e-10,REV_CXT_ALT_BASES/(REV_CXT_ALT_BASES+REV_CX _REF_BASES))。
错误_比率诱饵偏误率,计算为最大值(1e-10,FWD_error_rate-REV_error-rate)。
QSCORE公司工件的Phred-scaled质量分数,计算为-10*log10(ERROR_RATE)。

排序工件度量。诱饵偏差汇总指标

单一诱饵偏差伪影的总结分析,也称为参考偏差伪影。这些工件发生在目标选择步骤期间或之后,并与替换相关对于在参考/阳性链上有一个碱基的站点,比率是“有偏见的”或更高的相对于在该链上具有互补碱基的位点。例如,目标选择步骤中的G>T伪影可能会导致更高的G> T/C>阳性链上有G(阴性链上有C)的位点的替代率,相对于具有翻转的位点(C阳性/G阴性)。这就是所谓的“G-Ref”工件。

字段描述
样品_ALIAS正在分析的样本的名称。
图书馆正在分析的库的名称。
参考基础(_B)参考钢绞线上的(大写)原始底座。
ALT_基础因DNA损伤而被称为(大写)替代碱基。
总计_QSCORE此工件的总Phred-scaled Q分数。Q分数较低表示REF_BASE:ALT_BASE观测的概率较高从数据中随机选取将是由于这个工件,而不是而不是真正的变体。
最差_文本在该工件的所有上下文中,Q-得分最低的序列上下文(关注点周围的参考基)。
最差_最新_ QSCORE最差情境的Q分数。
最差_预览_文本Q-得分最低的前上下文(指向兴趣点的参考基础)。
最坏_最新_最新最差前上下文的Q分数。
最坏_最坏_文本Q-得分最低的后上下文(参考基位于兴趣点之后)。
WORST_POST_CXT_QSCORE(最坏_最新_最新)最差后语境的Q分数。
艺术品_名称这个工件的“昵称”,如果它是已知的错误模式。

排序工件度量。预适配器详细指标

按上下文细分的预适配器工件。

字段描述
样品_ALIAS正在分析的样本的名称。
图书馆正在分析的库的名称。
参考基础(_B)参考钢绞线上的(大写)原始底座。
ALT_基础作为DNA损伤的结果而被称为(大写)替代碱基。
上下文分析受约束的序列上下文。
PRO_REF_基础具有支持该工件存在的读取编号和方向的REF_BASE:REF_BOSE对齐的数量。
专业_后勤_基础REF_BASE:ALT_BASE对齐的数量,具有支持此工件存在的读取编号和方向。
CON_REF_基础REF_BASE:REF_BOSE比对的数量,其读取数量和方向反驳了该工件的存在。
CON_ALT_基础REF_BASE:ALT_BASE比对的数量,其读取数量和方向反驳了此工件的存在。
错误(_R)由于该伪影而估计的错误率。计算为最大值(1e-10,(PRO_ALT_BASES-CON_ALT_BA SES)/(PRO_ALT_BASES+PRO_REF_BASES+CON_ALT_ BASES+CON_REF_BA SEs))。
QSCORE公司工件的Phred-scaled质量分数,计算为-10*log10(ERROR_RATE)。

排序工件度量。预适配器摘要指标

单个预适配器工件的摘要分析。在添加适配器之前,这些工件发生在原始模板链上,因此,它们以特定的方式与读数/方向相关。例如,众所周知的“Oxo-G”工件发生在模板上的G链被氧化,使其与A而不是通常的C结合。因此,PCR将在读1中引入明显的G>T替换,在读2中引入C>A。在结果比对中,给定的G>T或C>a观测值可以是:1.真正的突变2.OxoG工件3.其他类型的人工制品平均而言,我们假设1和3不会显示此读取数/方向偏差,因此他们的贡献将在计算中抵消。

字段描述
样品_ALIAS正在分析的样本的名称。
图书馆正在分析的库的名称。
参考基础(_B)参考钢绞线上的(大写)原始底座。
ALT_基础因DNA损伤而被称为(大写)替代碱基。
总计_QSCORE此工件的总Phred缩放Q分数。Q分较低表示REF_BASE:ALT_BASE观测的概率较高从数据中随机选取将是由于这个工件,而不是而不是真正的变体。
最差_文本在该工件的所有上下文中,Q-得分最低的序列上下文(关注点周围的参考基)。
最差_最新_ QSCORE最差情境的Q分数。
最差_预览_文本Q-得分最低的前上下文(指向兴趣点的参考基础)。
最坏的预处理最差前置上下文的Q分数。
最坏_最坏_文本Q-得分最低的后上下文(参考基位于兴趣点之后)。
WORST_POST_CXT_QSCORE(最坏_最新_最新)最差后语境的Q分数。
艺术品_名称这个工件的“昵称”,如果它是已知的错误模式。

目标绩效指标

用于分析从目标pcr实验获得的读数的度量类,例如TruSeq自定义扩增子(TSCA)试剂盒(Illumina)。

字段描述
自定义AMPLICON_SET此度量收集运行中使用的amplicon集的名称
GENOME_SIZE(发电机_尺寸)用于比对的参考基因组中的碱基数
AMPLICON_TERRITORY(放大器_错误)扩增子集合中所有扩增子的间隔所覆盖的唯一碱基数
目标_错误应覆盖的所有目标的间隔所覆盖的唯一基数
总计_读取检查的SAM或BAM文件中的读取总数
PF_航向通过过滤器(PF)的读取总数,其中过滤器可以是平台/供应商质量控制
PF_基础要检查的SAM或BAM文件的PF_READS中的碱基总数
PF_单位_读数未标记为样品或光学副本的PF_READS数量。
PCT_PF_广告通过过滤器的读取部分,PF_reads/TOTAL_reads。
PCT_PF_UQ_读取唯一且不重复的TOTAL_READS的分数PF_unique_READS/TOTAL_LEADS
PF_UQ_READS_校准与映射得分>0的参考基因组对齐的PF_UNIQUE_READS总数
PF_选定_对跟踪PF读取对的数量(用于计算库大小)
PF_选定的唯一路径跟踪观察到的唯一、PF、读取对的数量(用于计算库大小)
PCT_PF_UQ_READS_校准唯一且与参考基因组一致的PF_READS部分,PF_UQ_READS_ALIGNED/PF_READS
PF_基线对齐PF_READS中与映射得分>0的参考基因组对齐的碱基数
PF_UQ_基础_对齐PF_UNIQUE_READS中与参考基因组对齐且映射得分>0的碱基数
基于MPLICON_BASES的映射到基因组扩增区域的PF_BASES_ALIGNED的数量。
AMPLICON_BASES附近在放大区域的固定间隔内映射到的PF_BASES_ALIGNED数,但不映射到诱饵区域。
关闭_示例_基准既不映射在放大子上也不映射在其附近的PF_BASES_ALIGNED的数量。
目标基础上映射到基因组目标区域的PF_BASES_ALIGNED的数量。
基于目标的空域PF_SELECTED_UNIQUE_PAIRS中映射到基因组目标区域的碱基数。
PCT_放大器底座映射到放大子或其附近的PF_BASES_ALIGNED的分数(ON_amplicon_BASES+近_AMPLICON_BASES)/PF_BASES_ALIGNED。
PCT_OFF_AMPLICON公司未映射到放大子上或附近的PF_BASES_ALIGNED的分数,关闭AMPLICON_BASES/PF_BASES_ALIGNED
ON_AMPLICON_VS_选择映射到放大子上或附近区域的碱基的分数,这些区域直接映射到但不靠近放大子放大器,ON_AMPLICON_BASES/(NEAR_AMPLICON_BASES+ON_AMPRICON_BASE)
平均值_振幅_覆盖实验中所有放大子区域的平均读取覆盖率。
平均目标覆盖率实验中所有目标区域的平均读取覆盖率。
媒体目标覆盖映射到实验目标区域的读取的中间覆盖率。
最大目标覆盖范围映射到实验目标区域的读取的最大覆盖范围。
折叠_确认扩增子区域在基因组背景上被扩增的倍数。
零CVG_目标_PCT未达到覆盖范围的目标比例=任何基数上的1。
PCT_EXC_DUPE公司由于处于标记为重复的读数中而被过滤掉的对齐碱基的部分。
PCT_EXC_MAPQ公司由于处于低映射质量读取中而被过滤掉的对齐碱基的比例。
PCT_EXC_基础由于碱基质量低而被过滤掉的对齐碱基的比例。
PCT_EXC_重叠由于它们是第二个观测值而被筛选出的对齐碱基的比例插入重叠读数。
PCT_EXC_OFF_目标由于未映射到目标区域内的基础而被过滤掉的基础的分数。
折叠_80_基础_惩罚将“非零cvg”目标中80%的碱基提高到这些目标的平均覆盖水平。
PCT_目标_基础_1X所有目标基地达到1倍或更大覆盖范围的部分。
PCT_目标_基础_2X所有目标基地达到2倍或更大覆盖深度的部分。
PCT_目标_基础_10X所有目标基地达到10倍或更大覆盖深度的部分。
PCT_目标_基础_20X所有目标基地达到20倍或更大覆盖深度的部分。
PCT_目标_基础_30X所有目标基地达到30倍或更大覆盖深度的部分。
AT_DROPOUT(自动跳出)相对于平均覆盖率,GC含量较低(<=50%)的区域是如何被覆盖的。将GC含量[0..50]分为两部分后,我们计算a=目标区域的分数,b=对齐读取与每个箱子的这些目标对齐。AT DROPOUT是abs(总和(a-b<0时为a-b))。例如,如果AT_DROPOUT值为5%,这意味着总读取量的5%应映射到GC<=50%的区域,映射到其他地方。
GC_脱扣相对于平均覆盖率,高GC含量(>=50%GC)区域如何被覆盖的测量值。对于每个GC bin[50..100],我们计算a=目标区域的%,b=对齐读取的%实现这些目标。GC DROPOUT为abs(总和(a-b<0时为a-b))。例如,如果值为5%,则意味着应该映射到GC的总读取数的5%>=50%区域,映射到其他位置。
HET_SNP_灵敏度理论HET SNP敏感性。
HET_SNP_Q理论HET SNP敏感性的Q分数。

UmiMetrics公司

标记重复项过程中计算的指标在SAMRecords流中使用UmiAwareDuplicateSetIterator。

字段描述
平均长度每个UMI中的基数
观察到的_UNIQUE_UMIS观察到的不同UMI序列数
参考_UNIQUE_UMIS派生的不同推断UMI序列数
观察到的_基础_错误通过比较观察到的UMI和推断出的UMI推断出的错误数
复制_SETS_IGNORING_UMI考虑UMI之前发现的重复集数
复制_设置_不带_UMI考虑UMI后发现的重复集数
观察到_UMI_ENTROPY观察到的UMI序列的熵(以4为基数),表示UMI中的有效基地数量。如果这很明显小于UMI_LENGTH,表示UMI不是均匀分布。
参考_UMI_ENTROPY推断UMI序列的熵(以4为基数),表示推断UMI中的有效碱基数。如果这很明显小于UMI_LENGTH,则表示UMI不是均匀分布。
UMI_基础_质量麻省大学学生Phred量表质量分数的估计