Picard指标定义
路线汇总指标
SAM文件中读取对齐的高级度量,由CollectAlignmentSummaryMetrics程序,通常存储在带有扩展名“.alignment_summary_metrics”。
字段 | 描述 |
类别 | 当度量仅用于在成对运行中第一次读取,当指标仅用于第二次读取时为SECOND_OF_PAIR在成对运行或PAIR中,当第一次和第二次读取的度量都被聚合时成双成对。 |
总计_读取 | 包括所有PF和非PF读取的读取总数。当CATEGORY等于PAIR时这个值将是集群数量的2倍。 |
PF_航向 | PF被定义为通过Illumina过滤器的PF读取次数。 |
PCT_PF_读取 | PF读取的分数(PF_reads/TOTAL_reads) |
PF_NOISE_READS公司 | 标记为噪声读取的PF读取数。噪声读数是由完全由A基和/或N基组成。这些阅读被标记为通常是虚假的在下游分析中没有用处。 |
PF_读取_校准 | 与参考序列对齐的PF读取数。这包括以下内容低质量对齐(即对齐不明确)。 |
PCT_PF_读取_校准 | 与参考序列对齐的PF读取百分比。PF_READS_校准/PF_READS |
PF_校准底座 | 在所有映射的PF读取中,与参考序列对齐的对齐基的总数。 |
PF_HQ_校准_读数 | 映射质量为的与参考序列对齐的PF读取数Q20或更高表示对准器估计有1/100(或更小)的概率对齐错误。 |
PF_HQ_对齐的基础 | 在映射为高的读取中与引用序列对齐的碱基数质量。通常近似于PF_HQ_ALIGNED_READS*READ_LENGTH,但在以下情况下可能有所不同要么存在混合读取长度,要么许多读取与间隙对齐。 |
PF_HQ_校准_Q20_底座 | 基本通话质量为Q20或更高的PF_HQ_ALIGNED_BASES的子集。 |
PF_HQ_媒体_匹配 | 对齐读取中与参考序列不匹配的中位数高质量参考(即PF_HQ_ALIGNED READS)。 |
PF_匹配_比率 | 所有与参考序列对齐的碱基与参考不匹配的比率。 |
PF_HQ_错误_比率 | PF HQ比对读数中与参考不匹配的碱基的分数。 |
PF_INDEL_RATE公司 | 每100个对齐基数的插入和删除事件数。使用事件数作为分子,而不是插入或删除的基数。 |
平均读取长度 | 所检查的读取集的平均读取长度。查看单车道数据时等长读取,这个数字就是读取长度。查看合并车道的数据时不同的读取长度这是所有读取的平均读取长度。 |
读取校准对 | 配对对也与参考对齐的对齐读取数。 |
PCT_READS_ALIGNED_IN_PAIRS(PCT_读取_校准_配对) | 配对对也与参考对齐的读取数的分数。读取校准_IN_PAIRS/PF_READS_ALIGNED |
PF_READS_IMPROPER_PAIRS公司 | 成对**未**“正确”对齐的(主)对齐读取数(根据SAM标记0x2)。 |
PCT_PF_READS_IMPROPER_PAIRS公司 | 成对*未*“正确”对齐的(主)读取部分(根据SAM标记0x2)。PF_READS_IMPROPER_PAIRS/PF_READS校准 |
BAD_自行车 | 80%或更多基本呼叫为无呼叫的仪器周期数。 |
钢绞线平衡 | 与基因组正链对齐的PF读取数除以PF读数与基因组对齐。 |
PCT_CHIMERAS公司 | 超出最大插入尺寸(通常为100kb)或具有两端映射到不同的染色体。 |
PCT_适配器 | 未对齐并与来自开始阅读。 |
按周期指标的基本分布
字段 | 描述 |
读取_结束 | |
CYCLE(循环) | |
PCT_A公司 | |
PCT_C公司 | |
PCT_G公司 | |
百分比时间 | |
个人计算机 | |
群集交叉检查度量
保存聚集交叉检查指纹结果的Metric类。相同的度量将用于交叉检查读组、库、样本或文件。
收集HiSeqXPfFailMetrics。PFFailDetailed度量
用于描述Illumina HiSeqX通道中FP失败读取的度量类*
字段 | 描述 |
瓦片 | 此度量描述的平铺 |
X(X) | 瓷砖内读数的X坐标 |
Y(Y) | 瓷砖内读数的Y坐标 |
数字(_N) | 此读取中找到的N数 |
数字_Q_GT_TWO | 此读取中发现的质量分数大于2的数量 |
分类 | 分类如下:{EMPTY,POLYCLONAL,MISALIGNED,UNKNOWN}(有关可能的分类的解释,请参阅PFFailSummaryMetric。) |
收集HiSeqXPfFailMetrics。PFFailSummaryMetric(PF故障摘要度量)
GetHiSeqXPFFailMetrics程序生成的度量。用于从HiSeqX诊断车道排序,提供读取可能未通过PF的每个原因的数量和分数。可能的原因是EMPTY(从没有模板链的空井中读取)、POLYCLONAL(从具有多个链的井中读取克隆到它们中)、MISALIGNED(从贴片边缘附近的井读取)、UNKNOWN(读取未通过PF但无法诊断)
字段 | 描述 |
瓦片 | 由该度量描述的平铺。可以是字符串(如“All”),表示瓷砖上的一些边缘* |
阅读 | 检查的读取总数 |
PF_FAIL_READS(PF_FAIL _读取) | 此磁贴中的非PF读取数。 |
PCT_PF_FAIL_READS(PCT_PF_故障_读取) | PF_READS的分数 |
PF_FAIL_空 | 此磁贴中被视为空的非PF读取数。 |
PCT_PF_FAIL_空 | 此瓦片中被视为空的非PF读取的分数(作为所有非PF读取的分数)。 |
PF_失败_多克隆 | 此磁贴中被视为多克隆的非PF读取数。 |
PCT_PF_FAIL_POLYCLONAL公司 | 此磁贴中被视为多克隆的非PF读取的部分(作为所有非PF读的部分)。 |
PF_FAIL_未对准 | 此磁贴中被视为“未对齐”的非PF读取数。 |
PCT_PF_FAIL_未对准 | 此磁贴中被视为“未对齐”的非PF读取的部分(作为所有非PF读的部分)。 |
PF_FAIL_未知 | 此磁贴中尚未分类的非PF读取数。 |
PCT_PF_FAIL_未知 | 此磁贴中未分类的非PF读取的部分(作为所有非PF读的部分)。 |
收集OxoG指标。CpcgMetrics公司
输出的度量类。
字段 | 描述 |
样品_ALIAS | 正在分析的样本的名称。 |
图书馆 | 正在分析的库的名称。 |
上下文 | 正在报告的序列上下文。 |
总计_站点 | 至少有一个基地覆盖的站点总数。 |
总计_基数 | 在所有站点上观察到的基本调用总数。 |
参考NONOXO_BASES | 参考等位基因的数量在读1中观察到C,在读2中观察到G。 |
REF_OXO_基准 | 参考等位基因的数量在读1中为G,在读2中为C。 |
参考总计基准 | 观察到的参考等位基因总数 |
ALT_NONOXO_碱 | 在C参考位置和T基本调用处观察到的A基本调用计数与仪器读数相关的G基准排除氧化是原因 |
ALT_OXO_碱 | 在C参考位置和T基本调用处观察到的A基本调用计数与仪器读数相关的G基准这与氧化损伤一致。 |
氧化错误率 | 氧错误率,计算为最大值(ALT_oxo_BASES-ALT_NONOXO_BASE,1)/TOTAL_BASES |
氧化_Q | -10*log10(氧化还原速率) |
C_REF_REF_基础 | 在基因组参考==C的位置观察到的ref基调用数。 |
G_REF_REF_基础 | 在基因组参考==G的位置观察到的ref基调用数。 |
C_REF_ALT_基础 | 在基因组参考==C的位置观察到的alt(A/T)碱基调用数。 |
G_REF_ALT_基础 | 在基因组参考==G的位置观察到的alt(A/T)碱基调用数。 |
C_REF_OXO_错误_比率 | 在C参考位点上观察到的C>A和G>T替换的速率高于预期速率,如果存在具有C参考基和G参考基的站点之间没有偏差。 |
C_REF_OXO_Q | C_REF_OXO_ERROR_RATE表示为分数质量分数。 |
G_REF_OXO_错误_比率 | 在G参考位点上观察到C>A和G>T替换的速率高于预期速率,如果存在具有C参考基和G参考基的站点之间没有偏差。 |
G_参考_OXO_Q | G_REF_OXO_ERROR_RATE表示为分数质量分数。 |
收集质量收益指标。质量收益指标
用于描述BAM文件的一般质量的一组度量
字段 | 描述 |
总计_读取 | 输入文件中的读取总数 |
PF_航向 | PF通过过滤器的读取数 |
阅读_长度 | 所有读取的平均读取长度(对于车道来说是固定的) |
总计_基数 | 所有读取中的基数总数 |
PF_基础 | 所有PF读取中的基总数 |
问题20_基础 | 所有读取中达到质量分数20或更高的基数 |
PF_Q20_基础 | PF读取中达到20或更高质量分数的碱基数 |
Q30_基础 | 所有读取中达到质量分数30或更高的基数 |
PF_Q30_基础 | PF中达到质量分数30或更高的基数 |
Q20_当量_产量 | 所有基地的质量分数之和除以20 |
PF_Q20_当量_屈服 | PF读数中所有基数的质量分数之和除以20 |
收集原始WgsMetrics。原始WgsMetrics
收集变量调用度量。变量调用详细度量
给定样本的方差调用文件(VCF)中与snp和indel相关的度量集合。
字段 | 描述 |
样品_ALIAS | 正在分析的样本的名称 |
HET_HOMVAR_RATIO公司 | 此样本的(hets计数)/(纯合非ref计数) |
PCT_GQ0_乘客 | 特定样本中GQ得分为0的变体的百分比。 |
总计GQ0_乘客 | 特定样本中GQ得分为0的变体总数。 |
总计_高度_深度 | 传递此样本的双等位SNP hets的读取总数(来自AD字段) |
收集变量调用度量。变量调用摘要度量
变体调用文件(VCF)中与snp和indel相关的度量集合。
字段 | 描述 |
总计_SNPS | 通过检测的双等位SNP调用数(即非参考基因型) |
编号_IN_DB_SNP | 在dbSNP中发现的通过双等位SNP的数量 |
NOVEL_SNPS公司 | dbSNP中未找到的调用的传递双等位SNPS的数量 |
过滤器_SNPS | 筛选的SNP数量 |
PCT_DBSNP公司 | dbSNP中双等位SNP的通过率 |
数据库名称(_T) | 在dbSNP位点进行的通过双等位基因SNP调用的转换/转译比率 |
NOVEL_TITV公司 | 在非dbSNP站点发出的双等位SNP呼叫的转换/转换比率 |
总计_索引 | 检查的通过indel调用数 |
新品_INDELS | 在dbSNP中找不到调用的传递索引数 |
过滤器_索引 | 筛选的索引数 |
PCT_DBSNP_索引 | dbSNP中通过指数的分数 |
数字_IN_DB_SNP_INDELS | 在dbSNP中找到的传递索引数 |
DBSNP_INS_DEL_RATIO公司 | 在dbSNP站点进行的indel调用的插入/删除比率 |
NOVEL_INS_DEL_RATIO公司 | 在非dbSNP站点进行的indel调用的插入/删除比率 |
总计_ MULTIALLELIC_SNPS | 通过检查的多等位基因SNP呼叫数 |
数字_IN_DB_SNP_MULTIALLELIC | dbSNP中发现的通过多等位基因SNP的数量 |
总计_综合_索引 | 已检查的传递的复杂indel调用数 |
数字_IN_DB_SNP_COMPLEX_INDELS | 在dbSNP中找到的传递复数索引数 |
SNP_参考_BIAS | 在ref/alt杂合SNP位点观察到参考碱基的比率。 |
NUM_SINGLETONS公司 | 对于摘要指标,是指仅出现在一个样本中的变量数。对于详细指标,是指仅出现在当前样本中的变量数。 |
收集WgsMetrics。WgsMetrics公司
评估全基因组测序实验性能的指标。
字段 | 描述 |
基因_错误 | 基因组参考中用于评估覆盖率的非N碱基的数量。 |
平均覆盖率 | 应用所有过滤器后,基因组区域基底的平均覆盖率。 |
SD_平均值 | 应用所有过滤器后基因组覆盖率的标准偏差。 |
媒体_覆盖 | 应用所有过滤器后,基因组区域基底的中位数覆盖率。 |
MAD_覆盖 | 应用所有过滤器后,基因组覆盖率的中位绝对偏差。 |
PCT_EXC_MAPQ公司 | 由于处于低映射质量读取中而被过滤掉的对齐碱基的比例(默认值<20)。 |
PCT_EXC_DUPE公司 | 由于处于标记为重复的读取中而被筛选出的对齐碱基的分数。 |
PCT_EXC_未批准 | 由于读取时没有映射配对而被过滤掉的对齐碱基的比例。 |
PCT_EXC_基础 | 由于碱基质量低而被筛选出的对齐碱基的比例(默认值<20)。 |
PCT_EXC_重叠 | 由于它们是具有重叠读取的插入中的第二个观察值而被过滤掉的对齐碱基的比例。 |
PCT_EXC_已批准 | 由于将覆盖范围提高到上限值以上而被过滤掉的对齐基数的分数(默认上限=250x)。 |
PCT_EXC_总计 | 由于所有过滤器而排除的对齐基的总分数。 |
PCT_1X型 | 在后滤波基中达到至少1X序列覆盖率的基的分数。 |
PCT_5倍 | 在后滤波基中达到至少5倍序列覆盖率的基的分数。 |
PCT_10X型 | 在后滤波基中达到至少10X序列覆盖率的基的部分。 |
PCT_15倍 | 在滤波后碱基中达到至少15X序列覆盖率的碱基部分。 |
PCT_20倍 | 在后滤波基中达到至少20X序列覆盖率的基的分数。 |
PCT_25倍 | 在后滤波基中达到至少25倍序列覆盖率的基的分数。 |
PCT_30倍 | 在后滤波基中达到至少30X序列覆盖率的基的部分。 |
PCT_40倍 | 在后滤波基中达到至少40X序列覆盖率的基的部分。 |
PCT_50倍 | 在后滤波基中达到至少50X序列覆盖率的基的部分。 |
60倍百分比 | 在滤波后碱基中达到至少60X序列覆盖率的碱基部分。 |
PCT_70X型 | 在后滤波基中达到至少70X序列覆盖率的基的部分。 |
PCT_80倍 | 在后滤波基中达到至少80X序列覆盖率的基的部分。 |
PCT_90倍 | 在后滤波基中达到至少90X序列覆盖率的基的部分。 |
PCT_100X型 | 在后滤波基中达到至少100X序列覆盖率的基的分数。 |
HET_SNP_灵敏度 | 理论HET SNP敏感性。 |
HET_SNP_Q公司 | 理论HET SNP敏感性的Phred量表Q分。 |
收集非零覆盖的WgsMetrics。具有非零覆盖率的WgsMetrics
评估全基因组测序实验性能的指标。
字段 | 描述 |
类别 | WHOLE_GENOME或NON_ZERO_REGIONS之一 |
交叉检查公制
保存交叉检查指纹结果的类。相同的度量将用于交叉检查读组、库、样本或文件。
字段 | 描述 |
左侧组值 | |
右侧组值 | |
结果 | |
数据_类型 | |
LOD_评分 | |
LOD_SCORE_TUMOR_NORMAL(LOD_SCRE_正常) | |
LOD_SCORE_NORMAL_TUMOR(LOD_SCRE_NORMAL_TUMOR) | |
LEFT_RUN_BARCODE(左运行条形码) | |
左侧_区域 | |
左_ OLECULAR_BARCODE_SEQUENCE | |
LEFT_LIBRARY(左侧_左侧) | |
左_样本 | |
左侧文件 | |
右_运行_条形码 | |
右侧_车道 | |
右_ OLECULAR_BARCODE_SEQUENCE | |
右侧_图书馆 | |
右_样品 | |
右侧文件 | |
重复度量
标记重复项过程中计算的指标在SAMRecords流中。
字段 | 描述 |
图书馆 | 执行重复标记的库。 |
未付款_已审核 | 检查的没有映射配对的映射读取数,要么是因为读取未配对,要么读取与未映射的配对配对。 |
READ_PAIRS_检查 | 检查的映射读取对数。(主要,非补充) |
第二个_OR_补充_RDS | 辅助或补充读取数 |
未应用_读取 | 检查的未映射读取总数。(主要,非补充) |
未配对读取副本 | 标记为重复的碎片数。 |
读取PAR_DUPLICATES | 标记为重复的读取对数。 |
读取PAR_OPTICAL_副本 | 由光学复制引起的读取对重复数。值始终为<READ_PAIR_DUPLICATES,它统计所有重复项,而不管源是什么。 |
复制百分比 | 标记为重复的映射序列的部分。 |
估计_ IBRARY_SIZE | 基于PE复制的库中唯一分子的估计数量。 |
错误汇总度量
由{@link CollectSequencingArtifactMetrics}生成的摘要度量,作为特定于上下文的错误率,以提供每种基替换类型的全局错误率。错误被归一化为词汇上较低的参考基数,并汇总在一起。例如。G> T转换为C>A并与来自C>A的数据合并以进行报告。
字段 | 描述 |
参考基础(_B) | 参考基数(或其补码)。 |
ALT_基础 | 替代基(或其补码)。 |
替代 | 为方便起见,表示从REF_BASE到ALT_BASE的替换的单个字符串。 |
引用计数 | 观察到的参考基数。 |
ALT_COUNT(报警计数) | 观察到的alt碱基数。 |
替代_比率 | 所讨论的替代率。 |
提取照明条形码。条形码公制
ExtractIlluminaBarcode程序生成的度量,用于分析中的数据basecalls目录并确定每次读取应分配给哪个条形码。
字段 | 描述 |
条形码 | 适用以下指标的条形码(来自预期条形码集)。请注意,NNNNNN的“符号”条形码用于报告所有读取的度量与条形码不匹配。 |
条形码_不带发送器 | |
条形码_名称 | 条形码名称。 |
图书馆_名称 | 库的名称 |
阅读 | 与条形码匹配的读取总数。 |
PF_航向 | 与此条形码匹配的PF读取数(始终小于或等于reads)。 |
完美匹配 | 与此条形码匹配且匹配0个错误或无错误的所有读取数。 |
PF_维护_匹配 | 与此条形码匹配的PF读取数,该条形码匹配0个错误或没有调用。 |
ONE_MISMATCH_MATCHES(ONE_不匹配_匹配) | 与此条形码匹配且匹配1个错误或无错误的所有读取数。 |
PF_ONE_MISMATCH_MATCHES公司 | 与此条形码匹配的PF读取数,该条形码与1个错误或无错误匹配。 |
PCT_匹配 | 与此条形码匹配的车道中所有读取的部分。 |
比率_THIS_BARCODE_TO_BEST_BARCOD_PCT | 与此条码匹配的所有读取与与最高级条码匹配的全部读取的速率。对于大多数prevelant条码这将是1,对于所有其他条码,它将小于1(除了可能的与任何其他条形码相比,孤立读取次数更多的情况除外,在这种情况下,值可以是任意大的)。此列中最低数字的1表示fold-defference在条形码之间表示。 |
PF_PCT_匹配 | PF在与此条形码匹配的车道中读取的部分。 |
PF_RATIO_THIS_BARCODE_TO_BEST_BARCODE_PCT格式 | 与此条形码匹配的PF读取速率与与最高级条形码匹配的PF读取速率。对于大多数prevelant条码这将是1,对于所有其他条码,它将小于1(除了可能的例外情况是,与其他条形码相比,孤立读取次数更多,在这种情况下,值可以任意大)。此列中最低数字的1表示fold-defference表示条形码之间的PF读取。 |
PF_规范化_匹配 | “标准化”与每个条形码匹配。这是根据匹配的pf读取数计算的此条形码覆盖所有与任何条形码匹配的pf读取的总和(不包括孤立的)。如果所有条形码均表示为1。 |
指纹详细指标
指纹比较中单个SNP/单倍型比较的详细指标。
字段 | 描述 |
阅读_分组 | 序列数据指纹的测序读取组。 |
样品 | 与序列数据进行比较的样本基因型的名称。 |
SNP公司 | 所比较单倍型中代表性SNP的名称。通常是外部基因分型的确切SNP。 |
SNP_ALLELES公司 | SNP的可能等位基因。 |
彩色 | SNP所在的染色体。 |
位置 | SNP在染色体上的位置。 |
预期_基因型 | SNP位点样本的预期基因型。 |
观察到的_基因类型 | 最可能的基因型给出了测序数据中SNP位点的观察证据。 |
LOD(检测限) | OBSERVED_GENOTYPE与测序数据中第二个最有可能的基因型的LOD得分。 |
观测站 | 序列数据中SNP的第一个或A等位基因的观察数。 |
组织分解结构_B | 测序数据中SNP的第二个或B等位基因的观察数。 |
指纹汇总指标
关于序列数据比较的指纹度量和统计摘要从单个读取组(车道或车道内的索引)与一组已知基因型期望的样本。
字段 | 描述 |
阅读_分组 | 从中提取序列数据进行比较的读取组。 |
样品 | 将序列数据与已知基因型的样本进行比较。 |
LL_预期_样本 | 给定预期样本基因型的序列数据的对数似然。 |
LL_随机_样本 | 从人群中随机抽样的序列数据的对数似然。 |
LOD_EXPECTED_样本 | 预期样本与随机样本的LOD。正LOD表示序列数据通过LOD日志,更可能来自预期样本,而不是来自人群的随机样本。即,值为6表示序列数据更有可能来自预期的1000000样本,而不是随机样本。负LOD表示相反-序列数据更多可能来自随机样本,而不是来自预期样本。 |
HAPLOTYPES_WITH_GENOTYPES(单字类型_WITH_基因类型) | 具有预期基因型比较的单倍型数量。 |
HAPLOTYPES_CONFIDENTLY_CHECKED(单字类型_确认_检查) | 有足够序列数据的基因型单倍型的子集自信地对单倍型进行基因分型。注:所有序列覆盖的单倍型都有助于LOD得分,即使他们不能被单独“自信地检查”。 |
HAPLOTYPES_CONFIDENTLY_MATCHING(单字类型_一致性_匹配) | 符合预期基因型的自信检查单倍型子集。 |
HET_AS_HOM | 赫特数,观察为homs,LOD>阈值 |
主页_AS_HET | HOM数,以HET表示,LOD>阈值 |
主页_其他_主页 | 与LOD>阈值的其他homs一样观察到的homs数量 |
GcBiasDetails度量
类,该类保存有关特定窗口中的读取的详细度量参考基因组上的GC盒。
字段 | 描述 |
蓄能器液位 | |
读取_使用 | 此选项用于标记包括或排除重复项。 |
GC公司 | 此bin表示的参考序列的G+C含量。值为0%到100% |
窗户 | 参考基因组上具有此G+C内容的窗口数。 |
读取_启动 | 开始位置位于此GC窗口开始处的读取数。 |
平均基础质量 | 分配给此GC窗口的所有读取的所有基的平均质量(通过错误率确定)。 |
标准化_覆盖 | 此GC箱中的“覆盖率”与所有GC箱的平均覆盖率之比。许多1表示平均覆盖率,小于1的数字表示低于平均覆盖率(例如0.5指平均覆盖范围的一半),而大于1的数字表示高于平均覆盖率(例如,3.1意味着该GC bin的每个窗口的读取次数是平均值的3.1倍)。 |
错误_棒_宽度 | 此箱子中误差条的半径基于观测次数。例如,如果标准化覆盖率为0.75,误差条宽度为0.1,则误差条为从0.65到0.85。 |
GcBiasMetrics公司
GcBiasSummaryMetrics公司
高水平指标,用于捕捉特定车道上覆盖范围的偏差程度。
字段 | 描述 |
蓄能器液位 | |
已使用读数 | 此选项用于标记包括或排除重复项。 |
窗口_大小 | 基因组上用于计算序列GC的窗口大小。 |
总计_集群 | 在gc偏差计算中看到的簇总数。 |
校准_读数 | 用于计算gc偏差度量的对齐读取总数。 |
AT_DROPOUT(自动跳出) | Illumina-style AT辍学指标。通过单独取每个GC箱进行计算(%ref_at_gc-%reads_at_gc),并对gc的所有正值求和=[0..50]。 |
GC_输出 | Illumina-style GC辍学指标。通过单独取每个GC箱进行计算(%ref_at_gc-%reads_at_gc)并求和gc=[50..100]的所有正值。 |
GC_NC_0_19 | GC含量五分之一的归一化覆盖范围为0-19。 |
GC_NC_20_39 | GC含量每五分之一的标准化覆盖范围为20-39。 |
GC_NC_40_59 | GC含量每五分之一的标准化覆盖范围为40-59。 |
GC_NC_60_79 | GC含量每五分之一的标准化覆盖范围为60-79。 |
GC_NC_80_100号 | GC含量每五分之一的标准化覆盖范围为80-100。 |
基因型一致性应急指标
类,该类保存有关基因型一致性列联表的度量。
字段 | 描述 |
变量_类型 | 事件类型(即SNP或INDEL) |
真实_示例 | “真相”样本的名称 |
呼叫_样本 | “调用”样本的名称 |
TP_数量 | 所有变体的TP(真阳性)计数 |
TN_数量 | 所有变体的TN(真阴性)计数 |
FP_计数 | 所有变体的FP(假阳性)计数 |
FN_计数 | 所有变体的FN(假阴性)计数 |
空_数量 | 所有变体中的空(无应急信息)计数 |
基因型一致性详细指标
保存有关基因型一致性的详细度量的类
字段 | 描述 |
变量_类型 | 事件类型(即SNP或INDEL) |
真实_示例 | “真相”样本的名称 |
调用样本 | “调用”样本的名称 |
真实_状态 | “真实”样本的状态(即HOM_REF、HET_REF_VAR1、HET_VAR1_VAR2…) |
呼叫_状态 | “调用”样本的状态(即HOM_REF、HET_REF_VAR1…) |
计数 | EVENT_type和SAMPLE的TRUTH_STATE和CALL_STATE类型的事件数 |
应急_价值 | 根据引用,从真值/调用状态比较中推导出的列联表值列表(TP、TN、FP、FN)。一般来说,我们比较的是两组等位基因。因此,我们可以在一次比较中表示零个或多个列联表值。例如,如果trueset为具有两个非参考等位基因的杂合呼叫(HET_VAR1_VAR2),而呼叫集是两个等位基因均与其中一个替代等位基因非参考的杂合调用如果在调用集中匹配一个替代等位基因,我们会得到一个真阳性、假阳性和假阴性。真正的阳性来自匹配的替代等位基因假阳性是在调用集中发现但在真实集中未发现的替代等位基因,而假阴性是在调用集未发现的真实集中的替代基因。我们还包括在真实集和调用集中都发现参考等位基因的情况下的真阴性。 |
基因型一致性摘要指标
保存有关基因型一致性的摘要度量的类
字段 | 描述 |
变量_类型 | 事件类型(即SNP或INDEL) |
真实_示例 | “真相”样本的名称 |
呼叫_样本 | “调用”样本的名称 |
HET_灵敏度 | 所有杂合变异的敏感性(敏感性为TP/(TP+FN)) |
HET_PPV公司 | 所有杂合变体的ppv(阳性预测值)(ppv是TP/(TP+FP)) |
HET_特性 | 无法计算所有杂合变异体的特异性 |
HOMVAR_灵敏度 | 所有纯合子变体的敏感性(敏感性为TP/(TP+FN)) |
HOMVAR_PPV(主变量_PPV) | 所有纯合子变体的ppv(阳性预测值)(ppv是TP/(TP+FP)) |
HOMVAR_规格 | 无法计算所有纯合子变体的特异性。 |
变量敏感性 | 对所有(杂合和纯合)变体的敏感性(敏感性为TP/(TP+FN)) |
VAR_PPV(无功功率_PPV) | 所有(杂合和纯合)变体的ppv(阳性预测值)(ppv是TP/(TP+FP)) |
VAR_规格 | 所有(杂合和纯合)变体的特异性(特异性为TN/(FP+TN)) |
基因型_一致性 | 所有可能状态的基因型一致性。基因型一致性是真值和调用状态完全匹配/所有真值和回调组合的次数 |
非参考类型_一致性 | 非ref基因型一致性,即仅适用于所有var状态。Non-Ref Genotype Concordance是*vars only*/所有true和call*var*组合的真值和调用状态完全匹配的次数 |
HsMetrics公司
CollectHsMetrics生成的指标,用于分析目标捕获序列实验。指标这一类大致分为三类:
- 基本测序指标,要么作为基线生成,以评估其他度量或因为它们用于计算其他度量。这包括以下内容基因组大小、读取次数、对齐读取次数等。
- 用于评估产生数据的湿实验室分析性能的指标。这一组包括一些指标,如映射开/关/近诱饵的碱基数、选择的百分比、折叠80个碱基惩罚、hs库大小和hs惩罚度量。这些指标是在应用了过滤器(例如,低映射质量读取、低基础质量基础和中间重叠的基础成对读取(共个)。
- 评估目标覆盖率的指标,作为数据在下游可能表现的代理诸如变体调用之类的应用程序。该组包括平均目标覆盖率、基数百分比等指标达到不同的覆盖水平,以及被各种过滤器排除的基数的百分比。计算这些指标在应用了所有过滤器之后,使用最严格的数据子集。
字段 | 描述 |
BAIT_设置 | 杂交选择中使用的诱饵集的名称。 |
GENOME_SIZE(发电机_尺寸) | 用于比对的参考基因组中的碱基数。 |
婴儿_错误 | 定位于一个或多个诱饵的碱基数量。 |
目标(_T) | 实验中靶碱基的唯一数量,其中靶序列通常是外显子等。 |
BAIT_设计_效率 | TARGET_TERRITORY/BAIT_TERRITORY的比率。值为1表示完美的设计效率,而值为0.5表示诱饵区域内有一半的碱基不在目标区域内。 |
总计_读取 | 检查的SAM或BAM文件中的读取总数。 |
PF_航向 | 通过供应商筛选器的读取总数。 |
PF_单位_读数 | 未标记为重复的PF读取数。 |
PCT_PF_读取 | 通过供应商过滤器PF_reads/TOTAL_reads的读取部分。 |
PCT_PF_UQ_读取 | 从TOTAL_READS、PF_UNIQUE_READS/TOTAL_READS得到的PF_UNIXE_READS的分数。 |
PF_UQ_READS_校准 | 与映射得分>0的参考基因组对齐的PF_UNIQUE_READS数。 |
PCT_PF_UQ_READS_校准 | PF_UQ_READS_ALIGNED与PF读取总数的分数。 |
PF_基准_校准 | 与参考基因组对齐且映射得分>0的PF唯一碱基的数量。 |
PF_UQ_基础_对齐 | PF_UQ_READS_ALIGNED读取的基址数。说明剪裁和间隙。 |
在BAIT_BASES上 | 映射到基因组中被诱饵区域的PF_BASES_ALIGNED数量。 |
BAIT_BASES附近 | PF_BASES_ALIGNED的数量,这些PF_BASES_ALIGNED被映射到包含诱饵区域的固定间隔内,但不在诱饵部分本身内。 |
关闭BAIT_BASES | 映射到远离任何诱饵区域的PF_BASES_ALIGNED数量。 |
目标基础上 | 映射到基因组目标区域的PF_BASES_ALIGNED数。 |
PCT_选择的_基础 | 位于被诱饵区域(on_BAIT_BASES+near_BAIT-BASES)上或附近的PF_BASES_ALIGNED的分数/PF_BASES-ALIGNED。 |
PCT_OFF_BAIT公司 | 映射到远离任何诱饵区域的PF_BASES_ALIGNED的分数,OFF_BAIT_BASES/PF_BAES_ALIGNED。 |
ON_BAIT_VS_选择 | 毒饵覆盖的毒饵上或附近的碱基部分,on_BAIT_bases/(on_BAINT_bases+near_BAIT_FASES)。 |
平均等待时间平均 | 实验中所有诱饵的平均覆盖范围。 |
平均目标覆盖 | 目标区域的平均覆盖范围。 |
媒体目标覆盖 | 目标区域的中间覆盖率。 |
最大目标覆盖 | 映射到实验目标区域的读取的最大覆盖范围。 |
PCT_USABLE_BASES_ON_BAIT公司 | 可用PF基地中对齐、去备份、诱饵基地的数量。 |
PCT_USABLE_BASES_ON_目标 | 在所有可用的PF基地中,对齐、消除重复、目标基地的数量。 |
折叠_确认 | 诱饵区在基因组背景上被放大的倍数。 |
零CVG_目标_PCT | 未达到覆盖范围的目标比例=任何基数上的1。 |
PCT_EXC_DUPE公司 | 由于处于标记为重复的读取中而被筛选出的对齐碱基的分数。 |
PCT_EXC_MAPQ公司 | 由于处于低映射质量读取中而被过滤掉的对齐碱基的比例。 |
PCT_EXC_基础 | 因碱基质量低而被筛选出的对齐碱基的比例。 |
PCT_EXC_重叠 | 由于它们是具有重叠读取的插入中的第二个观察值而被过滤掉的对齐碱基的比例。 |
PCT_EXC_OFF_目标 | 由于未在目标基础上对齐而被过滤掉的对齐基础的分数。 |
折叠_80_基础_惩罚 | 将“非零cvg”目标中80%的基地提高到这些目标的平均覆盖水平所需的重叠覆盖率。 |
PCT_目标_基础_1X | 所有目标基地达到1倍或更大覆盖范围的部分。 |
PCT_目标_基础_2X | 所有目标基地达到2倍或更大覆盖范围的部分。 |
PCT_目标_基础_10X | 所有目标基地达到10倍或更大覆盖范围的部分。 |
PCT_目标_基础_20X | 所有目标基地达到20倍或更大覆盖范围的部分。 |
PCT_目标_基础_30X | 所有目标基地达到30倍或更大覆盖范围的部分。 |
百分比目标基准40X | 达到40X或更大覆盖范围的所有目标基地的比例。 |
PCT_目标_基础_50X | 所有目标基地达到50倍或更大覆盖范围的部分。 |
PCT_目标_基础_100X | 所有目标基地达到100倍或更大覆盖范围的部分。 |
HS_LIBRARY_尺寸 | 库中选定部分的独特分子的估计数量。 |
HS_启用_10X | “混合选择惩罚”使80%的目标基数达到10倍。这个指标应该被解释为:如果我有一个10兆的目标设计,并且想要我需要对10X覆盖范围进行排序,直到PF_ALIGNED_BASES=10^7*10*HS_PENALTY_10X。 |
HS_启用_20X | “混合选择惩罚”使80%的目标基数达到20倍。这个指标应该被解释为:如果我有一个10兆的目标设计,并且想要我需要对20X覆盖范围进行排序,直到PF_ALIGNED_BASES=10^7*20*HS_PENALTY_20X。 |
HS_启用_30X | “混合选择惩罚”使80%的目标基数达到30倍。这个指标应该被解释为:如果我有一个10兆的目标设计,并且想要我需要对30X覆盖范围进行排序,直到PF_ALIGNED_BASES=10^7*30*HS_PENALTY_30X。 |
HS_启用_40X | “混合选择惩罚”使80%的目标基数达到40倍。这个指标应该被解释为:如果我有一个10兆的目标设计,并且想要40X覆盖范围我需要排序,直到PF_ALIGNED_BASS=10^7*40*HS_PENALTY_40X。 |
HS_启用_50X | “混合选择惩罚”使80%的目标基数达到50倍。这个指标应该被解释为:如果我有一个10兆的目标设计,并且想要我需要对50X覆盖范围进行排序,直到PF_ALIGNED_BASES=10^7*50*HS_PENALTY_50X。 |
HS_启用_100X | “混合选择惩罚”使80%的目标基数达到100倍。这个指标应该被解释为:如果我有一个10兆的目标设计,并且想要100X覆盖范围我需要排序,直到PF_ALIGNED_BASES=10^7*100*HS_PENALTY_100X。 |
AT_输出 | 衡量未覆盖<=50%GC区域相对于平均值的程度。对于每个GC箱[0..50]我们计算a=%的目标区域,b=%的对齐读取与这些目标对齐。然后,AT DROPOUT为abs(总和(a-b<0时为a-b))。例如,如果该值为5%,则表示总数的5%应该映射到GC的读取数<=50%映射到其他地方的区域。 |
GC_脱扣 | 测量覆盖率>=50%GC区域相对于平均值的程度。对于每个GC箱[50..100]我们计算a=%的目标区域,b=%的对齐读取与这些目标对齐。GC DROPOUT为abs(总和(a-b<0时为a-b))。例如,如果该值为5%,则表示总数的5%应该映射到GC的读取数>=映射到其他地方的50%区域。 |
HET_SNP_灵敏度 | 理论HET SNP敏感性。 |
HET_SNP_Q公司 | 理论HET SNP敏感性的Phred量表Q分。 |
Illumina基本呼叫指标
Illumina Basecalling的度量,以每个条形码为单位存储平均值和标准偏差。平均值和手段被接管所有瓷砖。
字段 | 描述 |
车道 | 计算指标的车道。 |
分子_条形码_SEQUENCE_1 | 计算度量的条形码序列。 |
分子_条形码_名称 | 为其计算度量的条形码名称。 |
总计_基数 | 分配给索引的基数总数。 |
PF_基础 | 分配给索引的传递筛选器基的总数。 |
总计_读取 | 分配给索引的读取总数。 |
PF_航向 | 分配给索引的传递筛选器读取总数。 |
总计_集群 | 分配给索引的簇总数。 |
PF_集群 | 分配给索引的PF簇的总数。 |
平均值_群集_性能_文件 | 每个平铺的平均簇数。 |
SD_CLUSTERS_PER文件 | 每个平铺的簇的标准偏差。 |
MEAN_PCT_PF_CLUSTERS_PER文件 | 每个平铺的pf簇的平均百分比。 |
SD_PCT_PF_CLUSTERS_PER文件 | 每个平铺的pf簇百分比的标准偏差。 |
MEAN_PF_CLUSTERS_PER文件 | 每个平铺的pf簇的平均数。 |
SD_PF_CLUSTERS_PER文件 | 每个平铺的pf簇数的标准偏差。 |
Illumina车道计量
体现描述车道的特征。
字段 | 描述 |
集群_密度 | 此车道上单位面积上的簇数,单位为[cluster/mm^2]。 |
车道 | 这条车道的号码。 |
照明相位指标
Illumina Basecalling的指标,以每个模板、每个线路为基础存储中值相位和预相位百分比。相位是指在读取周期中落后或超前(预相位)的分子比例。对于每个车道/模板读取#(即第一、第二)组合,我们将存储相位和预相位的中值该通道/模板读取对中每个磁贴的值。
字段 | 描述 |
车道 | Illumina flowcell车道编号 |
类型名称 | 定义Illumina模板读取编号(第一个或第二个) |
PHASING_适用 | 应用于第一个和第二个模板读取的车道中所有分幅的中间相位值 |
预处理_已应用 | 应用于第一个和第二个模板读取的车道中所有瓷砖的中间值预相位 |
独立ReplicateMetric
存储生物速率估计相关信息的类
字段 | 描述 |
n站点 | |
三个无障碍网站 | |
n总读数 | |
n重复集 | |
准确三分 | |
nExactlyDouble(nExactly双精度) | |
在BigSets中读取 | |
nDifferentAllelesBiDups(不同通道双重复) | |
参考AllelesBiDups | |
nAlternate Alleles双重复 | |
nDifferentAllelesTriDups(不同通道三重奏) | |
nMismatchingAllelesBiDups | |
参考AllelesTriDups | |
nAlternate Alleles三重奏 | |
nMismatchingAllelesTriDups | |
参考读数 | |
n交替读取 | |
nMismatchingUMIsInDiffBiDups | |
nMatchingUMIsInDiffBiDups | |
nMismatchingUMIsInSameBiDups | |
n匹配UMIsInSameBiDups | |
nMismatchingUMIsInCoOrientedBiDups | |
nMismatchingUMIsInContraOrientedBiDup | |
nBad条形码 | |
n良好条形码 | |
双站点异质性比率 | |
三站点异质性比率 | |
双站点同质性比率 | |
三站点同质性比率 | |
BiDups的独立复制率 | |
三重数据的独立复制率 | |
pSameUmiInIndependentBiDup | |
pSameAlleleWhen失配Umi | |
独立复制率 | |
复制比率来自复制集 | |
插入大小度量
关于成对-end库的插入大小分布的度量,由CollectInsertSizeMetrics程序,通常写入具有扩展名的文件“.insert_size_mmetrics”。此外,还绘制了镶块尺寸分布扩展名为“.insert_size_Histogram.pdf”的文件。
字段 | 描述 |
媒体插入大小 | 所有配对末端读数的MEDIAN插入大小,其中两端映射到同一染色体。 |
媒体_解决方案_偏差 | 分布的中位数绝对偏差。如果分布基本上是正态的,那么标准偏差可估计为~1.4826*MAD。 |
最小插入尺寸 | 最小测量插入尺寸。这通常是1,并不是很有用,因为它可能是人造的。 |
最大_插入_大小 | 按对齐方式测量的最大插入尺寸。这通常非常高,表示工件或者可能存在结构重组。 |
平均插入尺寸 | 分布“核心”的平均插入大小。分布中的人工异常值通常导致计算无意义的平均值和标准偏差值。为了避免这种情况,首先要修剪分布以中位插入尺寸周围+/-N中位绝对偏差的“核心”分布。默认情况下N=10,但这是可配置的。 |
标准_偏差 | 分布“核心”上插件尺寸的标准偏差。 |
阅读_信息 | 在整个分布中检查的读取对总数。 |
对方向(_O) | 此数据类别中读取的对方向。 |
10_百分比宽度 | 箱子的“宽度”以中位数为中心,包含10%的所有读取对。 |
宽度_OF_20_PERCENT | 存储箱的“宽度”以中间值为中心,包含20%的所有读取对。 |
宽度_OF_30_PERCENT | 箱子的“宽度”以中间值为中心,包含30%的所有读取对。 |
宽度_OF_40_PERCENT | 存储箱的“宽度”以中间值为中心,包含40%的所有读取对。 |
宽度_OF_50_PERCENT | 存储箱的“宽度”以中间值为中心,包含50%的所有读取对。 |
宽度_OF_60_PERCENT | 以中位数为中心的存储箱的“宽度”,占所有读取对的60%。 |
宽度_OF_70% | 存储箱的“宽度”以中间值为中心,包含70%的所有读取对。当插入尺寸为分布是正态分布。 |
宽度_OF_80_PERCENT | 存储箱的“宽度”以中间值为中心,包含80%的所有读取对。 |
宽度_OF_90_PERCENT | 以中位数为中心的存储箱的“宽度”涵盖了90%的所有读取对。 |
宽度_OF_99_PERCENT | 箱子的“宽度”以中间值为中心,涵盖了所有读取对的100%。 |
跳转库指标
关于内外对存在的高水平指标在使用跳转库生成的SAM文件中,由CollectJumpingLibraryMetrics程序,通常存储在带有扩展名“jump_metrics”。
字段 | 描述 |
跳线_鞋款 | SAM文件中的向外配对数 |
跳转_复制_图片 | 重复的外部配对数 |
跳转_复制_PCT | 标记为重复的向外面对的分数 |
跳线_ IBRARY_尺寸 | 外部配对的估计库大小 |
跳线_比赛_插入_尺寸 | 外啮合副的平均插入尺寸 |
跳线_STDEV_INSERT_SIZE | 面向外成对镶块尺寸的标准偏差 |
非跳跃_空位 | SAM文件中的内面对数 |
非跳转_重复_PAIRS | 重复的内面配对数 |
非跳转_复制_PCT | 标记为重复的内面对的分数 |
非跳线_ IBRARY_SIZE | 内面对的估计库大小 |
非跳跃_学习_插入_大小 | 内面对的平均镶块尺寸 |
非跳转_开发_插入_大小 | 内对镶块尺寸的标准偏差 |
CHIMERIC_PAIRS公司 | (a)末端落在不同染色体上或(b)插入大小的对数大于最大值100000,或是外啮合副的插入尺寸模式的2倍。 |
碎片 | SAM文件中的片段数 |
PCT_跳跃 | 以所有朝外配对总数的分数表示的朝外配对的数量,内面对和嵌合对。 |
PCT_非跳跃 | 内表面对的数量表示为所有外表面对总数的一小部分,内面对和嵌合对。 |
PCT_CHIMERAS公司 | 嵌合对的数量表示为所有外向对总数的一小部分,内面对和嵌合对。 |
孟德尔违规指标
描述在Trio中发现的孟德尔违规的类型和数量。
字段 | 描述 |
家庭_ID | 分配给计算这些指标的三人组的族ID。 |
母亲 | 三人组中母亲的ID。 |
父亲 | 三人组中父亲的ID。 |
后代 | 三人组中后代的ID。 |
OFFSRING_SEX系列 | 后代的性别。 |
编号_船上_场地 | 所有相关样本的双等位基因SNP位点的数量超过了最小的基因型质量和深度,并且至少有一个样本是变异的。 |
NUM_DIPLOID_DENOVO公司 | 观察到潜在去卵形突变的二倍体位点的数量(即双亲均为hom-ref,后代不是hom-ref.)。 |
数字_洪量_洪量_HET | 双亲对非参考等位基因均为纯合且后代为杂合的位点数量。 |
NUM_HOMREF_HOMVAR_HOM编号 | 一个亲本为纯合子参照物、另一个纯合子变体和子代为纯合子的位点数量。 |
NUM_HOM_HET_HOM编号 | 一个亲本为纯合子,另一个为杂合子,后代为备选纯合子的位点数量。 |
数字应用程序 | 后代为单倍体,亲本为纯合参考,后代为非参考的位点数量。 |
NUM_HAPLOID_其他 | 子代为单倍体并显示出在父代中不存在的参考等位基因的位点数量。 |
数字_其他 | 其他未分类事件的数量。 |
总计_孟德尔语_ IOLATIONS | 观察到的所有孟德尔违规行为的总数。 |
可合并MetricBase
MetricBase的扩展,它知道如何通过添加适当注释的字段来合并。它还提供了一个接口用于计算派生字段(以及通知所述字段已派生的注释)。最后,它还允许注释这意味着一个字段将被用作ID,因此合并只需要这些字段相等。merge-by-adding仅对以下类型启用:int、Integer、float、float、double、double、short、short、long、long、byte、byte。将检测到溢出(对于短类型和字节类型)并引发异常。
多级指标
字段 | 描述 |
样品 | 这些指标适用的样本。如果为空,则表示它们适用文件中的所有读取。 |
图书馆 | 应用这些指标的库。如果为null,则表示在样本水平上累积指标。 |
阅读_分组 | 这些指标适用的读取组。如果为null,则表示度量是在库或样本级别上累积的。 |
RnaSeq度量
由CollectRnaSeqMetrics生成的SAM文件中RNA-seq读取与基因对齐的度量通常存储在扩展名为“.rnametrics”的文件中。
字段 | 描述 |
PF_基础 | 包括非对齐读取的PF基的总数。 |
PF_校准底座 | 对齐的PF基的总数。非主要路线不计算在内。对齐的基数表示不符合参考(例如,软剪辑、插入)不计算在内。 |
核糖体_基底 | 与核糖体序列对齐的初级比对中的碱基数。 |
编码_基准 | 与某些基因的非UTR编码碱基(而非核糖体序列)对齐的初级比对中的碱基数。 |
UTR_基础 | 与某些基因的UTR碱基(而非编码碱基)对齐的初级比对中的碱基数。 |
内部基础 | 初级比对中与某些基因的内含子碱基对齐的碱基数,而不是编码碱基或UTR碱基。 |
INTERGENIC_基础 | 初级比对中不与任何基因比对的碱基数。 |
忽略_读数 | 映射到命令行上指定为IGNORED_sequence的序列的主对齐数。这些不是以PF_ALIGNED_BASES、CORRECT_STRAND_READS、INCORRECT_STRAND-READS或任何基本计数指标计算。这些读取在PF_BASES中计数。 |
更正_记录_读数 | 映射到正确链的对齐读取数。如果库不是特定于股的,则为0。 |
错误_STRAND_READS | 映射到错误链的对齐读取数。如果库不是特定于股的,则为0。 |
数字_R1_TRANSCRIPT_STRAND_READS | 支持R1位于转录链上而R2位于相反的股。 |
数字R2_TRANSCRIPT_STRAND_READS | 支持R2位于转录链上而R1位于相反的模型的读取部分搁浅。 |
NUM_UNEXPLAINED_READS号 | 无法推断出转录链模型的读数部分。 |
PCT_R1_变速箱SCRIPT_STRAND_READS | 支持R1位于转录链上而R2位于相反的股。对于非成对读取,它是转录链上读取的一部分(在所有读取中阅读)。 |
PCT_R2_传输SCRIPT_STRAND_READS | 支持R2位于转录链上而R1位于相反的模型的读取部分搁浅。对于未成对读取,它是与转录链(在所有读取中)。 |
PCT核糖体碱基 | 映射到核糖体RNA编码区的PF_ALIGNED_BASES/PF_ALIGNED_BASES的部分 |
PCT_编码基础 | 映射到基因蛋白质编码区的PF_ALIGNED_BASES的分数,coding_BASES/PF_ALIGNED_BASE |
PCT_UTR_基础 | 映射到基因非翻译区域(UTR)的PF_ALIGNED_BASES的分数,UTR_BASES/PF_ALIGNED_BASE |
PCT_INTRONIC_基础 | 对应基因内含子的PF_ALIGNED_BASES的分数,INTRONIC_BASES/PF_ALIGNED_BASE |
PCT_INTERGENIC_基础 | 映射到基因组DNA基因间区域的PF_ALIGNED_BASES的分数,intergenic_BASES/PF_ALIGNED_BASE |
PCT_MRNA_基础 | 映射到与UTR和mRNA转录物编码区相对应的区域的碱基总和,PCT_UTR_bases+PCT_coding_bases |
PCT_可用基础 | 映射到mRNA的碱基分数除以PF碱基总数,(CODING_bases+UTR_bases)/PF_bases。 |
PCT_CORRECT_STRAND_READS公司 | 对应于映射到参考基因组正确链的mRNA转录本的读取片段=CORRECT_STRAND_READS/(CORRECT_STRAND-READS+INCORRECT_STRAND_READS)。如果库不是特定于股的,则为0。 |
媒体_视频_覆盖 | 1000个最高表达转录本覆盖值的变异系数中值(CV)或标准偏差/平均值。理想值=0。 |
中央分隔带_5PRIME_BIAS | 1000个高表达转录本的中位5素数偏差。5素数偏差根据计算转录本as:5个质数最多的100个碱基的平均覆盖率除以整个转录本的平均覆盖度。 |
媒体_3PRIME_BIAS | 1000个高表达转录本的中位3素数偏差,其中3素数偏移是根据转录物为:3个素数最多100个碱基的平均覆盖率除以整个转录物的平均覆盖率。 |
媒体_5PRIME_TO_3PRIME_BIAS | 基于1000个最高表达的转录本,5个质数端与3个质数末端的覆盖率。 |
RrbsPage详细指标
保存有关RRBS处理QC遇到的CpG站点的信息
字段 | 描述 |
序列_名称 | CpG出现的顺序 |
位置 | CpG站点序列中的位置 |
总计_站点 | 遇到此CpG站点的次数 |
转换的站点 | 该CpG位点被转换的次数(TG表示+链,CA表示-链) |
PCT_转换 | CpG转换基/CpG总基(分数) |
Rrbs汇总指标
保存RRBS处理QC的汇总统计信息
字段 | 描述 |
读取_校准 | 已处理的映射读取数 |
非CPG基础 | 遇到非CpG胞嘧啶的次数 |
非CPG_CONVERTED_BASES | 非CpG胞嘧啶转化的次数(C->T表示+,G->a表示-) |
PCT_NON_CPG_基础_转换 | NON_CPG_CONVERTED_BASES/NON_CPG_BASES(分数) |
CPG_基础_搜索 | 遇到的CpG站点数 |
CPG_基础_转换 | 转换的CpG位点数量(TG表示+,CA表示-) |
PCT_CPG_基础_转换 | CPG_BASES_CONVERTED/CPG_BASES_SEEN(分数) |
平均CPG_覆盖 | CpG站点的平均覆盖率 |
媒体_媒体_覆盖 | CpG站点的中位数覆盖率 |
读取不含CPG | 由于没有CpG站点而丢弃的读取数 |
阅读_忽略_截图 | 由于太短而丢弃的读取数 |
读取忽略的偏差 | 因超过不匹配阈值而丢弃的读取数 |
排序工件度量。诱饵偏差详细指标
诱饵偏差伪影按上下文分解。
字段 | 描述 |
样品_ALIAS | |
图书馆 | 正在分析的库的名称。 |
参考基础(_B) | 参考钢绞线上的(大写)原始底座。 |
ALT_基础 | 作为DNA损伤的结果而被称为(大写)替代碱基。 |
上下文 | 分析受约束的序列上下文。 |
FWD_CXT_REF_基础 | 具有给定参考上下文的站点上REF_BASE:REF_BOSE对齐的数量。 |
FWD_CXT_ALT_基础 | 具有给定参考上下文的站点上REF_BASE:ALT_BASE路线的数量。 |
修订_文本_参考_基础 | 与给定参考上下文互补的站点上~REF_BASE:~REF_ BASE比对的数量。 |
版次_文本_标签 | 与给定参考上下文互补的站点上~REF_BASE:~ALT_BASE路线的数量。 |
转发错误速率 | REF_BASE的取代率:ALT_BASE,计算为max(1e-10,FWD_CXT_ALT_BASES/(FWD_CXT_ALT_BASES+FWD_CHT_REF_BASES))。 |
修订_错误_比率 | ~REF_BASE:~ALT_BASE的替代率,计算为最大值(1e-10,REV_CXT_ALT_BASES/(REV_CXT_ALT_BASES+REV_CX _REF_BASES))。 |
错误_比率 | 诱饵偏误率,计算为最大值(1e-10,FWD_error_rate-REV_error-rate)。 |
QSCORE公司 | 工件的Phred-scaled质量分数,计算为-10*log10(ERROR_RATE)。 |
排序工件度量。诱饵偏差汇总指标
单一诱饵偏差伪影的总结分析,也称为参考偏差伪影。这些工件发生在目标选择步骤期间或之后,并与替换相关对于在参考/阳性链上有一个碱基的站点,比率是“有偏见的”或更高的相对于在该链上具有互补碱基的位点。例如,目标选择步骤中的G>T伪影可能会导致更高的G> T/C>阳性链上有G(阴性链上有C)的位点的替代率,相对于具有翻转的位点(C阳性/G阴性)。这就是所谓的“G-Ref”工件。
字段 | 描述 |
样品_ALIAS | 正在分析的样本的名称。 |
图书馆 | 正在分析的库的名称。 |
参考基础(_B) | 参考钢绞线上的(大写)原始底座。 |
ALT_基础 | 因DNA损伤而被称为(大写)替代碱基。 |
总计_QSCORE | 此工件的总Phred-scaled Q分数。Q分数较低表示REF_BASE:ALT_BASE观测的概率较高从数据中随机选取将是由于这个工件,而不是而不是真正的变体。 |
最差_文本 | 在该工件的所有上下文中,Q-得分最低的序列上下文(关注点周围的参考基)。 |
最差_最新_ QSCORE | 最差情境的Q分数。 |
最差_预览_文本 | Q-得分最低的前上下文(指向兴趣点的参考基础)。 |
最坏_最新_最新 | 最差前上下文的Q分数。 |
最坏_最坏_文本 | Q-得分最低的后上下文(参考基位于兴趣点之后)。 |
WORST_POST_CXT_QSCORE(最坏_最新_最新) | 最差后语境的Q分数。 |
艺术品_名称 | 这个工件的“昵称”,如果它是已知的错误模式。 |
排序工件度量。预适配器详细指标
按上下文细分的预适配器工件。
字段 | 描述 |
样品_ALIAS | 正在分析的样本的名称。 |
图书馆 | 正在分析的库的名称。 |
参考基础(_B) | 参考钢绞线上的(大写)原始底座。 |
ALT_基础 | 作为DNA损伤的结果而被称为(大写)替代碱基。 |
上下文 | 分析受约束的序列上下文。 |
PRO_REF_基础 | 具有支持该工件存在的读取编号和方向的REF_BASE:REF_BOSE对齐的数量。 |
专业_后勤_基础 | REF_BASE:ALT_BASE对齐的数量,具有支持此工件存在的读取编号和方向。 |
CON_REF_基础 | REF_BASE:REF_BOSE比对的数量,其读取数量和方向反驳了该工件的存在。 |
CON_ALT_基础 | REF_BASE:ALT_BASE比对的数量,其读取数量和方向反驳了此工件的存在。 |
错误(_R) | 由于该伪影而估计的错误率。计算为最大值(1e-10,(PRO_ALT_BASES-CON_ALT_BA SES)/(PRO_ALT_BASES+PRO_REF_BASES+CON_ALT_ BASES+CON_REF_BA SEs))。 |
QSCORE公司 | 工件的Phred-scaled质量分数,计算为-10*log10(ERROR_RATE)。 |
排序工件度量。预适配器摘要指标
单个预适配器工件的摘要分析。在添加适配器之前,这些工件发生在原始模板链上,因此,它们以特定的方式与读数/方向相关。例如,众所周知的“Oxo-G”工件发生在模板上的G链被氧化,使其与A而不是通常的C结合。因此,PCR将在读1中引入明显的G>T替换,在读2中引入C>A。在结果比对中,给定的G>T或C>a观测值可以是:1.真正的突变2.OxoG工件3.其他类型的人工制品平均而言,我们假设1和3不会显示此读取数/方向偏差,因此他们的贡献将在计算中抵消。
字段 | 描述 |
样品_ALIAS | 正在分析的样本的名称。 |
图书馆 | 正在分析的库的名称。 |
参考基础(_B) | 参考钢绞线上的(大写)原始底座。 |
ALT_基础 | 因DNA损伤而被称为(大写)替代碱基。 |
总计_QSCORE | 此工件的总Phred缩放Q分数。Q分较低表示REF_BASE:ALT_BASE观测的概率较高从数据中随机选取将是由于这个工件,而不是而不是真正的变体。 |
最差_文本 | 在该工件的所有上下文中,Q-得分最低的序列上下文(关注点周围的参考基)。 |
最差_最新_ QSCORE | 最差情境的Q分数。 |
最差_预览_文本 | Q-得分最低的前上下文(指向兴趣点的参考基础)。 |
最坏的预处理 | 最差前置上下文的Q分数。 |
最坏_最坏_文本 | Q-得分最低的后上下文(参考基位于兴趣点之后)。 |
WORST_POST_CXT_QSCORE(最坏_最新_最新) | 最差后语境的Q分数。 |
艺术品_名称 | 这个工件的“昵称”,如果它是已知的错误模式。 |
目标绩效指标
用于分析从目标pcr实验获得的读数的度量类,例如TruSeq自定义扩增子(TSCA)试剂盒(Illumina)。
字段 | 描述 |
自定义AMPLICON_SET | 此度量收集运行中使用的amplicon集的名称 |
GENOME_SIZE(发电机_尺寸) | 用于比对的参考基因组中的碱基数 |
AMPLICON_TERRITORY(放大器_错误) | 扩增子集合中所有扩增子的间隔所覆盖的唯一碱基数 |
目标_错误 | 应覆盖的所有目标的间隔所覆盖的唯一基数 |
总计_读取 | 检查的SAM或BAM文件中的读取总数 |
PF_航向 | 通过过滤器(PF)的读取总数,其中过滤器可以是平台/供应商质量控制 |
PF_基础 | 要检查的SAM或BAM文件的PF_READS中的碱基总数 |
PF_单位_读数 | 未标记为样品或光学副本的PF_READS数量。 |
PCT_PF_广告 | 通过过滤器的读取部分,PF_reads/TOTAL_reads。 |
PCT_PF_UQ_读取 | 唯一且不重复的TOTAL_READS的分数PF_unique_READS/TOTAL_LEADS |
PF_UQ_READS_校准 | 与映射得分>0的参考基因组对齐的PF_UNIQUE_READS总数 |
PF_选定_对 | 跟踪PF读取对的数量(用于计算库大小) |
PF_选定的唯一路径 | 跟踪观察到的唯一、PF、读取对的数量(用于计算库大小) |
PCT_PF_UQ_READS_校准 | 唯一且与参考基因组一致的PF_READS部分,PF_UQ_READS_ALIGNED/PF_READS |
PF_基线对齐 | PF_READS中与映射得分>0的参考基因组对齐的碱基数 |
PF_UQ_基础_对齐 | PF_UNIQUE_READS中与参考基因组对齐且映射得分>0的碱基数 |
基于MPLICON_BASES的 | 映射到基因组扩增区域的PF_BASES_ALIGNED的数量。 |
AMPLICON_BASES附近 | 在放大区域的固定间隔内映射到的PF_BASES_ALIGNED数,但不映射到诱饵区域。 |
关闭_示例_基准 | 既不映射在放大子上也不映射在其附近的PF_BASES_ALIGNED的数量。 |
目标基础上 | 映射到基因组目标区域的PF_BASES_ALIGNED的数量。 |
基于目标的空域 | PF_SELECTED_UNIQUE_PAIRS中映射到基因组目标区域的碱基数。 |
PCT_放大器底座 | 映射到放大子或其附近的PF_BASES_ALIGNED的分数(ON_amplicon_BASES+近_AMPLICON_BASES)/PF_BASES_ALIGNED。 |
PCT_OFF_AMPLICON公司 | 未映射到放大子上或附近的PF_BASES_ALIGNED的分数,关闭AMPLICON_BASES/PF_BASES_ALIGNED |
ON_AMPLICON_VS_选择 | 映射到放大子上或附近区域的碱基的分数,这些区域直接映射到但不靠近放大子放大器,ON_AMPLICON_BASES/(NEAR_AMPLICON_BASES+ON_AMPRICON_BASE) |
平均值_振幅_覆盖 | 实验中所有放大子区域的平均读取覆盖率。 |
平均目标覆盖率 | 实验中所有目标区域的平均读取覆盖率。 |
媒体目标覆盖 | 映射到实验目标区域的读取的中间覆盖率。 |
最大目标覆盖范围 | 映射到实验目标区域的读取的最大覆盖范围。 |
折叠_确认 | 扩增子区域在基因组背景上被扩增的倍数。 |
零CVG_目标_PCT | 未达到覆盖范围的目标比例=任何基数上的1。 |
PCT_EXC_DUPE公司 | 由于处于标记为重复的读数中而被过滤掉的对齐碱基的部分。 |
PCT_EXC_MAPQ公司 | 由于处于低映射质量读取中而被过滤掉的对齐碱基的比例。 |
PCT_EXC_基础 | 由于碱基质量低而被过滤掉的对齐碱基的比例。 |
PCT_EXC_重叠 | 由于它们是第二个观测值而被筛选出的对齐碱基的比例插入重叠读数。 |
PCT_EXC_OFF_目标 | 由于未映射到目标区域内的基础而被过滤掉的基础的分数。 |
折叠_80_基础_惩罚 | 将“非零cvg”目标中80%的碱基提高到这些目标的平均覆盖水平。 |
PCT_目标_基础_1X | 所有目标基地达到1倍或更大覆盖范围的部分。 |
PCT_目标_基础_2X | 所有目标基地达到2倍或更大覆盖深度的部分。 |
PCT_目标_基础_10X | 所有目标基地达到10倍或更大覆盖深度的部分。 |
PCT_目标_基础_20X | 所有目标基地达到20倍或更大覆盖深度的部分。 |
PCT_目标_基础_30X | 所有目标基地达到30倍或更大覆盖深度的部分。 |
AT_DROPOUT(自动跳出) | 相对于平均覆盖率,GC含量较低(<=50%)的区域是如何被覆盖的。将GC含量[0..50]分为两部分后,我们计算a=目标区域的分数,b=对齐读取与每个箱子的这些目标对齐。AT DROPOUT是abs(总和(a-b<0时为a-b))。例如,如果AT_DROPOUT值为5%,这意味着总读取量的5%应映射到GC<=50%的区域,映射到其他地方。 |
GC_脱扣 | 相对于平均覆盖率,高GC含量(>=50%GC)区域如何被覆盖的测量值。对于每个GC bin[50..100],我们计算a=目标区域的%,b=对齐读取的%实现这些目标。GC DROPOUT为abs(总和(a-b<0时为a-b))。例如,如果值为5%,则意味着应该映射到GC的总读取数的5%>=50%区域,映射到其他位置。 |
HET_SNP_灵敏度 | 理论HET SNP敏感性。 |
HET_SNP_Q | 理论HET SNP敏感性的Q分数。 |
UmiMetrics公司
标记重复项过程中计算的指标在SAMRecords流中使用UmiAwareDuplicateSetIterator。
字段 | 描述 |
平均长度 | 每个UMI中的基数 |
观察到的_UNIQUE_UMIS | 观察到的不同UMI序列数 |
参考_UNIQUE_UMIS | 派生的不同推断UMI序列数 |
观察到的_基础_错误 | 通过比较观察到的UMI和推断出的UMI推断出的错误数 |
复制_SETS_IGNORING_UMI | 考虑UMI之前发现的重复集数 |
复制_设置_不带_UMI | 考虑UMI后发现的重复集数 |
观察到_UMI_ENTROPY | 观察到的UMI序列的熵(以4为基数),表示UMI中的有效基地数量。如果这很明显小于UMI_LENGTH,表示UMI不是均匀分布。 |
参考_UMI_ENTROPY | 推断UMI序列的熵(以4为基数),表示推断UMI中的有效碱基数。如果这很明显小于UMI_LENGTH,则表示UMI不是均匀分布。 |
UMI_基础_质量 | 麻省大学学生Phred量表质量分数的估计 |