如何查找特定序列读取文件?

答案:

找到您要查找的序列文件的最简单方法是使用数据门户。您可以搜索个人、人群和数据集合,并按数据类型和技术筛选文件。这将为您提供文件的位置,您可以使用这些文件直接下载,或导出列表以与下载管理器一起使用。

相关问题:

1000个基因组有哪些不同的数据收集?

答案:

在IGSR中,数据被组织成与研究或项目大致对应的集合。

1000基因组项目收集的样本现已用于许多不同的研究,其中一些产生了新数据,另一些则重新分析了现有数据。

1000基因组项目的最后阶段是第3阶段,代表GRCh37上的2504个样本。

1000基因组项目第三阶段的数据随后在GRCh38上进行了重新分析。

在这项工作之后,对样本进行了高覆盖率的重新排序,并对其他相关样本进行了排序,使样本总数达到3202个。该数据在GRCh38上进行了分析。

进一步的研究还产生了1000基因组项目样本的数据,包括人类基因组结构变异联盟(HGSVC)的工作。

这些数据集合列在我们的数据门户中

相关问题:

为什么1000个基因组样本的不同分析之间存在差异?

答案:

2012年发布的第一阶段变体列表和2014年发布的第三阶段变体列表重叠,但第三阶段不是第一阶段的完整超集。使用位置比较第3阶段和第1阶段版本之间的变量位置。这表明,第3阶段不存在2.3M个1期现场。在2.3M个场址中,1.92M为SNP,其余为indels或结构变异(SV)。

这两个列表之间的差异可以用许多不同的原因来解释。

  1. 由于各种原因,部分第1阶段样品未用于第3阶段。如果样本不是阶段3的一部分,则此样本专用的变量不属于阶段3集合的一部分。

  2. 我们的输入序列数据不同。在第1阶段,我们混合了读取长度36bp到>100bp,以及混合了测序平台Illumina、ABI SOLiD和454。在第3阶段中,我们只使用了Illumina测序平台的数据,并且我们只使用70bp+的读取长度。我们认为这些调用的质量更高,并且以这种方式排除的变体可能不是真实的。

  3. 前两个原因解释了54.8万SNP缺失,剩下137万SNP尚待解释。

    阶段1和阶段3变量调用管道不同。第3阶段有一组扩展的变体调用者,使用识别单倍型的变体调叫者和使用从头组装的变体调用者。它将低覆盖率和外显子组序列一起考虑,而不是单独考虑。使用ShapeIt2和MVNcall时,我们的基因型调用也不同,允许整合多等位基因变体和第一阶段不可能发生的复杂事件。

    在第1阶段缺失的137万个位点中,有891k未被任何第3阶段变异调用者识别。这些891k SNP具有相对较高的Ts/Tv比率(1.84),这意味着它们很可能在第3阶段被遗漏,因为它们非常罕见,而不是因为它们是错误的;第3阶段样本数量的增加使检测非常罕见的事件变得更加困难,特别是如果第3阶段额外的1400个样本没有携带替代等位基因。

    481k个SNP最初在第3阶段被调用。其中340k个没有通过我们的初始SVM过滤器,因此没有包含在我们最终的合并变量集中。57k与较大的变异事件重叠,因此未准确调用。由于管道中的损失,84k个位点没有进入我们的最后一组基因型。其中一些网站将为假阳性,但我们没有强有力的证据证明这些网站中哪些是错误的,哪些是由于其他原因丢失的。

  4. 用于我们比对的参考基因组是不同的。第1阶段对齐与标准GRCh37主要参考对齐,包括未放置的contigs。在第3阶段,我们向参考添加了EBV和诱饵集,以减少误映射。这将减少我们的假阳性变体呼叫,因为它将减少导致虚假SNP呼叫的错误映射。我们无法量化这种影响。

我们没有试图解释为什么我们的SV和indel数字发生了变化。自第一阶段数据发布以来,检测和验证索引和SV的算法有了显著改进。总的来说,我们假设第3阶段中缺失的第1阶段中的indels和SVs在第1阶段为假阳性。

您可以从ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/supporting/phase1_sites_missing_in_phase3/

相关问题: