西蒙斯基因组多样性项目

[2017年4月12日更新,可用性信息如下。]

来自100多个不同人群的完整基因组序列

下文介绍了有史以来最大的不同、高质量人类基因组序列数据集。

取样策略不同于人类基因组多样性研究,后者旨在通过研究当今人口众多的人群,最大限度地提高医学相关性。这项新的研究采用了不同的方法,以尽可能多地代表人类学、语言和文化多样性的方式对人群进行抽样,从而包括了许多在其他数据集中没有得到很好代表的差异很大的人群。

使用Illumina技术将数据集中的所有基因组测序到至少30倍覆盖率。使用一种针对群体遗传分析优化的定制程序对测序读数进行绘图和基因分型。研究人员消除了等位基因对匹配人类基因组参考序列的偏见,并在单样本基础上确定基因型,以避免优先调用代表更多个体的人群的基因型。

新数据图像

可以找到有关样本的元数据在这里.

主要数据集(元数据文件第一列中的C组)由来自127个人口的260个基因组的数据组成:39名非洲人、23名美洲原住民、27名中亚或西伯利亚人、49名东亚人、27名大洋洲人、38名南亚人和71名西欧亚人。为了方便起见,还包括之前公布的另外18个基因组序列的基因分型结果。

这些数据包括变异调用格式文件(VCF),在基因组的每个位置都有基因型调用。该联盟还计划发布包含原始序列读取的BAM文件。

可以找到包含下载说明的自述文件在这里.

请注意,大约有10 TB的数据,由于数据集大小很大,在申请并从托管站点获得证书后,需要使用gridFTP软件下载数据。

问题
如果您对数据集有任何疑问,请联系Shop Mallick([电子邮件保护]),尼克·帕特森([电子邮件保护])或者大卫·赖克([电子邮件保护]). 如果您下载数据集后遇到问题,请告知我们,以便我们在以后的版本中解决任何问题,我们将不胜感激。

基因组序列数据的使用(请遵守劳德代尔堡原则)

所有数据均免费提供。然而,请遵守劳德代尔堡原则,该原则授权数据生产者进行首次演示并发布第一次全基因组数据分析。这些数据可以自由用于研究单个基因或基因组的其他单个特征。

可以找到同一组研究人员发布的早期基因组信息,“一个公开下载的25个深基因组序列数据集,其中13个是实验阶段的”在这里.

更新日期:2017年4月12日

西蒙斯基因组多样性项目数据集现已在七桥癌症基因组云上提供

数据门户
通过访问Seven Bridges Cancer Genomics Cloud(CGC)上的项目数据门户。使用免费CGC帐户或现有凭据登录CGC后,您将被带到Simons基因组多样性项目(SGDP)数据集和公共项目。

关于门户
癌症基因组云(CGC)由Seven Bridges提供支持,是美国国家癌症研究所资助的三个试点系统之一,旨在探索将大规模基因组数据集与安全、可扩展的计算资源共同定位以进行分析的范例。

Seven Bridges最近移植了完整的开放访问SGDP数据集,该数据集的版本与中的最新SGDP出版物相匹配自然,提交给CGC。该数据集包含来自130个不同人群的279个完整基因组序列。它被组织为一个公共项目,您可以在其中筛选和查询感兴趣的文件,并使用通用工作流语言分析工具来查询不同人群的基因组学景观。您不会因存储任何SGDP文件而收费。

了解有关使用SGDP公共项目.

推进基础科学和数学研究订阅生命科学公告和其他基金会更新