跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
自然遗传学。作者手稿;2017年4月11日,PMC提供。
以最终编辑形式发布为:
2016年8月22日在线发布。 数字对象标识:10.1038/纳克.3643
预防性维修识别码:项目编号:5388176
EMSID:EMS71361号
PMID:27548312

基因型插补的64976个单倍型参考组

谢恩·麦卡锡1,* Sayantan Das公司2,三,* 沃伦·克雷茨希玛4,* 奥利维尔·德拉诺5 安德鲁·伍德6 亚历山大·特默尔7,8 Hyun Min Kang(玄敏康)2, 克里斯蒂安·福希斯伯格(Christian Fuchsberger)2, 彼得·达内塞克9 凯文夏普10 杨罗1 卡洛·西多尔11 阿兰·邝2, 尼古拉斯·汀普森12 塞普·科斯基宁13 斯科特·弗里泽14,15 劳拉·斯科特2, 何章16 阿努巴·马哈扬4 简·维尔丁克17 乌尔里克·彼得斯18,19 卡洛斯·帕托20 科妮莉亚·范·杜伊恩(Cornelia M.van Duijn)21 克里斯托弗·吉利斯22 伊拉里亚·甘丹23 马西莫夹层24 阿瑟·吉利1 马西米利亚诺·科卡25 米歇拉·特拉格里亚25 安德烈亚·安吉乌斯5 杰弗里·巴雷特1 多雷特·布姆斯玛26 卡里·布兰汉姆27 Gerome Breen女士28,29 查德·布鲁梅特30 法比奥·巴斯纳罗11 哈利·坎贝尔31 陈志辉32,33 赛晨2,三,34,35 艾米丽·周36 弗朗西斯·柯林斯37 劳拉·科尔宾12 乔治·戴维·史密斯12 乔治·德杜西斯38 马库斯·多尔39,40 Aliki Eleni Farmaki38 路易吉·费鲁奇41 卢卡斯·福尔42 罗斯·M·弗雷泽31 斯泰西·加布里埃尔43 肖恩·利维44 Leif Groop公司45,46,47 塔比莎·哈里森18 安德鲁·哈特斯利48 奥德吉尔·L·霍尔曼49 克里斯蒂安·赫维姆49 马蒂亚斯·克雷茨勒34,35中,50 詹姆斯·李51,52 马特·麦格53 托马斯·梅廷格54,55 大卫·梅尔泽56 Josine Min(约辛·敏)12 凯伦·莫尔克57 范宣德58,59,60 马蒂亚斯·诺克8,40 黛博拉·尼克森61 阿尔诺·帕洛蒂43,61,62 米歇尔·帕托20 尼古拉·皮拉斯图23 梅尔文·麦金尼斯63 布伦特·理查兹64 辛齐亚萨拉25 Veikko Salomaa公司13 大卫·施莱辛格65,66,67 塞巴斯蒂安·肖恩希尔42 P Eline拦渣栅68 Kerrin小型69 蒂莫西·斯佩克特69 德怀特·斯坦博利安70 马库斯·塔克6 Jaakko Tuomilehto公司71,72,73,74 伦纳德·范登伯格17 沃特·范·莱恩17 乌维·沃尔克40,75 Cisca Wijmenga公司76 丹妮拉·托尼奥洛25 Eleftheria Zeggini公司1 保罗·加斯帕里尼23,77 马修·桑普森22 詹姆斯·威尔逊31,78 蒂莫西·弗雷林6 保罗·德·巴克79,80 莫里斯·斯威茨76,81 史蒂文·麦卡罗82,83 查尔斯·科珀伯格18 安尼洛特·德克尔17 大卫·阿特舒勒43,83中,84,85,86,87 克里斯汀·威勒16,34,35 威廉·伊阿科诺53 萨穆利·里帕蒂88 尼科尔·索兰佐1 克劳迪娅·沃尔特1 阿南德·斯瓦鲁89 弗朗西斯科·库卡11 卡尔·安德森1 迈克尔·博恩克2, 马克·麦卡锡4,90,91 德宾1,** Gonçalo Abecasis公司2,三,** 乔纳森·马奇尼10,4,**以及单倍型参考联合会

关联数据

补充资料

摘要

我们描述了一个由64976个人类单倍型39235157个单核苷酸多态性组成的参照组,该参照组使用20项主要来自欧洲血统的研究的全基因组序列数据构建。利用这一资源可以在低至0.1%的次要等位基因频率下进行准确的基因型插补,关联研究中测试的SNP数量大幅增加,并有助于发现和完善因果位点。我们描述了远程服务器资源,使研究人员能够一致有效地进行插补和分阶段。

在过去十年中,大规模的国际合作不断创造出更大、更具种族多样性的遗传变异资源。例如,2007年,国际单倍型图谱项目在3个大陆种群中产生了一个由420个单倍型和3.1M个SNPs组成的单倍型参考小组1最近,1000基因组项目产生了一系列使用低覆盖率全基因组测序(WGS)构建的数据集,最终在2015年形成了一个参考小组(1000GP3),该小组由来自26个世界人口的5008个单倍型的88M多个变体组成2此外,其他几个项目收集了大量样本中的低覆盖率WGS数据,这些样本也可能用于构建单倍型参考面板5这些资源的主要用途是促进将未观察到的基因型插补到使用相对稀疏的全基因组微阵列芯片进行分析的全基因组关联研究(GWAS)样本中。随着参考群体中单倍型、SNP和群体数量的增加,基因型插补的准确性也提高了,这使得研究人员能够插补和测试SNP在更低的次要等位基因频率下的关联性。一系列方法的发展为研究人员提供了应对这些越来越大的面板的工具611

我们成立了单倍型参考联合会(HRC)(参见网址)汇集尽可能多的WGS数据集,建立一个更大的组合单倍型参考面板。通过这样做,我们的目的是为人类遗传学研究人员进行基因型插补提供单一的集中资源。这里我们描述了第一个结合了20项不同研究数据集的HRC参考小组(补充表1). 这些研究中的大多数具有低覆盖率的WGS数据(4-8X覆盖率),并且已知由主要具有欧洲血统的样本组成。然而,1000个具有不同祖先的基因组3期队列也包括在内。该参考群体由39235157个SNP的64976个单倍型组成,这些单倍型有证据表明次要等位基因计数(MAC)大于或等于5。

我们采用以下方法创建参考面板。我们结合了每项研究的现有基因型调用集,以确定一组95855206个MAC>=2的SNP位点的“联合”集。经过初步测试,我们决定在HRC面板的第一个版本中不包括小的插入和删除(indels),因为这些在各个项目中的调用非常不一致。然后,我们使用标准工具从原始研究BAM文件(参见方法)并对非LD基因型调用进行基线设置。接下来,我们应用了一些过滤器来删除质量较差的站点(请参阅方法). 根据单个研究最初发出的调用,我们将此站点列表限制为MAC>=5的站点,对应于0.0077%的最小次要等位基因频率(MAF),然后添加GWAS中几个常用SNP微阵列芯片上的反向站点。MAF较低的场址很可能插补不好。与未过滤的MAC≥5站点列表相比,该站点列表由44187567个站点组成,当通过测量每个样本的转换到转换(Ts/Tv)比率进行评估时,其质量有所提高(补充图1-2). 我们还检测并删除了整个数据集中的301个重复样本(参见方法).

在提供数据的20项研究中,使用低覆盖率WGS数据调用基因型和阶段划分是一个计算上具有挑战性的步骤。为了减少计算,我们对所有32611个样本的基因型可能性进行了这一步,并利用每个研究中单独称为单倍型的原始基因型来帮助减少调用算法的搜索空间(参见方法). 然后,我们通过使用SHAPEIT3方法重新确定所称基因型的相位,应用了进一步的细化步骤12,基于UK10K项目的经验,该项目发现,当使用单倍型时,这种重相位方法大大提高了插补准确性4在最后一次基因型调用后,我们又删除了123个样本(参见方法)并筛选出4952410个经细化和样本去除后MAC低于5的位点,最终得到39235157个位点和32488个样本。通过测量1000个基因组样本中已知基因型与Illumina OMNI2.5M芯片基因型的基因型不一致性,我们发现我们的位点过滤策略和HRC样本量的增加都提高了准确性(补充表2). 例如,我们在使用位点过滤的完整HRC数据集上获得了0.39%的非参考等位基因不一致性,而在1000GP3样本子集上则为0.67%。

接下来,我们进行了实验,以评估和说明与之前的单倍型参考面板相比的下游插补性能。为了模拟典型的插补分析,我们使用10个CEU样本的高覆盖率全基因组(CG)WGS基因型创建了一个伪GWAS数据集(参见网址). 我们提取了Illumina 1M SNP阵列(Human1M-Dou v3C)上所有位点的CG SNP基因型。这些数据用于插补剩余的基因型,然后将其与保留的基因型进行比较,通过插补位点的MAF对结果进行分层。图1表明,与1000GP3相比,使用1M SNP芯片时,HRC参考面板导致插补性能大幅提高(R2=0.64 vs R2在MAF=0.1%时=0.36),并且使用SHAPEIT3的重新定相步骤也是值得的。0.1%频率下的HRC插补与0.6%频率下的1000GP3插补具有相似的精度。补充图3和4显示了密度更高(Illumina OMNI 5M)的SNP芯片和稀疏(Illumina Core Exome)的结果。

保存图片、插图等的外部文件。对象名称为emss-71361-f001.jpg
使用不同参考面板进行插补。

x轴显示了SNP的非参考等位基因频率,该等位基因是以对数标度输入的。y轴表示用聚合r测量的插补精度2将SNP基因型输入10个CEU样本。这些结果基于使用Illumina OMNI 1M SNP阵列上位点的基因型作为伪GWAS数据。

为了说明使用HRC资源的好处,我们对InCHIANTI研究的1210个样本进行了GWAS研究13其中包括534个没有对HRC参考小组作出贡献,因为它们没有测序。使用HRC小组进行插补后,15501516个SNP通过了r的插补质量阈值2与13238968个变体(11908509个SNP和1330459个indels)相比,当使用1000个基因组第3阶段进行插补时,≥0.5,增加了200多万个变体。将两个面板之间的变异位点的交叉点考虑到应用于HRC面板的过滤,导致13364795个SNPs和10728322个SNPs具有r2HRC和1000基因组3期组分别≥0.5。大多数附加SNP发生在较低的频率范围(补充表3).

接下来,我们测试了HRC插补基因型与93种循环血标志物表型的相关性,包括许多与人类健康相关的表型,如脂类、维生素、离子、炎症标志物和脂肪因子1415该分析强调了名义GWAS显著性阈值5e-8下的潜在新关联(补充表4). 当我们在没有重叠InCHIANTI样本的情况下使用HRC面板重复插补时,我们获得了类似的结果(补充表4). 我们将这些SNP转发到SHIP和SHIP-TREND队列中进行复制(请参阅方法)发现其中两个SNP复制了(补充表5). 具体而言,我们发现SNP rs150956780(MAF=0.6%)与乳酸脱氢酶表型相关(荟萃分析p值=3.779E-29),SNP rs147142246(MAF=0.6%)与钾表型相关(meta分析p值=8.7E-09)。我们还发现,HRC插补可以细化关联信号。例如,图2显示了基于HapMap2、1000GP3和HRC插补的关联结果α1-抗tripsin表型SERPINA1号机组轨迹。HRC插补在罕见的因果SNP rs28929474(MAF=0.5%)处对信号进行了明确细化(补充表6)已知易患α1抗胰蛋白酶缺乏性肺气肿1617。使用排除InCHIANTI样品的HRC面板时获得了类似的结果(数据未显示)。

保存图片、插图等的外部文件。对象名称为emss-71361-f002.jpg
关联信号α1-抗tripsin表型SERPINA1号机组轨迹。

针对每个SNP位置(x轴)绘制了–log10 p值标度(y轴)上的关联测试统计数据。使用了三种不同的插补面板:HapMap2(左)、1000GP3(中)、HRC释放1(右)。SNP rs28929474显示为紫色,其他SNP根据LD(r)的水平着色2)使用此SNP(参见r2每个子情节中的图例)

由于HRC参考小组将许多不同研究的数据与数据发布的一系列限制结合起来,我们开发了集中插补服务器资源(参见网址). 在此模型下,研究人员上传分阶段或非分阶段的基因型数据,并在中央服务器上进行插补。完成后,研究人员可以下载输入数据集。类似地,我们还开发了一个低吞吐量的分阶段服务器,用于从高覆盖率的WGS数据中估计具有基因型的临床样本的单倍型,利用罕见变异共享18(请参见网址). 研究人员将通过欧洲基因组-表型档案(EGA)获得有限的HRC单倍型子集,仅用于阶段划分和插补。

首次发布的HRC是迄今为止最大的人类遗传变异资源,是通过跨多个群体的前所未有的数据共享协作创建的。我们设想继续扩大人权委员会,目前正在计划第二次人权委员会发布,与第一次发布在两个方面有所不同。首先,我们的目标是通过将测序研究的数据纳入全球样本集(如CONVERGE研究),大幅增加小组的种族多样性19、AGVP20和HGDP21其次,我们的目标是除了SNP变体之外,还包括短插入和删除。在由除被插补者以外的整个人群组成的参照组范围内,插补对于任何频率的等位基因都可能是几乎完美的,因为该参照组将包含共享长且几乎相同序列片段的近亲。因此,我们确实希望未来能够在插补性能方面取得进展。在一些经历过隔离的人口中(如撒丁岛或冰岛),我们预计会更快地接近这一极限。展望未来,我们希望与正在进行的工作密切合作,收集大量高覆盖率测序样本,如英国100000基因组项目(参见网址).

在线方法

工会网站列表

每项研究都向我们提供了最新版本的VCF格式单倍型,每个常染色体都有一个VCF。对于每个队列,使用bcftools(v0.2.0-rc12)创建一个完整的、仅SNP的位点列表,其中包含来自这些全染色体单倍型的交替和总等位基因计数信息。使用“bcftools标准”将多等位基因SNP分解为双等位基因。使用一个内部Perl脚本将这些跨组站点列表合并到一个文件中,该脚本正确地合并了交替和总等位基因计数。我们使用bcftools创建了名为MAC2和MAC5的位点列表,其中仅包含在所有研究中分别大于等于2和大于等于5的微小等位基因计数(MAC)位点。这些站点列表分别包含95855206和51060347个站点。

基因型似然计算

使用“samtools mpileup”命令从每个样本的BAM文件中基于每个样本生成所有MAC2位点的基因型可能性(GL)。管道和软件版本已在线提供(请参阅网址). 使用“bcftools merge”命令合并生成的BCF文件,使用“bcft ools call”命令提取MAC2位点和等位基因。这里使用“bcftools调用”对所有样本中的每个位点进行了一组基线非LD基因型调用。这些调用用于一些初始样品QC(参见样本过滤第节)。我们计算了总计33070个样本的GLs。

网站筛选

我们使用了一种特殊的方法进行初始变体筛选,这使我们能够识别出“经常”被我们提交的研究筛选出的变体。对于每个位点和每个队列,如果基于GLs的bcftools的假定调用在该队列中显示多个等位基因,我们将该位点标记为“调用”,如果没有变化,则标记为“未调用”。我们还使用了每项研究提供的单倍型集来确定每项研究是否使用了各自的内部调用管道筛选出了每个站点。为了确定“过滤次数”的阈值,我们根据站点的呼叫状态和过滤状态对其进行了分层(补充图5). 我们还测量了每种分层组合的SNP集合的Ts/Tv比率。筛选出与图中红线以上细胞相对应的SNP,去除所有通过4项以上研究筛选出的细胞或Ts/Tv比值小于1.7的细胞。

我们还应用了一组额外的站点过滤器,如下所示。我们过滤掉了不在MAC5网站列表上的网站,将网站列表限制在那些可以很好估算的网站上。如果(i)任何研究(1000个基因组除外)的哈代-温伯格平衡(HWE)p值<10-10(ii)任何研究(1000个基因组除外)的总近亲交配系数均小于-0.1,(iii)MAF>0.1,该位点在不到3个研究中被调用,而在1000个基因组中未被调用(后一种限制使仅在1000个基因中被调用的非欧洲人群中的位点保持高频率)。我们还筛选出了仅在GoNL研究或IBD队列中调用的站点。我们在网站列表创建过程的这一步中完全排除了GPC单倍型。

应用这些过滤器后,站点列表包含44038997个站点。最后,我们确定在一系列常见SNP基因分型阵列上发现4914335个位点,以及在GIANT联盟和全球脂质联盟中使用的位点(补充表7)都包括在最终的站点列表中。过滤后的最终站点列表包含44187567个站点。

样本过滤

使用“bcftools调用”提取位点和等位基因后,我们进行了一组基线非LD基因型调用(参见基因型似然计算第节)。基于对22号染色体的这些调用,一些异常样本很明显,我们删除了150个样本,这些样本显示,染色体上的非参考SNPs少于10000个或超过10个。这总共留下了32920个样本。

为了检测可能的重复,我们使用了单个研究提交的原始基因型调用。我们随机选择了1000个位点(1)为双等位基因;(2) 在1000GP3中欧洲次要等位基因频率>5%;(3)在任何单独的研究中都没有缺失数据。使用“bcftools gtcheck”命令,我们计算了每个样本对之间差异的基因型数量。共有269对样本对,在1000个位点上几乎没有不同的基因型。我们在研究中或研究之间将这些样本确定为重复样本,并按照补充表8。由于一些样品被代表两次以上,共有261个样品因重复而被删除。在基因型调用之前,我们还删除了(i)9个我们有完整基因组数据的样本,以便我们可以将这些样本用于测试目的,(ii)31个来自1000GP3的相关样本(参见网址),(iii)来自HELIC、AMD和ProjectMinE研究的8个样本,样本标签不一致。这些过滤器导致32611个样本用于基因型调用和阶段化步骤。

此外,在分阶段试验后,从AMD研究中删除了83份样品,因为这些样品的许可证已被删除。我们还对最后的HRC基因型调用重复了重复检测过程,因为一些研究在分析过程中后期规模有所增加。这导致移除了额外的40个样本,最终阶段参考面板中的样本总数为32488个。

利用现有单倍型调用的基因型调用方法

我们通过扩展SNP工具从HRC样本上计算的基因型可能性中调用基因型22利用每个队列中现有单倍型的算法。与其他阶段化和调用方法一样810,SNPTools是一种MCMC方法,其中使用所有其他样本的当前估计值迭代更新每个样本的单倍型和基因型。使用只有四个状态的低复杂度隐马尔可夫模型(HMM)更新每个样本,其中状态是一组四个“代理父代”单倍型。MCMC采样器使用Metropolis-Hastings(MH)步骤对代理父母集进行采样。在大样本中,这些替代单倍型的搜索空间很大,导致采样器的接受率很低。我们的扩展名为GLPhase(请参见网址)使用预先存在的单倍型来限制MH采样器可以从中选择替代亲本单倍型的可能单倍型集合。对于每个个体,我们使用汉明距离度量将搜索空间限制为200个单倍型,这些单倍型与个体的两个预先存在的单倍型最匹配(每个单倍型100个)。我们一次在1024个站点的块上运行该方法,这是SNPtools的默认设置。由于每个研究中预先存在的单倍型不包含完全相同的位点,我们使用每个位点的主要等位基因在我们的位点列表中预先存在单倍型中填写缺失的等位基因。

通过这种方式限制搜索空间,我们可以将老化迭代次数从56次减少到5次,采样迭代次数从200次减少到95次,每个个体在每次迭代中所采取的MH步骤数从2次减少到9次N个到100,其中N个是阶段化的样本数。这降低了我们的阶段化算法的复杂性O(否2)O(N)。虽然我们实现的汉明距离搜索具有复杂性O(否2),对于N个=30000,搜索对运行时间的影响很小(每个块上约5%的运行时间)。使用约1.3GB的RAM,1024个站点的块可以在约200分钟内分阶段进行。一旦遇到汉明距离搜索开始占主导地位的样本大小,我们的实现可以替换为O(N log N)我们在SHAPEIT3算法中实现的聚类算法12

为了说明GLPhase对如此大样本量的基因型调用和阶段化的重要性,我们与Beagle 3.1、Beagle 4.1和原始SNPTools方法进行了比较。我们使用增加的样本大小和测量的运行时间,对集群上从20号染色体中随机选择的五个1024个站点块运行所有四种方法。补充图6结果表明,在HRC样本量充足的情况下,GLPhase比下一种最快的方法快大约100倍。

最终阶段和单倍型估计

我们使用SHAPEIT3估计GLPhase基因型调用的单倍型12染色体分为16000个变体加上3300个变体与两侧相邻的区块重叠的区块。SHAPEIT3使用了非默认命令行选项-w 0.5。使用ligateHAPLOTYPES程序连接区块(请参见网址). SHAPEIT3不处理同一基因组坐标下的多个变体,因此多等位基因位点(具有3或4个等位基因的SNP)被一个或两个碱基对移位以重新相位,然后在区块连接后移回其原始位置。

基因型调用过程的评估

我们使用不同的站点列表和样本集组合测试了20号染色体数据的基因型调用过程,以评估站点过滤的效果和增加样本量的好处。我们评估了3个不同的位点列表:1000个基因组3期位点集(775927)、我们的HRC MAC5位点列表(1128114)和我们的HRC-MAC5带有额外位点过滤的位点列表(1006559)。我们在3组不同的样本上运行了基因型调用方法:2525个原始的1000个基因组3期样本,13309个HRC样本的子集,我们在HRC测试的早期阶段使用了1000GP3、AMD、GoNL、GoT2D、ORCADES、SardinIA、FINLAND和UK10K研究,以及近终期的32905个HRC全套样本。我们使用GLPhase对这9个数据集中的每一个数据集进行基因型命名,并与1000基因组项目产生的Illumina OMNI2.5M基因型进行基因型不一致性比较。为了进行这一比较,我们只关注了3个样本集共享的365个样本和42244个SNP位点的基因型。我们计算了由参考(REF)和替代(ALT)等位基因组成的3种可能基因型的不一致百分比,以及总的非参考等位基因不一致率(NRD)。结果如所示补充表2

下游插补绩效

我们评估了4个不同参考面板的插补精度:1000个基因组第3阶段、UK10K和两个版本的HRC参考面板,使用和不使用SHAPEIT3重新定相。为此,我们使用了Complete Genomics(CG)公开的高覆盖率WGS数据(参见网址). 对于伪GWAS样本,我们使用了10个CEU样本的数据,这些数据也出现在1000个基因组3期样本中。在使用这些样本评估插补绩效之前,将这些样本从各个参考小组中删除。

基于三个芯片列表创建了三个伪GWAS面板(请参见网址):Illumina Omni 5M SNP阵列(HumanOmni5-4v1-1_A)、Illumina Omni 1M SNP阵列(Human1M Duo v3C)和Illumina Core Exome SNP阵列(humancoreexome-12v1-1_A)。对于这些比较,我们仅使用参考面板交叉处的站点进行直接比较。

使用这些伪基因型插补其余基因型,然后将其与保留基因型进行比较,通过插补位点的MAF对结果进行分层。

使用IMPUTE2进行插补7它为基因组中每个2Mb片段的每个研究个体选择一个自定义参考面板。我们将IMPUTE2的khap参数设置为1000。所有其他参数都设置为默认值。我们将输入变量分层到等位基因频率箱中,并计算每个箱中变量的输入等位基因剂量与掩盖的CG基因型(称为聚集r2在里面图1). 每个SNP的非参考等位基因频率根据MAC≥5个位点的HRC释放1 GLs计算。图1显示了Illumina Omni 1M芯片的结果。补充图3和4分别显示Illumina Core Exome芯片和Illumiana Omni 5M芯片的结果。

InCHIANTI研究中插补、关联测试和复制的详细信息

使用Illumina Infinium HumanHap550基因分型阵列对来自InCHIANTI研究的1210名个体进行基因分型1314在筛选出MAF<1%的SNP后,使用常染色体SNP对个体进行预分期,Hardy-Weinberg第页-值<10-04缺失率>1%。如果不能将SNP重新映射到GRCh37(hg19)人类参考,也会删除SNP。这导致483991个SNP可用于预阶段化。使用SHAPEIT2在本地执行阶段化10

使用密歇根插补服务器远程执行插补(请参阅网址). 从HRC和1000个基因组3期(v5)参考组中分别输入了39235157个SNP和47045346个变体。插补质量阈值为2>随后,在关联检验之前,将0.5应用于两个插补数据集。这导致15501516和13589949个变量可用于关联分析,分别来自基于HRC和1000基因组的插补。

在关联测试之前,InCHIANTI研究中总共有93个循环因子是双重反向正态的,同时根据年龄和性别进行了调整1415使用GEMMA中实现的线性混合模型框架进行关联分析(参见网址). 中的关联图图2使用LocusZoom生成(请参见网址).

我们试图复制中报告的关联补充表3在SHIP和SHIP-TREND队列中23使用Affymetrix全基因组人类SNP阵列6.0对SHIP样本进行基因分型。使用Illumina Human Omni 2.5阵列对SHIP-TREND样本进行基因分型。插补前,排除重复样本(通过IBS)、报告与基因型性别不匹配的样本或杂合率极高的样本。此外,筛选了所有单态SNP、具有重复染色体位置的SNP、pHWE<0.0001的SNP和胼胝率<95%的SNP。在桑格插补服务中进行插补(参见网址)靠在HRC面板上。总共有4070个SHIP样本和986个SHIP-TREND样本被纳入基因型插补。使用SNPTEST v2.5.2进行关联分析24

补充材料

补充数据

单击此处查看。(180万,pdf)

致谢

J.M承认ERC的支持(批准号617306)。W.K承认来自威康信托(批准号:WT097307)。S.M和R.D感谢Wellcome的支持信托授予WT098051。本研究利用UK10K生成的数据联合体。Wellcome Trust为UK10K(WT091310)提供资金。我们是感谢所有研究的参与者,他们为人权委员会。队列确认的完整列表在补充说明

脚注

网址

单倍型参考联盟

http://www.haplotype-reference-consortium.org/

密歇根插补服务器

https://inputationserver.sph.umich.edu/

桑格插补服务器

https://inputation.sanger.ac.uk网址/

牛津阶段服务器

https://phasingserver.stats.ox.ac.uk/

基因型可能性计算脚本

https://github.com/mcshane/hrc-release1

GL阶段

http://www.stats.ox.ac.uk/~marchini/software/gwas/gwas.html

连接性染色体类型

https://mathgen.stats.ox.ac.uk/genetics_software/shapeit/shapei.html

全基因组高覆盖率WGS基因型

http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/working/20130524_cgi_combined_calls/

1000基因组项目OMNI基因型

ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20135050/supporting/hd_genotype_chip/ALL.chip.omni_broad_sanger_combined.20140818.snps.genotypes.vcf.gz

100000基因组项目

http://www.genomicsengland.co.uk/the-100000-genomes-project网站/

GEMMA公司

http://www.xzlab.org/software.html

轨迹缩放

http://locuszoom.sph.umich.edu/locuszoom/

1000GP3相关样本

ftp://ftp.1000genomes.ebi.ac.uk//vol1/ftp/release/20130502/20140625_related_individuals.txt

SNP芯片站点列表

网址:http://www.well.ox.ac.uk/~wrayner/股/

贡献者

作者贡献

HRC最初是由J.M、G.A、R.D、M.M和M.B.之间的讨论构想的。分析和方法开发由S.M、S.D、W.K、O.D、A.R.W、P.D和H.K进行。研究监督由J.M.、G.A.和R.D.提供。密歇根插补服务器由C.F、L.F、S.S和G.A.开发。桑格插补服务器由P.D、S.M和R.D.开发。牛津统计分期服务器由W.K、K.S和J.M.开发。所有其他作者都为项目提供了数据集或提供了建议。

工具书类

1国际单倍型图谱联合会等。超过310万个SNPs的第二代人类单倍型图谱。自然。2007年;449:851–861. [PMC免费文章][公共医学][谷歌学者]
21000基因组项目联盟等。人类遗传变异的全球参考。自然。2015;526:68–74. [PMC免费文章][公共医学][谷歌学者]
三。荷兰联合会基因组。荷兰人口的全基因组序列变异、人口结构和人口历史。自然遗传学。2014;46:818–825.[公共医学][谷歌学者]
4Huang J等。使用UK10K单倍型参考面板改进低频和罕见变异的插补。自然通信。2015;6:8111. [PMC免费文章][公共医学][谷歌学者]
5Sidore C等人。基因组测序阐明了撒丁岛遗传结构,并增强了脂质和血液炎症标记物的关联分析。自然遗传学。2015;47:1272–1281. [PMC免费文章][公共医学][谷歌学者]
6Marchini J、Howie B、Myers S、McVean G、Donnelly P。通过基因型插补进行全基因组关联研究的新多点方法。自然遗传学。2007年;39:906–913.[公共医学][谷歌学者]
7Howie BN,Donnelly P,Marchini J.下一代全基因组关联研究的灵活而准确的基因型插补方法。公共科学图书馆-遗传学。2009;5:e1000529。 [PMC免费文章][公共医学][谷歌学者]
8Li Y,Willer CJ,Ding J,Scheet P,Abecasis GR.MaCH:使用序列和基因型数据估计单倍型和未观察到的基因型。基因流行病学。2010;34:816–834. [PMC免费文章][公共医学][谷歌学者]
9Howie B,Fuchsberger C,Stephens M,Marchini J,Abecasis GR.通过预阶段化在全基因组关联研究中快速准确的基因型插补。自然遗传学。2012;44:955–959. [PMC免费文章][公共医学][谷歌学者]
10Delaneau O,Zagury J-F,Marchini J.疾病和人群遗传学研究中改进的全染色体分期。自然方法。2013;10:5–6.[公共医学][谷歌学者]
11Fuchsberger C,Abecasis GR,Hinds DA。minimac2:更快的基因型插补。生物信息学。2015;31:782–784. [PMC免费文章][公共医学][谷歌学者]
12O'Connell J,Sharp K,Delaneau O,Marchini J.生物库规模数据集的单倍型估计。自然遗传学。2016新闻界。[PMC免费文章][公共医学][谷歌学者]
13Ferrucci L等人,《导致行走能力下降的子系统:弥合InCHIANTI研究中流行病学和老年医学实践之间的差距》。美国老年医学会杂志。2000;48:1618–1625.[公共医学][谷歌学者]
14Melzer D等人。一项全基因组关联研究确定蛋白质定量性状位点(pQTL)公共科学图书馆-遗传学。2008;4:e1000072。 [PMC免费文章][公共医学][谷歌学者]
15Wood AR等人。对1000基因组项目中的变异进行插补,可以适度改善已知的关联性,并可以识别基于HapMap插补未检测到的低频变异-表型关联。《公共科学图书馆·综合》。2013;8:e64343。 [PMC免费文章][公共医学][谷歌学者]
16Bathurst IC,Travis J,George PM,Carrell RW。从人类肝脏分离的异常Zα1-抗胰蛋白酶的结构和功能特征。FEBS信函。1984;177:179–183.[公共医学][谷歌学者]
17Ferrarotti I等人。普通人群中α1-抗胰蛋白酶的血清水平和基因型分布。胸部。2012;67thoraxjnl-2011-20321-674。[公共医学][谷歌学者]
18Sharp K,Kretzschmar W,Delaneau O,Marchini J.使用罕见变体和大型单倍型参考群体进行医学测序的阶段化。生物信息学。2016年doi:10.1093/bioinformatics/btw065。btw065。[PMC免费文章][公共医学] [交叉参考][谷歌学者]
19CONVERGE财团。稀疏全基因组测序确定了两个抑郁症基因座。自然。2015;523:588–591. [PMC免费文章][公共医学][谷歌学者]
20Gurdasani D等人。非洲基因组变异项目塑造了非洲的医学遗传学。自然。2015;517:327–332. [PMC免费文章][公共医学][谷歌学者]
21Rosenberg NA等人。人类群体的遗传结构。科学。2002;298:2381–2385.[公共医学][谷歌学者]
22Wang Y,Lu J,Yu J,Gibbs RA,Yu F.在群体NGS数据中准确推断基因型/单倍型的综合变异分析管道。基因组研究。2013;23:833–842. [PMC免费文章][公共医学][谷歌学者]
23Völzke H等人,《队列概况:波美拉尼亚健康研究》。国际流行病学杂志。2011;40:294–307.[公共医学][谷歌学者]
24Marchini J,Howie B.全基因组关联研究的基因型插补。Nat Rev基因。2010;11:499–511.[公共医学][谷歌学者]