自然遗传学。作者手稿;PMC 2016年5月1日提供。
以最终编辑形式发布为:
预防性维修识别码:项目经理4797329
NIHMSID公司:美国国立卫生研究院719075
人类疾病和性状的遗传相关图谱
,1,2,三,* ,4,* ,1,2,三 ,5,6 ,7 ,1,5ReproGen财团,8精神基因组学联合会,8Wellcome信托病例控制联合会3神经性厌食症遗传联合会,8 ,1,2,三 ,7 ,1 ,1,2,三 ,1,2,三 ,1,5,6,**和1,2,三,**
布伦丹·布利克·苏利凡
1美国马萨诸塞州剑桥市麻省理工大学博大学院和哈佛大学医学与人口遗传学项目
2斯坦利精神遗传学中心,麻省理工学院布罗德研究所和哈佛大学,马萨诸塞州剑桥
三美国马萨诸塞州波士顿市马萨诸塞总医院和哈佛医学院分析和转化遗传学室
希拉里·科·菲努凯恩
4美国马萨诸塞州剑桥市麻省理工学院数学系
Verneri Anttila公司
1美国马萨诸塞州剑桥市麻省理工大学博大学院和哈佛大学医学与人口遗传学项目
2美国马萨诸塞州剑桥市麻省理工大学博德学院和哈佛大学斯坦利精神遗传学中心
三美国马萨诸塞州波士顿市马萨诸塞总医院和哈佛医学院分析和转化遗传学室
亚历山大·古塞夫
5美国马萨诸塞州波士顿哈佛T.H.Chan公共卫生学院流行病学系
6美国马萨诸塞州波士顿哈佛T.H.Chan公共卫生学院生物统计学系
费利克斯·R·戴
7英国剑桥大学剑桥生物医学校区代谢科学研究所剑桥大学临床医学院MRC流行病学室
波鲁洛
1美国马萨诸塞州剑桥市麻省理工大学博大学院和哈佛大学医学与人口遗传学项目
5美国马萨诸塞州波士顿哈佛T.H.Chan公共卫生学院流行病学系
拉拉米·邓肯
1美国马萨诸塞州剑桥市麻省理工大学博大学院和哈佛大学医学与人口遗传学项目
2美国马萨诸塞州剑桥市麻省理工大学博德学院和哈佛大学斯坦利精神遗传学中心
三美国马萨诸塞州波士顿市马萨诸塞总医院和哈佛医学院分析和转化遗传学室
约翰·R·B·佩里
7英国剑桥大学剑桥生物医学校区代谢科学研究所剑桥大学临床医学院MRC流行病学室
尼克·帕特森
1美国马萨诸塞州剑桥市麻省理工大学博大学院和哈佛大学医学与人口遗传学项目
伊丽莎·罗宾逊
1美国马萨诸塞州剑桥市麻省理工大学博大学院和哈佛大学医学与人口遗传学项目
2美国马萨诸塞州剑桥市麻省理工大学博德学院和哈佛大学斯坦利精神遗传学中心
三美国马萨诸塞州波士顿,马萨诸塞州总医院和哈佛医学院分析和转化遗传学部门
马克·戴利
1美国马萨诸塞州剑桥市麻省理工大学博大学院和哈佛大学医学与人口遗传学项目
2斯坦利精神遗传学中心,麻省理工学院布罗德研究所和哈佛大学,马萨诸塞州剑桥
三美国马萨诸塞州波士顿市马萨诸塞总医院和哈佛医学院分析和转化遗传学室
阿尔克斯·L·普莱斯
1美国马萨诸塞州剑桥市麻省理工大学博大学院和哈佛大学医学与人口遗传学项目
5美国马萨诸塞州波士顿哈佛T.H.Chan公共卫生学院流行病学系
6美国马萨诸塞州波士顿哈佛T.H.Chan公共卫生学院生物统计学系
本杰明·尼尔
1美国马萨诸塞州剑桥市麻省理工大学博大学院和哈佛大学医学与人口遗传学项目
2美国马萨诸塞州剑桥市麻省理工大学博德学院和哈佛大学斯坦利精神遗传学中心
三美国马萨诸塞州波士顿市马萨诸塞总医院和哈佛医学院分析和转化遗传学室
1美国马萨诸塞州剑桥市麻省理工大学博大学院和哈佛大学医学与人口遗传学项目
2美国马萨诸塞州剑桥市麻省理工大学博德学院和哈佛大学斯坦利精神遗传学中心
三美国马萨诸塞州波士顿市马萨诸塞总医院和哈佛医学院分析和转化遗传学室
4美国马萨诸塞州剑桥市麻省理工学院数学系
5美国马萨诸塞州波士顿哈佛T.H.Chan公共卫生学院流行病学系
6美国马萨诸塞州波士顿哈佛T.H.Chan公共卫生学院生物统计学系
7英国剑桥大学剑桥生物医学校区代谢科学研究所剑桥大学临床医学院MRC流行病学室
*第一作者
**共同作者
介绍
了解人类特征与疾病之间的复杂关系是流行病学的一个基本目标。随机对照试验和纵向研究既耗时又昂贵,因此在单个时间点使用横断面相关性研究来研究许多潜在风险因素。由于混淆和反向因果关系等问题,从此类研究中获得因果推断可能具有挑战性,这可能导致虚假关联并掩盖真实风险因素的影响[1,2]. 遗传学有助于阐明因果关系,因为遗传性遗传风险不受反向因果关系的影响,并且与较少的混杂因素相关。
检测基因重叠的第一种方法是家族研究[三,4,5,6,7]. 为了估计多对表型之间的遗传重叠,家庭设计需要测量同一个体的多个性状。因此,将家庭设计扩展到大量特征,尤其是难以测量或昂贵的特征,是一项挑战(例如。,低发病率疾病)。最近,全基因组关联研究(GWAS)使我们能够获得特定遗传变异的效应大小估计值,因此可以通过寻找性状间效应大小的相关性来测试共享遗传,这不需要测量每个个体的多个性状。
有一大类通过GWAS查询遗传重叠的方法,这些方法只关注全基因组显著SNP。这门课中最有影响力的方法之一是孟德尔随机化,它使用显著相关的SNP作为工具变量,试图量化风险因素和疾病之间的因果关系[1,2]. 专注于显著SNP的方法对于那些有许多显著关联且占遗传力很大一部分的性状是有效的[8,9]. 对于许多复杂性状,遗传力分布在数千个影响较小的变异上,在当前样本量下,显著相关的变异所占的遗传力比例很小[10]. 在这种情况下,人们通常可以通过使用全基因组数据而不仅仅是显著相关的变异来获得更准确的结果[11].
一种互补的方法是估计遗传相关性,其中包括所有SNP的影响,包括那些未达到全基因组显著性的SNP(方法)。现有的两种从GWAS数据估计遗传相关性的主要技术是限制最大似然法(REML)[11,12,13,14,15,16]和多基因评分[17,18]. 这些方法仅适用于少数性状,因为它们需要个人基因型数据,而由于知情同意的限制,很难获得这些数据。
为了克服这些局限性,我们开发了一种仅使用GWAS汇总统计数据估计遗传相关性的技术,该统计数据不受样本重叠的影响。我们的方法,跨性状LD评分回归,是单性状LD得分回归的简单扩展[19]计算速度非常快。我们将此方法应用于来自24个GWAS的数据,并报告了276对表型的遗传相关性,证明了许多复杂疾病和性状的共同遗传基础。
结果
方法概述
本文提出的从汇总统计中估计遗传相关性的方法依赖于这样一个事实,即给定SNP的GWAS效应大小估计包含了与该SNP连锁不平衡(LD)中所有SNP的效应[19,20]. 对于多基因性状,LD高的SNP将具有更高的χ2与低LD SNP相比的平均统计数据[19]. 如果我们替换χ,同样的关系成立2使用产品的单个研究的统计数据z(z)-两项非零遗传相关性状研究的得分。
更准确地说,在多基因模型下[11,13],的预期值z(z)1j个z(z)2j个是
哪里N个我是研究的样本量我,ρ克是遗传协方差(在方法中定义)j个是LD得分[19],N个秒是两项研究中包含的人数,以及ρ是N个秒重叠样本。我们在补充说明.如果研究1和研究2是同一项研究,则方程式1减少到单一特征的结果[19],因为性状和自身之间的遗传协方差是遗传力,而χ2=z(z)2.由于方程式1,我们可以使用回归的斜率来估计遗传协方差z(z)1j个z(z)2j个计算速度非常快的LD分数(方法)。
样本重叠会在z(z)1j个和z(z)2j个,膨胀z(z)1j个z(z)2j个通货膨胀的预期幅度在所有指标中都是一致的,尤其不取决于LD得分。因此,样本重叠仅影响此回归的截距(术语)而不是斜率,因此遗传相关性的估计不会因样本重叠而产生偏差。同样,共享的群体分层将改变截距,但对斜率的影响最小,因为LD得分和遗传漂变率之间的相关性最小[19]. 如果我们愿意假设没有共同的人群分层,并且我们提前知道样本重叠量和表型相关性(即。,的真正价值),我们可以将截距约束为该值。我们将这种方法称为约束截距LD得分回归。约束截距LD-Score回归比非约束截距的LD-Score回归具有更低的标准误差(通常高达30%),但如果截距指定错误,则会产生偏差和误导性估计,例如。,如果我们指定了错误的值N个秒ρ或者没有完全控制人口分层。
通过SNP遗传率对遗传协方差进行归一化,得出遗传相关性:,其中表示SNP遗传率[11]来自研究我遗传相关性介于-1和1之间。结果类似于方程式1如果一项或两项研究都是病例/对照研究,则保持不变,在这种情况下,遗传协方差在观察范围内。有关详细信息,请参阅补充说明.病例/对照性状的观察遗传相关性和责任量表遗传相关性没有区别,因此我们可以定义和估计病例/对照特性与数量性状之间的遗传相关性以及病例/对照特征对之间的遗传相关,而无需指定量表(补充说明).
仿真
我们进行了一系列仿真,以评估模型对潜在混杂因素(例如样本重叠和模型指定错误)的鲁棒性,并验证标准误差估计的准确性(方法)。
显示了来自1000个数量性状模拟的跨性状LD得分回归估计和标准误差。对于每个模拟复制,我们通过从双变量正态分布中提取2号染色体上约600000个SNP的效应大小,为样本中2062个个体中的每个个体生成两个表型。然后,我们用交叉性状LD评分回归计算表型和估计遗传力以及遗传相关性的汇总统计数据。摘要统计数据由完全重叠的样本生成。结果如所示这些模拟证实了交叉性状LD评分回归能够准确估计真实的遗传相关性,并且标准误差与模拟的标准偏差相匹配。因此,与通过多基因风险评分估计遗传相关性相比,交叉性状LD评分回归不受样本重叠的影响,而多基因风险得分在存在样本重叠时会产生偏差[18]. 我们还评估了一个数量性状和一个病例/对照研究的模拟结果,表明交叉性状LD得分回归可以应用于二元性状,并且不会因病例过采样而产生偏差(补充表1).
表1
具有完整样本重叠的模拟。Truth显示真实的参数值。估计值显示了1000个模拟的平均交叉特征LD得分回归估计值。SD显示了1000个模拟中估计值的标准偏差,SE显示了1000次模拟中的平均交叉特征LD得分回归SE。方法中给出了模拟设置的更多详细信息。
参数 | 真相 | 估算 | 标准偏差 | 东南方 |
---|
小时2 | 0.58 | 0.58 | 0.072 | 0.075 |
ρ克 | 0.29 | 0.29 | 0.057 | 0.058 |
第页克 | 0.50 | 0.49 | 0.079 | 0.073 |
如果遗传结构的基本模型指定错误,遗传力和遗传协方差的估计可能会有偏差,例如。,如果解释的方差与LD得分或MAF相关[19,21]. 因为遗传相关性是以比率来估计的,所以它更稳健;在同一方向上影响分子和分母的偏差往往会抵消。即使在遗传结构模型的模拟中,我们对遗传力和遗传协方差的估计存在偏差,我们也能获得遗传相关性的近似正确估计(补充表2).
Pyschiatric交叉差分结果的复制
作为技术验证,我们复制了用个体基因型和REML获得的精神疾病之间的遗传相关性估计值[14],通过应用跨性状LD得分回归对相同数据的汇总统计[22]. 这些汇总统计数据是从非重叠样本中生成的,因此我们使用非约束和约束截距应用了跨性状LD得分回归(方法)。这些分析的结果如所示交叉性状LD评分回归结果与REML结果相似。具有约束截距的交叉性状LD得分回归给出的标准误差仅略大于REML的标准误差,而具有截距的跨性状LD分数回归的标准误差则大得多,特别是对于样本量较小的性状(例如。,多动症、ASD)。
25种表型在汇总统计中的应用
我们使用交叉性状LD评分回归估计24种表型之间的遗传相关性(URL,Methods)。24个性状的所有276个成对组合的遗传相关估计如所示为了表达清晰,24个表型仅包含来自密切相关表型的每个簇的一个表型(方法)。排除在外的教育、人体测量、吸烟和胰岛素相关表型之间的遗传相关性显示了补充图1、2、3和4分别是。49个性状之间1176个遗传相关性的完整表格见补充表4参考文献和样本量见补充表3.
第一部分列出了与流行病学关联相一致的遗传相关性结果,但据我们所知,以前从未使用遗传数据报告过。初潮年龄与成年身高之间遗传相关性的估计[29]、甘油三酯[30]和2型糖尿病[30,31]与流行病学关联一致。神经性厌食症和肥胖之间的负遗传相关性估计表明,同样的遗传因素影响着BMI的正常变异以及精神疾病中BMI的失调。这一结果与BMI GWAS发现暗示神经元而非代谢、细胞类型和表观遗传标记的观察结果一致[32,33]. 成人身高与冠状动脉疾病之间的负遗传相关符合重复流行病学关联[34,35,36]. 我们观察到里特维尔的教育成就表型与几个重要关联等。[37]:我们估计了大学与阿尔茨海默病之间具有统计学意义的负遗传相关性,这与流行病学结果一致[38,39]. 大学与双相情感障碍之间的正遗传相关性与之前的流行病学报告一致[40,41]. 吸烟与大学之间负遗传相关的估计与观察到的吸烟率差异与教育程度的函数一致[42].
表2
选定性状对的遗传相关估计、标准误差和p值。结果分为新的遗传结果,但与已建立的流行病学关联(“流行病学”)、遗传学和流行病学新的遗传关联(“新/非零”)和有趣的零结果(“新的/低”)。p值是未修正的p值。中300次测试通过多次测试修正的结果当FDR为1%时,只有一个星号;通过Bonferroni校正的结果有两个星号。我们提出了一些符合流行病学关联的遗传相关性,但在这些数据中没有通过多重测试校正。
| 表型1 | 表型2 | rg(se) | p值 |
---|
流行病学 | 初潮年龄 | 成人身高 | 0.13 (0.03) | 2×10−6** |
初潮年龄 | 2型糖尿病 | −0.13 (0.04) | 2×10−3* |
初潮年龄 | 甘油三酯 | −0.12 (0.04) | 1×10−3* |
冠状动脉疾病 | 初潮年龄 | −0.12 (0.05) | 3×10−2 |
冠状动脉疾病 | 教育年限 | −0.25(0.06) | 1×10−4** |
冠状动脉疾病 | 成人身高 | −0.17 (0.04) | 1×10−5** |
老年痴呆症 | 受教育年限 | −0.29 (0.1) | 5×10−3* |
双相情感障碍 | 教育年限 | 0.30 (0.06) | 9×10−7** |
体重指数 | 教育年限 | −0.28 (0.03) | 6×10−16** |
甘油三酯 | 教育年限 | −0.26 (0.06) | 2×10−8** |
神经性厌食症 | 体重指数 | −0.18 (0.04) | 3×10−7** |
从不吸烟 | 教育年限 | −0.36 (0.06) | 2×10−8** |
从不吸烟 | 体重指数 | 0.20 (0.04) | 8×10−7** |
新/非零 | 自闭症谱系障碍 | 教育年限 | 0.30 (0.08) | 2×10−4* |
溃疡性结肠炎 | 儿童肥胖 | −0.34 (0.08) | 3.1 × 10−5** |
神经性厌食症 | 精神分裂症 | 0.19(0.04) | 2×10−5** |
新/低 | 精神分裂症 | 老年痴呆症 | 0.04 (0.06) | >0.1 |
精神分裂症 | 从不吸烟 | 0.04 (0.06) | >0.1 |
精神分裂症 | 甘油三酯 | −0.04 (0.04) | >0.1 |
精神分裂症 | 低密度脂蛋白胆固醇 | −0.04(0.04) | >0.1 |
精神分裂症 | 高密度脂蛋白胆固醇 | 0.03 (0.04) | >0.1 |
精神分裂症 | 类风湿关节炎 | −0.04(0.05) | >0.1 |
克罗恩病 | 类风湿关节炎 | −0.03 (0.08) | >0.1 |
溃疡性结肠炎 | 类风湿关节炎 | 0.09 (0.08) | >0.1 |
第二部分据我们所知,列出了遗传学和流行病学的三个新结果。第一,我们发现神经性厌食症和精神分裂症之间存在正的遗传相关性。在精神病文献中,饮食和精神障碍之间的共病尚未得到彻底调查[43,44]这一结果增加了这些疾病类别之间相似性的可能性。第二,我们估计溃疡性结肠炎(UC)和儿童肥胖之间的负遗传相关性。疾病前期BMI与溃疡性结肠炎的关系尚不清楚;探索这种关系可能是进一步研究的一个富有成果的方向。第三,我们估计自闭症谱系障碍(ASD)和教育程度(与智商有很高的遗传相关性)之间的正遗传相关性[37,45,46]). ASD汇总统计数据是使用病例-假对照研究设计生成的,因此不能用流行病学观察到的来自受过高等教育的父母的ASD病例的过采样来解释这一结果[47]. 自闭症患者的智商分布平均值低于一般人群,但尾部较重[48] (即。,智商高低的个体过多)。还有新的证据表明,自闭症的遗传结构在智商分布上存在差异[49].
第三部分列出了一些有趣的例子,其中遗传相关性接近于零,标准误差很小。精神分裂症和类风湿性关节炎之间的低遗传相关性很有趣,因为精神分裂症被观察到对类风湿关节炎具有保护作用[50]虽然流行病学效应较弱,因此可能存在真正的遗传相关性,但它太小了,我们无法检测到。精神分裂症与吸烟之间的低遗传相关性是值得注意的,因为精神分裂症患者的烟草使用量(患病率和每天吸烟数量)增加[51]. 精神分裂症与血脂水平之间的低遗传相关性与之前关于精神分裂症和甘油三酯之间多效性的报道形成对比[52]. 多效性(无符号)不同于遗传相关性(有符号;见方法);然而,安德烈森报道的多效性,等。[52]可以用该方法对少数具有强LD的区域的特性而非性状生物学的敏感性来解释(补充图5). 我们估计阿尔茨海默病和精神分裂症之间的基因相关性接近于零。阿尔茨海默病与其他精神病特征(神经性厌食症、双相情感障碍、重度抑郁、ASD)之间的遗传相关性也接近于零,但由于样本量较小,标准误差较大。这表明阿尔茨海默病的遗传基础不同于精神疾病。最后,我们估计类风湿关节炎(RA)与克罗恩病(CD)和UC之间的基因相关性接近于零。尽管这些疾病共享许多相关基因座[53,54],似乎没有方向性趋势:一些RA风险等位基因也是UC和CD的风险等位蛋白,但许多RA风险等位点对UC和CD具有保护作用[53]产生接近零的遗传相关性。这个例子突出了多效性和遗传相关性之间的区别(方法)。
最后,代谢性状之间遗传相关性的估计与瓦蒂库蒂使用REML获得的估计一致等。[15] (补充表6)、和与Wuertz最近的孟德尔随机化结果方向一致等。[55]. CD和UC之间遗传相关性的估计值为0.54(0.07),与陈的估计值0.62(0.04)一致等。[16].
讨论
我们描述了一种从GWAS汇总统计数据估计遗传相关性的新方法,我们将其应用于包含24个性状和150多万个独特表型测量值的GWAS汇总统计学数据集。我们报告了一些用现有方法很难获得的新发现,包括神经性厌食症和精神分裂症之间的正遗传相关性。我们的方法复制了许多先前报告的基于GWAS的遗传相关性,并证实了全基因组显著SNP、MR结果和流行病学关联之间的重叠观察。
这种方法是一种进步,有几个原因:它不需要个体基因型、全基因组显著SNP或LD调节(如果LD中存在因果SNP,则会丢失信息)。我们的方法不受样本重叠的影响,计算速度快。此外,我们的方法不需要测量同一个人的多个特征,因此很容易扩展到研究数千对特征。这些优点使我们能够比现有方法估计更多对表型的遗传相关性。
解释遗传相关性的挑战与MR的挑战类似。我们强调了两个困难。首先,基因相关性对环境混杂免疫,但受基因混杂影响,类似于MR中多效性的混杂可能是由因果关系引起的高密度脂蛋白→计算机辅助设计,但也可能由甘油三酯(TG)介导[9,56],以图形方式表示[57]作为高密度脂蛋白←G公司→TG公司→计算机辅助设计,其中G公司是一组对HDL和TG都有影响的遗传变异。将遗传相关性扩展到多个遗传相关表型是未来工作的一个重要方向[58]. 第二,尽管基因相关性估计值不会因过采样而产生偏差,但它们会受到其他形式的偏差采样的影响,例如错误分类[14]和病例/对照/协变量抽样(例如。,T2D的BMI匹配研究)。
我们注意到交叉性状LD评分回归作为遗传相关性估计器的一些局限性。首先,与使用单个基因型的方法相比,跨性状LD得分回归需要更大的样本量,以达到等效的标准误差。第二,交叉性状LD评分回归目前不适用于来自最近接受治疗人群的样本。第三,我们还没有研究分类交配对估计遗传相关性的潜在影响,这仍是未来的发展方向。第四,基于多基因模型构建的方法,如跨性状LD评分回归和REML,在应用于具有多基因遗传结构的性状时最有效。对于显著SNP占遗传力相当大比例的性状,仅分析这些SNP可能更有效。开发能够同时优化利用大效应SNP和扩散多基因信号的方法是未来研究的一个方向。
尽管存在这些局限性,我们认为遗传相关性的跨性状LD评分回归估计器将是流行病学工具箱的一个有用补充,因为它可以快速筛查不同性状之间的相关性,无需测量同一个体的多个性状或全基因组显著SNP。
方法
遗传协方差和相关的定义
所有定义均指狭义遗传力和遗传协方差。让S公司表示一组M(M)SNP,让X(X)表示SNPs的加性(0-1-2)编码基因型的载体S公司,并让年1和年2表示表型。定义β:=argmax(最大值)α∈R(右)M(M)科尔[年1,X(X)α] ,其中最大化是在人口中执行的(即。,无限数据限制)。让γ表示对应的向量年2这是一个投影,所以β是完美LD中唯一的模SNP。定义,SNP解释的遗传力S公司,作为和ρS公司(年1,年2),SNP之间的遗传协方差S公司,作为SNP之间的遗传相关性S公司是,位于[-1,1]中。以下[11],我们使用下标克(如中所示,ρ克,第页克)当一组SNP被基因分型并在GWAS中输入SNP时。
SNP遗传相关(第页克)不同于家族研究的遗传相关性。在一项家族研究中,关系矩阵捕获了所有遗传变异的信息,而不仅仅是常见的SNP。因此,家族研究估计了总的遗传相关性(S公司等于所有变量)。与SNP遗传率之间的关系不同[11]和总遗传力,其中SNP遗传相关和总遗传相关之间没有相似的关系。如果普通变体之间的β和γ比罕见变体之间的相关性更强,那么总遗传相关性将小于SNP遗传相关性。
遗传相关性(渐近)与孟德尔随机化估计成正比。如果我们使用基因工具估计影响b条12属于年1在年2,2SLS估计值为2SLS公司:=克T型年2/克T型年1[59]. 分子和分母的期望值为E类[克T型年2]=ρS公司(年1,年2)和因此,.如果我们使用相同的集合S公司要估计的SNP数量b条12和b条21(例如。,如果S公司是所有常见SNP的集合,如本文中的遗传相关分析),则此过程在年1和年2.
遗传相关性不同于多效性。如果许多变异同时影响两个性状,那么这两个性状具有多效性关系。遗传相关性比多效性更强:要表现出遗传相关性,效应的方向也必须一致。
横向LD评分回归
从方法概述中回忆起,跨性状LD得分回归方程是
哪里z(z)ij公司表示z(z)-学习成绩我和SNPj个,N个我是研究的样本量我,ρ克是遗传协方差,▽j个是LD得分[19],N个秒是两项研究中包含的人数,以及ρ是N个秒重叠样本。我们在补充说明.我们通过回归估计遗传协方差z(z)1j个z(z)2j个反对,(其中N个ij公司是SNP的样本量j个在学习中我)然后将得到的斜率乘以M(M),MAF在5%到50%之间的参考组中的SNP数量(技术上,这是对MAF在5–50%的SNP之间的遗传协方差的估计;补充说明).
如果我们知道截距项的正确值提前,我们可以通过使用ldsc中的-constraint-intercept标志将截距限制为该值来减少标准误差(对于二进制性状对,我们给出了一个对应的表达式,表示重叠的病例数和控件数补充说明). 请注意,即使存在已知的非零样本重叠,此方法也有效
我们建议使用样本内估计值ρ(表示),而不是ρ.无偏抽样是一致的ρ具有O(运行)(1/N个)方差,所以在这种情况下ρ和不是很重要。在有偏抽样情况下(如前一节所述),预期LD分数回归截距取决于预期样本相关性E类[年我1年我2|秒=1](根据),不是人口ρ因此,我们建议使用而不是ρ限制截距时。
回归权重
对于遗传力估计,我们使用回归权重[19]. 如果两种表型的效应大小是从二元正态分布中得出的,那么遗传协方差估计的最佳回归权重为
(补充说明). 这个数量取决于几个参数(,ρ克,ρ,N个秒)它们是未知的,因此有必要从数据中估计它们。我们分两步计算权重:
第一次回归使用单性状LD得分回归的遗传力进行加权,ρN秒=0,和ρ克估计为.
第二次回归使用以下估计值进行加权ρN秒和ρ克从步骤1开始。我们报告的遗传协方差估计值是第二次回归的估计值。
根据数据估计权重的线性回归称为可行广义最小二乘(FGLS)。FGLS具有与具有最佳权重的WLS相同的极限分布,因此WLS第页-值对FGLS有效[59]. 我们将异方差权重乘以1/⁄j个(其中▽j个是LD得分与回归SNP之和),以降低过度计算的SNP。这是一种启发式方法:最佳方法是旋转数据,使其不相关,但这种旋转矩阵很难计算。
两步估计器
如中所述[19]对于无约束截距的单性状LD得分回归,效应大小非常大的SNP会导致LD得分的回归标准误差较大;具有无约束截距的交叉特征LD得分回归表现类似。这是因为众所周知的一个事实,即线性回归对响应变量中的异常值处理得很差(截距受限的LD分数回归几乎不会受到大效应SNP的不利影响)。中提出的解决方案[19]用χ去除SNP2>LD得分回归得到80分。当目标是估计LD分数回归截距时,这是一个令人满意的解决方案。如果目标是区分多基因性和人口分层,我们愿意假设人口分层是微妙的,例如带有χ2>80很可能是真正的因果SNP,而不是伪影,那么我们可以通过删除这些SNP来简化任务。然而,如果目标是估计,这是不令人满意的小时2:忽略具有χ的大效应SNP2>80会使估计值产生偏差小时2和ρ克接近零。因此,为了估算小时2或ρ克,我们采取两步走的方法。第一步是用χ估计所有SNP的LD评分回归截距2>30已删除(即。,全基因组显著SNP;阈值可以使用ldsc中的-temptep标志进行调整)。第二步是估算小时2或ρ克使用所有SNP和约束截距LD Score回归,截距约束为第一步的值(注意,在计算标准误差时,我们考虑了截距的不确定性;请参阅下一节)。
通过区块折刀评估统计显著性
LD中SNPs的汇总统计数据是相关的,因此OLS标准误差将向下偏置。我们用相邻SNP块上的块折刀来估计异方差与相关ROB标准误差。这与中使用的步骤相同[19],并在模拟中给出准确的标准误差(). 我们通过使用SNP上的比率块折刀,获得了遗传相关性的标准误差。ldsc中的默认设置是每个基因组200个区块,可以使用-num-blocks标志进行调整。
对于两步估计器,如果我们在第一步中估计截距,然后获得第二步的折刀标准误差,将截距视为固定的,标准误差将向下倾斜,因为它不会考虑截距中的不确定性。相反,我们对程序的两个步骤进行折刀操作,这适当地解释了截距中的不确定性,并产生了有效的标准误差。
反向因果关系
考虑一个场景,其中风险因素E类1导致疾病D类,但发病率D类更改病后水平E类1(这可能发生例如。,疾病的发病率说服受影响的个人以较低的方式改变他们的行为E类1). 如果D类在我们的GWAS样本中足够常见,那么遗传相关性可能会受到反向因果关系的影响。LD得分回归(或任何遗传相关性估计器)将对以下各项之间的横截面遗传相关性进行一致估计E类1和D类在给定的时间点;然而E类1和D类相对于疾病和病前的级别E类1疾病和疾病前风险因子水平之间的遗传相关性通常是更有趣的估计量,因为它与E类1在D类。我们可以通过从风险因素GWAS中排除风险因素的所有病态后测量来估计该数量。这使我们能够以样本量的小幅减少为代价,规避反向因果关系。如果D类不常见,然后在发病后改变行为D类只占人口变化的一小部分E类1因此,反向因果关系对遗传相关性的影响较小。因此,反向因果关系主要是对高发病率疾病的关注。
非随机确定
我们在补充说明LD评分回归对病例/对照研究中的过抽样病例、观察到的模数转换、责任量表遗传力和遗传协方差具有稳健性。病例过采样是最常见的有偏采样形式,但也有许多其他形式的有偏采样。例如,考虑病例/对照/协变量的确定,其中病例和对照的抽样考虑了协变量。作为一个具体的例子,我们知道高BMI是T2D的主要危险因素。如果我们希望通过BMI以外的机制发现影响T2D风险的遗传变异,我们可能希望对T2D进行病例/对照研究,比较BMI匹配病例和对照。如果我们使用这样的T2D研究和BMI的随机群体研究来计算BMI和T2D之间的遗传相关性,相对于T2D和BMI之间的人群遗传相关性,结果将显著减弱。
一般来说,让秒我=1表示个人我被选入我们的研究,并让C类我表示描述个体的协变量向量我(可能包括个体的表型我). 然后,我们可以通过指定选择概率来表示任意有偏采样方案(f)(C类我):=对[秒我=1|C类我](请注意,案例/控制确定是特殊情况,其中C类我=年我). 假设表型是根据第1.1节中的模型生成的补充说明,但我们的样本是按照有偏抽样方案选择的(f).让一ij公司表示表型的加性遗传成分j个个别地我.如果不能直接确定基因型(即。,如果C类我不包括基因型),则在补充说明通过了,除了那个ρ替换为E类[年我1年我2|秒我=1]和ρ克替换为E类[一我1一我2|秒我=1].
这有两个实际意义:首先,在有偏抽样方案和样本重叠的研究中,如果希望限制截距,应该使用表型之间的样本相关性而不是人口相关性ρ.在有偏采样下,普利姆N个→∞=E类[年我1年我2|秒我=1],这通常不等于ρ第二,即使没有样本重叠,偏差抽样也会影响遗传相关估计。如果偏差采样机制(即。,函数(f)(C类我):=对[秒我=1|C类我])如果已知,则可以显式建模有偏采样,并导出一个函数,用于将有偏采样的遗传相关性估计值转换为群体遗传相关性(类似于补充说明). 如果偏差采样机制只能定性描述,那么至少可以通过推理来猜测偏差的大小和方向E类[年我1年我2|秒我=1]和E类[一我1一我2|秒我=1].
计算复杂性
让N个表示样本量和M(M)SNP的数量。LD得分回归中涉及的步骤的计算复杂性如下:
计算摘要统计需要O(运行)(明尼苏达州)时间。
计算LD分数需要O(运行)(明尼苏达州)时间,尽管N个用于计算LD分数的不需要很大。我们使用N个=来自1000个基因组的378名欧洲人。
LD得分回归O(运行)(M(M))时间和空间。
对于已经计算了汇总统计数据并从我们的网站(URL)下载了LD分数的用户,LD分数回归的计算成本为O(运行)(M(M))时间和空间。相比之下,REML需要时间O(运行)(明尼苏达州2)用于计算GRM和O(运行)(N个三)最大化可能性的时间。
实际上,在配备1.7 GhZ Intel Core i7处理器的2014 MacBook Air上,估计LD Score需要大约一个小时的时间,并在染色体上并行计算,而LD Scoreregression每对表型需要大约15秒。
仿真
我们在一项瑞典研究的2062个对照组中,在一个无限小模型下模拟了数量性状。为了模拟许多因果SNP未进行基因分型的标准情况,我们从622146个最佳猜测插补的第2染色体上的1000个基因组SNP中提取因果SNP来模拟表型,然后仅保留MAF高于5%的90980个HM3 SNP用于LD评分回归。
我们注意到[19]研究表明,单性状LD得分回归仅因未修正的人口分层和用于估计LD得分的参考面板与GWAS中抽样的人口之间的中度祖先不匹配而存在最小偏差。特别是,根据1000个基因组参考小组估算的LD分数适合用于欧洲传统荟萃分析。换句话说,LD分数与如果装货单欧洲人群的LD评分差异并不大,因此LD评分回归存在偏差。由于我们使用与单性状LD得分回归相同的LD得分进行交叉性状LD分数回归,因此这些结果扩展到了交叉性状LD-得分回归。
统计数据集摘要
我们通过以下程序选择了要包含在正文中的性状:
从所有公开可用的非经批准的欧洲汇总统计数据开始。
删除不提供签名摘要统计信息的研究。
删除至少未归因于HapMap 2的研究。
删除所有具有遗传力的性状z(z)-得分低于4分。遗传力性状的遗传相关估计z(z)-分数低于4通常太吵了,无法报告。
相关表型的修剪簇(例如。,肥胖类别1–3),从每个遗传力遗传力最高的群体中挑选特征z(z)-得分。
然后,我们应用了以下过滤器(在ldsc附带的脚本munge_sumstats.py中实现):
对于提供插补质量衡量标准的研究,过滤到0.9以上的INFO。
对于提供样本MAF的研究,过滤到样本MAF超过1%。
为了限制在没有提供插补质量衡量标准的研究中插补良好的SNPs,过滤到HapMap3[61]1000个基因组的单核苷酸多态性EUR MAF高于5%,这在大多数研究中都得到了很好的插补。如果所有研究都有INFO分数,则应跳过此步骤。 如果样本大小从SNP到SNP不等,则去除有效样本大小小于样本大小第90百分位0.67倍的SNP。
专用芯片(例如。,metabochip)元分析,使用N个高于最大GWASN个.
拆下索引和结构变体。
删除绞合模糊SNP。
删除等位基因与1000个基因组中的等位基因不匹配的SNP。
任何阶段的基因组控制(GC)校正都会向下偏移遗传力和遗传协方差估计值(参见[19]. 遗传相关的分子和分母中的偏差完全抵消,因此遗传相关不受GC校正的影响。本文分析的大多数研究都使用了GC校正,因此我们没有报告遗传协方差和遗传力。
阿尔茨海默病数据来源如下:
国际阿尔茨海默病基因组学项目(IGAP)是一项基于欧洲血统个体全基因组关联研究(GWAS)的大型两阶段研究。在第1阶段,IGAP使用7055881个单核苷酸多态性(SNPs)的基因型和插补数据,对四个先前发布的GWAS数据集进行荟萃分析,这些数据集包括17008例阿尔茨海默病病例和37154例对照(欧洲阿尔茨海默氏病倡议,EADI;阿尔茨海姆病遗传学联合会,ADGC;基因组流行病学联合会心脏与衰老研究队列,CHARGE;AD联合体中的遗传和环境风险(GERAD)。在第二阶段,在8572例阿尔茨海默病患者和11312名对照组中,对11632个SNP进行了基因分型和相关性测试。最后,结合阶段1和阶段2的结果进行荟萃分析。
我们仅使用第一阶段数据进行LD评分回归。
致谢
我们要感谢P.Sullivan、C.Bulik、S.Caldwell、C.Arabica和O.Andreassen提出的有益意见。这项工作得到了NIH拨款R01 MH101244(ALP)、R01 HG006399(NP)、R03 CA173785(HKF)以及房利美和约翰·赫兹基金会(HKF,Fannie and John Hertz Foundation)的支持。
关于神经性厌食症的数据是由WTCCC3 WT088827/Z/09资助获得的,该项目题为“神经性厌食症的全基因组关联研究”。
MAGIC研究人员提供了有关血糖特性的数据,并从以下网站下载:www.magicinvestgators.org.
冠状动脉疾病/心肌梗死的数据由CARDIoGRAMplusC4D研究人员提供,可从以下网站下载www.CARDIOGRAMPLUSC4D。ORG公司
我们感谢国际阿尔茨海默病基因组学项目(IGAP)为这些分析提供了总结结果数据。IGAP内部的研究人员为IGAP的设计和实施做出了贡献和/或提供了数据,但没有参与本报告的分析或编写。由于对照组受试者、患者及其家属的慷慨参与,IGAP成为可能。i-Select芯片由法国国家阿尔茨海默病及相关疾病基金会资助。EADI得到了LABEX(未来卓越实验室计划投资)DISTALZ拨款、Inserm、里尔巴斯德研究所、里尔第二大学和里尔大学医院的支持。GERAD得到了医学研究委员会(503480号拨款)、英国阿尔茨海默病研究中心(503176号拨款)和威康信托基金(082604/2/07/Z号拨款)以及德国联邦教育和研究部(BMBF)的支持:能力网络痴呆症(CND)拨款01GI0102、01GI0711、01GI0420。CHARGE部分得到了NIH/NIA拨款R01 AG033193、NIA AG081220和AGES合同N01-AG-12100、NHLBI拨款R01 HL105756、冰岛心脏协会、伊拉斯谟医学中心和伊拉斯马斯大学的支持。ADGC由NIH/NIA拨款支持:U01 AG032984、U24 AG021886、U01 AG016976和阿尔茨海默病协会拨款ADGC-10-196728。