An Atlas of Genetic Correlations across Human Diseases and Traits

Brendan Bulik-Sullivan; Hilary K Finucane; Verneri Anttila; Alexander Gusev; Felix R. Day; Po-Ru Loh; ReproGen Consortium; Psychiatric Genomics Consortium; Genetic Consortium for Anorexia Nervosa of the Wellcome Trust Case Control Consortium 3; Laramie Duncan; John R.B. Perry; Nick Patterson; Elise B. Robinson; Mark J. Daly; Alkes L. Price; Benjamin M. Neale

doi:10.1038/ng.3406

自然遗传学。作者手稿；PMC 2016年5月1日提供。

以最终编辑形式发布为：

自然遗传学。2015年11月；47(11): 1236–1241.

2015年9月28日在线发布。数字对象标识：10.1038/ng.3406

预防性维修识别码：项目经理4797329

NIHMSID公司：美国国立卫生研究院719075

PMID：26414676

人类疾病和性状的遗传相关图谱

布伦丹·布利克·苏利凡,^1,^2,^三，^* 希拉里·科·菲努凯恩,^4,^* Verneri Anttila公司,^1,^2,^三亚历山大·古塞夫,^5,⁶ 费利克斯·R·戴,⁷ 波鲁洛,^1,⁵ReproGen财团，⁸精神基因组学联合会，⁸Wellcome信托病例控制联合会3神经性厌食症遗传联合会，⁸ 拉拉米·邓肯,^1,^2,^三约翰·R·B·佩里,⁷ 尼克·帕特森,¹ 伊丽莎·罗宾逊,^1,^2,^三马克·戴利,^1,^2,^三阿尔克斯·L·普莱斯,^1,^5,^6,^**和本杰明·尼尔^1,^2,^三，^**

布伦丹·布利克·苏利凡

¹美国马萨诸塞州剑桥市麻省理工大学博大学院和哈佛大学医学与人口遗传学项目

²斯坦利精神遗传学中心，麻省理工学院布罗德研究所和哈佛大学，马萨诸塞州剑桥

^三美国马萨诸塞州波士顿市马萨诸塞总医院和哈佛医学院分析和转化遗传学室

查找文章的依据布伦丹·布利克·苏利凡

希拉里·科·菲努凯恩

⁴美国马萨诸塞州剑桥市麻省理工学院数学系

查找文章的依据希拉里·科·菲努凯恩

Verneri Anttila公司

¹美国马萨诸塞州剑桥市麻省理工大学博大学院和哈佛大学医学与人口遗传学项目

²美国马萨诸塞州剑桥市麻省理工大学博德学院和哈佛大学斯坦利精神遗传学中心

^三美国马萨诸塞州波士顿市马萨诸塞总医院和哈佛医学院分析和转化遗传学室

查找文章的依据Verneri Anttila公司

亚历山大·古塞夫

⁵美国马萨诸塞州波士顿哈佛T.H.Chan公共卫生学院流行病学系

⁶美国马萨诸塞州波士顿哈佛T.H.Chan公共卫生学院生物统计学系

查找文章的依据亚历山大·古塞夫

费利克斯·R·戴

⁷英国剑桥大学剑桥生物医学校区代谢科学研究所剑桥大学临床医学院MRC流行病学室

查找文章的依据费利克斯·R·戴

波鲁洛

¹美国马萨诸塞州剑桥市麻省理工大学博大学院和哈佛大学医学与人口遗传学项目

⁵美国马萨诸塞州波士顿哈佛T.H.Chan公共卫生学院流行病学系

查找文章的依据波鲁洛

拉拉米·邓肯

¹美国马萨诸塞州剑桥市麻省理工大学博大学院和哈佛大学医学与人口遗传学项目

²美国马萨诸塞州剑桥市麻省理工大学博德学院和哈佛大学斯坦利精神遗传学中心

^三美国马萨诸塞州波士顿市马萨诸塞总医院和哈佛医学院分析和转化遗传学室

查找文章的依据拉瑞米·邓肯

约翰·R·B·佩里

⁷英国剑桥大学剑桥生物医学校区代谢科学研究所剑桥大学临床医学院MRC流行病学室

查找文章的依据约翰·R·B·佩里

尼克·帕特森

¹美国马萨诸塞州剑桥市麻省理工大学博大学院和哈佛大学医学与人口遗传学项目

查找文章的依据尼克·帕特森

伊丽莎·罗宾逊

¹美国马萨诸塞州剑桥市麻省理工大学博大学院和哈佛大学医学与人口遗传学项目

²美国马萨诸塞州剑桥市麻省理工大学博德学院和哈佛大学斯坦利精神遗传学中心

^三美国马萨诸塞州波士顿，马萨诸塞州总医院和哈佛医学院分析和转化遗传学部门

查找文章的依据伊丽莎·罗宾逊

马克·戴利

¹美国马萨诸塞州剑桥市麻省理工大学博大学院和哈佛大学医学与人口遗传学项目

²斯坦利精神遗传学中心，麻省理工学院布罗德研究所和哈佛大学，马萨诸塞州剑桥

^三美国马萨诸塞州波士顿市马萨诸塞总医院和哈佛医学院分析和转化遗传学室

查找文章的依据马克·戴利

阿尔克斯·L·普莱斯

¹美国马萨诸塞州剑桥市麻省理工大学博大学院和哈佛大学医学与人口遗传学项目

⁵美国马萨诸塞州波士顿哈佛T.H.Chan公共卫生学院流行病学系

⁶美国马萨诸塞州波士顿哈佛T.H.Chan公共卫生学院生物统计学系

查找文章的依据阿尔克斯·L·普莱斯

本杰明·尼尔

¹美国马萨诸塞州剑桥市麻省理工大学博大学院和哈佛大学医学与人口遗传学项目

²美国马萨诸塞州剑桥市麻省理工大学博德学院和哈佛大学斯坦利精神遗传学中心

^三美国马萨诸塞州波士顿市马萨诸塞总医院和哈佛医学院分析和转化遗传学室

查找文章的依据本杰明·尼尔

作者信息版权和许可信息 PMC免责声明

关联数据

补充资料: 1
NIHMS719075-补充-1.pdf（525000）
GUID:7F9F7257-A110-48C7-B3A5-61631B74EEF6
2
NIHMS719075-补充-2.csv（63K）
GUID:DF6DBF3F-26F5-4762-A617-47FAF03FFD6C

摘要

识别复杂特征和疾病之间的遗传相关性可以提供有用的病因见解，并有助于优先考虑可能的因果关系。使用当前方法无法从全基因组关联研究（GWAS）数据中估计遗传相关性的主要挑战是缺乏单个基因型数据和荟萃分析之间广泛的样本重叠。我们通过引入一种技术——跨性状LD得分回归——来规避这些困难，该技术仅需要GWAS汇总统计数据，并且不受样本重叠的影响。我们使用这种方法估计了24个性状之间的276个遗传相关性。研究结果包括神经性厌食症与精神分裂症、厌食症与肥胖之间的遗传相关性，以及教育程度与几种疾病之间的关联。这些结果突出了全基因组分析的威力，因为目前没有与神经性厌食症显著相关的SNP，只有三个SNP与教育程度相关。

介绍

了解人类特征与疾病之间的复杂关系是流行病学的一个基本目标。随机对照试验和纵向研究既耗时又昂贵，因此在单个时间点使用横断面相关性研究来研究许多潜在风险因素。由于混淆和反向因果关系等问题，从此类研究中获得因果推断可能具有挑战性，这可能导致虚假关联并掩盖真实风险因素的影响[1,2]. 遗传学有助于阐明因果关系，因为遗传性遗传风险不受反向因果关系的影响，并且与较少的混杂因素相关。

检测基因重叠的第一种方法是家族研究[三,4,5,6,7]. 为了估计多对表型之间的遗传重叠，家庭设计需要测量同一个体的多个性状。因此，将家庭设计扩展到大量特征，尤其是难以测量或昂贵的特征，是一项挑战(例如。，低发病率疾病）。最近，全基因组关联研究（GWAS）使我们能够获得特定遗传变异的效应大小估计值，因此可以通过寻找性状间效应大小的相关性来测试共享遗传，这不需要测量每个个体的多个性状。

有一大类通过GWAS查询遗传重叠的方法，这些方法只关注全基因组显著SNP。这门课中最有影响力的方法之一是孟德尔随机化，它使用显著相关的SNP作为工具变量，试图量化风险因素和疾病之间的因果关系[1,2]. 专注于显著SNP的方法对于那些有许多显著关联且占遗传力很大一部分的性状是有效的[8,9]. 对于许多复杂性状，遗传力分布在数千个影响较小的变异上，在当前样本量下，显著相关的变异所占的遗传力比例很小[10]. 在这种情况下，人们通常可以通过使用全基因组数据而不仅仅是显著相关的变异来获得更准确的结果[11].

一种互补的方法是估计遗传相关性，其中包括所有SNP的影响，包括那些未达到全基因组显著性的SNP（方法）。现有的两种从GWAS数据估计遗传相关性的主要技术是限制最大似然法（REML）[11,12,13,14,15,16]和多基因评分[17,18]. 这些方法仅适用于少数性状，因为它们需要个人基因型数据，而由于知情同意的限制，很难获得这些数据。

为了克服这些局限性，我们开发了一种仅使用GWAS汇总统计数据估计遗传相关性的技术，该统计数据不受样本重叠的影响。我们的方法，跨性状LD评分回归，是单性状LD得分回归的简单扩展[19]计算速度非常快。我们将此方法应用于来自24个GWAS的数据，并报告了276对表型的遗传相关性，证明了许多复杂疾病和性状的共同遗传基础。

结果

方法概述

本文提出的从汇总统计中估计遗传相关性的方法依赖于这样一个事实，即给定SNP的GWAS效应大小估计包含了与该SNP连锁不平衡（LD）中所有SNP的效应[19,20]. 对于多基因性状，LD高的SNP将具有更高的χ²与低LD SNP相比的平均统计数据[19]. 如果我们替换χ，同样的关系成立²使用产品的单个研究的统计数据z（z）-两项非零遗传相关性状研究的得分。

更准确地说，在多基因模型下[11,13]，的预期值z（z）₁_j个z（z）₂_j个是

E类 [{z（z）}_{1 j个} {z（z）}_{2 j个}] = \frac{\sqrt{{N个}_{1} {N个}_{2}} ρ_{克}}{M（M）} ℓ_{j个} + \frac{ρ {N个}_{秒}}{\sqrt{{N个}_{1} {N个}_{2}}},

(1)

哪里N个_我是研究的样本量我,ρ_克是遗传协方差（在方法中定义）_j个是LD得分[19],N个_秒是两项研究中包含的人数，以及ρ是N个_秒重叠样本。我们在补充说明.如果研究1和研究2是同一项研究，则方程式1减少到单一特征的结果[19]，因为性状和自身之间的遗传协方差是遗传力，而χ²=z（z）².由于方程式1，我们可以使用回归的斜率来估计遗传协方差z（z）₁_j个z（z）₂_j个计算速度非常快的LD分数（方法）。

样本重叠会在z（z）₁_j个和z（z）₂_j个，膨胀z（z）₁_j个z（z）₂_j个通货膨胀的预期幅度在所有指标中都是一致的，尤其不取决于LD得分。因此，样本重叠仅影响此回归的截距（术语 $ρ {N个}_{秒} / \sqrt{{N个}_{1} {N个}_{2}}$ )而不是斜率，因此遗传相关性的估计不会因样本重叠而产生偏差。同样，共享的群体分层将改变截距，但对斜率的影响最小，因为LD得分和遗传漂变率之间的相关性最小[19]. 如果我们愿意假设没有共同的人群分层，并且我们提前知道样本重叠量和表型相关性(即。，的真正价值 $ρ {N个}_{秒} / \sqrt{{N个}_{1} {N个}_{2}}$ )，我们可以将截距约束为该值。我们将这种方法称为约束截距LD得分回归。约束截距LD-Score回归比非约束截距的LD-Score回归具有更低的标准误差（通常高达30%），但如果截距指定错误，则会产生偏差和误导性估计，例如。，如果我们指定了错误的值N个_秒ρ或者没有完全控制人口分层。

通过SNP遗传率对遗传协方差进行归一化，得出遗传相关性： ${第页}_{克} : = ρ_{克} / \sqrt{{小时}_{1}^{2} {小时}_{2}^{2}}$ ，其中 ${小时}_{我}^{2}$ 表示SNP遗传率[11]来自研究我遗传相关性介于-1和1之间。结果类似于方程式1如果一项或两项研究都是病例/对照研究，则保持不变，在这种情况下，遗传协方差在观察范围内。有关详细信息，请参阅补充说明.病例/对照性状的观察遗传相关性和责任量表遗传相关性没有区别，因此我们可以定义和估计病例/对照特性与数量性状之间的遗传相关性以及病例/对照特征对之间的遗传相关，而无需指定量表(补充说明).

仿真

我们进行了一系列仿真，以评估模型对潜在混杂因素（例如样本重叠和模型指定错误）的鲁棒性，并验证标准误差估计的准确性（方法）。

表1显示了来自1000个数量性状模拟的跨性状LD得分回归估计和标准误差。对于每个模拟复制，我们通过从双变量正态分布中提取2号染色体上约600000个SNP的效应大小，为样本中2062个个体中的每个个体生成两个表型。然后，我们用交叉性状LD评分回归计算表型和估计遗传力以及遗传相关性的汇总统计数据。摘要统计数据由完全重叠的样本生成。结果如所示表1这些模拟证实了交叉性状LD评分回归能够准确估计真实的遗传相关性，并且标准误差与模拟的标准偏差相匹配。因此，与通过多基因风险评分估计遗传相关性相比，交叉性状LD评分回归不受样本重叠的影响，而多基因风险得分在存在样本重叠时会产生偏差[18]. 我们还评估了一个数量性状和一个病例/对照研究的模拟结果，表明交叉性状LD得分回归可以应用于二元性状，并且不会因病例过采样而产生偏差(补充表1).

表1

具有完整样本重叠的模拟。Truth显示真实的参数值。估计值显示了1000个模拟的平均交叉特征LD得分回归估计值。SD显示了1000个模拟中估计值的标准偏差，SE显示了1000次模拟中的平均交叉特征LD得分回归SE。方法中给出了模拟设置的更多详细信息。

参数	真相	估算	标准偏差	东南方
小时²	0.58	0.58	0.072	0.075
ρ_克	0.29	0.29	0.057	0.058
第页_克	0.50	0.49	0.079	0.073

在单独的窗口中打开

如果遗传结构的基本模型指定错误，遗传力和遗传协方差的估计可能会有偏差，例如。，如果解释的方差与LD得分或MAF相关[19,21]. 因为遗传相关性是以比率来估计的，所以它更稳健；在同一方向上影响分子和分母的偏差往往会抵消。即使在遗传结构模型的模拟中，我们对遗传力和遗传协方差的估计存在偏差，我们也能获得遗传相关性的近似正确估计(补充表2).

Pyschiatric交叉差分结果的复制

作为技术验证，我们复制了用个体基因型和REML获得的精神疾病之间的遗传相关性估计值[14]，通过应用跨性状LD得分回归对相同数据的汇总统计[22]. 这些汇总统计数据是从非重叠样本中生成的，因此我们使用非约束和约束截距应用了跨性状LD得分回归（方法）。这些分析的结果如所示图1交叉性状LD评分回归结果与REML结果相似。具有约束截距的交叉性状LD得分回归给出的标准误差仅略大于REML的标准误差，而具有截距的跨性状LD分数回归的标准误差则大得多，特别是对于样本量较小的性状(例如。，多动症、ASD）。

在单独的窗口中打开

图1

25种表型在汇总统计中的应用

我们使用交叉性状LD评分回归估计24种表型之间的遗传相关性（URL，Methods）。24个性状的所有276个成对组合的遗传相关估计如所示图2为了表达清晰，24个表型仅包含来自密切相关表型的每个簇的一个表型（方法）。排除在外的教育、人体测量、吸烟和胰岛素相关表型之间的遗传相关性图2显示了补充图1、2、3和4分别是。49个性状之间1176个遗传相关性的完整表格见补充表4参考文献和样本量见补充表3.

在单独的窗口中打开

图2

第一部分表2列出了与流行病学关联相一致的遗传相关性结果，但据我们所知，以前从未使用遗传数据报告过。初潮年龄与成年身高之间遗传相关性的估计[29]、甘油三酯[30]和2型糖尿病[30,31]与流行病学关联一致。神经性厌食症和肥胖之间的负遗传相关性估计表明，同样的遗传因素影响着BMI的正常变异以及精神疾病中BMI的失调。这一结果与BMI GWAS发现暗示神经元而非代谢、细胞类型和表观遗传标记的观察结果一致[32,33]. 成人身高与冠状动脉疾病之间的负遗传相关符合重复流行病学关联[34,35,36]. 我们观察到里特维尔的教育成就表型与几个重要关联等。[37]：我们估计了大学与阿尔茨海默病之间具有统计学意义的负遗传相关性，这与流行病学结果一致[38,39]. 大学与双相情感障碍之间的正遗传相关性与之前的流行病学报告一致[40,41]. 吸烟与大学之间负遗传相关的估计与观察到的吸烟率差异与教育程度的函数一致[42].

表2

选定性状对的遗传相关估计、标准误差和p值。结果分为新的遗传结果，但与已建立的流行病学关联（“流行病学”）、遗传学和流行病学新的遗传关联（“新/非零”）和有趣的零结果（“新的/低”）。p值是未修正的p值。中300次测试通过多次测试修正的结果图2当FDR为1%时，只有一个星号；通过Bonferroni校正的结果有两个星号。我们提出了一些符合流行病学关联的遗传相关性，但在这些数据中没有通过多重测试校正。

	表型1	表型2	rg（se）	p值
流行病学	初潮年龄	成人身高	0.13 (0.03)	2×10⁻⁶**
	初潮年龄	2型糖尿病	−0.13 (0.04)	2×10⁻³*
	初潮年龄	甘油三酯	−0.12 (0.04)	1×10⁻³*
	冠状动脉疾病	初潮年龄	−0.12 (0.05)	3×10⁻²
	冠状动脉疾病	教育年限	−0.25（0.06）	1×10⁻⁴**
	冠状动脉疾病	成人身高	−0.17 (0.04)	1×10⁻⁵**
	老年痴呆症	受教育年限	−0.29 (0.1)	5×10⁻³*
	双相情感障碍	教育年限	0.30 (0.06)	9×10⁻⁷**
	体重指数	教育年限	−0.28 (0.03)	6×10⁻¹⁶**
	甘油三酯	教育年限	−0.26 (0.06)	2×10⁻⁸**
	神经性厌食症	体重指数	−0.18 (0.04)	3×10⁻⁷**
	从不吸烟	教育年限	−0.36 (0.06)	2×10⁻⁸**
	从不吸烟	体重指数	0.20 (0.04)	8×10⁻⁷**
新/非零	自闭症谱系障碍	教育年限	0.30 (0.08)	2×10⁻⁴*
	溃疡性结肠炎	儿童肥胖	−0.34 (0.08)	3.1 × 10⁻⁵**
	神经性厌食症	精神分裂症	0.19（0.04）	2×10⁻⁵**
新/低	精神分裂症	老年痴呆症	0.04 (0.06)	>0.1
	精神分裂症	从不吸烟	0.04 (0.06)	>0.1
	精神分裂症	甘油三酯	−0.04 (0.04)	>0.1
	精神分裂症	低密度脂蛋白胆固醇	−0.04（0.04）	>0.1
	精神分裂症	高密度脂蛋白胆固醇	0.03 (0.04)	>0.1
	精神分裂症	类风湿关节炎	−0.04（0.05）	>0.1
	克罗恩病	类风湿关节炎	−0.03 (0.08)	>0.1
	溃疡性结肠炎	类风湿关节炎	0.09 (0.08)	>0.1

在单独的窗口中打开

第二部分表2据我们所知，列出了遗传学和流行病学的三个新结果。第一，我们发现神经性厌食症和精神分裂症之间存在正的遗传相关性。在精神病文献中，饮食和精神障碍之间的共病尚未得到彻底调查[43,44]这一结果增加了这些疾病类别之间相似性的可能性。第二，我们估计溃疡性结肠炎（UC）和儿童肥胖之间的负遗传相关性。疾病前期BMI与溃疡性结肠炎的关系尚不清楚；探索这种关系可能是进一步研究的一个富有成果的方向。第三，我们估计自闭症谱系障碍（ASD）和教育程度（与智商有很高的遗传相关性）之间的正遗传相关性[37,45,46]). ASD汇总统计数据是使用病例-假对照研究设计生成的，因此不能用流行病学观察到的来自受过高等教育的父母的ASD病例的过采样来解释这一结果[47]. 自闭症患者的智商分布平均值低于一般人群，但尾部较重[48] (即。，智商高低的个体过多）。还有新的证据表明，自闭症的遗传结构在智商分布上存在差异[49].

第三部分表2列出了一些有趣的例子，其中遗传相关性接近于零，标准误差很小。精神分裂症和类风湿性关节炎之间的低遗传相关性很有趣，因为精神分裂症被观察到对类风湿关节炎具有保护作用[50]虽然流行病学效应较弱，因此可能存在真正的遗传相关性，但它太小了，我们无法检测到。精神分裂症与吸烟之间的低遗传相关性是值得注意的，因为精神分裂症患者的烟草使用量（患病率和每天吸烟数量）增加[51]. 精神分裂症与血脂水平之间的低遗传相关性与之前关于精神分裂症和甘油三酯之间多效性的报道形成对比[52]. 多效性（无符号）不同于遗传相关性（有符号；见方法）；然而，安德烈森报道的多效性，等。[52]可以用该方法对少数具有强LD的区域的特性而非性状生物学的敏感性来解释(补充图5). 我们估计阿尔茨海默病和精神分裂症之间的基因相关性接近于零。阿尔茨海默病与其他精神病特征（神经性厌食症、双相情感障碍、重度抑郁、ASD）之间的遗传相关性也接近于零，但由于样本量较小，标准误差较大。这表明阿尔茨海默病的遗传基础不同于精神疾病。最后，我们估计类风湿关节炎（RA）与克罗恩病（CD）和UC之间的基因相关性接近于零。尽管这些疾病共享许多相关基因座[53,54]，似乎没有方向性趋势：一些RA风险等位基因也是UC和CD的风险等位蛋白，但许多RA风险等位点对UC和CD具有保护作用[53]产生接近零的遗传相关性。这个例子突出了多效性和遗传相关性之间的区别（方法）。

最后，代谢性状之间遗传相关性的估计与瓦蒂库蒂使用REML获得的估计一致等。[15] (补充表6)、和与Wuertz最近的孟德尔随机化结果方向一致等。[55]. CD和UC之间遗传相关性的估计值为0.54（0.07），与陈的估计值0.62（0.04）一致等。[16].

讨论

我们描述了一种从GWAS汇总统计数据估计遗传相关性的新方法，我们将其应用于包含24个性状和150多万个独特表型测量值的GWAS汇总统计学数据集。我们报告了一些用现有方法很难获得的新发现，包括神经性厌食症和精神分裂症之间的正遗传相关性。我们的方法复制了许多先前报告的基于GWAS的遗传相关性，并证实了全基因组显著SNP、MR结果和流行病学关联之间的重叠观察。

这种方法是一种进步，有几个原因：它不需要个体基因型、全基因组显著SNP或LD调节（如果LD中存在因果SNP，则会丢失信息）。我们的方法不受样本重叠的影响，计算速度快。此外，我们的方法不需要测量同一个人的多个特征，因此很容易扩展到研究数千对特征。这些优点使我们能够比现有方法估计更多对表型的遗传相关性。

解释遗传相关性的挑战与MR的挑战类似。我们强调了两个困难。首先，基因相关性对环境混杂免疫，但受基因混杂影响，类似于MR中多效性的混杂图2可能是由因果关系引起的高密度脂蛋白→计算机辅助设计，但也可能由甘油三酯（TG）介导[9,56]，以图形方式表示[57]作为高密度脂蛋白←G公司→TG公司→计算机辅助设计，其中G公司是一组对HDL和TG都有影响的遗传变异。将遗传相关性扩展到多个遗传相关表型是未来工作的一个重要方向[58]. 第二，尽管基因相关性估计值不会因过采样而产生偏差，但它们会受到其他形式的偏差采样的影响，例如错误分类[14]和病例/对照/协变量抽样(例如。，T2D的BMI匹配研究）。

我们注意到交叉性状LD评分回归作为遗传相关性估计器的一些局限性。首先，与使用单个基因型的方法相比，跨性状LD得分回归需要更大的样本量，以达到等效的标准误差。第二，交叉性状LD评分回归目前不适用于来自最近接受治疗人群的样本。第三，我们还没有研究分类交配对估计遗传相关性的潜在影响，这仍是未来的发展方向。第四，基于多基因模型构建的方法，如跨性状LD评分回归和REML，在应用于具有多基因遗传结构的性状时最有效。对于显著SNP占遗传力相当大比例的性状，仅分析这些SNP可能更有效。开发能够同时优化利用大效应SNP和扩散多基因信号的方法是未来研究的一个方向。

尽管存在这些局限性，我们认为遗传相关性的跨性状LD评分回归估计器将是流行病学工具箱的一个有用补充，因为它可以快速筛查不同性状之间的相关性，无需测量同一个体的多个性状或全基因组显著SNP。

方法

遗传协方差和相关的定义

所有定义均指狭义遗传力和遗传协方差。让S公司表示一组M（M）SNP，让X（X）表示SNPs的加性（0-1-2）编码基因型的载体S公司，并让年₁和年₂表示表型。定义β：=argmax（最大值）_{α∈R（右）^M（M）}科尔[年₁,X（X）α] ，其中最大化是在人口中执行的(即。，无限数据限制）。让γ表示对应的向量年₂这是一个投影，所以β是完美LD中唯一的模SNP。定义 ${小时}_{S公司}^{2}$ ，SNP解释的遗传力S公司，作为 ${小时}_{S公司}^{2} (年_{1}) : = \sum_{j个} β_{j个}^{2}$ 和ρ_S公司(年₁,年₂)，SNP之间的遗传协方差S公司，作为 $ρ_{S公司} (年_{1}, 年_{2}) : = \sum_{j个 \in S公司} β_{j个} γ_{j个}$ SNP之间的遗传相关性S公司是 ${第页}_{S公司} (年_{1}, 年_{2}) : = ρ_{S公司} (年_{1}, 年_{2}) / \sqrt{{小时}_{S公司}^{2} (年_{1}) {小时}_{S公司}^{2} (年_{2})}$ ，位于[-1,1]中。以下[11]，我们使用下标克（如中所示 ${小时}_{克}^{2}$ ,ρ_克,第页_克)当一组SNP被基因分型并在GWAS中输入SNP时。

SNP遗传相关(第页_克)不同于家族研究的遗传相关性。在一项家族研究中，关系矩阵捕获了所有遗传变异的信息，而不仅仅是常见的SNP。因此，家族研究估计了总的遗传相关性(S公司等于所有变量）。与SNP遗传率之间的关系不同[11]和总遗传力，其中 ${小时}_{克}^{2} \leq {小时}^{2}$ SNP遗传相关和总遗传相关之间没有相似的关系。如果普通变体之间的β和γ比罕见变体之间的相关性更强，那么总遗传相关性将小于SNP遗传相关性。

遗传相关性（渐近）与孟德尔随机化估计成正比。如果我们使用基因工具 $克_{我} : = \sum_{j个 \in S公司} {X（X）}_{我 j个} β_{j个}$ 估计影响b条₁₂属于年₁在年₂，2SLS估计值为 $\hat{b条}$ ₂_SLS公司:=克^T型年₂/克^T型年₁[59]. 分子和分母的期望值为E类[克^T型年₂]=ρ_S公司(年₁,年₂)和 $E类 [克^{T型} 年_{1}] = {小时}_{S公司}^{2} (年_{1})$ 因此， $pli公司米_{N个 \to \infty} {\hat{b条}}_{2 SLS公司} = {第页}_{S公司} (年_{2}, 年_{1}) \sqrt{{小时}_{S公司}^{2} (年_{1}) / {小时}_{S公司}^{2} (年_{2})}$ .如果我们使用相同的集合S公司要估计的SNP数量b条₁₂和b条₂₁(例如。，如果S公司是所有常见SNP的集合，如本文中的遗传相关分析），则此过程在年₁和年₂.

遗传相关性不同于多效性。如果许多变异同时影响两个性状，那么这两个性状具有多效性关系。遗传相关性比多效性更强：要表现出遗传相关性，效应的方向也必须一致。

横向LD评分回归

从方法概述中回忆起，跨性状LD得分回归方程是

E类 [{z（z）}_{1 j个} {z（z）}_{2 j个}] = \frac{\sqrt{{N个}_{1} {N个}_{2}} ρ_{克}}{M（M）} ℓ_{j个} + \frac{ρ {N个}_{秒}}{\sqrt{{N个}_{1} {N个}_{2}}},

(2)

哪里z（z）_ij公司表示z（z）-学习成绩我和SNPj个,N个_我是研究的样本量我,ρ_克是遗传协方差，▽_j个是LD得分[19],N个_秒是两项研究中包含的人数，以及ρ是N个_秒重叠样本。我们在补充说明.我们通过回归估计遗传协方差z（z）₁_j个z（z）₂_j个反对 $ℓ_{j个} \sqrt{{N个}_{1 j个} {N个}_{2 j个}}$ ，（其中N个_ij公司是SNP的样本量j个在学习中我)然后将得到的斜率乘以M（M），MAF在5%到50%之间的参考组中的SNP数量（技术上，这是对MAF在5–50%的SNP之间的遗传协方差的估计；补充说明).

如果我们知道截距项的正确值 $ρ {N个}_{秒} \sqrt{{N个}_{1} {N个}_{2}}$ 提前，我们可以通过使用ldsc中的-constraint-intercept标志将截距限制为该值来减少标准误差（对于二进制性状对，我们给出了一个对应的表达式，表示重叠的病例数和控件数补充说明). 请注意，即使存在已知的非零样本重叠，此方法也有效

我们建议使用样本内估计值ρ（表示 $\hat{ρ}$ )，而不是ρ.无偏抽样 $\hat{ρ}$ 是一致的ρ具有O（运行）(1/N个)方差，所以在这种情况下ρ和 $\hat{ρ}$ 不是很重要。在有偏抽样情况下（如前一节所述），预期LD分数回归截距取决于预期样本相关性E类[年_我₁年_我₂|秒=1]（根据 $\hat{ρ}$ )，不是人口ρ因此，我们建议使用 $\hat{ρ}$ 而不是ρ限制截距时。

回归权重

对于遗传力估计，我们使用回归权重[19]. 如果两种表型的效应大小是从二元正态分布中得出的，那么遗传协方差估计的最佳回归权重为

变量 [{z（z）}_{1 j个} {z（z）}_{2 j个} Ş ℓ_{j个}] = (\frac{{N个}_{1} ℓ_{j个}}{M（M）} + 1) (\frac{{N个}_{2} ℓ_{j个}}{M（M）} + 1) + {(\frac{\sqrt{{N个}_{1} {N个}_{2}} ρ_{克}}{M（M）} ℓ_{j个} + \frac{ρ {N个}_{秒}}{\sqrt{{N个}_{1} {N个}_{2}}})}^{2}

(3)

(补充说明). 这个数量取决于几个参数( ${小时}_{1}^{2}, {小时}_{2}^{2}$ ,ρ_克,ρ,N个_秒)它们是未知的，因此有必要从数据中估计它们。我们分两步计算权重：

第一次回归使用单性状LD得分回归的遗传力进行加权，ρN_秒=0，和ρ_克估计为 ${\hat{ρ}}_{克} : = {(\sqrt{{N个}_{1} {N个}_{2}})}^{- 1} \sum_{j个} {z（z）}_{1 j个} {z（z）}_{2 j个}$ .
第二次回归使用以下估计值进行加权ρN_秒和ρ_克从步骤1开始。我们报告的遗传协方差估计值是第二次回归的估计值。

根据数据估计权重的线性回归称为可行广义最小二乘（FGLS）。FGLS具有与具有最佳权重的WLS相同的极限分布，因此WLS第页-值对FGLS有效[59]. 我们将异方差权重乘以1/⁄_j个（其中▽_j个是LD得分与回归SNP之和），以降低过度计算的SNP。这是一种启发式方法：最佳方法是旋转数据，使其不相关，但这种旋转矩阵很难计算。

两步估计器

如中所述[19]对于无约束截距的单性状LD得分回归，效应大小非常大的SNP会导致LD得分的回归标准误差较大；具有无约束截距的交叉特征LD得分回归表现类似。这是因为众所周知的一个事实，即线性回归对响应变量中的异常值处理得很差（截距受限的LD分数回归几乎不会受到大效应SNP的不利影响）。中提出的解决方案[19]用χ去除SNP²>LD得分回归得到80分。当目标是估计LD分数回归截距时，这是一个令人满意的解决方案。如果目标是区分多基因性和人口分层，我们愿意假设人口分层是微妙的，例如带有χ²>80很可能是真正的因果SNP，而不是伪影，那么我们可以通过删除这些SNP来简化任务。然而，如果目标是估计，这是不令人满意的小时²：忽略具有χ的大效应SNP²>80会使估计值产生偏差小时²和ρ_克接近零。因此，为了估算小时²或ρ_克，我们采取两步走的方法。第一步是用χ估计所有SNP的LD评分回归截距²>30已删除(即。，全基因组显著SNP；阈值可以使用ldsc中的-temptep标志进行调整）。第二步是估算小时²或ρ_克使用所有SNP和约束截距LD Score回归，截距约束为第一步的值（注意，在计算标准误差时，我们考虑了截距的不确定性；请参阅下一节）。

通过区块折刀评估统计显著性

LD中SNPs的汇总统计数据是相关的，因此OLS标准误差将向下偏置。我们用相邻SNP块上的块折刀来估计异方差与相关ROB标准误差。这与中使用的步骤相同[19]，并在模拟中给出准确的标准误差(表1). 我们通过使用SNP上的比率块折刀，获得了遗传相关性的标准误差。ldsc中的默认设置是每个基因组200个区块，可以使用-num-blocks标志进行调整。

对于两步估计器，如果我们在第一步中估计截距，然后获得第二步的折刀标准误差，将截距视为固定的，标准误差将向下倾斜，因为它不会考虑截距中的不确定性。相反，我们对程序的两个步骤进行折刀操作，这适当地解释了截距中的不确定性，并产生了有效的标准误差。

反向因果关系

考虑一个场景，其中风险因素E类₁导致疾病D类，但发病率D类更改病后水平E类₁（这可能发生例如。，疾病的发病率说服受影响的个人以较低的方式改变他们的行为E类₁). 如果D类在我们的GWAS样本中足够常见，那么遗传相关性可能会受到反向因果关系的影响。LD得分回归（或任何遗传相关性估计器）将对以下各项之间的横截面遗传相关性进行一致估计E类₁和D类在给定的时间点；然而E类₁和D类相对于疾病和病前的级别E类₁疾病和疾病前风险因子水平之间的遗传相关性通常是更有趣的估计量，因为它与E类₁在D类。我们可以通过从风险因素GWAS中排除风险因素的所有病态后测量来估计该数量。这使我们能够以样本量的小幅减少为代价，规避反向因果关系。如果D类不常见，然后在发病后改变行为D类只占人口变化的一小部分E类₁因此，反向因果关系对遗传相关性的影响较小。因此，反向因果关系主要是对高发病率疾病的关注。

非随机确定

我们在补充说明LD评分回归对病例/对照研究中的过抽样病例、观察到的模数转换、责任量表遗传力和遗传协方差具有稳健性。病例过采样是最常见的有偏采样形式，但也有许多其他形式的有偏采样。例如，考虑病例/对照/协变量的确定，其中病例和对照的抽样考虑了协变量。作为一个具体的例子，我们知道高BMI是T2D的主要危险因素。如果我们希望通过BMI以外的机制发现影响T2D风险的遗传变异，我们可能希望对T2D进行病例/对照研究，比较BMI匹配病例和对照。如果我们使用这样的T2D研究和BMI的随机群体研究来计算BMI和T2D之间的遗传相关性，相对于T2D和BMI之间的人群遗传相关性，结果将显著减弱。

一般来说，让秒_我=1表示个人我被选入我们的研究，并让C类_我表示描述个体的协变量向量我（可能包括个体的表型我). 然后，我们可以通过指定选择概率来表示任意有偏采样方案（f）(C类_我):=对[秒_我=1|C类_我]（请注意，案例/控制确定是特殊情况，其中C类_我=年_我). 假设表型是根据第1.1节中的模型生成的补充说明，但我们的样本是按照有偏抽样方案选择的（f）.让一_ij公司表示表型的加性遗传成分j个个别地我.如果不能直接确定基因型(即。，如果C类_我不包括基因型），则在补充说明通过了，除了那个ρ替换为E类[年_我₁年_我₂|秒_我=1]和ρ_克替换为E类[一_我₁一_我₂|秒_我=1].

这有两个实际意义：首先，在有偏抽样方案和样本重叠的研究中，如果希望限制截距，应该使用表型之间的样本相关性 $\hat{ρ}$ 而不是人口相关性ρ.在有偏采样下，普利姆_N个_→∞ $\hat{ρ}$ =E类[年_我₁年_我₂|秒_我=1]，这通常不等于ρ第二，即使没有样本重叠，偏差抽样也会影响遗传相关估计。如果偏差采样机制(即。，函数（f）(C类_我):=对[秒_我=1|C类_我])如果已知，则可以显式建模有偏采样，并导出一个函数，用于将有偏采样的遗传相关性估计值转换为群体遗传相关性（类似于补充说明). 如果偏差采样机制只能定性描述，那么至少可以通过推理来猜测偏差的大小和方向E类[年_我₁年_我₂|秒_我=1]和E类[一_我₁一_我₂|秒_我=1].

计算复杂性

让N个表示样本量和M（M）SNP的数量。LD得分回归中涉及的步骤的计算复杂性如下：

计算摘要统计需要O（运行）(明尼苏达州)时间。
计算LD分数需要O（运行）(明尼苏达州)时间，尽管N个用于计算LD分数的不需要很大。我们使用N个=来自1000个基因组的378名欧洲人。
LD得分回归O（运行）(M（M）)时间和空间。

对于已经计算了汇总统计数据并从我们的网站（URL）下载了LD分数的用户，LD分数回归的计算成本为O（运行）(M（M）)时间和空间。相比之下，REML需要时间O（运行）(明尼苏达州²)用于计算GRM和O（运行）(N个^三)最大化可能性的时间。

实际上，在配备1.7 GhZ Intel Core i7处理器的2014 MacBook Air上，估计LD Score需要大约一个小时的时间，并在染色体上并行计算，而LD Scoreregression每对表型需要大约15秒。

仿真

我们在一项瑞典研究的2062个对照组中，在一个无限小模型下模拟了数量性状。为了模拟许多因果SNP未进行基因分型的标准情况，我们从622146个最佳猜测插补的第2染色体上的1000个基因组SNP中提取因果SNP来模拟表型，然后仅保留MAF高于5%的90980个HM3 SNP用于LD评分回归。

我们注意到[19]研究表明，单性状LD得分回归仅因未修正的人口分层和用于估计LD得分的参考面板与GWAS中抽样的人口之间的中度祖先不匹配而存在最小偏差。特别是，根据1000个基因组参考小组估算的LD分数适合用于欧洲传统荟萃分析。换句话说，LD分数与如果_装货单欧洲人群的LD评分差异并不大，因此LD评分回归存在偏差。由于我们使用与单性状LD得分回归相同的LD得分进行交叉性状LD分数回归，因此这些结果扩展到了交叉性状LD-得分回归。

统计数据集摘要

我们通过以下程序选择了要包含在正文中的性状：

从所有公开可用的非经批准的欧洲汇总统计数据开始。
删除不提供签名摘要统计信息的研究。
删除至少未归因于HapMap 2的研究。
删除调整可遗传协变量的研究[60].
删除所有具有遗传力的性状z（z）-得分低于4分。遗传力性状的遗传相关估计z（z）-分数低于4通常太吵了，无法报告。
相关表型的修剪簇(例如。，肥胖类别1–3），从每个遗传力遗传力最高的群体中挑选特征z（z）-得分。

然后，我们应用了以下过滤器（在ldsc附带的脚本munge_sumstats.py中实现）：

对于提供插补质量衡量标准的研究，过滤到0.9以上的INFO。
对于提供样本MAF的研究，过滤到样本MAF超过1%。
为了限制在没有提供插补质量衡量标准的研究中插补良好的SNPs，过滤到HapMap3[61]1000个基因组的单核苷酸多态性EUR MAF高于5%，这在大多数研究中都得到了很好的插补。如果所有研究都有INFO分数，则应跳过此步骤。
如果样本大小从SNP到SNP不等，则去除有效样本大小小于样本大小第90百分位0.67倍的SNP。
专用芯片(例如。，metabochip）元分析，使用N个高于最大GWASN个.
拆下索引和结构变体。
删除绞合模糊SNP。
删除等位基因与1000个基因组中的等位基因不匹配的SNP。

任何阶段的基因组控制（GC）校正都会向下偏移遗传力和遗传协方差估计值（参见[19]. 遗传相关的分子和分母中的偏差完全抵消，因此遗传相关不受GC校正的影响。本文分析的大多数研究都使用了GC校正，因此我们没有报告遗传协方差和遗传力。

阿尔茨海默病数据来源如下：

国际阿尔茨海默病基因组学项目（IGAP）是一项基于欧洲血统个体全基因组关联研究（GWAS）的大型两阶段研究。在第1阶段，IGAP使用7055881个单核苷酸多态性（SNPs）的基因型和插补数据，对四个先前发布的GWAS数据集进行荟萃分析，这些数据集包括17008例阿尔茨海默病病例和37154例对照（欧洲阿尔茨海默氏病倡议，EADI；阿尔茨海姆病遗传学联合会，ADGC；基因组流行病学联合会心脏与衰老研究队列，CHARGE；AD联合体中的遗传和环境风险（GERAD）。在第二阶段，在8572例阿尔茨海默病患者和11312名对照组中，对11632个SNP进行了基因分型和相关性测试。最后，结合阶段1和阶段2的结果进行荟萃分析。

我们仅使用第一阶段数据进行LD评分回归。

补充材料

1

单击此处查看。^{（525K，pdf格式）}

2

单击此处查看。^{（63K，csv）}

致谢

我们要感谢P.Sullivan、C.Bulik、S.Caldwell、C.Arabica和O.Andreassen提出的有益意见。这项工作得到了NIH拨款R01 MH101244（ALP）、R01 HG006399（NP）、R03 CA173785（HKF）以及房利美和约翰·赫兹基金会（HKF，Fannie and John Hertz Foundation）的支持。

关于神经性厌食症的数据是由WTCCC3 WT088827/Z/09资助获得的，该项目题为“神经性厌食症的全基因组关联研究”。

MAGIC研究人员提供了有关血糖特性的数据，并从以下网站下载：www.magicinvestgators.org.

冠状动脉疾病/心肌梗死的数据由CARDIoGRAMplusC4D研究人员提供，可从以下网站下载www.CARDIOGRAMPLUSC4D。ORG公司

我们感谢国际阿尔茨海默病基因组学项目（IGAP）为这些分析提供了总结结果数据。IGAP内部的研究人员为IGAP的设计和实施做出了贡献和/或提供了数据，但没有参与本报告的分析或编写。由于对照组受试者、患者及其家属的慷慨参与，IGAP成为可能。i-Select芯片由法国国家阿尔茨海默病及相关疾病基金会资助。EADI得到了LABEX（未来卓越实验室计划投资）DISTALZ拨款、Inserm、里尔巴斯德研究所、里尔第二大学和里尔大学医院的支持。GERAD得到了医学研究委员会（503480号拨款）、英国阿尔茨海默病研究中心（503176号拨款）和威康信托基金（082604/2/07/Z号拨款）以及德国联邦教育和研究部（BMBF）的支持：能力网络痴呆症（CND）拨款01GI0102、01GI0711、01GI0420。CHARGE部分得到了NIH/NIA拨款R01 AG033193、NIA AG081220和AGES合同N01-AG-12100、NHLBI拨款R01 HL105756、冰岛心脏协会、伊拉斯谟医学中心和伊拉斯马斯大学的支持。ADGC由NIH/NIA拨款支持：U01 AG032984、U24 AG021886、U01 AG016976和阿尔茨海默病协会拨款ADGC-10-196728。

URL

ldsc软件：
github.com/bulik/ldsc
本文：
github.com/bulik/gencor_tex
PGC（精神科）汇总统计：
www.med.unc.edu/pgc/downloads网站
GIANT（选集）汇总统计：
www.broadinstitute.org/collaboration/giant/index.php/giant_consortium_data_files网站
EGG（早期生长遗传学）总结统计：
www.egg-consortium.org
MAGIC（胰岛素、葡萄糖）汇总统计：
www.magicinvestgators.org/downloads/
心电图（冠状动脉疾病）汇总统计：
www.cardiomplusc4d.org
图表（T2D）汇总统计：
www.diagram-consortium.org
类风湿关节炎汇总统计：
www.broadinstitute.org/ftp/pub/rheumatoid_arthritis/Stahl_etal_2010NG/
IGAP（阿尔茨海默病）汇总统计：
www.pastur-lille.fr/en/recherche/u744/igap/igap_download.php
IIBDGC（炎症性肠病）汇总统计：
www.ibdgenetics.org/downloads.html
我们使用了这些数据的更新版本和1000个基因组插补。
血脂汇总统计：
www.broadinstitute.org/mpg/pubs/lipids2010/
SSGAC（教育程度）汇总统计：
网址：www.ssgac.org/
豆：
www.barismo.com网站
www.bluebottlecoffee.com

作者贡献

MJD提供了试剂。BMN和ALP提供试剂。CL、ER、VA、JP和FD有助于解释结果。JP和FD提供了月经初潮时的年龄数据。咖啡因分子是这份手稿所有优点的来源。BBS和HKF负责其余部分。所有作者修改并批准了最终稿件。

竞争性财务利益

作者声明没有竞争性的经济利益。

工具书类

1史密斯·乔治·戴维（Smith George Davey）、易卜拉欣·沙阿（Ebrahim Shah）。孟德尔随机化：基因流行病学是否有助于了解疾病的环境决定因素？国际流行病学杂志。2003;32(1):1–22.[公共医学][谷歌学者]

2史密斯-乔治·戴维（Smith George Davey）、赫马尼·纪伯伦（Hemani Gibran）。孟德尔随机化：流行病学研究中因果推断的遗传锚。人类分子遗传学。2014;23（R1）：R89–R98。 [PMC免费文章][公共医学][谷歌学者]

三。Vandenberg SG.双胞胎差异的多元分析。人类行为遗传学的方法和目标。1965:29–43. [谷歌学者]

4Kempthorne Oscar，Osborne Richard H。双胞胎数据的解释。美国人类遗传学杂志。1961;13(3):320. [PMC免费文章][公共医学][谷歌学者]

5Loehlin John C、Vandenberg Steven Gerritjan。认知能力共变中的遗传和环境因素：一个加性模型。路易斯维尔大学路易斯维尔双胞胎研究所；1966[谷歌学者]

6Neale Michael，Cardon Lon。双胞胎和家族遗传研究的方法。67.弹簧；1992[谷歌学者]

7Lichtenstein Paul等人，瑞典家庭中精神分裂症和双相情感障碍的常见遗传决定因素：一项基于人群的研究。《柳叶刀》。2009;373(9659):234–239. [PMC免费文章][公共医学][谷歌学者]

8Voight Benjamin F等，血浆高密度脂蛋白胆固醇与心肌梗死风险：一项孟德尔随机研究。《柳叶刀》。2012;380(9841):572–580. [PMC免费文章][公共医学][谷歌学者]

9Ron Do等。与血浆甘油三酯和冠心病风险相关的常见变异。自然遗传学。2013;45（11）：1345–1352。 [PMC免费文章][公共医学][谷歌学者]

10Visscher Peter M、Brown Matthew A、McCarthy Mark I、Yang Jian。五年的gwas发现。美国人类遗传学杂志。2012;90(1):7–24. [PMC免费文章][公共医学][谷歌学者]

11杨健等。常见单核苷酸多态性解释了人类身高遗传率的很大一部分。自然遗传学。2010;42(7):565–569. [PMC免费文章][公共医学][谷歌学者]

12Yang Jian，Hong Lee S，Goddard Michael E，Visscher Peter M.Gcta：全基因组复杂性状分析工具。《美国人类遗传学杂志》。2011;88(1):76–82. [PMC免费文章][公共医学][谷歌学者]

13Lee Sang Hong，Yang Jian，Goddard Michael E，Visscher Peter M，Wray Naomi R.使用单核苷酸多态性衍生的基因组关系和限制最大似然估计复杂疾病之间的多效性。生物信息学。2012;28(19):2540–2542. [PMC免费文章][公共医学][谷歌学者]

14精神基因组学联合会的跨疾病小组等。从全基因组snps估计的五种精神疾病之间的遗传关系。自然遗传学。2013 [PMC免费文章][公共医学][谷歌学者]

15Vattikuti Shashaank，Guo Juen，Chow Carson C.代谢综合征特征的常见snp解释的遗传性和遗传相关性。公共科学图书馆遗传学。2012;8（3）：e1002637。 [PMC免费文章][公共医学][谷歌学者]

16陈国波等。从gwas和免疫芯片数据估算和划分炎症性肠病的（共）遗传率。人类分子遗传学。2014年：ddu174。 [PMC免费文章][公共医学][谷歌学者]

17Purcell Shaun M等人。常见的多基因变异会增加精神分裂症和双相情感障碍的风险。自然。2009;460(7256):748–752. [PMC免费文章][公共医学][谷歌学者]

18杜布里奇·弗兰克。多基因风险评分的功效和预测准确性。公共科学图书馆遗传学。2013;9（3）：e1003348。 [PMC免费文章][公共医学][谷歌学者]

19Bulik-Sullivan-Brendan等。LD评分回归将全基因组关联研究中的混杂与多基因性区分开来。自然遗传学。2015 [PMC免费文章][公共医学][谷歌学者]

20杨健等。多基因遗传下的基因组通货膨胀因素。欧洲人类遗传学杂志。2011;19(7):807–812. [PMC免费文章][公共医学][谷歌学者]

21Speed Doug、Hemani Gibran、Johnson Michael R、Balding David J.从全基因组snps改进遗传力估计。美国人类遗传学杂志。2012;91(6):1011–1021. [PMC免费文章][公共医学][谷歌学者]

22精神基因组学联合会的跨学科小组等。识别对五种主要精神疾病具有共同影响的风险位点：全基因组分析。柳叶刀。2013;381(9875):1371. [PMC免费文章][公共医学][谷歌学者]

23Perry John RB等。106个基因组位点中初潮年龄的亲本特异性等位基因关联。自然。2014;514(7520):92–97. [PMC免费文章][公共医学][谷歌学者]

24Morris Andrew P等人。大尺度关联分析为2型糖尿病的遗传结构和病理生理学提供了见解。自然遗传学。2012;44(9):981. [PMC免费文章][公共医学][谷歌学者]

25Horikoshi Momoko等。与出生体重相关的新基因座确定了宫内发育与成人身高和代谢之间的遗传联系。自然遗传学。2013;45(1):76–82. [PMC免费文章][公共医学][谷歌学者]

26Freathy Rachel M等。2型糖尿病风险等位基因与出生时体型缩小相关。糖尿病。2009;58(6):1428–1433. [PMC免费文章][公共医学][谷歌学者]

27早期生长遗传学（EGG）联盟等。全基因组关联荟萃分析确定了新的儿童肥胖基因座。自然遗传学。2012;44（5）：526–531。 [PMC免费文章][公共医学][谷歌学者]

28Rob Taal H等人。12q15和12q24的常见变异与婴儿头围有关。自然遗传学。2012;44(5):532–538. [PMC免费文章][公共医学][谷歌学者]

29Onland Moret NC等人，《初潮年龄与成人身高的关系》，史诗研究。美国流行病学杂志。2005;162(7):623–632.[公共医学][谷歌学者]

30Day Felix等人。青春期时间与糖尿病、心血管疾病以及男性和女性的不同健康结果相关：英国生物银行研究。科学报告。2014 [PMC免费文章][公共医学][谷歌学者]

31Elks Cathy E等。月经初潮年龄和2型糖尿病风险表外照射研究。糖尿病护理。2013;36(11):3526–3534. [PMC免费文章][公共医学][谷歌学者]

32Finucane Hilary K等人。使用GWAS汇总统计按功能类别划分遗传力。自然遗传学出版社。2015 [PMC免费文章][公共医学][谷歌学者]

33萨达夫·法鲁奇I.定义食欲和肥胖的神经基础：从基因到行为。临床医学。2014;14(3):286–289. [PMC免费文章][公共医学][谷歌学者]

34王娜等。成人身高及其构成因素与死亡率的关系：一份来自13.5万中国男女队列研究的报告。国际流行病学杂志。2011;40(6):1715–1726. [PMC免费文章][公共医学][谷歌学者]

35Hebert Patricia R等。男性医生的身高和心血管疾病发病率。循环。1993;88(4):1437–1443.[公共医学][谷歌学者]

36Rich-Edwards Janet W等人，《女性身高与心血管疾病风险》。美国流行病学杂志。1995;142(9):909–917.[公共医学][谷歌学者]

37Rietveld Cornelius A等人对126559名个体进行了Gwas研究，确定了与教育程度相关的遗传变异。科学。2013;340(6139):1467–1471. [PMC免费文章][公共医学][谷歌学者]

38Barnes Deborah E，Yaffe Kristine。风险因素降低对阿尔茨海默病患病率的预测影响。《柳叶刀神经病学》。2011;10(9):819–828. [PMC免费文章][公共医学][谷歌学者]

39诺顿·山姆、马修斯·菲奥纳·E、巴恩斯·黛博拉·E、亚菲·克里斯汀、布雷恩·卡罗尔。阿尔茨海默病初级预防的潜力：基于人群的数据分析。《柳叶刀神经病学》。2014;13(8):788–794.[公共医学][谷歌学者]

40MacCabe James H等人，《16岁时优异的学习成绩与成人双相情感障碍的风险：国家队列研究》。英国精神病学杂志。2010;196(2):109–115.[公共医学][谷歌学者]

41Tiihonen-Jari等。双相情感障碍和精神分裂症患者的病态前智力功能：一项针对男性应征入伍者的队列研究结果。美国精神病学杂志。2005;162(10):1904–1910.[公共医学][谷歌学者]

42Pierce John P、Fiore Michael C、Novotny Thomas E、Hatziandreu Evridiki J、Davis Ronald M。美国吸烟趋势：教育差异在增加。贾玛。1989;261(1):56–60.[公共医学][谷歌学者]

43Striegel-Moore Ruth H、Garvin Vicki、Dom Faith-Anne、Rosenheck Robert A.男性饮食障碍的精神共病：一项针对住院退伍军人的全国性研究。国际饮食失调杂志。1999;25(4):399–404.[公共医学][谷歌学者]

44Blinder Barton J、Cumella Edward J、Sanathara Visant A.患有进食障碍的女性住院患者的精神病共病。心身医学。2006;68(3):454–462.[公共医学][谷歌学者]

45Deary Ian J，Strand Steve，Smith Pauline，Fernandes Cres.智力和教育成就。智慧。2007;35(1):13–21. [谷歌学者]

46Calvin Catherine M、Fernandes Cres、Smith Pauline、Visscher Peter M、Deary Ian J.在英国超过175000名11岁小学生的国家队列中取得的性别、智力和教育成就。智慧。2010;38(4):424–432. [谷歌学者]

47Durkin Maureen S等人，《自闭症谱系障碍流行中的社会经济不平等：来自美国横断面研究的证据》。公共科学图书馆一号。2010;5（7）：e11551。 [PMC免费文章][公共医学][谷歌学者]

48Robinson Elise B等人。自闭症谱系障碍的严重程度反映了从头开始和家庭影响的平均贡献。美国国家科学院院刊。2014;111(42):15161–15165. [PMC免费文章][公共医学][谷歌学者]

49Samocha Kaitlin E等人。人类疾病从头突变的解释框架。自然遗传学。2014;46(9):944–950. [PMC免费文章][公共医学][谷歌学者]

50Silman Alan J，Pearson Jacqueline E.类风湿关节炎的流行病学和遗传学。关节炎研究。2002;4（补充3）：S265–S272。 [PMC免费文章][公共医学][谷歌学者]

51de Leon Jose，Diaz Francisco J.全球研究的荟萃分析表明精神分裂症与吸烟行为之间存在关联。精神分裂症研究。2005;76(2):135–157.[公共医学][谷歌学者]

52Andreassen Ole A等。通过利用心血管疾病风险因素的多效性，改进与精神分裂症相关的常见变异的检测。美国人类遗传学杂志。2013;92(2):197–209. [PMC免费文章][公共医学][谷歌学者]

53Cotsapas Chris等。自身免疫性疾病中基因效应的普遍共享。公共科学图书馆遗传学。2011;7（8）：e1002254。 [PMC免费文章][公共医学][谷歌学者]

54Farh Kyle Kai-How等。因果性自身免疫疾病变体的遗传和表观遗传精细定位。自然。2014 [PMC免费文章][公共医学][谷歌学者]

55Wurtz-Peter等。年轻人肥胖的代谢特征：孟德尔随机化分析和体重变化的影响。《公共科学图书馆·医学》。2014 [PMC免费文章][公共医学][谷歌学者]

56伯吉斯·斯蒂芬（Burgess Stephen）、弗赖塔格·丹尼尔·F（Freitag Daniel F）、汗·哈桑（Khan Hassan）、戈曼·多纳尔（Gorman Donal N）、汤普森·西蒙（Thompson Simon G）。使用多变量孟德尔随机化来解开脂质组分的因果关系。请给我一个。2014;9（10）：e108891。 [PMC免费文章][公共医学][谷歌学者]

57格陵兰·桑德、珍珠·朱迪亚、罗宾斯·詹姆斯·M·流行病学研究因果图。流行病学。1999:37–48.[公共医学][谷歌学者]

58Dahl Andy、Hore Victoria、Iotchkova Valentina、Marchini Jonathan。非相关噪声下矩阵变量高斯模型中的网络推理。2013arXiv预打印arXiv:1312.1622。[谷歌学者]

59Angrist Joshua D，Pischke Jörn-Steffen。基本无害的计量经济学：经验主义者的伴侣。普林斯顿大学出版社；2008[谷歌学者]

60Aschard Hugues、Vilhjálmsson Bjarni J、Joshi Amit D、Price Alkes L、Kraft Peter。在全基因组关联研究中，对可遗传协变量进行调整可能会使效应估计产生偏差。美国人类遗传学杂志。2015 [PMC免费文章][公共医学][谷歌学者]

61国际HapMap 3联盟等。整合不同人群中常见和罕见的遗传变异。自然。2010;467(7311):52–58. [PMC免费文章][公共医学][谷歌学者]