自然遗传学。作者手稿;PMC 2015年9月1日提供。
以最终编辑形式发布为:
预防性维修识别码:项目经理4495769
NIHMSID公司:NIHMS683841号
LD评分回归法区分全基因组关联研究中的混淆和多基因性
,1,2,三 ,4,5 ,6 ,2,三 ,7,8精神基因组学联合会精神分裂症工作组,9 ,1 ,1,2,三 ,1,4,5和1,2,三,*
布伦丹·K·布利克·苏利凡
1麻省理工学院和哈佛大学医学与人口遗传学项目,马萨诸塞州剑桥
2马萨诸塞州总医院和哈佛医学院医学部分析和转化遗传学室
三麻省理工大学博德学院和哈佛大学斯坦利精神病研究中心,马萨诸塞州剑桥
波鲁洛
4马萨诸塞州波士顿哈佛公共卫生学院流行病学系
5马萨诸塞州波士顿哈佛公共卫生学院生物统计学系
希拉里·菲努凯恩
6马萨诸塞州剑桥市麻省理工学院数学系
斯蒂芬·里普克
2马萨诸塞州总医院和哈佛医学院医学部分析和转化遗传学室
三麻省理工大学博德学院和哈佛大学斯坦利精神病研究中心,马萨诸塞州剑桥
简阳
7澳大利亚昆士兰布里斯班昆士兰大学大脑研究所
8澳大利亚昆士兰布里斯班昆士兰大学亚历山德拉公主医院昆士兰州大学迪亚曼蒂纳学院
尼克·帕特森
1麻省理工学院和哈佛大学医学与人口遗传学项目,马萨诸塞州剑桥
马克·戴利
1麻省理工学院和哈佛大学医学与人口遗传学项目,马萨诸塞州剑桥
2马萨诸塞州总医院和哈佛医学院医学部分析和转化遗传学室
三麻省理工大学博德学院和哈佛大学斯坦利精神病研究中心,马萨诸塞州剑桥
阿尔克斯·L·普莱斯
1麻省理工学院布罗德研究所和马萨诸塞州剑桥哈佛大学医学和人口遗传学项目
4哈佛大学公共卫生学院流行病学系,马萨诸塞州波士顿
5马萨诸塞州波士顿哈佛公共卫生学院生物统计学系
本杰明·尼尔
1麻省理工学院和哈佛大学医学与人口遗传学项目,马萨诸塞州剑桥
2马萨诸塞州总医院和哈佛医学院医学部分析和转化遗传学室
三麻省理工大学博德学院和哈佛大学斯坦利精神病研究中心,马萨诸塞州剑桥
1麻省理工学院和哈佛大学医学与人口遗传学项目,马萨诸塞州剑桥
2马萨诸塞州波士顿马萨诸塞州总医院和哈佛医学院医学部分析和转化遗传学部门
三麻省理工大学博德学院和哈佛大学斯坦利精神病研究中心,马萨诸塞州剑桥
4马萨诸塞州波士顿哈佛公共卫生学院流行病学系
5马萨诸塞州波士顿哈佛公共卫生学院生物统计学系
6马萨诸塞州剑桥市麻省理工学院数学系
7澳大利亚昆士兰布里斯班昆士兰大学大脑研究所
8澳大利亚昆士兰布里斯班昆士兰大学亚历山德拉公主医院昆士兰州大学迪亚曼蒂纳学院
- 补充资料
补充1。
GUID:4E2250C3-76AA-4C23-B3A1-FA8BF42B538A
补充2。
GUID:A9D25DD6-BA18-4A99-B560-36937E8E2E28
补充3。
GUID:937A4440-D2F6-41EC-887D-91AB87DFBD43
补充4。
GUID:E965CBD7-CF7E-46E2-BE5C-4FF78C8CE98D
补充5。
GUID:B3954CA4-8C52-4842-8DC4-C2008CC738DB
补充图和信息。
指南:6CD43474-0745-47BB-AAD6-FB599C6CF328
摘要
两种多基因性(即。,许多小的遗传效应)和混杂的偏见,如隐性关联性和群体分层,可能会导致全基因组关联研究(GWAS)中测试统计数据的膨胀分布。然而,目前的方法无法区分通货膨胀、真实的多基因信号和偏差。我们开发了一种方法,LD得分回归,通过检查测试统计数据和联系不平衡(LD)之间的关系来量化每个因素的贡献。LD评分回归截距可用于估计比基因组控制更强大和准确的校正因子。我们发现强有力的证据表明,在许多大样本量的GWAS中,多基因性占了测试统计通货膨胀的大多数。
简介
具有因果变异的LD变异在关联分析中显示出与LD成比例的测试统计数据升高(通过第页2)带有因果变量1–三。索引变异标记的遗传变异越多,该索引变异标记因果变异的概率越高。相反,队列内或队列之间的隐性关联导致的通货膨胀4,5,6或者纯粹来自遗传漂变的群体分层与LD评分无关。
在多基因模型下,效应大小与方差与p(1-p)成正比的分布无关−1/2哪里第页是次要等位基因频率(MAF),然后是预期的χ2-变异统计j个是
哪里N个是样本大小;M(M)是SNP的数量,例如h2/M是按SNP解释的平均遗传力;一衡量混杂偏见的贡献,如隐性关联性和人口分层;和是LD得分变体的j个,它测量由标记的遗传变异量j个和(在补充说明). 这种关系适用于荟萃分析,也适用于二进制表型的确定研究,在这种情况下,h2在观察范围内。因此,如果我们回归χ2GWAS对LD得分的统计(LD得分回归),截距减1是测试统计中混杂偏差对通货膨胀的平均贡献的估计值。
结果
方法概述
我们估计了1000基因组项目中欧洲血统样本的LD得分7(EUR)使用无偏估计量8属于第页2使用1厘摩根(cM)窗口,排除单件(MAF>0.13%),无第页2切断。标准误差是通过对个体块进行折刀处理来估计的,我们使用这些标准误差来校正LD评分回归中的衰减偏差(即。,当有噪声地测量回归变量时,回归斜率大小的向下偏差,请参阅联机方法)。
对于LD评分回归,我们排除了EUR MAF<1%的变量,因为这些变量的LD评分标准误差非常高(注意:LD评分归一化中包含的变量是LD评分估计中包含的变体的子集)。此外,我们从所有回归中排除了效应大小非常大或广泛长期LD的基因座,因为在这种分析中,这些可能被视为异常值,并且会对回归产生不成比例的影响(在线方法)。
在估计LD得分时,一个重要的考虑因素是我们估计LD得分的样本与关联研究的样本匹配的程度。如果参考人群的LD评分与用于GWAS的目标人群的LD评分不匹配,那么LD评分回归可能会有两种偏差。首先,如果参考人群中的LD得分等于目标人群中的MD得分加上平均零噪声,那么截距将向上倾斜,斜率将向下倾斜。这在概念上等同于增加LD分数的测量误差。其次,也许更重要的是,考虑平均LD分数存在方向性偏差的情况,即参考人群的LD分数系统地高于或低于目标人群。在这种情况下,LD分数回归截距将分别向下或向上倾斜(在线方法)。
为了探索LD评分在欧洲人群中的稳定性,我们分别使用1000个基因组EUR亚群(具有北欧和西欧祖先的犹他州居民(CEU)、英格兰和苏格兰的英国人(GBR)、意大利的托斯卡尼人(TSI)和芬兰的芬兰人(FIN))中的每个亚群估计LD评分。所有四个亚群的LD得分高度相关,但平均LD得分随纬度增加而增加(补充表8),与南欧人口经历的瓶颈不如北欧人口严重的观察结果一致9例如,与合并的EUR LD分数相比,FIN的平均LD分数高7%,TSI的平均LDs分数低8%。我们评估了这些差异对LD评分回归分析行为的影响,并发现EUR参考面板足以用于主要为北欧血统的远交群体的研究,例如欧美或英国人群(参见在线方法)。对于其他人群,应使用不同的参考面板。
在对罕见变异的影响大小进行有力假设的情况下,LD得分回归的斜率可以重新定标,以估计LD得分估计中使用的所有SNP所解释的遗传力(补充表1). 放松这些假设,以获得对所有1000个基因组SNP解释的遗传力的稳健估计,是进一步研究的方向;然而,我们注意到LD分数回归截距对这些假设是稳健的。
多基因遗传结构的模拟
验证连锁不平衡与χ之间的关系2统计数据显示,我们进行了各种模拟,以模拟具有人口分层、隐性关联和多基因结构的场景。
为了建立多基因数量性状的模型,我们指定了从N(0,h2/(2便士(1便士))−1/2/M) 在大约1000名瑞典人的非结构化队列中,不同数量的因果变异和不同的遗传率。在所有模拟设置中,平均LD得分回归截距接近1。我们注意到,如果因果变量很少,LD分数回归估计仍然是无偏的,但标准误差变得非常大,这意味着这种方法最适合多基因性状(补充图3-5).
带有混淆的模拟
该模型假设FST和LD得分之间没有系统相关性(参见补充说明). 由于链接选择,在实践中可能会违反此假设(即,正选择10和背景选择11). LD评分与F是否呈正相关装货单,LD得分回归截距将低估人口分层对通货膨胀的贡献(χ2统计数据。为了量化这可能引入LD分数回归截距的偏差,我们对实际人群分层进行了一系列模拟。
我们从精神基因组学联合会(PGC)的7个欧洲队列的对照组中获得了未计算的基因型,这些队列在同一阵列上进行了基因分型(补充表2). 为了在大陆范围内模拟人口分层,我们根据队列成员分配病例/对照状态,然后计算每对队列的关联统计(注意,在这个模拟设置中,预期的平均χ2-统计值为1+bNF装货单,其中b是表型和血统之间的相关性,N是样本量,ref12). 为了模拟全国范围内的人口分层,我们计算了每个队列中的前三个主成分,然后使用每个主成分作为表型计算关联统计。通过人口分层和多基因性模拟得到的分位数(QQ)图显示出无法区分的通货膨胀模式(),但平均LD评分回归截距约等于λ气相色谱在人口分层的模拟中(请参见补充表3a用于模拟大陆尺度分层和补充表4a对于具有国家级分层的模拟),以及在具有多基因性的模拟中接近1(补充图1-5). 此外,在每组模拟中,作为LD分数函数的通货膨胀模式的定性表现完全不同(). F之间观察到的相关性装货单所有模拟中的LD分数可以忽略不计(通常为10−5到10−4,请参阅补充表3b和4b). 我们注意到,在人口分层模拟中,LD得分回归斜率平均略大于零(补充表3c、4c),可能是链接选择的结果。然而,LD得分回归截距的性能与λ相当气相色谱,因此,尽管斜率偏差很小,但如果用作校正系数,则将是适当的保守值。
选定仿真的结果。(a)人口分层QQ图(λ气相色谱=1.32,LD得分回归截距=1.30)。(b)QQ图,具有0.1%SNPs因果(λ)的多基因遗传结构气相色谱=1.32,LD得分回归截距=1.006)(c)具有人口分层的LD得分图。每个点代表一个LD分数分位数,其中x个-点的坐标是该分位数中变量的平均LD得分年-坐标是平均值χ2分位数中的变体。颜色对应回归权重,红色表示权重较大。黑线是LD分数回归线。(d)如图c所示,但LD评分图具有多基因遗传结构。
具有混淆性和多态性的模拟
为了模拟一个更现实的场景,即多基因性和偏见同时导致测试统计通货膨胀,我们从威康信托病例控制联合会2的欧洲各地约22000名个体中获得了基因型13我们用从染色体前半部分提取的因果SNP模拟多基因表型,使染色体后半部分的所有SNP为空。此外,我们还包括一个与基因型数据的第一个主成分一致的环境分层成分,代表北欧和南欧血统。在此设置中,平均χ2在第二部分染色体上的SNP中,测量分层的平均贡献。我们使用弗雷明汉心脏研究的数据进行了类似的具有神秘相关性的模拟14包括近亲。在所有模拟重复中,LD得分回归截距近似等于平均χ2在空SNP中(补充表5)这表明,即使在存在偏见和多基因性的情况下,LD评分回归也可以在测试统计中划分通货膨胀。
最后,我们使用模拟基因型和责任阈值模型,通过病例对照确定,对多基因二元表型的研究进行了建模,并验证了病例对照确定对LD评分回归没有明显的偏见(补充表6).
频率依赖的遗传结构
当每个SNP解释的方差与LD评分不相关时,LD评分回归最有效(这意味着罕见变异比普通变异具有更大的效应大小,这可能适用于中度阴性选择下的疾病表型)。LD评分回归的一个潜在局限性是,每个SNP解释的方差可能与某些表型的LD评分相关。对于可能发生这种情况的示例,考虑一个选择性中性的表型,以便每个基因的效应大小与MAF不相关(这意味着解释的方差与MAF正相关,因为加性遗传方差定义为2pqa2其中p和q是主要和次要等位基因频率,a是加性遗传效应)。由于LD分数也与MAF呈正相关,在这种情况下,我们预计解释的方差与LD分数呈正相关。这将导致LD分数回归截距中的向下偏差和LD分数的回归斜率中的向上偏差,从而导致对潜在偏差的低估。
为了量化依赖MAF的遗传结构可能引入的偏差大小,我们模拟了一个频率依赖型遗传结构,其中效应大小与MAF(在线方法)无关。对于大多数表型,这个模型应该代表遗传结构的合理界限。我们观察到最小偏差:在这些模拟中,平均LD得分回归截距为0.994(补充图6,补充表7). 然而,存在LD评分回归无效的极端遗传结构:例如,如果所有因果变异都很罕见(MAF<1%,这可能是极端阴性选择下表型的适当模型),那么LD评分的回归通常会产生负斜率,截距将超过平均χ2(补充图7).
实际数据
最后,我们将LD评分回归应用于GWAS的汇总统计,GWAS代表20多种不同表型15–32(请参见和补充图8a–w有关分析中研究的元数据,请参见补充表10a、b). 对于所有研究,LD评分回归斜率显著大于0,LD得分回归截距显著小于λ气相色谱(平均差异0.11),表明多基因性显著增加了平均χ2并确认通过除以λ修正测试统计气相色谱是不必要的保守。例如,显示了最近精神分裂症GWAS的LD评分回归,限制在约70000名欧洲个体中33低截距为1.07,表示偏差的贡献最小,平均χ2其中1.613个主要来源于多基因。所有其他GWAS的LD得分图可以在中找到补充图8a–w与任何依赖于遗传结构模型的推理过程一样,我们的结果可能会因模型错误而有偏差,而不是我们直接模拟的那些错误(例如,如果独立效应大小是一个糟糕的模型,可能是因为耦合等位基因倾向于在同一方向上产生效应)。这可能解释了我们在一些可能校准良好的大型GWAS中观察到的LD分数回归截距中的适度通货膨胀。请注意,LD分数回归截距中的向上偏差仅意味着截距可能是保守的校正因子。
当前精神分裂症荟萃分析的D得分回归图33。每个点代表一个LD分数分位数,其中x个-点的坐标是该分位数中变量的平均LD得分年-坐标是平均值χ2分位数中的变体。颜色对应回归权重,红色表示权重较大。黑线是LD得分回归线。该线似乎位于右侧点的下方,因为这是一个加权回归,其中左侧点的权重最大(在线方法)。
表1
所有分析研究的LD得分回归结果要么未应用荟萃分析水平GC校正,要么列出λ气相色谱在相关出版物中。标有“GC”的列指示执行了多少轮GC校正。对于采用荟萃分析水平GC校正并列出λ的GWAS气相色谱,我们按照荟萃分析水平λ重新计算了所有测试统计数据气相色谱对GC-修正的汇总统计数据进行的LD得分回归通常会产生小于1的截距。请注意,在没有混淆的情况下,单个研究水平的GC校正也会使预期截距略低于1(补充说明). 通过约2000个相邻SNP的块上的块折刀获得标准误差,这为存在相关异方差误差项时的标准误差提供了稳健估计。标记为“类型”的列表明了该研究是巨型研究(研究之间共享的原始基因型)还是荟萃分析(所有贡献研究之间仅共享汇总统计数据)。
表型 | 平均值χ2 | λ气相色谱 | 拦截 (东南) | 类型 | 气相色谱 | 裁判 |
---|
炎症性肠病 | 1.247 | 1.164 | 1.095 (0.010) | 百万 | 0 | 26 |
溃疡性结肠炎 | 1.174 | 1.128 | 1.079 (0.010) | 百万 | 0 | 26 |
克罗恩病 | 1.185 | 1.122 | 1.059(0.008) | 百万 | 0 | 26 |
精神分裂症 | 1.613 | 1.484 | 1.070 (0.010) | 百万 | 0 | 33 |
多动症 | 1.033 | 1.033 | 1.008 (0.006) | 百万 | 0 | 18 |
双相情感障碍 | 1.154 | 1.135 | 1.030 (0.008) | 百万 | 0 | 23 |
PGC交叉阻尼器 | 1.205 | 1.187 | 1.018 (0.008) | 百万 | 0 | 29 |
大萧条 | 1.063 | 1.063 | 1.009 (0.006) | 百万 | 0 | 30 |
类风湿关节炎 | 1.063 | 1.033 | 0.980 (0.007) | 百万 | 2 | 20 |
冠状动脉疾病 | 1.125 | 1.096 | 1.033 (0.008) | 元 | 1 | 24 |
2型糖尿病 | 1.116 | 1.097 | 1.025 (0.008) | 元 | 1 | 28 |
BMI-Adj.禁食胰岛素 | 1.088 | 1.072 | 1.015(0.007) | 元 | 1 | 27 |
空腹胰岛素 | 1.079 | 1.067 | 1.021 (0.007) | 元 | 1 | 27 |
大学(是/否) | 1.207 | 1.180 | 1.046 (0.009) | 元 | 1 | 31 |
教育年限 | 1.220 | 1.188 | 1.041 (0.009) | 元 | 1 | 31 |
每天的香烟 | 1.047 | 1.047 | 0.998 (0.008) | 元 | 1 | 21 |
曾经吸烟过 | 1.097 | 1.083 | 1.008 (0.006) | 元 | 1 | 21 |
前烟民 | 1.050 | 1.048 | 0.999 (0.007) | 元 | 1 | 21 |
老年人(吸烟) | 1.025 | 1.030 | 0.998 (0.006) | 元 | 1 | 21 |
FN-BMD公司 | 1.163 | 1.109 | 1.001 (0.009) | 元 | 2 | 25 |
LS-BMD公司 | 1.174 | 1.112 | 1.032 (0.009) | 元 | 2 | 25 |
腰臀比 | 1.417 | 1.330 | 1.040 (0.008) | 元 | 2 | 16 |
高度 | 1.802 | 1.478 | 1.149 (0.021) | 元 | 2 | 17 |
车身质量指数 | 1.130 | 1.090 | 1.033 (0.012) | 元 | 2 | 19 |
讨论
只要可能,最好获得所有相关的基因型数据,并直接纠正混淆偏见34–38;测试统计数据的事后校正不能替代认真的质量控制。然而,如果只有汇总数据可用,或者如果需要保守修正,我们建议LD分数回归截距比λ更可靠地量化混杂偏差导致的通货膨胀程度气相色谱(或基因间λ气相色谱,补充表8). 自λ气相色谱在存在多基因性的情况下,随着样本量的增加(即使没有混杂偏差)三,通过使用LD得分回归截距而非λ校正测试统计数据获得的功率增益气相色谱对于更大的GWAS将变得更加重要。考虑到适当的参考群体,将此方法推广到东亚人或西非人等非欧洲人群是很简单的,但扩展到混合人群是未来研究的主题。
总之,我们开发了LD评分回归,这是一种区分夸大测试统计数据与混杂偏见和多基因性的方法。将LD得分回归应用于20多个复杂性状,证实了多基因性是GWAS结果中测试统计膨胀的主要原因,该方法可用于生成GWAS的校正因子,该校正因子保留了比λ更大的功效气相色谱尤其是在大样本情况下。我们提供了一个Python命令行工具用于估算LD分数和执行LD分数回归,以及一个适用于欧洲历史样本的LD分数数据库(URL). 正在进行的研究旨在将该方法应用于遗传力、遗传相关性分量的估计以及混合模型关联统计的校准。
在线方法
LD得分估算
我们使用GCTA中实施的–LD-man-rsq选项,从1000基因组项目参考小组的378个阶段性欧洲个体(不包括一对表亲中的一个个体)中估算了欧洲LD得分39软件包(带有标记--ld-man-rsq–ld-rsq-cutoff 0–maf 0.00001;我们实现了一个1centMorgan(cM)窗口使用–ld-wind标志和修改的.bim文件,物理坐标替换为遗传坐标,如下一段所述。注意,使用作者在LDSC软件包中的–l2和–ld-wind-cm标志可以更方便地实现1cM窗口)。使用包含数百名个体的序列参考面板而不是包含数千名个体的基因型GWAS控制面板进行LD评分估计的主要理由是,即使在输入芯片外基因型后,基因型阵列中可用的变体也只占所有变体的一个子集。仅使用所有变量的子集来估计LD分数会产生向下偏移的估计值。
我们在索引变量周围使用半径为1cM的窗口来表示第页2’s(使用IMPUTE2网站上的基因图和分阶段基因型,参见URL),没有第页2截止值,排除单胎(MAF<0.13%)。皮尔逊相关系数的标准估计值的向上偏差约为1/N个,其中N个是样本量,所以我们使用了一个近似无偏的LD分数估计量,由哪里2表示皮尔逊平方相关的标准有偏估计量。请注意,有可能,这是任何无偏估计量的数学必要特征第页2因此,一些估计的LD分数将小于1。实际上,几乎所有LD评分低于1的变异都很罕见:MAF>5%的变异中只有0.01%的变异估计LD评分小于1。
我们研究了改变窗口大小对LD评分估计值的影响,发现我们对LD得分的估计值对窗口大小的选择是稳健的。用1 cM窗口和2 cM窗口估计的LD得分平均差异小于平均LD得分的1%(补充图9),并且用大于1cM的窗口大小估计的所有LD得分的平方相关性>0.99(补充表7). 这一观察结果还解决了1000基因组参考小组中欧洲内部人口结构对LD评分通货膨胀的担忧。从人口结构来看,1 cM LD分数的平均通货膨胀率可以近似地由1 cM MD分数和2 cM LDs分数之间的平均差值限定。由于这一差异小于平均LD分数的1%,因此我们得出结论,人口结构的偏差并没有显著夸大我们对LD分数估计值。
我们通过删除一个折刀对1000基因组欧洲参考组中378个阶段个体的LD评分标准误差进行了估算。我们发现LD评分标准误差与MAF和LD评分本身呈正相关。对于MAF<1%的变异,LD评分标准误差的Jackknife估计值变得非常大,因此我们从所有LD评分回归中排除了1000个基因组欧洲样本MAF<1%的变异。
欧洲内部LD得分差异
为了量化欧洲内部LD评分差异的大小,我们使用1000个基因组欧洲亚群中的每个亚群来估算LD评分:具有北欧和西欧血统的犹他州居民(CEU)、英格兰和苏格兰的英国人(GBR)、意大利的托斯卡尼人(TSI)和芬兰的芬兰人(FIN)。四个亚群的LD得分均高度相关,但各群的平均LD得分并不恒定。平均LD得分(MAF>1%)为110欧元;CEU,109;GBR,104;芬兰,117;TSI,第102页。芬兰(FIN)人群的平均LD评分升高的观察结果与芬兰遗传史上最近的一个瓶颈相一致40观察到南欧TSI人群的平均LD得分较低,这与南欧人口经历的瓶颈比北欧人口少的报告一致。
欧洲内部LD评分的差异可能是LD评分回归截距偏差的一个来源。例如,如果试图使用来自芬兰的所有样本在GWAS上使用1000基因组欧洲LD分数进行LD分数回归,那么LD分数的回归截距可能会向上偏移。同样,如果试图使用来自意大利的所有样本在GWAS上的1000基因组欧洲LD分数进行LD分数回归,LD分数的回归截距可能会向下倾斜。如果我们近似地认为,欧洲内部的LD分数差异可以用加法项加上5%的噪声来描述(即。,如果我们假设FIN LD分数等于泛欧LD分数加七,这是两个LD分数之间在截距偏差方面的线性关系中的最坏情况),然后,通过使用泛欧LD分数对芬兰GWAS进行LD分数回归,引入LD分数的回归截距的偏差将乘以LD得分回归的斜率加上平均值的5%(χ2)-1,其中7是参考人群LD得分和GWAS人群LD分数之间的差异。由于我们估计的所有欧洲亚群平均LD得分都在泛欧平均LD分数的±8范围内,我们估计LD得分回归截距与欧洲内部LD得分差异的偏差最多为LD分数回归斜率的±10倍。对于中分析的实际GWAS,这相当于平均χ中通货膨胀比例估计值的最坏情况差约为±10%2这是由混杂的偏见造成的,向上偏差的概率更高(因为目标和参考LD分数之间关系中的噪声项总是导致LD分数回归截距向上偏差,而目标和参考DL分数的系统方向性差异可以使LD分数的回归截距朝任何方向偏移)。
回归权重
为了产生一个有效的回归估计量,我们必须处理两个问题。首先,χ2-LD中SNPs的统计数据是相关的。其次,χ2-LD评分高的变异的统计数据的方差高于χ2-低LD评分变异的统计(异方差)。
相关性问题的统计最优解决方案是使用χ的方差-方差矩阵进行广义租赁平方(GLS)2-统计数据。然而,在我们的模型下,这个矩阵很难处理。作为近似值,我们通过加权变量校正相关性j个通过变体的LD分数的倒数j个仅用回归中包含的其他SNP计算LD。准确地说,如果我们允许S公司表示LD得分回归中包含的变量集,然后表示变量的LD得分j个仅使用回归中包含的其他SNP计算LD是按1加权/我j个(S公司)将等价于具有χ的全方差-方差矩阵的GLS2-如果基因组由LD块和第页2(在人群中)要么是零要么是一。我们估计我j个(S公司)对于一节中描述的变型集S应用于实际数据使用相同的程序,我们估计了完整的1000基因组LD得分。自从我们估计j个可以是负数,回归权重必须是正数,我们按1/max加权(j个,1).
为了解释异方差,我们按,它是条件方差函数的倒数在我们的模型中,如果我们额外假设过正常的基因型效应大小是正态分布的(请注意,违反此假设不会使回归产生偏差,它只会增加标准误差补充说明).
衰减偏移
标准最小二乘和加权最小二乘回归理论假设解释变量(也称为自变量,或X(X))测量无误。如果对解释变量进行误差测量,则回归斜率的大小将偏向零。这种形式的偏置称为衰减偏置。如果解释变量是用误差测量的,但这个误差的方差是已知的,那么可以通过将斜率乘以一个衰减因子来产生一个无偏的回归斜率,这等于解释变量的噪声估计值与解释变量的真实值之间的平方加权皮尔逊相关性。我们提供了一个R脚本,该脚本可以在给定LD分数和LD分数标准错误的折刀式估计值的情况下估计该衰减因子(参见URL).
仿真
当使用基因型或插补数据对多基因遗传结构进行模拟时,1000基因组参考面板中未包含在用于模拟的基因型集合中的变体不能对模拟的表型作出贡献,因此不应对用于模拟的LD评分作出贡献。准确地说,对于具有多基因性的模拟以及具有多基因和偏见的模拟,我们使用了LD得分,其中估计第页2来源于1000基因组欧洲参考小组,但第页2’s只接管了模拟中包含的SNPs。对于具有频率依赖性遗传结构的模拟,我们从用于模拟的相同基因型中估计LD分数,因为我们希望量化频率依赖性基因结构引入的偏差,即使在估计LD得分时噪音很小。对于纯种群分层的模拟,我们使用了从所有1000个基因组变体中估计的LD分数,因为这些模拟中没有模拟的多基因结构。对于纯人口分层的模拟,所用队列的详细信息如下所示补充表1.
很难使用真实基因型来模拟低人群流行率的二元表型的确定研究:要获得1000例具有模拟1%表型的病例,需要按预期抽取100000个基因型,这是不可行的。因此,我们生成了110万个SNP的模拟基因型,平均LD得分为110,并且简化了LD结构,其中第页2是0或1,并且所有变体都具有50%的次要等位基因频率。我们在责任阈值模型下生成了所有异常基因型效应大小的表型(即。,对负债的影响)提取身份证号码。根据正态分布,然后从模拟人群中随机抽取个体,直到达到研究所需的病例数和对照数。执行这些模拟的R脚本可以在线获取(URL).
应用于实际数据
我们分析的大多数汇总统计数据集不包含有关样本次要等位基因频率或插补质量的信息。为了限制一组常见的、插补良好的变异体,我们在HapMap 3参考面板中仅保留了这些SNP41用于LD得分回归。为了防止在1cM窗口内仅对LD与变量求和时低估LD得分,我们删除了异常长LD区域中的变量42从LD评分回归得出(具有这些变体的NB-LD包括在LD评分估计中)。最后,我们将着丝粒周围区域(定义为着丝粒中的±3 cM)从LD评分回归中排除,因为这些区域因序列间隙而丰富,这可能导致LD评分低估,并因基因而枯竭,这可能会降低与表型相关的概率43,44在实际数据上,LD评分回归保留的最后一组变量包括大约110万个变量。
致谢
我们要感谢P.Sullivan的有益讨论。这项工作得到了国家卫生研究院拨款R01 HG006399(ALP)、R03 CA173785(HF)和R01 MH094421(PGC)以及房利美和约翰·赫兹基金会的支持。冠状动脉疾病/心肌梗死的数据由CARDIoGRAMplusC4D研究人员提供,可从以下网站下载www.CARDIOGRAMPLUSC4D。ORG公司最后,我们感谢ATGU公共区域的咖啡机给我们的启发。
脚注
URL
作者贡献
BBS构思了这个想法,分析了数据,进行了分析并起草了手稿。BMN构思了这个想法并起草了手稿。MJD构思了这个想法并提供了试剂。NP构思了这个想法并提供了试剂。ALP构思了这个想法并提供了试剂。PRL分析了数据并进行了分析。HF分析了数据并进行了分析。JY提供了软件。所有作者都为最终手稿提供了输入和修订。竞争性金融利益
作者声明没有竞争性的经济利益。
工具书类
1Pritchard JK,Przeworski M.人类的连锁不平衡:模型和数据。美国人类遗传学杂志。2001;69:1–14. [PMC免费文章][公共医学][谷歌学者] 2Sham PC、Cherny SS、Purcell S、Hewitt JK。利用方差分量模型对同胞数据进行数量性状的关联分析与关联分析。美国人类遗传学杂志。2000;66:1616–1630. [PMC免费文章][公共医学][谷歌学者] 4沃伊特BF,普里查德JK。病例对照关联研究中的模糊关联性令人困惑。公共科学图书馆-遗传学。2005;1:e32。 [PMC免费文章][公共医学][谷歌学者] 5Devlin B,Roeder K。关联研究的基因组控制。生物计量学。1999;55:997–1004.[公共医学][谷歌学者] 6Lin DY,Sullivan PF。重叠受试者全基因组关联研究的荟萃分析。美国人类遗传学杂志。2009;85:862–872. [PMC免费文章][公共医学][谷歌学者] 8阴PFX。多元回归中R2收缩率的估计:不同分析方法的比较。实验教育杂志。2001;69:203–224. [谷歌学者] 9Ralph P,Coop G。欧洲最近遗传祖先的地理分布。《公共科学图书馆·生物》。2013;11:e1001555。 [PMC免费文章][公共医学][谷歌学者] 10Bersaglieri T等。乳糖酶基因最近强阳性选择的遗传特征。美国人类遗传学杂志。2004;74:1111–1120. [PMC免费文章][公共医学][谷歌学者] 11McVicker G,Gordon D,Davis C,Green P.原始人类进化中自然选择的广泛基因组特征。公共科学图书馆-遗传学。2009;5:e1000471。 [PMC免费文章][公共医学][谷歌学者] 12Price AL等人。分歧时间对人口结构性质的影响:以冰岛为例。公共科学图书馆-遗传学。2009;5:e1000505。 [PMC免费文章][公共医学][谷歌学者] 13国际多发性硬化遗传学(International Multiple Sclerosis Genetics),C.等人。多发性动脉粥样硬化中细胞介导免疫机制的遗传风险和主要作用。自然。2011;476:214–219. [PMC免费文章][公共医学][谷歌学者] 14Splansky GL等人,《国家心脏、肺和血液研究所弗雷明翰心脏研究第三代队列:设计、招募和初步检查》。《美国流行病学杂志》。2007;165:1328–1335.[公共医学][谷歌学者] 15Sullivan PF等。重性抑郁症的全基因组关联:突触前蛋白短笛的可能作用。分子精神病学。2009;14:359–375。 [PMC免费文章][公共医学][谷歌学者] 16Heid IM等。荟萃分析确定了13个与腰围比相关的新基因座,并揭示了脂肪分布遗传基础中的性别二型性。自然遗传学。2010;42:949–960. [PMC免费文章][公共医学][谷歌学者] 17Lango-Allen H等人。成百上千种基因变异聚集在基因组位点和生物途径中,影响人类身高。自然。2010;467:832–838. [PMC免费文章][公共医学][谷歌学者] 18Neale BM等。注意缺陷/多动障碍全基因组关联研究的荟萃分析。美国医学院儿童青少年精神病学杂志。2010;49:884–897. [PMC免费文章][公共医学][谷歌学者] 19Speliotes EK等。对249796名个体的关联分析揭示了18个与体重指数相关的新基因座。自然遗传学。2010;42:937–948。 [PMC免费文章][公共医学][谷歌学者] 20Stahl EA等。全基因组关联研究荟萃分析确定了7个新的类风湿关节炎风险位点。自然遗传学。2010;42:508–514. [PMC免费文章][公共医学][谷歌学者] 21烟草与遗传学,C.全基因组荟萃分析确定了与吸烟行为相关的多个基因座。自然遗传学。2010;42:441–447. [PMC免费文章][公共医学][谷歌学者] 22国际血压全基因组协会联合会,S.等人。新途径中的遗传变异影响血压和心血管疾病风险。自然。2011;478:103–109. [PMC免费文章][公共医学][谷歌学者] 23精神病学,G.C.B.D.W.G.双相情感障碍的大规模全基因组关联分析确定了ODZ4附近的一个新的易感性位点。自然遗传学。2011;43:977–983. [PMC免费文章][公共医学][谷歌学者] 24Schunkert H等。大规模关联分析确定了13个新的冠状动脉疾病易感基因座。自然遗传学。2011;43:333–338. [PMC免费文章][公共医学][谷歌学者] 25Estrada K等。全基因组荟萃分析确定了56个骨密度位点,并揭示了14个与骨折风险相关的位点。自然遗传学。2012;44:491–501. [PMC免费文章][公共医学][谷歌学者] 26Jostins L等人。宿主-微生物相互作用形成了炎症性肠病的遗传结构。自然。2012;491:119–124. [PMC免费文章][公共医学][谷歌学者] 27Manning AK等。一种计算体重指数的全基因组方法确定了影响空腹血糖特征和胰岛素抵抗的遗传变异。自然遗传学。2012;44:659–669. [PMC免费文章][公共医学][谷歌学者] 28Morris AP等。大规模关联分析为2型糖尿病的遗传结构和病理生理学提供了见解。自然遗传学。2012;44:981–990. [PMC免费文章][公共医学][谷歌学者] 29精神病基因组学交叉组,C.和精神病遗传风险结果,C.识别对五种主要精神疾病具有共同影响的风险位点:全基因组分析。柳叶刀。2013;381:1371–1379. [PMC免费文章][公共医学][谷歌学者] 30精神病学家重性抑郁症工作组,G.C.等人。重性抑郁症全基因组关联研究的大型分析。分子精神病学。2013;18:497–511. [PMC免费文章][公共医学][谷歌学者] 31Rietveld CA等。126559名个体的GWAS确定了与教育程度相关的遗传变异。科学。2013;340:1467–1471. [PMC免费文章][公共医学][谷歌学者] 32精神病基因组学精神分裂症工作组,C.108个精神分裂症相关基因位点的生物学见解。自然。2014;511:421–427. [PMC免费文章][公共医学][谷歌学者] 33联合体。,S.W.G.o.t.P.G.对108个精神分裂症相关基因座的生物学见解。自然。2014;511:421–427. [PMC免费文章][公共医学][谷歌学者] 34Patterson N,Price AL,Reich D.人口结构和特征分析。公共科学图书馆-遗传学。2006;2:e190。 [PMC免费文章][公共医学][谷歌学者] 35Price AL等。主成分分析纠正了全基因组关联研究中的分层。自然遗传学。2006;38:904–909.[公共医学][谷歌学者] 36Kang HM等。用于解释全基因组关联研究中样本结构的方差分量模型。自然遗传学。2010;42:348–354. [PMC免费文章][公共医学][谷歌学者] 37Lippert C等。全基因组关联研究的FaST线性混合模型。自然方法。2011;8:833–835.[公共医学][谷歌学者] 38Korte A等人。一种混合模型方法,用于结构化群体中相关性状的全基因组关联研究。自然遗传学。2012;44:1066–1071. [PMC免费文章][公共医学][谷歌学者] 39Yang J,Lee SH,Goddard ME,Visscher PM。GCTA:全基因组复杂性状分析工具。美国人类遗传学杂志。2011;88:76–82. [PMC免费文章][公共医学][谷歌学者] 40Jakkula E等人。全基因组变异模式揭示了创始人群体中的重要亚结构。美国人类遗传学杂志。2008;83:787–794. [PMC免费文章][公共医学][谷歌学者] 42Price AL等人。长范围LD可以混淆混合人群中的基因组扫描。美国人类遗传学杂志。2008;83:132–135.作者回复135-9。[PMC免费文章][公共医学][谷歌学者] 43Smith AV,Thomas DJ,Munro HM,Abecasis GR。弱和强连锁不平衡区域的序列特征。基因组研究。2005;15:1519–1534。 [PMC免费文章][公共医学][谷歌学者] 44She X等人。人类基因组中着丝粒过渡区的结构和进化。自然。2004;430:857–864.[公共医学][谷歌学者]