主要文本
遗传变异可能具有联合的、非加性的功能效应,1–4但对人类常见变异之间的这种上位性进行表征已被证明是困难的,而未检测到的上位性仍是常见遗传变异解释的复杂性状遗传率低的一个潜在原因。5–10除了基因-基因相互作用外,连锁位点也可能具有上位性效应,11–14一种可能的机制是同一基因的调控和编码变体之间的相互作用。15,16这些相互作用的潜在目标非常丰富:顺式-监管变化很常见17–19据估计,仅在单个组织中,个体内至少有20%的蛋白质编码变异受到影响。16,20在这项研究中,我们分析了一种特定但可能丰富的上位性类型的群体遗传特征:常见顺式-调节性变异改变了罕见的有害编码变异的外显率。我们的结果表明,这种相互作用是常见的,并可能导致复杂疾病的遗传倾向。
监管变化顺式可能通过等位基因不平衡影响同一基因有害编码变体的外显率:在调节性和编码性单核苷酸变体(rSNV和cSNV)杂合的个体中,如果有害编码等位基因比其他等位基因表达更高,则可能产生更严重的表型结果。这可能使编码杂合子在功能上接近有害纯合子(A) ●●●●。在这种情况下,调控变异会修改有害编码变异的功能影响和选择系数,这可能也会对调控变异的选择系数产生次要影响,即使基因表达水平本身的变化不会影响适应度。重要的是,一个罕见的有害cSNV等位基因是否存在于一个基因中高表达或低表达的单倍型上顺式-调节变异不是完全随机的:一个新的编码突变落在特定单倍型上的概率等于单倍型频率。总之,这些现象可以形成调控和编码变异的模式,在本文中,我们表明这些特定模式在人类基因组中是常见的。
调控变异与编码变异的上位性模型
在基因中,编码变异野生型(cSNV)的功能效应w个)和突变型(cSNV米)通过与调节性变体(rSNV+和rSNV-)的高表达或低表达等位基因连锁,等位基因可以发生显著变化(a)。将这种上位性效应与cSNV米在每个rSNV单倍型上给出了一个上位性模型,其中平均群体适合度随rSNV频率(B)的变化而变化。在这个模型中,上位选择改变了双杂合子的适合性:w[cSNVw个rSNV+/cSNV米rSNV−]=1−(1−我)小时,和w[cSNVw个rSNV−/cSNV米rSNV+]=1−[我+ (1 −我)小时]秒,其中我表示等位基因失衡的程度,秒是选择系数,以及小时是m等位基因的显性。等位基因频率基于Hardy-Weinberg平衡和额外的新突变cSNVw个→ cSNV公司米以频率概率命中rSNV+和rSNV-单倍型μ.这里,我们使用了参数μ=10−4s=0.8,h=0.4,i=0.9或i=0。请参见表S1了解详细信息。
我们分析了1000基因组项目试点1和试点2(2010年3月发布)的低覆盖率重测序数据中发现的遗传变异,这些数据来自60个欧洲血统样本(CEU[具有北欧和西欧血统的犹他州居民])和58个尼日利亚约鲁巴人个体(YRI[尼日利亚伊巴丹的约鲁巴])。21这项研究得到了科里尔医学研究所和日内瓦大学医院机构审查委员会的批准。为了分析常见的调控变异,我们在顺式利用57个CEU和56个YRI个体转化淋巴母细胞系的基因表达阵列数据,以及MAF>5%和转录起始点小于1Mb的SNP,通过Spearman秩相关,使用0.01的排列阈值20在CEU和YRI中共产生了433个eQTL,其中包含祖先等位基因信息(由1000基因组联盟提供)和446个eQtl(错误发现率为25%)。我们分别指定高表达和低表达的rSNV等位基因rSNV+和rSNV−,并根据衍生等位基因的影响对获得表达(GOE)和失去表达(LOE)变体中的eQTL进行分类。我们没有针对全基因组的所有变异进行统计上位性测试,而是分析了我们的数据,以了解由我们的局部上位性模型预测的特定变异模式。
上位性模型预测,当衍生cSNV等位基因位于cSNV-rSNV双杂合子中更高表达的单倍型上时,有害cSNV的外显率增加。这些病例最有可能发生在rSNV具有高杂合度,并且新的假定有害编码突变击中rSNV+等位基因时,也就是说,在具有高rSNV+等位基因频率的普通rSNV中。这些rSNV可能受到更多的净化选择(B) ●●●●。我们在eQTL的频率分布中观察到与此一致的信号:GOE eQTLs的衍生等位基因频率(DAF)显著低于LOE eQTLs(; DAF公司GOE公司与DAF对比LOE公司Mann-Whitney p=0.0092(CEU)和p=0.026(YRI),即rSNV+等位基因在常见调控变异体中的频率较低,与上位选择一致。对此模式的另一种解释是,基因表达水平的增加通常更有害,但GOE rSNV的比例应该朝着较低rSNV频率呈指数增长。由于eQTL分析没有捕捉到罕见的调控变异,我们通过分析60例CEU个体的RNA测序数据中的等位基因特异表达(ASE)来研究是否可以观察到这种模式。22通过使用带有罕见ASE的编码变异体的频率来预测哪些cSNV等位基因与未知推测罕见rSNV的衍生等位基因相关(图S1,在线获取),我们估计78±12%(线性回归p=2.1×10−10)在罕见的rSNV中,有一种是表达缺失变体(图S2). 总之,尽管DAF为5%–50%的常见调控变异主要是GOE,但罕见的rSNV以及DAF>50%的常见变异似乎通常是LOE。这与通常更有害的表达增益不一致,并且遵循上位性模型的预测(B) ●●●●。
eQTL的频率分布
在具有5个SNPs重叠的80个SNPs的滑动窗口中,表达增益eQTL相对于衍生等位基因频率的比例;这表明高表达的等位基因往往频率较低(CEU为p=0.0092,YRI为p=0.026)。
此外,我们分析了eQTL折叠变化的分布(计算为主要纯合子和杂合子eQTL-基因型类别的中位数表达值的比值),这描述了eQTL杂合子中假定cSNV等位基因不平衡的程度和上位性效应。我们观察到,特别是在CEU中,rSNV−等位基因频率较高的常见eQTL往往具有较高的倍数变化(图S3). 这些eQTL可能具有rSNV−单倍型上发生的大多数编码突变,因此受益于上位性:等位基因失衡越大,这些cSNV的外显率越低。相反,rSNV+频率高的eQTL的强上位性效应更可能是不利的,这与它们的低倍变化一致。因此,上位效应似乎不仅塑造了调控变异的频谱,而且也塑造了其效应大小的分布。
编码变异的模式也会受到上位性的影响。从更高表达的单倍型中增加对有害cSNV等位基因的纯化可能导致可能有害的cSNV和中性cSNV在调节单倍型上的不同分布。为了研究这一点,我们比较了非同义SNV和同义SNVs(分别是nsSNV和sSNVs),期望前者显示出与rSNV相互作用的更强迹象。首先,上位性倾向于某些单倍型组合而非其他组合,这可能会增加整体连锁不平衡(LD)。事实上,eQTL和nsSNV之间的LD比sSNV更强(A和3B以及图S6; CEU和YRI的Mann-Whitney p值对于D′为0.012和0.008,对于r为0.002和0.0782)。这与我们之前基于60名CEU个体RNA测序数据的结果一致。20其次,我们研究了这种LD模式是否可能是由在更高表达的单倍型上假定有害编码等位基因的表达不足引起的。来自同一RNA测序数据集的等位基因特异表达(ASE)数据分析22结果表明,nsSNV的比例高于sSNV,表明衍生等位基因的表达降低(C类;根据线性回归模型,总体sSNV-nsSNV差异p=0.035,DAF<0.15的cSNV的Fisher精确检验p=0.046,另见图S1和S2). 这一分析不太可能有偏见,因为nsSNV本身被认为是更常见的因果调节变体,因为这样的自动调节机制不太可能导致等位基因失衡,我们观察到ASE在sSNV和nsSNV中的发生率几乎相等。20此外,在CEU的单倍型相eQTL数据(来自2010年7月发布的1000个基因组)中,高表达单倍型携带的nsSNV衍生等位基因明显少于sSNV(Fisher精确检验p=2×10−4,表S2). 这些结果表明,上位选择导致在更高表达的调节单倍型上缺乏有害的编码变异。此外,我们研究了上位性是否也会影响具有调控变异的基因中编码变异的总数,并观察到eQTL基因中cSNV的数量减少(Mann-Whitney p<2.2×10−16在CEU中,p=6.4×10−3在YRI中;图S3)重要的是,当rSNV+等位基因普遍存在时,CEU中的下降幅度更大;这表明上位性可能使编码变异体暴露于选择,并导致增加净化选择。
编码变异中的上位信号
CEU(A)和YRI(B)中eQTL与sSNV或nsSNV之间的连锁不平衡(D′)。将sSNV采样到nsSNV的衍生等位基因频率分布,数字表示sSNV−nsSNV比较的p值。在(C)中,使用CEU的等位基因特异性表达数据分析编码变异体(cSNV−DER)衍生等位基因的高表达频率;该图显示了400个SNP滑动窗口中的中位数,重叠部分为50。sSNVs和nsSNVs变异体之间的差异(p=0.0035)表明,选择与低频nsSNV潜在有害衍生等位基因表达增加相对应。总体下降趋势可能是因为ASE效应背后的假定监管变量通常是表达缺失变量(参见图S1和S2).
最后,我们询问上位性效应是否在复杂疾病的遗传易感性中发挥作用,在更高表达的单倍型上富集有害等位基因可能增加疾病风险。为此,我们使用了监管特征一致性得分23定义98个疾病相关的eQTL,其中eQTLs可能将同一变体标记为GWAS SNP(来自NHGRI目录242010年4月12日访问),并将其与934个对照eQTL进行比较。该分析基于75名欧洲个体的数据集,这些个体的基因型被归因于HapMap2,以及来自成纤维细胞、T细胞和LCL的阵列表达数据。25
A显示疾病eQTL在rSNV+等位基因的高频中富集,此时随机编码突变更有可能击中该单倍型,并可能增加外显率。这一趋势与eQTL总体上观察到的趋势相反,这表明不遵循进化优化的一般模式的变异更有可能导致疾病。此外,疾病风险等位基因通常是eQTL+等位基因或与之相关(21/30例有可用数据,χ2试验p=0.023,B) -虽然仅此模式(但不是A) 可能是由于表达水平增加本身是有害的。总之,这些结果表明,由于rSNV+等位基因的功能障碍,可能会导致调节性变体引起的疾病关联比例增加,因为它增加了连锁cSNV的外显率。然而,在60例CEU患者中,疾病相关基因和对照eQTL基因之间的编码变异模式没有显著差异(图S6). 我们希望,未来使用病例对照材料进行的研究将阐明,疾病风险的增加是否有时既不是因为基因表达水平的改变,也不是因为稀有cSNV本身的富集,而是因为它们之间的相互作用。表S3给出了高表达单倍型频率的疾病相关eQTL列表;这些将是搜索上位效应的最佳候选。
疾病相关eQTL的特性
滑动窗0.05(A)中对照eQTL的疾病相关eQTLs相对于衍生等位基因频率的百分比表明,疾病相关eqTL在频谱部分富集,上位性可能增加罕见编码变异体的外显率。垂直线表示平均百分比。(B) 显示了与疾病风险等位基因相关的eQTL等位基因;+和−表示高表达或低表达的等位基因。
总之,我们的研究说明了编码和顺式-调节性变体形成了人类基因组中的遗传变异谱。直接的相互作用原理概括了数据中观察到的许多现象,并为将来研究上位性在例如组织特异性中的作用奠定了基础25以及与复杂疾病的遗传关联。6, 7, 11在未来的研究中,我们希望,描述上位性种群遗传动力学的更精细模型将揭示种群之间的差异、上位性引起的遗传负荷以及进化平衡。26此外,这种类型的上位性可能导致孟德尔障碍的外显率不同,27其中罕见致病等位基因的外显率可以通过该基因的常见调控变体的个体基因型来修饰。在本研究中,我们重点研究了常见rSNV和罕见cSNV之间的相互作用,但积累的基因组和RNA测序数据将使我们能够分析罕见调控变异可能对罕见和常见编码变异产生的修饰效应。
总之,我们的结果表明,调控变异的功能效应通常超出基因表达水平,罕见编码变异的影响经常被调控变异所改变。这可能对理解遗传变异的功能性影响具有重要的实际意义,正如本研究所概述的那样,这种特定类型的遗传相互作用可以相对容易地从全基因组测序数据中检测出来。与调节性变体的表型关联很少导致表征表型下的表达差异,18我们的结果表明,这些信号中的一部分实际上可能不是由表达改变本身驱动的,而是由有害编码变异体的外显率增加驱动的。此外,目前正致力于从基因组或外显子组测序数据中发现功能缺失编码变体。到目前为止,这些数据很少与来自相关组织的RNA测序数据互补,以了解预测的功能效应实际上是如何在细胞下游通路和表型中表现出来的。未来,对调控和编码变异的综合分析将在表征人类表型变异的遗传源方面发挥重要作用。