跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
Am J Hum基因。2011年9月9日;89(3): 459–463.
doi(操作界面):2016年10月10日/j.ajhg.2011.08.004
预防性维修识别码:项目经理3169828
PMID:21907014

人类进化和疾病中编码和调控变异的上位选择

关联数据

补充资料

摘要

遗传变异之间的相互作用(非加性效应)已被强调为表型变异的一个重要机制,但人类遗传相互作用的发现已被证明是困难的。在这项研究中,我们表明人类基因组中的变异谱是由顺式-对可能有害的蛋白编码变体的功能影响的调控变异。我们分析了来自欧洲(CEU【来自CEPH收集的具有北欧和西欧血统的犹他州居民】)和非洲(YRI【尼日利亚伊巴丹的约鲁巴】)的1000个基因组人群规模的重测序数据,以及来自相同样本的阵列和RNA测序的基因表达数据。我们观察到,在更高表达的调控单倍型上,衍生的假定功能编码变异的代表性不足,这意味着对有害编码变异有更强的净化选择,这些变异因其调控背景而增加外显率。此外,常见调控多态性(eQTL)的频谱和影响大小分布似乎是为了最小化在更高表达的单倍型上存在有害编码突变的选择性劣势。有趣的是,解释常见疾病GWAS信号的eQTL显示了假定上位性效应的丰富,这表明一些疾病关联可能是由于相互作用增加了罕见编码变异体的外显率。总之,我们的结果表明,调控和编码变体经常会相互修改功能影响。这种特定类型的遗传相互作用可以从测序数据中以全基因组的方式检测到,表征这些联合效应可能有助于我们理解遗传关联与人类表型(包括孟德尔病和常见病)背后的功能机制。

主要文本

遗传变异可能具有联合的、非加性的功能效应,1–4但对人类常见变异之间的这种上位性进行表征已被证明是困难的,而未检测到的上位性仍是常见遗传变异解释的复杂性状遗传率低的一个潜在原因。5–10除了基因-基因相互作用外,连锁位点也可能具有上位性效应,11–14一种可能的机制是同一基因的调控和编码变体之间的相互作用。15,16这些相互作用的潜在目标非常丰富:顺式-监管变化很常见17–19据估计,仅在单个组织中,个体内至少有20%的蛋白质编码变异受到影响。16,20在这项研究中,我们分析了一种特定但可能丰富的上位性类型的群体遗传特征:常见顺式-调节性变异改变了罕见的有害编码变异的外显率。我们的结果表明,这种相互作用是常见的,并可能导致复杂疾病的遗传倾向。

监管变化顺式可能通过等位基因不平衡影响同一基因有害编码变体的外显率:在调节性和编码性单核苷酸变体(rSNV和cSNV)杂合的个体中,如果有害编码等位基因比其他等位基因表达更高,则可能产生更严重的表型结果。这可能使编码杂合子在功能上接近有害纯合子(图1A) ●●●●。在这种情况下,调控变异会修改有害编码变异的功能影响和选择系数,这可能也会对调控变异的选择系数产生次要影响,即使基因表达水平本身的变化不会影响适应度。重要的是,一个罕见的有害cSNV等位基因是否存在于一个基因中高表达或低表达的单倍型上顺式-调节变异不是完全随机的:一个新的编码突变落在特定单倍型上的概率等于单倍型频率。总之,这些现象可以形成调控和编码变异的模式,在本文中,我们表明这些特定模式在人类基因组中是常见的。

保存图片、插图等的外部文件。对象名称为gr1.jpg

调控变异与编码变异的上位性模型

在基因中,编码变异野生型(cSNV)的功能效应w个)和突变型(cSNV)通过与调节性变体(rSNV+和rSNV-)的高表达或低表达等位基因连锁,等位基因可以发生显著变化(a)。将这种上位性效应与cSNV在每个rSNV单倍型上给出了一个上位性模型,其中平均群体适合度随rSNV频率(B)的变化而变化。在这个模型中,上位选择改变了双杂合子的适合性:w[cSNVw个rSNV+/cSNVrSNV−]=1−(1−)小时,和w[cSNVw个rSNV−/cSNVrSNV+]=1−[+ (1 −)小时],其中表示等位基因失衡的程度,是选择系数,以及小时是m等位基因的显性。等位基因频率基于Hardy-Weinberg平衡和额外的新突变cSNVw个cSNV公司以频率概率命中rSNV+和rSNV-单倍型μ.这里,我们使用了参数μ=10−4s=0.8,h=0.4,i=0.9或i=0。请参见表S1了解详细信息。

我们分析了1000基因组项目试点1和试点2(2010年3月发布)的低覆盖率重测序数据中发现的遗传变异,这些数据来自60个欧洲血统样本(CEU[具有北欧和西欧血统的犹他州居民])和58个尼日利亚约鲁巴人个体(YRI[尼日利亚伊巴丹的约鲁巴])。21这项研究得到了科里尔医学研究所和日内瓦大学医院机构审查委员会的批准。为了分析常见的调控变异,我们在顺式利用57个CEU和56个YRI个体转化淋巴母细胞系的基因表达阵列数据,以及MAF>5%和转录起始点小于1Mb的SNP,通过Spearman秩相关,使用0.01的排列阈值20在CEU和YRI中共产生了433个eQTL,其中包含祖先等位基因信息(由1000基因组联盟提供)和446个eQtl(错误发现率为25%)。我们分别指定高表达和低表达的rSNV等位基因rSNV+和rSNV−,并根据衍生等位基因的影响对获得表达(GOE)和失去表达(LOE)变体中的eQTL进行分类。我们没有针对全基因组的所有变异进行统计上位性测试,而是分析了我们的数据,以了解由我们的局部上位性模型预测的特定变异模式。

上位性模型预测,当衍生cSNV等位基因位于cSNV-rSNV双杂合子中更高表达的单倍型上时,有害cSNV的外显率增加。这些病例最有可能发生在rSNV具有高杂合度,并且新的假定有害编码突变击中rSNV+等位基因时,也就是说,在具有高rSNV+等位基因频率的普通rSNV中。这些rSNV可能受到更多的净化选择(图1B) ●●●●。我们在eQTL的频率分布中观察到与此一致的信号:GOE eQTLs的衍生等位基因频率(DAF)显著低于LOE eQTLs(图2; DAF公司GOE公司与DAF对比LOE公司Mann-Whitney p=0.0092(CEU)和p=0.026(YRI),即rSNV+等位基因在常见调控变异体中的频率较低,与上位选择一致。对此模式的另一种解释是,基因表达水平的增加通常更有害,但GOE rSNV的比例应该朝着较低rSNV频率呈指数增长。由于eQTL分析没有捕捉到罕见的调控变异,我们通过分析60例CEU个体的RNA测序数据中的等位基因特异表达(ASE)来研究是否可以观察到这种模式。22通过使用带有罕见ASE的编码变异体的频率来预测哪些cSNV等位基因与未知推测罕见rSNV的衍生等位基因相关(图S1,在线获取),我们估计78±12%(线性回归p=2.1×10−10)在罕见的rSNV中,有一种是表达缺失变体(图S2). 总之,尽管DAF为5%–50%的常见调控变异主要是GOE,但罕见的rSNV以及DAF>50%的常见变异似乎通常是LOE。这与通常更有害的表达增益不一致,并且遵循上位性模型的预测(图1B) ●●●●。

保存图片、插图等的外部文件。对象名称为gr2.jpg

eQTL的频率分布

在具有5个SNPs重叠的80个SNPs的滑动窗口中,表达增益eQTL相对于衍生等位基因频率的比例;这表明高表达的等位基因往往频率较低(CEU为p=0.0092,YRI为p=0.026)。

此外,我们分析了eQTL折叠变化的分布(计算为主要纯合子和杂合子eQTL-基因型类别的中位数表达值的比值),这描述了eQTL杂合子中假定cSNV等位基因不平衡的程度和上位性效应。我们观察到,特别是在CEU中,rSNV−等位基因频率较高的常见eQTL往往具有较高的倍数变化(图S3). 这些eQTL可能具有rSNV−单倍型上发生的大多数编码突变,因此受益于上位性:等位基因失衡越大,这些cSNV的外显率越低。相反,rSNV+频率高的eQTL的强上位性效应更可能是不利的,这与它们的低倍变化一致。因此,上位效应似乎不仅塑造了调控变异的频谱,而且也塑造了其效应大小的分布。

编码变异的模式也会受到上位性的影响。从更高表达的单倍型中增加对有害cSNV等位基因的纯化可能导致可能有害的cSNV和中性cSNV在调节单倍型上的不同分布。为了研究这一点,我们比较了非同义SNV和同义SNVs(分别是nsSNV和sSNVs),期望前者显示出与rSNV相互作用的更强迹象。首先,上位性倾向于某些单倍型组合而非其他组合,这可能会增加整体连锁不平衡(LD)。事实上,eQTL和nsSNV之间的LD比sSNV更强(图3A和3B以及图S6; CEU和YRI的Mann-Whitney p值对于D′为0.012和0.008,对于r为0.002和0.0782)。这与我们之前基于60名CEU个体RNA测序数据的结果一致。20其次,我们研究了这种LD模式是否可能是由在更高表达的单倍型上假定有害编码等位基因的表达不足引起的。来自同一RNA测序数据集的等位基因特异表达(ASE)数据分析22结果表明,nsSNV的比例高于sSNV,表明衍生等位基因的表达降低(图3C类;根据线性回归模型,总体sSNV-nsSNV差异p=0.035,DAF<0.15的cSNV的Fisher精确检验p=0.046,另见图S1和S2). 这一分析不太可能有偏见,因为nsSNV本身被认为是更常见的因果调节变体,因为这样的自动调节机制不太可能导致等位基因失衡,我们观察到ASE在sSNV和nsSNV中的发生率几乎相等。20此外,在CEU的单倍型相eQTL数据(来自2010年7月发布的1000个基因组)中,高表达单倍型携带的nsSNV衍生等位基因明显少于sSNV(Fisher精确检验p=2×10−4,表S2). 这些结果表明,上位选择导致在更高表达的调节单倍型上缺乏有害的编码变异。此外,我们研究了上位性是否也会影响具有调控变异的基因中编码变异的总数,并观察到eQTL基因中cSNV的数量减少(Mann-Whitney p<2.2×10−16在CEU中,p=6.4×10−3在YRI中;图S3)重要的是,当rSNV+等位基因普遍存在时,CEU中的下降幅度更大;这表明上位性可能使编码变异体暴露于选择,并导致增加净化选择。

保存图片、插图等的外部文件。对象名称为gr3.jpg

编码变异中的上位信号

CEU(A)和YRI(B)中eQTL与sSNV或nsSNV之间的连锁不平衡(D′)。将sSNV采样到nsSNV的衍生等位基因频率分布,数字表示sSNV−nsSNV比较的p值。在(C)中,使用CEU的等位基因特异性表达数据分析编码变异体(cSNV−DER)衍生等位基因的高表达频率;该图显示了400个SNP滑动窗口中的中位数,重叠部分为50。sSNVs和nsSNVs变异体之间的差异(p=0.0035)表明,选择与低频nsSNV潜在有害衍生等位基因表达增加相对应。总体下降趋势可能是因为ASE效应背后的假定监管变量通常是表达缺失变量(参见图S1和S2).

最后,我们询问上位性效应是否在复杂疾病的遗传易感性中发挥作用,在更高表达的单倍型上富集有害等位基因可能增加疾病风险。为此,我们使用了监管特征一致性得分23定义98个疾病相关的eQTL,其中eQTLs可能将同一变体标记为GWAS SNP(来自NHGRI目录242010年4月12日访问),并将其与934个对照eQTL进行比较。该分析基于75名欧洲个体的数据集,这些个体的基因型被归因于HapMap2,以及来自成纤维细胞、T细胞和LCL的阵列表达数据。25 图4A显示疾病eQTL在rSNV+等位基因的高频中富集,此时随机编码突变更有可能击中该单倍型,并可能增加外显率。这一趋势与eQTL总体上观察到的趋势相反,这表明不遵循进化优化的一般模式的变异更有可能导致疾病。此外,疾病风险等位基因通常是eQTL+等位基因或与之相关(21/30例有可用数据,χ2试验p=0.023,图4B) -虽然仅此模式(但不是图4A) 可能是由于表达水平增加本身是有害的。总之,这些结果表明,由于rSNV+等位基因的功能障碍,可能会导致调节性变体引起的疾病关联比例增加,因为它增加了连锁cSNV的外显率。然而,在60例CEU患者中,疾病相关基因和对照eQTL基因之间的编码变异模式没有显著差异(图S6). 我们希望,未来使用病例对照材料进行的研究将阐明,疾病风险的增加是否有时既不是因为基因表达水平的改变,也不是因为稀有cSNV本身的富集,而是因为它们之间的相互作用。表S3给出了高表达单倍型频率的疾病相关eQTL列表;这些将是搜索上位效应的最佳候选。

保存图片、插图等的外部文件。对象名称为gr4.jpg

疾病相关eQTL的特性

滑动窗0.05(A)中对照eQTL的疾病相关eQTLs相对于衍生等位基因频率的百分比表明,疾病相关eqTL在频谱部分富集,上位性可能增加罕见编码变异体的外显率。垂直线表示平均百分比。(B) 显示了与疾病风险等位基因相关的eQTL等位基因;+和−表示高表达或低表达的等位基因。

总之,我们的研究说明了编码和顺式-调节性变体形成了人类基因组中的遗传变异谱。直接的相互作用原理概括了数据中观察到的许多现象,并为将来研究上位性在例如组织特异性中的作用奠定了基础25以及与复杂疾病的遗传关联。6, 7, 11在未来的研究中,我们希望,描述上位性种群遗传动力学的更精细模型将揭示种群之间的差异、上位性引起的遗传负荷以及进化平衡。26此外,这种类型的上位性可能导致孟德尔障碍的外显率不同,27其中罕见致病等位基因的外显率可以通过该基因的常见调控变体的个体基因型来修饰。在本研究中,我们重点研究了常见rSNV和罕见cSNV之间的相互作用,但积累的基因组和RNA测序数据将使我们能够分析罕见调控变异可能对罕见和常见编码变异产生的修饰效应。

总之,我们的结果表明,调控变异的功能效应通常超出基因表达水平,罕见编码变异的影响经常被调控变异所改变。这可能对理解遗传变异的功能性影响具有重要的实际意义,正如本研究所概述的那样,这种特定类型的遗传相互作用可以相对容易地从全基因组测序数据中检测出来。与调节性变体的表型关联很少导致表征表型下的表达差异,18我们的结果表明,这些信号中的一部分实际上可能不是由表达改变本身驱动的,而是由有害编码变异体的外显率增加驱动的。此外,目前正致力于从基因组或外显子组测序数据中发现功能缺失编码变体。到目前为止,这些数据很少与来自相关组织的RNA测序数据互补,以了解预测的功能效应实际上是如何在细胞下游通路和表型中表现出来的。未来,对调控和编码变异的综合分析将在表征人类表型变异的遗传源方面发挥重要作用。

致谢

本研究的资金由路易斯·杰安特基金会、瑞士国家科学基金会和国家遗传学研究前沿能力中心(瑞士国家科学基础)提供给E.T.D.T.L.,该资金由芬兰科学院和埃米尔·阿尔顿基金会提供。我们要感谢Vital-IT.ch对计算机资源的管理,感谢Alfonso Buil和Eugenia Migliavacca对分析的帮助。

补充数据

文件S1。六图三表:
单击此处查看。(527K,pdf)

工具书类

1Phillips P.C.上位论——基因相互作用在遗传系统结构和进化中的重要作用。国家版次。基因。2008;9:855–867. [PMC免费文章][公共医学][谷歌学者]
2.Carlborg O.、Jacobsson L.、Ahgren P.、Siegel P.、Andersson L.长期选择期间的表观和遗传变异的释放。自然遗传学。2006;38:418–420.[公共医学][谷歌学者]
三。Zhu J.、Zhang B.、Smith E.N.、Drees B.、Brem R.B.、Kruglyak L.、Bumgarner R.E.、Schadt E.E.整合大规模功能基因组数据以剖析酵母调控网络的复杂性。自然遗传学。2008;40:854–861. [PMC免费文章][公共医学][谷歌学者]
4Lehner B.、Crombie C.、Tischler J.、Fortunato A.、Fraser A.G.秀丽隐杆线虫遗传相互作用的系统定位确定了多种信号通路的常见修饰物。自然遗传学。2006;38:896–903.[公共医学][谷歌学者]
5Moore J.H.、Williams S.M.Epistasis及其对个人遗传学的影响。Am.J.Hum.遗传学。2009;85:309–320. [PMC免费文章][公共医学][谷歌学者]
6Eichler E.E.、Flint J.、Gibson G.、Kong A.、Leal S.M.、Moore J.H.、Nadeu J.H.缺失遗传性和寻找复杂疾病潜在原因的策略。Nat.Rev.基因。2010;11:446–450. [PMC免费文章][公共医学][谷歌学者]
7Manolio T.A.、Collins F.S.、Cox N.J.、Goldstein D.B.、Hindorff L.A.、Hunter D.J.、McCarthy M.I.、Ramos E.M.、Cardon L.R.、Chakravarti A.发现复杂疾病的缺失遗传性。自然。2009;461:747–753. [PMC免费文章][公共医学][谷歌学者]
8Clayton D.G.复杂疾病遗传学中的预测和相互作用:1型糖尿病的经验。公共科学图书馆-遗传学。2009;5:e1000540。 [PMC免费文章][公共医学][谷歌学者]
9Cordell H.J.检测人类疾病背后的基因-基因相互作用。Nat.Rev.基因。2009;10:392–404. [PMC免费文章][公共医学][谷歌学者]
10Marchini J.,Donnelly P.,Cardon L.R.检测影响复杂疾病的多个基因座的全基因组策略。自然遗传学。2005;37:413–417.[公共医学][谷歌学者]
11黑格D.连锁SNP之间的上位性隐藏了遗传性吗?《欧洲遗传学杂志》。2011;19:123. [PMC免费文章][公共医学][谷歌学者]
12Gregersen J.W.、Kranc K.R.、Ke X.、Svendsen P.、Madsen L.S.、Thomsen A.R.、Cardon L.R.、Bell J.I.、Fugger L.与多发性硬化症相关的常见MHC单倍型的功能性上位。自然。2006;443:574–577.[公共医学][谷歌学者]
13Bickel R.D.、Kopp A.、Nuzhdin S.V.多个调控元件附近多态性的复合效应产生了一个主要效应QTL。公共科学图书馆-遗传学。2011;7:e1001275。 [PMC免费文章][公共医学][谷歌学者]
14Stam L.F.,Laurie C.C.一个主要基因对数量性状的影响的分子解剖:果蝇体内乙醇脱氢酶的表达水平。遗传学。1996;144:1559–1564. [PMC免费文章][公共医学][谷歌学者]
15Emison E.S.、Garcia-Barcelo M.、Grice E.A.、Lantieri F.、Amiel J.、Burzynski G.、Fernandez R.M.、Hao L.、Kashuk C.、West K.罕见和常见、编码和非编码Ret突变对多因素先天性巨结肠疾病易感性的差异贡献。Am.J.Hum.遗传学。2010;87:60–74. [PMC免费文章][公共医学][谷歌学者]
16Dimas A.S.、Stranger B.E.、Beazley C.、Finn R.D.、Ingle C.E.、Forrest M.S.、Ritchie M.E.、Deloukas P.、TavaréS.、Dermitzakis E.T.调节和蛋白质编码变异之间的调节效应。公共科学图书馆-遗传学。2008;4:e1000244。 [PMC免费文章][公共医学][谷歌学者]
17Cheung V.G.,Spielman R.S.人类基因表达遗传学:绘制影响基因表达的DNA变体。Nat.Rev.基因。2009;10:595–604. [PMC免费文章][公共医学][谷歌学者]
18Montgomery S.B.,Dermitzakis E.T.从表达QTL到个性化转录组学。Genet国家牧师。2011;12:277–282.[公共医学][谷歌学者]
19Majewski J.,Pastinen T.通过RNA-seq对eQTL变异的研究:从SNP到表型。趋势Genet。2011;27:72–79.[公共医学][谷歌学者]
20.Montgomery S.B.、Lappalainen T.、Gutierrez-Arcelus M.、Dermitzakis E.T.人群规模测序人类基因组中罕见且常见的调控变异。公共科学图书馆-遗传学。2011;7:e1002144。 [PMC免费文章][公共医学][谷歌学者]
21Durbin R.M.、Abecasis G.R.、Altshuler D.L.、Auton A.、Brooks L.D.、Gibbs R.A.、Hurles M.E.、McVean G.A.,1000基因组项目联盟人口规模测序的人类基因组变异图。自然。2010;467:1061–1073. [PMC免费文章][公共医学][谷歌学者]
22Montgomery S.B.、Sammeth M.、Gutierrez-Arcelus M.、Lach R.P.、Ingle C.、Nisbett J.、Guigo R.、Dermitzakis E.T.在高加索人群中使用第二代测序的转录组遗传学。自然。2010;464:773–777. [PMC免费文章][公共医学][谷歌学者]
23Nica A.C.、Montgomery S.B.、Dimas A.S.、Stranger B.E.、Beazley C.、Barroso I.、Dermitzakis E.T.通过整合具有复杂性状遗传关联的表达QTL的候选因果调节效应。公共科学图书馆-遗传学。2010;6:e1000895。 [PMC免费文章][公共医学][谷歌学者]
24.Hindorff,L.A.、Junkins,H.A.、Hall,P.N.、Mehta,J.P.和Manolio,T.A.(2010年)。已发表的全基因组关联研究目录。www.genome.gov/gwastudies网站.
25Dimas A.S.、Deutsch S.、Stranger B.E.、Montgomery S.B.、Borel C.、Attar-Cohen H.、Ingle C.、Beazley C.、Gutierrez Arcelus M.、Sekowska M.常见的调控变异以细胞类型依赖的方式影响基因表达。科学。2009;325:1246–1250. [PMC免费文章][公共医学][谷歌学者]
26Weinreich D.M.、Watson R.A.和Chao L.观点:进化轨迹上的符号上位性和遗传约束。进化。2005;59:1165–1174.[公共医学][谷歌学者]
27Van Heyningen V.,Yeyati P.L.遗传病中的非孟德尔遗传机制。嗯,摩尔基因。2004;13(规范编号2):R225–R233。[公共医学][谷歌学者]

文章来自美国人类遗传学杂志由以下人员提供美国人类遗传学学会