人类基因表达变异的研究对mRNA水平自然变异的遗传基础产生了一些见解。特别是,基因表达水平和选择性剪接的许多变化是可遗传的三,4,而影响基因表达水平的多态性最常见于基因本身附近,尤其是转录起始位点附近5-7。
到目前为止,所有关于人类基因表达变异的研究都是使用微阵列进行的,通常使用一个或几个针对每个基因特定部分的探针来测量表达水平。相比之下,最近使用高通量测序平台开发的RNA测序(RNA-Seq)协议允许相对公正地测量转录物全长的表达水平8该技术有几个优点,包括能够检测未标记外显子的转录,测量总体和外显子特异性表达水平,以及检测等位基因特异性表达。
为了研究高分辨率转录水平的变化,我们对来自69名尼日利亚人的淋巴母细胞系(LCL)的RNA进行了测序,这些细胞系是作为国际HapMap项目的一部分产生的2具体而言,我们在Illumina Genome Analyzer 2平台的至少两个通道中,对从每个个体RNA的聚腺苷酸部分制备的互补DNA文库进行了测序,并使用MAQ v0.6.8将读取结果映射到人类基因组(参考文献。9). 总的来说,我们生成了35或46个碱基对(bp)的12亿个读取,其中9.64亿个读取是唯一映射到基因组或外显子-外显子边界的(补充材料和补充表1). 作为初始近似值,我们估计了基因的表达水平,即映射到其外显子(包括外显子-外显子边界)的所有测序读数的分数除以基因的“可映射”长度(补充材料). 我们的基因表达估计值和来自微阵列数据的估计值之间的Spearman相关性(对于我们的研究和之前使用外显子微阵列的研究中共同的53个细胞系10)范围为0.60至0.78(补充图3)。
虽然我们的主要目的是比较个体间的基因表达水平,但我们首先汇集所有数据来检查当前基因注释的完整性(补充图1). 这个9.64亿个唯一映射读取的汇集数据集代表了比以往任何RNA-Seq分析都要深一个数量级的组织测序覆盖率。在所有唯一映射到基因组的读码中,86%映射到已知外显子。我们检查了注释外显子外的转录区域的保守性,以丰富那些具有真正功能转录的区域(补充材料和补充图5). 总的来说,根据对28个脊椎动物基因组的比对分析,目前尚未注释的基因组4031个区域显示出转录的证据,并且重叠了高度保守的区域11(我们将“未注释”定义为Ensembl、UCSC、Vega和Refseq数据库中的基因模型中没有。)接下来,我们使用序列读取来检查这些区域是否存在剪接到已知外显子或其他未注释转录区域的证据。我们确定了992个区域(占总数的24%),这些区域有证据表明它们是拼接转录物的一部分。其中大多数(696)拼接到已知转录物上,表明它们是已知基因的未标记外显子(补充材料和补充图6). 在大多数情况下,与已知基因拼接的新外显子的物理位置表明,它们可能是未翻译区域,而不是新的蛋白质编码外显子。接下来,我们通过测试非同义到同义替代率(同义替换率),检查了与蛋白质编码功能一致的完整表达保守区域的保守模式d日N个/d日S公司比率)。我们鉴定了115个外显子,有强有力的证据表明它们是蛋白质编码的(错误发现率(FDR)为1%)。这种外显子的一个例子如,显示转录因子中先前未标记的蛋白编码外显子ZSWIM4系列(d日N个/d日S公司似然比298;P(P)< 1 × 10−7). 总的来说,这些结果表明,与蛋白质编码外显子相比,非翻译区(UTR)在当前数据库中的注释相对较差。
用RNA-Seq注释基因一,RNA-Seq识别的新蛋白编码外显子示例。LR,似然比。对于窗口中的每个基数,我们绘制数据中覆盖的平均速率。浅蓝色表示在Ensembl中注释为外显子的碱基,黑色表示非外显子碱基。在基因模型中,蓝框代表Ensembl的注释外显子,黑线代表注释内含子。红色是推断出的新蛋白编码外显子的位置。线表示根据RNA-Seq数据预测并由五个以上测序读数支持的拼接连接位置;红色表示当前数据库中没有的数据。每个交叉点下方是支持交叉点的排序读取数。b条新外显子比注释外显子更具组织特异性。对于每个外显子,我们估计了在之前分析的每个组织中观察到的新外显子或注释外显子的分数12以及黑猩猩LCL(红色)。灰线代表了如果注释外显子和未注释外显基因以相同的速率被观察到的结果。AD,脂肪;BR,脑;BS,乳房;BT,BT细胞系;CO,结肠;HM、HME细胞系;HR,心脏;淋巴结;LV,肝脏;SK,骨骼肌;TS、睾丸。数据是外显子在人类LCL中的平均表达率在0.1到0.3读/百万之间;有关其他表达率,请参见补充图7。c(c),RNA-Seq识别的新聚腺苷化位点示例。标记为一。红线表示识别为源自poly-A尾部的读取位置。灰色线表示预测的解理位置。d日,CPSF的结合位点在预测的聚腺苷化位点上游富集。我们根据预测的多聚腺苷化裂解位点与注释的裂解位点的接近程度将其分为不同类别(至少有两个测序读数支持)。对于每个位点,我们提取了上游50个碱基,并为每个位置绘制了与公认的AATAAA六聚体匹配的序列分数。
我们寻找进一步的证据证明,这些4031个未标记的转录区域确实是真正的外显子。为此,我们检测了来自几个人体组织的RNA-Seq数据集中这些区域的表达12以及来自黑猩猩LCL的数据集(a.a.P.和Y.G.,未公开的数据)。我们发现,在黑猩猩LCL中观察到假定外显子的比率与注释外显子几乎相同(总的来说,84%的假定新外显子也在黑猩猩的LCL中发现)。然而,除了淋巴结和乳腺组织外,这些区域在不同人体组织中的检出率低于注释外显子(和补充图7). 我们将其解释为这些区域的转录确实是保守的,但比以前注释的外显子的转录更具组织特异性,这为它们在当前基因注释中的缺失提供了部分解释。
我们使用7000万个未映射到基因组的序列读取,通过识别以一串As或Ts结尾的读取,从而发现新的多聚腺苷酸裂解位点,这些读取可能起源于多聚A尾部(补充材料). 使用这种方法,我们鉴定了7926个由一个以上序列读取支持的推定切割位点;其中45%位于带注释的解理位点的10个碱基内。为了测试这些预测的切割位点是否代表真实的位点,我们计算了六聚体AATAAA(CPSF多腺苷酸化因子的结合位点)在预测位点上游50个碱基中的分布(该六聚体存在于大多数已知多腺苷酸化切割位点上游10至30个碱基之间13). 该六聚体在我们预测的位置上游15到30个碱基之间富集了32倍(补充图8). 无论预测与所有已知解理位点的距离如何,都存在这种六聚体的富集(). 我们定义了一组3481个高置信切割位点,这些位点由多个测序读数支持,并且包含与CPSF六聚体的上游匹配。与下游碱基相比,这些位点上游碱基的中位RNA-Seq读取深度显著增加,支持这一论点,即这些碱基代表真正的裂解位点(补充图9). 在CPSF基序富集的基础上,我们估计最远距离位点的FDR为13%(252个预测从已知的解理位点下降超过500个碱基,并且与CPSF结合位点相匹配)(补充材料). 在许多情况下,确定的解理位点位于注释解理位点下游数百个碱基;例如,在我们发现该基因中使用了一个多聚腺苷酸裂解位点DYNLL2公司位于基因注释末端以外约2千碱基(kb)处,导致3′UTR延长。因为UTR包含重要的监管元素14和3′UTR长度受到精确的监管控制15,16,我们认为在这些细胞系中广泛使用未标记的UTR在基因调控中具有功能重要性。
接下来,我们转向识别影响先前注释基因和未注释外显子表达水平的多态性(补充图2). 现在很清楚,RNA-Seq基因表达水平的测量值与广泛动态范围内的绝对表达水平测量值(如定量PCR分析)相关12,17,18,表明读取计数可以单独用于评估样本之间的差异表达,而无需进行大量处理8然而,我们发现可以通过一系列标准化和校正步骤来提高检测eQTL的能力(补充材料). 具体来说,我们对GC含量等技术混淆因素引入的噪音进行了明确的校正(补充材料和补充图12)以及使用主成分分析(PCA)进行校正,该分析解释了未测量的混杂因素19,20。
对于每个基因,我们评估了总基因表达水平(归一化后)与全基因组380万个单核苷酸多态性(SNP)之间的关联(使用HapMap项目第二和第三阶段的基因型)。与以前的报告一致6,21,几乎所有具有强关联信号的SNP都位于相应基因附近(补充材料). 然后,我们重点研究了每个基因两侧跨度为200 kb的候选区域中的SNP。基因水平FDR为10%(对应于P(P)= 2.4 × 10−5)共有929个基因或推测的新外显子具有“局部”eQTL(200 kb以内),占注释基因的4.6%,推测的新内显子的2.3%。RNA-Seq数据能够可视化SNP对整个基因的影响;作为示例,我们在中显示eQTL影响基因表达水平的证据TSP50型(也称为减贫战略50). 与以前的报告一致7我们发现,影响基因整体表达水平的SNP往往与该基因非常接近;我们估计,影响基因表达水平的90%的SNPs位于该基因的15kb范围内(补充图13)。
影响基因表达水平的位点一,表示eQTL的RNA-Seq数据示例。Plotted是窗口周围每个基数的平均速率TSP50型在我们的数据中进行了排序。为了计算这一点,我们根据rs7639979的基因型对个体进行分层。小组根据基因型进行标记,并在括号内标注个体数量。Ensembl已知外显子重叠的碱基为蓝色;非离子底座为黑色。在下面的基因模型中,Ensembl的外显子用蓝框标记,内含子用红线标记;该基因的转录来自负链。b条,eQTL的等位基因特异性表达。对于每个eQTL,我们确定了所有同时具有杂合外显子SNP的杂合个体,并使用β-二项式模型估计了来自高表达(“1”)单倍型的读取分数(补充材料). 绘制的是估计平均值的直方图;黑线为0.5,即null下的预期分数。c(c),两种方法估算的效应大小之间的相关性。对于我们也有等位基因特异表达信息的每个eQTL,我们通过eQTL-研究和等位基因特异性表达研究来估计等位基因效应大小(补充材料). 这些估计在统计上是独立的。为每个基因绘制的图是从高表达单倍型测序读取的估计部分与从eQTL效应大小预测的部分。红色是最适合的回归线,灰色是一个完美的相关性。
我们使用表达微阵列评估了我们的结果是否复制了先前在这些样本中鉴定的eQTL。为此,我们使用了我们的数据集和使用Affymetrix外显子微阵列收集的数据集中53个个体的子集的基因表达数据10在使用阵列数据以10%的FDR确定为eQTL的138个SNP中,70%达到标称显著性(P(P)<0.05,单侧检验),绝大多数(93%)显示出相同的趋势(补充图14). 我们进一步比较了本研究中确定的eQTL与在欧洲人群中使用RNA-Seq确定的eqTL22; 在欧洲样本中发现的前500个关联中,尼日利亚样本中显著eQTL的富集倍数为10-40倍(补充材料和补充图16). 综上所述,这些结果表明,我们所鉴定的eQTL确实是由于可复制的遗传效应。
接下来我们考虑了eQTL的作用机制。术语“顺式-eQTL’已被用于描述基因和邻近多态性之间的关联5,7,21然而,这一术语表明了一种由等位基因特异性表达引起的机制,而这种机制以前只能通过独立实验来检验23,24然而,相同的RNA-Seq数据可用于检测eQTL和分析等位基因特异性表达。我们使用测序读取来确定eQTL的杂合子是否显示出两个等位基因表达水平的差异,使用阶段性HapMap数据将单倍型分类为携带与低表达或高表达水平相关的等位基因。929个假定基因中顺式-eQTL,222包含信息性外显子SNPs。利用这些SNP,我们将单个序列读取分为源于低表达或高表达单倍型。在这些基因中,88%的高表达单倍型的读数比例大于0.5(P(P)< 2 × 10−16,二项检验;),直接证明了局部eQTL通常通过等位基因特异性机制发挥作用,即调节顺式-监管要素。对这种机制的进一步支持来自这样的观察,即测序读取的高表达单倍型片段(仅在杂合子中)与eQTL的强度相关(第页= 0.52,P(P)< 2 × 10−16;). 对于阅读深度最大的基因,等位基因效应的两个独立估计的相关性最高,因此对预测的效应大小最有信心(补充图17)。
最后,我们转向识别影响转录亚型水平调节的SNP(补充图2). 对于每个基因的每个外显子,我们将映射到该外显子的读取部分(基因中所有读取的部分)视为一个数量性状。这个总结有效地控制了样本中基因表达水平的变化。然后,我们对这些部分进行线性回归(在对混杂变量进行归一化和校正后),以对照该基因200kb内的所有多态性。在10%的FDR下,我们发现了187个具有显著关联的基因,表明存在假定的剪接QTL(sQTL)。示例如所示,其中一个SNP位于办公自动化系统1影响该外显子的包含。利用RNA-Seq数据,我们可以精确推断该剪接信号中断的影响。在这种情况下,3′剪接位点的破坏导致两种替代亚型的上调,一种亚型使用SNP上游存在的一个隐秘的3′剪合位点,另一种完全排除最终外显子并终止于上游多聚腺苷化位点()。
影响亚型表达的位点一,表示sQTL的RNA-Seq数据示例。标绘是在围绕末端两个外显子的窗口中每个碱基的平均比率办公自动化系统1在我们的数据中排序;根据rs10774671基因型对个体进行分层。标签和颜色如每个图的下方是根据RNA-Seq数据推断的拼接连接位置(补充材料); 红色表示当前数据库中没有的数据。下图是来自RefSeq和Ensembl数据库的基因模型,以及推断的未注释转录本。带注释的外显子为蓝色,未带注释的内显子为灰色,内含子为黑色。个人成绩单编号以供参考b.b类,中数据基础转录本的推断模型一我们绘制了基因模型,这些基因模型是根据携带G或A等位基因rs10444671的单倍型转录物的剪接推断出来的。基因模型根据一显示了潜在的3′剪接位点(SS)和聚腺苷酸化位点(P)的位置。使用每个成绩单的绿色站点,未使用灰色站点;红色“X”表示被SNP破坏的剪接位点。c(c),函数类中sQTL的丰富。我们使用贝叶斯层次模型估计了不同功能类别的SNP影响外显子剪接的几率(补充材料). 绘制的是每个注释的对数比值比(相对于非拼接位点内含子SNP)的最大似然估计值,以及95%的置信区间。拼接位点注释包含U1 snRNP和U2AF拼接因子的完整结合位点25; 有关仅限于拼接位点的典型两个碱基的分析,请参见补充图19。拼接站点注释的95%置信区间扩展到20以上,但出于显示目的已被截断。
我们提出,正如前面描述的例子一样,许多这些关联的机制通过剪接机制的破坏发挥作用。为了测试这一点,我们扩展了以前使用的贝叶斯层次模型7包括外显子特异性效应(补充材料). 该模型允许我们估计不同类型SNP影响剪接的比值比。首先,我们考虑了U1小核核糖核蛋白(snRNP)和U2AF剪接因子的结合位点(其中典型剪接位点是其中的一部分25); 我们发现,相对于非剪接位点内含子SNP,这些结合位点的SNP在sQTL中高度富集(对数比值比为7;95%置信区间[4.5,>20];). 我们考虑了仅剪接位点的典型2 bp内的SNP是否对sQTL富集;我们发现它们是(对数比值比为10.5;95%置信区间[3.8,>20];补充图18和19)与之前使用外显子微阵列的研究相比26此外,剪接外显子本身内的SNP在sQTL中也显著富集,正如预期的那样,非基因SNP在s QTL之间显著低表达()。
总之,我们的结果证明了RNA-Seq数据在基因组注释和分析个体剪接和表达水平变化方面的能力。使用微阵列对基因表达变化的研究为深入了解与疾病相关的基因座的作用机制提供了线索26,27; 检测剪接变异和识别RNA-Seq提供的新转录物的灵敏度的提高将大大增强这些努力。