跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
自然。作者手稿;PMC 2013年11月21日提供。
以最终编辑形式发布为:
预防性维修识别码:PMC3836232型
EMSID:EMS54207标准
采购管理信息:20220756

在白人人群中使用第二代测序的转录组遗传学

摘要

基因表达是一种重要的表型,它揭示了基因和环境对细胞状态的影响。许多研究已经使用定制和商用微阵列确定了基因表达表型的遗传变异1-5第二代测序技术现在提供了前所未有的对转录组精细结构的访问6-14我们对60名CEU患者的转录组mRNA部分进行了测序,并将这些数据与HapMap3项目的遗传变异相结合15我们已经根据阅读深度量化了外显子丰度,还开发了量化整个转录物丰度的方法。我们发现,大约1000万次测序读取可以提供与阵列相同的动态范围,从而更好地量化替代和高度丰富的转录物。与SNP相关导致eQTL的发现量大于与阵列的发现量。我们还检测到大量影响成熟转录物结构的变异体,表明变异体负责选择性剪接。最后,等位基因特异性表达的测量可以识别罕见的eQTL和转录结构中的等位基因差异。该分析表明,高通量测序技术揭示了转录组遗传效应的新特性,并允许探索细胞过程中的遗传效应。

基因表达的遗传变异是人类表型变异的重要决定因素;许多研究阐明了全基因组遗传力和群体分化模式,并开始揭示基因表达在疾病病因中的作用1-5微阵列的使用极大地促进了对这些研究中转录组的查询,微阵列通过杂交来量化转录物丰度。然而,微阵列具有一些局限性,第二代测序平台中转录组测序的最新进展现在提供了基因表达的单核苷酸分辨率,提供了获取罕见转录物的途径,更准确地量化大量转录物(高于阵列的信号饱和点),新的基因结构、选择性剪接和等位基因特异表达6-14虽然RNA-Seq研究已经解决了转录复杂度的问题,但尚未解决遗传研究如何从这种提高的分辨率中获益,以揭示序列变异对转录组的新影响。

为了了解根据第二代测序确定的人类群体中基因表达的数量差异,我们使用37-bp配对的Illumina测序法对60名CEU个体(来自CEPH-人类多形性研究中心)的淋巴母细胞系(LCL)转录组的mRNA部分进行了测序。每个个体的转录组在Illumina GAII分析仪的一条通道中测序,得到1690±590(平均值±标准偏差)万个读数,然后使用MAQ将其映射到人类基因组的NCBI36组装(补充图1)16随后,我们过滤了低映射质量的读取,映射了性染色体或线粒体DNA,并且没有正确配对,得到了940±330万个读取。平均而言,86%的过滤读数映射到EnsEMBL 54版中的已知外显子)1715%的阅读对跨越一个以上的外显子。对序列和映射质量度量进行评估,以确保数据质量可接受用于分析(补充图2–另见方法)。

我们量化了已知外显子、转录物和整个基因的读取。每个个体的读取计数被缩放到1000万次读取的理论产量,并针对相应库的峰值插入大小进行了校正。每一个量化都被过滤掉,以排除10%以上的个体数据缺失的人群。对于外显子,这导致了10777个基因的90064个外显子的数据。其中,95%的人平均阅读次数超过10次,38%的人阅读次数超过50次,20%的人平均定量阅读次数≥100次(补充图3)。对于转录定量,需要开发新的方法来将读取映射到特定亚型18,19我们开发了一种称为通量电容器的方法,用于量化带注释的交替剪接转录物的丰度(参见方法)。使用这种方法,我们从11674个基因中获得15967个转录物的相对数量。对于每个个体,我们将整个基因读取计数与Illumina HG-6第2版微阵列产生的阵列强度进行了比较。RNA-Seq和阵列数量之间以及RNA-Seq样本之间的相关系数很高,与之前的研究一致20(补充图4和5)。最后,我们探讨了外显子之间丰度的相关性结构是否有助于开发一个框架,该框架将允许在给定一组参考RNA-Seq样本的情况下,对未筛选的外显子的丰度值进行插补。这与使用遗传变异的相关结构(连锁不平衡)从参考任何感兴趣的群体样本中插补变异的原理相同21对于10777个基因中的每一个,我们评估了所有外显子的成对相关性,平均而言,一个基因内的任何两对外显子中度相关(平均皮尔逊相关系数R2=0.378±0.261)(补充图6)。这种相关性随着每个外显子中总读取次数的增加而增加。值得注意的是,HapMap3中相同重组热点区间内SNP之间的平均相关系数为r2=0.326±0.174,表明基因内的相关性结构比SNP更强,通过插补方法可能更容易获得,但这需要在组织特异性背景下进行评估。

通过RNA-Seq测量的基因表达与遗传变异的关联性在顺式使用120万个HapMap3单核苷酸多态性(之前描述的方法22). 我们评估了外显子、转录物和基因的关联性,并通过排列确定了包含显著关联的基因的唯一数量23(表1). RNA-Seq eQTL在0.001和0.01置换阈值下显著,在相同SNP基因组合的阵列数据中显著复制(0.01为46%,0.001为81%),如低p值富集所示(图1)影响大小非常相似(补充图7)。总的来说,使用外显子量化,eQTL在0.01置换阈值处的基因数量高于相同样本个体的阵列发现的基因数量(836个基因对539个基因在0.01置换阈处),即使对测试基因数量进行了标准化(补充表1),这表明分辨率的提高有助于识别更多的基因调控效应。RNA-Seq外显子eQTL主要富集在相对于阵列eQTLs和全基因eQTLs的高丰度类中(补充图8-10)。这可能是由于两个原因:(i)外显子在剪接复杂度中捕获遗传效应,这在丰度较高的基因中较高(EnsEmbl中丰度和转录子数量之间的Spearman秩相关,p<2.2×10−16); (ii)阵列中强度信号的饱和度高于一定丰度水平,但RNA-Seq数据中没有。RNA-Seq外显子eQTL在低丰度基因中的代表性较低,这表明在这种覆盖水平下,罕见的转录物没有得到很好的量化。最后,我们对102个定量良好的长非编码RNA进行了eQTL分析(没有重叠任何已知的蛋白编码基因,参见方法),发现6个具有显著eQTLs(表1)强调了调控变异超出了特征明确的蛋白质编码基因。

保存图片、插图等的外部文件。对象名称为emss-54207-f0001.jpg
RNA-Seq显著eQTL的阵列关联p值

绘制了外显子和转录物定量数据中在0.01和0.001置换阈值下显著的RNA-Seq eQTL阵列数据的p值分布。在每一个图中,p值分布的显著尾部都得到了显著丰富,这表明通过转录组测序发现的eQTL在阵列中也很重要。对于每个图,使用q值统计1-pi0量化此超额,以估计真阳性的比例。对于通过转录定量发现的eQTL和在更严格的置换阈值下更显著的eQtl,p值分布的富集程度更高。

表1

eQTL发现。使用Spearman秩相关显示了两个基于测序的量化(副转录和副外显子)和匹配阵列样本中每一个的基因、转录物、外显子、剪接事件和长非编码RNA的eQTL发现。

协会#特性的#SNPS的OF许可阈值*

0.050.01**0.001
外显子定量90064外显子/10777基因11710853258836 (0.13)103
成绩单量化15967个转录本/11674个基因11710851129293(0.40)66
全基因量化11210个基因1171085875256 (0.43)62
长的非编码RNA232个外显子/102个基因1171085146 (0.17)1
成绩单事件6468个事件1171085416110 (0.59)21
基于阵列的量化21800个探针/17420个基因11713971682539 (0.32)194
*基因水平的阈值
**括号中的错误发现率(FDR)

为了复制我们的eQTL发现,我们比较了我们的研究与非洲人群转录组测序所得结果之间的关联(Pickrell,为同一期提交)24考虑到非洲人群中500个基因的最高相关SNP,我们评估了匹配CEU关联的p值分布(补充图11)。我们估计约33%的这些信号是共享的(通过排列评估p<0.0001)。这一结果表明了两项基于转录组测序的研究的eQTL发现的稳健性,并且,考虑到两个群体的分化程度,复制量与过去对相同样本的阵列研究一致22

如前所述22,我们检测到转录起始位点(TSS)周围的eQTL富集(补充图12)。我们进一步研究了eQTL的发现率和分布,给出了多基因外显子的位置。我们发现,与任何中间外显子相比,第一、第二和最后外显子的发现数量都有所增加(图2). 我们发现,我们对最后一个外显子的发现多于对第一个外显元的发现。当我们评估相关外显子5′端周围重要eQTL的分布时,我们发现与最后一个外显子相关的重要eQtl比第一外显子、第二外显子和中间外显子后面的任何其他外显子都更接近最后一个内显子(补充图13)。这与我们对3′UTR和基因上游区域的表达调控效应的理解一致25.

保存图片、插图等的外部文件。对象名称为emss-54207-f0002.jpg
外显子eQTL的外显子相对定位

我们调查了多基因中发现的外显子eQTL相对于外显子位置的比例(根据类内测试的外显基因数量进行标准化)。对于0.001 eQTL,我们发现相对于第一、第二和最后外显子的中间外显子,发现的比例增加。我们还发现,在基因的最后一个外显子中,我们的发现比例高于任何其他类别。

转录组测序可以定量等位基因特异性表达(ASE)26-28我们发现每个个体平均有4000个杂合子确认的HapMap3单核苷酸多态性位点,可用于评估ASE。其中,我们评估了在该个体的测序中检测到两个等位基因的比例,作为使用Samtools绘制质量的函数(补充图14)29在MAQ绘图质量10中,我们发现72%的杂合子位点至少从两个等位基因中检测到一次。正如预期的那样,随着映射质量的提高,这一比例略有降低。此外,我们发现41%的杂合子具有6个以上的读数。在校正每个库的非参考微分映射后,我们测试了ASE(补充图15)。我们通过第一阶段双杂合子测试了eQTL和ASE之间的关系。我们发现,随着读取次数的增加,eQTL效应大小和ASE强度之间的相关性增加(补充图16)。然后对各个个体的读数进行汇总,以评估与eQTL分期相关的单侧ASE二项式p值分布。我们发现,对于0.01和0.001个显著eQTL,ASE p值分布的尾部富集。对于没有eQTL的外显子,该分布的两个尾部都得到了富集(补充图17),这突出了影响ASE的其他非遗传或罕见遗传因素的存在。

为了研究ASE信号是否可以标记最近罕见的eQTL,通过标准基因型关联未检测到,我们在6个或更多个体的外显子中选择了杂合SNPs,没有证据表明存在eQTLs(外显子在排列阈值为0.05时不显著),并检测了共享显著ASE信号(p<0.05)的个体与不共享ASE信号的个体之间的单倍型纯合子模式。单倍型纯合性评估单倍型上完全共享的等位基因的长度,作为单倍型年龄的代表30我们计算了具有ASE信号的单倍型纯合度,并将这些单倍型与没有ASE信号单倍型进行了比较,发现具有共同ASE信号单倍型的纯合度更高(图3). 当只有2-3个个体具有显著ASE时,这种分化非常显著(Wilcoxon配对检验,p=0.00039),当4个或更多个体具有显著的ASE时这种分化消失(Wilcox配对检验,p=0.55),这与这种观点一致,即这些罕见的ASE效应是近期罕见eQTL变异的结果。我们还评估了这些潜在的罕见eQTL单倍型的作用方向,发现新突变的作用方向没有明显偏差(2-3个个体的表达增加了48.5%,而4个或更多个体的单倍型表达增加了47.1%)。这些结果突出了使用第二代测序鉴定罕见调控单倍型的潜力。

保存图片、插图等的外部文件。对象名称为emss-54207-f0003.jpg
共享ASE单倍型与共享和非共享ASE单体型的单体型纯合度

(A) 我们评估了共享ASE表示罕见调控单倍型的程度。我们选择了6个或6个以上个体中存在的杂合子,并评估了具有显著ASE效应(p<0.05)的单倍型(在图中标记为ASE)与具有或不具有ASE效应的单倍体(在图上标记为对照)之间的单倍型纯合子对于我们没有eQTL证据的所有外显子(在0.05排列阈值下不显著)。我们发现,当比较单倍型纯合子的显著性(ASE)程度与显著性与非显著性单倍型(对照)之间的差异时在2或3个个体共享ASE显著信号的情况下,共享ASE信号的单倍型具有更大的单倍体纯合度,这表明这些单倍型属于较新和更罕见的单倍形。当ASE信号在4个或更多个体中共享时,此信号会减小。这里,衍生的等位基因被选为单倍型纯合度最长的基因,而不参考ASE信号。(B) 对于每个杂合子,我们绘制了显著ASE单倍型(X轴)与显著或不显著ASE单体型(Y轴)的单倍型纯合度范围。我们观察到,在显著的单倍型中,纯合子的长度比在非显著的对应单倍型上的纯合子长度大。这里,衍生的等位基因被选为单倍型纯合度最长的基因,而不参考ASE信号。

我们进一步研究了选择性剪接的遗传基础的特征。首先,我们将影响剪接信号的已知变异体与其各自的基因和外显子进行关联;我们总共测试了788个基因的963个变体。我们比较了基因RNA-Seq量化和阵列的相关性,发现类似的富集(8.30%对8.51%的真阳性)。我们对供体和受体变异体中的剪接变异体进行分层,并对其所在内含子的外显子5′和3′的丰度进行测试。对于供体变异体,我们发现相对于3′外显子,与5′外显器的关联性显著增加(3.17倍,与影响成熟转录物中相关外显子的包含/排除的因素一致。我们进一步假设,如果遗传变异影响转录物特异性表达,我们应该能够检测到个体染色体之间转录物分布的异质性。为了验证这一假设,我们测试了成对插入大小的异质性,作为转录物分布异质性的代理。我们比较了一个等位基因相对于另一个等位基因的读数,在显著的ASE SNPs和非显著的ASE SNPs中,至少有50个读数的位置具有足够的可比转录物分布,这导致了901个杂合子位置。我们发现,相对于非显著ASE SNP,转录分布(插入大小)异质性显著增强(KS p值<0.05),ASE SNPs显著增强(补充图18和示例图4). 在杂合子中,235个对ASE显著,而在这105个杂合子当中,有显著的转录分布异质性;这对应于105个基因中的72个包含ASE显著杂合子。肉眼观察表明,这种异质性是由内部外显子的差异结构和基因3′端的选择性驱动的。与平均插入大小和基因3′端的基因型关联显示低p值富集,表明存在影响此类过程的遗传变异(补充图19和20)。最后,我们评估了遗传变异对由通量电容器定量得出的替代亚型(例如外显子的包含/排除)产生的事件的影响。我们发现,在6600例量化事件中,110例在0.01置换阈值下显著(表1). 其中41%为外显子跳跃,17%由替代受体引起,13%为双或三外显子跳过,6%为替代供体,5%为互斥外显子,5%为保留内含子。该分析表明,在决定亚型多样性和转录结构方面存在广泛的遗传变异,预计这将对蛋白质序列多样性产生直接影响。

保存图片、插图等的外部文件。对象名称为emss-54207-f0004.jpg
等位基因选择性剪接效应

这两个面板显示了以两个重要ASE SNP为中心的外显子的替代使用示例。在面板(A)中,有一个非常显著的外显子替代使用的信号(KS,P<10−14)在等位基因之间,丰度越大,转录结构的多样性越大。在面板(B)中,等位基因之间存在显著的ASE信号,但转录结构没有显著差异。

我们的研究和参考24描述了首次尝试使用2发电测序技术。测序的可访问性越来越强,这增强了我们解决监管复杂性新特征的能力。我们证实了在群体转录组测序中查询eQTL的可行性,并发现了比相同群体样本的阵列数据更多的eQTLs。此外,尽管测序深度相对较低,但关联信号在人群中得到了很好的复制。我们还确定了此类研究在解决罕见的调节性单倍型方面的潜力和力量。最后,我们揭示了影响亚型丰度和转录结构的各种遗传效应。随着测序技术不断增加基因组和转录组查询的深度和广度,预计我们对精细细胞过程的理解将变得更加详细和稳健。

方法

RNA制备、文库构建和测序

从HapMap联盟的63名CEPH起源个体的淋巴母细胞系中提取总RNA。使用Poly-T寡核苷酸连接的磁珠纯化含Poly-A的mRNA,然后在高温下使用二价阳离子进行片段化。单链cDNA由RNA片段通过逆转录酶制备,然后通过DNA聚合酶I和RNaseH进行第二链合成。我们在Illumina GAII的一条测序通道中对每个个体进行了37-bp配对末端测序。对Lanes进行了多项质量指标评估,包括读取次数、读取质量和已知外显子的读取百分比(补充图2)。2名患者在三轮测序中未能通过测序质控,因此被排除在进一步分析之外。

读取映射

使用MAQ(使用理论插入大小上限2Mb)将读数映射到参考人类基因组(NCBI36)。随后对读数进行筛选,以仅包括那些被称为正确配对且映射质量分数大于或等于10的读数。每个人的阅读量在350万到1710万次之间(9.4次平均+/-330万SD)。

读取已知外显子和基因的定量

对每一对末端阅读进行评估,以确定是否与EnsEMBL(54版)的已知转录本重叠。只有当每个配偶对的重叠被限制在同一转录物或两个独立基因中的第一个时,才会考虑读取。除了外显子彼此相距200 bp以上的限制条件外,在相同条件下,对跨越多个外显子的读数进行独立量化。此外,在一个配偶有多个重叠外显子的情况下,我们只考虑支持读数最多的外显子。当存在多个重叠的外显子注释时,这些条件是为了防止虚假的关系被量化。

原始外显子读取计数随后通过将读取计数缩放到每个样本总计1000万个读取来进行标准化。对于基因计数,对各自基因外显子的总原始读数采用相同的程序。其他研究人员观察到,数据的泊松性质可以在读取深度和丰度估计以及所分析读取的GC含量之间建立关联。我们测试了这个假设,发现在我们的数据中没有观察到这种相关性。作为进一步的标准化检查,在eQTL分析后,我们评估了Marioni等人报告的RNA-seq数据的泊松性质的程度。31通过检查所有基因表达丰度与读取深度的相关性p值,影响外显子量化和eQTL发现(补充图22)。我们观察到有和没有eQTL的基因之间读取深度的影响没有差异。

读取已知成绩单的量化

我们开发了一种称为通量电容器的方法,从RNAseq数据中重建已知转录形式的丰度。我们的算法通过在包括外显子(或剪接连接)在内的转录物之间将读取映射分布到给定的外显子区域(或剪合连接)来工作。对于每个基因座,也就是说,一组重叠的转录本{t吨},磁通电容器采用底层图形结构G公司= (五、E)类似于拼接图32.节点v(v)V(V)图中是位点(即转录起始或终止位点、剪接供体或受体位点)。它们是根据基因组位置排序的第页v(v)注释转录本的方向性<,从5′到3′。边缘e(电子)=(v(v)w个),e(电子)E类相应地是外显子和内含子的非重叠(部分)。每个边的支持是包含边的一组文本:支持(e(电子))={t吨1,…,t吨n个},(补充图23)。

然后,假设笔录上的阅读分布严格一致,观察到的阅读数量映射到边缘X(X)(流量X(X))等于包含边缘的每个抄本产生的读数(通量)之和t吨j个支持(X(X)),由边长归一化:

通量(X(X)) = Σj个通量(t吨j个)
(1)

哪里通量(t吨j个)是先验的transipt生成的读取数未知t吨j个标准化为边长度。

每一条边都会重铸一个特定的基因组区域的序列,该区域对应一个给定的读操作若(iff)它与边缘序列的子字符串对齐(v(v),…w个). 与顺序相邻的外显子边缘的连续后缀/前缀对对齐的读码,即与剪接接合点对齐或跨越替代外显子边界的读码对应对齐k个-超边元组(e(电子)1,…,e(电子)k个),其中k个取决于长度第页w个第页v(v)与读取的长度相比,每条边的跨度。在校准读数期间,我们需要最低限度在尺寸上k个一个元组的读取与之对齐,即与之对齐的读取(e(电子)1,…,e(电子)k个)不会分配给元组(e(电子)1,…,e(电子)k个+1). 最小值准则将基因组序列上的每个区域唯一地分配给一个元组(e(电子)1,…,e(电子)k个),k个≥1,我们将与该元组对齐的读取总数表示为观察频率频率((e(电子)1,…,e(电子)k个)).

在实践中,由于RNA-Seq实验在阅读覆盖率方面存在系统性偏差,因此沿着转录本的阅读分布严格一致的假设过于强烈(补充图23)33在我们的方法中,我们通过收集非重叠转录本中的阅读分布情况来估计每个实验的偏差特征,这些转录本由几个转录长度和表达水平组成。从这些剖面图中,我们估计每个边缘并转录一个通量校正因子b条j个遵循流体动力学网络的语言34我们表示为容量边缘,作为边缘边界之间转录剖面下的区域(补充图23)。

此外,我们允许每个边缘有一定的偏差Δ ∈ 这解释了测序过程深度有限以及与估计通量容量修正值的偏差导致的统计波动。方程式1因此按以下方式扩展:

通量(X(X))=Δ+Σj个b条j个通量(t吨j个)
(2)

应用方程式(2)对于给定轨迹的拼接图中的每条边,结果是一个线性方程组。磁通电容器将线性系统作为一个优化问题来解决,其目标是最小化与所有观测值的偏差∑∣Δ∣. 为了找到解决方案,我们应用了标准线性程序解算器35因此,所有成绩单t吨对应于一个轨迹的值被量化通量(t吨j个).

为了解释从同一cDNA分子(所谓的配偶),我们将映射推广到k个-超级边,以便形成k个-超级边不再需要是连续的,而是可以由两个遥远的区域组成,每个区域对应于覆盖其中一个配对对齐区域的最小边集。在决定有效的配合对时,将考虑配合特定的方向,但不应用对镶件大小的约束。通量容量校正因子是像以前一样估计的,因为读取的分布轮廓下的面积总和k个-超级边缘覆盖。

长非编码RNA的读取量化

我们使用Gencode注释(数据冻结3b),其中包含9937个长非编码转录物(属性转录类型“非编码”或“处理”),6333个非蛋白编码位点中有32979个外显子(没有属性基因类型“蛋白编码”)。为了排除顺式通过蛋白质编码基因转录,我们额外筛选出了约一半(3031个含有4875个转录物的位点)的注释蛋白质编码基因,这些位点位于附近(即上游或下游1kb,无论链如何)。其余5062份转录本中的大多数(96%)已被手动注释,其中一些甚至包括实验验证,因此我们进一步排除了221份来自计算预测管道的转录本(即属性注释级别“3”)。对个体中缺失率<=10%的lncRNA进行筛选,得到232个可量化的外显子用于关联分析。

混合插入大小标准化

每个个体/通道的RNA-seq定量被确定为与其各自插入大小分布的最大峰值存在过度相关性。我们将此关系建模为−1、0.5、1、2和3阶多项式,并使用线性(1阶)模型找到最佳拟合,其中相关性最大。当排除包含长度小于500bp、1000bp和2000bp的转录本的基因时,也观察到了类似的拟合。回归的残差被用作关联分析的输入。

杂交方案和量化

在Illumina HG-6第2版阵列上收集每个个体的基于阵列的基因表达数据。分别进行两次技术复制。我们在重复中标准化分位数,并根据珠子数量给出平均信号,计算每个等级的加权平均值。个体随后被中位数正常化,log2转换。我们只选择了唯一映射到EnsEMBL基因且不包含SNP的探针;这导致了21800个探针对应17420个基因。

阵列与序列比较

为了比较阵列与测序量化,我们确定了每个个体每个基因的RPKM值,并将其与相同基因的平均探针强度进行了比较。对于关联分析(如下所述),2个测序个体没有匹配的阵列数据。对于这些人,我们用他们的父亲代替他们,我们有他们的表达数据。因此,NA10847被父亲NA12146取代,NA10851被父亲NA12056取代。

关联分析和多重测试修正

我们对120万个MAF>5%的HapMap3单核苷酸多态性与外显子、转录物和基因序列定量以及基于阵列的数据进行了spearman秩相关分析。对于外显子定量,我们选择了90064个外显子,对应于10777个基因,其中至少10%的个体有数据。我们同样从与11674个基因相对应的15967个转录物中选择,并从基因量化中获得11210个基因。对于3个数据集中的每个数据集,即外显子、转录物、基因和阵列,我们在转录起始点1Mb内按功能单元进行SNP关联。通过将表达表型排列10000次并总结每个特定外显子、转录物、基因或探针的极端P值分布,评估每个数据集中的P值显著性。为了进一步控制每个分析中的多重测试,考虑到一个基因有多个量化(例如外显子、转录和基于阵列的量化),我们通过采用最严格的p值分布来设置基因级置换阈值。

插补

我们用Beagle 3.0.4版本插补了四个个体(NA0851、NA12004、NA12414和NA12717)的基因型,这些个体在HapMap 3(版本3)中不存在,但在Affymetrix 6.0上进行了分型。将Affymetrix 6.0插入完整的HapMap 3集合中,对于SNPs大于5%的次要等位基因频率,证明真阳性率为96.4%(a.Price,个人通信)。我们进一步使用了来自HapMap 3的410个CEU+TSI(来自意大利的托斯卡纳)阶段性染色体来进行插补。TSI中相控染色体的包含也证明了真实阳性率的增加(J.Barrett,个人通讯)。总共估算了595716个SNPs。我们评估了每个输入个体的输入基因型和次优调用之间的基因型概率平均差异分别为0.95、0.94、0.94和0.94。其中两个个体(NA12004和NA12717)之前在HapMap 2中进行过基因分型,我们尽可能用这些基因型替换了所有输入的基因型。我们评估了两个个体的估算基因型与HapMap 2期基因型之间的基因型一致性为3.4%。我们还对HapMap 3中的CEU内部和11个群体进行了PCA分析,并观察到除第1组和第2组CEU组平均值之外的插补个体没有显著的聚类(补充图21)。

等位基因特异性表达检测

等位基因特异性表达是在过继性基础上测定的。根据HapMap3中的SNP调用,直接评估杂合子SNP重叠外显子的读数,以确定其等位基因状态(网址:www.hapmap.org)并使用Samtool pileup实用程序29。筛选出的读数高于MAQ 10映射质量。对于每个个体的测序路线,根据参考等位基因与非参考等位蛋白映射到基因组的概率来确定二项式成功概率。因此,每个个体都有自己的二项式成功概率,因为杂合子等位基因与参考序列相匹配,可以解释测序反应中的潜在偏差。我们还使用此概率计算了影响大小的加权度量,其中每个等位基因的出现都由观察到它的概率加权。然后通过汇总所有观察结果来计算两个等位基因之间的加权差异。

当与eQTL进行比较时,使用来自HapMap3的相位数据来确定eQTL-相对于杂合子SNP的相位。在这里,使用单侧二项式p值,使用个体特定参考等位基因映射概率,以在同一方向强制执行效应方向。

对于基于单倍型纯合子的分析,通过比较每个等位基因的纯合子程度并选择纯合子束较长的等位基因作为衍生等位基因来评估杂合子的单倍型纯合子。然后使用该等位基因比较含ASE和含ASE与无ASE单倍型的单倍型纯合度。

备选拼接分析

已知剪接变异体取自EnsEMBL(54版)。我们选择了那些我们已经测试过的变异体作为我们关联分析的一部分,并且在相关基因中至少有一个外显子被量化。我们量化了剪接变异体与基因RNA-seq和阵列定量关联的真阳性比例(使用q值统计)。对于阵列,我们只选择一次量化的基因来校正多次测试。我们进一步量化并比较了供体SNP-供体外显子、供体SNP受体外显子,受体SNP-供者外显子和受体SNP--受体外显子真阳性的比例。

为了进行平均插入大小的基因型关联,我们选择了每个基因的最佳量化外显子,并确定了该外显子上所有插入大小的平均值。对于3′端的基因型关联,我们选择了仅映射到3′外显子的阅读,并计算了从外显子开始到任何给定阅读结束的距离平均值。使用与基于量化的关联相同的方法,对两种关联进行了个体间插入大小异质性的校正。

致谢

作者想感谢Heng Li、Simon White、John O'Brien、Steve Searle、Michael Quail、Sri Vishnu Vardhan Deevi和Wellcome Trust Sanger Institute的测序核心设施。我们还要感谢克劳德·比兹利、亚历山德拉·尼卡、卢克·约斯汀斯、凯瑟琳·莫利、杰弗里·巴雷特和维内里·安蒂拉。Wellcome Trust和Louis-Jeantet基金会向ETD提供了资金。

脚注

数据发布所有原始和规范化形式的RNA-Seq数据可在ArrayExpress中获得,注册号为E-MTAB-197和E-MTAB-18

工具书类

1Emilsson V等人。基因表达的遗传学及其对疾病的影响。自然。2008年;452:423–8.[公共医学][谷歌学者]
2Goring HH等。使用大规模转录谱在人类淋巴细胞中发现表达QTL。自然遗传学。2007;39:1208–16.[公共医学][谷歌学者]
三。Moffatt MF等。调节ORMDL3表达的基因变异会增加儿童哮喘的风险。自然。2007;448:470–3.[公共医学][谷歌学者]
4Morley M等。人类基因表达全基因组变异的遗传分析。自然。2004;430:743–7. [PMC免费文章][公共医学][谷歌学者]
5Stranger BE等。核苷酸和拷贝数变异对基因表达表型的相对影响。科学。2007;315:848–53。 [PMC免费文章][公共医学][谷歌学者]
6Wilhelm BT等。在单核苷酸分辨率下调查的真核生物转录组的动态库。自然。2008年;453:1239–43.[公共医学][谷歌学者]
7Wang Z,Gerstein M,Snyder M.RNA-Seq:转录组学的革命性工具。Nat Rev基因。2009;10:57–63. [PMC免费文章][公共医学][谷歌学者]
8Mortazavi A、Williams BA、McCue K、Schaeffer L、Wold B.通过RNA-Seq对哺乳动物转录体进行定位和量化。自然方法。2008年;5:621–8.[公共医学][谷歌学者]
9Sultan M等人。通过人类转录组的深度测序对基因活性和选择性剪接的全球观点。科学。2008年;321:956–60.[公共医学][谷歌学者]
10t Hoen PA等。基于深度序列的表达分析表明,在五种微阵列平台上,在稳健性、分辨率和实验室间可移植性方面取得了重大进展。核酸研究。2008年;36:e141。 [PMC免费文章][公共医学][谷歌学者]
11Maher CA等。转录组测序检测癌症中的基因融合。自然。2009;458:97–101. [PMC免费文章][公共医学][谷歌学者]
12Wang ET等。人类组织转录体中的替代亚型调控。自然。2008年;456:470–6. [PMC免费文章][公共医学][谷歌学者]
13Pan Q,Shai O,Lee LJ,Frey BJ,Blencowe BJ。通过高通量测序深入研究人类转录组中的选择性剪接复杂性。自然遗传学。2008年;40:1413–5.[公共医学][谷歌学者]
14Cloonan N等。通过大规模mRNA测序进行干细胞转录组分析。自然方法。2008年;5:613–9.[公共医学][谷歌学者]
15Frazer KA等人。第二代人类单倍型图谱,包含310多万个SNP。自然。2007;449:851–61. [PMC免费文章][公共医学][谷歌学者]
16Li H,Ruan J,Durbin R.使用绘图质量分数绘制短DNA测序读取和调用变体。基因组研究。2008年;18:1851–8. [PMC免费文章][公共医学][谷歌学者]
17Hubbard TJ等人,合奏2009。核酸研究。2009;37:D690–7。 [PMC免费文章][公共医学][谷歌学者]
18Zheng S,Chen L.在个体转录亚型水平上比较转录组的分层贝叶斯模型。核酸研究。2009;37:e75。 [PMC免费文章][公共医学][谷歌学者]
19Hiller D、Jiang H、Xu W、Wong WH。从结阵列和RNA-Seq识别亚型反褶积。生物信息学。2009 [PMC免费文章][公共医学][谷歌学者]
20Marioni JC、Mason CE、Mane SM、Stephens M、Gilad Y.RNA-seq:技术再现性评估和与基因表达阵列的比较。基因组研究。2008年;18:1509–17. [PMC免费文章][公共医学][谷歌学者]
21Marchini J、Howie B、Myers S、McVean G、Donnelly P。通过基因型插补进行全基因组关联研究的新多点方法。自然遗传学。2007;39:906–13.[公共医学][谷歌学者]
22Stranger BE等人。人类基因表达的群体基因组学。自然遗传学。2007;39:1217–24. [PMC免费文章][公共医学][谷歌学者]
23Stranger BE等。人类基因表达变异的全基因组关联。公共科学图书馆-遗传学。2005;1:e78。 [PMC免费文章][公共医学][谷歌学者]
24Pickrell JK等人。通过RNA测序了解人类基因表达变异的机制。2009年提交。[PMC免费文章][公共医学]
25Veyrieras JB等。表达QTL的高分辨率定位产生了对人类基因调控的深入了解。公共科学图书馆-遗传学。2008年;4:e1000214。 [PMC免费文章][公共医学][谷歌学者]
26Pastinen T,Hudson TJ。人类基因组中的顺式调节变异。科学。2004;306:647–50.[公共医学][谷歌学者]
27Verlaan DJ等。人类单倍型顺调节变异的靶向筛选。基因组研究。2009;19:118–27. [PMC免费文章][公共医学][谷歌学者]
28Zhang K等。数字RNA等位基因分型揭示了人类组织特异性和等位基因特异性基因表达。自然方法。2009;6:613–8. [PMC免费文章][公共医学][谷歌学者]
29Li H等。序列比对/地图格式和SAMtools。生物信息学。2009;25:2078–9. [PMC免费文章][公共医学][谷歌学者]
30Sabatti C,Risch N.纯合度和连锁不平衡。遗传学。2002;160:1707–19. [PMC免费文章][公共医学][谷歌学者]
31Marioni JC、Mason CE、Mane SM、Stephens M、Gilad Y.RNA-seq:技术再现性评估和与基因表达阵列的比较。基因组研究。2008年;18:1509–1517. [PMC免费文章][公共医学][谷歌学者]
32Sammeth M.可选拼接事件是拼接图中的气泡。计算生物学杂志。2009;16:1117–1140.[公共医学][谷歌学者]
33Oshlack A,韦克菲尔德MJ。RNA-seq数据中的转录长度偏差混淆了系统生物学。生物直接。2009;4:14. [PMC免费文章][公共医学][谷歌学者]
34Ahuja RK、Magnanti TL、Orlin JB。网络流:理论、算法和应用。普伦蒂斯·霍尔;1993年,ISBN 0-13-617549-X。[谷歌学者]
35Cormen TH、Leiserson CE、Rivest RL、Stein C。算法简介。第二版。麻省理工学院出版社和麦格劳-希尔出版社;2001.第29章:线性规划;第770-821页。国际标准图书编号0-262-03293-7。[谷歌学者]