Understanding mechanisms underlying human gene expression variation with RNA sequencing

Joseph K. Pickrell; John C. Marioni; Athma A. Pai; Jacob F. Degner; Barbara E. Engelhardt; Everlyne Nkadori; Jean-Baptiste Veyrieras; Matthew Stephens; Yoav Gilad; Jonathan K. Pritchard

doi:10.1038/nature08872

自然。作者手稿；PMC 2011年5月6日发布。

以最终编辑形式发布为：

自然。2010年4月1日；464(7289): 768–772.

2010年3月10日在线发布。数字对象标识：10.1038/性质08872

预防性维修识别码：项目经理3089435

NIHMSID公司：美国国立卫生研究院220598

PMID：20220758

通过RNA测序了解人类基因表达变异的机制

约瑟夫·皮克雷尔,¹ 约翰·马里奥尼,¹ 阿提玛·A·派,¹ 雅各布·德格纳,¹ 芭芭拉·恩格哈特,² Everlyne Nkadori公司,^1中，^三 Jean-Baptiste Veyrieras公司,¹ 马修·斯蒂芬,^1中，⁴ 尤夫·吉拉德,¹和乔纳森·普里查德^1中，^三

作者信息版权和许可信息 PMC免责声明

关联数据

补充资料: 补充数据。
NIHMS220598-补充-补充数据.pdf（110万）
GUID:08FA3D15-0B55-499D-A74A-3C1808B21AA7

摘要

了解基因表达自然变异的遗传机制是医学遗传学和进化遗传学的中心目标，而对表达数量性状位点（eQTL）的研究已成为实现这一目标的重要工具¹尽管迄今为止所有的eQTL研究都使用表达微阵列检测信使RNA水平，但RNA测序的最新进展使转录物变异分析具有前所未有的分辨率。我们对69个来自尼日利亚无关个体的淋巴母细胞系的RNA进行了测序，这些细胞系已通过国际HapMap项目进行了广泛的基因分型²通过汇集所有个体的数据，我们绘制了这些细胞的转录图谱，确定了未标记的未翻译区域和100多个新的假定蛋白编码外显子的广泛使用。利用HapMap项目中的基因型，我们确定了1000多个基因的遗传变异影响整体表达水平或剪接。我们证明，基因附近的eQTL通常通过涉及等位基因特异表达的机制起作用，并且影响外显子包含的变异在共有剪接位点内和附近富集。我们的结果说明了高通量测序在联合分析个体间转录、剪接和等位基因特异性表达变化方面的能力。

人类基因表达变异的研究对mRNA水平自然变异的遗传基础产生了一些见解。特别是，基因表达水平和选择性剪接的许多变化是可遗传的^三,4，而影响基因表达水平的多态性最常见于基因本身附近，尤其是转录起始位点附近^5-7。

到目前为止，所有关于人类基因表达变异的研究都是使用微阵列进行的，通常使用一个或几个针对每个基因特定部分的探针来测量表达水平。相比之下，最近使用高通量测序平台开发的RNA测序（RNA-Seq）协议允许相对公正地测量转录物全长的表达水平⁸该技术有几个优点，包括能够检测未标记外显子的转录，测量总体和外显子特异性表达水平，以及检测等位基因特异性表达。

为了研究高分辨率转录水平的变化，我们对来自69名尼日利亚人的淋巴母细胞系（LCL）的RNA进行了测序，这些细胞系是作为国际HapMap项目的一部分产生的²具体而言，我们在Illumina Genome Analyzer 2平台的至少两个通道中，对从每个个体RNA的聚腺苷酸部分制备的互补DNA文库进行了测序，并使用MAQ v0.6.8将读取结果映射到人类基因组（参考文献。9). 总的来说，我们生成了35或46个碱基对（bp）的12亿个读取，其中9.64亿个读取是唯一映射到基因组或外显子-外显子边界的(补充材料和补充表1). 作为初始近似值，我们估计了基因的表达水平，即映射到其外显子（包括外显子-外显子边界）的所有测序读数的分数除以基因的“可映射”长度(补充材料). 我们的基因表达估计值和来自微阵列数据的估计值之间的Spearman相关性（对于我们的研究和之前使用外显子微阵列的研究中共同的53个细胞系¹⁰)范围为0.60至0.78(补充图3)。

虽然我们的主要目的是比较个体间的基因表达水平，但我们首先汇集所有数据来检查当前基因注释的完整性(补充图1). 这个9.64亿个唯一映射读取的汇集数据集代表了比以往任何RNA-Seq分析都要深一个数量级的组织测序覆盖率。在所有唯一映射到基因组的读码中，86%映射到已知外显子。我们检查了注释外显子外的转录区域的保守性，以丰富那些具有真正功能转录的区域(补充材料和补充图5). 总的来说，根据对28个脊椎动物基因组的比对分析，目前尚未注释的基因组4031个区域显示出转录的证据，并且重叠了高度保守的区域¹¹（我们将“未注释”定义为Ensembl、UCSC、Vega和Refseq数据库中的基因模型中没有。）接下来，我们使用序列读取来检查这些区域是否存在剪接到已知外显子或其他未注释转录区域的证据。我们确定了992个区域（占总数的24%），这些区域有证据表明它们是拼接转录物的一部分。其中大多数（696）拼接到已知转录物上，表明它们是已知基因的未标记外显子(补充材料和补充图6). 在大多数情况下，与已知基因拼接的新外显子的物理位置表明，它们可能是未翻译区域，而不是新的蛋白质编码外显子。接下来，我们通过测试非同义到同义替代率（同义替换率），检查了与蛋白质编码功能一致的完整表达保守区域的保守模式d日_N个/d日_S公司比率）。我们鉴定了115个外显子，有强有力的证据表明它们是蛋白质编码的（错误发现率（FDR）为1%）。这种外显子的一个例子如图1a，显示转录因子中先前未标记的蛋白编码外显子ZSWIM4系列(d日_N个/d日_S公司似然比298；P（P）< 1 × 10⁻⁷). 总的来说，这些结果表明，与蛋白质编码外显子相比，非翻译区（UTR）在当前数据库中的注释相对较差。

在单独的窗口中打开

图1

用RNA-Seq注释基因

一，RNA-Seq识别的新蛋白编码外显子示例。LR，似然比。对于窗口中的每个基数，我们绘制数据中覆盖的平均速率。浅蓝色表示在Ensembl中注释为外显子的碱基，黑色表示非外显子碱基。在基因模型中，蓝框代表Ensembl的注释外显子，黑线代表注释内含子。红色是推断出的新蛋白编码外显子的位置。线表示根据RNA-Seq数据预测并由五个以上测序读数支持的拼接连接位置；红色表示当前数据库中没有的数据。每个交叉点下方是支持交叉点的排序读取数。b条新外显子比注释外显子更具组织特异性。对于每个外显子，我们估计了在之前分析的每个组织中观察到的新外显子或注释外显子的分数¹²以及黑猩猩LCL（红色）。灰线代表了如果注释外显子和未注释外显基因以相同的速率被观察到的结果。AD，脂肪；BR，脑；BS，乳房；BT，BT细胞系；CO，结肠；HM、HME细胞系；HR，心脏；淋巴结；LV，肝脏；SK，骨骼肌；TS、睾丸。数据是外显子在人类LCL中的平均表达率在0.1到0.3读/百万之间；有关其他表达率，请参见补充图7。c（c），RNA-Seq识别的新聚腺苷化位点示例。标记为一。红线表示识别为源自poly-A尾部的读取位置。灰色线表示预测的解理位置。d日，CPSF的结合位点在预测的聚腺苷化位点上游富集。我们根据预测的多聚腺苷化裂解位点与注释的裂解位点的接近程度将其分为不同类别（至少有两个测序读数支持）。对于每个位点，我们提取了上游50个碱基，并为每个位置绘制了与公认的AATAAA六聚体匹配的序列分数。

我们寻找进一步的证据证明，这些4031个未标记的转录区域确实是真正的外显子。为此，我们检测了来自几个人体组织的RNA-Seq数据集中这些区域的表达¹²以及来自黑猩猩LCL的数据集（a.a.P.和Y.G.，未公开的数据）。我们发现，在黑猩猩LCL中观察到假定外显子的比率与注释外显子几乎相同（总的来说，84%的假定新外显子也在黑猩猩的LCL中发现）。然而，除了淋巴结和乳腺组织外，这些区域在不同人体组织中的检出率低于注释外显子(图1b和补充图7). 我们将其解释为这些区域的转录确实是保守的，但比以前注释的外显子的转录更具组织特异性，这为它们在当前基因注释中的缺失提供了部分解释。

我们使用7000万个未映射到基因组的序列读取，通过识别以一串As或Ts结尾的读取，从而发现新的多聚腺苷酸裂解位点，这些读取可能起源于多聚A尾部(补充材料). 使用这种方法，我们鉴定了7926个由一个以上序列读取支持的推定切割位点；其中45%位于带注释的解理位点的10个碱基内。为了测试这些预测的切割位点是否代表真实的位点，我们计算了六聚体AATAAA（CPSF多腺苷酸化因子的结合位点）在预测位点上游50个碱基中的分布（该六聚体存在于大多数已知多腺苷酸化切割位点上游10至30个碱基之间¹³). 该六聚体在我们预测的位置上游15到30个碱基之间富集了32倍(补充图8). 无论预测与所有已知解理位点的距离如何，都存在这种六聚体的富集(图1d). 我们定义了一组3481个高置信切割位点，这些位点由多个测序读数支持，并且包含与CPSF六聚体的上游匹配。与下游碱基相比，这些位点上游碱基的中位RNA-Seq读取深度显著增加，支持这一论点，即这些碱基代表真正的裂解位点(补充图9). 在CPSF基序富集的基础上，我们估计最远距离位点的FDR为13%（252个预测从已知的解理位点下降超过500个碱基，并且与CPSF结合位点相匹配）(补充材料). 在许多情况下，确定的解理位点位于注释解理位点下游数百个碱基；例如，在图1c我们发现该基因中使用了一个多聚腺苷酸裂解位点DYNLL2公司位于基因注释末端以外约2千碱基（kb）处，导致3′UTR延长。因为UTR包含重要的监管元素¹⁴和3′UTR长度受到精确的监管控制^15,16，我们认为在这些细胞系中广泛使用未标记的UTR在基因调控中具有功能重要性。

接下来，我们转向识别影响先前注释基因和未注释外显子表达水平的多态性(补充图2). 现在很清楚，RNA-Seq基因表达水平的测量值与广泛动态范围内的绝对表达水平测量值（如定量PCR分析）相关^12,17,18，表明读取计数可以单独用于评估样本之间的差异表达，而无需进行大量处理⁸然而，我们发现可以通过一系列标准化和校正步骤来提高检测eQTL的能力(补充材料). 具体来说，我们对GC含量等技术混淆因素引入的噪音进行了明确的校正(补充材料和补充图12)以及使用主成分分析（PCA）进行校正，该分析解释了未测量的混杂因素^19,20。

对于每个基因，我们评估了总基因表达水平（归一化后）与全基因组380万个单核苷酸多态性（SNP）之间的关联（使用HapMap项目第二和第三阶段的基因型）。与以前的报告一致^6,21，几乎所有具有强关联信号的SNP都位于相应基因附近(补充材料). 然后，我们重点研究了每个基因两侧跨度为200 kb的候选区域中的SNP。基因水平FDR为10%（对应于P（P）= 2.4 × 10⁻⁵)共有929个基因或推测的新外显子具有“局部”eQTL（200 kb以内），占注释基因的4.6%，推测的新内显子的2.3%。RNA-Seq数据能够可视化SNP对整个基因的影响；作为示例，我们在中显示图2aeQTL影响基因表达水平的证据TSP50型（也称为减贫战略50). 与以前的报告一致⁷我们发现，影响基因整体表达水平的SNP往往与该基因非常接近；我们估计，影响基因表达水平的90%的SNPs位于该基因的15kb范围内(补充图13)。

在单独的窗口中打开

图2

影响基因表达水平的位点

一，表示eQTL的RNA-Seq数据示例。Plotted是窗口周围每个基数的平均速率TSP50型在我们的数据中进行了排序。为了计算这一点，我们根据rs7639979的基因型对个体进行分层。小组根据基因型进行标记，并在括号内标注个体数量。Ensembl已知外显子重叠的碱基为蓝色；非离子底座为黑色。在下面的基因模型中，Ensembl的外显子用蓝框标记，内含子用红线标记；该基因的转录来自负链。b条，eQTL的等位基因特异性表达。对于每个eQTL，我们确定了所有同时具有杂合外显子SNP的杂合个体，并使用β-二项式模型估计了来自高表达（“1”）单倍型的读取分数(补充材料). 绘制的是估计平均值的直方图；黑线为0.5，即null下的预期分数。c（c），两种方法估算的效应大小之间的相关性。对于我们也有等位基因特异表达信息的每个eQTL，我们通过eQTL-研究和等位基因特异性表达研究来估计等位基因效应大小(补充材料). 这些估计在统计上是独立的。为每个基因绘制的图是从高表达单倍型测序读取的估计部分与从eQTL效应大小预测的部分。红色是最适合的回归线，灰色是一个完美的相关性。

我们使用表达微阵列评估了我们的结果是否复制了先前在这些样本中鉴定的eQTL。为此，我们使用了我们的数据集和使用Affymetrix外显子微阵列收集的数据集中53个个体的子集的基因表达数据¹⁰在使用阵列数据以10%的FDR确定为eQTL的138个SNP中，70%达到标称显著性(P（P）<0.05，单侧检验），绝大多数（93%）显示出相同的趋势(补充图14). 我们进一步比较了本研究中确定的eQTL与在欧洲人群中使用RNA-Seq确定的eqTL²²; 在欧洲样本中发现的前500个关联中，尼日利亚样本中显著eQTL的富集倍数为10-40倍(补充材料和补充图16). 综上所述，这些结果表明，我们所鉴定的eQTL确实是由于可复制的遗传效应。

接下来我们考虑了eQTL的作用机制。术语“顺式-eQTL’已被用于描述基因和邻近多态性之间的关联^5,7,21然而，这一术语表明了一种由等位基因特异性表达引起的机制，而这种机制以前只能通过独立实验来检验^23,24然而，相同的RNA-Seq数据可用于检测eQTL和分析等位基因特异性表达。我们使用测序读取来确定eQTL的杂合子是否显示出两个等位基因表达水平的差异，使用阶段性HapMap数据将单倍型分类为携带与低表达或高表达水平相关的等位基因。929个假定基因中顺式-eQTL，222包含信息性外显子SNPs。利用这些SNP，我们将单个序列读取分为源于低表达或高表达单倍型。在这些基因中，88%的高表达单倍型的读数比例大于0.5(P（P）< 2 × 10⁻¹⁶，二项检验；图2b)，直接证明了局部eQTL通常通过等位基因特异性机制发挥作用，即调节顺式-监管要素。对这种机制的进一步支持来自这样的观察，即测序读取的高表达单倍型片段（仅在杂合子中）与eQTL的强度相关(第页= 0.52,P（P）< 2 × 10⁻¹⁶;图2c). 对于阅读深度最大的基因，等位基因效应的两个独立估计的相关性最高，因此对预测的效应大小最有信心(补充图17)。

最后，我们转向识别影响转录亚型水平调节的SNP(补充图2). 对于每个基因的每个外显子，我们将映射到该外显子的读取部分（基因中所有读取的部分）视为一个数量性状。这个总结有效地控制了样本中基因表达水平的变化。然后，我们对这些部分进行线性回归（在对混杂变量进行归一化和校正后），以对照该基因200kb内的所有多态性。在10%的FDR下，我们发现了187个具有显著关联的基因，表明存在假定的剪接QTL（sQTL）。示例如所示图3a，其中一个SNP位于办公自动化系统1影响该外显子的包含。利用RNA-Seq数据，我们可以精确推断该剪接信号中断的影响。在这种情况下，3′剪接位点的破坏导致两种替代亚型的上调，一种亚型使用SNP上游存在的一个隐秘的3′剪合位点，另一种完全排除最终外显子并终止于上游多聚腺苷化位点(图3b)。

在单独的窗口中打开

图3

影响亚型表达的位点

一，表示sQTL的RNA-Seq数据示例。标绘是在围绕末端两个外显子的窗口中每个碱基的平均比率办公自动化系统1在我们的数据中排序；根据rs10774671基因型对个体进行分层。标签和颜色如图2a每个图的下方是根据RNA-Seq数据推断的拼接连接位置(补充材料); 红色表示当前数据库中没有的数据。下图是来自RefSeq和Ensembl数据库的基因模型，以及推断的未注释转录本。带注释的外显子为蓝色，未带注释的内显子为灰色，内含子为黑色。个人成绩单编号以供参考b.b类，中数据基础转录本的推断模型一我们绘制了基因模型，这些基因模型是根据携带G或A等位基因rs10444671的单倍型转录物的剪接推断出来的。基因模型根据一显示了潜在的3′剪接位点（SS）和聚腺苷酸化位点（P）的位置。使用每个成绩单的绿色站点，未使用灰色站点；红色“X”表示被SNP破坏的剪接位点。c（c），函数类中sQTL的丰富。我们使用贝叶斯层次模型估计了不同功能类别的SNP影响外显子剪接的几率(补充材料). 绘制的是每个注释的对数比值比（相对于非拼接位点内含子SNP）的最大似然估计值，以及95%的置信区间。拼接位点注释包含U1 snRNP和U2AF拼接因子的完整结合位点²⁵; 有关仅限于拼接位点的典型两个碱基的分析，请参见补充图19。拼接站点注释的95%置信区间扩展到20以上，但出于显示目的已被截断。

我们提出，正如前面描述的例子一样，许多这些关联的机制通过剪接机制的破坏发挥作用。为了测试这一点，我们扩展了以前使用的贝叶斯层次模型⁷包括外显子特异性效应(补充材料). 该模型允许我们估计不同类型SNP影响剪接的比值比。首先，我们考虑了U1小核核糖核蛋白（snRNP）和U2AF剪接因子的结合位点（其中典型剪接位点是其中的一部分²⁵); 我们发现，相对于非剪接位点内含子SNP，这些结合位点的SNP在sQTL中高度富集（对数比值比为7；95%置信区间[4.5，>20]；图3c). 我们考虑了仅剪接位点的典型2 bp内的SNP是否对sQTL富集；我们发现它们是（对数比值比为10.5；95%置信区间[3.8，>20]；补充图18和19)与之前使用外显子微阵列的研究相比²⁶此外，剪接外显子本身内的SNP在sQTL中也显著富集，正如预期的那样，非基因SNP在s QTL之间显著低表达(图3c)。

总之，我们的结果证明了RNA-Seq数据在基因组注释和分析个体剪接和表达水平变化方面的能力。使用微阵列对基因表达变化的研究为深入了解与疾病相关的基因座的作用机制提供了线索^26,27; 检测剪接变异和识别RNA-Seq提供的新转录物的灵敏度的提高将大大增强这些努力。

方法总结

如前所述，制备cDNA文库并测序²⁸使用MAQ v0.6.8（参考文献。9). 为了绘图的目的，我们根据Ensembl数据库定义了基因模型。为了将外显子或多聚腺苷酸化位点定义为“新的”，我们比较了Ensembl、UCSC、RefSeq和Vega数据库中的注释，这些数据库于2009年4月20日从UCSC下载。我们将该基因的表达水平总结为映射到该基因外显子的读数除以车道上的总读数，并对同一个体的几个车道进行平均。我们对这些部分进行了量化规范化，并对表达矩阵的前16个主成分的表达测量值进行了线性回归。此回归的残差进行了量化标准化，并作为每个基因的表达水平处理。Release 27 HapMap基因型来自http://www.hapmap.org，缺失值使用Bimbam进行插补²⁹在R中进行表达水平和后验平均基因型之间的标准线性回归。为了检测等位基因特异性表达，在通过模拟排除显示定位偏差的SNP后，我们计算了外显杂合子SNP中每个等位基因的读数³⁰我们用β-二项式模型估计了每个单倍型的阅读分数。为了鉴定sQTL，一个基因中位于给定外显子中的读取片段被视为一个数量性状。对该分数进行分位数归一化，通过主成分分析消除混杂效应，并对总体基因表达进行线性回归。外显子效应的层次模型基于前面描述的模型⁷。有关完整方法，请参阅补充信息。有关方法和结果的概述，请参见补充图1和2。

补充材料

补充数据

单击此处查看。^{（110万，pdf）}

致谢

我们感谢D.Gaffney、J.Bell、K.Bulloughey、Y.Guan和Pritchard、M.Przeworski和Stephens实验室小组的其他成员进行了有益的讨论，感谢M.Domanus和P.Zumbo提供了测序支持，感谢J.Zekos提供了计算帮助。J.F.D.和A.A.P.得到芝加哥大学NIH培训拨款的支持。这项工作得到了HHMI的支持，NIH向J.K.Pritchard拨款MH084703-01，向Y.G.拨款GM077959。

脚注

作者贡献J.K.Pickrell执行了大部分数据分析。J.C.M.对GC含量和数据规范化的分析做出了贡献，并在数据分析的其他方面提供了投入。A.A.P.负责协调细胞培养和测序，A.A.P和E.N.负责准备测序文库。基于PCA的标准化程序基于J.-B.V.、B.E.E.和M.S.J.F.D.提供的等位基因特异性表达分析软件的结果。所有作者在研究的所有阶段都参与了研究设计和数据分析的定期详细讨论。该项目由Y.G.和J.K.Pritchard负责设计和监督，M.S.定期提供信息。论文由J.K.Pickrell、Y.G和J.K.Pritchard撰写，所有作者提供信息。

作者信息测序数据以登录号存放在基因表达总览（GEO）中GSE19480标准、和也可在http://eqtl.uchicago.edu。

作者声明没有竞争性的经济利益。

补充信息链接到该论文的在线版本www.nature.com/nature（自然）。

工具书类

1Rockman MV，Kruglyak L.全球基因表达遗传学。《遗传学自然评论》。2006;7:862–872.[公共医学][谷歌学者]

2Frazer KA等人。第二代人类单倍型图谱，包含310多万个SNP。自然。2007;449：851–861。 [PMC免费文章][公共医学][谷歌学者]

三。Cheung VG等。在淋巴母细胞中评估人类基因表达的自然变异。自然遗传学。2003;33:422–425.[公共医学][谷歌学者]

4Kwan T等。人类基因组中选择性剪接的遗传性。基因组研究。2007;17:1210–1218. [PMC免费文章][公共医学][谷歌学者]

5Cheung VG等。通过区域和全基因组关联绘制人类基因表达的决定因素。自然。2005年；437:1365–1369. [PMC免费文章][公共医学][谷歌学者]

6Stranger BE等人。人类基因表达的群体基因组学。自然遗传学。2007;39:1217–1224. [PMC免费文章][公共医学][谷歌学者]

7Veyrieras J-B等。表达-QTL的高分辨率定位有助于深入了解人类基因调控。公共科学图书馆-遗传学。2008;4：e1000214。 [PMC免费文章][公共医学][谷歌学者]

8Wang Z，Gerstein M，Snyder M.RNA-Seq：转录组学的革命性工具。《遗传学自然评论》。2009;10:57–63. [PMC免费文章][公共医学][谷歌学者]

9Li H，Ruan J，Durbin R.使用绘图质量分数绘制短DNA测序读取和调用变体。基因组研究。2008;18:1851–1858. [PMC免费文章][公共医学][谷歌学者]

10Huang RS等。一种全基因组方法，用于识别有助于足叶乙甙诱导细胞毒性的遗传变异。美国国家科学院程序。2007;104:9758–9763. [PMC免费文章][公共医学][谷歌学者]

11Miller W等人，UCSC基因组浏览器中的28路脊椎动物排列和保护轨迹。基因组研究。2007;17:1797–1808. [PMC免费文章][公共医学][谷歌学者]

12Wang ET等。人类组织转录体中的替代亚型调控。自然。2008;456：470–476。 [PMC免费文章][公共医学][谷歌学者]

13Zhao J，Hyman L，Moore C.真核生物中mRNA 3′的形成：机制、调节以及与mRNA合成中其他步骤的相互关系。微生物分子生物学评论。1999;63:405–445. [PMC免费文章][公共医学][谷歌学者]

14Xie X，等。通过对几种哺乳动物的比较，系统地发现人类启动子和3′UTR中的调控基序。自然。2005年；434:338–345. [PMC免费文章][公共医学][谷歌学者]

15Sandberg R、Neilson JR、Sarma A、Sharp PA、Burge CB。增殖细胞表达的mRNA具有缩短的3′非翻译区和较少的microRNA靶位点。科学。2008;320:1643–1647. [PMC免费文章][公共医学][谷歌学者]

16Mayr C，Bartel博士。通过选择性切割和多聚腺苷化广泛缩短3′UTR激活癌细胞中的癌基因。单元格。2009;138:673–684. [PMC免费文章][公共医学][谷歌学者]

17Mortazavi A、Williams BA、McCue K、Schaeffer L、Wold B.通过RNA-Seq对哺乳动物转录体进行定位和量化。自然方法。2008;5:621–628.[公共医学][谷歌学者]

18Cloonan N等。通过大规模mRNA测序进行干细胞转录组分析。自然方法。2008;5:613–619.[公共医学][谷歌学者]

19Choy E等人，人类特征的遗传分析在体外：淋巴母细胞系中的药物反应和基因表达。公共科学图书馆-遗传学。2008;4：e1000287。 [PMC免费文章][公共医学][谷歌学者]

20Kang HM，Ye C，Eskin E.在虚假和真实监管热点的混淆下准确发现表达数量性状位点。遗传学。2008;180：1909年至1925年。 [PMC免费文章][公共医学][谷歌学者]

21Stranger BE等人。人类基因表达变异的全基因组关联。公共科学图书馆-遗传学。2005年；1：e78。 [PMC免费文章][公共医学][谷歌学者]

22蒙哥马利·SB等人。在高加索人群中使用第二代测序的转录组遗传学。自然。doi:10.1038/nature08903。这个问题。[PMC免费文章][公共医学] [交叉参考][谷歌学者]

23Ge B，et al.全球模式顺式高密度等位基因表达分析揭示了人类细胞的变异。自然遗传学。2009;41:1216–1222.[公共医学][谷歌学者]

24Verlaan DJ等。针对性筛查顺式-人类单倍型的调节变异。基因组研究。2009;19:118–127. [PMC免费文章][公共医学][谷歌学者]

25Watson J等人。基因的分子生物学。6.第13章。本杰明·卡明斯；2008[谷歌学者]

26Fraser HB，Xie X.人类疾病中常见的多态性转录物变异。基因组研究。2009;19:567–575.[公共医学][谷歌学者]

27Moffatt MF等，基因变体调节ORMDL3型表达与儿童哮喘的风险有关。自然。2007;448:470–473.[公共医学][谷歌学者]

28Marioni JC、Mason CE、Mane SM、Stephens M、Gilad Y.RNA-seq：技术再现性评估和与基因表达阵列的比较。基因组研究。2008;18:1509–1517. [PMC免费文章][公共医学][谷歌学者]

29Guan Y，Stephens M.基于插补的关联映射中的实际问题。公共科学图书馆-遗传学。2008;4：e1000279。 [PMC免费文章][公共医学][谷歌学者]

30Degner JF等。读图偏差对从RNA测序数据中检测等位基因特异性表达的影响。生物信息学。2009;25:3207–3212. [PMC免费文章][公共医学][谷歌学者]

通过RNA测序了解人类基因表达变异的机制

约瑟夫·皮克雷尔

约翰·马里奥尼

阿提玛·A·派

雅各布·德格纳

芭芭拉·恩格哈特

Everlyne恩卡多里

Jean-Baptiste Veyrieras公司

马修·斯蒂芬

尤夫·吉拉德

乔纳森·普里查德

关联数据

摘要

方法总结

补充材料

补充数据

致谢

脚注

工具书类