跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
基因组研究。2012年6月;22(6): 1173–1183.
数字对象标识:10.1101/gr.132563.111
预防性维修识别码:项目经理3371698
PMID:22454233

五种哺乳动物多聚腺苷酸化的定量图谱

摘要

我们开发了PolyA-seq,这是一种用于多聚腺苷化转录物3′端高通量测序的特异性定量方法,并使用它在人类、恒河猴、狗、小鼠和大鼠的24个匹配组织中全局定位多聚腺苷酸化(PolyA)位点。我们表明,PolyA-seq与现有的RNA测序(RNA-seq)方法在数字基因表达(DGE)方面一样准确,能够同时绘制PolyA位点并定量测量其使用情况。在人类中,我们确认了158533个已知位点,发现280857个新位点(FDR<2.5%)。平均10%的新人类位点也在其他物种的匹配组织中检测到。大多数新位点代表了人类和小鼠已知转录物的非特征性选择性polyA事件和延伸,但主要描述了其他三个物种的新转录物。我们检测到的69.1%的已知人类基因在其3′UTR中有多个polyA位点,其中49.3%有三个或更多。我们还检测到非编码和反义转录物的多聚腺苷酸化,包括组成性和组织特异性的主要microRNA。典型的polyA信号在所有物种中都得到了高度富集和位置保守。一般来说,在不同物种的同一组织内,polyA位点的使用比在一个物种内更相似。这些polyA在进化和功能相关样品中使用的定量图构成了理解替代性聚腺苷化潜在调控机制的资源。

信使核糖核酸和非编码核糖核酸的测序对我们理解生物学和疾病做出了重要贡献,对诊断和治疗有许多意义。作为测序能力快速扩展的结果,最近描述的方法产生了转录组的综合表征(Mortazavi等人,2008年;Armour等人,2009年;Wang等人,2009年;Levin等人,2010年)并用于发现和监控替代拼接(Sultan等人,2008年;Wang等人,2008;Wilhelm等人2008)以及基因表达(Marioni等人,2008年)及其潜在的调节性遗传变异(Montgomery等人,2010年;Pickrell等人,2010年). 虽然转录组测序研究继续侧重于基因表达和RNA加工,但polyA位点的定位却很少受到关注,尽管有证据表明,后生动物中普遍存在替代性多聚腺苷酸化(Lee等人,2007年;Ozsolak等人,2010年)并导致表型变异和疾病。例如,通过替代的polyA位点避免microRNA调控在发育中起着重要作用(Mangone等人,2010年;Thomsen等人,2010年;Jan等人,2011年)和癌症(桑德伯格等人,2008年;Mayr and Bartel 2009年). 此外,组织特异性位点的广泛使用,其中一些与顺式-调控元件,表明选择性聚腺苷化受到严格调控(Proudfoot等人,2002年)具有重要的生理意义。最后,一些基因的3′UTR独立于同源编码区表达,因此可能具有以前未被认可的调节功能(Mercer等人,2011年).

需要一种简单可靠的polyA位点高通量绘图方法来帮助定义动态转录组中存在的完整转录组,并更好地理解选择性聚腺苷酸化的作用。EST和全长cDNA传统上用于定义初级转录物,但在大规模上变得昂贵和费力;因此,许多物种的基因组仍然被稀疏地注释。基因表达系列分析(SAGE)的高通量变异(Velculescu等人,1995年)已证明在DGE应用中很有用(Asmann等人,2009年),但它们对限制性位点的依赖阻碍了精确的定位,并完全排除了一些基因。对端双标签(PET)同时捕获mRNA的5′端和3′端(Ng等人,2005年,2006;Fullwood等人,2009年)尽管短标签序列和复杂的克隆协议给基因组比对和分析可扩展性带来了实际挑战。

最近,一些研究描述了利用高通量测序绘制3′转录末端的方法。最早的是一种改良的RNA-seq协议,其中逆转录是用T启动的20VN寡核苷酸(20个T后接一个非T,然后是一个随机碱基),第二条链由RNase H+DNA Pol I制成,然后是标准的文库构建(Yoon和Brem 2010). 使用配对测序法,一个配偶在转录本末尾附近捕获序列,而另一个配偶中的As或Ts延伸显示了相对于基因组DNA的方向。在名为MAPS的方法中,Fox-Walsh等人(2011年)使用T的生物素化变体20它能够绕过总RNA中的mRNA分离,并产生多重激活的3′-偏置cDNA文库。这两种方法的主要局限性是,大多数测序读取并没有精确地映射到转录末端,并且库被内部引物片段污染。Jan等人(2011年)开发了一种优雅的分子方法,通过在polyA尾部末端结扎夹板,将内部启动事件的表现最小化。该方法用于揭示数千个新的polyA位点秀丽线虫,但在图书馆建设过程中需要许多步骤,而且还没有证明是定量的。最后,PAS-seq与MAPS相似,因为通用序列位于T的上游20VN,通过充当PCR锚,实现直接扩增(Shepard等人,2011年),但可以通过直接测序到转录本末端来精确定义polyA位点。迄今为止,所有方法均适用于少量样本。

我们开发了一种类似于PAS-seq的新方法(Shepard等人,2011年),但在第二链合成中使用随机启动不同,可以快速生成库。我们的协议需要6小时,其中只有2小时是实际操作。而不是T20VN,我们使用了T10VN,这也有助于在测序期间使用具有更有利杂交动力学的定制测序引物。我们的方法称为PolyA-seq,它捕获了PolyA延伸上游的转录序列,保留了链特异性,并准确地表示了与MAQC数据一致的转录丰度(Shi等人,2006年). 因此,它还定量地捕获了任何给定polyA位点的使用情况。我们开发了一种稳健的过滤方案来消除内部启动事件,并通过实验验证校准了错误发现率。在这里,我们描述了我们在五种哺乳动物中生成的polyA位点图谱的方法和探索性分析,重点关注组织和物种特异性,以深入了解多聚腺苷化的一般进化趋势。

结果

PolyA-seq是一种简单的高通量测序3′转录末端的策略

文库构建包括以下步骤:(1)以寡核苷酸为引物的反转录,寡核苷酸由一个通用序列组成,该序列在下游充当PCR锚,然后是T(10)VN(即10个胸腺嘧啶,然后是除胸腺嘧啶以外的随机碱,然后是随机碱),(2)使用连接到第二个PCR锚的随机六聚体进行第二链合成,以及(3)嵌套PCR以添加Illumina特异性适配器,同时保持链方向(图1A; 详细方案见补充文件1)。然后使用以10T结尾的引物进行测序。该协议产生一个反义读取,从polyA拉伸段上游的碱基开始。考虑适配器序列后,放大器通常为200–500 bp(图1B)和与标准集群生成协议兼容。我们将PolyA-seq应用于五个物种的24个样本,每个样本在Illumina GAIIx测序器上的一条通道中测序。我们将读取结果与基因组、转录本和外显子-外显子剪接连接对齐,并保留所有唯一映射的读取结果以供进一步分析(图1C; 有关更多详细信息,请参见方法)。

保存图片、插图等的外部文件。对象名称为1173fig1.jpg

(A类)PolyA-seq的示意图。输入是polyA+选择的RNA(绿色)。使用U1-T10VN进行反转录,然后进行RNase H处理以降解RNA。使用U2-N6进行二级合成是通过随机-定时Klenow延伸实现的。U1和U2与通过PCR添加的Illumina特异性适配器具有序列互补性。这产生了可以直接测序的DNA库。(B类)一个典型的文库由200至500bp的扩增子组成(Illumina适配器占79bp)。(NTC)无模板控制。(C类)计算程序:读取与基因组和转录组对齐(此处[*]定义为从UCSC已知基因、RefSeq和Ensembl提取的已知和预测剪接连接,然后转换为基因组坐标;有关更多详细信息,请参阅方法)。然后根据内部启动电位筛选具有唯一位点的匹配,并聚集到polyA位点。

PolyA-seq是DGE的准确方法

为了评估PolyA-seq的定量潜力,我们分析了人脑参考和通用人类参考(UHR)MAQC样品(Shi等人,2006年)在技术复制中。我们以百万读数来衡量表达,即与转录本对齐的读数除以实验中唯一对齐的读总数(单位:百万)。由于我们有兴趣证明PolyA-seq是一种用于DGE应用程序的简单方法,因此我们在该分析中使用了所有映射读取,而不是过滤读取(见下文);然而,使用过滤读取对DGE准确性的影响可以忽略不计(数据未显示)。我们发现再现性很高(大脑技术复制品Pearson第页= 0.994,图2A; 超高辐射技术复制品皮尔逊第页= 0.988). 我们还观察到与qRT–PCR(Pearson第页脑/UHR比值=0.948;图2B). 系统比较应用于MAQC数据的六种表达谱分析方法(qRT-PCR[Shi等人,2006年]、Affymetrix微阵列[Shi等人,2006年],安捷伦微阵列[Shi等人,2006年],核糖核酸序列[Bullard等人,2010年]和3′-标签DGE[Asmann等人,2009年])PolyA-seq在比率和绝对基因表达定量方面至少与任何其他方法一样(图2C; 有关详细信息,请参见方法)。在基于比率的比较中,RNA-seq和PolyA-seq与qRT-PCR的一致性最高。受测序吞吐量有限时(例如,多路复用时)这些方法中的一种可能更优越的激励,我们评估了qRT-PCR与随机选择的映射读取子集计算的表达值的相关性。这两种方法的准确度都要低得多,映射读取量不到100万,但在任何输入水平下的性能都没有显著差异(图2D). 这两种方法产生了相似比例的唯一可映射读取(RNA-seq为71%;参见表1对于PolyA-seq)。

表1。

测序深度、对齐分数和产生的polyA位点数量

保存图片、插图等的外部文件。对象名为1173tbl1.jpg
保存图片、插图等的外部文件。对象名为1173fig2.jpg

PolyA序列DGE。(A类)从总RNA独立处理的MAQC人脑技术复制品的DGE相关性(Pearson第页= 0.994). (B类)PolyA-seq与MAQC qRT–PCR脑/UHR比值的DGE相关性(第页= 0.948). (C类)MAQC常用表达技术的相关值(Shi等人,2006年)样品。底部,左边对角线的是基于大脑/UHR比率的相关性;顶部,正确的是基于绝对表达式值的相关性(平均值第页大脑对大脑,UHR对UHR)。所有比较数据均已发布:qRT–PCR(Shi等人,2006年),安捷伦(Shi等人,2006年)和Affymetrix(Shi等人,2006年)微阵列数据(Bullard等人,2010年),3英尺DGE(Asmann等人,2009年)、NSR(Armour等人,2009年). (D类)Brain/UHR-qRT-PCR的Pearson相关性随着PolyA-seq和RNA-seq映射读数数量的增加而改善。值表示100次随机采样迭代的平均值,误差条表示标准偏差。有关表达式数据处理的更多详细信息,请参见方法。

区分真正的polyA位点与内部启动事件

由于PolyA-seq依赖于一段腺嘌呤的启动,它捕获了转录后添加的PolyA尾部,以及基因组中编码的腺嘌呤的内部(即转录)延伸。EST、全长cDNA、GIS-PET(Fullwood等人,2009年),PAS-seq(Shepard等人2011)和polyA捕获克隆和测序(Mangone等人,2010年)策略也表现出一定程度的内部启动。在以往努力的基础上再接再厉(Lee等人,2007年),我们使用读数下游的基因组序列来区分真正的polyA位点和内部启动事件。我们建立了一个经验模型,该模型基于紧邻该位点下游的10个碱基(对应于RT引物的长度)来估计任何给定位点反映真正的多腺苷酸化事件的概率。为了建立模型,我们首先通过实验编制了内部启动事件和真正的polyA位点列表。我们从UHR中生成了PolyA-seq库,但在第一链合成中使用了以10 Ts结尾的寡核苷酸(即无VN)。这导致PolyA-seq读数在A段中随机放置。共有923911个读取包含基因组可对齐的5′端,但以不可识别的As延伸结束,从而定义了28818个独特的真正polyA位点(有关更多详细信息,请参阅方法)。3′端与基因组完全对齐的读数被视为内部启动事件(更多详细信息请参见方法和补充图1)。事实上,其中一些读数可能代表polyA位点,因为T10引物可以偶然杂交到polyA尾部的5′端。然而,我们估计这个比例很小,这些假阴性只能导致低估错误发现(参见方法)。

我们发现内部和polyA位点的启动位点基频之间存在显著差异(补充图1),并使用这些分布构建了一个log-odds评分模型,该模型估计了一个位点真实与内部启动的概率。利用该模型和UHR中的内部启动和polyA事件图,我们将过滤阈值校准为85.6%的灵敏度。在UHR数据集中,这对应于2.5%的假发现率(FDR)(补充图2;参见方法),这也与基于RT-PCR的额外验证一致(补充图3-5)。鉴于所有测序样本的基因组和转录复杂性相似(Chan等人,2009年),我们预计这一数字将普遍代表哺乳动物样品中的FDR。过滤位点的基频与已建立的基因末端的基频极为相似(补充图6A),我们的模型大大优于之前基于下游腺嘌呤数量的简单过滤(Lee等人,2007年;Shepard等人,2011年)(补充表1;例如,补充图6B)。此外,我们观察到数百个先前报道的可能是内部启动事件的polyA位点(例如,补充图6C)。我们注意到,仅仅使用一个缺少10个末端T的测序引物来识别真正的polyA位点并不能揭示原始的RNA启动位点,因为用于第一链合成的引物被纳入测序库(而不是RNA启动位点)(图1A). 最后,我们注意到,包括一个表示每个站点的读取计数的参数以帮助区分真实站点和内部启动的站点并没有提高性能(数据未显示)。我们推断,真实网站的总体使用率可能更高(即支持它们的阅读次数更多),但事实并非如此。

从数据的视觉检查来看,很明显,已知的polyA位点通常对应于映射到单个位置的主要读数簇,在几个碱基内有几个小峰。这种“摆动”在EST和cDNA比对中也很明显(Fujita等人,2011年)这可能是转录分裂不精确的结果(Proudfoot等人,2002年). 因此,我们将30个碱基内的所有峰聚集在同一条链上,并仅保留每个簇内的最高峰;将该窗口从10 bp变为200 bp不会显著影响位点的数量(补充图7)。表1总结了我们在每个样本中确定的PolyA-seq读取数和PolyA位点数。PolyA-seq的再现性很高;MAQC样品中分别检测到83%和84%的Brain和UHR polyA位点也在相应的技术复制中得到鉴定。

PolyA-seq是精确的,它捕获了所有物种中许多已知的、新颖的和替代的PolyA位点

我们评估了人类地图集的准确性和复杂性,其中转录组被广泛注释(例如,与恒河猴相比),以及我们拥有最多数据的地方(9/24个样本)。共有99.3%的UHR PolyA-seq读数与已知RefSeq 3′UTR重叠(不包括8%与相反链上其他基因重叠的3′UTRs),表明PolyA-seq具有较高的链特异性(如图3A). 绝大多数人类polyA位点与已知的转录末端一致,达到单碱基精度(图3A-C). 图3B对应于已知的转录末端(更多详细信息,请参见方法),位于上游的位点可能是替代的polyA位点(组织依赖性示例如图3C)在人类中,其数量超过了未标记的转录扩展(图3B).

保存图片、插图等的外部文件。对象名为1173fig3.jpg

PolyA-seq地图集基本特征评估。(A类)PolyA-seq以特定于股的方式检测PolyA位点。在人类剪接因子中检测到两个polyA位点(垂直尖峰)PTBP1型(正向基因组链,箭头所示)在所有组织中,而LPPR3型(反向链)只有一个polyA位点,仅在大脑中检测到。Y(Y)-轴单位为每百万读数(参见方法;注意-轴鳞片因组织而异)。正向和反向基因组链上的PolyA-seq位点以不同的颜色显示。(B类)人类位点同意已知转录末端的单基精度。已知末端代表RefSeq、UCSC KG或Ensembl每个基因报告的3′最多的位点。(C类)PolyA-seq揭示了构成性和组织依赖性的PolyA位点。在人体内LGI4(LGI4),polyA位点的选择取决于选择性拼接。即使绝对表达水平波动(参见A类详细信息)。中间位点主要用于肝脏,而下游位点在肾脏中被抑制,但在其他方面表达水平与上游位点相似。(D类)五种人体组织和UHR中polyA位点/3′UTR的数量(n个平均值/组织= 16,387,n个总uniq= 20,873; 参见3′UTR编译方法)。通过随机选择,将所有样本归一化为相同数量的对齐测序读数。(黑线)这六个样本的聚合数据的站点/3′UTR。(E类)测序读取次数/站点;根据每3′UTR的使用递减顺序来选择位点。(F类)前microRNA转录物的线性依赖性聚腺苷酸化。PolyA-seq检测包含let7a1,let7f1、和让7d在所有物种分析的所有组织中(数据未显示,但更多详细信息请参见补充图8;为简单起见,此处显示的PolyA-seq数据和PolyA信号仅用于人类、恒河猴和小鼠肾脏,并且仅用于感觉链;microRNA前体中的箭头指示转录方向)。在人类和恒河猴中,两个polyA位点(紫色尖峰)对应于两个典型的polyA信号(AATAAA;黑色蜱标记),其中第一个仅存在于灵长类动物基因组中(数据未显示)。在大鼠、小鼠和狗中,根据上游polyA信号的缺失,仅检测到下游polyA位点。(G公司)基因组特征中reads和polyA位点的分布。按照正文中的描述,在每个物种中聚集所有读取数据,然后进行过滤和聚类。

为了探索选择性polyA位点的分布,我们首先对RefSeq注释的3′UTR进行聚类(惠勒等人,2003年),UCSC已知基因(KG)(Fujita等人,2011年),并集成到27175个独特的3′UTR模型中(有关更多详细信息,请参见方法)。我们还将每个模型扩展了1kb,以捕获未标记的转录扩展。然后我们询问每个人体组织中每个UTR模型检测到多少个位点。为了进行比较分析,我们通过随机选择将每个人体样本细分为9886234个对齐读取(以匹配人体肌肉),计算了不同的对齐输入读取数。在至少一个人体组织中检测到20873(76.8%)个3′UTR模型;平均而言,46.3%、27.9%和30.7%的UTR有一个、两个和三个或多个检测位点(图3D). 跨组织的聚合阅读揭示了每个基因向更多位点的转移,表明其中许多位点依赖于组织(图3C). 总的来说,占主导地位(利用率最高)的站点的读取量超过90%(图3D)这表明,尽管次要网站普遍存在,但其使用频率往往低于主要网站。

在所有五个物种中,我们观察到与已知polyA位点的极好一致性。大多数PolyA-seq读取映射到已知的polyA位点,尽管大多数polyA地点是新颖的,尤其是在大鼠、狗和恒河猴中,现有的注释没有人类和小鼠的注释广泛(图3G; 有关更多详细信息,请参见方法)。这一结果与我们关于优势位点使用情况的观察结果一致,表明新位点经常在较低水平上使用,并可能解释为什么之前没有报道过它们。低频站点不太可能因误报而丰富,因为在我们的过滤模型中包含一个捕捉站点使用情况的参数并不能提高性能。换句话说,低频站点和高频站点一样可能是真实站点。microRNA簇中灵长类特有的polyA位点如所示图3F发生在保守位点上游75 bp处。

非编码RNA中的聚腺苷酸化

除了检测mRNAs中的多聚腺苷化外,PolyA-seq还捕获多聚腺苷酸化的非编码RNA,包括初级microRNA转录物和反义RNA。例如,polyA位点在许多let-7以及所有或几乎所有组织中的其他微小RNA簇,通过人、小鼠和大鼠的EST证实,但狗或恒河猴的EST不证实,因为在这些组织中EST是稀缺的(例如。,图3F; 补充图8)。肝脏特异性microRNA下游的多聚腺苷酸化MIR122型在肝脏中检出率很高,但在任何其他组织中均未检出(补充图9A);类似地,MIR124-1型,已知是脑特异性的,主要在大脑中检测到(补充图9B)。在具有丰富EST数据的物种中,如人类和小鼠,EST证实了PolyA-seq位点。在其他物种中,尤其是狗和恒河猴,PolyA-seq通过提供转录的直接证据来补充基于序列保守性的预测。通过PolyA-seq检测到的非编码RNA还包括人类加速区(HAR)转录本HAR1A型HAR1B型(补充图10A),XIST公司(补充图10B),以及HOTAIR公司(补充图10C),以及反义转录物DLX1(DLX1)(补充图11A)和HOXA11型(补充图11B)。

母题富集分析

我们评估了所有polyA位点150 bp范围内每个组织和所有可能的6-mer的出现频率,并将其与随机选择的相同长度的3′UTR序列中观察到的频率进行了比较(表2). 通过计算,确定了统计上最丰富的前100个六聚体Z轴-使用二项分布的正态近似值对组织和背景之间的差异进行评分。然后通过计算χ评估每个k-mer的位置偏差2统计评估了组织中polyA位点150bp范围内k-mer均匀位置分布的无效假设。每个组织中前10个位置富集的k-mer,以及6-mer在任何提供了polyA位置附近的位置。在所有情况下,这些频率相对于背景高度富集(Fisher精确检验P(P)-值低于所有情况下的计算精度水平)。总共98%的polyA位点与这些六聚体中的一个相匹配,我们观察到这些位点上游的预期富集(图4A). 单个基频(图4B)也支持已知CA二核苷酸在裂解位点的富集(Sheets等人,1990年;Chen等人,1995年).

表2。

在5个人体组织和随机3′UTR背景序列中观察到polyA位点附近的6 mer频率

保存图片、插图等的外部文件。对象名为1173tbl2.jpg
保存图片、插图等的外部文件。对象名为1173fig4.jpg

在过滤的polyA位点存在典型的聚腺苷酸化序列信号。(A类)聚腺苷酸化基序位置相对于polyA位点的分布在polyA位置上游20–22 bp处富集,第二峰在10–11 bp处。12个得分最高的六聚体的位置频率(表2)如图所示。大多数序列(98%)与规范序列具有完全匹配或单一失配位点。(B类)在每个碱基上计算的polyA位点周围的平均碱基含量。

polyA位点使用的进化保护

据我们所知,这项研究是首次系统、公正地在多个物种的匹配组织中并行编译polyA位点。鉴于组织特异性替代多聚A位点的使用范围,一个明显的进化问题是,多聚A部位的使用是否在物种间保持不变,或者物种是否携带可能导致表型变异的独特多聚腺苷化特征。我们推断,如果多A位点的使用通常是在净化选择下进行的,那么在物种间的同一组织中的使用应该比在同一物种内的不同组织中的更为保守。

为了解决这个问题,我们为我们的图谱中的每个polyA位点编译了一组五向同源基因组坐标。在每个物种的至少一个组织中检测到2590个polyA位点(图5A). 我们将每个样本中的站点使用标准化为Z轴-分数(偏离平均读取数/站点的标准偏差数)和聚集站点(图5B; 等级、皮尔逊相关距离、平均联系)。为了全面表示样本之间的相似性,我们还对皮尔逊相似性值进行了聚类(图5C). 我们发现,在同源组织中,尤其是在大脑、肾脏和肝脏中,多A位点的使用通常惊人地相似(图5C). 在亲缘关系密切的物种之间,相似组织的簇也更加明显。例如,恒河猴和人类组织,以及小鼠和大鼠组织,往往相关性更强。以前已经证明在类似组织中保持基因表达(Chan等人,2009年)并且可能有助于我们观察到的聚腺苷酸化的一般保护。无论如何,这一观察结果表明,替代性多聚腺苷化并不是驱动表型多样性的主导力量。组织间保存模式的差异为未来的研究提供了机会。

保存图片、插图等的外部文件。对象名为1173fig5.jpg

polyA位点使用的进化守恒。(A类)将非人类polyA位点转移到人类坐标系(见方法),与人类polyA-位点结合,并进行聚类。(B类)基于polyA位点的使用/表达,对每个物种中至少一个样本中检测到的2590个同源位点进行二维聚类。PolyA位点表达标准化为Z轴-每个样本内的得分(偏离平均值的标准偏差)。(C类)所有成对样本组合之间皮尔逊相关系数的二维聚类。大多数样本与其他物种的同源样本的相关性高于同一物种的样本(例如,大脑、肝脏和睾丸)。所有聚类均采用Pearson相关性作为距离和分组平均连锁的衡量标准进行分级。

讨论

我们的主要目的是生成一个准确、全面和系统的图谱资源,以加强基因结构注释工作,并为更多的功能研究提供支持。根据我们稳健的过滤方案,实验验证显示了高灵敏度(~85%)和低错误发现(~2.5%),并且与先前定义的polyA位点非常一致(图3;表1). 典型polyA信号的位置富集(图3)支持这些强大的性能指标。我们在五个物种中的每一个物种中都发现了60000多个新的polyA位点,在大鼠、狗和恒河猴中发现了约150000多个,之前的注释有限(表1). 在所有物种中,独特位点累积总数中新位点与已知位点的比率大于任何单个组织中的比率,这表明大多数新位点是组织特异性的。虽然一些基因似乎主要在正常组织中表达一个polyA位点,而其他基因则含有组织依赖性位点(例如。,ELAVL1型; 补充图6B),近70%的基因在其表达的所有组织中一致使用多个polyA位点。

尽管大多数测序读数支持已知的polyA位点,但大多数位点,尤其是注释广泛的物种(例如人类、小鼠)中的大多数位点都是新的(图3G). 这意味着新位点的聚腺苷酸化倾向于低频事件(即很少有读数支持)。我们的验证/筛选工作强烈表明,这些位点是真正的多聚腺苷化事件(见结果),尽管它们的生理作用尚不清楚。类似于早期关于广泛转录的报道(Cheng等人,2005年),后来显示按质量计算细胞中大多数非核糖体RNA的转录起源可以追溯到编码外显子或前mRNA(van Bakel等人,2010年). 事实上,数千个新转录本的功能作用受到了广泛的讨论,尽管后来有研究表明,一大类“新转录本”在转录调控中起着更普遍的作用(Neil等人,2009年;Xu等人,2009年). 同样,我们认为会有一些新的低频polyA位点的例子具有重要的功能意义,但大多数可能是隐秘转录物的多聚腺苷酸化事件或细胞可耐受的异常事件。尽管如此,这本地图集包含了数千个新的高频网站,这些网站将有助于转录注释工作,尤其是在不太明确的物种(例如恒河猴、狗)中。

PolyA-seq提供了转录的具体证据,这对于罕见转录物(例如,补充图8-12)和EST较少的物种(例如恒河猴和狗)尤其重要。例如,人类DLX1-AS系统(反义DLX1(DLX1))之前仅通过其鼠标直系图进行注释(补充图11B)let-7a-1恒河猴的集群之前用一个EST注释(图3F). 此外,PolyA-seq结果可用于识别新的转录物,并可用于补充RNA-seq数据以及捕获mRNA 5′端的数据集(Yamashita等人,2011年)和microRNA(Chien等人,2011年). 我们在一些microRNA前体的体内观察到低水平的聚腺苷酸化(例如,补充图9B、C)。由于在RNA降解过程中会发生短暂的RNA多聚腺苷酸化(Slomovic等人,2010年),我们假设PolyA-seq在DROSHA切割后捕获初级转录物的5′部分。因此,我们检查了这些polyA位点的精确位置,发现它们紧邻成熟转录物的上游(例如,补充图9C、D),与降解前体的短暂聚腺苷酸化一致。

一个主要的悬而未决的生物学问题是如何调节选择性聚腺苷酸化(APA)。总的来说,我们观察到优势位点和替代位点之间的使用比例相似,即使绝对表达有所波动(补充图9)。甚至具有脾依赖性APA的基因(例如。,图3C; 补充图13)倾向于在组织中表现一致。这支持了APA受以下因素调节的理论顺式-作用调节作用,如转录物内的序列基序和二级结构和/或顺式-影响转录的作用DNA调节元件,反过来影响3′末端加工(Di Giammartino等人,2011年). 然而,许多研究报告了APA的动态行为;3′UTR长度在开发过程中可能会发生变化(Ji等人,2009年;Mangone等人,2010年)例如,一些3′UTR在癌症样本中被截断(桑德伯格等人,2008年). 这些和其他观察结果支持第二种理论,即环境,即反式-调节polyA位点选择和使用的作用因子。我们相信,我们的五种组织图谱和PolyA-seq具有独特的定位,有助于揭示APA的潜在机制。为此,我们设想了以下未来研究:

  1. 旨在发现顺式-作用调节元件,如序列基序和核酸结构元件是可能的。该图谱提供了功能重要性的三个方面的证据:场地使用的定量水平、组织特异性和其他物种使用的保护。在这三个标准的许多组合中丰富的基序/结构元素(例如,人类和恒河猴中存在的脑特异性基序,但其他哺乳动物中没有,这与启动子-远端选择性polyA位点有关)将对APA产生有趣的生物学见解。
  2. APA与其他数据的相关性,如RNA-seq、ChIP-seq和DNase敏感性图,以识别新候选反式-参与调节APA的作用因素。许多哺乳动物组织中的许多转录因子、组蛋白修饰物和RNA Pol II活性的全球基因组结合图正在变得可用。结合亲和力与本图谱三维采样空间中特定类型APA之间的显著空间相关性(见上文1)可能产生与APA相关的新因素。
  3. APA与基因表达的相关性研究反式-代理APA监管机构。先前的研究揭示了iPS细胞中核心聚腺苷酸化因子水平的上调(Shi等人,2009年)分化组织中普遍下调,其中3′UTR往往更长(Ji等人,2009年),表明这种方法是值得的。许多组织的图谱,其中表达和polyA位点的使用都是从同一数据集计算出来的,这为识别与APA相关的基因表达模式(以及可能存在的顺式-作用因素)。这可能是一种强有力的方法,可以缩小被认为在APA的特定实例中发挥作用的候选因素列表。
  4. 将PolyA-seq应用于小鼠敲除或其他遗传模型,特别是RNA结合蛋白受到干扰的系统,可以对APA产生更多的了解。NOVA2就是一个成功的例子,它最终被证明可以规范APA(Licatalosi等人,2008年).

PolyA-seq作为一种方法也是一种实用的DGE方法,并且在量化DGE时无需考虑转录长度,这在使用传统RNA-seq时至关重要。因此,PolyA-seq比RNA-seq更能检测短转录物中的表达差异。此外,由于逆转录启动仅由腺嘌呤驱动,因此也避免了由转录序列差异引起的杂交动力学偏差。PolyA-seq还可以容纳配对基因读取,这可以将PolyA位点与上游外显子联系起来;我们通过简单地改变其中一个PCR引物以与配对的末端流细胞兼容而成功地做到了这一点(数据未显示)。还可以将条形码合并到第二链测序引物中,这将通过启用多路复用进一步扩展分析的可扩展性。将PolyA-seq应用于疾病状态可能会揭示异常的PolyA-site用法,从而可能产生一类新的生物标记物和候选物来解释疾病的病因。

方法

组织

FirstChoice人类参考脑总RNA来自Ambion(Applied Biosystems)。UHR RNA购自Stratagene Corp.。小鼠和狗组织总RNA购自BioChain。大鼠组织和剩余人类组织的总RNA购自Zyagen。恒河猴组织RNA由默克公司提供。根据制造商的说明(Invitrogen,cat#610.06),使用Dynabead mRNA纯化试剂盒分离PolyA+RNA。补充表2总结了本研究中使用的所有RNA样本。

PolyA-seq文库准备和测序

将两微升0.1 uM-tailed dT引物T(10)VN与150 ng polyA+RNA混合,最终体积为11μL(所有引物序列和详细方案见补充文件1)。在添加9μL逆转录母体混合物(4μL 5x缓冲液、2μL 10 mM dNTPs、1μL 100 mM DTT、1μL RNaseOUT和1μL SuperScript III酶)之前,将原模板混合物在65°C下加热5 min并在冰上冷却。将20-μL反转录反应在40℃培养90 min,70℃培养15 min,并冷却至4℃。通过添加1μL RNase H(Invitrogen Corp.)降解RNA模板,并在37°C培养20分钟,75°C培养15分钟,然后冷却至4°C。随后使用QIAquick PCR纯化试剂盒纯化DNA,并用65μL洗脱缓冲液洗脱(Qiagen,Inc.)。对于第二链合成,将60μL纯化cDNA添加到40μL Klenow主混合液中(12μL水、10μL 10x NEBuffer 2、5μL 10 mM dNTPs、3μL 5单位/ul exo-Klenow片段;M0212L,New England Biolabs,Inc.)和10μL 10 uM尾随机六聚体引物。将100μL反应在37°C下孵育30分钟,并冷却至4°C。通过与1.8体积的Agencourt AMPure XP珠(Beckman Coulter)孵育5分钟,用70%EtOH洗涤两次,并用50μL洗脱缓冲液洗脱,从第二链反应中纯化DNA。这一步骤大大减少了插入物<40 nt的克隆数。对于PCR扩增,将33μL纯化的第二链合成反应与17μL PCR主混合液(10μL 5x缓冲液2、1μL 25 mM MgCl2、1微升10 mM dNTPs、2微升10 uM正向引物、2微L 10 uM反向引物、1微L ExpandPLUS酶;罗氏诊断公司)。样品在94°C下变性2分钟,然后进行两个94°C循环10秒,40°C循环2分钟,72°C循环1分钟;94°C循环8次10秒,60°C循环30秒,72°C循环1分钟;94°C 15次循环15秒,60°C 30秒,72°C 1分钟;和72°C持续5分钟,以在冷却至4°C之前抛光末端。如上所述,使用AMPure XP珠纯化双链DNA。使用v4试剂在Illumina基因组分析仪IIx上对文库进行测序,并使用Illumiana分析管道(v1.4)调用碱基。PolyA-seq原始读取序列可在NCBI序列读取档案中找到(提交文件SRA039286),而校准和过滤站点可在GEO中找到(GSE30198标准). 请注意,PolyA-seq读数是反义的。

读取对齐方式

读取是反向完成的,然后与SOAP2对齐(Li等人2009)到各自的基因组和RefSeq基因产生的剪接连接集(惠勒等人,2003年)本研究中使用的所有转录/基因数据库均于2011年5月2日从UCSC下载。EST、GENSCAN和N-SCAN预测的剪接连接也用于实验定义的转录证据不可用的基因组区域。代表了上述基因/转录模型中与单外显子和双外显子跳跃事件相对应的所有可能的剪接连接;每个侧翼外显子序列至少需要5个nt重叠才能考虑比对。将剪接连接比对转换为基因组坐标,并保留唯一比对的读数以供进一步分析。3P系列秀丽线虫读取(Mayr and Bartel 2009年)与BLAT一致(肯特2002),能够更好地应对3′-A悬垂。

过滤内部启动事件并估计FDR

为了生成真正的polyA位点图谱,我们如上所述对UHR RNA进行了polyA-seq,但使用了以T10结尾的引物而不是T10VN,并以单端模式测序到76 bp。使用BLAT校准读数(肯特2002). 补充图1概述了我们构建过滤模型的过程。5′端完全对齐但3′腺嘌呤(三个或更多)未对齐的病例被认为是真正的polyA位点。如果整个阅读完全一致,则被视为潜在的内部启动事件,不包括具有AAUAAA基序或其变体的位点(Beaudo等人,2000年)在−40到−10 nt和/或与RefSeq转录本或EST的3′端重叠的位点(距离末端±10个碱基)。启动位点基频的两种分布用于生成log-odds模型,其中

方程式图像

个人账户分别是真正的polyA位点和内部脉冲基频。x个(A类,C,G,T型)表示位置处的基本标识在评估的下游场地内,其中A类,C,G,T型,是位置处As、Cs、Gs和Ts的频率因此,任何10个碱基的序列都可以用来计算polyA得分,并且在UHR T10VN数据上的性能非常好。测试集包括22551个与上述真正polyA位点一致的位点(阳性)和15530个与内部启动事件一致的位点。在评分阈值为3.0时,我们在测试集上获得了85.6%的敏感性和97.5%的特异性(1-假阳性率)。

估计假发现率(FDR;所有预测的polyA位点不正确的比例)比确定假阳性率(FPR;错误调用的已知阴性的比例)更具挑战性,因为它需要了解验证测试集以外的位点。理想情况下,人们可以知道所有内部启动位点的位置,并且可以直接测量FDR,因为它与FPR完全相同。尽管如此,如果测试集中的阳性与阴性比率反映了完整集合(即基因组)中真实的潜在比率,则可以从测试集中估计FDR。换句话说,如果从基因组中随机抽取polyA位点和内部启动事件来构建测试集,则FDR可以估计为1减去精度[即所有预测阳性的正确比例,或TP/(TP+FP)]。对于我们的测试集来说,缺少抽样偏差是正确的;polyA位点与内部启动位点的比率为1.45(22551/15530),真正polyA部位与内部启动延伸的比率(从T10读数测量)为1.61(92万个为真正的polyA位点的读数加上570万个大于98%的As且可能来自polyA尾部的读数,除以410万个可能是内部启动事件的读数;参见补充图1);1.61大于1.45,因此,我们通过该系数降低了估算FDR的精度(补充图2D)。在polyA得分阈值为3.0时,我们估计FDR为2.5%。

与已知polyA位点的比较

已知转录终点坐标(图3B)根据RefSeq、UCSC KG和Ensembl转录模型编译而成(从UCSC下载)(Fujita等人,2011年),取转录亚型重叠在同一基因组链上时的3′-最大位点。已知3′UTR坐标(图3D,E)还通过将重叠的亚型(在同一链上)折叠为代表基因组坐标联合的单个3′UTR模型,从RefSeq、UCSC KG和Ensembl转录本编译而来。来自这些转录源的122215个UTR被分解为27175个UTR模型,其中20873个在至少一个人类样本中检测到(每个组织中平均检测到16387个)。以前报告的polyA位点(图3G)由PolyA-DB2编译而成(Lee等人,2007年),数据库EST(Boguski等人,1993年)、GenBank mRNA(惠勒等人,2003年),UCSC已知基因(Fujita等人,2011年),RefSeq基因(惠勒等人,2003年)和集成基因(Flicek等人,2011年). 坐标从UCSC获得(Fujita等人,2011年)可用时,或使用BLAT与相应基因组对齐(肯特2002)(使用默认设置并采用最佳对齐方式)。

遗址的进化保护

为了最小化由于测序深度造成的差异,我们随机删除每个样本中的映射读取以匹配小鼠睾丸(520万个映射读取),以便所有样本具有相同的输入读取数(除了小鼠大脑,总共有330万个)。然后,我们使用LiftOver程序和相应的链文件将鼠标、老鼠、狗和恒河猴的位置坐标转换为人类,所有这些都是从UCSC获得的;在这一步骤中保持了绞合性。对同一条链上30 bp以内的位点进行聚类,并对每个聚类中每个样本的读取计数进行汇总。只有在每个物种的至少一个样本中检测到一个位点时,才保留多物种簇(n个= 2590). 对于每对样本,我们计算了所有polyA位点簇的自然读取计数对数的皮尔逊相关系数。然后根据这些相关性对样本进行聚类。我们以类似的方式使用LiftOver来确定位于所有其他物种中保守区域的人类polyA位点的数量,以及其他物种中polyA-seq数据支持的部分。

数据访问

PolyA-seq原始读取序列已提交至NCBI序列读取档案(SRA)(http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi)注册号为SRA039286。NCBI基因表达总览(GEO)上提供了比对和筛选位点(网址:http://www.ncbi.nlm.nih.gov/geo/)(研究GSE30198标准). 具有标准化读取计数的过滤站点可通过UCSC基因组浏览器获得(http://genome.ucsc.edu/).

脚注

[本文有补充材料。]

文章印刷前在网上发布。文章、补充材料和发布日期位于http://www.genome.org/cgi/doi/10.1101/gr.132563.111.

通过免费在线提供基因组研究打开Access选项。

工具书类

  • Armour CD、Castle JC、Chen R、Babak T、Loerch P、Jackson S、Shah JK、Dey J、Rohl CA、Johnson JM等。2009利用选择性六聚体启动进行cDNA合成的数字转录组分析.Nat方法 6: 647–649 [公共医学][谷歌学者]
  • Asmann YW、Klee EW、Thompson EA、Perez EA、Middha S、Oberg AL、Therneau TM、Smith DI、Poland GA、Wieben ED等。2009使用Illumina基因组分析仪对人脑和通用参考RNA进行3′tag数字基因表达谱分析.BMC基因组学 10: 531doi:10.1186/1471-2164-10-531[PMC免费文章][公共医学][谷歌学者]
  • Beaudoi E、Freier S、Wyatt JR、Claverie JM、Gautheret D2000人类基因中不同聚腺苷酸化信号的使用模式.基因组研究 10: 1001–1010[PMC免费文章][公共医学][谷歌学者]
  • Boguski理学硕士、Lowe TM、Tolstoshev CM1993.dbEST–“expressed sequence tags”数据库 自然基因 4: 332–333 [公共医学][谷歌学者]
  • Bullard JH、Purdom E、Hansen KD、Dudoit S2010mRNA-Seq实验中归一化和差异表达的统计方法评估.BMC生物信息学 11: 94数字对象标识代码:10.1186/1471-2105-11-94[PMC免费文章][公共医学][谷歌学者]
  • Chan ET、Quon GT、Chua G、Babak T、Trochesset M、Zirngibl RA、Aubin J、Ratcliffe MJ、Wilde A、Brudno M等。2009脊椎动物组织中核心基因表达的保护.生物杂志 8: 33doi:10.1186/jbiol130[PMC免费文章][公共医学][谷歌学者]
  • Chen F、MacDonald CC、Wilusz J1995哺乳动物多聚腺苷酸化信号中的裂解位点决定因素.核酸研究 23: 2614–2620[PMC免费文章][公共医学][谷歌学者]
  • Cheng J、Kapranov P、Drenkow J、Dike S、Brubaker S、Patel S、Long J、Stern D、Tammana H、Helt G等。20055核苷酸分辨率下10条人类染色体的转录图谱.科学类 308: 1149–1154 [公共医学][谷歌学者]
  • Chien CH、Sun YM、Chang WC、Chiang-Hieh PY、Lee TY、Tsai WC、Hong JT、Tsou AP、Huang HD2011基于高通量测序数据识别人类microRNA转录起始位点.核酸研究 39: 9345–9356[PMC免费文章][公共医学][谷歌学者]
  • Di Giammartino DC、Nishida K、Manley JL2011选择性聚腺苷化的机制和后果.分子电池 43: 853–866[PMC免费文章][公共医学][谷歌学者]
  • Flicek P、Amode MR、Barrell D、Beal K、Brent S、Chen Y、Clapham P、Coates G、Fairley S、Fitzgerald S等。20112011年合奏.核酸研究 39:D800–D806[PMC免费文章][公共医学][谷歌学者]
  • 福克斯-沃尔什K、戴维斯-图拉克J、周Y、李H、傅XD2011多聚(A+)RNA的多重RNA-seq分析策略:在转录反应和3′末端形成分析中的应用.基因组学 98: 266–271[PMC免费文章][公共医学][谷歌学者]
  • Fujita PA、Rhead B、Zweig AS、Hinrichs AS、Karolchik D、Cline MS、Goldman M、Barber GP、Clawson H、Coelho A等。2011.UCSC基因组浏览器数据库:2011年更新.核酸研究 39:D876–D892[PMC免费文章][公共医学][谷歌学者]
  • Fullwood MJ、Wei CL、Liu ET、Ruan Y2009用于转录组和基因组分析的配对标记(PET)的下一代DNA测序.基因组研究 19: 521–532[PMC免费文章][公共医学][谷歌学者]
  • Jan CH、Friedman RC、Ruby JG、Bartel DP2011.Formation, regulation and evolution of秀丽隐杆线虫3英尺UTR.自然 469: 97–101[PMC免费文章][公共医学][谷歌学者]
  • 冀Z、李JY、潘Z、江B、田B2009小鼠胚胎发育过程中选择性聚腺苷酸化对mRNAs 3′非翻译区进行性延长.国家科学院程序 106: 7028–7033[PMC免费文章][公共医学][谷歌学者]
  • 肯特·WJ2002BLAT–类似BLAST的对齐工具.基因组研究 12: 656–664[PMC免费文章][公共医学][谷歌学者]
  • Lee JY、Yeh I、Park JY、Tian B2007PolyA_DB 2:脊椎动物基因中的mRNA多聚腺苷化位点.核酸研究 35:D165–D168[PMC免费文章][公共医学][谷歌学者]
  • Levin JZ、Yassour M、Adiconis X、Nusbaum C、Thompson DA、Friedman N、Gnirke A、Regev A2010股特异性RNA测序方法的综合比较分析.Nat方法 7: 709–715[PMC免费文章][公共医学][谷歌学者]
  • 李锐、于C、李毅、林太伟、姚SM、克里斯蒂安森K、王杰2009SOAP2:一种改进的超快工具,用于短阅读对齐.生物信息学 25: 1966–1967 [公共医学][谷歌学者]
  • Licatalosi DD、Mele A、Fak JJ、Ule J、Kayikci M、Chi SW、Clark TA、Schweitzer AC、Blume JE、Wang X等。2008HITS-CLIP为大脑选择性RNA处理提供全基因组见解.自然 456: 464–469[PMC免费文章][公共医学][谷歌学者]
  • Mangone M、Manoharan AP、Thierry-Mieg D、Thiery-Mieg J、Han T、Mackowiak SD、Mis E、Zegar C、Gutwein MR、Khivansara V等。2010景观秀丽线虫3英尺UTR.科学类 329: 432–435[PMC免费文章][公共医学][谷歌学者]
  • Marioni JC、Mason CE、Mane SM、Stephens M、Gilad Y2008RNA-seq:技术再现性评估和与基因表达阵列的比较.基因组研究 18: 1509–1517[PMC免费文章][公共医学][谷歌学者]
  • Mayr C、Bartel DP2009通过选择性切割和多聚腺苷化广泛缩短3′UTR激活癌细胞中的癌基因.单元格 138: 673–684[PMC免费文章][公共医学][谷歌学者]
  • Mercer TR、Wilhelm D、Dinger ME、Solda G、Korbie DJ、Glazov EA、Truong V、Schwenke M、Simons C、Matthaei KI等。20113′非翻译区不同RNA的表达.核酸研究 39: 2393–2403[PMC免费文章][公共医学][谷歌学者]
  • Montgomery SB、Sammeth M、Gutierrez-Arcelus M、Lach RP、Ingle C、Nisbett J、Guigo R、Dermitzakis ET2010在白人人群中使用第二代测序的转录组遗传学.自然 464: 773–777[PMC免费文章][公共医学][谷歌学者]
  • Mortazavi A、Williams BA、McCue K、Schaeffer L、Wold B2008利用RNA-Seq对哺乳动物转录体进行定位和量化.Nat方法 5: 621–628 [公共医学][谷歌学者]
  • Neil H、Malabat C、d’Aubenton-Carafa Y、Xu Z、Steinmetz LM、Jacquier A2009广泛存在的双向启动子是酵母中隐蔽转录物的主要来源.自然 457: 1038–1042 [公共医学][谷歌学者]
  • Ng P、Wei CL、Sung WK、Chiu KP、Lipovich L、Ang CC、Gupta S、Shahab A、Ridwan A、Wong CH等。2005转录组特征和基因组注释的基因识别特征(GIS)分析.Nat方法 2: 105–111 [公共医学][谷歌学者]
  • Ng P、Tan JJ、Ooi HS、Lee YL、Chiu KP、Fullwood MJ、Srinivasan KG、Perbost C、Du L、Sung WK等人。2006成对双标记多重测序(MS-PET):转录组和基因组超高通量分析的策略.核酸研究 34:e84doi:10.1093/nar/gk1444[PMC免费文章][公共医学][谷歌学者]
  • Ozsolak F、Kapranov P、Foissac S、Kim SW、Fishilevich E、Monaghan AP、John B、Milos PM2010酵母和人类中的综合多聚腺苷酸化位点图揭示了普遍存在的替代性多聚腺苷酸化.单元格 143: 1018–1029[PMC免费文章][公共医学][谷歌学者]
  • Pickrell JK、Marioni JC、Pai AA、Degner JF、Engelhardt BE、Nkadori E、Veyrieras JB、Stephens M、Gilad Y、Pritchard JK2010通过RNA测序了解人类基因表达变异的机制.自然 464: 768–772[PMC免费文章][公共医学][谷歌学者]
  • 新泽西州普劳德富特、福格A、Dye MJ2002整合mRNA处理和转录.单元格 108: 501–512 [公共医学][谷歌学者]
  • Sandberg R、Neilson JR、Sarma A、Sharp PA、Burge CB2008增殖细胞表达的mRNA具有缩短的3′非翻译区和较少的microRNA靶位点.科学类 320: 1643–1647[PMC免费文章][公共医学][谷歌学者]
  • 表MD、Ogg SC、Wickens MP1990AAUAAA和聚(A)加成位点的点突变:对体外切割和聚腺苷酸化准确性和效率的影响.核酸研究 18: 5799–5805[PMC免费文章][公共医学][谷歌学者]
  • Shepard PJ、Choi EA、Lu J、Flanagan LA、Hertel KJ、Shi Y2011PAS-Seq揭示的RNA多聚腺苷化的复杂动态景观.核糖核酸 17: 761–772[PMC免费文章][公共医学][谷歌学者]
  • Shi L、Reid LH、Jones WD、Shippy R、Warrington JA、Baker SC、Collins PJ、de Longueville F、Kawasaki ES、Lee KY等。2006微阵列质量控制(MAQC)项目显示了基因表达测量的平台间和平台内再现性.Nat生物技术 24: 1151–1161[PMC免费文章][公共医学][谷歌学者]
  • Shi Y、Di Giammartino DC、Taylor D、Sarkeshik A、Rice WJ、Yates JR 3rd、Frank J、Manley JL2009人类前mRNA 3′加工复合体的分子结构.分子电池 33: 365–376[PMC免费文章][公共医学][谷歌学者]
  • Slomovic S、Fremder E、Staals RH、Pruijn GJ、Schuster G2010人类细胞细胞质中RNA降解过程中添加富含聚A和聚A的尾部.国家科学院程序 107: 7407–7412[PMC免费文章][公共医学][谷歌学者]
  • 苏丹M、舒尔茨MH、理查德H、马根A、克林根霍夫A、谢尔夫M、塞弗特M、博罗迪纳T、索尔达托夫A、帕克霍姆丘克D等人。2008通过人类转录组的深度测序了解基因活性和选择性剪接的全局视图.科学类 321: 956–960 [公共医学][谷歌学者]
  • 汤姆森S、阿扎姆G、卡舒拉R、威廉姆斯LS、阿隆索CR2010Hox mRNAs中3′UTR的发育RNA加工作为调节microRNAs可见性的上下文相关机制.开发 137: 2951–2960 [公共医学][谷歌学者]
  • van Bakel H、Nislow C、Blencowe BJ、Hughes TR2010大多数“暗物质”转录本与已知基因有关.公共科学图书馆生物 8:e1000371doi:10.1371/journal.pbio1000371[PMC免费文章][公共医学][谷歌学者]
  • Velculescu VE、Zhang L、Vogelstein B、Kinzler KW1995基因表达的系列分析.科学类 270: 484–487 [公共医学][谷歌学者]
  • Wang ET、Sandberg R、Luo S、Khrebtukova I、Zhang L、Mayr C、Kingsmore SF、Schroth GP、Burge CB2008人类组织转录体中的替代亚型调控.自然 456: 470–476[PMC免费文章][公共医学][谷歌学者]
  • Wang Z、Gerstein M、Snyder M2009RNA-Seq:转录组学的革命性工具.Natl版本 10: 57–63[PMC免费文章][公共医学][谷歌学者]
  • Wheeler DL、Church DM、Federhen S、Lash AE、Madden TL、Pontius JU、Schuler GD、Schriml LM、Sequeira E、Tatusova TA等。2003国家生物技术中心数据库资源.核酸研究 31: 28–33[PMC免费文章][公共医学][谷歌学者]
  • Wilhelm BT、Marguerat S、Watt S、Schubert F、Wood V、Goodhead I、Penkett CJ、Rogers J、Bahler J2008在单核苷酸分辨率下调查的真核转录组的动态库.自然 453: 1239–1243 [公共医学][谷歌学者]
  • Xu Z、Wei W、Gagneur J、Perocchi F、Clauder-Munster S、Camblong J、Guffanti E、Stutz F、Huber W、Steinmetz LM2009双向启动子在酵母中产生普遍转录.自然 457: 1033–1037[PMC免费文章][公共医学][谷歌学者]
  • Yamashita R、Sathira NP、Kanai A、Tanimoto K、Arauchi T、Tanaka Y、Hashimoto S、Sugano S、Nakai K、Suzuki Y2011通过整合转录组分析对人类转录起始位点的全基因组特征.基因组研究 21: 775–789[PMC免费文章][公共医学][谷歌学者]
  • Yoon OK,Brem RB2010酵母非规范转录形式及其在环境胁迫中的调控.核糖核酸 16: 1256–1267[PMC免费文章][公共医学][谷歌学者]

文章来自基因组研究由以下人员提供冷泉港实验室出版社