跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
科学。作者手稿;2010年10月8日在PMC上市。
以最终编辑形式发布为:
2008年5月1日在线发布。 数字对象标识:10.1126/科学.1158441
预防性维修识别码:第951732页
NIHMSID公司:美国国立卫生研究院229938
PMID:18451266

通过RNA测序确定酵母基因组的转录图谱

关联数据

补充资料

摘要

虽然已经确定了许多基因组序列,但识别基因及其元件,如非翻译区(UTR)、内含子和编码区仍然是一个重大挑战。我们开发了一种新的基于序列分析的方法,称为RNA-Seq,其中cDNA片段使用Illumina平台进行高通量测序,并通过计算将短读映射到基因组以识别转录区域。我们已成功应用RNA-Seq生成酵母基因组的高分辨率转录组图。我们证明,酵母基因组的大多数独特序列(74.5%)是转录的。我们使用此方法全局映射5′UTR和3′UTR边界,确认了许多已知和预测的内含子,并证明其他内含子未被积极使用。我们的结果表明,许多已知基因的起始密码子中都有一个可供选择的密码子,并证明许多酵母基因都含有上游开放阅读框(uORF)。我们还发现了意外的3′端异质性和许多重叠基因的存在。我们还发现了许多其他方法无法识别的新转录区域。这些结果表明,酵母转录组比以前认识到的更复杂。此外,RNA-Seq被证明在量化RNA表达水平方面至少与DNA微阵列一样准确,并且具有更大的动态范围。我们预计RNA-Seq将是许多生物体转录体高分辨率绘图的一种有价值的通用方法。

介绍

大量基因组序列已经确定,随着DNA测序技术的最新进展,可能会有更多的基因组序列被阐明。前面的一个主要挑战是确定基因、外显子及其边界。这些信息对于理解基因组的功能元件,以及确定它们何时表达,以及它们是如何被调节和调节,以调节复杂的细胞和发育过程至关重要。

通常,基因是通过大开放阅读框(ORF)的存在或通过序列保守性来识别的(12)。这些方法的缺点是,它们通常无法识别短的外显子,也不能揭示非翻译区(UTR),这些非翻译区通常距离起始密码子和终止密码子相当远。此外,在这些分析中,不保守的基因和外显子将被忽略;这对于不编码蛋白质且序列通常不保守的基因和外显子来说尤其困难。

另一种鉴定基因的方法是鉴定转录序列。表达序列标签(EST)()或者cDNA测序可以鉴定高表达的转录物,但很难找到低水平表达的转录物。此外,3′端的识别存在偏差,并且很难找到基因的5′编码序列。DNA微阵列已被证明是一种有价值的工具,可用于寻找低水平表达的序列并生成基因组的转录图谱(45)。然而,DNA微阵列不能区分相似但不相同的序列,并且通常不具备精确识别外显子5′和3′边界的分辨率。

在这里,我们描述了一种新的基于高通量序列的全局转录组映射方法,称为RNA S排序(RNA-Seq)。在这种方法中,使用Illumina技术生成cDNA并进行大规模平行测序,用于定义外显子、5′和3′边界以及内含子,并量化基因表达水平。我们已经成功地应用RNA-Seq来绘制酵母基因组的转录区域。

酵母基因组最初通过ORF的存在进行注释,随后通过与其他酵母保守序列的鉴定进行注释(12)。最近,通过DNA拼接阵列的使用,发现了基因组的许多转录区域(6)和cDNA测序(7)。cDNA测序表明,许多基因的5′端在起始位点上往往是异质的(7)。尽管做出了所有这些努力,但酵母基因组的注释还远未完成。许多基因的5′边界未知,几乎所有酵母基因的3′端都没有映射;因此,对酵母UTR的特性,尤其是3′端的特性知之甚少。这一信息很有价值,因为UTR对于控制翻译起始、RNA定位和稳定性至关重要。此外,定义5′端对于定义可能的ORF以及每个基因的蛋白质编码区至关重要。

在这里,我们使用RNA-Seq方法来确定酵母基因组的综合基因结构和转录景观。我们的结果表明,许多酵母基因组(包括基因间区域)被转录,并揭示了许多其他方法未发现的新转录区域的存在。使用这种方法,我们绘制了大多数基因的5′和3′边界,确认了先前已知和预测的内含子,并以高度可信的方式量化了基因表达水平。我们的分析还揭示了许多注释酵母基因的新起始密码子,确定了包含新上游开放框(uORF)的基因,并证明了许多酵母基因的3′端异质性。除了揭示有关酵母基因组的许多新信息外,这里描述的RNA-Seq方法将极大地促进其他生物体的基因发现和基因组注释。

利用RNA测序绘制酵母基因组中的转录区

为了绘制酵母基因组的转录区,我们遵循了图1从富含培养基的酵母细胞中分离的Poly(A)RNA(参见材料和方法)被用于通过使用随机六聚体或寡核苷酸(dT)引物的反转录来生成双链cDNA。对双链cDNA进行片段化,并进行高通量Illumina测序,其中从片段末端确定35 bp的序列。对每个随机六聚体和寡核苷酸(dT)引物cDNA样本分别进行两次技术复制和两次生物复制,共读取14125182条和15787335条。这些序列读取经过信息学分析(图1B)使用内部开发的算法(参见材料和方法)。为了消除重复,从随后的分析中删除了酵母基因组中多个位点的序列读取。此外,为了适应相对于参考基因组的多态性和序列错误,在比较中最多允许两个不匹配。在29912517个总读取数中,15870540个(56%)使用此方法映射到基因组中的独特区域(图S1补充表S1).

保存图片、插图等的外部文件。对象名为nihms229938f1.jpg
RNA-Seq方法的实验和信息学流程图

A) RNA序列实验流水线。B) 信息管道。C) 映射的RNA-Seq读数的快照显示在缺失的基因中没有表达(LEU2级)和一个表达的邻近基因(YCL017C)。

我们的结果的质量是根据几个标准进行评估的。首先,29912517个序列读取值都不匹配基因组中3.5 kb的区域,其中URA3公司LEU2级MET15,HIS3型我们使用的酵母菌株中的片段被删除,在注释过的基因中,强烈的信号尤其明显(图1C);因此,我们的映射是特定的。第二,我们的技术和生物复制品彼此非常一致;每个样本的技术复制品具有0.99皮尔逊相关系数;生物复制的系数在0.93到0.95之间(图S2)。此外,随机六聚体和寡核苷酸(dT)引物产生的数据也密切相关(0.97),并且直观地显示出相似的表达模式(图S2)。因此,我们合并了所有这些数据集,并使用合并的数据集进行了后续分析。

酵母基因组的广泛表达

RNA-Seq分析显示整个酵母基因组广泛表达(图2A和2B)。将所有测序标签映射到酵母基因组的结果显示,总共有74.5%的基因组表达,至少在低水平上表达(图2C和2D)。我们检测到来自注释基因3′端的读取数多于来自注释基因5′端的。这种趋势是普遍的,因为所有酵母基因的聚集图显示出类似的结果(图S3)。3′偏倚可能是由于poly(A)纯化过程中3′序列的富集以及3′端的增强引发所致。尽管存在这种偏见,但深度测序允许检测整个基因的信号。总的来说,我们检测到的85%的碱基与使用DNA拼接微阵列发现的碱基重叠(6)

保存图片、插图等的外部文件。对象名为nihms229938f2.jpg
RNA-Seq显示酵母基因组的广泛表达

A) 转录区的基因组分布。颜色代表每个碱基的不同转录水平(log2标记计数)。B) 染色体VI上转录区的分布。C)转录碱基的直方图。D) 转录组转录水平的总结。

接下来,我们使用数据集来研究基因组中基因的整体转录活性。使用下面描述的检测高于特定阈值的转录的评分系统,我们检测到5099个注释ORF中4666个(91.5%)在S公司糖酵母菌G公司烯醇D类数据库(SGD)(图2)。值得注意的是,在这项分析中,我们删除了1178个ORF,它们的3′端彼此相距不到100bp,并且它们的转录本可能重叠。此外,237个ORF没有进行分析,因为它们的3′端有非唯一序列。20%的基因高表达;基因本体分析显示,如参与生物合成途径和离子运输的基因,如预期的那样,在高表达类别中特异性富集(P<0.03×10−58; 看见补充表S2完整列表)。39%和33%的基因分别为中表达和低表达。正如预期的那样,我们没有检测到许多基因的表达,这些基因的功能在所分析的生长条件中是不需要的。这些基因包括参与减数分裂、孢子形成、交配、细胞分化、糖转运和维生素代谢的基因(6)。通过qRT-PCR验证了34个基因的表达水平(见下文)。

利用RNA-Seq绘制基因边界和UTR

真核基因的5′和3′UTR对其调控至关重要,可以控制翻译效率、定位和mRNA稳定性。大多数酵母基因仅使用ORF进行注释,因此大多数酵母基因的5′和3′边界和UTR尚未定义。一项cDNA测序研究确实揭示了许多基因的5′UTR,并发现了相当大的异质性(7);然而,许多5′端还没有注释,关于3′端的信息也很少。RNA-Seq数据为绘制ORF两侧的5′和3′UTR提供了潜在的有价值信息,从而准确预测翻译起始位点和其他有趣的特征,如上游ORF(uORF)。

为了使用RNA-Seq绘制基因的5′端,我们首先使用RACE生成了一个非常大的5′末端绘制数据集。使用末端附近的引物扩增1331个基因的5′端,产生5′RACE PCR产物,随后对其进行测序并定位到基因组序列(补充表S4)。然后,我们开发了一种算法,通过搜索信号的急剧减少来映射RNA-Seq检测到的转录区域的5′端。分析中排除了表达水平很低的蛋白质编码基因。该算法最初使用RACE映射端的子集(来自染色体I、II和III的125个端)进行训练,然后应用于整个RNA-Seq数据集。这种方法使我们能够确定4665个转录酵母基因的5′边界区域。将这些结果与我们使用5′RACE绘制的1025个边界进行比较,结果表明,对于786个基因(77.9%;图3A,左上面板)。因此,我们分析中定义的5′边界相当准确。然后,我们将5′RACE结果与RNA-Seq结果相结合,定义了4835个酵母基因的5′边界。示例如所示图3B其中YKL004W的5′UTR边界由5′RACE和RNA-Seq数据定义。

保存图片、插图等的外部文件。对象名为nihms229938f3.jpg
5′和3′基因边界的分析与定位

A) RNA-Seq数据和我们的RACE数据(左上角)或RNA-Seq3′-UTR数据和cDNA测序数据之间的5′-UTR大小差异(7)(左下角)。图中还显示了5′-UTR(右上)或3′-UTR(右下)的大小分布。B) 通过RNA-Seq或5′-RACE测定YKL004W基因的5′-UTR的比较。C) 3′-UTR由RNA-Seq根据基因YDR460W、YDR004W和YDR461-C的末端标记确定,或YDR004W也由cDNA测序确定(7)。Endtag_W和Endtag_C分别表示Watson或Crick链上包含polyA尾部的RNA-Seq读取。D) 与cDNA数据相比,RNA-Seq基于表达急剧下降而确定的3′-UTR(7)。由于分数较低,本例中未使用结束标签信息。UTR,非翻译区;RACE,cDNA末端的快速暗示

我们还测定了酵母基因的5′UTR序列长度。中位长度为50,范围为0至990 bp(图3A; 右上面板)。我们的分析显示,241个基因中潜在的ATG距离5′端不到10 bp。尽管有短5′UTR的先例(8),我们不知道这些自动液位计或内部自动液位计是否用于部分或全部这些情况。

我们还对酵母基因的3′边界进行了全局映射,这是以前从未进行过的。使用了两种方法:一种是搜索RNA-Seq信号的快速下降,另一种是使用poly(a)序列识别末端标签,该序列包含位于基因组酵母序列旁边的3个或更多连续a的新片段。该算法的详细描述将在其他地方提供。使用这些方法,我们精确地绘制了5212个转录酵母基因的3′边界,并推导了转录链(补充表S4)。示例如所示图3C和D我们的结果与使用cDNA测序方法描述的结果基本一致。存在的许多差异可能是由于3′端异质性(下文讨论)(图3A,左下角)。此外,即使转录物在3′端重叠,末端标签也允许RNA-Seq分析精确地调用3′边界(图4).

保存图片、插图等的外部文件。对象名为nihms229938f4.jpg
使用RNA-Seq精确注释UTR

chrVI(a)上先前注释良好的区域和同一染色体上注释相对较差的区域中UTR的新注释(B)。在新的注释中,ORF用虚线表示,箭头表示转录方向。UTR由ORF两侧的绿色阴影框表示。红色的cDNA转录本为高自信转录本,蓝色的为低自信转录本(7)

令人惊讶的是,我们发现大量酵母基因的转录与另一条链的转录重叠。在表达的4646个已验证(即不可疑)ORF中,793个包含重叠的3′端。这与SGD中注释的17个ORF相比。因此,重叠转录在酵母基因组中很常见。

3′UTR的中位长度为104 bp,范围为0至1461 bp(图3A,右下面板)。有趣的是,尽管大多数酵母基因都有一个单一的精确3′端(在1–2 bp内),但在一个非常局限的区域(通常为2–10 bp)有许多基因具有异质的3′端序列,这表明在polyA信号处3′端处理存在一些变异。此外,有540个基因似乎使用了一个以上的poly(A)位点(即峰间距大于10 bp),据我们所知,这在酵母中以前没有报道过。局部异质性和多个3′端位点的例子在特征良好的动作1酵母基因(图S4);该基因包含至少两个polyA加合区域。

酵母基因组的重新命名

基于基因组序列的基因注释的主要问题之一是,通常很难预测给定基因的精确ATG起始密码子,特别是当转录物的5′端尚未定位时。在酵母基因组中,ORF 5′末端的第一个ATG通常被注释为起始密码子。然而,在一些数据库(但不是所有数据库)中,第二个ATG在预测的氨基末端蛋白编码序列不保守的情况下被注释(910)。准确确定5′端的能力应有助于评估哪个ATG是实际的起始密码子;这些信息对于理解和表征蛋白质组至关重要。

我们的RNA-Seq分析揭示了35个基因,其5′端位于ATG密码子上游,该密码子为5′,并且位于注释的ATG起始密码子的框架内;因此,该蛋白可能比使用当前注释预测的更长。图5A显示了YBL068W的示例,其ORF由16个氨基酸延伸。我们还发现29个基因,其5′端位于带注释的ATG下游,这表明这些蛋白比之前预测的短。RACE/测序证实了其中4个基因的5′端。

保存图片、插图等的外部文件。对象名为nihms229938f5.jpg
上游ATG、uORF和新转录区的注释

A) RNA-Seq揭示了相对于现有注释ATG(蓝色)可能具有上游起始密码子(uATG,红色)的基因。B) 一些基因在主要注释ORF的上游有ORF(uORF)。GO分析表明,它们在DNA结合(分子功能)和解剖结构和发育(生物过程)方面显著富集。P值经过错误发现率调整。C) uORF的一个示例(方框和红色)。D) 新转录区域的大小分布。E) cDNA测序覆盖的新转录区(7)以百分比表示。F) 带有polyA信号的新转录区域示例(红色阴影)。

我们还检查了我们的RNA-Seq和RACE数据中是否存在内含子。基于序列保守性、微阵列分析或其他研究,在酵母中已经报道了许多内含子。很少有人通过序列分析进行实验验证。我们开发了一种通过存在边界包含GT和AG/AC的不连续序列以及跨越内含子边界的序列标签来检测内含子的算法。该算法很容易检测到306个已知内含子中的240个。这包括三个在我们分析时没有注释的内含子示例。跨越全部240个基因的序列标签证实了这些基因的转录本是拼接的。RNA-Seq确认的内含子示例如所示图S4总的来说,这项工作提供了几乎所有酵母内含子的首次实验序列确认。

对于上述方法未验证的66个内含子,我们还检测了30个亲本基因表达的内含子。在四种情况下,YPL075W型ykl150瓦YNL128W-A型YKL186C型,内含子序列与相邻ORF的表达水平相似(图3E图S5);此外,我们没有找到这些基因的剪接连接标签的证据,但我们确实找到了未剪接产物的证据。因此,我们认为这些基因的转录物在营养细胞中并没有以明显的水平剪接。对于其中一个病例,从微阵列数据中得出了类似的结论(11)。其中两种情况影响预测的蛋白质序列。因此,总体RNA-Seq可以帮助验证内含子,并排除它们在RNA群体中的显著存在。

上游ORF存在于酵母基因的许多5′UTR中

最近对真核生物基因组的分析预测,许多5′UTR可能含有uORF(12)。17个酵母基因已被鉴定为uORF,以及酵母上游的uORFGCN4号机组CPA1公司已经证明基因可以调节Gcn4蛋白的表达(13)和降解CPA1公司信使核糖核酸(14)分别是。我们的RNA-Seq和5′RACE数据预测321(6%)个酵母基因转录物起始密码子上游的uORF(图5)。据预测,这些uORF编码的蛋白质大小从50到120个氨基酸不等。对这些基因的GO分析表明,编码DNA结合蛋白的基因(P<0.0027,FDR调整)以及解剖结构和发育(例如孢子形成;P<0.0045,FDR调节)显著丰富了uORF(图5B)。DNA结合蛋白中uORF的存在非常有趣,因为它表明这些基因可能在翻译水平上受到广泛调控。因此,许多酵母基因含有能够产生小蛋白和/或调节其下游基因的uORF。

新转录区的检测

我们对polyA(+)RNA cDNA序列的分析显示,基因间区域存在广泛的转录(图5D)。因此,我们系统地搜索了150 bp或更大长度的基因间区域,其表达具有统计学意义(见方法)。示例如所示图5F我们将487个信号远高于周围区域的区域进行了分类。其中,204个新区域尚未通过微阵列分析或cDNA研究观察到。我们使用定量RT-PCR实验和随机六聚体和寡核苷酸(dT)引物cDNA对RNA-Seq发现的18个区域进行了测试,但没有使用其他方法进行验证;在16例患者中,发现这些区域被转录(补充表S3)。因此,RNA-Seq结果表明,酵母基因组中的许多新区域转录并存在于polyA(+)RNA中。

利用RNA-Seq定量监测基因表达水平

RNA-Seq是一种定量方法,因此可用于量化细胞中的RNA水平。它具有较高的灵敏度,因此可能比基于微阵列的方法更准确,至少对于低水平表达的基因而言。为了确定RNA-Seq数据是否可以用于量化基因表达,我们确定了位于带注释的终止密码子3′端上游的30 bp窗口中的中值信号(补充表S4);将该区域3′端重叠的基因从该分析中删除。随后,通过qPCR测量预测在高、中、低水平范围内表达的34个基因的表达水平。我们发现qPCR和RNA-Seq数据之间有很强的相关性(R=0.98)(图6A)。正如所料,在低水平表达的基因中差异最大。结果优于使用标准表达微阵列测量类似酵母菌株中RNA表达的结果(R=0.72;图6C. (15)或平铺DNA微阵列分析(R=0.48;图6B以及(16)). 此外,RNA-Seq的动态范围至少为8000倍,而DNA微阵列的动态范围约为60倍(参见图6面板B和C的比例)。这些结果表明,RNA-Seq可用于准确量化RNA表达水平,并且与DNA微阵列相比,具有更好的动态范围。

保存图片、插图等的外部文件。对象名为nihms229938f6.jpg
RNA-Seq数据与qPCR、平铺阵列和基因表达微阵列的比较

A) 比较通过RNA-Seq或定量PCR(qPCR)测定的34个ORF的转录水平。B) RNA-Seq测定的4846个ORF转录水平与已发表的平铺阵列的比较(16)。C) RNA-Seq测定的4422个ORF转录水平与已发表的基因表达微阵列的比较(15)。皮尔逊线性相关系数(corr)如A–C所示。D) 通过RNA-Seq对5099个ORF的转录水平分布。

讨论

在这里,我们描述了一种新的RNA-Seq方法来绘制测序基因组的转录区域。与现有技术相比,该方法具有几个优点,尤其是DNA微阵列,它是目前最常用的转录区绘图工具(45)。首先,它允许查询基因组的所有独特序列,包括那些密切相关的序列;只要存在独特的基地,就可以对其进行监测。由于交叉杂交,微阵列通常无法区分密切相关的序列。其次,由于可以很容易地获得大量的读取,因此该方法非常灵敏,并且提供了大的动态范围;我们发现RNA-Seq具有8000倍的动态范围(参见图6)。这可能是由于RNA-Seq的背景较低;事实上,对超过2900万个读数的分析并没有发现与基因组删除区域相对应的单个标签。因此,RNA-Seq可以检测和量化极低水平表达的RNA水平。相反,DNA微阵列的动态范围为60-100倍,在低水平表达的RNA的量化可能很困难;微阵列动态范围的缩小可能是由于,至少部分是由于阵列中不同探针的交叉杂交。事实上,我们的RNA-Seq数据与已发表结果的比较(15)结果表明,RNA-Seq在定量RNA水平方面明显优于标准基因表达微阵列。第三,RNA-Seq可以准确确定外显子边界。3′polyA签名提供了3′UTR边界的精确定义,不连续序列的映射以及剪接一致序列的识别允许发现内含子。原则上,通过过度表示5′端序列来确定5′端的准确边界也是可能的。然而,由于a)酵母5′端通常是异质的(717)b)我们进行了扩增步骤,但在我们的研究中没有获得核苷酸分辨率。相反,一个近似的位置是由信号在一个小间隔内的急剧跃迁推导出来的。尽管如此,总的来说,我们用RNA-Seq方法提供了外显子边界的有用地图。

使用RNA-Seq,我们生成了酵母基因组的高分辨率转录图谱。我们首次在全球范围内绘制了酵母基因组3′端的图谱,发现许多酵母基因的3′端存在显著的异质性。大部分基因在3′端含有局部异质性,表明存在差异的局部加工事件。此外,我们还发现540个酵母基因的多个polyA位置,这表明polyA位点选择的区域不同。在许多生物体中,替代的polyA位点已被证明通过改变其蛋白质编码能力而产生具有独特生物学特性的独特转录物(18)转化调节(1920),稳定性(21)和细胞内定位(22)。因此,重要的是确定具有多个polyA加成位点的酵母基因的替代3′UTR是否存在差异功能。

我们研究的一个重要方面是发现酿酒酵母包含大量(793)个3′端重叠的表达基因。重叠转录物属性的普遍存在可能是酿酒酵母以及其他缺乏Dicer同源物从而避免mRNA加工和降解的生物体。3′端的重叠转录可能导致有趣的基因调控形式,其中相邻基因可能会相互影响表达。

除了揭示基因的可选3′端外,RNA-Seq还允许我们绘制大多数酵母基因的5′端和内含子。我们发现,35个基因中的第一个ATG位于SGD注释起始密码子的上游,而对于其他29个基因,第一个ATG位于注释起始密码元的下游。虽然我们无法确定上游ATG是否用于翻译,但它们与第一个ATG通常用于真核生物的预期一致(23)。对于5′端映射到带注释的ATG下游的情况,我们假设使用了下游ATG,至少在我们分析的植物生长条件下是这样。可能在其他单元格类型中使用较长的消息和带注释的ATG。最后,我们确认了240个内含子的存在。有趣的是,我们观察到一些例子,其中有一个带注释的内含子,但没有剪接的证据;缺少跨越内含子的序列标签表明,至少在营养细胞中,它们没有大量剪接。在两种情况下,内含子的存在或不存在会影响所得的蛋白质产物。因此,RNA序列可以定义内含子的存在和缺失,至少在mRNA群体的特定水平上是这样的。

5′端的定位不仅对理解基因调控,而且对基因组的生化和遗传特征都具有特别重要的价值。目前,利用蛋白质微阵列和其他方法对酵母基因组进行生化表征的工作正在进行中(2425)。同样,利用过表达实验和其他方法对酵母基因组进行遗传特征分析的工作正在进行中(26)。分配适当的ATG对于确保在这些研究中分析整个天然蛋白质和基因至关重要。因此,该分析中产生的重注数据将为科学界提供宝贵的资源,用于表征基因和蛋白质功能。

我们的研究还发现了大量带有uORF的基因(321个),这些基因与基因调控有关(27)。在酵母中,迄今为止只有17个基因被报道含有uORF(27)。因此,我们的数据表明,uORF比之前认识到的更为普遍,这表明许多基因可能通过uORF进行调控。我们发现许多DNA结合蛋白都含有uORF,这表明这些关键调控因子通常可能包含控制其调控的其他机制。到目前为止,只有GCN4(13)CPA1公司(28)已证明受uORF控制;我们的结果表明,这种机制更为普遍。

我们使用酵母cDNA片段分析polyA RNA的方法被证明可用于定义基因边界。我们还通过制备缺乏核糖体RNA的RNA来改变RNA序列协议。这种RNA的片段化,然后使用随机引物生成cDNA,然后对末端进行Illumina测序,显示出更均匀的基因覆盖。然而,基因边界的定义对于酵母基因来说并没有那么独特,因此所得数据对本研究没有那么有用。

除了表征已知的酵母基因外,我们还发现了酵母基因组新转录区的证据。我们发现,酵母基因组的大部分(74.5%)被转录。我们认为这种转录不是人为的,因为RNA-Seq的背景非常低。此外,这些数据与之前的研究一致,其中lacZ公司缺乏起始ATG的插入物即使位于基因间区域也经常表达(2930)。酵母基因组的广泛转录使得基因组中有很大一部分得以表达,因此可能对新基因功能的进化选择有价值(31).

对基因间区域的分析表明,其中许多区域可能形成新的转录单位。新转录单位的确切数量很难确定,因为它受到任意阈值的限制,但至少有487个高置信度的转录区域。其中,只有RNA-Seq发现了204个。使用qRT-PCR对18个新转录区进行的检测证实,大多数转录区都得到了表达,这表明这些区域在酵母中产生了真正的RNA。

总之,我们在这里描述的新型RNA-Seq方法使我们能够绘制酵母基因组的转录图谱,并首次定义UTR和许多新的转录区域。未来,应用该方法应有助于确定其他基因组的精确转录图谱,包括复杂生物混合物的基因组。

补充材料

支持数字

单击此处查看。(230万,pdf)

支持表格

单击此处查看。(83K,xls)

致谢

我们感谢萨维瑟拉玛·迪内什-库马尔对手稿的评论。这项工作得到了NIH和CT干细胞基金的资助。

工具书类

1Snyder M、Gerstein M。科学。2003;300:258。[公共医学][谷歌学者]
2Gerstein MB等人。基因组研究。2007;17:669.[公共医学][谷歌学者]
三。Adams MD等人。自然。1995;377:3.[公共医学][谷歌学者]
4Kapranov P等人。科学。2002;296:916.[公共医学][谷歌学者]
5Bertone P等人。科学。2004;306:2242.[公共医学][谷歌学者]
6David L等人。美国国家科学院院刊。2006;103:5320. [PMC免费文章][公共医学][谷歌学者]
7Miura F等人。美国国家科学院院刊。2006;103:17846. [PMC免费文章][公共医学][谷歌学者]
8Teilhet M、Rashid MB、Hawk A、Al-Qahtani A、Mensa-Wilmot K。基因。1998;222:91.[公共医学][谷歌学者]
9Kellis M、Patterson N、Endrizzi M、Birren B、Lander ES。自然。2003;423:241。[公共医学][谷歌学者]
10Cliften P等人。科学。2003;301:71.[公共医学][谷歌学者]
11朱诺·K、帕尔姆·C、米兰达·M、戴维斯·RW。美国国家科学院院刊。2007;104:1522. [PMC免费文章][公共医学][谷歌学者]
12Mignone F、Gissi C、Liuni S、Pesole G。基因组生物学。2002;:REVIEWS0004。 [PMC免费文章][公共医学][谷歌学者]
13Hinnebusch股份公司。微生物年鉴。2005;59:407.[公共医学][谷歌学者]
14Ruiz-Echevarria MJ,Peltz SW。单元格。2000;101:741.[公共医学][谷歌学者]
15Holstege FC等人。单元格。1998;95:717.[公共医学][谷歌学者]
16Perocchi F、Xu Z、Clauder-Münster S、Steinmetz LM。核酸研究。2007;35:e128。 [PMC免费文章][公共医学][谷歌学者]
17奥尔布赖特CF,罗宾斯RW。生物化学杂志。1990;265:7042.[公共医学][谷歌学者]
18Chuvpilo S等人。免疫。1999;10:261.[公共医学][谷歌学者]
19Knirsch L,牧师LB。生物化学与生物物理研究委员会。2000;272:164.[公共医学][谷歌学者]
20Iseli C等人。基因组研究。2002;12:1068. [PMC免费文章][公共医学][谷歌学者]
21Touriol C、Morillon A、Gensac MC、Prats H、Prats AC。生物化学杂志。1999;274:21402.[公共医学][谷歌学者]
22Kislauskis EH、Zhu X、Singer RH。细胞生物学杂志。1994;127:441. [PMC免费文章][公共医学][谷歌学者]
23科扎克·M·。美国国家科学院院刊。1995;92:7134. [PMC免费文章][公共医学][谷歌学者]
24Zhu H等人。科学。2001;293:2101.[公共医学][谷歌学者]
25Gelperin DM等人。基因发育。2005;19:2816. [PMC免费文章][公共医学][谷歌学者]
26Sopko R等人。分子细胞。2006;21:319.[公共医学][谷歌学者]
27维莱拉·C,麦卡锡·JE。摩尔微生物。2003;49:859.[公共医学][谷歌学者]
28沃纳·M、费勒·A、梅森古伊·F、皮耶拉德·A。单元格。1987;49:805.[公共医学][谷歌学者]
29Ross-Macdonald P等人。自然。1999;402:413。[公共医学][谷歌学者]
30Kumar A等人。国家生物技术。2002;20:58.[公共医学][谷歌学者]
31Coelho PS、Kumar A、Snyder M。当前操作微生物。2000;:309.[公共医学][谷歌学者]