跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
基因组生物学。2008; 9(12):R175。
2008年12月16日在线发布。 数字对象标识:10.1186/gb-2008-9-12-r175
预防性维修识别码:PMC2646279型
PMID:19087247

用大规模RNA测序注释基因组

关联数据

补充资料

简短摘要

一种使用高通量cDNA测序数据进行从头基因组注释的方法。

摘要

下一代技术支持大规模cDNA测序(即RNA-Seq)。主要是因为外显子-外显子连接的短读数很难对齐,到目前为止还没有尝试使用RNA-Seq来构建基因模型从头开始也就是说,在缺乏一组已知基因和/或剪接事件的情况下。我们现在G-Mo.R-Se公司(使用RNA-Seq的基因建模),这是一种旨在直接从RNA-Seq构建基因模型并证明其在葡萄基因组上的实用性的方法。

背景

下一代测序技术在缩短的时间范围内产生许多DNA片段的短读,并降低了每个核苷酸的成本[1,2]. 基因组短阅读已被用于研究遗传变异[],基因组重排[4],DNA甲基化[5]和转录因子结合位点(Chip-Seq)[6,7]. 为了有效地绘制大量读取数据,必须为基因组重新排序开发新的算法[8-11],以及从头开始基因组组装,以应对短长度的读取(通常少于35个核苷酸)[12-16]. 下一代测序方法也被应用于cDNA而非基因组DNA的测序,以便对microRNA进行分类[17-19]或者分析一些真核生物基因组的转录景观:这项技术被称为RNA-Seq[20-26].

在RNA-Seq技术发展之前,大规模RNA分析可以通过两种方法进行。第一种是基于标记的方法[27]如基因表达系列分析(SAGE)[28]和大规模并行签名排序(MPSS)[29],基于先前克隆的位于特定转录位置(通常为3'或5'末端)的标签的序列。转录物丰度可以从已知基因座的标签计数中获得,但没有发现新的基因或新的替代剪接形式。另一种方法,基于杂交的微阵列,具有监测整个转录组表达水平的潜力(当使用全基因组平铺阵列时,不一定偏向于已知基因[30-32])低成本,但由于杂交的背景水平以及探针的杂交特性不同这一事实,这是有偏见的。然而,转录物发现的金标准方法仍然是克隆cDNA的表达序列标签(EST)测序(通过桑格技术)[33-35]. 除了相对较高的成本外,它的主要局限性在于,这种方法对克隆偏差敏感。RNA-Seq技术结合了以前大规模RNA分析方法的优势,能够以低成本监测整个基因组的转录景观,而没有阵列引入的偏差,并且具有提供关于转录结构(外显子-外显子边界)的信息的额外优势,EST-Sanger型测序在较长范围内进行,但没有克隆偏差。此外,由于很容易获得大量读取,RNA-Seq足够敏感,可以检测低表达水平基因的转录,而EST分析通常会忽略这些基因[21,23,25].

在最近的研究中,RNA-Seq主要用于量化已注释位点的表达水平,识别差异表达基因,并测量这些位点以外的表达(在内含子或基因间区域)[21-24,26]. 此外,结构信息已用于检测已知的替代拼接形式[22,23],识别与已知位点相关的新转录事件(选择性剪接,5'端)[24,26],并细化注释的基因结构或提出新的基因模型[21,23]. 然而,尚未尝试利用RNA-Seq数据中包含的连接性信息来构建基因模型从头开始也就是说,在缺乏一组已知基因和/或剪接事件的情况下。

传统上,EST、cDNA和蛋白质序列是鉴定基因位点和注释基因组序列外显子/内含子结构的最准确资源[36]. 这些资源可以通过全球比对策略映射到基因组序列上,该策略允许与剪接位点相邻的潜在内含子对应的基因组区域的缝隙插入[37-41]. 由此产生的外显子和内含子边界的位置可以组装起来以构建完整的转录结构[42]. 但用于构建基因组上EST剪接比对的方法不适用于短读,因为它们要求剪接连接周围的序列块足够长且与基因组区域高度相似,以便构建覆盖外显子-外显子边界的非模糊比对。现在出现了新的方法来构建短序列读取的拼接对齐[43]. 然而,它们仍然需要先验的为了减少要测试的连接点数量,分析了基因组的相关信息(剪接位点特征),因为测试基因组中所有可能的“GT/C-AG”对显然是不可行的。

在本研究中,我们提出了一种旨在使用RNA-Seq短读来构建从头开始基因模型。首先,候选外显子是直接从基因组上定位的读序列位置构建的(没有从头计算然后对这些外显子之间所有可能的剪接连接进行未映射读测试:连接测试是由RNA-Seq数据集中的可用信息指导的,而不是由先验的关于基因组的知识。然后,外显子可以被链接成多链基因模型。我们证明了这种方法的可行性,我们称之为G-Mo.R-Se公司(用于使用RNA-Seq进行基因建模),葡萄基因组[44]使用约1.75亿Solexa/Illumina RNA-Seq从四种组织中读取数据。这允许识别新的外显子(在已知位点中)和替代剪接形式,以及全新的位点。我们表明,这种方法是标准cDNA测序的有效替代方法:它以较低的成本检测更多转录物。对于资源稀少的物种(即与EST/蛋白质数据库中目前存在的物种相距甚远的物种),这可能特别有用。G-Mo.R-Se公司也可以与其他数据组合成自动或手动的真核生物基因组注释。本文中描述的所有数据都可以从G-Mo.R-Se公司网站[45].

结果和讨论

从RNA-Seq读取建立基因模型

我们从四种组织(叶、根、茎、愈伤组织)提取的mRNA中获得1.73亿Solexa/Illumina RNA-Seq读数。其中,1.38亿个读取可以通过SOAP(短寡核苷酸分析包)明确映射[8]到葡萄基因组序列组装[44]. 映射读取继续构建候选外显子,我们称之为“covtigs”(对于覆盖覆盖,即通过覆盖深度大于阈值的相邻位置获得的区域)。然后使用未映射的读数测试covtigs之间的候选连接。最后,使用图形方法将外显子通过有效连接链接到基因模型中(参见材料和方法;图图1)。1). 保留了外显子之间所有可能的连锁,从而可以注释替代剪接形式。没有参与任何验证连接的covtigs被丢弃,这意味着没有注释任何单电子转录本。我们命名的程序G-Mo.R-Se公司产生了46062个转录模型,聚集在19486个位点(每个位点平均2.4个转录)。28399个模型中发现一个似是而非的编码序列(CDS),聚集在12341个位点。

保存图片、插图等的外部文件。对象名称为gb-2008-9-12-r175-1.jpg

G-Mo.R-Se公司基于短阅读的基因模型构建方法五个黑框显示了方法的五个步骤。步骤1(covtig构建)是covtig(覆盖重叠群)的构建,它是从短读数映射到给定深度阈值以上的位置构建的。第2步(候选外显子)是定义从每个冠状病毒衍生的绞合候选外显基因列表。在每个covtig边界周围搜索100个核苷酸,以确定候选外显子在正向或反向链上的方向,如第二个方框所示。步骤3(连接点验证)包括使用根据未映射的读数构建的词典来验证候选外显子之间的连接。在步骤4(通过验证连接链接的候选外显子图)中,将创建一个图,其中节点是候选外显字(黑框),两个节点之间的定向边(紫色箭头)表示验证连接。最后连接的两个组分显示了一个分裂基因的例子,可以使用开放阅读框检测第一个模型的最后一个外显子和第二个模型的第一个外显字之间的基因进行校正。在最后一步,即第5步(模型构建和编码序列检测)中,我们将遍历前面的图,并提取每个源和每个汇之间的所有可能路径。然后,每个路径将表示一个预测的转录本,并为每个转录本标识一个CDS。M型1,男2,男5和M7(未翻译区域为灰色,内含子为黑色,编码外显子为红色)正确模拟真实转录物T1,T型2,T型和T5(未翻译区域为灰色,内含子和外显子分别用黑线和方框表示)。由于所有可能的路径都是从图中提取出来的,因此其中一些可能与真实的转录本不对应(例如,模型M,男4和M6).

Covtig的定义对于后续的连接测试的有效性至关重要,特别是在外显子的分裂和融合方面(参见材料和方法)。当读取覆盖深度下降(低于用于构建covtigs的深度阈值)时,外显子分裂为单独的covtig,这可能是由于重复区域(我们只保留了映射在基因组上唯一位置的读取),基因组序列中的失配/缺口(我们只绘制了最多两个失配且没有索引的读取),或导致cDNA测序深度变化和文库非标准化的实验偏差。事实上,在之前的RNA-Seq研究中观察到读取的覆盖均匀性存在一些偏差[23].

我们旨在通过两种方式纠正分歧。首先,在covtig定义步骤(图中的步骤1图1),1),我们使用读取中发现的所有16-mers扩展了covtigs,以便跳过不匹配和短重复。然后,在模型构建步骤(图中的步骤4图1),1),我们将通过开放阅读框架链接的模型融合在一起。

当mRNA样本包含带有保留内含子的未成熟转录物时,可能会发生外显子人工融合到单个covtig中,从而读取到内含子。由于未成熟的转录物在mRNAs集合中预计会被低估,因此保留内含子的深度预计会低于相邻外显子的深度:为构建冠状病毒设置适当的深度阈值应该避免这种融合。

设置用于covtig构建的深度阈值,以平衡分裂数和融合数。实际上,低阈值会产生少量分裂,但会产生大量融合;相反,高阈值会产生少数融合,但会出现大量分裂。为了纠正更多的融合,我们可以扩展对covtigs内部连接的测试,而不是只测试covtig之间的连接。

我们评估了reads、初始候选外显子(covtigs)和G-Mo.R-Se公司核苷酸水平与参考值的比较葡萄属注释[44](表(表1)。1). 构建covtigs所设置的深度阈值丢弃了大部分噪声(reads覆盖的63%的核苷酸位于基因间或内含子隔室,而covtig覆盖的核苷酸只有40%)同时保留外显子中的信号(66%的外显子核苷酸被reads覆盖,56%被covtigs覆盖)。这种噪声可能与转录背景、转座因子的表达或测序样本中的基因组污染相对应,而不是与SOAP映射伪影相对应,因为我们只保留读取可以唯一映射的位置,最多有两个不匹配。当考虑最终模型而不是初始新冠病毒时,敏感性略有下降(覆盖的外显子碱基从56%降至43%),但特异性大大增加(新冠病毒或模型中60%至80%的核苷酸落入外显子区室),这表明大多数与其他covtig无关的covtigs是由转录或实验噪声引起的。这些模型仍然包括来自基因间隔间的约1%的核苷酸,表明该隔间含有新的、以前未标记的基因。

表1

RNA序列读数的核苷酸重叠,G-Mo.R-Se公司考夫提格斯和G-Mo.R-Se公司相对于参考注释具有不同基因组分室的模型

相对于参考注释的基因组室(%)

外显子:41603635核苷酸内含子:184047761核苷酸基因间:271857375核苷酸



特异性灵敏度特异性灵敏度特异性灵敏度
读数:73580625核苷酸37664016236
冠状病毒:38484212核苷酸605620420
型号:22213316核苷酸804351151

特异性反映了位于隔间内的reads/covtigs/模型中核苷酸的百分比;敏感性反映了reads/covtigs/models重叠的基因组隔室中核苷酸的百分比。

我们成功地选择了一个关于分裂/融合的令人满意的深度阈值(附加数据文件1中的图S1),以及信噪比。显然,最佳深度阈值将在很大程度上取决于所分析数据集的特征,例如转录组的复杂性、选择性剪接的数量、蛋白质编码基因外的转录量以及测序深度,必须仔细选择,以便G-Mo.R-Se公司以最佳方式工作。

比较G-Mo.R-Se公司直接汇编读取的管道

我们比较了决赛G-Mo.R-Se公司用天鹅绒组装读卡器获得的模型和结构[14]并用est2基因组将组装好的连接物映射到基因组[37](表(表2)。2). 与模型相比,拼接天鹅绒连接的参考基因重叠(至少在一个核苷酸上)更少(分别为40.3%和50.3%)。与之相比,天鹅绒contigs重叠在至少75%核苷酸上的基因数量下降得更多G-Mo.R-Se公司模型(从30.6%到11.8%)表明,天鹅绒contigs重叠的大多数基因并没有覆盖整个长度。每个基因的模型或天鹅绒连接的平均数分别为1.28和2.05,也反映出参考基因被天鹅绒连接所分割的程度比G-Mo.R-Se公司模型。此外,我们调查了G-Mo.R-Se公司从结构角度使用一组cDNA构建模型和天鹅绒轮廓:56%的cDNA位点通过以下方法准确预测(所有外显子/内含子边界)G-Mo.R-Se公司模型和32%的Velvet重叠群(附加数据文件1中的表S1)。我们比较了正确注释的参考基因的平均覆盖深度G-Mo.R-Se公司模型和Velvet重叠群(即至少75%的核苷酸被覆盖)。最小深度4足以G-Mo.R-Se公司模型能够令人满意地注释基因,而天鹅绒contigs的最小深度为13(图(图2)。2). G-Mo.R-Se公司依赖于基因组序列,读操作之间没有明显的重叠是将它们组合成covtig所必需的:它们只需要与基因组相邻。这解释了为什么需要更低的覆盖深度G-Mo.R-Se公司而不是天鹅绒。与直接汇编读取不同G-Mo.R-Se公司pipeline能够检测在读取集中表现弱的抄本(因为它们表现弱或提取有问题)。

保存图片、插图等的外部文件。对象名称为gb-2008-9-12-r175-2.jpg

参考基因重叠的读取覆盖深度G-Mo.R-Se公司模型和天鹅绒轮廓对于重叠在其核苷酸≥75%上的基因,通过以下公式绘制出基因所有外显子核苷酸的平均深度(log)分布G-Mo.R-Se公司模型(红线)和天鹅绒contig(紫色虚线)。y轴对应于每个箱子中参考基因的百分比(箱子宽度为0.2)。

表2

30434个参考基因与天鹅绒拼接连续体和G-Mo-R-Se公司模型

天鹅绒组件+映射G-Mo.R-Se公司模型
包含参考外显子核苷酸的百分比24.8%42.9%
参考基因重叠在≥1个核苷酸上12,270 (40.3%)15,323 (50.3%)
参考基因重叠在≥75%的核苷酸上3,595 (11.8%)9,306 (30.6%)

比较G-Mo.R-Se公司一种经典的cDNA测序方法

我们比较了G-Mo.R-Se公司使用112175的参考集,将其转化为经典的cDNA测序方法葡萄属五个组织的cDNA序列(包括87199个聚集在7895个位点上的多克隆cDNA),这些cDNA序列在葡萄属基因组测序和注释项目[44](表(表3).

表3

cDNA位点(所有位点和所有32个单体都是唯一的位点)与G-Mo.R-Se公司模型

所有cDNA簇(7895)所有32个单体都是唯一的cDNA簇(4822)
模型覆盖的cDNA(外显子)核苷酸百分比76.0%87.2%
cDNA簇通过模型重叠在≥1个核苷酸上6,831 (87%)4,581 (95%)
cDNA簇重叠在≥75%核苷酸上的模型5,449 (69%)3,997 (83%)

46062G-Mo.R-Se公司模型重叠了7895个cDNA位点的70%左右(超过75%的核苷酸)。约15%的cDNA位点没有被任何模型重叠的最明显原因是它们对应于重复的DNA。我们比较了独特的32-mers的比例(总体上葡萄属基因组),用于模型完全覆盖的5449个cDNA基因座和模型未覆盖的1064个cDNA基因座。模型遗漏的大多数cDNA位点似乎主要由非唯一的32个单体组成(图(图3)。). 当只考虑所有32个单体都是唯一的4822个位点时,95%的cDNA位点被模型击中(表(表3)。). 在缺失的5%的cDNA位点中,有些位点的读码覆盖率太低,无法构建冠状病毒和/或验证连接,而另一些位点的内含子中有读码,这会产生融合外显子,防止模型被检测为拼接,因为一个大的冠状病毒跨越整个位点。

保存图片、插图等的外部文件。对象名称为gb-2008-9-12-r175-3.jpg

cDNA簇中唯一32-mers的比例显示了由模型重叠在75%以上核苷酸(绿色)上的cDNA簇和未由模型重叠的cDNA集群的独特32单体百分比(红色)。y轴对应于每个bin中cDNA簇的百分比(bin宽度是集群中所有32-mers中唯一32-mers的10%)。

有趣的是,G-Mo.R-Se公司检测到的位点数量是标准cDNA测序方法的2.5倍(19486个位点对7895个)。在19486年G-Mo.R-Se公司基因座,只有36%的cDNA基因座重叠。我们比较了5698的特点G-Mo-R-Se公司在至少50%的核苷酸上重叠cDNA的位点和位于cDNA位点之外的12392个位点(图(图4)。4). 这个G-Mo.R-Se公司相对于标准cDNA而言是新的基因座倾向于以比重叠cDNA的基因座更低的水平表达。在“识别新基因和改进基因注释”一节中对这些位点进行了更详细的研究。RNA-Seq技术,结合G-Mo.R-Se公司,能够检测用标准cDNA克隆和测序方法无需评分的基因表达,或者需要进行广泛的桑格测序工作。

保存图片、插图等的外部文件。对象名称为gb-2008-9-12-r175-4.jpg

重叠cDNA位点和不重叠cDNA的模型的读取覆盖深度对于重叠cDNA在其核苷酸(绿色)上≥50%的模型和不重叠cDNA的模型(黑色),绘制了模型所有外显子核苷酸的平均深度(log)分布。y轴对应于每个箱子中模型的百分比(箱子宽度为0.2)。

平均而言,我们为每个位点标注了2.4个模型。通过从cDNA序列中删除冗余(结构完全包含在其他结构中;参见材料和方法),我们保留了9827个代表性序列,每个位点平均有1.25个转录本。这些模型似乎捕获了比cDNA更多的替代剪接形式。然而,当我们建立所有可能的模型,这些模型对应于从一个covtig到另一个cov通过验证连接的最长可能路径时,一些模型可能并不对应于真实的转录物(例如,如果它们链接不兼容的替代外显子,如模型M和M4在图中图1)。1). 由于无法从短阅读中推断出长片段剪接邻接性,我们量化了模型(所有模型,仅编码模型的CDS部分)和cDNA中的短片段选择性剪接事件[46](表(表44).

表4

cDNA中检测到的选择性剪接事件G-Mo.R-Se公司模型和CDS部分G公司-钼-硒模型

cDNAs:7895个位点模型(全部):19486个位点模型(CDS):12341个位点



数量(%)数量(%)数量(%)cDNA和模型常见的事件%cDNA事件
替代受体/供体690 (73.1%)7,405 (62.5%)2,988 (58.0%)15622.6
跳过250 (26.5%)3,656 (30.9%)1,677 (32.5%)187.2
相互排斥4 (0.4%)781人(6.6%)487 (9.5%)125
内含子保留1,227----
总计2171(944,无IR)11,8425,15217518.5
具有选择性剪接的基因座总数(占所有已识别基因座的%)783(9.9%)(598,无IR)1,602 (8.2%)1,029 (8.3%)--

这个G-Mo.R-Se公司流水线不允许检测内含子保留(IR),因为我们目前不测试covtigs内的连接:如果保留内含子的深度大于我们用来构建covtig的阈值,我们将只得到一个包含保留内含子(IR)的剪接变体。很可能,我们通过与cDNA比较检测到的大多数外显子融合(附加数据文件1中的图S1)与IR病例相对应。然而,我们能够检测到替代供体或受体、跳过外显子和互斥外显子。这些不同类别事件的相对丰度在模型和cDNA中相似(从最常见到最不常见:替代受体/供体、跳过外显子、互斥外显子),但模型中替代剪接事件的总数(所有模型中11842个,CDS部分中5152个)远高于cDNA(去除1227个IR时,944个事件)。低水平表达的剪接形式(cDNA克隆和Sanger测序无法检测到)似乎蕴藏着意外数量的选择性剪接事件。很可能所有这些事件都与转录本的编码能力不兼容。然而,当限制对具有可信CDS(即可能被正确预测)的模型的编码部分的分析时,选择性剪接事件的数量仍然高于cDNA,并且不同类型事件的比例保持不变。例如,图图55显示了预测三种替代编码模型的位置:其中两种(M2和M)EST证据已经支持,但第三种模型(M1)对应于一种新的选择性剪接形式。尽管RNA-Seq数据集中选择性剪接事件的数量高于cDNA数据集中的数量,但发生选择性剪接的位点比例与cDNA簇和G-Mo-R-Se公司模型(分别为10%和8%)。这些结果与之前的研究一致,之前的研究表明,植物中交替剪接基因的比例低于动物[47]. 值得注意的是,在cDNA中检测到的944个非IR事件中,模型仅检测到175个(18.5%):尽管其中一些事件可能是由于cDNA的错误映射造成的,但大多数事件可能是真实的,并且被忽略了G-Mo.R-Se公司(表(表5)。5). 该管道仅检测到7.2%的跳过外显子和25%的互斥外显子,这可能是因为我们检测的相邻covtigs(20)数量有限,以验证连接。仅检测到22.6%的替代供体/受体,因为我们在covtig边界周围仅搜索了100个核苷酸,这限制了可发现替代剪接位点的窗口(见材料和方法)。显然,模型构建并不是为了捕捉基因组的整个选择性剪接景观。但是,我们获得的非穷尽性观点比经典EST测序所怀疑的要丰富得多。为了彻底研究选择性剪接,这超出了本研究的范围,需要开发特定的工具。

保存图片、插图等的外部文件。对象名称为gb-2008-9-12-r175-5.jpg

根据短阅读构建的可选拼接模型示例图中显示了从葡萄属12号染色体位于3836500 bp和3840500 bp之间。第一个音轨(Genoscope注释)包含来自[44]. 绿色模型是Uniprot蛋白质的GeneWise比对。对齐葡萄属cDNA来自[44]红色,公共葡萄属EST为浅绿色。下一个轨迹显示了预测的模型G-Mo.R-Se公司(未翻译区域为灰色,CDS为红色)。初始covtig显示为棕色方框(covtigs的平均深度写在每个covtig.下方)。天鹅绒胸像的排列以紫色显示。从头算geneID生成的模型[51]和SNAP[52]分别以蓝色和粉红色显示。短读覆盖深度绘制在最后一条轨迹上(黑色):红色虚线显示用于构建covtigs的阈值。M型2被众多资源证实,模型M似乎是一种次要的替代剪接形式(它仅由两个公共EST支持:E1和E2)和M型1是一种新型的替代拼接形式。

表5

已知和新颖的特征G-Mo.R-Se公司模型(全部,并带有合理的CDS)

已知模型轨迹新型模型基因座


所有型号具有合理CDS的模型(65%)所有型号具有合理CDS的模型(17%)
基因座数量18,81112236个675105
型号数量45,29028,283772116
每个位点的平均模型数2.42.31.11.1
每个模型的平均外显子数8.28.92.32.9
具有两个以上外显子的模型数量37644人(83%)25,428 (90%)128 (17%)56人(53%)

模型在材料和方法中描述的位点上聚集。

识别新基因并改进基因注释

预计,因为葡萄属属于一个系统发育分支,在那里有丰富的资源可用,大多数不属于cDNA的模型(95%)与参考注释重叠[44]或其他资源,如GeneWise与Uniprot蛋白质的匹配[39,49]以及其他物种的EST(附加数据文件1中的表S2)。然而,675个模型是完全新颖的,如果只考虑具有合理CDS的模型,则为116个。我们比较了新颖模型和有证据支持的模型的特征,我们现在称之为“已知”模型(表(表55).

与已知模型相比,考虑新模型时,具有可信CDS的模型比例下降(从65%下降到17%),以及每个模型的平均外显子数(所有模型从8.2下降到2.3)。一些新的模型很可能对应于错误的预测:如果一个连接被错误地验证,它将创建一个错误的双外显子模型。然而,在具有可信CDS的新模型子集中,具有两个以上外显子的模型所占比例(53%)高于所有新模型(17%),这表明至少其中一些是真正的新编码位点。此外,非编码的新位点可能对应于管道错误注释的编码转录本(产生移码的错误剪接位点,关联不相容外显子的模型),也可能对应于由于基因组序列中的移码而无法检测到CDS的编码转录物,真实的非编码转录本,或转录/实验噪音(图(图1)。1). 其中一个跨越八个外显子的新模型的结构如附加数据文件1中的图S2所示。一声巨响[48]搜索Uniprot[49]揭示了一种与转录调节器的同源性拟南芥同源性低于注释过程中将蛋白质映射到基因组所需的灵敏度阈值。除了发现新的剪接形式和新的位点外,G-Mo.R-Se公司模型通过扩展(在5'或3'中)它们命中的大约40%的参考基因来丰富参考注释。G-Mo.R-Se公司因此,模型构成了改进的宝贵资源葡萄属基因注释。

结论

在本研究中,我们证明了建立基因模型的可行性从头开始,只使用RNA-Seq读取和相应的基因组序列,我们称之为相对简单的注释管道G-Mo.R-Se公司使用约1.75亿Solexa读取数据集,它可以检测到比克隆和测序约120000个cDNA所能识别的更多的位点,成本大约低20倍(注释中55%的多基因被模型重叠,而在注释中只有35%被模型重叠)葡萄属cDNA)。特别是,G-Mo.R-Se公司允许在非常低的水平上对基因座进行注释。我们表明,这种方法可以有效地从转录/实验噪声中破译真实转录物,因为连接验证步骤可以消除假阳性covtigs。此外,尽管它在检测选择性剪接事件时并没有被设计为穷尽,G-Mo-R-Se公司检测到比cDNA资源更多的替代剪接形式,无需先验的外显子-外显子连接的知识进行测试。最后,我们还可以在基因组中识别推定的新基因(自动注释程序遗漏了这些基因),由于该门的可用资源过多,这些基因已经得到了很好的注释。我们测试了G-Mo.R-Se公司Solexa/Illumina RNA-Seq的管道可以读取数据,但它可以很容易地接受任何其他类型的短读取,或组合不同技术的读取。

对于未来的基因组项目,可以设想使用RNA-Seq运行进行注释G-Mo.R-Se公司作为唯一的资源,只要所采集的组织或细胞类型具有足够的代表性,以驱动全面的注释。这种方法在资源稀少的门(即距离EST/蛋白质数据库中当前存在的物种非常遥远)中特别有价值,可以避免构建cDNA文库的昂贵和耗时步骤。当其他资源可用时,基因模型也可以与其他数据组合成自动或手动真核生物基因组注释管道。

虽然G-Mo.R-Se公司管道在葡萄属数据集,它仍然相当简单,我们可以考虑几个改进。首先,目前还没有产生单基因模型(此类模型仅代表8%的注释葡萄基因),但如果它们包含超过一定长度的CDS,我们可以很容易地将未通过验证连接与任何其他冠状病毒连接的冠状病毒带回。接下来,在covtig构建步骤中,我们可以使其适应环境,而不是使用固定的深度阈值:covtigs的构建将与深度的急剧增加/减少相一致。这样的策略应该能够在IR的情况下注释单独的外显子。为了纠正更多的融合,除了测试冠状病毒之间的连接外,还可以直接检测冠状病毒内部的候选连接。由于本研究的范围是注释尽可能多的基因,所以我们选择在构建冠状病毒之前将所有四种组织的读数汇集在一起。但我们也可以考虑在不同的样本中分别建立冠状病毒和基因模型,以研究差异表达,尽管这样会降低敏感性。最后一个更精细的改进是使用深度信息,以便仅将可能属于同一转录本的covtig链接在一起,而不是构建所有模型,这些模型对应于通过验证连接连接的covtics图中可能最长的路径。这种方法将允许对更大范围的剪接连续性进行推测,并更详尽地研究替代剪接景观。

材料和方法

RNA-Seq实验

获得了RNA-Seq读数(如Del Fabbro所述.,未发表的数据),通过对用Solexa/Illumina技术从四个组织样品中获得的cDNA进行测序:叶(11个泳道)、根(9个泳道)、愈伤组织(9个泳道)和茎(9个泳道)。从总RNA提取液中纯化mRNA分子,并在cDNA合成前进行片段化(使用随机六聚体引物)。该协议不是针对特定国家的。获得的单端读码长度为32个核苷酸,但在愈伤组织样本中有5个通道,其中读码长度是35个核苷酸。生成的172545778个可用读取(5.4 Gbases)映射到葡萄属基因组[44]使用SOAP[8]具有12的种子长度和默认参数:138326238个读取(4.6Gbases)被映射在一个唯一的位置,最多有两个失配,没有indel。因此,与外显子-外显子连接对齐的读码无法映射到基因组序列。

从短阅读构建基因模型

这个G-Mo.R-Se公司图中总结了从短阅读构建基因模型的方法图1。1第一步是定义covtigs(覆盖contigs)。它们是通过覆盖短读在一定覆盖深度阈值以上对齐的位置来构建的。这个阈值是一个需要调整的参数,以平衡敏感性和特异性以及分裂和融合。在缺乏量化分裂和融合的训练集的情况下,也可以通过最大化下一步验证的连接数来优化此参数。在随后的连接测试之前,使用短读中发现的所有16个单体对covtigs进行扩展,以克服不匹配和短重复。值得注意的是,读取长度限制了非常短的外显子(<35个核苷酸)的检测。

在下一步中,我们搜索了供体(前链上的GT或GC,反链上的AG或AC)和受体(前链的AG和反链的CT)剪接位点,每个covitig边界内外100个核苷酸。这使我们能够为每个covtig创建一个定向候选外显子列表(带有假定的替代供体和/或受体剪接位点)。

第三步是使用未映射读码验证候选外显子之间的连接,因为与外显子连接对齐的读码没有映射到基因组序列。我们测试了来自给定冠状病毒的所有候选外显子,以及来自接下来20个冠状病毒中的候选外显基因。所有假设的连接都是用单词词典的方法测试的。字典(单词大小为25)是使用未映射的读取数构建的。从每个假定连接处派生出10个单词(第一外显子上的8个核苷酸和第二外显子的17个核苷酸,9/16、10/15、11/14、12/13、13/12、14/11、15/10、16/9、17/8),并对它们在词典中的存在进行了测试。为了验证连接,需要在字典中找到至少五个不同的单词,每个连接派生的所有单词的总出现次数需要与相邻covtigs的平均深度(大于其平均深度的1/10)具有相同的数量级。

连接验证程序的效率取决于covtig定义步骤,原因如下:只测试每个covtig20个下一个covtigs之间的连接,这意味着如果在2个“真实”covtigg之间定义了20个以上的“假”covti,则不会测试两个真实covtigm之间的接合;只扫描covtig边界周围的100个核苷酸,以确定可能的剪接位点,这意味着如果covtigs太短或太长,将无法测试正确的连接;只测试covtigs之间的连接,这意味着如果一个covtig对应于两个外显子之间的融合,则不会测试正确的连接,最终的模型将包括一个保留的内含子。另一方面,如果一个外显子在两个冠状病毒之间分裂,那么这些冠状病毒间就没有有效的连接,导致基因分裂成不同的模型。因此,在缺乏训练集(注释基因、EST等)来校准用于构建covtigs的深度阈值的情况下,可以通过最大化验证连接的数量来优化阈值。G-Mo.R-Se公司因此可以用于从头开始注释。

最后一步,模型构建依赖于由同一条链上的有效连接连接的候选外显子图。这些模型对应于通过验证连接连接候选外显子的所有最长路径。不涉及任何验证连接的候选外显子被丢弃,这意味着没有产生单电子模型。为了纠正潜在的基因分裂,我们将通过开放阅读框链接的相邻模型(在同一条链上)融合在一起。

此外G-Mo-R-Se公司搜索CDS。当最长的CDS(如果大于50个氨基酸)跨越模型中至少三分之二的核苷酸,或者非编码外显子的数量低于编码外显体的数量时,CDS被认为是可信的。具有可信CDS的模型可能对应于蛋白质编码基因。大约三分之二的模型可以检测到可信的CDS。这个G-Mo.R-Se公司模型可以从G-Mo.R-Se公司网站[45]并在葡萄属基因组浏览器[50].

G-Mo.R-Se公司模型和cDNA分析(聚类、选择性剪接检测)

将相同的聚类程序应用于基因组上对齐的模型和cDNA序列。我们使用了单键聚类方法,如果两个模型(在同一链上)具有至少100个核苷酸的累积外显子重叠(仅考虑至少10个核苷酸的重叠),则在这两个模型之间建立链接。采用基于图形的方法来解决单链聚类问题。此外,通过丢弃完全包含在较长结构中的所有转录结构,从cDNA中去除冗余。我们检测到内含子对之间的所有成对选择性剪接事件,方法与[46]. 所有串联重复的基因都被从检测到的选择性剪接事件中丢弃,因为这些基因可以通过cDNA图谱和模型构建人工连接,并且会产生跨越多个基因座而不是一个基因座的假选择性剪接形式。然而,值得注意的是,由于管道构建了所有可能的模型,因此除了不正确的连接模型外,它始终会预测两个单独的正确模型。

缩写

CDS:编码序列;EST:表达序列标签;G-Mo.R-Se公司:使用RNA-Seq进行基因建模;IR:内含子保留;SOAP:短寡核苷酸分析包。

作者的贡献

FD进行了初步测试,运行了管道并分析了结果。JMA对算法有最初的想法。CDS对cDNA进行了定位并分析了选择性剪接事件。BN对葡萄基因组进行了注释。OR开发了cDNA映射管道的组件。多亏MD、MM和GV生成并提供了RNA-Seq数据。PW和CS生成基因组学和cDNA数据,并协助数据管理。OJ负责与葡萄属财团,并为论文的撰写做出了贡献。FA协助设计管道和编写手稿。FD和JMA开发了该软件的当前版本并撰写了论文。所有作者阅读并批准了最终手稿。

其他数据文件

本文的在线版本提供了以下附加数据。附加数据文件1是包含表S1和S2以及图S1和图S2的Word文件。表S1:通过G-Mo.R-Se公司和天鹅绒。表S2:支持(公共资源)G-Mo.R-Se公司不重叠cDNA的模型。图S1:covtig构建步骤中不同深度阈值下获得的外显子融合和外显子分裂比例。图S2:新型模型示例。

补充材料

附加数据文件1:

表S1:cDNA转录结构正确预测G-Mo.R-Se公司和天鹅绒。表S2:支持(公共资源)G-Mo.R-Se公司不与cDNA重叠的模型。图S1:covtig构建步骤中不同深度阈值下获得的外显子融合和外显子分裂比例。图S2:新型模型示例。

单击此处获取文件(91K,文档)

致谢

这项工作得到了Genoscope、Génomique研究所、CEA和国家研究机构(ANR)的资助。作者们感谢苏珊·库尔(Susan Cure)对手稿的更正,并感谢让·韦森巴赫(Jean Weissenbach)的持续支持。

工具书类

  • Holt RA,Jones SJ。流式细胞测序的新范式。基因组研究。2008;18:839–846. doi:10.1101/gr.073262.107。[公共医学] [交叉参考][谷歌学者]
  • Mardis ER。下一代DNA测序方法。《基因组学与人类遗传学年鉴》。2008;9:387–402. doi:10.1146/annurev.genom.9081307.164359。[公共医学] [交叉参考][谷歌学者]
  • Korbel JO、Urban AE、Grubert F、Du J、Royce TE、Starr P、Zhong G、Emanuel BS、Weissman SM、Snyder M、Gerstein MB。系统预测和验证与人类基因组中拷贝数变异相关的断点。美国国家科学院程序。2007;104:10110–10115. doi:10.1073/pnas.0703834104。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Chen W、Kalscheuer V、Tzschach A、Menzel C、Ullmann R、Schulz MH、Erdogan F、Li N、Kijas Z、Arkesteijn G、Pajares IL、Goetz-Sothmann M、Heinrich U、Rost I、Dufke A、Grasshoff U、Glaeser B、Vingron M、Ropers HH。通过下一代测序绘制易位断点。基因组研究。2008;18:1143–1149. doi:10.1101/gr.076166.108。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Cokus SJ、Feng S、Zhang X、Chen Z、Merriman B、Haudenschild CD、Pradhan S、Nelson SF、Pellegrini M、Jacobsen SE拟南芥基因组揭示了DNA甲基化模式。自然。2008;452:215–219. doi:10.1038/nature06745。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Wederell ED、Bilenky M、Cullum R、Thiessen N、Dagpinar M、Delaney A、Varhol R、Zhao Y、Zeng T、Bernier B、Ingham M、Hirst M、Robertson G、Marra MA、Jones S、Hoodless PA。使用大规模平行测序对小鼠成年肝脏中体内Foxa2结合位点进行全局分析。核酸研究。2008;36:4549–4564. doi:10.1093/nar/gkn382。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Mikkelsen TS、Ku M、Jaffe DB、Issac B、Lieberman E、Giannoukos G、Alvarez P、Brockman W、Kim TK、Koche RP、Lee W、Mendenhall E、O'Donovan A、Presser A、Russ C、Xie X、Meissner A、Wernig M、Jaenisch R、Nusbaum C、Lander ES、Bernstein BE。多能干细胞和谱系承诺细胞染色质状态的基因组图。自然。2007;448:553–560. doi:10.1038/nature06008。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Li R,Li Y,Kristiansen K,Wang J.SOAP:短寡核苷酸比对计划。生物信息学。2008;24:713–714. doi:10.1093/bioinformatics/btn025。[公共医学] [交叉参考][谷歌学者]
  • Hillier LW、Marth GT、Quinlan AR、Dooling D、Fewell G、Barnett D、Fox P、Glasscock JI、Hickenbotham M、Huang W、Magrini VJ、Richt RJ、Sander SN、Stewart DA、Stromberg M、Tsung EF、Wylie T、Schedl T、Wilson RK、Mardis ER秀丽线虫.Nat方法。2008;5:183–188. doi:10.1038/nmeth.1179。[公共医学] [交叉参考][谷歌学者]
  • Lin H、Zhang Z、ZhangMQ、Ma B、Li M.ZOOM!绘制了数以千计的寡核苷酸。生物信息学。2008;24:2431–2437。doi:10.1093/bioinformatics/btn416。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Li H,Ruan J,Durbin R.使用绘图质量分数绘制短DNA测序读取和调用变体。基因组研究。2008;18:1851年至1858年。doi:10.1101/gr.078212.108。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Warren RL、Sutton GG、Jones SJ、Holt RA。使用SSAKE组装数百万个短DNA序列。生物信息学。2007;23:500–501. doi:10.1093/bioinformatics/btl629。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Butler J、MacCallum I、Kleber M、Shlyakhter IA、Belmonte MK、Lander ES、Nusbaum C、Jaffe DB。所有路径:从头开始组装全基因组鸟枪微读数。基因组研究。2008;18:810–820. doi:10.1101/gr.7337908。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Zerbino DR,Birney E.Velvet:算法从头开始使用de Bruijn图的短读程序集。基因组研究。2008;18:821–829. doi:10.1101/gr.074492.107。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Dom JC、Lottaz C、Borodina T、Himmelbauer H.SHARCGS,一种快速、高精度的短读汇编算法,用于从头开始基因组测序。基因组研究。2007;17:1697–1706. doi:10.1101/gr.6435207。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Sundquist A、Ronaghi M、Tang H、Pevzner P、Batzoglou S。利用高通量、短读技术进行全基因组测序和组装。《公共科学图书馆·综合》。2007;2:e484.doi:10.1371/journal.pone.0000484。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Glazov EA、Cottee PA、Barris WC、Moore RJ、Dalrymple BP、Tizard ML。通过深度测序方法鉴定的发育中鸡胚的microRNA目录。基因组研究。2008;18:957–964。doi:10.1101/gr.074740.107。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Moxon S、Jing R、Szittya G、Schwach F、Rusholme Pilcher RL、Moulton V、Dalmay T。番茄短RNA的深度测序确定了靶向与果实成熟有关的基因的微小RNA。基因组研究。2008;18:1602–1609. doi:10.1101/gr.080127.108。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Bar M、Wyman SK、Fritz BR、Qi J、Garg KS、Parkin RK、Kroh EM、Bendoraite A、Mitchell PS、Nelson AM、Ruzzo WL、Ware C、Radich JP、Gentleman R、Ruohola-Baker H、Tewari M.通过小RNA库的深度测序在人类胚胎干细胞中发现和分析微RNA。干细胞。2008;26:2496–2505. doi:10.1634/stemcells.2008-0356。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Lister R、O'Malley RC、Tonti-Filippini J、Gregory BD、Berry CC、Millar AH、Ecker JR。表观基因组高度集成的单碱基分辨率图谱拟南芥.单元格。2008;133:523–536. doi:10.1016/j.cell.2008.03.029。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Wilhelm BT、Marguerat S、Watt S、Schubert F、Wood V、Goodhead I、Penkett CJ、Rogers J、Bahler J.在单核苷酸分辨率下调查的真核转录组的动态库。自然。2008;453:1239–1243. doi:10.1038/nature7002。[公共医学] [交叉参考][谷歌学者]
  • Nagalakshmi U,Wang Z,Waern K,Shou C,Raha D,Gerstein M,Snyder M。通过RNA测序确定的酵母基因组转录图谱。科学。2008;320:1344–1349. doi:10.1126/science.1158441。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Mortazavi A、Williams BA、McCue K、Schaeffer L、Wold B.通过RNA-Seq对哺乳动物转录体进行定位和量化。Nat方法。2008;5:621–628. doi:10.1038/nmeth.1226。[公共医学] [交叉参考][谷歌学者]
  • Cloonan N、Forrest AR、Kolle G、Gardiner BB、Faulkner GJ、Brown MK、Taylor DF、Steptoe AL、Wani S、Bethel G、Robertson AJ、Perkins AC、Bruce SJ、Lee CC、Ranade SS、Peckham HE、Manning JM、McKernan KJ、Grimmond SM。通过大规模mRNA测序进行干细胞转录组分析。Nat方法。2008;5:613–619. doi:10.1038/nmeth.1223。[公共医学] [交叉参考][谷歌学者]
  • Marioni J、Mason C、Mane S、Stephens M、Gilad Y.RNA-Seq:技术再现性评估和与基因表达阵列的比较。基因组研究。2008;18:1509–1517. doi:10.1101/gr.079558.108。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Sultan M、Schulz MH、Richard H、Magen A、Klingenhoff A、Scherf M、Seifert M、Borodina T、Soldatov A、Parkhomchuk D、Schmidt D、O'Keeffe S、Haas S、Vingron M、Lehrach H、Yaspo ML。通过人类转录组的深度测序对基因活性和选择性剪接的全球观点。科学。2008;321:956–960. doi:10.1126/science.1160342。[公共医学] [交叉参考][谷歌学者]
  • Harbers M,Carnichi P.转录组研究和基因组注释的基于标签的方法。Nat方法。2005;2:495–502. doi:10.1038/nmeth768。[公共医学] [交叉参考][谷歌学者]
  • Velculescu VE,Zhang L,Vogelstein B,Kinzler KW.基因表达的系列分析。科学。1995年;270:484–487. doi:10.1126/science.270.5235.484。[公共医学] [交叉参考][谷歌学者]
  • Brenner S、Johnson M、Bridgeham J、Golda G、Lloyd DH、Johnson D、Luo S、McCurdy S、Foy M、Ewan M、Roth R、George D、Eletr S、Albrecht G、Vermaas E、Williams SR、Moon K、Burcham T、Pallas M、DuBridge RB、Kirchner J、Fearon K、Mao J、Corcoran K。通过微生物菌落阵列上的大规模并行签名测序(MPSS)进行基因表达分析。国家生物技术公司。2000;18:630–634. doi:10.1038/76469。[公共医学] [交叉参考][谷歌学者]
  • Cheng J、Kapranov P、Drenkow J、Dike S、Brubaker S、Patel S、Long J、Stern D、Tammana H、Helt G、Sementchenko V、Piccolboni A、Bekiranov S、Bailey DK、Ganesh M、Ghosh S、Bell I、Gerhard DS、Gingeras TR。10条人类染色体的5核苷酸分辨率转录图。科学。2005;308:1149–1154. doi:10.1126/science.1108625。[公共医学] [交叉参考][谷歌学者]
  • Emanuelsson O、Nagalakshmi U、Zheng D、Rozowsky JS、Urban AE、Du J、Lian Z、Stolc V、Weissman S、Snyder M、Gerstein MB。评估用于绘制人类基因组转录区域的不同高密度平铺微阵列策略的性能。基因组研究。2007;17:886–897. doi:10.1101/gr.5014606。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Kapranov P、Willingham AT、Gingeras TR。基因组全转录及其对基因组组织的影响。Nat Rev基因。2007;8:413–423. doi:10.1038/nrg2083。[公共医学] [交叉参考][谷歌学者]
  • Boguski MS、Tolstoshev CM、Bassett DE.、Jr在dbEST中的基因发现。科学。1994;265:1993–1994. doi:10.1126/science.8091218。[公共医学] [交叉参考][谷歌学者]
  • Gerhard DS、Wagner L、Feingold EA、Shenmen CM、Grouse LH、Schuler G、Klein SL、Old S、Rasooly R、Good P、Guyer M、Peck AM、Derge JG、Lipman D、Collins FS、Jang W、Sherry S、Feolo M、Misweta L、Lee E、Rotmissovsky K、Greenhut SF、Schaefer CF、Buetow K、Bonner TI、Hausler D、Kent J、Kiekhaus M、Furey T、Brent M等。状态、质量、,以及NIH全长cDNA项目的扩展:哺乳动物基因收集(MGC)。基因组研究。2004;14:2121–2127. doi:10.101克/克2596504。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Castelli V、Aury JM、Jaillon O、Wincker P、Clepet C、Menard M、Craud C、Quetier F、Scarpelli C、Schachter V、Temple G、Caboche M、Weissenbach J、Salanoubat M。全基因组序列比较和“全长”cDNA序列:评估和改进的组合方法拟南芥基因组注释。基因组研究。2004;14:406–413。doi:10.1101/gr.1515604。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Guigo R、Flicek P、Abril JF、Reymond A、Lagarde J、Denoeud F、Antonarakis S、Ashburner M、Bajic VB、Birney E、Castelo R、Eyras E、Ucla C、Gingeras TR、Harrow J、Hubbard T、Lewis SE、Reese MG。EGASP:人类ENCODE基因组注释评估项目。基因组生物学。2006;7补遗1:S2.1–S2.31。doi:10.1186/gb-2006-7-s1-s2。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Mott R.EST_GENOME:将拼接DNA序列与未拼接基因组DNA对齐的程序。计算应用生物科学。1997;13:477–478.[公共医学][谷歌学者]
  • 肯特·WJ。BLAT——类似BLAST的对齐工具。基因组研究。2002;12:656–664. [PMC免费文章][公共医学][谷歌学者]
  • Birney E、Clamp M、Durbin R.GeneWise和Genomewise。基因组研究。2004;14:988–995. doi:10.1101/gr.1865504。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Slater GS,Birney E.生物序列比较启发式的自动生成。BMC生物信息学。2005;6:31.doi:10.1186/1471-2105-6-31。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Florea L、Hartzell G、Zhang Z、Rubin GM、Miller W。一种用于将cDNA序列与基因组DNA序列对齐的计算机程序。基因组研究。1998;8:967–974. [PMC免费文章][公共医学][谷歌学者]
  • Haas BJ、Delcher AL、Mount SM、Wortman JR、Smith RK、JR、Hannick LI、Maiti R、Ronning CM、Rusch DB、Town CD、Salzberg SL、White O改进拟南芥使用最大转录比对组合进行基因组注释。核酸研究。2003;31:5654–5666. doi:10.1093/nar/gkg770。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • De Bona F、Ossowski S、Schneeberger K、Ratsch G。短序列读取的最佳拼接对齐。生物信息学。2008;24:i174–180。doi:10.1093/bioinformatics/btn300。[公共医学] [交叉参考][谷歌学者]
  • Jaillon O、Aury JM、Noel B、Policriti A、Clepet C、Casagrande A、Choisne N、Aubour S、Vitulo N、Jubin C、Vezzi A、Legeai F、Hugueney P、Dasilva C、Horner D、Mica E、Jublot D、Poulain J、Bruyere C、Billault A、Segurens B、Gouyvenoux M、Ugarte E、Cattonaro F、Anthouard V、Vico V、Del Fabbro C、Alaux M、Di Gaspero G、Dumas V等●●●●。葡萄基因组序列表明,主要被子植物门中存在祖先的六倍体。自然。2007;449:463–467. doi:10.1038/nature06148。[公共医学] [交叉参考][谷歌学者]
  • G-Mo.R-Se网站http://www.genoscope.cns.fr/gmorse
  • Thill G、Castelli V、Pallud S、Salanoubat M、Wincker P、de la Grange P、Auboeuf D、Schachter V、Weissenbach J.ASEtrap:一种加快拼接体探索的生物方法。基因组研究。2006;16:776–786. doi:10.1101/gr.5063306。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Iida K、Seki M、Sakurai T、Satou M、Akiyama K、Toyoda T、Konagaya A、Shinozaki K。在基因组范围内对前体mRNA选择性剪接进行分析拟南芥基于全长cDNA序列的拟南芥。核酸研究。2004;32:5096–5103. doi:10.1093/nar/gkh845。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Altschul SF、Madden TL、Schaffer AA、Zhang J、ZhangZ、Miller W、Lipman DJ。Gapped BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序。核酸研究。1997;25:3389–3402. doi:10.1093/nar/25.17.3389。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 通用蛋白质资源(UniProt)。核酸研究。2008;36:D190–195。doi:10.1093/nar/gkn141。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 葡萄基因组浏览器http://www.genoscope.cns.fr/vitis网站
  • Parra G、Blanco E、Guigo R.基因识别果蝇属.基因组研究。2000;10:511–515. doi:10.1101/gr.10.4.511。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Korf I.新基因组中的基因发现。BMC生物信息学。2004;5:59.网址:10.1186/1471-2105-5-59。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

文章来自基因组生物学由提供BMC公司