核酸研究。2010年10月;38(18):e178。
MapSplice:用于发现剪接连接的RNA-seq读数的精确定位
,1 ,2 ,1 ,三 ,1 ,4 ,4 ,4 ,4 ,4 ,三 ,4 ,2和1,*
王凯(Kai Wang)
1肯塔基大学计算机科学系,肯塔基州列克星敦40506,2北卡罗来纳大学计算机科学系,北卡罗来那州教堂山,邮编:27599-3175,三肯塔基大学兽医学系格鲁克马研究中心,肯塔基州列克星敦40546-0099和4美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心,邮编:27599-7295
达尔山·辛格
1肯塔基大学计算机科学系,肯塔基州列克星敦40506,2北卡罗来纳大学计算机科学系,北卡罗来那州教堂山,邮编:27599-3175,三肯塔基大学兽医学系格鲁克马研究中心,肯塔基州列克星敦40546-0099和4美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心,邮编:27599-7295
郑增
1肯塔基大学计算机科学系,肯塔基州列克星敦40506,2北卡罗莱纳大学计算机科学系,北卡罗来纳州教堂山,邮编:27599-3175,三肯塔基大学兽医学系格鲁克马研究中心,肯塔基州列克星敦40546-0099和4美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心,邮编:27599-7295
斯蒂芬·科尔曼
1肯塔基大学计算机科学系,肯塔基州列克星敦40506,2北卡罗来纳大学计算机科学系,北卡罗来那州教堂山,邮编:27599-3175,三肯塔基大学兽医学系格鲁克马研究中心,肯塔基州列克星敦40546-0099和4美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心,邮编:27599-7295
炎黄
1肯塔基大学计算机科学系,肯塔基州列克星敦40506,2北卡罗莱纳大学计算机科学系,北卡罗来纳州教堂山,邮编:27599-3175,三肯塔基大学兽医科学系Gluck Equine研究中心,肯塔基州列克星敦40546-0099和4美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心,邮编:27599-7295
格勒布·萨维奇
1肯塔基大学计算机科学系,肯塔基州列克星敦40506,2北卡罗莱纳大学计算机科学系,北卡罗来纳州教堂山,邮编:27599-3175,三肯塔基大学兽医学系格鲁克马研究中心,肯塔基州列克星敦40546-0099和4美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心,邮编:27599-7295
何夏平
1肯塔基大学计算机科学系,肯塔基州列克星敦40506,2北卡罗莱纳大学计算机科学系,北卡罗来纳州教堂山,邮编:27599-3175,三肯塔基大学兽医学系格鲁克马研究中心,肯塔基州列克星敦40546-0099和4美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心,邮编:27599-7295
彼得·米茨科夫斯基(Piotr Mieczkowski)
1肯塔基大学计算机科学系,肯塔基州列克星敦40506,2北卡罗莱纳大学计算机科学系,北卡罗来纳州教堂山,邮编:27599-3175,三肯塔基大学兽医学系格鲁克马研究中心,肯塔基州列克星敦40546-0099和4美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心,邮编:27599-7295
萨拉·格里姆
1肯塔基大学计算机科学系,肯塔基州列克星敦40506,2北卡罗莱纳大学计算机科学系,北卡罗来纳州教堂山,邮编:27599-3175,三肯塔基大学兽医学系格鲁克马研究中心,肯塔基州列克星敦40546-0099和4美国北卡罗来纳大学教堂山分校遗传学系和北卡罗来纳大学Lineberger综合癌症中心27599-7295
查尔斯·佩罗
1肯塔基大学计算机科学系,肯塔基州列克星敦40506,2北卡罗莱纳大学计算机科学系,北卡罗来纳州教堂山,邮编:27599-3175,三肯塔基大学兽医科学系Gluck Equine研究中心,肯塔基州列克星敦40546-0099和4美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心,邮编:27599-7295
詹姆斯·麦克劳德
1肯塔基大学计算机科学系,肯塔基州列克星敦40506,2北卡罗莱纳大学计算机科学系,北卡罗来纳州教堂山,邮编:27599-3175,三肯塔基大学兽医学系格鲁克马研究中心,肯塔基州列克星敦40546-0099和4美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心,邮编:27599-7295
Derek Y.Chiang先生
1肯塔基大学计算机科学系,肯塔基州列克星敦40506,2北卡罗来纳大学计算机科学系,北卡罗来那州教堂山,邮编:27599-3175,三肯塔基大学兽医学系格鲁克马研究中心,肯塔基州列克星敦40546-0099和4美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心,邮编:27599-7295
简·F·普林斯
1肯塔基大学计算机科学系,肯塔基州列克星敦40506,2北卡罗来纳大学计算机科学系,北卡罗来那州教堂山,邮编:27599-3175,三肯塔基大学兽医学系格鲁克马研究中心,肯塔基州列克星敦40546-0099和4美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心,邮编:27599-7295
刘金泽
1肯塔基大学计算机科学系,肯塔基州列克星敦40506,2北卡罗莱纳大学计算机科学系,北卡罗来纳州教堂山,邮编:27599-3175,三肯塔基大学兽医学系格鲁克马研究中心,肯塔基州列克星敦40546-0099和4美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心,邮编:27599-7295
1肯塔基大学计算机科学系,肯塔基州列克星敦40506,2北卡罗莱纳大学计算机科学系,北卡罗来纳州教堂山,邮编:27599-3175,三肯塔基大学兽医学系格鲁克马研究中心,肯塔基州列克星敦40546-0099和4美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心,邮编:27599-7295
2010年4月25日收到;2010年6月21日修订;2010年6月28日接受。
- 补充资料
补充数据
GUID:770EB5F3-2361-4DBC-BD79-E6276187B9FD
GUID:1DD1BBC2-658D-4751-B6BE-A82EF37BA387
摘要
跨接接头读数的精确映射是所有RNA-seq数据分析技术的关键组成部分。我们介绍了第二代拼接检测算法MapSplice,其重点是检测拼接的高灵敏度和特异性以及CPU和内存效率。MapSplice可以应用于短读取(<75 bp)和长读取(≥75 bp)。MapSplice不依赖于剪接位点特征或内含子长度,因此它可以检测新的规范剪接和非规范剪接。MapSplice利用给定拼接读取对齐的质量和多样性来提高精度。我们证明,在一组模拟RNA-seq数据上,MapSplice比TopHat和SpliceMap具有更高的敏感性和特异性。实验研究也支持该算法的准确性。来自八个乳腺癌RNA-seq数据集的拼接连接概括了全球范围内选择性剪接的广泛性以及乳腺癌分子亚型之间的差异。这些综合结果表明,MapSplice是一种用于RNA-seq读取与拼接连接对齐的高精度算法。软件下载URL:http://www.netlab.uky.edu/p/bioinfo/MapSplice。
简介
选择性剪接是产生转录多样性的基本机制。以下各项的特定组合顺式-动作序列,反式-作用剪接调控因子和组蛋白修饰导致不同细胞类型的外显子使用差异(1,2). 通过外显子的洗牌,剪接位点和非翻译区域可以彻底改变蛋白质的细胞功能(三,4). 值得注意的是,SNP与不同个体之间转录亚型比例的变化有关(5). 在某些情况下,改变剪接模式的罕见突变与疾病有关(6–9). 因此,转录组分析应包括对选择性剪接的全面调查。
微阵列是第一种能够对选择性剪接进行全球评估的技术(10–13). 设计跨越两个相邻外显子的寡核苷酸可用于测量剪接连接的丰度。然而,这些剪接连接探针只检测一组预定义的转录亚型。由于存在大量假设的外显子-外显子组合,微阵列在发现新的转录亚型方面并不有效。
深度转录组测序提供了足够的读取计数来测量转录亚型的相对比例,以及发现新的亚型(1,14–17). 一些高通量技术目前对短序列标签进行采样,通常小于200 bp。跨越剪接连接的序列标签的精确映射是转录物同种型重建的基础(18,19). 一种方法依赖于现有的转录注释来创建潜在剪接连接序列的数据库。与微阵列的上述限制类似,预定义比对数据库的构建限制了所查询的可能拼接连接集。
最近已经开发出从短序列标签中寻找新的拼接接头的方法。领先的QPALMA算法采用机器学习算法,从阳性对照的训练集预测拼接接头(20). TopHat算法通过配对候选外显子并评估读数与这些候选的比对来构建候选剪接连接(21). SpliceMap是另一种使用剪接位点侧翼碱基定位潜在剪接位点的方法(22).
我们引入MapSplice算法来检测拼接接头,而不依赖于拼接位置特征。这使MapSplice能够发现非规范连接和其他新的拼接事件,以及更常见的规范连接。MapSplice通常可用于短RNA-seq和长RNA-seq-reads。此外,MapSplice利用包括给定拼接的读取比对的质量和多样性,以提高接合点发现的特异性。因此,MapSplice具有很高的特异性和敏感性。使用合成数据集建立性能结果,并通过实验进行验证。
我们使用MapSplice研究了一组基底部和管腔部乳腺癌组织之间选择性剪接的显著差异。通过定量RT–PCR(qRT–PCR)对20个外显子跳跃事件进行的实验验证正确地确定了与基于剪接连接的估计高度相关(Pearson相关性=0.86)的同种型比例。拼接连接也概括了乳腺癌分子亚型之间的差异。在全球范围内,不同类别选择性剪接中剪接连接的比例与之前的RNA-seq研究一致。
材料和方法
MapSplice的目标是找到样本mRNA转录组中存在的外显子剪接连接,并确定每个mRNA序列标签与参考基因组最可能的比对。每个标签对应于从mRNA转录本中读取的多个连续核苷酸,其中标签的长度由协议和测序技术决定。例如,Illumina Genome Analyzer IIx在每个测序通道中生成超过20M个标签,大小可达100 bp。
MapSplice分两个阶段运行以实现其目标。在“标签比对”阶段,mRNA标签与参考基因组的候选比对G公司已确定。具有连续对齐的标签位于外显子内,可以直接映射到但是,包含一个或多个剪接连接的标签需要有间隙对齐,每个间隙对应于转录过程中剪接出来的内含子。由于可能会找到多个可能的比对,因此此阶段的结果通常是每个标记的一组候选比对。
在“拼接推断阶段”,对出现在一个或多个标签的比对中的拼接接头进行分析,以基于包括拼接的比对的质量和多样性来确定拼接显著性得分。此阶段的目的是拒绝虚假拼接,并根据对齐质量和拼接重要性的组合为每个标签选择最可能的对齐提供依据。有关算法的概述,请参见这两个阶段将在以下两个部分中进行描述。
MapSplice管道概述。该算法包含两个阶段:标记对齐(步骤1–步骤4)和拼接推断(步骤5–步骤6)。在“标签比对”阶段,mRNA标签与参考基因组的候选比对已确定。在“拼接推断”阶段,分析一个或多个标签比对中出现的拼接接头,以根据包括拼接的比对的质量和多样性确定拼接显著性得分。通过选择具有总体最高质量匹配和最高置信度拼接结的对准来解决模糊的候选对准。
标记对齐方式
设θ为标记集,并设米为标签长度。一个标签如果它可以完全与一个连续的核苷酸序列对齐,则具有“外显子对齐”G.T公司如果对齐到,则具有“拼接对齐”G公司需要一个或多个间隙。
MapSplice通过三个步骤标识候选标记对齐。首先,标签被分成连续的短片段和外显子比对G公司尝试对每个段执行。在第二步中,使用从已经对齐的相邻片段开始的拼接连接搜索技术,考虑没有外显子对齐的片段进行拼接对齐。在最后一步中,合并标记的线段路线,以查找每个标记的候选总体路线。以下是步骤的详细信息。
步骤1:将标记划分为段
长度为0的标签米被划分为n个连续长度段k个哪里。通常情况下k个长度大于等于50的标签为20–25。作为k个减少时,一段包含一个或多个拼接接头的机会相应减少,但段的多次假对准的机会增加。组成标签的段T型已标记其中,段数
拼接连接推断
拼接连接比对引入了多种方式,标签可以分裂成多个片段,每个片段都可以与基因组单独对齐。对于给定的标记,其中最多有一个是真正的对齐方式。拼接推断利用标签对拼接接头的广泛采样来计算接头质量,该接头质量可用于区分真实拼接接头和虚假拼接接头,并确定标签其余候选比对中的最佳比对。
步骤6:标签的最佳对齐
对于每个标签T型,我们选择候选对齐将第4步中的线形质量和第5步中的交叉点质量相结合,获得最高分数。
为验证生成合成数据
为了评估MapSplice的敏感性和特异性,我们从替代剪接和转录多样性(ASTD)数据库中编目的转录物中生成了标签的合成数据集(29).
该数据库收集了说明人类、小鼠和大鼠基因中选择性剪接事件的全长转录本。合成的“转录组”是根据参考文献中观察到的每个基因标签的经验分布随机选择基因和表达水平而生成的(1). 在一个基因中,转录物是按照各种子模型随机选择的,这些子模型决定了单个转录物相对于整个基因的表达水平。然后对以这种方式表征的合成转录组进行取样,以产生两个合成RNA-seq数据集。无噪音数据集精确地对转录本进行采样,生成的标签与参考基因组精确对齐,以模拟数据库转录本中的单核苷酸变异。根据经验Illumina基本呼叫质量配置文件,噪声数据集将突变引入基本呼叫。生成的数据集模拟了在参考文献(30).
通过qRT–PCR进行实验验证
根据制造商的说明,使用带有RNase抑制剂的高容量cDNA逆转录试剂盒(Applied Biosystems,Foster City,CA,USA)对从MCF-7和SUM-102细胞中分离的总RNA进行逆转录。通过qRT–PCR在Applied Biosystems 7300 Real Time PCR系统上测定感兴趣转录物的相对表达水平,该系统采用预先制备或定制的TaqMan基因表达分析(Applied biosystem,Foster City,CA,USA),其中包含感兴趣剪接位点两侧的引物和FAM/MGB标记的寡核苷酸探针。PCR反应按照制造商的说明进行。在总体积为20μl的基因表达主混合物中,用1μl TaqMan分析扩增相当于100 ng总RNA的cDNA。每项分析均一式三份。热循环条件如下:50°C 2 min,95°C 10 min,40次95°C循环15 s,60°C 1 min。C类t吨值在制造商的软件中确定,数据在Excel中利用比较C类t吨方法。为了比较两个细胞系之间的相对表达水平,C类t吨首先将感兴趣转录本的值标准化为HPRT1的值。
结果
连接推断
我们构建了一个合成的无噪音RNA-seq数据集,其中20M个100 bp的标签从ASTD中采样46 311个不同的转录物。使用MapSplice算法步骤1-4将标签与参考基因组(hg18)对齐
和为了建立包含真连接和假连接的训练数据集,对剪接位点侧翼序列或最大内含子大小没有强制限制。
我们随机选择10K真连接和10K假连接作为训练集,分析MapSplice第5步中使用的三种不同连接分类度量:对齐质量熵和锚显著性,以及前三个度量的线性回归得到的组合度量。为了避免训练中的样本偏差,采用了五倍的交叉验证。说明每个指标的敏感性和特异性的ROC曲线如所示。组合指标(实心绿色曲线)提供了比单个指标更好的分类结果,因为单个指标仅捕获交叉点的一个属性。在最佳情况下,组合指标的真阳性率为96.3%,假阳性率为8%。
交叉点分类的ROC曲线。从ASTD数据库中选择的转录物生成了20M 100 bp标签的合成数据集。选择10K真阳性连接和10K假阳性连接作为训练数据集。评估了五种不同的指标。它们包括(i)对准质量;(ii)锚的重要性;(iii)熵;(iv)覆盖范围;和(v)指标组合(i–iii)。每条曲线上的红十字标志着敏感度和特异性的最佳平衡点。
我们还将结果与最常用的指标之一进行了比较:连接覆盖率(与连接对齐的标签数量)。在许多研究中,如果至少有三个标签与交叉点对齐,则认为交叉点是正确的。但是,如所示,覆盖率(实心红色曲线)是最不可靠的指标,在连接分类方面表现最差。
具体参数
和在从该合成数据集获得的组合度量中,将用于本文中MapSplice处理的所有数据集。通过使用逻辑回归获得的参数,可以略微提高灵敏度,这些参数专门用于具有特定标签长度的数据集。参数的稳健性及其对标签长度和采样深度的敏感性实验包括在补充数据.
剪接推断的敏感性和特异性
比较了使用RNA-seq数据绘制拼接连接图的三个程序:MapSplice、TopHat(1.0.12)和SpliceMap(C++,v3.0,2010年4月15日)。我们将所有三种算法应用于两个具有代表性的合成数据集。其中一个数据集包含20M个长度为50 bp的标签。另一个是一个带有20M个100 bp标签的数据集。对于MapSplice和TopHat,我们都设置了
和。对于SpliceMap,唯一可配置的参数是段(种子)中的不匹配,该值也设置为1。相比之下(),TopHat和MapSplice的内存效率更高,速度也比SpliceMap快得多。SpliceMap采用的筛选标准包括最小锚定(延伸)为10 bp,400 kb区域内无多重比对,通过在100 bp标记中的灵敏度上进行权衡,提高了其特异性。MapSplice通过检测更多的真阳性连接和更少的假阳性连接,在这两个类别中表现最佳。
表1。
TopHat的比较(21),拼接贴图(22)和MapSplice在两个合成数据集上,分别具有长度为50和100bp的标签
数据集 | 方法 | 性能
| 交叉点发现
|
---|
时间 | 峰值内存。 | 总计 | 真的 | False(错误) |
---|
50个基点 | 顶帽(1.0.12) | 50分钟 | <4 GB | 85 356 | 76 486 | 8870 |
拼接图(C++3.0) | 13小时 | 9.3 GB | 88 807 | 87 205 | 1602 |
MapSplice(贴图拼接) | 25分钟 | <4 GB | 88 180 | 87 330 | 750 |
100个基点 | 顶帽(1.0.12) | 3小时40分钟 | <4 GB | 100 012 | 90 720 | 9292 |
拼接图(C++3.0) | 41小时 | 12 GB | 91 259 | 89 991 | 1268 |
映射拼接 | 1小时50分钟 | <4 GB | 94 112 | 92 849 | 1263 |
由于SpliceMap的输出不完整(未生成标记对齐),我们将更全面的比较限制为TopHat和MapSplice。我们研究了剪接推断的敏感性和特异性与标记长度和采样深度的关系。我们生成了合成数据集,以研究这些变化对接头发现的影响。在合成数据集中,我们有地面真值连接,并知道它们的实际覆盖范围,即跨越每个连接的标签数量。使用了两个衡量标准来评估算法。“灵敏度”是发现的真实连接总数与合成数据中采样的连接总数的比率。“特异性”是指发现的真实连接总数与发现的连接总数的比率。由于交叉点的覆盖对于发现交叉点至关重要,我们绘制了覆盖时的灵敏度和特异性x个作为覆盖范围内所有连接的敏感性和特异性x个或更大,如所示。我们还显示了在.
不同特征的合成数据集中剪接推断的敏感性和特异性。灵敏度是在合成数据中采样的真实连接中发现的真实连接的分数。特异性是报告的连接中真实连接的分数。由于采样深度对于发现接合点至关重要,因此我们将灵敏度和特异性绘制为覆盖阈值的函数。(A类)和(B类)完美标签和带有测序错误的标签的敏感性和特异性。(C类)和(D类)不同标记长度(50 bp、75 bp和100 bp)下的敏感性和特异性比较。(E类)和(F类)在两种不同的取样深度(分别为10M和20M标签)下比较敏感性和特异性。
包含恢复的真实连接(即对齐以包括连接)的标签分数,作为连接覆盖率的函数(由指数箱定义)。(A类)TopHat恢复了大约63%的标签,而(B类)MapSplice在每个连接处平均恢复84%的标记。在极低覆盖率下,盒图中的胡须恢复率>1是由于假阳性或在罕见情况下重复出现。
噪音的影响
在第一个实验中,我们构建了一个由20M个标签组成的100 bp合成RNA-seq数据集的无错误和有噪声版本,如上所述。MapSplice和TopHat在这两个数据集上运行,并且具有相同的4%的误差容限().A和B显示,只有在低覆盖率时,绩效才会受损。当覆盖率较高时,尽管存在错误,但灵敏度相似。专一性受到的影响更大,但当覆盖率较高时,也会收敛到类似的性能。在低覆盖率的情况下,在有错误的数据集中发现的杂散结比没有错误的数据集中发现的杂散结更多。比较MapSplice和TopHat,MapSplice在识别这两个数据集中的连接方面具有更高的灵敏度和特异性。即使在低覆盖率下,特异性也会显著提高。
标签长度的影响
在第二个实验中,我们生成了一个包含20M个100 bp标签的合成数据集,并通过分别选择100 bp标签中的50和75 bp随机子序列创建了另外两个数据集。MapSplice和TopHat都应用于这些数据集,最大不匹配百分比为标记长度的4%。结果如所示C和D。通常,对于TopHat和MapSplice,较长的标记不仅提高了灵敏度,而且提高了连接发现的特异性。相比之下,MapSplice对所有三个标记长度都具有更高的灵敏度。灵敏度的差异在低覆盖率的接合处更为明显,而接合处的发现是最困难的。
取样深度的影响
在最后的实验中,我们生成了两个100 bp的数据集,标记数不同:分别为10M和20M。取样深度加倍并不能使接合点的特异性加倍,但确实提高了灵敏度。深度加倍对特异性有负面影响,特别是在低覆盖区域。这主要是因为增加从固定数量的转录本中取样的标签数量会增加重复标签(尤其是错误率高的标签)在基因组上错误对齐的可能性。
乳腺癌转录组
我们对四种原发性乳腺肿瘤进行了cDNA测序,获得了约2500万个长度为75 bp的标签,并复制了两种乳腺癌细胞系的样本。总共有四个样本对应于乳腺癌的基本亚型,四个样本则对应于管腔亚型。我们应用MapSplice和TopHat检测拼接接头,使用与合成数据集相同的参数设置。映射结果如所示总之,每个样本中10%到16%的标签在其对齐中包括拼接接头。超过77%的典型连接由GenBank中的已知转录物确认,这比TopHat多6%到11%。MapSplice识别出2421~3173个半正则连接,远低于TopHat报告的数量。但对于这两组,已知的连接集非常相似,这表明MapSplice对非规范拼接连接具有更高的特异性。
表2。
八个乳腺癌样本的标记定位和剪接连接检测结果:两个基底(BAS)原发肿瘤、两个SUM-102(SUM)细胞系、两个管腔(LUM)原发瘤和两个MCF-7(MCF)细胞系
样品 | 标记映射
| 典型连接一
| 半经典结b条
| 非标准接头c
|
---|
标签总数 | MS拼接(%) | 拼接TH(%) | 微软
| 真实航向
| 微软
| 真实航向
| 微软
| 真实航向
|
---|
总计 | 已知d日 | 总计 | 已知d日 | 总计 | 已知d日 | 总计 | 已知d日 | 总计 | 已知d日 | 总计 | 已知d日 |
---|
制动辅助系统 | 2390万 | 12.7 | 10.7 | 168.6公里 | 13.14万 | 1.403万 | 114.5公里 | 2914 | 970 | 8441 | 958 | 1967 | 96 | 4874 | 0 |
制动辅助系统 | 2590万 | 12.7 | 10.7 | 178.1公里 | 138.1万 | 150.3万 | 12.27万 | 3173 | 1036 | 8276 | 1027 | 1691 | 109 | 4994 | 0 |
SUM(总和) | 2540万 | 15.8 | 13.7 | 149.7K个 | 119.8公里 | 132.6公里 | 1.093万 | 2691 | 910 | 7828 | 940 | 1665 | 91 | 2468 | 0 |
SUM(总和) | 2550万 | 15.8 | 13.7 | 14.98万 | 1.199万 | 132.5公里 | 1.094万 | 2683 | 909 | 7989 | 921 | 1685 | 99 | 2138 | 0 |
LUM(亮度单位) | 2580万 | 10.3 | 8.6 | 175.2公里 | 137.3K万 | 145.2公里 | 1.194万 | 2447 | 1011 | 8230 | 995 | 1365 | 93 | 4308 | 0 |
LUM(亮度单位) | 25.0米 | 11.1 | 9.4 | 1.737万 | 137.6公里 | 144.6公里 | 118.8公里 | 2507 | 1014 | 9467 | 989 | 1591 | 93 | 5944 | 0 |
最大持续流量 | 2460万 | 15.4 | 13.3 | 1.547万 | 120.2公里 | 135.5公里 | 110.5公里 | 2421 | 937 | 6387 | 951 | 1240 | 92 | 1129 | 0 |
最大持续流量 | 2310万 | 15.4 | 13.2 | 152.3万 | 1.194万 | 1.334万 | 109.5万 | 2287 | 935 | 6222 | 946 | 1157 | 91 | 1139 | 0 |
MapSplice报告了1157到1967年间的非规范剪接连接,其中5-8%在已知GenBank转录本中得到确认。虽然TopHat报告了多达5944个非规范连接,但其中没有一个在GenBank转录本中得到确认。由于TopHat程序不搜索非规范连接,因此此结果可能是人为的。我们发现9205个基因显示出选择性剪接的证据,从每个肿瘤7371到8942个基因。MapSplice在已知的半正则或非正则连接的2 bp范围内识别出420到430个正则连接。对于几乎所有的标签,与相邻的非规范或半规范连接相比,与规范连接对齐的标签的失配更少。这些发现表明当前数据库中存在错误,RNA-seq数据可能能够纠正这些错误。
MapSplice检测到了替代剪接类别的预期比例,尽管它并不依赖于转录注释数据库。我们研究了在次要转录亚型的不同最小阈值下可以检测到多少选择性剪接事件(). 例如,在每个剪接连接的两个或多个标记的截断处,MapSplice在每个肿瘤中检测到7535到8270个选择性剪接事件。这些事件包括:34.5%跳过外显子;30.3%的备选5′位点;33.8%的3′位点可供选择;1.4%的互斥外显子。之前对10种不同组织和10种不同细胞系的RNA-seq研究(1)报告的相似值:35%跳过外显子;28%的选择性5′位点和第一外显子;31%的选择性3′位点、最后外显子和UTR;和4%互斥外显子。这两项研究之间的高度一致性进一步表明MapSplice比对是高度准确的。
我们随机选择了跳过的外显子事件,用于实验验证MapSplice对拼接连接的比对。我们计算了与跳过外显子亚型对齐的剪接连接标签的比例,然后将其与与跳过外隐子亚型或包含外显子亚型对齐的拼接连接标签的总数进行比较(). 我们将这些计算与通过qRT-PCR在MCF-7和SUM-102细胞系中确定的剪接比率进行了比较。这20个事件的皮尔逊相关系数为0.84,MapSplice在拼接接头计数方面达到了非常高的精度。
MapSplice和Taqman检测外显子跳跃比率的相关性。每个点代表在MCF-7(黑色)或SUM-102(蓝色)细胞系中测得的外显子跳跃比率。
我们确定了12个外显子跳跃事件,在基础亚型和管腔亚型之间存在显著差异。例如,NUMB是Notch和Hedgehog通路中的一种衔接蛋白,在N末端PTB结构域中有一个潜在的跳过外显子,在C末端富含脯氨酸区域中有另一个跳过外显字(31). 虽然所有乳腺癌样本PTB结构域外显子的跳跃比率相似,但我们检测到脯氨酸富集区的跳跃外显子存在显著差异。这种较长的亚型在管腔样本中的外显子包含率为45-78%,而在基础样本中为16-22%(). 我们预计,随着更多样本被测序,我们将有更大的统计能力来识别可区分癌症亚型的选择性剪接事件。
替代外显子跳跃事件的示例。NUMB的第二外显子显示两种癌症亚型之间的差异选择性剪接。在基础样本中,外显子跳跃比率为~70%,而在管腔样本中,它们小于50%。
我们研究了肿瘤的分子亚型是否具有不同的选择性剪接模式,而与它们的基因表达水平无关。我们选择了129个单个外显子跳跃事件,每个肿瘤中至少有三个标签检测到这些事件。然后对剪接比率矩阵进行分层聚类,每行表示不同的剪接事件,每列表示单个肿瘤(). 值得注意的是,管腔亚型的两个原发性乳腺肿瘤聚集在一起,基底亚型的这两个原发性乳腺肿瘤也聚集在一起。乳腺癌细胞系聚集在原发肿瘤之间,这表明这些细胞系与它们的原发肿瘤相似,但在剪接方面也有一些主要差异。对这些剪接比率的主成分分析得出了类似的结论:第一主成分将细胞系与原发肿瘤区分开来,而第二主成分将管腔亚型与基底亚型区分开来(B和D)。
具有选择性外显子跳跃事件跳跃比率的肿瘤亚型聚类。选择了129个可选外显子跳跃事件,每个样本的最小连接支持度至少为3。(A类)跳过比率的热图(红色到蓝色刻度),其中每行对应于一个不同的外显子跳过事件,每列代表一个样本。我们对行和列执行了分层聚类。树状图分别显示在热图的左侧和顶部。(B类)我们将主成分分析(PCA)应用于八个样本的相关矩阵。散点图显示了由第一主成分和第二主成分组成的二维空间中八个样本的相对位置。该图显示了两种癌症亚型之间沿着第二主成分的良好分离。(C类)我们对(A)中的跳跃比率矩阵进行了方差分析测试。我们选择了12个事件,这些事件在两种肿瘤亚型之间有显著差异0.001. 它们的跳跃比率矩阵显示在热图中。行和列都聚集在一起。(D类)八个样本沿着第一主成分和第二主成分的散点图,该主成分由基于11个选定事件的八个样本的相关距离矩阵的主成分分析生成。
讨论
准确识别和量化转录亚型对于表征不同细胞类型之间的选择性剪接至关重要。此外,在剪接位点或剪接增强子序列中发现的序列变体可能对选择性剪接产生功能性影响。因此,准确检测替代剪接事件的方法对于确定这些序列变体是否影响转录物异构体比例是必要的。由于某些剪接连接可以明确区分转录亚型,我们将重点放在提高剪接连接对齐的准确性上从头开始为此,我们开发了一种新的剪接发现算法MapSplice,该算法满足三个目标。
首先,MapSplice使用不依赖于剪接位点的特征或位置的近似序列相似性,执行敏感、完整和无偏见的搜索来查找剪接接合点。因此,该算法同样适用于来自研究充分的模型生物的RNA-seq数据,也适用于来自具有稀疏转录注释的生物的数据。该算法能够找到短程、长程和染色体间剪接,例如在基因融合和其他因DNA损伤导致的嵌合剪接事件中可能出现的剪接。
其次,MapSplice利用高效的近似序列对齐方法与局部搜索相结合,创建了一种快速且节省内存的算法。其对齐策略可以很容易地推广到读数>100 bp。MapSplice的处理能力为每小时1000万次读取(100 bp),峰值内存使用量低于4 GB,因此可以高效地在桌面和服务器上运行。
第三,MapSplice采用了一种严格的方法来增加剪接搜索的特异性,这是由于一些RNA-seq标签可以通过多种方式找到基因组的剪接比对所必需的。通过利用RNA-seq数据集中转录组的深度采样,可以区分假剪接和真剪接。高特异性至关重要,因为典型的RNA-seq数据集可能包含数十万个拼接的一些证据。
在本文中,我们使用真实的合成数据集对剪接发现算法的敏感性和特异性进行了严格测量。通过对乳腺癌样本结果的实验验证,进一步评估了这些性能。使用合成数据集,我们确定75或100 bp的读取长度比50 bp的数据集在剪接检测方面具有更好的灵敏度和特异性。我们确定,尽管存在错误,仍然可以找到拼接。最后,我们使用合成数据校准了几个过滤标准,以在模拟数据中检测剪接接头时达到98%以上的特异性和96%以上的灵敏度。这些过滤标准在我们与TopHat的比较中提供了卓越的准确性(21)和拼接贴图(22)算法。
一些实验证据也证实了MapSplice算法的拼接接头对齐的高精度。首先,不同类别的选择性剪接中剪接连接的分布与先前的研究高度一致(). 其次,通过qRT-PCR对10个预测进行实验验证,正确识别出与基于剪接连接的估计值高度相关的亚型比例(Pearson相关性=0.86)。第三,剪接比率的层次聚类重述了四种乳腺肿瘤和两种乳腺癌细胞系的已知分子亚型。随着样本量的增加,我们将获得更多的能力来识别癌症分子亚型之间剪接异构体比例存在显著差异的候选基因。
这项深度测序研究首次调查了癌症亚型之间的选择性剪接差异。在测序深度约为2000万次、长度为75 bp的测序中,我们确定了149 722到178 107个标准拼接接头,以及3661到4884个半标准和非标准拼接接头。值得注意的是,我们发现19-22%的剪接连接之前在GenBank的全长转录本中没有观察到。在这些连接中,约15%连接了两个已知外显子,表明存在外显子跳跃事件的新亚型。
我们预计,样本组之间的测试对于解释大规模转录组测序项目(如癌症基因组图谱)的数据至关重要。与种群内选择性剪接的自然变异相比,需要进一步的研究工作来区分在(潜在异质)疾病状态下富集的剪接模式(5).
从短序列读取重建全长转录本是一项具有挑战性的任务,特别是对于低丰度转录本。拼接接头构成了这些算法的构建块(19,32–35). 我们预计测序技术的进一步进步,例如更高的读取深度和更长的读取时间,将继续改进这些方法。最近的研究结合了剪接连接读取和外显子读取,以提供一个完整的比对分区(36).
资金
国家科学基金会(J.L.、J.N.M.和J.F.P.赠款编号0850237);国立卫生研究院(拨款编号约143848年; 致C.M.P.和授予编号P20RR016481页致J.L.);阿尔弗雷德·斯隆基金会(致D.Y.C.)。开放获取费用的资金来源:国立卫生研究院(拨款编号CA143848号).
利益冲突声明。未声明。
致谢
我们要感谢王泽峰、本·伯曼、科尔宾·琼斯、奥列格·埃夫格拉夫夫和匿名审稿人对手稿的批判性评论。
参考文献
1Wang ET、Sandberg R、Luo SJ、Khrebtukova I、Zhang L、Mayr C、Kingsmore SF、Schroth GP、Burge CB。人类组织转录体中的替代亚型调控。自然。2008年;456:470–476. [PMC免费文章][公共医学][谷歌学者] 2Luco RF,Pan Q,Tominaga K,Blencowe BJ,Pereira-Smith OM,Misteli T.组蛋白修饰对选择性剪接的调节。科学。2010;327:996–1000. [PMC免费文章][公共医学][谷歌学者] 三。Andersen LB、Ballester R、Marchuk DA、Chang E、Gutmann DH、Saulino AM、Camonis J、Wigler M、Collins FS。von Recklinghausen神经纤维瘤病(NF1)基因中的一个保守的选择性剪接产生两种神经纤维蛋白亚型,这两种亚型都具有GTPase激活蛋白活性。分子细胞。生物。1993;13:487–495. [PMC免费文章][公共医学][谷歌学者] 4Screaton GR、Bell MV、Jackson DG、Cornelis FB、Gerth U、Bell JI。编码淋巴细胞归巢受体CD44的DNA基因组结构显示至少12个选择性剪接外显子。程序。美国国家科学院。科学。美国。1992;89:12160–12164. [PMC免费文章][公共医学][谷歌学者] 5Kwan T、Benovoy D、Dias C、Gurd S、Provencher C、Beaulieu P、Hudson TJ、Sladek R、Majewski J.人类转录异构体变异的全基因组分析。自然遗传学。2008年;40:225–231.[公共医学][谷歌学者] 6Meyers GA、Day D、Goldberg R、Daentl DL、Przylepa KA、Abrams LJ、Graham JM,Jr、Feingold M、Moeschler JB、Rawnsley E等。克鲁森综合征、杰克逊·韦斯综合征和普菲弗综合征中FGFR2外显子IIIa和IIIc突变:错义变化、插入和选择性RNA剪接导致的缺失的证据。Am.J.Hum.遗传学。1996;58:491–498. [PMC免费文章][公共医学][谷歌学者] 7Pollock PM、Gartside MG、Dejeza LC、Powell MA、Mallon MA、Davies H、Mohammadi M、Futreal PA、Stratton MR、Trent JM等。子宫内膜癌中频繁激活的FGFR2突变与颅缝骨裂和骨骼发育不良综合征相关的种系突变。致癌物。2007;26:7158–7162。 [PMC免费文章][公共医学][谷歌学者] 8Perou CM、Sorlie T、Eisen MB、van de Rijn M、Jeffrey SS、Rees CA、Pollack JR、Ross DT、Johnsen H、Akslen LA等。人类乳腺肿瘤的分子肖像。自然。2000;406:747–752.[公共医学][谷歌学者] 9Dutt A、Salvesen HB、Chen TH、Ramos AH、Onofrio RC、Hatton C、Nicoletti R、Winckler W、Grewal R、Hanna M等。子宫内膜癌中对药物敏感的FGFR2突变。程序。美国国家科学院。科学。美国。2008年;105:8713–8717. [PMC免费文章][公共医学][谷歌学者] 10Johnson JM、Castle J、Garrett Engele P、Kan Z、Loerch PM、Armour CD、Santos R、Schadt EE、Stoughton R、Shoemaker DD。用外显子连接微阵列对人类选择性前信使核糖核酸剪接的全基因组调查。科学。2003;302:2141–2144.[公共医学][谷歌学者] 11Pan Q、Shai O、Miswetta C、Zhang W、Saltzman AL、Mohammad N、Babak T、Siu H、Hughes TR、Morris QD等。利用定量微阵列平台揭示哺乳动物选择性剪接的全球调控特征。摩尔细胞。2004;16:929–941.[公共医学][谷歌学者] 12Ule J、Ule A、Spencer J、Williams A、Hu JS、Cline M、Wang H、Clark T、Fraser C、Ruggiu M等。Nova调节大脑特异性剪接以形成突触。自然遗传学。2005;37:844–852.[公共医学][谷歌学者] 13Castle JC、Zhang C、Shah JK、Kulkarni AV、Kalsotra A、Cooper TA、Johnson JM。24426人选择性剪接事件的表达和48种组织和细胞系中的顺式调控预测。自然遗传学。2008年;40:1416–1425. [PMC免费文章][公共医学][谷歌学者] 14Pan Q,Shai O,Lee LJ,Frey J,Blencowe BJ。通过高通量测序深入研究人类转录组中的选择性剪接复杂性。自然遗传学。2008年;40:1413–1415。[公共医学][谷歌学者] 15Mortazavi A、Williams BA、McCue K、Schaeffer L、Wold B.通过RNA-Seq对哺乳动物转录体进行定位和量化。自然方法。2008年;5:621–628.[公共医学][谷歌学者] 16Sultan M、Schulz MH、Richard H、Magen A、Klingenhoff A、Scherf M、Seifert M、Borodina T、Soldatov A、Parkhomchuk D等。通过人类转录组的深度测序对基因活性和选择性剪接的全球观点。科学。2008年;321:956–960.[公共医学][谷歌学者] 17Mereau A、Anquetil V、Cibois M、Noiret M、Primot A、Vallee A、Paillard L。通过焦磷酸测序分析剪接模式。核酸研究。2009;37:e126。 [PMC免费文章][公共医学][谷歌学者] 18Xing Y,Yu T,Wu YN,Roy M,Kim J,Lee C.从剪接图概率重建全长异构体的期望最大化算法。核酸研究。2006;34:3150–3160。 [PMC免费文章][公共医学][谷歌学者] 20De Bona F、Ossowski S、Schneeberg K、Ratsch G。短序列读取的最佳拼接对齐。生物信息学。2008年;24:i174–i180。[公共医学][谷歌学者] 21Trapnell C、Pachter L、Salzberg SL。TopHat:利用RNA-Seq发现剪接连接。生物信息学。2009;25:1105–1111. [PMC免费文章][公共医学][谷歌学者] 22Au K、Jiang H、Lin L、Xing Y、Wong WH。利用拼接图从配对RNA-seq数据中检测拼接连接。核酸研究。2010;2010doi:10.1093/nar/gkq211。[PMC免费文章][公共医学][谷歌学者] 23Langmead B、Trapnell C、Pop M、Salzberg SL。短DNA序列与人类基因组的超快和高效记忆比对。基因组生物学。2009;10:R25。 [PMC免费文章][公共医学][谷歌学者] 24Li H,Durbin R.使用Burrows-Wheeler变换快速准确地进行短读对齐。生物信息学。2009;25:1754–1760. [PMC免费文章][公共医学][谷歌学者] 25Li R、Yu C、Li Y、Lam TW、Yiu SM、Kristiansen K、Wang J.SOAP2:一种改进的超快短读对齐工具。生物信息学。2009;25:1966年至1967年。[公共医学][谷歌学者] 26Homer N、Merriman B、Nelson SF。BFAST:大规模基因组重新测序的比对工具。《公共科学图书馆·综合》。2009;4:e7767。 [PMC免费文章][公共医学][谷歌学者] 27Li H,Ruan J,Durbin R.使用绘图质量分数绘制短DNA测序读取和调用变体。基因组研究。2008年;18:1851年至1858年。 [PMC免费文章][公共医学][谷歌学者] 28Malde K。序列质量对序列比对的影响。生物信息学。2008年;24:897–900.[公共医学][谷歌学者] 29Koscielny G、Le Texier V、Gopalakrishnan C、Kumanduri V、Riethoven JJ、Nardone F、Stanley E、Fallsehr C、Hofmann O、Kull M等。ASTD:替代拼接和转录多样性数据库。基因组学。2009;93:213–220.[公共医学][谷歌学者] 30Kircher M、Stenzel U和Kelso J.使用机器学习策略改进了Illumina基因组分析仪的基础。基因组生物学。2009;10:R83。 [PMC免费文章][公共医学][谷歌学者] 31Gulino A、Di Marcotullio L、Screpanti I。Numb的多重功能。实验细胞研究。2010;316:900–906.[公共医学][谷歌学者] 32Heber S,Alekseyev M,Sze SH,Tang H,Pevzner PA。拼接图和EST装配问题。生物信息学。2002;18(补充1):S181–S188。[公共医学][谷歌学者] 33Xing Y,Lee C.从剪接图重建全长亚型。方法分子生物学。2008年;452:199–205.[公共医学][谷歌学者] 34Birol I、Jackman SD、Nielsen CB、Qian JQ、Varhol R、Stazyk G、Morin RD、Zhao Y、Hirst M、Schein JE等。与ABySS的从头转录组组装。生物信息学。2009;25:2872–2877.[公共医学][谷歌学者] 35Zheng S,Chen L.在个体转录亚型水平上比较转录组的分层贝叶斯模型。核酸研究。2009;37:e75。 [PMC免费文章][公共医学][谷歌学者] 36Richard H、Schulz MH、Sultan M、Nurnberger A、Schrinner S、Balzereit D、Dagand E、Rasche A、Lehrach H、Vingron M等。RNA-Seq实验中外显子表达水平对替代亚型的预测。核酸研究。2010;8:e112。 [PMC免费文章][公共医学][谷歌学者]