MapSplice: Accurate mapping of RNA-seq reads for splice junction discovery

Kai Wang; Darshan Singh; Zheng Zeng; Stephen J. Coleman; Yan Huang; Gleb L. Savich; Xiaping He; Piotr Mieczkowski; Sara A. Grimm; Charles M. Perou; James N. MacLeod; Derek Y. Chiang; Jan F. Prins; Jinze Liu

doi:10.1093/nar/gkq622

核酸研究。2010年10月；38（18）：e178。

2010年8月27日在线发布。数字对象标识：10.1093/nar/gkq622

预防性维修识别码：项目经理2952873

PMID：20802226

MapSplice：用于发现剪接连接的RNA-seq读数的精确定位

王凯（Kai Wang）,¹ 达尔山·辛格,² 郑曾,¹ 斯蒂芬·科尔曼,^三炎黄,¹ 格勒布·萨维奇,⁴ 何夏平,⁴ 彼得·米茨科夫斯基（Piotr Mieczkowski）,⁴ 萨拉·格里姆,⁴ 查尔斯·佩罗,⁴ 詹姆斯·麦克劳德,^三德里克·蒋（Derek Y.Chiang）,⁴ 简·F·普林斯,²和刘金泽^1,^*

王凯（Kai Wang）

¹肯塔基大学计算机科学系，肯塔基州列克星敦40506，²北卡罗来纳大学计算机科学系，北卡罗来那州教堂山，邮编：27599-3175，^三肯塔基大学兽医学系格鲁克马研究中心，肯塔基州列克星敦40546-0099和⁴美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心，邮编：27599-7295

查找文章依据王凯（Kai Wang）

达尔山·辛格

¹肯塔基大学计算机科学系，肯塔基州列克星敦40506，²北卡罗来纳大学计算机科学系，北卡罗来那州教堂山，邮编：27599-3175，^三肯塔基大学兽医学系格鲁克马研究中心，肯塔基州列克星敦40546-0099和⁴美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心，邮编：27599-7295

查找文章依据达尔山·辛格

郑增

¹肯塔基大学计算机科学系，肯塔基州列克星敦40506，²北卡罗莱纳大学计算机科学系，北卡罗来纳州教堂山，邮编：27599-3175，^三肯塔基大学兽医学系格鲁克马研究中心，肯塔基州列克星敦40546-0099和⁴美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心，邮编：27599-7295

查找文章依据郑增

斯蒂芬·科尔曼

¹肯塔基大学计算机科学系，肯塔基州列克星敦40506，²北卡罗来纳大学计算机科学系，北卡罗来那州教堂山，邮编：27599-3175，^三肯塔基大学兽医学系格鲁克马研究中心，肯塔基州列克星敦40546-0099和⁴美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心，邮编：27599-7295

查找文章依据斯蒂芬·科尔曼

炎黄

¹肯塔基大学计算机科学系，肯塔基州列克星敦40506，²北卡罗莱纳大学计算机科学系，北卡罗来纳州教堂山，邮编：27599-3175，^三肯塔基大学兽医科学系Gluck Equine研究中心，肯塔基州列克星敦40546-0099和⁴美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心，邮编：27599-7295

查找文章依据炎黄

格勒布·萨维奇

¹肯塔基大学计算机科学系，肯塔基州列克星敦40506，²北卡罗莱纳大学计算机科学系，北卡罗来纳州教堂山，邮编：27599-3175，^三肯塔基大学兽医学系格鲁克马研究中心，肯塔基州列克星敦40546-0099和⁴美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心，邮编：27599-7295

查找文章依据格勒布·萨维奇

何夏平

¹肯塔基大学计算机科学系，肯塔基州列克星敦40506，²北卡罗莱纳大学计算机科学系，北卡罗来纳州教堂山，邮编：27599-3175，^三肯塔基大学兽医学系格鲁克马研究中心，肯塔基州列克星敦40546-0099和⁴美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心，邮编：27599-7295

查找文章依据何夏平

彼得·米茨科夫斯基（Piotr Mieczkowski）

¹肯塔基大学计算机科学系，肯塔基州列克星敦40506，²北卡罗莱纳大学计算机科学系，北卡罗来纳州教堂山，邮编：27599-3175，^三肯塔基大学兽医学系格鲁克马研究中心，肯塔基州列克星敦40546-0099和⁴美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心，邮编：27599-7295

查找文章依据彼得·米茨科夫斯基（Piotr Mieczkowski）

萨拉·格里姆

¹肯塔基大学计算机科学系，肯塔基州列克星敦40506，²北卡罗莱纳大学计算机科学系，北卡罗来纳州教堂山，邮编：27599-3175，^三肯塔基大学兽医学系格鲁克马研究中心，肯塔基州列克星敦40546-0099和⁴美国北卡罗来纳大学教堂山分校遗传学系和北卡罗来纳大学Lineberger综合癌症中心27599-7295

查找文章依据萨拉·格里姆

查尔斯·佩罗

¹肯塔基大学计算机科学系，肯塔基州列克星敦40506，²北卡罗莱纳大学计算机科学系，北卡罗来纳州教堂山，邮编：27599-3175，^三肯塔基大学兽医科学系Gluck Equine研究中心，肯塔基州列克星敦40546-0099和⁴美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心，邮编：27599-7295

查找文章依据查尔斯·佩罗

詹姆斯·麦克劳德

¹肯塔基大学计算机科学系，肯塔基州列克星敦40506，²北卡罗莱纳大学计算机科学系，北卡罗来纳州教堂山，邮编：27599-3175，^三肯塔基大学兽医学系格鲁克马研究中心，肯塔基州列克星敦40546-0099和⁴美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心，邮编：27599-7295

查找文章依据詹姆斯·麦克劳德

Derek Y.Chiang先生

¹肯塔基大学计算机科学系，肯塔基州列克星敦40506，²北卡罗来纳大学计算机科学系，北卡罗来那州教堂山，邮编：27599-3175，^三肯塔基大学兽医学系格鲁克马研究中心，肯塔基州列克星敦40546-0099和⁴美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心，邮编：27599-7295

查找文章依据德里克·蒋（Derek Y.Chiang）

简·F·普林斯

¹肯塔基大学计算机科学系，肯塔基州列克星敦40506，²北卡罗来纳大学计算机科学系，北卡罗来那州教堂山，邮编：27599-3175，^三肯塔基大学兽医学系格鲁克马研究中心，肯塔基州列克星敦40546-0099和⁴美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心，邮编：27599-7295

查找文章依据简·F·普林斯

刘金泽

¹肯塔基大学计算机科学系，肯塔基州列克星敦40506，²北卡罗莱纳大学计算机科学系，北卡罗来纳州教堂山，邮编：27599-3175，^三肯塔基大学兽医学系格鲁克马研究中心，肯塔基州列克星敦40546-0099和⁴美国北卡罗来纳大学Chapel Hill分校遗传系和UNC Lineberger综合癌症中心，邮编：27599-7295

查找文章依据刘金泽

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充资料: 补充数据

支持_38_18_e178__index.html（763字节）
GUID:770EB5F3-2361-4DBC-BD79-E6276187B9FD

支持_gkq622_supp.pdf（161K）
GUID:1DD1BBC2-658D-4751-B6BE-A82EF37BA387

摘要

跨接接头读数的精确映射是所有RNA-seq数据分析技术的关键组成部分。我们介绍了第二代拼接检测算法MapSplice，其重点是检测拼接的高灵敏度和特异性以及CPU和内存效率。MapSplice可以应用于短读取（<75 bp）和长读取（≥75 bp）。MapSplice不依赖于剪接位点特征或内含子长度，因此它可以检测新的规范剪接和非规范剪接。MapSplice利用给定拼接读取对齐的质量和多样性来提高精度。我们证明，在一组模拟RNA-seq数据上，MapSplice比TopHat和SpliceMap具有更高的敏感性和特异性。实验研究也支持该算法的准确性。来自八个乳腺癌RNA-seq数据集的拼接连接概括了全球范围内选择性剪接的广泛性以及乳腺癌分子亚型之间的差异。这些综合结果表明，MapSplice是一种用于RNA-seq读取与拼接连接对齐的高精度算法。软件下载URL：http://www.netlab.uky.edu/p/bioinfo/MapSplice。

简介

选择性剪接是产生转录多样性的基本机制。以下各项的特定组合顺式-动作序列，反式-作用剪接调控因子和组蛋白修饰导致不同细胞类型的外显子使用差异(1,2). 通过外显子的洗牌，剪接位点和非翻译区域可以彻底改变蛋白质的细胞功能(三,4). 值得注意的是，SNP与不同个体之间转录亚型比例的变化有关(5). 在某些情况下，改变剪接模式的罕见突变与疾病有关(6–9). 因此，转录组分析应包括对选择性剪接的全面调查。

微阵列是第一种能够对选择性剪接进行全球评估的技术(10–13). 设计跨越两个相邻外显子的寡核苷酸可用于测量剪接连接的丰度。然而，这些剪接连接探针只检测一组预定义的转录亚型。由于存在大量假设的外显子-外显子组合，微阵列在发现新的转录亚型方面并不有效。

深度转录组测序提供了足够的读取计数来测量转录亚型的相对比例，以及发现新的亚型(1,14–17). 一些高通量技术目前对短序列标签进行采样，通常小于200 bp。跨越剪接连接的序列标签的精确映射是转录物同种型重建的基础(18,19). 一种方法依赖于现有的转录注释来创建潜在剪接连接序列的数据库。与微阵列的上述限制类似，预定义比对数据库的构建限制了所查询的可能拼接连接集。

最近已经开发出从短序列标签中寻找新的拼接接头的方法。领先的QPALMA算法采用机器学习算法，从阳性对照的训练集预测拼接接头(20). TopHat算法通过配对候选外显子并评估读数与这些候选的比对来构建候选剪接连接(21). SpliceMap是另一种使用剪接位点侧翼碱基定位潜在剪接位点的方法(22).

我们引入MapSplice算法来检测拼接接头，而不依赖于拼接位置特征。这使MapSplice能够发现非规范连接和其他新的拼接事件，以及更常见的规范连接。MapSplice通常可用于短RNA-seq和长RNA-seq-reads。此外，MapSplice利用包括给定拼接的读取比对的质量和多样性，以提高接合点发现的特异性。因此，MapSplice具有很高的特异性和敏感性。使用合成数据集建立性能结果，并通过实验进行验证。

我们使用MapSplice研究了一组基底部和管腔部乳腺癌组织之间选择性剪接的显著差异。通过定量RT–PCR（qRT–PCR）对20个外显子跳跃事件进行的实验验证正确地确定了与基于剪接连接的估计高度相关（Pearson相关性=0.86）的同种型比例。拼接连接也概括了乳腺癌分子亚型之间的差异。在全球范围内，不同类别选择性剪接中剪接连接的比例与之前的RNA-seq研究一致。

材料和方法

MapSplice的目标是找到样本mRNA转录组中存在的外显子剪接连接，并确定每个mRNA序列标签与参考基因组最可能的比对。每个标签对应于从mRNA转录本中读取的多个连续核苷酸，其中标签的长度由协议和测序技术决定。例如，Illumina Genome Analyzer IIx在每个测序通道中生成超过20M个标签，大小可达100 bp。

MapSplice分两个阶段运行以实现其目标。在“标签比对”阶段，mRNA标签与参考基因组的候选比对G公司已确定。具有连续对齐的标签位于外显子内，可以直接映射到保存图片、插图等的外部文件。对象名称为gkq622i2.jpg 但是，包含一个或多个剪接连接的标签需要有间隙对齐，每个间隙对应于转录过程中剪接出来的内含子。由于可能会找到多个可能的比对，因此此阶段的结果通常是每个标记的一组候选比对。

在“拼接推断阶段”，对出现在一个或多个标签的比对中的拼接接头进行分析，以基于包括拼接的比对的质量和多样性来确定拼接显著性得分。此阶段的目的是拒绝虚假拼接，并根据对齐质量和拼接重要性的组合为每个标签选择最可能的对齐提供依据。有关算法的概述，请参见图1这两个阶段将在以下两个部分中进行描述。

在单独的窗口中打开

图1。

MapSplice管道概述。该算法包含两个阶段：标记对齐（步骤1–步骤4）和拼接推断（步骤5–步骤6）。在“标签比对”阶段，mRNA标签与参考基因组的候选比对保存图片、插图等的外部文件。对象名称为gkq622i3.jpg 已确定。在“拼接推断”阶段，分析一个或多个标签比对中出现的拼接接头，以根据包括拼接的比对的质量和多样性确定拼接显著性得分。通过选择具有总体最高质量匹配和最高置信度拼接结的对准来解决模糊的候选对准。

标记对齐方式

设θ为标记集，并设米为标签长度。一个标签保存图片、插图等的外部文件。对象名称为gkq622i4.jpg 如果它可以完全与一个连续的核苷酸序列对齐，则具有“外显子对齐”G.T公司如果对齐到，则具有“拼接对齐”G公司需要一个或多个间隙。

MapSplice通过三个步骤标识候选标记对齐。首先，标签被分成连续的短片段和外显子比对G公司尝试对每个段执行。在第二步中，使用从已经对齐的相邻片段开始的拼接连接搜索技术，考虑没有外显子对齐的片段进行拼接对齐。在最后一步中，合并标记的线段路线，以查找每个标记的候选总体路线。以下是步骤的详细信息。

步骤1：将标记划分为段

长度为0的标签米被划分为n个连续长度段k个哪里保存图片、插图等的外部文件。对象名称为gkq622i12.jpg 。通常情况下k个长度大于等于50的标签为20–25。作为k个减少时，一段包含一个或多个拼接接头的机会相应减少，但段的多次假对准的机会增加。组成标签的段T型已标记保存图片、插图等的外部文件。对象名称为gkq622i15.jpg 其中，段数保存图片、插图等的外部文件。对象名称为gkq622i16.jpg

第二步：片段的外显子比对

可以使用快速近似对准器（如Bowtie）执行分段的外部对准(23)和BWA(24)，或使用更通用的容错模型（如SOAP2）的校准器(25)、BFAST(26)和MAQ(27). 对于每个段保存图片、插图等的外部文件。对象名称为gkq622i17.jpg 标签的T型，让保存图片、插图等的外部文件。对象名称为gkq622i18.jpg 可能的外显子比对数保存图片、插图等的外部文件。对象名称为gkq622i19.jpg 到基因组，使用上述算法之一确定，误差容限为保存图片、插图等的外部文件。对象名称为gkq622i20.jpg 不匹配。什么时候？保存图片、插图等的外部文件。对象名称为gkq622i21.jpg 该片段具有独特的外显子序列。什么时候？保存图片、插图等的外部文件。对象名称为gkq622i22.jpg 该段有多条路线，每一条路线都将在后续步骤中考虑。

步骤3：分段拼接对齐

如果保存图片、插图等的外部文件。对象名称为gkq622i23.jpg ，段保存图片、插图等的外部文件。对象名称为gkq622i24.jpg 没有外显子比对。一个可能的原因是，它可能有一个跨越拼接接头的间隙对齐。一般来说，如果最小外显子长度至少为2k个，然后针对中的每一对连续线段T型至少有一个片段应该有外显子比对。因此，段的对齐保存图片、插图等的外部文件。对象名称为gkq622i25.jpg 定位于相邻的路线。以下两种技术用于查找线段的拼接路线，如所示图2.

在单独的窗口中打开

图2。

标记取样的mRNA转录物的一部分保存图片、插图等的外部文件。对象名称为gkq622i26.jpg 由外显子1的3′端、外显子2的全部和外显子3的5′端组成。保存图片、插图等的外部文件。对象名称为gkq622i27.jpg 被分割成若干段t吨₁,…, t吨_n个每个长度保存图片、插图等的外部文件。对象名称为gkq622i28.jpg 确定保存图片、插图等的外部文件。对象名称为gkq622i29.jpg 到基因组。只要外显子的长度不小于保存图片、插图等的外部文件。对象名称为gkq622i30.jpg 核苷酸，每两个连续片段中至少有一个必须有外显子比对。在这个例子中保存图片、插图等的外部文件。对象名称为gkq622i31.jpg 部分t吨₁和t吨_三具有外显子比对。细分市场t吨₂拼接对齐；拼接接头保存图片、插图等的外部文件。对象名称为gkq622i32.jpg 使用双锚搜索方法可以很容易地发现t吨₁和t吨_三.的拼接对齐t吨₄通过在基因组下游搜索后缀的出现来发现保存图片、插图等的外部文件。对象名称为gkq622i33.jpg -第页，共页t吨₄当发现这种情况时，使用双锚搜索方法评估可能的拼接接头保存图片、插图等的外部文件。对象名称为gkq622i34.jpg 之间保存图片、插图等的外部文件。对象名称为gkq622i35.jpg 和保存图片、插图等的外部文件。对象名称为gkq622i36.jpg -mer发生。

如果保存图片、插图等的外部文件。对象名称为gkq622i37.jpg 和保存图片、插图等的外部文件。对象名称为gkq622i38.jpg 两者都有外显子比对，然后我们对保存图片、插图等的外部文件。对象名称为gkq622i39.jpg 所有外显子比对的组合保存图片、插图等的外部文件。对象名称为gkq622i40.jpg 和保存图片、插图等的外部文件。对象名称为gkq622i41.jpg .如果只有一个相邻段保存图片、插图等的外部文件。对象名称为gkq622i42.jpg 进行外显子比对，然后从保存图片、插图等的外部文件。对象名称为gkq622i43.jpg 可能的对齐方式保存图片、插图等的外部文件。对象名称为gkq622i44.jpg .

双锚固拼接对齐：锚之间的基因组间隔和只需考虑拼接接头的可能位置x个在内部并且最小化对准失配。
从形式上讲，“汉明距离”在两个等长序列之间S公司和T型定义为具有不匹配基础的相应位置的数量。我们定义线段之间的拼接对齐和基因组间隔作为
从而产生最佳位置x个的拼接接头t吨这就为给定的基因组区间提供了最佳的拼接比对。拼接接头x个将内含子定义为
查找的拼接对齐的步骤在两个对齐的线段之间，让和是排列中最左边的基因组坐标和分别计算拼接–对齐
如果拼接接头的对准成本超过误差容限阈值的对齐方式失败。如果存在多个拼接接头位置记录多条路线
单锚拼接对准：在单锚的情况下未对齐的上游我们进行搜索这个小时-基本后缀在基因组区域下游类似地，在单锚的情况下下游搜索是为了小时-基本前缀属于在上游地区无论哪种情况，此搜索的范围都受到参数的限制D类，单锚点搜索的最大内含子大小，通常设置为50000bp。
所有单锚定比对都可以通过使用大小滑动窗口对基因组（表达部分）进行一次遍历来解决D类.一个小时-mer索引在此遍历期间保持不变，映射小时-默至下游锚在一定距离内D类和出现小时-默上游锚在一定距离内D类。随着窗口的移动，当锚定位于范围内时，会添加新条目，而当锚定超出范围时，会删除旧条目。
当小时-当前坐标下的merc在基因组扫描中被映射到下游片段拼接对齐如果在段错误阈值内，则给出记录的最佳拼接对齐类似地，当小时-mer映射到上游段，我们记录拼接对齐如果在段错误阈值内.
存在小外显子时的拼接对齐：如果外显子短于包含在成绩单中，可能有两个相邻的片段和两者都包括一个剪接接头，因此两者都不能在外显子区域内连续排列。如果外显子短于k个，即使是单个线段也可能包含多个拼接接头。以下方法允许我们检测大小小于.
假设S公司是两个锚之间一个或两个缺失段的序列这可能是由于外显子短，在前面的步骤中无法成功对齐。我们分裂S公司成为一组连续的小时-mers和指数S公司用这些小时-默斯。通过扩展用于单锚定拼接比对的基因组序列扫描，小时-参考基因组上的mers可以同时搜索所有内容。当存在匹配时，将执行两个双锚定拼接对齐：一个位于一和5′位小时-mer对齐；另一个位于小时-mer对齐和b条.
根据鸽子洞原理，如果外显子不短于，其中一个小时-未对齐片段中的mers将落在外显子内，从而触发随后的剪接比对。因此，这种方法可以保证检测长度大于并可能检测到更短的外显子。典型的小时-mer规模为6–8个基点。当外显子短于，找到拼接排列的机会减少。减少小时将导致越来越多的虚假匹配，而这些匹配将很难被过滤掉。

步骤4：合并线段路线

如果每个线段都是唯一对齐的，并且连接到相邻的线段时没有间隙，那么从其线段的各个对齐中组装完整的标记对齐是很简单的。然而，给定的段保存图片、插图等的外部文件。对象名称为gkq622i110.jpg 可以在多个位置对齐。在这种情况下，必须搜索路线的可能组合，以找到标记的最佳总体路线。

让保存图片、插图等的外部文件。对象名称为gkq622i111.jpg 是线段的路线集保存图片、插图等的外部文件。对象名称为gkq622i112.jpg 以及何时保存图片、插图等的外部文件。对象名称为gkq622i113.jpg ，让保存图片、插图等的外部文件。对象名称为gkq622i114.jpg 成为保存图片、插图等的外部文件。对象名称为gkq622i115.jpg 对齐保存图片、插图等的外部文件。对象名称为gkq622i116.jpg ，其中保存图片、插图等的外部文件。对象名称为gkq622i117.jpg 和保存图片、插图等的外部文件。对象名称为gkq622i118.jpg .原则上存在保存图片、插图等的外部文件。对象名称为gkq622i119.jpg 不同排列组合，但大多数可以通过基于连续线段排列的连续性的简单一致性测试排除。

两个相邻段保存图片、插图等的外部文件。对象名称为gkq622i120.jpg 和保存图片、插图等的外部文件。对象名称为gkq622i121.jpg 对于基因组上不连续的外显子比对，使用双锚定拼接比对方法检查两个片段之间的拼接连接。该程序还纠正了由于校准中的误差公差而导致的不准确拼接点保存图片、插图等的外部文件。对象名称为gkq622i122.jpg 和保存图片、插图等的外部文件。对象名称为gkq622i123.jpg .

对于生成候选路线的每个线段集合T型，我们计算其“失配分数”，即T型及其与基因组的比对保存图片、插图等的外部文件。对象名称为gkq622i125.jpg .

不匹配分数考虑了基本通话质量（如果可用）。当与不匹配的基地相关联时，低质量的基地呼叫可以提高分数，但当与匹配的基地相关联时，也可以降低分数(28). 给定基的基调用质量x个在标记的整体对齐中T型可以转换为概率第页那个x个调用不正确，因此预期的不匹配保存图片、插图等的外部文件。对象名称为gkq622i130.jpg 对准底座x个至底座年基因组中的

(1)

哪里保存图片、插图等的外部文件。对象名称为gkq622i133.jpg 是基数的概率x个核苷酸的背景分布。因此，我们假设核苷酸的分布是均匀的保存图片、插图等的外部文件。对象名称为gkq622i135.jpg 为所有人x个因此，考虑到保存图片、插图等的外部文件。对象名称为gkq622i137.jpg 和保存图片、插图等的外部文件。对象名称为gkq622i138.jpg 和保存图片、插图等的外部文件。对象名称为gkq622i139.jpg 核苷酸的概率保存图片、插图等的外部文件。对象名称为gkq622i140.jpg 调用不正确，预期不匹配为保存图片、插图等的外部文件。对象名称为gkq622i141.jpg

如果满足以下条件，则保留候选对齐保存图片、插图等的外部文件。对象名称为gkq622i142.jpg 否则将被丢弃。注意，当每个段对齐时，允许保存图片、插图等的外部文件。对象名称为gkq622i143.jpg 不匹配，整体标记对齐只允许保存图片、插图等的外部文件。对象名称为gkq622i144.jpg 预期的不匹配。我们将线形质量定义为保存图片、插图等的外部文件。对象名称为gkq622i145.jpg

拼接连接推断

拼接连接比对引入了多种方式，标签可以分裂成多个片段，每个片段都可以与基因组单独对齐。对于给定的标记，其中最多有一个是真正的对齐方式。拼接推断利用标签对拼接接头的广泛采样来计算接头质量，该接头质量可用于区分真实拼接接头和虚假拼接接头，并确定标签其余候选比对中的最佳比对。

步骤5：拼接接头质量

对于给定的拼接保存图片、插图等的外部文件。对象名称为gkq622i146.jpg 哪里保存图片、插图等的外部文件。对象名称为gkq622i147.jpg 是供体外显子的最后一个坐标保存图片、插图等的外部文件。对象名称为gkq622i148.jpg 是受体外显子的第一个坐标，我们考虑集合保存图片、插图等的外部文件。对象名称为gkq622i149.jpg 包含拼接接头的标记J型在候选路线中。我们定义了两个统计指标保存图片、插图等的外部文件。对象名称为gkq622i151.jpg ：“锚定意义” 保存图片、插图等的外部文件。对象名称为gkq622i152.jpg 由中的对齐确定保存图片、插图等的外部文件。对象名称为gkq622i153.jpg 由于拼接接头两侧的长锚和“熵”，其重要性最大化保存图片、插图等的外部文件。对象名称为gkq622i154.jpg 通过中拼接接头位置的多样性测量保存图片、插图等的外部文件。对象名称为gkq622i155.jpg

拼接接头的锚定意义：包含拼接接头的标记具有一些在拼接位置两侧对齐的相邻底座。一侧带有短锚的比对可信度较低，因为我们预计很容易找到短锚中核苷酸序列的其他实例，每个实例都可能是正确的目标。我们定义了拼接的锚定重要性J型在标签中如下所示。让是中的最大连续基序列T型外显子比对在坐标处结束在基因组中，让是中的最大连续基序列T型外显子比对从坐标开始这是两个锚，每个锚至少有一个对齐（T型). 锚的基因组中预期的比对数因此，由
在这里，我们将基因组建模为一个独立随机变量序列，其均匀分布在A、 C、T、G，因此n个序列在给定坐标处对齐仅为4^−n个。对于双锚定比对，搜索空间实际上是整个基因组的长度N个。对于单锚定定线，我们只考虑距离内的情况D类.
由于我们假设只有一个潜在的对齐是正确的，其余的都是伪造的，因此锚的伪对齐的可能性是因此，锚的对数转换意义是连接处的锚定线形J型在里面T型只有与锚一样重要，信心最低，因此
接合处的锚定意义J型覆盖中的所有事件是锚定意义最大的事件：
熵：原则上，RNA-seq协议对每个转录物进行均匀采样，从而确定真正的剪接连接的位置J型在内部预计均匀分布在只要取样足够深，并且剪接接头不太靠近转录本的末端。为了测量采样的均匀性，我们将香农最大熵应用于用于拼接J。让具有是拼接接头的出现频率J型在位置我在内部香农熵可以测量为
Shannon熵越高，分布越接近均匀，因此交界处是均匀采样的某个转录本的一部分的可能性越高。
组合公制：组合公制是连接的后验概率J型是使用贝叶斯回归确定的真实连接。观测数据熵和锚的重要性J型在内部以及读取对齐的平均质量，包括J。
我们应用线性回归来获得最佳配置和这在接头分类中实现了最大的敏感性和特异性。

步骤6：标签的最佳对齐

对于每个标签T型，我们选择候选对齐保存图片、插图等的外部文件。对象名称为gkq622i194.jpg 将第4步中的线形质量和第5步中的交叉点质量相结合，获得最高分数。

为验证生成合成数据

为了评估MapSplice的敏感性和特异性，我们从替代剪接和转录多样性（ASTD）数据库中编目的转录物中生成了标签的合成数据集(29).

该数据库收集了说明人类、小鼠和大鼠基因中选择性剪接事件的全长转录本。合成的“转录组”是根据参考文献中观察到的每个基因标签的经验分布随机选择基因和表达水平而生成的(1). 在一个基因中，转录物是按照各种子模型随机选择的，这些子模型决定了单个转录物相对于整个基因的表达水平。然后对以这种方式表征的合成转录组进行取样，以产生两个合成RNA-seq数据集。无噪音数据集精确地对转录本进行采样，生成的标签与参考基因组精确对齐，以模拟数据库转录本中的单核苷酸变异。根据经验Illumina基本呼叫质量配置文件，噪声数据集将突变引入基本呼叫。生成的数据集模拟了在参考文献(30).

通过qRT–PCR进行实验验证

根据制造商的说明，使用带有RNase抑制剂的高容量cDNA逆转录试剂盒（Applied Biosystems，Foster City，CA，USA）对从MCF-7和SUM-102细胞中分离的总RNA进行逆转录。通过qRT–PCR在Applied Biosystems 7300 Real Time PCR系统上测定感兴趣转录物的相对表达水平，该系统采用预先制备或定制的TaqMan基因表达分析（Applied biosystem，Foster City，CA，USA），其中包含感兴趣剪接位点两侧的引物和FAM/MGB标记的寡核苷酸探针。PCR反应按照制造商的说明进行。在总体积为20μl的基因表达主混合物中，用1μl TaqMan分析扩增相当于100 ng总RNA的cDNA。每项分析均一式三份。热循环条件如下：50°C 2 min，95°C 10 min，40次95°C循环15 s，60°C 1 min。C类_t吨值在制造商的软件中确定，数据在Excel中利用比较C类_t吨方法。为了比较两个细胞系之间的相对表达水平，C类_t吨首先将感兴趣转录本的值标准化为HPRT1的值。

结果

连接推断

我们构建了一个合成的无噪音RNA-seq数据集，其中20M个100 bp的标签从ASTD中采样46 311个不同的转录物。使用MapSplice算法步骤1-4将标签与参考基因组（hg18）对齐保存图片、插图等的外部文件。对象名称为gkq622i195.jpg 保存图片、插图等的外部文件。对象名称为gkq622i196.jpg 和保存图片、插图等的外部文件。对象名称为gkq622i197.jpg 为了建立包含真连接和假连接的训练数据集，对剪接位点侧翼序列或最大内含子大小没有强制限制。

我们随机选择10K真连接和10K假连接作为训练集，分析MapSplice第5步中使用的三种不同连接分类度量：对齐质量熵和锚显著性，以及前三个度量的线性回归得到的组合度量。为了避免训练中的样本偏差，采用了五倍的交叉验证。说明每个指标的敏感性和特异性的ROC曲线如所示图3。组合指标（实心绿色曲线）提供了比单个指标更好的分类结果，因为单个指标仅捕获交叉点的一个属性。在最佳情况下，组合指标的真阳性率为96.3%，假阳性率为8%。

在单独的窗口中打开

图3。

交叉点分类的ROC曲线。从ASTD数据库中选择的转录物生成了20M 100 bp标签的合成数据集。选择10K真阳性连接和10K假阳性连接作为训练数据集。评估了五种不同的指标。它们包括（i）对准质量；（ii）锚的重要性；（iii）熵；（iv）覆盖范围；和（v）指标组合（i–iii）。每条曲线上的红十字标志着敏感度和特异性的最佳平衡点。

我们还将结果与最常用的指标之一进行了比较：连接覆盖率（与连接对齐的标签数量）。在许多研究中，如果至少有三个标签与交叉点对齐，则认为交叉点是正确的。但是，如所示图3，覆盖率（实心红色曲线）是最不可靠的指标，在连接分类方面表现最差。

具体参数保存图片、插图等的外部文件。对象名称为gkq622i198.jpg 保存图片、插图等的外部文件。对象名称为gkq622i199.jpg 和保存图片、插图等的外部文件。对象名称为gkq622i200.jpg 在从该合成数据集获得的组合度量中，将用于本文中MapSplice处理的所有数据集。通过使用逻辑回归获得的参数，可以略微提高灵敏度，这些参数专门用于具有特定标签长度的数据集。参数的稳健性及其对标签长度和采样深度的敏感性实验包括在补充数据.

剪接推断的敏感性和特异性

比较了使用RNA-seq数据绘制拼接连接图的三个程序：MapSplice、TopHat（1.0.12）和SpliceMap（C++，v3.0，2010年4月15日）。我们将所有三种算法应用于两个具有代表性的合成数据集。其中一个数据集包含20M个长度为50 bp的标签。另一个是一个带有20M个100 bp标签的数据集。对于MapSplice和TopHat，我们都设置了保存图片、插图等的外部文件。对象名称为gkq622i201.jpg 保存图片、插图等的外部文件。对象名称为gkq622i202.jpg 和保存图片、插图等的外部文件。对象名称为gkq622i203.jpg 。对于SpliceMap，唯一可配置的参数是段（种子）中的不匹配，该值也设置为1。相比之下(表1)，TopHat和MapSplice的内存效率更高，速度也比SpliceMap快得多。SpliceMap采用的筛选标准包括最小锚定（延伸）为10 bp，400 kb区域内无多重比对，通过在100 bp标记中的灵敏度上进行权衡，提高了其特异性。MapSplice通过检测更多的真阳性连接和更少的假阳性连接，在这两个类别中表现最佳。

表1。

TopHat的比较(21)，拼接贴图(22)和MapSplice在两个合成数据集上，分别具有长度为50和100bp的标签

数据集	方法	性能		交叉点发现
数据集	方法	时间	峰值内存。	总计	真的	False（错误）
50个基点	顶帽（1.0.12）	50分钟	<4 GB	85 356	76 486	8870
	拼接图（C++3.0）	13小时	9.3 GB	88 807	87 205	1602
	MapSplice（贴图拼接）	25分钟	<4 GB	88 180	87 330	750
100个基点	顶帽（1.0.12）	3小时40分钟	<4 GB	100 012	90 720	9292
	拼接图（C++3.0）	41小时	12 GB	91 259	89 991	1268
	映射拼接	1小时50分钟	<4 GB	94 112	92 849	1263

在单独的窗口中打开

这两个数据集都有2000万个标签。

每次比较中的最佳值以粗体显示。

由于SpliceMap的输出不完整（未生成标记对齐），我们将更全面的比较限制为TopHat和MapSplice。我们研究了剪接推断的敏感性和特异性与标记长度和采样深度的关系。我们生成了合成数据集，以研究这些变化对接头发现的影响。在合成数据集中，我们有地面真值连接，并知道它们的实际覆盖范围，即跨越每个连接的标签数量。使用了两个衡量标准来评估算法。“灵敏度”是发现的真实连接总数与合成数据中采样的连接总数的比率。“特异性”是指发现的真实连接总数与发现的连接总数的比率。由于交叉点的覆盖对于发现交叉点至关重要，我们绘制了覆盖时的灵敏度和特异性x个作为覆盖范围内所有连接的敏感性和特异性x个或更大，如所示图4。我们还显示了在图5.

在单独的窗口中打开

图4。

不同特征的合成数据集中剪接推断的敏感性和特异性。灵敏度是在合成数据中采样的真实连接中发现的真实连接的分数。特异性是报告的连接中真实连接的分数。由于采样深度对于发现接合点至关重要，因此我们将灵敏度和特异性绘制为覆盖阈值的函数。(A类)和(B类)完美标签和带有测序错误的标签的敏感性和特异性。(C类)和(D类)不同标记长度（50 bp、75 bp和100 bp）下的敏感性和特异性比较。(E类)和(F类)在两种不同的取样深度（分别为10M和20M标签）下比较敏感性和特异性。

在单独的窗口中打开

图5。

包含恢复的真实连接（即对齐以包括连接）的标签分数，作为连接覆盖率的函数（由指数箱定义）。(A类)TopHat恢复了大约63%的标签，而(B类)MapSplice在每个连接处平均恢复84%的标记。在极低覆盖率下，盒图中的胡须恢复率>1是由于假阳性或在罕见情况下重复出现。

噪音的影响

在第一个实验中，我们构建了一个由20M个标签组成的100 bp合成RNA-seq数据集的无错误和有噪声版本，如上所述。MapSplice和TopHat在这两个数据集上运行，并且具有相同的4%的误差容限( 保存图片、插图等的外部文件。对象名称为gkq622i206.jpg ).图5A和B显示，只有在低覆盖率时，绩效才会受损。当覆盖率较高时，尽管存在错误，但灵敏度相似。专一性受到的影响更大，但当覆盖率较高时，也会收敛到类似的性能。在低覆盖率的情况下，在有错误的数据集中发现的杂散结比没有错误的数据集中发现的杂散结更多。比较MapSplice和TopHat，MapSplice在识别这两个数据集中的连接方面具有更高的灵敏度和特异性。即使在低覆盖率下，特异性也会显著提高。

标签长度的影响

在第二个实验中，我们生成了一个包含20M个100 bp标签的合成数据集，并通过分别选择100 bp标签中的50和75 bp随机子序列创建了另外两个数据集。MapSplice和TopHat都应用于这些数据集，最大不匹配百分比为标记长度的4%。结果如所示图5C和D。通常，对于TopHat和MapSplice，较长的标记不仅提高了灵敏度，而且提高了连接发现的特异性。相比之下，MapSplice对所有三个标记长度都具有更高的灵敏度。灵敏度的差异在低覆盖率的接合处更为明显，而接合处的发现是最困难的。

取样深度的影响

在最后的实验中，我们生成了两个100 bp的数据集，标记数不同：分别为10M和20M。取样深度加倍并不能使接合点的特异性加倍，但确实提高了灵敏度。深度加倍对特异性有负面影响，特别是在低覆盖区域。这主要是因为增加从固定数量的转录本中取样的标签数量会增加重复标签（尤其是错误率高的标签）在基因组上错误对齐的可能性。

乳腺癌转录组

我们对四种原发性乳腺肿瘤进行了cDNA测序，获得了约2500万个长度为75 bp的标签，并复制了两种乳腺癌细胞系的样本。总共有四个样本对应于乳腺癌的基本亚型，四个样本则对应于管腔亚型。我们应用MapSplice和TopHat检测拼接接头，使用与合成数据集相同的参数设置。映射结果如所示表2总之，每个样本中10%到16%的标签在其对齐中包括拼接接头。超过77%的典型连接由GenBank中的已知转录物确认，这比TopHat多6%到11%。MapSplice识别出2421～3173个半正则连接，远低于TopHat报告的数量。但对于这两组，已知的连接集非常相似，这表明MapSplice对非规范拼接连接具有更高的特异性。

表2。

八个乳腺癌样本的标记定位和剪接连接检测结果：两个基底（BAS）原发肿瘤、两个SUM-102（SUM）细胞系、两个管腔（LUM）原发瘤和两个MCF-7（MCF）细胞系

样品	标记映射			典型连接^一				半经典结^b条				非标准接头^c
	标签总数	MS拼接（%）	拼接TH（%）	微软		真实航向		微软		真实航向		微软		真实航向
	标签总数	MS拼接（%）	拼接TH（%）	总计	已知^d日	总计	已知^d日	总计	已知^d日	总计	已知^d日	总计	已知^d日	总计	已知^d日
制动辅助系统	2390万	12.7	10.7	168.6公里	13.14万	1.403万	114.5公里	2914	970	8441	958	1967	96	4874	0
制动辅助系统	2590万	12.7	10.7	178.1公里	138.1万	150.3万	12.27万	3173	1036	8276	1027	1691	109	4994	0
SUM（总和）	2540万	15.8	13.7	149.7K个	119.8公里	132.6公里	1.093万	2691	910	7828	940	1665	91	2468	0
SUM（总和）	2550万	15.8	13.7	14.98万	1.199万	132.5公里	1.094万	2683	909	7989	921	1685	99	2138	0
LUM（亮度单位）	2580万	10.3	8.6	175.2公里	137.3K万	145.2公里	1.194万	2447	1011	8230	995	1365	93	4308	0
LUM（亮度单位）	25.0米	11.1	9.4	1.737万	137.6公里	144.6公里	118.8公里	2507	1014	9467	989	1591	93	5944	0
最大持续流量	2460万	15.4	13.3	1.547万	120.2公里	135.5公里	110.5公里	2421	937	6387	951	1240	92	1129	0
最大持续流量	2310万	15.4	13.2	152.3万	1.194万	1.334万	109.5万	2287	935	6222	946	1157	91	1139	0

在单独的窗口中打开

MapSplice（MS）在任何乳腺肿瘤或细胞系的至少两个标签中检测到177875个剪接连接。在标签中，每个样本中有10-16%包含拼接接头。MapSplice检测到149.7K–178.1K典型连接，其中约109.3K–122.7K由GenBank中的已知转录本确认。一般来说，MapSplice检测到的规范连接比TopHat（TH）多10K–18K。MapSplice识别出2421–3173个半正则连接，远低于TopHat报告的数量。但在这两个集合中，已知的交叉点子集非常相似。MapSplice报告的1157–1967个非规范连接中，已知91–99个非规范接头。虽然TopHat报告了多达5944个非规范连接，但没有一个得到证实。

^一由GT-AG提供支持。

^b条由AT-AC或GC-AG侧翼。

^c其他侧翼二核苷酸。

^d日如果连接包含在GenBank中的至少一个转录本中，则表示已知。

MapSplice报告了1157到1967年间的非规范剪接连接，其中5-8%在已知GenBank转录本中得到确认。虽然TopHat报告了多达5944个非规范连接，但其中没有一个在GenBank转录本中得到确认。由于TopHat程序不搜索非规范连接，因此此结果可能是人为的。我们发现9205个基因显示出选择性剪接的证据，从每个肿瘤7371到8942个基因。MapSplice在已知的半正则或非正则连接的2 bp范围内识别出420到430个正则连接。对于几乎所有的标签，与相邻的非规范或半规范连接相比，与规范连接对齐的标签的失配更少。这些发现表明当前数据库中存在错误，RNA-seq数据可能能够纠正这些错误。

MapSplice检测到了替代剪接类别的预期比例，尽管它并不依赖于转录注释数据库。我们研究了在次要转录亚型的不同最小阈值下可以检测到多少选择性剪接事件(表3). 例如，在每个剪接连接的两个或多个标记的截断处，MapSplice在每个肿瘤中检测到7535到8270个选择性剪接事件。这些事件包括：34.5%跳过外显子；30.3%的备选5′位点；33.8%的3′位点可供选择；1.4%的互斥外显子。之前对10种不同组织和10种不同细胞系的RNA-seq研究(1)报告的相似值：35%跳过外显子；28%的选择性5′位点和第一外显子；31%的选择性3′位点、最后外显子和UTR；和4%互斥外显子。这两项研究之间的高度一致性进一步表明MapSplice比对是高度准确的。

表3。

MapSplice连接识别的选择性外显子剪接事件调查

新闻报道	选择性外显子事件				相互不包括。
新闻报道	样品	跳过的外显子	备用启动	备选结束	相互不包括。
1	制动辅助系统	6880	6700	7474	442
	制动辅助系统	7365	7611	8005	454
	SUM（总和）	5574	5690	6359	353
	SUM（总和）	5491	5701	6451	337
	LUM（亮度单位）	6523	7326	7777	387
	LUM（亮度单位）	6321	6928	7625	355
	最大持续流量	6776	6338	7350	472
	最大持续流量	6352	6063	7083	444
2	制动辅助系统	2726	2144	2564	101
	制动辅助系统	2941	2529	2689	111
	SUM（总和）	2271	2098	2347	103
	SUM（总和）	2277	2096	2359	95
	LUM（亮度单位）	2599	2542	2574	95
	LUM（亮度单位）	2333	2031	2387	86
	最大持续流量	2949	2410	2778	129
	最大持续流量	2669	2331	2588	109
5	制动辅助系统	651	476	614	26
	制动辅助系统	718	522	641	23
	SUM（总和）	644	538	643	25
	SUM（总和）	623	528	656	25
	LUM（亮度单位）	618	538	582	22
	LUM（亮度单位）	503	386	528	21
	最大持续流量	815	686	780	30
	最大持续流量	757	656	735	22

在单独的窗口中打开

每个样本中确定了四种不同类型的选择性剪接事件，涉及至少两个剪接接头。它们是外显子跳跃事件、选择性3′端、选择性5′端启动和互斥外显子。在不同表达水平上检测选择性剪接事件，仅检测覆盖范围大于给定阈值的连接(1,2,5)已考虑。总的来说，约有35%的外显子跳跃事件、30%的5′启动事件、34%的3′结束事件和1.3%的互斥外显子事件。

我们随机选择了跳过的外显子事件，用于实验验证MapSplice对拼接连接的比对。我们计算了与跳过外显子亚型对齐的剪接连接标签的比例，然后将其与与跳过外隐子亚型或包含外显子亚型对齐的拼接连接标签的总数进行比较(图6). 我们将这些计算与通过qRT-PCR在MCF-7和SUM-102细胞系中确定的剪接比率进行了比较。这20个事件的皮尔逊相关系数为0.84，MapSplice在拼接接头计数方面达到了非常高的精度。

在单独的窗口中打开

图6。

MapSplice和Taqman检测外显子跳跃比率的相关性。每个点代表在MCF-7（黑色）或SUM-102（蓝色）细胞系中测得的外显子跳跃比率。

我们确定了12个外显子跳跃事件，在基础亚型和管腔亚型之间存在显著差异。例如，NUMB是Notch和Hedgehog通路中的一种衔接蛋白，在N末端PTB结构域中有一个潜在的跳过外显子，在C末端富含脯氨酸区域中有另一个跳过外显字(31). 虽然所有乳腺癌样本PTB结构域外显子的跳跃比率相似，但我们检测到脯氨酸富集区的跳跃外显子存在显著差异。这种较长的亚型在管腔样本中的外显子包含率为45-78%，而在基础样本中为16-22%(图7). 我们预计，随着更多样本被测序，我们将有更大的统计能力来识别可区分癌症亚型的选择性剪接事件。

在单独的窗口中打开

图7。

替代外显子跳跃事件的示例。NUMB的第二外显子显示两种癌症亚型之间的差异选择性剪接。在基础样本中，外显子跳跃比率为～70%，而在管腔样本中，它们小于50%。

我们研究了肿瘤的分子亚型是否具有不同的选择性剪接模式，而与它们的基因表达水平无关。我们选择了129个单个外显子跳跃事件，每个肿瘤中至少有三个标签检测到这些事件。然后对剪接比率矩阵进行分层聚类，每行表示不同的剪接事件，每列表示单个肿瘤(图8). 值得注意的是，管腔亚型的两个原发性乳腺肿瘤聚集在一起，基底亚型的这两个原发性乳腺肿瘤也聚集在一起。乳腺癌细胞系聚集在原发肿瘤之间，这表明这些细胞系与它们的原发肿瘤相似，但在剪接方面也有一些主要差异。对这些剪接比率的主成分分析得出了类似的结论：第一主成分将细胞系与原发肿瘤区分开来，而第二主成分将管腔亚型与基底亚型区分开来(图8B和D）。

在单独的窗口中打开

图8。

具有选择性外显子跳跃事件跳跃比率的肿瘤亚型聚类。选择了129个可选外显子跳跃事件，每个样本的最小连接支持度至少为3。(A类)跳过比率的热图（红色到蓝色刻度），其中每行对应于一个不同的外显子跳过事件，每列代表一个样本。我们对行和列执行了分层聚类。树状图分别显示在热图的左侧和顶部。(B类)我们将主成分分析（PCA）应用于八个样本的相关矩阵。散点图显示了由第一主成分和第二主成分组成的二维空间中八个样本的相对位置。该图显示了两种癌症亚型之间沿着第二主成分的良好分离。(C类)我们对（A）中的跳跃比率矩阵进行了方差分析测试。我们选择了12个事件，这些事件在两种肿瘤亚型之间有显著差异保存图片、插图等的外部文件。对象名称为gkq622i210.jpg 0.001. 它们的跳跃比率矩阵显示在热图中。行和列都聚集在一起。(D类)八个样本沿着第一主成分和第二主成分的散点图，该主成分由基于11个选定事件的八个样本的相关距离矩阵的主成分分析生成。

讨论

准确识别和量化转录亚型对于表征不同细胞类型之间的选择性剪接至关重要。此外，在剪接位点或剪接增强子序列中发现的序列变体可能对选择性剪接产生功能性影响。因此，准确检测替代剪接事件的方法对于确定这些序列变体是否影响转录物异构体比例是必要的。由于某些剪接连接可以明确区分转录亚型，我们将重点放在提高剪接连接对齐的准确性上从头开始为此，我们开发了一种新的剪接发现算法MapSplice，该算法满足三个目标。

首先，MapSplice使用不依赖于剪接位点的特征或位置的近似序列相似性，执行敏感、完整和无偏见的搜索来查找剪接接合点。因此，该算法同样适用于来自研究充分的模型生物的RNA-seq数据，也适用于来自具有稀疏转录注释的生物的数据。该算法能够找到短程、长程和染色体间剪接，例如在基因融合和其他因DNA损伤导致的嵌合剪接事件中可能出现的剪接。

其次，MapSplice利用高效的近似序列对齐方法与局部搜索相结合，创建了一种快速且节省内存的算法。其对齐策略可以很容易地推广到读数>100 bp。MapSplice的处理能力为每小时1000万次读取（100 bp），峰值内存使用量低于4 GB，因此可以高效地在桌面和服务器上运行。

第三，MapSplice采用了一种严格的方法来增加剪接搜索的特异性，这是由于一些RNA-seq标签可以通过多种方式找到基因组的剪接比对所必需的。通过利用RNA-seq数据集中转录组的深度采样，可以区分假剪接和真剪接。高特异性至关重要，因为典型的RNA-seq数据集可能包含数十万个拼接的一些证据。

在本文中，我们使用真实的合成数据集对剪接发现算法的敏感性和特异性进行了严格测量。通过对乳腺癌样本结果的实验验证，进一步评估了这些性能。使用合成数据集，我们确定75或100 bp的读取长度比50 bp的数据集在剪接检测方面具有更好的灵敏度和特异性。我们确定，尽管存在错误，仍然可以找到拼接。最后，我们使用合成数据校准了几个过滤标准，以在模拟数据中检测剪接接头时达到98%以上的特异性和96%以上的灵敏度。这些过滤标准在我们与TopHat的比较中提供了卓越的准确性(21)和拼接贴图(22)算法。

一些实验证据也证实了MapSplice算法的拼接接头对齐的高精度。首先，不同类别的选择性剪接中剪接连接的分布与先前的研究高度一致(表3). 其次，通过qRT-PCR对10个预测进行实验验证，正确识别出与基于剪接连接的估计值高度相关的亚型比例（Pearson相关性=0.86）。第三，剪接比率的层次聚类重述了四种乳腺肿瘤和两种乳腺癌细胞系的已知分子亚型。随着样本量的增加，我们将获得更多的能力来识别癌症分子亚型之间剪接异构体比例存在显著差异的候选基因。

这项深度测序研究首次调查了癌症亚型之间的选择性剪接差异。在测序深度约为2000万次、长度为75 bp的测序中，我们确定了149 722到178 107个标准拼接接头，以及3661到4884个半标准和非标准拼接接头。值得注意的是，我们发现19-22%的剪接连接之前在GenBank的全长转录本中没有观察到。在这些连接中，约15%连接了两个已知外显子，表明存在外显子跳跃事件的新亚型。

我们预计，样本组之间的测试对于解释大规模转录组测序项目（如癌症基因组图谱）的数据至关重要。与种群内选择性剪接的自然变异相比，需要进一步的研究工作来区分在（潜在异质）疾病状态下富集的剪接模式(5).

从短序列读取重建全长转录本是一项具有挑战性的任务，特别是对于低丰度转录本。拼接接头构成了这些算法的构建块(19,32–35). 我们预计测序技术的进一步进步，例如更高的读取深度和更长的读取时间，将继续改进这些方法。最近的研究结合了剪接连接读取和外显子读取，以提供一个完整的比对分区(36).

资金

国家科学基金会（J.L.、J.N.M.和J.F.P.赠款编号0850237）；国立卫生研究院（拨款编号约143848年; 致C.M.P.和授予编号P20RR016481页致J.L.）；阿尔弗雷德·斯隆基金会（致D.Y.C.）。开放获取费用的资金来源：国立卫生研究院（拨款编号CA143848号).

利益冲突声明。未声明。

补充数据

补充数据可从NAR Online获取。

补充数据：

单击此处查看。

致谢

我们要感谢王泽峰、本·伯曼、科尔宾·琼斯、奥列格·埃夫格拉夫夫和匿名审稿人对手稿的批判性评论。

参考文献

1Wang ET、Sandberg R、Luo SJ、Khrebtukova I、Zhang L、Mayr C、Kingsmore SF、Schroth GP、Burge CB。人类组织转录体中的替代亚型调控。自然。2008年；456:470–476. [PMC免费文章][公共医学][谷歌学者]

2Luco RF，Pan Q，Tominaga K，Blencowe BJ，Pereira-Smith OM，Misteli T.组蛋白修饰对选择性剪接的调节。科学。2010;327:996–1000. [PMC免费文章][公共医学][谷歌学者]

三。Andersen LB、Ballester R、Marchuk DA、Chang E、Gutmann DH、Saulino AM、Camonis J、Wigler M、Collins FS。von Recklinghausen神经纤维瘤病（NF1）基因中的一个保守的选择性剪接产生两种神经纤维蛋白亚型，这两种亚型都具有GTPase激活蛋白活性。分子细胞。生物。1993;13:487–495. [PMC免费文章][公共医学][谷歌学者]

4Screaton GR、Bell MV、Jackson DG、Cornelis FB、Gerth U、Bell JI。编码淋巴细胞归巢受体CD44的DNA基因组结构显示至少12个选择性剪接外显子。程序。美国国家科学院。科学。美国。1992;89:12160–12164. [PMC免费文章][公共医学][谷歌学者]

5Kwan T、Benovoy D、Dias C、Gurd S、Provencher C、Beaulieu P、Hudson TJ、Sladek R、Majewski J.人类转录异构体变异的全基因组分析。自然遗传学。2008年；40:225–231.[公共医学][谷歌学者]

6Meyers GA、Day D、Goldberg R、Daentl DL、Przylepa KA、Abrams LJ、Graham JM，Jr、Feingold M、Moeschler JB、Rawnsley E等。克鲁森综合征、杰克逊·韦斯综合征和普菲弗综合征中FGFR2外显子IIIa和IIIc突变：错义变化、插入和选择性RNA剪接导致的缺失的证据。Am.J.Hum.遗传学。1996;58:491–498. [PMC免费文章][公共医学][谷歌学者]

7Pollock PM、Gartside MG、Dejeza LC、Powell MA、Mallon MA、Davies H、Mohammadi M、Futreal PA、Stratton MR、Trent JM等。子宫内膜癌中频繁激活的FGFR2突变与颅缝骨裂和骨骼发育不良综合征相关的种系突变。致癌物。2007;26：7158–7162。 [PMC免费文章][公共医学][谷歌学者]

8Perou CM、Sorlie T、Eisen MB、van de Rijn M、Jeffrey SS、Rees CA、Pollack JR、Ross DT、Johnsen H、Akslen LA等。人类乳腺肿瘤的分子肖像。自然。2000;406:747–752.[公共医学][谷歌学者]

9Dutt A、Salvesen HB、Chen TH、Ramos AH、Onofrio RC、Hatton C、Nicoletti R、Winckler W、Grewal R、Hanna M等。子宫内膜癌中对药物敏感的FGFR2突变。程序。美国国家科学院。科学。美国。2008年；105:8713–8717. [PMC免费文章][公共医学][谷歌学者]

10Johnson JM、Castle J、Garrett Engele P、Kan Z、Loerch PM、Armour CD、Santos R、Schadt EE、Stoughton R、Shoemaker DD。用外显子连接微阵列对人类选择性前信使核糖核酸剪接的全基因组调查。科学。2003;302:2141–2144.[公共医学][谷歌学者]

11Pan Q、Shai O、Miswetta C、Zhang W、Saltzman AL、Mohammad N、Babak T、Siu H、Hughes TR、Morris QD等。利用定量微阵列平台揭示哺乳动物选择性剪接的全球调控特征。摩尔细胞。2004;16:929–941.[公共医学][谷歌学者]

12Ule J、Ule A、Spencer J、Williams A、Hu JS、Cline M、Wang H、Clark T、Fraser C、Ruggiu M等。Nova调节大脑特异性剪接以形成突触。自然遗传学。2005;37:844–852.[公共医学][谷歌学者]

13Castle JC、Zhang C、Shah JK、Kulkarni AV、Kalsotra A、Cooper TA、Johnson JM。24426人选择性剪接事件的表达和48种组织和细胞系中的顺式调控预测。自然遗传学。2008年；40:1416–1425. [PMC免费文章][公共医学][谷歌学者]

14Pan Q，Shai O，Lee LJ，Frey J，Blencowe BJ。通过高通量测序深入研究人类转录组中的选择性剪接复杂性。自然遗传学。2008年；40：1413–1415。[公共医学][谷歌学者]

15Mortazavi A、Williams BA、McCue K、Schaeffer L、Wold B.通过RNA-Seq对哺乳动物转录体进行定位和量化。自然方法。2008年；5:621–628.[公共医学][谷歌学者]

16Sultan M、Schulz MH、Richard H、Magen A、Klingenhoff A、Scherf M、Seifert M、Borodina T、Soldatov A、Parkhomchuk D等。通过人类转录组的深度测序对基因活性和选择性剪接的全球观点。科学。2008年；321:956–960.[公共医学][谷歌学者]

17Mereau A、Anquetil V、Cibois M、Noiret M、Primot A、Vallee A、Paillard L。通过焦磷酸测序分析剪接模式。核酸研究。2009;37：e126。 [PMC免费文章][公共医学][谷歌学者]

18Xing Y，Yu T，Wu YN，Roy M，Kim J，Lee C.从剪接图概率重建全长异构体的期望最大化算法。核酸研究。2006;34：3150–3160。 [PMC免费文章][公共医学][谷歌学者]

19姜浩、王浩。RNA-Seq亚型表达的统计推断。生物信息学。2009;25:1026–1032. [PMC免费文章][公共医学][谷歌学者]

20De Bona F、Ossowski S、Schneeberg K、Ratsch G。短序列读取的最佳拼接对齐。生物信息学。2008年；24：i174–i180。[公共医学][谷歌学者]

21Trapnell C、Pachter L、Salzberg SL。TopHat：利用RNA-Seq发现剪接连接。生物信息学。2009;25:1105–1111. [PMC免费文章][公共医学][谷歌学者]

22Au K、Jiang H、Lin L、Xing Y、Wong WH。利用拼接图从配对RNA-seq数据中检测拼接连接。核酸研究。2010;2010doi:10.1093/nar/gkq211。[PMC免费文章][公共医学][谷歌学者]

23Langmead B、Trapnell C、Pop M、Salzberg SL。短DNA序列与人类基因组的超快和高效记忆比对。基因组生物学。2009;10：R25。 [PMC免费文章][公共医学][谷歌学者]

24Li H，Durbin R.使用Burrows-Wheeler变换快速准确地进行短读对齐。生物信息学。2009;25:1754–1760. [PMC免费文章][公共医学][谷歌学者]

25Li R、Yu C、Li Y、Lam TW、Yiu SM、Kristiansen K、Wang J.SOAP2：一种改进的超快短读对齐工具。生物信息学。2009;25：1966年至1967年。[公共医学][谷歌学者]

26Homer N、Merriman B、Nelson SF。BFAST：大规模基因组重新测序的比对工具。《公共科学图书馆·综合》。2009;4：e7767。 [PMC免费文章][公共医学][谷歌学者]

27Li H，Ruan J，Durbin R.使用绘图质量分数绘制短DNA测序读取和调用变体。基因组研究。2008年；18：1851年至1858年。 [PMC免费文章][公共医学][谷歌学者]

28Malde K。序列质量对序列比对的影响。生物信息学。2008年；24:897–900.[公共医学][谷歌学者]

29Koscielny G、Le Texier V、Gopalakrishnan C、Kumanduri V、Riethoven JJ、Nardone F、Stanley E、Fallsehr C、Hofmann O、Kull M等。ASTD：替代拼接和转录多样性数据库。基因组学。2009;93:213–220.[公共医学][谷歌学者]

30Kircher M、Stenzel U和Kelso J.使用机器学习策略改进了Illumina基因组分析仪的基础。基因组生物学。2009;10：R83。 [PMC免费文章][公共医学][谷歌学者]

31Gulino A、Di Marcotullio L、Screpanti I。Numb的多重功能。实验细胞研究。2010;316:900–906.[公共医学][谷歌学者]

32Heber S，Alekseyev M，Sze SH，Tang H，Pevzner PA。拼接图和EST装配问题。生物信息学。2002;18（补充1）：S181–S188。[公共医学][谷歌学者]

33Xing Y，Lee C.从剪接图重建全长亚型。方法分子生物学。2008年；452:199–205.[公共医学][谷歌学者]

34Birol I、Jackman SD、Nielsen CB、Qian JQ、Varhol R、Stazyk G、Morin RD、Zhao Y、Hirst M、Schein JE等。与ABySS的从头转录组组装。生物信息学。2009;25:2872–2877.[公共医学][谷歌学者]

35Zheng S，Chen L.在个体转录亚型水平上比较转录组的分层贝叶斯模型。核酸研究。2009;37：e75。 [PMC免费文章][公共医学][谷歌学者]

36Richard H、Schulz MH、Sultan M、Nurnberger A、Schrinner S、Balzereit D、Dagand E、Rasche A、Lehrach H、Vingron M等。RNA-Seq实验中外显子表达水平对替代亚型的预测。核酸研究。2010;8：e112。 [PMC免费文章][公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社