跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2006; 34(10): 3150–3160.
2006年6月6日在线发布。 数字对象标识:10.1093/nar/gkl396
预防性维修识别码:项目经理1475746
PMID:16757580

基于剪接图的全长异构体概率重建的期望最大化算法

摘要

从序列片段(如EST)重建全长转录亚型是前mRNA选择性剪接的生物信息学分析的主要兴趣和挑战。这个问题被描述为寻找跨剪接图的遍历,剪接图是基因结构和选择性剪接的有向无环图(DAG)表示。在本文中,我们介绍了异构体重建问题的概率公式,并为其最大似然解提供了一个期望最大化(EM)算法。使用一系列模拟数据和来自真实人类基因的表达序列,我们证明了我们的EM算法能够正确处理输入数据中的各种碎片和耦合情况。我们的工作为基于剪接图的全长异构体重建建立了一个通用的概率框架。

简介

选择性剪接是高等真核生物普遍存在的基因调控机制(1). 它是指通过外显子的交替组合或剪接位点的交替选择,从单个基因中产生不同的mRNA转录物(4). 据估计,在人类基因组的多外显子基因中,多达74%是交替剪接的(2). 选择性剪接可以影响蛋白质的重要功能区域,例如蛋白质相互作用域(5)和结构元件(6,7)从而产生具有不同功能的多种蛋白质产品。它可以在特定组织中进行调节(8)或依赖发展(9)方式。异常的选择性剪接是许多人类疾病的主要原因(10).

检测选择性剪接有两种实验数据:全长序列和序列片段。cDNA测序可以揭示全长转录物的全套剪接事件,从而发现剪接变体(11). 相比之下,大多数高通量基因组技术[例如EST的鸟枪测序(12)和寡核苷酸微阵列(13)]生成有关序列片段的信息。人类和其他真核生物基因组中的绝大多数选择性剪接事件是使用片段序列数据发现的,例如EST(1)和微阵列探针信号(2). EST是全长mRNA序列的短片段(12). 迄今为止,UniGene数据库中已储存了650多万人类EST(相比之下,全长约20万mRNA,请参阅http://www.ncbi.nlm.nih.gov/UniGene/UGOrg.cgi?税号=9606),这对于发现mRNA多样性非常有用,例如选择性剪接。然而,作为序列片段,EST仅提供关于完整基因结构的部分信息(例如,2个外显子是如何组合的)。如果不了解剪接变异体的全长转录物和蛋白质产物,很难推断其可能的功能影响(14). 事实上,人类转录组中80%以上的选择性剪接事件是从EST序列中检测到的,而序列数据库(如GenBank)中没有相应的全长转录物或蛋白质序列(15). 在拼接微阵列中,这个问题变得更加复杂,因为它们从针对特定外显子或外显子-外显子连接的探针中返回高度零碎的信息(2,16,17). 由于这些原因,从序列片段计算重建全长转录异构体成为选择性剪接生物信息学分析的一个重要问题和挑战(18).

多年来,在这个异构体重建问题上已经有了大量的工作(15,1928). 这些研究的核心是基因结构和选择性剪接的图形表示,通常称为“剪接图”。在一项开创性的研究中,Heber及其同事引入了拼接图的概念(23),它将外显子表示为节点,将剪接事件表示为定向边(参见图1用于简单说明)。不同类型的选择性剪接事件,如外显子跳跃、选择性供体/受体剪接位点、互斥外显子使用、内含子保留,可以很容易地用剪接图表示(例如,参见图1). 异构体重建问题可以表述为拼接图遍历问题(15,23,29). 由于选择性剪接,存在多个遍历,对应于基因的多个亚型(参见图1). 一些方法列举了拼接图中所有可能的遍历(23,24). 对于具有多个交替剪接区域的基因,这种方法可能产生大量随机外显子组合。其他几种方法使用特定的规则来生成足以解释所有输入数据的最小遍历集(15,2022). 在某些情况下,亚型重建的结果取决于输入数据中序列观察的顺序(15,18).

保存图片、插图等的外部文件。对象名为gkl396f1.jpg

三外显子交替剪接基因的剪接图。()三外显子基因的基因结构。第二个外显子是一个盒式外显子。(b条)基因结构的剪接图表示。外显子跳过事件由从节点1到节点3的有向边表示。

尽管这些研究做出了重要贡献,但亚型重建的几个方面仍需改进。首先,许多基因具有多个选择性剪接区域和复杂的选择性剪接模式(30,31). 如纤维连接蛋白和其他基因的实验所示,单个基因中的多个选择性剪接事件可以以高度协调的方式进行调节(32). 一个典型的例子是CD44的选择性剪接。尽管可能存在约1000个随机的盒外显子组合,但CD44仅观察到约20个亚型(33,34). 据估计,至少25%的选择性剪接基因存在选择性剪接耦合(32). 原则上,基于动态规划的拼接图遍历算法[例如我们的最重捆绑算法(15)]为寻找最优遍历进行局部选择的方法不能保证拼接图中耦合边的正确处理。其次,并非所有穿过拼接图的遍历都是相同的。异构体重建算法必须反映特定剪接图遍历的证据强度。一个基本问题是如何从序列片段中权衡证据,这可能与拼接图的大量遍历一致。这些问题表明需要一种明确的概率方法来解决异构体重建问题。

在这份手稿中,我们介绍了异构体重建问题的概率公式,并提供了基于最大似然原理的解决方案。EM算法(35)已被用于计算生物学的许多领域,例如单倍型推断(36),进化选择压力(例如Ka/Ks)估计(37),域-域交互预测(38)和模体检测(39)我们描述了一种EM算法,用于估计剪接图上每次遍历的概率,从而最大化观察到的输入数据的总可能性。大量工作已使用表达序列重建全长亚型(15,1928)或量化外显子水平上的选择性剪接(8,4042). 与之前的研究一致,我们使用一系列模拟序列观察和真实人类基因的表达序列来证明我们从剪接图中概率重建全长亚型。我们想强调的是,我们的方法不仅限于EST数据的分析。各种高通量基因组技术[如质谱法(43),微阵列(2),大规模并行签名排序(MPSS)(44)产生可用于检测选择性剪接的片段。本手稿的目的是建立一个基于剪接图的全长异构体重建的通用概率框架。

材料和方法

剪接图中假定亚型的计数

剪接图是有向无环图(DAG),其节点表示外显子,边缘表示剪接事件(23)(请参见图1). 我们使用宽度第一搜索(BFS)算法枚举了拼接图中所有可能的遍历。这些遍历与基因的假定亚型相对应。我们将每个序列观察结果与每个假定亚型进行比较,以得出它们的一致性关系。序列观察被定义为与假定亚型一致,如果它完全包含在假定亚型中。我们构建了一个指标矩阵,记录了所有序列观察结果与所有假定亚型的一致性关系(详见下文)。

概率公式和EM算法

具有未提交分类的多项式模型

假设有K(K)基因的可能亚型。让我们用1,2, … , K(K)对于每个序列观察,它由亚型生成的概率k个第页k个,其中k个= 1, … , K(K)第页1+第页2+ … +第页K(K)= 1. 这种概率模型称为多项式模型。

假设我们观察N个序列观察。让我们用O(运行)1,O(运行)2, … , O(运行)N个。我们可以使用N个×K(K)指标矩阵Z轴= (z(z)i、 k个)=1, … , N个,k个=1, … , K(K)以记录这些序列观测的分类。具体来说,如果th序列观察由亚型产生k个,那么z(z)i、 k个= 1; 否则,z(z)i、 k个= 0.

概率(第页k个,k个= 1, … , K(K))可以通过异构体比例来估计。具体来说,我们计算由亚型产生的序列观察数k个,即。n个k个==1N个z(z),k个,然后估计概率第页^k个=n个k个/N个.

复杂的是,大多数序列观察不是全长的,因此它们与多个亚型一致。因此,指标矩阵Z轴未完全观察到。观察到的是另一个指标矩阵Y(Y)= (i、 k个)=1, … , N个;k个=1, … , K(K),其中i、 k个=1,如果th序列观察结果与同种型一致k个、和i、 k个否则为0。与矩阵不同Z轴,每行只有一个1,矩阵Y(Y)每行中有一个或多个1。如果i、 k个=0,则z(z)i、 k个必须为0,但如果i、 k个=1,则z(z)i、 k个可以是1,也可以不是1。我们打电话给Y(Y)未提交的分类,以及Z轴底层提交的分类。

我们表示θ=(第页1, … , 第页K(K)). 具有未提交分类的多项式模型的对数似然函数为

(θY(Y))==1N个日志(k个=1K(K),k个第页k个).

θ的最大似然估计(MLE),θ^=参数最大值θ(θY(Y))无法以封闭形式获取。

EM:软分类和分数计数

EM算法(35)可用于计算类别概率θ=的最大似然估计(MLE)(第页k个,k个= 1, … , K(K))根据观测数据Y(Y)EM算法是一种迭代算法。在描述算法时,我们添加了下标θ(t)相关数量。例如,θ(t)是之后计算的参数值t吨第次迭代。算法从初始猜测开始θ(0)=(第页k个(0),k个=1,,K(K))例如,第页k个(0)=1/K(K).每次迭代都是θ的映射(t吨)至θ(t吨+1),通过以下两个步骤完成:

E级:

z(z),k个(t吨+1)=E类[z(z),k个Y(Y),θ(t吨)]=公共关系(z(z),k个=1Y(Y),θ(t吨))=,k个第页k个(t吨)k个=1K(K),k个第页k个(t吨),,k个.

M-step:让n个k个(t吨+1)==1N个z(z),k个(t吨+1),k个,

第页k个(t吨+1)=n个k个(t吨+1)N个,k个.

直观地说,E步骤将不同亚型的th序列观察。每种异构体k个具有,k个=1得到分数O(运行)与…成比例第页k个(t吨),这个分数是z(z),k个(t吨+1)。我们称之为软分类。M步骤通过计算归类为该亚型的序列观察值来更新每个亚型的概率。由于软分类,我们必须将分数指标总结为0/1指标。

我们可以运行此算法,直到θ(t吨+1)θ(t吨)=k个=1K(K)第页k个(t吨+1)第页k个(t吨)<ɛ,其中ɛ是预先指定的停止标准。在这份手稿中,我们使用了10的ɛ−6.

在线补遗附录1证明了该算法的合理性。EM收敛后可以得到参数估计的标准误差。见在线补遗附录2。

模拟研究

我们进行了一项仿真研究,以检验EM算法对输入数据中采样偏差的鲁棒性。EST生成受两个主要变异来源的影响:(i)基于异构体丰度的异构体采样和(ii)异构体的随机碎片。这些变化转化为MLE概率估计值的变化。我们模拟了一个有10个外显子的基因。末端外显子长度为250 bp。所有内部外显子均为150 bp。外显子2和9是选择性剪接盒外显子。该基因可产生四种亚型:具有所有外显子的亚型、不具有外显子2的亚型,不具有外显子9的亚型以及不具备外显子二和九的亚型(参见表1).

表1

测试EM算法鲁棒性的仿真研究

异构体集合中的概率a集合b中的概率集合c中的概率集合d中的概率
1-2-3-4-5-6-7-8-9-100.250.500.95
1-3-4-5-6-7-8-9-100.2500.50
1-2-3-4-5-6-7-8-100.2500.50
1-3-4-5-6-7-8-100.250.500.05

我们为这些亚型设置了一定的固定概率(参见表1). 我们使用以下三步程序生成了一个模拟表达序列:(i)随机取样四种亚型,以生成全长mRNA,(ii)随机取样EST长度的经验分布(取自人类UniGene数据,见补充数据),以确定模拟表达序列的长度,以及(iii)根据前一步获得的长度随机截断模拟的mRNA,生成模拟的表达序列。如果长度大于mRNA,则整个mRNA为模拟表达序列。

聚会后N个(N个=10、25、50、100和250)模拟表达序列,我们运行EM算法以获得概率估计。估计概率与事实的偏差是通过总变化距离来测量的,总变化距离为12=14第页^第页对于每个N个我们重复了100次这个过程,并检查了总变化距离的分布。

使用人类表达的序列数据进行概率异构体重建

对于人类基因,我们使用POA将其所有mRNA和EST序列与其基因组序列对齐(45),并从多序列比对中计算外显子和剪接事件(15),使用2003年6月下载的UniGene数据和人类基因组序列。我们根据在表达序列数据中观察到的外显子剪接事件构建剪接图。Xing中描述了拼接图构造的详细信息. (15). 我们使用BFS算法列举了剪接图上所有可能的遍历,作为假定亚型的总集合。我们使用上述EM算法估计每个亚型的概率。

结果

模拟基因的概率异构体重建

为了测试和说明EM算法的行为,我们设计了一个带有5个外显子的模拟基因。外显子2和4是可以完全跳过的盒式外显子。对该剪接图进行彻底的遍历后,产生了该基因的四种亚型:一种包含所有5个外显子(FL),一种缺少外显子2(Δ−2),另一种缺乏外显子4(Δ‐4),以及一种同时缺少外显字2和4(△−2,4)。当然,我们概率亚型重建的结果应该取决于该基因的实际序列观察结果。

我们设计了四组不同的序列观测数据,并对每一组数据运行EM算法来推断亚型概率。每组包含20个序列,代表序列观察的不同情况。这些数据集的详细信息如所示图2(左侧面板)。

保存图片、插图等的外部文件。对象名为gkl396f2a.jpg
保存图片、插图等的外部文件。对象名为gkl396f2b.jpg

模拟基因的概率异构体重建。左侧面板:序列观察;右侧面板:概率亚型重建结果。上图表示总体对数似然;下图显示了个体亚型在收敛之前的估计概率。A类D类表示序列观测的不同情况。

在序列集1中,每个序列表示包含或跳过一个盒外显子(外显子2或外显子4)。没有序列覆盖两个交替拼接区域。五个序列包含外显子1和3,表明外显子2跳跃;五个序列包含外显子1、2和3,表明包含了外显子2。这十个序列没有提供外显子4包含或跳过的信息。同样,五个序列表明包含,另外五个序列表示跳过外显子4,但没有携带关于外显子2状态的信息。总之,该序列数据集代表了所有输入序列高度碎片化的情况。没有迹象表明盒式磁带外显子2和4在最终转录本中是如何结合的。我们的EM算法对所有可能的亚型以相同的概率收敛(参见图2A,右侧面板)。

序列集2代表了一个完全相反的情况。第二组中的每个序列都是一个全长序列。12个序列包含全部5个外显子,8个序列仅包含外显子1、3和5。显然,尽管我们可以在这个拼接图上生成四个不同的遍历,但在我们的输入数据中只观察到两个遍历,这对于解释所有20个序列是必要的。事实上,外显子2和外显子4的跳过事件在输入数据中总是耦合的。从所有亚型的等概率(0.25)开始,我们的EM算法对于FL收敛到0.6,对于Δ−2,4亚型收敛到0.4,对于△−2和Δ−的亚型收敛为0(参见图2B). 我们的EM算法的结果与提出的生成最小亚型集以解释所有序列观察结果的策略一致(15,21,22).

序列集3包含全长序列和序列片段(参见图2C,左侧面板)。很容易注意到,六个序列片段(包含外显子3、4和5)与FL和Δ−2亚型一致。在迭代过程中,由于仅支持FL亚型的额外序列证据(九个序列),将这六个序列分类为FL和Δ−2亚型逐渐分配给FL亚型别。该算法对于FL收敛于0.75,对于Δ−2亚型收敛于0。在对其他两种亚型进行概率估计的过程中,也出现了类似的情况:Δ−2,4的概率为0.25,而△−4的概率则为0(参见图2C,右侧面板)。

在序列集4中,在输入数据中观察到所有四种亚型。我们的EM算法对所有亚型都以非零概率收敛(参见图2D).

我们对该模拟基因的概率异构体重建结果表明,我们的EM算法能够正确处理序列数据中的各种碎片和耦合情况。它通过同时考虑所有序列观察结果,为每个亚型生成最可能的概率估计。与我们以前的方法不同(15),此概率重建完全独立于输入序列观测的顺序。

EM算法鲁棒性测试的仿真研究

输入数据中的采样偏差会影响亚型概率的最大似然估计。特别是,当一个基因的序列观察数量相对较少时,MLE可能与真实的同种型概率有相当大的偏差。为了评估抽样偏差的影响,我们对一个包含10个外显子的简单基因模型进行了模拟研究。我们使用了四组亚型的概率分布(参见表1),然后模拟随机EST生成过程(参见材料和方法)。对于每个概率分布,我们随机生成10、25、50、100和250个序列(参见材料和方法)。

我们将MLE估计值与真实概率进行了比较,以计算总变化距离(参见材料和方法中的定义)。当序列观察的总数只有10个时,估计的亚型概率和真实概率之间存在很大差异。相比之下,通过250次序列观察,这两组概率相当接近(参见图3A). 另一个随机启动所有亚型真实概率分布的模拟产生了类似的结果(参见图3B). 正如预期的那样,我们的模拟研究表明,我们估计的准确性取决于基因序列观察的数量。

保存图片、插图等的外部文件。对象名为gkl396f3.jpg

仿真研究以测试EM算法的鲁棒性。X轴:模拟的序列观测总数;Y轴:真实概率和估计概率之间的总变化距离(见材料和方法)。(A类)使用四种亚型的固定概率进行模拟研究。概率列于表1. (B类)使用四种亚型的随机概率进行的模拟研究。

利用HLA-DMB和TPM1表达序列数据重建等值线

图4A显示了一个经过深入研究的基因的基因结构人类白细胞抗原-DMB.HLA-DMB基因通过促进第二类MHC分子与外源肽抗原的结合,在抗原提呈和体液免疫反应的激活中发挥重要作用(4648). 这个过程发生在早期溶酶体区室。人类白细胞抗原-DMB有6个外显子。外显子4编码疏水性跨膜(TM)结构域,外显子5编码溶酶体靶向(LT)信号。我们的EST-基因组比对显示了选择性剪接形式,跳过了人类白细胞抗原-DMB或两者兼而有之。因此,除了FL形式人类白细胞抗原-DMB表达的序列数据表明,另外三种亚型缺乏TM结构域(Δ-TM)或LT信号(Δ-LT),或两者(Δ-TM和LT)。通过从未切割的基因组DNA中排除可能的EST伪影(1),我们使用97个cDNA/EST序列作为概率亚型重建的输入数据。我们的计算表明,FL人类白细胞抗原-DMB是该基因的主要亚型,估计概率为0.732。三个较短的人类白细胞抗原-DMB同种型的存在水平要低得多(参见图4C). 这些的概率估计人类白细胞抗原-DMB亚型与我们的RT-PCR分析一致人类白细胞抗原-DMB异构体(图4D; 有关RT-PCR分析和序列测定的详细信息,请参阅在线补遗的附录3人类白细胞抗原-DMB).

保存图片、插图等的外部文件。对象名为gkl396f4.jpg

HLA-DMB的概率异构体重建。(A类)HLA-DMB的基因结构和选择性剪接。外显子4编码TM结构域。Exon 5编码LT信号。(B类)HLA-DMB的四种假定亚型。(C类)HLA-DMB的概率亚型重建。上图表示总体对数似然;下图显示了个体亚型在收敛之前的估计概率。FL形式的估计概率最高,其次是Δ-LT、Δ-TM和Δ-TM、LT(D类)混合人体组织中HLA-DMB亚型的RT-PCR分析(有关实验的详细信息,请参阅在线补充资料的附录3)。左车道:标记;右侧车道:HLA-DMB。

我们还重建了原肌球蛋白1的亚型(第1页).胎压监测1有多个区域具有复杂的选择性剪接模式。即使我们排除了可能的EST伪影,剩余的序列观察结果仍然会产生一个包含16个可能的遍历的拼接图。以前的研究胎压监测1选择性剪接揭示了两个主要的选择性剪接事件:外显子6a和6b的互斥用法;外显子9/10或外显子11作为3′末端外显子的替代使用(参见图5A). 在表达的序列数据中有证据表明这两个区域的选择性剪接并不独立(参见图5B). 事实上,定量PCR分析胎压监测1选择性剪接显示,外显子6b和外显子9/10的内含物是肌肉中的主要亚型(49). 另一方面,外显子6a和11在非肌肉组织中占主导地位(49). 虽然在输入序列观察中存在这样的耦合信息,但我们以前的亚型生成方法未能捕捉到耦合选择性剪接事件的这样的信号(15)演示了动态规划在识别拼接图中的耦合边方面的局限性。相比之下,我们的EM算法收敛于五个亚型,推断概率至少为0.05。获得最高概率估计的两种亚型对应于胎压监测1(请参见图5C). 该分析表明,我们的EM算法提供了一个全局概率解决方案,可以处理拼接图中的耦合事件。

保存图片、插图等的外部文件。对象名为gkl396f5.jpg

TPM1的概率异构体重建。(A类)TPM1从第4外显子到第11外显子的基因结构。(B类)EST证据表明TPM1中存在耦合的选择性剪接事件。(C类)TPM1的概率异构体重建。上图表示总体对数似然;下图显示了个体亚型在收敛之前的估计概率。图中仅显示概率大于0.05的亚型。

人类22号染色体基因的等位基因重构

为了评估我们算法的计算可行性,我们对来自人类22号染色体的186个选择性剪接基因进行了亚型重建。我们在PC上记录了每个基因的计算时间(AMD Athlon 1500+和320MB RAM)。结果绘制于图6。平均CPU时间为6.7秒。Hs.26593(HDAC10)的最大CPU时间为298.1秒,它在拼接图上有768个可能的遍历。该分析表明我们的算法在计算上是可行的。

保存图片、插图等的外部文件。对象名为gkl396f6.jpg

人类22号染色体上186个基因概率亚型重建的CPU时间。X轴:推定异构体的数量。Y轴:PC上的CPU时间(AMD Athlon 1500+,320MB RAM)。

异构体重建的一个重要而困难的方面是通过整合全长序列和序列片段来评估剪接图的不同遍历的置信度。非概率异构体重建方法中广泛使用的一种方法是基于大量一致序列证据评估异构体。对于22号染色体上的186个UniGene簇中的每一个,我们使用(i)EM算法的概率估计对其假定亚型进行评分;(ii)一致序列证据的数量。我们将所有假定的亚型分为两类:有mRNA证据的亚型和只有EST证据的亚型别。第一类被视为金标准高置信度亚型,因为mRNA证据的存在被广泛用作真实亚型的标准,而不是罕见的剪接体错误或EST伪影(1). 对于22号染色体上含有mRNAs和EST的UniGene簇,我们分别汇总了这两类假定亚型的得分,并计算了它们的比率。使用概率估计值作为分数,总比率(具有mRNA证据的亚型与仅具有EST证据的亚型别)为4.5。相比之下,根据一致序列证据的数量进行评分,总比率为1.1。该分析表明,EM算法的概率越高,推测亚型的可信度越高。与非概率方法相比,EM对异构体的评估更倾向于支持高置信异构体。此外,EM算法在区分高评分亚型和低评分亚型方面做得更好(数据未显示)。

讨论

我们的研究是对之前大量工作的延伸,这些工作是从剪接图重建全长异构体(15,1926). 每个亚型重建方法中的一个基本问题是如何整合全长序列和序列片段的证据。这个问题由于选择性剪接的组合性质而变得复杂,即序列片段可以是大量亚型的一致证据。以前的一些研究列举了所有可能的亚型(23,24). 其他一些人使用某些规则来产生一组足以解释所有输入数据的最小异构体(15,2022). 由此产生的最小亚型集可能依赖于输入顺序(15,18). 确实需要同时对所有观测数据进行全局考虑,并采用概率方法来测量拼接图上每一个可能的遍历的证据。在这份手稿中,我们介绍了异构体重建问题的概率公式,并描述了其最大似然解的EM算法。通过对真实人类基因的模拟数据和序列数据的分析,我们证明了我们的算法为输入数据中的各种碎片和耦合情况提供了稳健的概率解决方案。

我们的概率框架为几个扩展领域提供了基础。一种扩展是解释序列观测中的错误或冗余。例如,EST数据包含各种类型的工件。Sorek和同事(50,51)提出了一种检测含有大量伪影的EST库的方法。也有人建议,由于cDNA文库的规范化问题(52),与来自不同文库的相同数量的EST相比,来自单个文库的多个EST应被视为替代剪接形式的较弱证据。我们可以使用一个额外的加权参数来反映我们对单个EST序列的信心。该加权参数可以很容易地合并到EM算法中,用于最大似然估计。具体来说,我们可以将对数似然写成单个对数项的加权和,这就产生了一种EM算法,其中z(z)i、 k个成为的权重总和z(z),k个当然,我们也可以通过在模型中添加额外的随机化层来更加形式化,以反映序列观测值中的不确定性,然后开发用于最大似然估计的EM算法。

第二个扩展是通过考虑序列观察的来源,检测在特定条件下(例如组织、发育状态、疾病)特异性富集的全长亚型。一些研究使用表达序列检测组织特异性和癌症特异性外显子(8,5254). 然而,序列片段中的特异性信息不能直接转化为关于全长组织特异性和癌症特异性同种型的知识。在我们当前的概率框架中,EM算法可以在给定基因的不同序列观察集上单独运行(例如,一组来自癌症库,另一组来自正常库)。似然比检验(LRT)可用于评估特定同种型的丰度是否在不同的序列观测组中显著变化。

未来最令人兴奋的发展之一是结合剪接微阵列数据。最近,微阵列技术被开发用于选择性剪接的高通量分析(2,16). 通过设计针对特定外显子或外显子-外显子连接的探针,微阵列可以快速定量分析单个阵列上数千个外显子的选择性剪接。然而,与表达序列相比,来自微阵列实验的信号更加零散。将越来越需要一种整合序列数据(例如表达序列)和微阵列探针信号的亚型重建方法(55). 我们将在另一份手稿中描述基于剪接图的剪接微阵列数据分析。

在线补充

在线补充数据,包括EM计算和模拟研究的R代码,可访问http://bioinfo.mbi.ucla.edu/yxing/isoform网站/.

补充数据

补充数据可在NAR Online上获得。

致谢

我们感谢Stott Parker和Namshin Kim对这份手稿的评论。这项工作得到了NIH拨款U54-RR021813、德雷福斯基金会授予C.J.L.的教师学者奖、DOE拨款DE-FC02-02ER63421和加州大学洛杉矶分校授予Y.X.的论文年奖学金的支持。本文的开放获取出版费用由美国马里兰州贝塞斯达国立卫生研究院提供资金。

利益冲突声明。未声明。

参考文献

1.Modrek B.,Lee C.选择性剪接的基因组观点。自然遗传学。2002;30:13–19. [谷歌学者]
2Johnson J.M.、Castle J.、Garrett Engele P.、Kan Z.、Loerch P.M.、Armour C.D.、Santos R.、Schadt E.E.、Stoughton R.、Shoemaker D.D.利用外显子连接微阵列对人类选择性前信使核糖核酸剪接进行全基因组调查。科学。2003;302:2141–2144.[公共医学][谷歌学者]
三。Lareau L.F.、Green R.E.、Bhatnagar R.S.、Brenner S.E.选择性剪接的进化作用。货币。操作。结构。生物。2004;14:273–282.[公共医学][谷歌学者]
4严重的B.R.选择性剪接:蛋白质组世界的多样性增加。趋势Genet。2001;17:100–107.[公共医学][谷歌学者]
5Resch A.、Xing Y.、Modrek B.、Gorlick M.、Riley R.、Lee C.评估选择性剪接对人类蛋白质组中结构域相互作用的影响。蛋白质组研究杂志。2004;:76–83.[公共医学][谷歌学者]
6Garcia J.、Gerber S.H.、Sugita S.、Sudhof T.C.、Rizo J.Piccolo C2A域中由选择性剪接调控的构象开关。自然结构。分子生物学。2004;11:45–53.[公共医学][谷歌学者]
7Wen F.,Li F.,Xia H.,Lu X.,Zhang X.,Li Y.超短选择性剪接对人类基因组中蛋白质结构和功能的影响。趋势Genet。2004;20:232–236.[公共医学][谷歌学者]
8Xu Q.,Modrek B.,Lee C.人类转录组中组织特异性选择性剪接的全基因组检测。核酸研究。2002;30:3754–3766. [PMC免费文章][公共医学][谷歌学者]
9Xu X.,Yang D.,Ding J.H.,Wang W.,Chu P.H.,Dalton N.D.,Wang H.Y.,Bermingham J.R.,Jr,Ye Z.,Liu F.,et al.心肌中ASF/SF2-调节CaMKIIdelta选择性剪接时间重编程兴奋-收缩耦合。单元格。2005;120:59–72.[公共医学][谷歌学者]
10Garcia-Blanco M.A.、Baraniak A.P.、Lasda E.L.疾病和治疗中的选择性剪接。自然生物技术。2004;22:535–546.[公共医学][谷歌学者]
11Kochiwa H.、Suzuki R.、Washio T.、Saito R.、Bono H.、Carninci P.、Okazaki Y.、Miki R.、Hayashizaki Y.Tomita M.从全长cDNA文库和微阵列数据推断小鼠中的选择性剪接模式。基因组研究。2002;12:1286–1293. [PMC免费文章][公共医学][谷歌学者]
12Boguski M.S.、Lowe T.M.、Tolstoshev C.M.dbEST–“表达序列标签”数据库自然遗传学。1993;4:332–333.[公共医学][谷歌学者]
13.Li C.,Wong W.H.寡核苷酸阵列的基于模型的分析:表达指数计算和异常值检测。程序。美国国家科学院。科学。美国。2001;98:31–36. [PMC免费文章][公共医学][谷歌学者]
14Boue S.,Vingron M.,Kriventseva E.,Koch I.使用计算方法对替代剪接形式进行理论分析。生物信息学。2002;18:S65–S73。[公共医学][谷歌学者]
15Xing Y.,Resch A.,Lee C.多组装问题:从EST片段混合物中重建多个转录亚型。基因组研究。2004;14:426–441. [PMC免费文章][公共医学][谷歌学者]
16Pan Q.,Shai O.,Miswetta C.,Zhang W.,Saltzman A.L.,Mohammad N.,Babak T.,Siu H.,Hughes T.R.,Morris Q.D.等人。利用定量微阵列平台揭示哺乳动物选择性剪接的全球调控特征。摩尔细胞。2004;16:929–941.[公共医学][谷歌学者]
17Wang H.、Hubbell E.、Hu J.S.、Mei G.、Cline M.、Lu G.、Clark T.、Siani-Rose M.A.、Ares M.、Kulp D.C.等人。使用微阵列平台进行基于基因结构的剪接变体反褶积。生物信息学。2003;19:i315–i322。[公共医学][谷歌学者]
18Lee C.,Wang Q.选择性剪接的生物信息学分析。简要生物信息。2005;6:23–33.[公共医学][谷歌学者]
19Sharov A.A.、Dudekula D.B.、Ko M.S.小鼠替代转录物的全基因组组装和分析。基因组研究。2005;15:748–754. [PMC免费文章][公共医学][谷歌学者]
20Kim P.、Kim N.、Lee Y.、Kim B.、Shin Y.、Lee S.ECgene:选择性剪接的基因组注释。核酸研究。2005;33:D75–D79。 [PMC免费文章][公共医学][谷歌学者]
21Eyras E.、Caccamo M.、Curwen V.、Clamp M.ESTGenes:来自Ensembl中EST的选择性剪接。基因组研究。2004;14:976–987. [PMC免费文章][公共医学][谷歌学者]
22Florea L.、Di Francesco V.、Miller J.、Turner R.、Yao A.、Harris M.、Walenz B.、Mobarry C.、Merkulov G.V.、Charlab R.等。基因和AIR的选择性剪接注释。基因组研究。2005;15:54–66. [PMC免费文章][公共医学][谷歌学者]
23Heber S.、Alekseyev M.、Sze S.H.、Tang H.、Pevzner P.A.拼接图和EST组装问题。生物信息学。2002;18:S181–S188。[公共医学][谷歌学者]
24Leipzig J.、Pevzner P.、Heber S.《选择性剪接画廊(ASG):弥合基因组和转录组之间的差距》。核酸研究。2004;32:3977–3983. [PMC免费文章][公共医学][谷歌学者]
25Lee B.T.、Tan T.W.、Ranganathan S.DEDB:数据库黑腹果蝇外显子剪接图形式。BMC生物信息学。2004;5:189. [PMC免费文章][公共医学][谷歌学者]
26Neverov A.D.、Artamonova II、Nurtdinov R.N.、Frishman D.、Gelfand M.S.、Mironov A.A.选择性剪接和蛋白质功能。BMC生物信息学。2005;6:266. [PMC免费文章][公共医学][谷歌学者]
27Chang H.C.,Yu P.S.,Huang T.W.,Lin Y.L.,Hsu F.R.《选择性剪接图在EST数据库选择性剪接形式定量分析中的应用》。第四届IEEE生物信息学和生物工程研讨会(BIBE'04);2004年,第293页。[谷歌学者]
28Haas B.J.、Delcher A.L.、Mount S.M.、Wortman J.R.、Smith R.K.、Jr、Hannick L.I.、Maiti R.、Ronning C.M.、Rusch D.B.、Town C.D.等人拟南芥使用最大转录比对组合进行基因组注释。核酸研究。2003;31:5654–5666. [PMC免费文章][公共医学][谷歌学者]
29Malde K.,Coward E.,Jonassen I.生成EST一致序列的基于图的算法。生物信息学。2005;21:1371–1375.[公共医学][谷歌学者]
30Roberts G.C.、Smith C.W.《选择性剪接:基因组的组合输出》。货币。操作。化学。生物。2002;6:375–383.[公共医学][谷歌学者]
31Smith C.W.,Valcarcel J.《替代前mRNA剪接:组合控制的逻辑》。生物化学趋势。科学。2000;25:381–388.[公共医学][谷歌学者]
32Fededa J.P.、Petrillo E.、Gelfand M.S.、Neverov A.D.、Kadener S.、Nogues G.、Pelisch F.、Baralle F.E.、Muro A.F.、Kornblihtt A.R.。极性机制协调单个基因中不同的选择性剪接区域。摩尔细胞。2005;19:393–404.[公共医学][谷歌学者]
33.Zhu J.,Shendure J.,Mitra R.D.,Church G.M.选择性前mRNA剪接的单分子分析。科学。2003;301:836–838.[公共医学][谷歌学者]
34Bell M.V.、Cowper A.E.、Lefranc M.P.、Bell J.I.、Screaton G.R.内含子长度对CD44选择性剪接的影响。分子细胞生物学。1998;18:5930–5941. [PMC免费文章][公共医学][谷歌学者]
35Dempster A.P.、Laird N.M.、Rubin D.B.通过EM算法从不完整数据中获得最大似然(含讨论)J.皇家统计学会。1977;39:1–38. [谷歌学者]
36Excoffier L.,Slatkin M.二倍体群体中分子单倍型频率的最大似然估计。分子生物学。进化。1995;12:921–927.[公共医学][谷歌学者]
37.Yang Z.PAML:最大似然系统发育分析程序包。计算。申请。Biosci公司。1997;13:555–556.[公共医学][谷歌学者]
38Deng M.,Mehta S.,Sun F.,Chen T.从蛋白质相互作用推断结构域相互作用。基因组研究。2002;12:1540–1548. [PMC免费文章][公共医学][谷歌学者]
39.Moses A.M.、Chiang D.Y.、Eisen M.B.通过对进化混合物的期望最大化来检测系统发育基序。派克靴。交响乐团。生物计算机。2004:324–335.[公共医学][谷歌学者]
40Hide W.A.、Babenko V.N.、van Heusden P.A.、Seoighe C.、Kelso J.F.染色体上的外显子跳过事件对蛋白质编码多样性的贡献。基因组研究。2001;11:1848–1853. [PMC免费文章][公共医学][谷歌学者]
41Modrek B.,Lee C.人类、小鼠和大鼠基因组中的选择性剪接与外显子生成/丢失率增加有关。自然遗传学。2003;34:177–180.[公共医学][谷歌学者]
42Yeo G.,Holste D.,Kreiman G.,Burge C.B.人体组织中选择性剪接的变异。基因组生物学。2004;5:R74。 [PMC免费文章][公共医学][谷歌学者]
43McCullough R.M.、Cantor C.R.、Ding C.通过引物延伸和基质辅助激光解吸/电离飞行时间质谱法进行高通量选择性剪接定量。核酸研究。2005;33:e99。 [PMC免费文章][公共医学][谷歌学者]
44Meyers B.C.、Vu T.H.、Tej S.S.、Ghazal H.、Matvienko M.、Agrawal V.、Ning J.、Haudenschild C.D.对拟南芥通过大规模并行签名排序。自然生物技术。2004;22:1006–1011.[公共医学][谷歌学者]
45Lee C.,Grasso C.,Sharlow M.使用偏序图的多重序列比对。生物信息学。2002;18:452–464.[公共医学][谷歌学者]
46Kelly A.P.、Monaco J.J.、Cho S.G.、Trowsdale J.一种新的人类HLAⅡ类相关基因座,DM。自然。1991;353:571–573.[公共医学][谷歌学者]
47Sanderson F.、Kleijmeer M.J.、Kelly A.P.、Verwoard D.、Tulp A.、Neefjes J.、Geueze H.J.、Trowsdale J.抗原呈递调节因子HLA-DM在MHC II类细胞中的累积。科学。1994;266:1566–1569.[公共医学][谷歌学者]
48Weber D.A.、Dao C.T.、Jun J.、Wigal J.L.、Jensen P.E.、跨膜结构域介导的HLA-DM和HLA-DR共定位是最佳HLA-DM催化活性所必需的。免疫学杂志。2001;167:5167–5174.[公共医学][谷歌学者]
49Le K.、Mitsouras K.、Roy M.、Wang Q.、Xu Q.、Nelson S.F.、Lee C.将选择性剪接的组织特异性调控作为微阵列数据中的一种定性变化进行检测。核酸研究。2004;32:e180。 [PMC免费文章][公共医学][谷歌学者]
50Sorek R.、Basechess O.、Safer H.M.表达序列标签:使用前清洁。信函回复:Z.Wang、人类癌症中肿瘤相关替代RNA剪接的计算分析和实验验证。癌症研究。,63: 655–657, 2003.癌症研究。2003;63:6996.作者回复6996–6997。[公共医学][谷歌学者]
51Sorek R.,Safer H.M.受污染EST库的计算识别新算法。核酸研究。2003;31:1067–1074. [PMC免费文章][公共医学][谷歌学者]
52Gupta S.、Zink D.、Korn B.、Vingron M.、Haas S.A.基于EST的组织特异性选择性剪接预测的优缺点。BMC基因组学。2004;5:72. [PMC免费文章][公共医学][谷歌学者]
53Xu Q.,Lee C.人类表达序列中新剪接形式的发现和癌症特异性选择性剪接的功能分析。核酸研究。2003;31:5635–5643. [PMC免费文章][公共医学][谷歌学者]
54Wang Z.,Lo H.S.,Yang H.,Gere S.,Hu Y.,Buetow K.H.,Lee M.P.人类癌症中肿瘤相关替代RNA剪接的计算分析和实验验证。癌症研究。2003;63:655–657.[公共医学][谷歌学者]
55Lee C.,Roy M.微阵列替代剪接分析:成功与挑战。基因组生物学。2004;5:231. [PMC免费文章][公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社