跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2010年8月;38(14): 4740–4754.
2010年4月12日在线发布。 数字对象标识:10.1093/nar/gkq197
PMCID公司:项目经理2919708
PMID:20385588

转录数据的无约束挖掘揭示了人类转录组中选择性剪接复杂性的增加

关联数据

补充资料

摘要

挖掘大量转录数据以获取选择性剪接信息对于理解RNA的成熟如何调节基因表达至关重要。我们开发了一种算法,将转录数据聚类到注释基因,以检测未注释的剪接变体。与其他选择性剪接数据库相比,发现了更多的选择性剪接基因和亚型。人类和小鼠数据的比较显示,在人类中,包含新外显子和保留内含子的剪接变体显著增加。之前未注释的外显子通过拼接阵列表达数据进行验证,并显示优先对应于新的第一外显子。保留的内含子通过平铺阵列和深度测序数据进行验证。大多数保留的内含子短于500 nt,并具有弱的多嘧啶束。保留的内含子子集匹配小RNA并显示高GC含量,表明剪接调控和非编码RNA的产生之间可能存在协调。马、狗和牛的未标记外显子和保留内含子的保守性高于啮齿动物,64%的外显子序列仅在灵长类中发现。该分析强调了先前绕过的选择性剪接变异体,这可能对破译人类更复杂的基因调控途径至关重要。

简介

当前大量可用的生物序列数据需要创建自动化程序,以挖掘包含大量数据的数据库。仅就人类基因组而言,已在GenBank中保存了800多万个转录序列(1). 一个重要的信息是识别每个基因产生的所有选择性剪接转录本。选择性剪接已发展成为扩展有限数量基因编码的蛋白质组复杂性的主要机制(2,)蛋白质复合物的模块化性质所固有的组合可能性使其进一步指数化。选择性剪接发生在对广泛刺激的响应中,并已被证明具有组织特异性、发育阶段特异性和疾病特异性(4). 基于cDNA和表达序列标签(EST)大规模分析的早期研究表明,60%以上的人类基因经历了选择性剪接(5)而微阵列分析使这一估计增加到73%(6)和80%(7). 最近,高通量测序技术显示,92-94%的人类基因经历了选择性剪接(8–10).

然而,近年来,基因中的许多选择性剪接亚型显然不产生任何蛋白质。一些证据表明,通过涉及非蛋白编码转录物的选择性剪接进行转录后调控无疑是控制基因表达的重要机制(11,12). 这种性质的机制包括调控的非生产性剪接和翻译(RUST)(11)和非传感介导衰变(NMD)(13,14).

在探索几种模式生物中的选择性剪接转录物的过程中,我们意识到,与其他生物的同源基因相比,人类基因中含有内含子保留或新外显子的明显非蛋白编码的选择性转录物的数量似乎更多,在现有的替代拼接数据库中没有注释(15). 这促使我们开发了一种自动化方法来挖掘EST和mRNA转录物与基因组序列的比对,目的是识别给定基因位点中所有可能的选择性剪接组合,无论是编码还是非编码。这项工作将重点放在内含子保留与短RNA表达的潜在功能重要性上,以及低序列保守性人类中未标记的外显子上。

材料和方法

数据来源

BLAT路线表(16)RefSeq的(17)从UCSC基因组浏览器中获得了mRNA和拼接到基因组集合的ESThttp://genome.ucsc.edu/(18,19). 来自UCSC基因组浏览器的拼接EST的BLAT比对与基因组序列的碱基一致性至少为96%,并且只携带小于750 000个碱基的内含子;此外,这种拼接EST至少有一个内含子,其最小长度为32个碱基,具有GT…AG共有剪接位点。从UCSC基因组浏览器下载染色体序列用于人类基因组组装,智人(20)和小鼠基因组组装,小家鼠(21). 本分析中使用的人类EST来源于各种组织来源的文库(45%来自正常组织,26%来自肿瘤组织或细胞系,2%来自疾病组织,27%没有组织注释)。

数据处理

基因的基因组区域被确定为所有RefSeq BLAT比对与给定Entrez GeneID相关的区域(22)映射、延伸到任何mRNA或具有至少一个与RefSeq比对相同的拼接连接的拼接EST。对于未拼接的RefSeq基因,考虑了基因区域边界内的所有mRNA和剪接EST比对。转录物的BLAT比对由一系列由基因组序列缺口分隔的对齐区块组成。采取了几个步骤来过滤出被认为不足以提取选择性剪接信息的数据。为了确定最小内含子大小,我们寻找携带剪接位点一致序列GT…AG、GC…AG或AT…AC的最小RefSeq内含子,发现其为30 nt。基于此,我们假设最小内含子尺寸为30 nt,因此,被小于30nt的间隙隔开的任何两个相邻区块都不被认为是可靠的内含子,并被连接成一个区块。这些小间隙可能是由于基因组序列和转录物中可变长度的短重复,或者由于BLAT程序未能成功对齐的转录物的短片段,通常是由于单核苷酸多态性;它们主要出现在5′和3′非翻译区。转录物mRNA或EST BLAT比对中的阻滞是潜在的外显子。我们在RefSeq注释的人类基因中检测到的最小外显子是6 nt(在RELN公司基因),但我们发现在UCSC BLAT比对中,它没有正确映射到基因组集合。总共,在RefSeq基因中发现了8个含有7 nt的区块,但其中只有一个在UCSC BLAT比对中与一致剪接位点进行了定位。总共在RefSeq基因中发现了9个带有8 nt的区块,其中7个带有共有剪接位点。RefSeq基因中有50多个9 nt的片段,除了少数例外,这些片段在UCSC BLAT比对中具有一致剪接位点。因此,选择9-nt块作为施加在块大小上的可靠下限。然后分析比对中每个剩余间隙的前两个和最后两个核苷酸的剪接位点共识序列GT…AG、GC…AG或AT…AC(如果是mRNA源);以及GT…AG或GC…AG(如果是EST来源)。如果拼接位点一致性不存在,或块体小于9 nt,则在非传感连接处或小块体的任一侧将对准切割成碎片。考虑到RefSeq序列不断被审查,并且在这里被用作给定基因的参考序列,该程序将覆盖RefSeq比对的过滤程序,并且所有这些都被接受,而不管剪接连接处的一致序列和比对块的大小。对于上述过滤数据集,使用补充数据结果块被认为与外显子和插入子的间隙相对应,每个序列段被编号并指定一个类型。因此,只要一个EST或mRNA支持一个新的外显子,只要对齐序列与基因组集合具有96%的一致性,即它包含至少一个内含子,具有一致的剪接位点,并且至少有一个剪接位点与RefSeq注释外显子相同。除了第一个或最后一个外显子必须具有至少9 nt(所需的最小区块大小)和剪接位点共识序列外,没有对其施加任何特殊要求。如果第一外显子和下一外显子之间的间隙大于30 nt,则排除第一外显子外显子,即末端外显子。关于选择性剪接的数据是以这样一种方式生成的,以便在整个蛋白编码基因的背景下可视化所有可能的外显子。选择性剪接模式被确定为包含一组不同的选择性剪接外显子的最长模式。通过这种方式,数千个EST集合中包含的信息可以浓缩几个数量级。

本研究中使用的未注释外显子集合包括RefSeq转录本中未注释的外显子,不包括外显子的3′和5′延伸。该治疗产生的整套数据被整合到一个名为ExonMine的公共交互式数据库中,该数据库可在以下网站免费获取:http://www.imm.fm.ul.pt/exonmine网站/.

从随机EST集生成数据

为了评估EST数量对选择性剪接水平估计的影响,上述程序使用了随机的EST集,间隔为50万EST,范围从小鼠的50万到200万EST和人类的50万至400万EST。对于每个点,生成了两个随机集,这些随机集显示具有一个以上剪接模式的基因百分比的变化小于0.1%,每个基因的平均外显子数的变化小于0.1,每个基因剪接模式平均数的变化<0.1。

末端外显子中poly-A信号和第一外显子中TSS信号的分析

由于生成的数据主要依赖于转录片段,我们通过存在多聚A信号AATAAA和该信号的单核苷酸变体来评估我们的末端外显子(无5′剪接位点的外显子)是否为真的末端外显子的可能性(23). 同样,通过转录起始位点(TSS)的存在来评估第一外显子是否为真正的第一外显体(无3′剪接位点的外显子)的可能性:为此,TSSs DBTSS数据库,2009年9月15日7.0版(24)与第一个外显子匹配,包括上游200nt区域。

平铺数组数据

覆盖人类基因组非重复部分的平铺阵列数据(25)来自NCBI地理数据集GSE7576标准这些数据与2004年人类基因组组装序列有关(NCBI Build 35,hg17);因此,使用BLAT将平铺阵列探针信号的基因组坐标提升到2006年3月的人类基因组组装序列(NCBI Build 36.1,hg18)。来自ExonMine 2008年8月更新的人类基因组组装hg18的数据与平铺阵列探针信号以及短转录片段和长转录片段相匹配。平铺阵列数据中的短转录片段大小从22到200 nt不等,在该研究中,在HeLa和HepG2细胞系中检测到,均来自人类基因组的整个非重复部分的+链和-链。

重复要素分析

未标记外显子中重复元素的存在是通过与RepBase版本13.10的成对比对来确定的(26)使用blastn(27). 如果比对在50 nt的最小查询比对长度上具有至少80%的一致性,则认为外显子包含重复元素。

P(P)-与保留内含子相关的短RNA的数值计算

为了证明短RNA与保留内含子的相关性比与保留内含物大小范围内(群体1)或所有内含子群体内(群体2)的所有内含子的关联性更强,我们计算了结果的统计显著性。在处理是/否问题时,我们使用了二项式分布,它完全由一个参数定义,P(P)在这种情况下,发现内含子携带短RNA的概率:P(P)=(一个群体中携带短RNA的内含子的数量)/(该群体中内含子的总数)。为了估计这个参数,我们假设“最大群体”代表人口。对于人口1,P(P)= 31325/126292 = 0.2480; 对于人口2,P(P)= 64844/205975 = 0.3148. 为了证明细胞质中50%的平铺阵列转录片段覆盖率所确定的保留内含子集合(50CytoTF集合)不是从这一大组中随机抽取的样本,我们计算了P(P)值。二项分布的平均值为M(M)=N个×P(P)标准偏差为= √ (M(M)(1–P(P)))其中N个=7381是50CytoTF集合中的内含子数。对于50CytoTF集合,结果如下:M(M)=7381×0.2480=1830.76和=37(对于人口1);M(M)=7381×0.3148=2323.65和=人口2为40。要计算P(P)-值,我们使用以下事实:N个=7381实际上完全可以用正态分布表示。这允许我们将50CytoTF数据转换为平均值为0、标准偏差为1的标准正态分布;反过来,这个标准正态分布允许使用标准表来推导P(P)-值。此转换的公式为z(z)= (xM(M))/哪里x是在50CytoTF集合中观察到的携带短RNA的内含子数量。对于人口1z(z)=(2663–1830.76)/37=22.43,人口2z(z)= (2663–2323.65)/40 = 8.50. 使用上述表格,我们得出了P(P)-值<0.0001。根据传统标准,这意味着在50CytoTF集合中观察到的短RNA的数量在统计学上非常显著。

内含子中的GC含量

在三组2500个小内含子中测定GC含量,小内含子小于1029nt,如前所述(28). Set Rs:保留的内含子,其表面至少有50%被细胞质中的平铺阵列转录片段覆盖,也匹配短转录片段(25); set Rns:保留的小内含子,其表面至少50%被平铺阵列转录片段覆盖(25)在细胞质中,但与短转录片段不匹配;并设置NR:小的非保留内含子。我们对集合Rns和NR施加了与集合Rs相同数量的内含子和大小分布:这是通过随机选择每个四分位中相同数量的插入子和与集合Rs.中观察到的相同数量的离群值来实现的。为了测试两组内含子中平均GC含量的差异是否足够大,以至于平均值很可能来自两个不同的群体,即双尾P(P)-的值t吨-对不相等的方差进行统计学计算。

搜索已知的小RNA

为了支持保留内含子参与小RNA产生的可能性,我们搜索了UCSC表格浏览器(19)基于miRBase(2009年3月13.0版)序列数据库的数据(29)microRNA前体;来自Moléculaire Eucaryote生物实验室的C/D和H/ACA盒小核仁RNA和小Cajal体特异性RNA(scaRNAs)数据的snoRNABase(版本3)(30).

序列守恒分析

使用不连续巨幼细胞对人类未标记外显子和保留内含子进行序列保守性分析(27,31)跨越八种脊椎动物:黑猩猩(黑猩猩,滑行:9598)和恒河猴(猕猴,taxid:9544)基因组用于代表非人类灵长类;鼠标(小家鼠,滑行:10090)和老鼠(褐家鼠,taxid:10116)基因组用于代表非初级灵长类;狗(家犬,滑行:9615),马(卡巴勒斯马,出租车:9796)和奶牛(Bos金牛,taxid:9913)基因组被用来代表另一大类胎盘哺乳动物laurasiatheria;鸡肉(五倍子,taxid:9031)用于表示非哺乳动物脊椎动物基因组。不连续巨母细胞是Mega BLAST的一个版本,专门用于比较不同序列,尤其是来自不同生物体的序列。我们用于此保护分析的参数是作者建议用于跨物种分析的参数。使用以下参数对染色体进行分析:单词大小为11;匹配和不匹配基数为1/1的奖惩计分参数;相关缺口存在惩罚为5;空档延长罚2分;使用过滤器仅为查找表屏蔽低复杂度区域;筛选人特异性重复序列;最后,使用长度为16的不连续最大模板类型。如果比对在至少80%的查询覆盖率上显示70%以上的一致性,且比特分数>50且E(预期)值<0.05,则认为序列是保守的。

结果

ExonMine检测到更多外显子和选择性剪接基因

使用上述方法生成的用于完整人类基因组的选择性剪接数据检测到256 605个核心外显子(即不包括外显子延伸),涵盖18 727个基因(单倍型除外)(表1). 这些外显子在转录本中的位置为16%第一外显子(40418外显子)、73%内部外显子和11%末端外显子。识别出的外显子共涉及199045个不同的剪接模式,每个基因的平均剪接模式为10.6个。通过与参考RefSeq序列相关的外显子和内含子的固定编号,所有外显子及剪接模式都可以追踪到原始的mRNA和EST输入数据集。完整的数据集可以在ExonMine数据库上在线可视化,网址为:http://www.imm.fm.ul.pt/exonmine网站/.

表1。

我们的结果与其他数据库的比较

数据库人类
鼠标
基因数量AS基因(%)外显子数量每个基因的平均外显子数基因数量AS基因(%)外显子数量每个基因的平均外显子数
埃克逊明18 72788256 6051419 11079215 343
快速数据库18 00878201 2451113 91354157 920
尽快II22 22053129 981616 40453105 2606

与FastDB(32)、ASAP II(33)相比,本分析中生成的备选拼接数据(此处称为ExonMine数据)。

对于我们的数据,该计数仅包括外显子的核心部分,即排除外显子延伸。

表1将人类和小鼠的ExonMine数据与最近发布的两个备选剪接数据库中的数据进行比较(32,33). 对于人类和小鼠,ExonMine检测到的选择性剪接基因比例更高,分别为88%、78%(fastDB)和53%(ASAPII);与小鼠的fastDB中的54%和ASAPII中的53%相比为79%。最引人注目的是,ExonMine数据检测到人类每个基因检测到的平均外显子数(每个基因14个外显子)比fastDB检测到的最高外显子(每个基因11个外显字)增加了27%。这很可能是因为选择成绩单时存在差异。例如,在fastDB中,最初通过爆破每个外显子来选择转录本,外显子由EnsEMBL定义(34)与基因组的mRNA和EST比对,而ExonMine依赖于BLAT比对,BLAT比对要求转录物与RefSeq转录物只有一个剪接位点相同。fastDB中转录物比对的全球一致性百分比为98%,而ExonMine为96%。在fastDB中,至少95%的转录本必须对齐,它必须覆盖基因组区域的10%,给定转录本中外显子和内含子长度的比率不能超过所有定义外显子长度和内含子平均比率的三倍;而ExonMine在非感觉连接处和小于9个核苷酸的外显子两侧将序列切割成片段,并恢复任何拼接片段。由于数据选择标准的差异,ExonMine成功捕获的EST和mRNAs数量是fastDB的三倍多。ExonMine还聚集了绝大多数人类剪接EST(97%),这表明人类RefSeq转录物几乎完全覆盖了剪接基因。

人类选择性剪接的复杂性高于小鼠

在有限的EST数据集中,基于EST的选择性剪接水平的评估已被证明取决于可用EST的数量(35). 然而,当大量剪接EST可用时,EST覆盖范围存在冗余因素,例如人类(390万)和小鼠(190万)的EST数量比外显子数量高一个数量级。在我们的分析中,对于人类和小鼠,两个或多个EST分别覆盖了78%和79%的外显子总数。这种覆盖水平使我们能够开始比较这两种生物体中检测到的选择性剪接水平。

为了评估EST的数量如何影响选择性剪接的确定水平,我们从50万个EST随机集合中得出了结果:小鼠为50万到200万,人类为50万至400万(图1). 具有选择性剪接的基因百分比(图1A) ,虽然我们看到人类的EST从81.7%(估计为50万EST)增加到88.2%(估计为400万ESTs),但在后一点,我们似乎正在达到阈值。每个基因的外显子数量也是如此(图1B) 根据现有数据,在人类中达到13.6,在小鼠中达到11.2。然而,当我们估计每个基因的剪接模式数量时,似乎还没有达到阈值(图1C) ●●●●。这可能是由于从在体外操作或实际上反映了由于人类每个基因的外显子数量增加导致组合可能性增加,选择性剪接的复杂性实际增加。总的来说,结果显示图1表明小鼠的选择性剪接水平始终低于人类。

保存图片、插图等的外部文件。对象名称为gkq197f1.jpg

EST数量对选择性剪接水平估计的影响。从随机的EST集合中生成的数据,每隔50万个EST生成一次,小鼠为50万到200万,人类为50万至400万。(A类)具有一种以上剪接模式的基因的百分比。(B类)每个基因的平均外显子数。(C类)每个基因的平均剪接模式数。

关于RefSeq,我们在人类和小鼠中检测到的剪接模式分别多7倍和5倍。挖掘人类mRNA和EST数据中的选择性剪接外显子,发现48 942个未注释外显子>25 nt,剪接到注释RefSeq转录本中的外显子上,其中60%发生在正常组织中,只有16%发生在癌组织中。在本分析中考虑的总共18727个基因中,有13497个(72%的基因)带有未标记的外显子,其中97.7%出现在完全剪接的转录本中。60%的未标记外显子由至少一个mRNA或两个EST支持。

在人类和小鼠中,大多数未标记的外显子都是第一外显子,在人类中为45%(图2B) 而在小鼠中为52%,这与在整个注释外显子集合中发现的第一、内部和末端外显子的分布形成对比,其中16%的外显子是第一外显子(图2A) ●●●●。在我们的数据中,第一个外显子是那些没有检测到3′剪接位点的外显子,而末端外显子则是那些没有发现5′剪接部位的外显基因。由于我们的数据严重依赖于作为转录物片段的EST,我们通过将这些数据与最新版本的转录起始位点数据库(DBTSS)进行匹配来估计第一外显子成为真正第一外显子的可能性(24). 我们发现63%(图2C) 新的第一个外显子与正常成人和胎儿组织中的TSS相匹配(包括细胞系时为75%)。在已知的第一外显子中,我们在86%的正常成人和胎儿组织中发现TSS的匹配(包括细胞系时为89%)。尽管在21%的已知内部外显子中也发现了TSS,但对于正常成人和胎儿组织,这一结果表明,只有25%的新发现的第一外显子是内部的,来源于转录片段,而不是真正的第一外显子。

保存图片、插图等的外部文件。对象名为gkq197f2.jpg

第一、内部和末端外显子的相对数量。(A类)已知外显子(RefSeq注释)中第一、内部和末端外显子的相对数量。(B类)第一、内部和末端新(未标记)外显子的相对数量。(C类)外显子或上游200 nt内含有转录起始位点(TSS)的第一个已知外显子和新外显子的百分比[DBTSS(24),版本:7.02009年9月15日)。(D类)含有共有AATAAA序列的poly-A信号或1-nt变异体的末端外显子的百分比(23). 第一外显子是未检测到3′剪接位点的外显子。末端外显子是指未检测到5′剪接位点的外显子。内部外显子既有3′剪接位点,也有5′剪接部位。该分析仅包括最小25 nt的外显子,不包括嵌合转录产物。

为了评估新的末端外显子是否为真的末端外隐子的可能性,我们确定了携带多聚A信号AATAAA和该信号的1-nt变异体的末端外现子的数量(23) (图2D) ●●●●。通过真末端外显子,我们的意思是它是最后一个被剪接的外显子(即在整个数据中没有检测到5′剪接位点),它包含多聚腺苷酸化信号。我们发现,只有30%的未标记末端外显子包含共有poly-A信号(当包含poly-A-信号的一个核苷酸变异体时,为61%),而已知末端外显基因中的这一比例为78%(poly-A-signal变异体为97%)。相比之下,在第一外显子和内部外显子中,共有AATAAA的poly-A信号及其变体仅在4%的病例中发现,而AAGAAA变体最多为12%。这一结果表明,至少39%的最终外显子可能实际上是内部外显子,其完整转录本尚未确定。

总的来说,人类和小鼠中三分之一未标记的第一外显子和内部外显子与下游已知外显子处于同一框架内,因此预计会产生假定的编码序列。

通过拼接阵列表达数据验证新外显子

通过我们的分析确定的未标记外显子与八种细胞系平铺阵列的表达数据的比较(25)显示37%的未标记外显子未被足够的拼接阵列探针覆盖,无法检测为转录片段,尽管在拼接阵列数据中有44%的外显子在转录片段中表达,35%在细胞质中表达。

鉴于最近的报告表明,重复元素,如Alu元素,在灵长类选择性剪接的进化中起着重要作用(36,37),我们搜索了存放在RepBase 13.10中的脊椎动物重复序列(26)在未注释的外显子中使用Blastn。该分析显示,24%的未标记外显子与重复序列对齐。到目前为止,在12%的未标记外显子(约6000个外显子)中发现的最丰富的重复性元素是灵长类特有的Alu元素。由于平铺阵列数据仅覆盖基因组中的非重复部分,后者有望逃脱阵列分析的检测。

为了说明这一分析,我们以基因的平铺数组数据为例ZRSR2公司显示在中图3其中发现四个未标记的外显子。未注释的外显子1A的信号与所有八个细胞系中已知外显子的信号相当,而外显子2A、3A和3B不被探针覆盖。后三个外显子是灵长类特异性Alu重复序列串联插入的外显子(38). 另一方面,平铺阵列数据也表明,外显子1A与22至200 nt的短转录RNA片段一致(25)这表明该外显子具有非蛋白编码功能。然而,我们没有发现来自平铺阵列的与未注释外显子相关的短转录片段(假定的短RNA)的数量高于与注释外显子相关的短转录片段的数量(表2):虽然64%的带注释的第一外显子与拼接阵列中的短转录片段匹配,但在未带注释的外显子上只有37%匹配。总的来说,似乎第一和末端外显子,尤其是第一外显子比内部外显子更常与短转录片段相关,这表明,与第一外显子和末端外显子的短RNA相比,内部外显子具有更强的调节作用,后者自然主要执行蛋白质编码功能。

保存图片、插图等的外部文件。对象名称为gkq197f3.jpg

基因片段的平铺数组数据ZRSR2。平铺阵列数据的信号和转录片段的坐标[Geo AccessionGSE7576标准(25)]在该研究中用于人类基因组组装的所有八种细胞系中,hg17被提升到组装hg18,并与ExonMine数据相匹配(2008年8月更新)。该图表示基因5′端的数据ZRSR2公司。所示为核信号(黄色)和细胞质信号(红色)。我们的ExonMine数据中的外显子位置(蓝色)和平铺阵列数据中的转录片段叠加在负轴上:细胞质(红色)、细胞核(黄色)、短RNA顶链(绿色)和短RNA底链(青色)。图中显示,对于含有未标记外显子2A、3A和3B的Alu,拼接阵列上的探针覆盖率缺失或过低。然而,对于未注释的外显子1A,该区域有明确的核和细胞质信号以及与短RNA转录片段的对应。图中还显示了ExonMine中未检测到的表达,包括:在外显子2下游内含子的5′端;外显子2和2A之间的几个转录片段可能对应于只有EST证据的相反链上的一个基因(AA284226型); 第3外显子上游有一个低信号转录片段。

表2。

外显子匹配短RNA

外显子类型已知外显子匹配短转换(%)新外显子匹配短转换(%)
6437
e(电子)1112
时间3919

该数据与细胞质和短转录片段中至少25个nts在平铺阵列(25)中表达的外显子有关。

大部分亚型含有保留的内含子

对携带内含子保留的剪接转录物的分析显示,人类中保留了16288个内含子,属于7708个基因(41%的基因)。这些内含子保留中只有3%在RefSeq转录本中被注释。在RefSeq注释的保留内含子中,37%没有改变阅读框。在我们的16 288个保留内含子中,33%的内含子没有改变阅读框架。这对应于一组随机大小的内含子。人类数据包含的剪接模式数量约为老鼠数据的两倍,内含子保留。

为了研究人类保留内含子转录物的生物学意义,我们分析了从覆盖人类基因组全部非复制部分的平铺阵列中获得的八个细胞系的表达数据(25). 在我们的分析检测到的16 288个内含子中,7.5%被<11个平铺阵列探针覆盖,因此无法进行分析。相反,70%的保留内含子被至少50 nt个从细胞核或细胞质中分离出来的转录片段覆盖,45%的内含子表面被从细胞质中提取出来的转录碎片覆盖。这与在相同大小范围内(109 817个内含子)的所有其他非保留(剪接)内含子的平铺阵列中检测到的细胞质转录片段中14%的表达形成对比。这一结果促使我们进一步描述了这些内含子的特征,这些内含子显然在细胞核中未分裂,并被输出到细胞质中(在本文中称为50CytTF保留内含子集)。

保留的内含子很短,与小RNA表达相关的一个子集具有高GC含量

内含子的大小范围很广,从RefSeq转录本中检测到的最小内含子大小30 nt到数百千碱基,大多数内含子(71%)长度超过500 nt。对50CytoTF保留内含子集大小范围的分析表明,绝大多数(87%)在大多数情况下(78%),转录本包含一个保留的内含子,而在23%的情况下,转录本保留了一个以上的内含子。由于许多功能性短RNA是从蛋白质编码基因的内含子区转录而来的,我们分析了与三组内含子相关的短RNA的分布:所有非保留内含子;细胞质中检测到的保留内含子(50CytoTF组);和保留的内含子未经拼接阵列数据证实(图4). 根据拼接阵列数据,我们发现短RNA通常与所有大小的内含子相关(图4A) ●●●●。然而,在保留内含子的大小范围内,我们发现通过平铺阵列数据(50CytoTF集)确认的保留内含子与短RNA的相关性高于未保留内含子(图4B) ,P(P)-值<0.0001。

保存图片、插图等的外部文件。对象名称为gkq197f4.jpg

内含子大小范围的分布和短RNA的存在。(A类)该图表示三组内含子的大小范围分布。AIt:非保留内含子总数(222721个内含子);RTt:具有50%表面匹配平铺阵列的总保留内含子(25)细胞质中的转录片段(50CytoTF组,7381个内含子);RIt:未经拼接阵列数据证实的保留内含子总数(8907个内含子);及其对应的亚群与拼接阵列中检测到的短转录片段相匹配(AIs:60 090内含子,RTs:2663内含子,RIs:1908内含子)。短RNA(短转录片段,22–200 nt)的平铺阵列数据来自(25). (B类)包含短RNA的每组内含子总数占内含子长度Log10的百分比。%AIs/AIt:非保留内含子;%RTs/RTt:50CytTF保留内含子;%RIs/RIt:在平铺数组数据中未检测到保留的内含子。在保留内含子的大小范围内,该图显示50CytoTF内含子组比非保留内含子携带更多的短RNA。计算出的双尾P(P)-观察到的差异值为<0.0001(见“材料和方法”一节)。

最近发布的深度测序数据(8)还分析了保留内含子的存在。在公布的数据中,我们发现105个保留的内含子,大小从69到327 nt不等(补充数据). 除了一个例外,所有这些内含子保留都发生在RefSeq注释的外显子之间;然而,RefSeq没有对插入子保留本身进行注释。另一方面,我们的分析检测到24个内含子保留。在深度测序检测到的92%的病例中,内含子的保留不会破坏阅读框架。通过深度测序检测到的内含子保留事件与拼接阵列数据的比较表明,其中72个内含子(68%)的细胞质转录片段覆盖率为50%,34个(33%)与短转录片段(短RNA)相关。

据报道,人类内含子的平均GC含量一般为43.51%,小内含子(小于1029nt)的GC含量较高(28). 我们对三组小于1029nt的内含子进行了GC含量分析:小的保留内含子(来自50CytoTF组)匹配短转录RNA(set Rs);小的保留内含子(来自50CytoTF集合)与短转录片段(集合Rns)不匹配;和未发现保留的小内含子(设置NR)。除了大小限制外,我们还要求集合Rns和NR与集合Rs具有相同的大小分布,方法是随机选择每个四分位中相同数量的内含子和异常值,就像在集合Rs中观察到的那样(图5A) ●●●●。然后测量每组的GC含量,我们发现Rs组的GC含量为63%,而Rns组和NR组分别为50%和49%(图5B) ●●●●。我们获得了P(P)-值=1.9e(电子)-26用于比较集Rs和Rns的平均GC含量,以及P(P)-Rns和NR.A组的值=0.14P(P)-在前一个结果中,这个值非常小,这意味着,就GC含量而言,Rs内含子几乎可以确定形成一个不同的集合。由于富含GC的区域可以形成更稳定的RNA二级结构,这种富集可以反映出这种趋势,并与小RNA生物发生中的剪接调控有关。

保存图片、插图等的外部文件。对象名称为gkq197f5.jpg

保留内含子和非保留内含子中的GC含量。GC含量为三组,每组2500个内含子。Set Rs:通过平铺数组数据验证保留的小内含子(25)细胞质中也有匹配的短转录片段;set Rns:与短转录片段不匹配的小的保留内含子;并设置NR:小的非保留内含子。小内含子<1029 nt,如(28). (A类)所有三个集合Rs、Rns和NR的箱线图。集合Rn和NR中的内含子由随机选择的每个四分位中相同数量的内含子和集合Rs中的离群值组成:下铰链=30,极下胡须=102,中位数=185,上铰链=337,极上胡须=687,缺口的下极限=177.6,缺口上限=192.4153个异常值。(B类)三组Rs、Rns和NR中每一组的GC含量百分比。

接下来,我们使用WebLogo比较了每个核苷酸在剪接位点的出现频率(39) (图6)对于上述三组,Rs、Rns和NR以及所有内含子。在5′剪接位点,小内含子中最显著的特征(图6A、 C和D)是鸟嘌呤含量较高的趋势,而不是像在所有内含子中观察到的那样偏爱尿苷(图6B) ;和成套Rs(图6A) 与小的非保留内含子(NR)和与短转录片段(Rn)不匹配的小保留内含子相比,该剪接位点的GC含量更高。Py-tract在3′剪接位点的强度可以根据其尿苷含量进行评估:在3′拼接位点,set Rs的Py-track似乎弱得多(图6A) 而不是其他三盘。保留内含子的Set Rn似乎比非保留小内含子(Set NR)的Py-tract短且弱,而长内含子的Py-stract最强。保留内含子(集合Rs和Rns)中Py-tract的弱点可能与需要额外剪接因子的选择性剪接调控有关(40).

保存图片、插图等的外部文件。对象名称为gkq197f6.jpg

剪接位点的核苷酸出现频率。使用WebLogo生成代表5′剪接位点(上游3 nt和下游20 nt)和3′剪接部位(上游30 nt和下游3 nt)每个位置核苷酸出现频率的Logo(39). 尿苷以T表示(A类)Set Rs,2500个小的保留内含子匹配短RNA,如图5. (B类)随机设置2500个不同大小的内含子。(C类)Set Rns,2500个小的保留内含子与短RNA不匹配,如图5. (D类)设置NR,2500个小的非保留内含子,如中所述图5.

鉴于保留的内含子可能参与小RNA的产生,我们在miRBase序列数据库中搜索microRNAs的前体,并在来自Moléculaire Eucaryote实验室的snoRNABase数据中搜索C/D和H/ACA盒小核仁RNA(snoRNAs)和小Cajal体特异性RNA(scaRNAs。在保留内含子的Rs组中,我们发现1个已知的microRNA,11个已知的C/D盒和7个H/ACA盒snoRNA(补充数据). 相反,在保留的内含子的Rns集合中,没有发现已知的小RNA,并且在未保留的内含子中仅发现一种已知的C/D盒snoRNA(集合NR)。

保留内含子和未标记外显子的保存

使用不连续巨幼细胞对八个物种的未标记外显子和保留内含子进行了保存分析:非人类灵长类以黑猩猩和恒河猴为代表;非初级灵长类以啮齿动物、小鼠和大鼠为代表;月牙虫是另一大类胎盘哺乳动物,以马、狗和牛为代表;非哺乳动物脊椎动物以鸡为代表。为了评估保守性,我们统计了超过70%同一性阈值的外显子或内含子的数量,至少超过了序列的80%(图7). 所施加的保守性阈值有望检测具有蛋白质编码潜力的序列。然而,对于黑猩猩和恒河猴来说,与人类基因组的整体序列高度相似,黑猩猩为98-99%(41)恒河猴93%(42),排除了使用序列保守性来假设序列的蛋白质编码潜力。

保存图片、插图等的外部文件。对象名称为gkq197f7.jpg

保留未标记外显子和保留内含子。对黑猩猩、恒河猴、小鼠、大鼠、狗、马、牛和鸡这八个物种使用不连续的大爆炸(见“材料和方法”部分)进行保护评估。条形图表示外显子或内含子的百分比,在至少80%的序列覆盖范围内,至少有70%的序列保持。(A类)内含子集Rs、Rns和NR的保守性如图5,具有相同的大小分布。(B类)已知(RefSeq注释)和新(未注释)的保存。已知外显子集由2500个随机外显子组成。未注释外显子由9371个先前未注释的外显子组成,通过细胞质中超过50%的平铺阵列转录片段覆盖率验证。使用2500个随机序列的相关误差估计小于±1%。

分析了保留内含子的集Rs和Rns中内含子的保守性,以及非保留内含子集NR中与集Rs具有相同大小分布的内含子(图7A) ●●●●。对于与短转录片段(Rns)不匹配的保留内含子,我们观察到,在所有胎盘生物中,与与短转录碎片(Rs)匹配的保留插入子相比,保守内含子的数量更多。另一方面,相同大小范围内的非保留内含子(setNR)包含较低数量的保守内含子(对于啮齿动物、狗和牛)或同等数量的保守插入子(对于马、恒河猴和黑猩猩)作为集合Rs。这支持了集合Rs将其与集合Rn分开的非编码假设。鸡体内保守的内含子数量可以忽略不计。

为了评估外显子的保守性,对9371个未标记的外显子进行了分析,通过平铺阵列验证其表达至少50%的序列覆盖率(25)细胞质中检测到转录片段(图7B) ●●●●。排除了含有重复元素的外显子。这项分析是与2500个注释外显子的随机集合一起进行的。在所有胎盘哺乳动物中,我们发现大量的外显子是保守的,啮齿动物中有18%,狗和牛中有28%,马中有36%,而鸡中只有4%。

在对内含子和外显子的保守性分析中,有一点值得注意,即马、狗和牛中的序列似乎比啮齿动物中的序列保守性更强,而啮齿动物通常被认为与灵长类动物关系更密切。

讨论

选择性剪接通常被认为是解释具有相似数量基因的生物体的差异复杂性,并被认为是哺乳动物表型复杂性进化的重要驱动因素(43). 这一假设意味着更复杂的生物体会有更多的选择性剪接。然而,以往针对这一观点的研究提供了相互矛盾的结果(35,44–47). 然而,评估不同生物体不同细胞类型中基因和mRNA亚型表达的完整清单受到了重大技术挑战的阻碍。使用表达序列标签的初步研究对选择性剪接的估计相对较低,部分原因是EST数据包含各种限制性来源,例如,EST覆盖范围通常偏向转录本的3′端和5′端,EST质量和产生它们的方法非常可变,一般来说,在多个物种中,覆盖不同细胞类型的测序转录物数量不足。最近,微阵列分析实现了对人类转录组的更全面覆盖(6,7),但这种方法仍然受到依赖于与特定探针集杂交的限制。最新开发的高通量测序技术有可能绕过这些限制,最近的几项研究使用mRNA-Seq数据调查人类和小鼠转录体中的选择性剪接(8–10,48–50). 这些研究的一个重要推论是识别新的外显子和剪接连接,而以前转录数据库中没有包含这些外显子。在这里,我们表明,由于转录物选择的限制,许多新的亚型没有出现在当前的选择性剪接数据库中。因此,我们开发了一种不受约束的方法,并在提供了完整的数据集后,在线访问http://www.imm.fm.ul.pt/exonmine网站/,我们继续使用这一新资源来研究人类和小鼠转录体中的选择性剪接。

使用我们的数据挖掘方法,我们检测到与小鼠转录组相比,人类的选择性剪接率更高。与我们的结果一致,Kim等。(35)据报道,与小鼠相比,人类有更多的选择性剪接基因和选择性外显子,并证实这种更高水平的选择性剪合并不是源于癌细胞的EST导致异常剪接数量增加的结果。然而,考虑到EST数据的局限性,未来对多个转录组的深度序列分析可能会更清楚地描述选择性剪接和生物复杂性之间的关系。

在这项研究中,对mRNA和EST数据的广泛挖掘导致在72%的人类基因中识别出之前未标记的外显子。在绝大多数病例中(97.7%),新的外显子是在完全剪接的转录本中检测到的。结果进一步揭示了高比例的新的第一外显子,这表明人类转录组中的替代初始外显子可能比以前认为的更频繁。我们还发现,总的来说,与短RNA相关的第一外显子和末端外显子数量要多得多,这可以反映基因开始和结束时基因转录的位置调节,使内部外显子主要执行蛋白质编码功能。

我们发现24%的未标记外显子与重复元件对齐,这表明大多数可能是由一种不同于频繁转座元件(如Alu元件)外显子的机制进化而来的,Alu元件是在~6000(12%)个未标记外显子中发现的最丰富的元件。在总共48 942个未标记的外显子中,44%通过覆盖人类基因组非重复部分的拼接阵列表达数据进行验证,35%在细胞质中表达,而37%没有被阵列中的探针覆盖。对来自人类平铺阵列的表达数据的分析为我们的数据挖掘方法识别的未标记外显子提供了有力的验证。

大部分未标记的外显子似乎是第一个外显子。以前收集选择性剪接信息的策略在很大程度上依赖于完整的转录物,而我们的方法广泛依赖于EST,EST是转录物的片段,偏向于3′端和5′端。在我们的数据中,第一个外显子只是未检测到3′剪接位点的外显子。我们通过将这些数据与最新版本的TSSs DBTSS数据库进行匹配,估计了第一外显子成为真正第一外显体的可能性。该分析证实,尽管数据由转录片段组成,可能不完整,但大多数第一外显子(63-75%)含有TSS,因此可能是真实的第一外显基因。

最近对哺乳动物启动子的全基因组研究显示,一个特定基因上存在多个TSS,尽管其中一些可能是隐秘的,但许多是真诚地差异调节TSS在蛋白质编码基因中产生选择性N末端(51). 在我们建立第一个外显子的过程中,原始数据中每个第一外显子(共有5′ss)的切割起始点向上游延伸到数据中最远的转录起始位置,因此我们的第一个外隐子可能包括几个TSS。与每个第一外显子(或任何外显子)相关的数据的所有Genbank原始数据都可以从我们的网站上获得(http://www.imm.fm.ul.pt/exonmine网站/),通过在“下载”部分的“给定转录物、连接或外显子的基因中的组织分布”中输入外显子编号:如果第一个外显子有一个以上的登录,那么这些GenBank转录物的第一个核苷酸将从与外显子第一个外显子相同的位置开始,或者在其下游。这意味着我们的第一个外显子与DBTSS相匹配,更可能对应于单个启动子。然而,假设最初停靠在这样一个启动子上的RNA聚合酶沿着基因移动足够远,开始转录超过第一个5′ss,在这种情况下,我们将在我们的数据中记录一个新的第一外显子,或第一个外显子与另一个5′ss的延伸。另一方面,哺乳动物的启动子结构极其复杂且过于多样,无法进行准确的计算预测,事实上,人们认为大多数基因可能有多个启动子,每个启动子都与多个TSS相关,因此,选择性启动子的使用和TSS选择的调控可能是导致哺乳动物转录组中产生相当大的多样性和复杂性的原因(52). 虽然很明显,单个启动子的生物学测定、聚合酶的初始对接位点以及与特定TSS选择的关系是一个高度复杂且尚未解决的问题,有时甚至涉及多个聚合酶(53)可以使用聚合酶染色质免疫沉淀(ChIP)方法,结合组织特异性微阵列(ChIP–芯片)或大规模平行测序方法(ChIP-Seq)验证来进行此分析(54,55).

末端外显子的情况与此类似,该外显子在GenBank数据中被下游延伸至已知最远的切割端。我们的末端外显子(仅检测到3′ss的外显子,即在其外没有观察到更多剪接)可以包含多聚腺苷酸化位点。我们通过poly-A信号和该信号的已知变体的存在评估了末端外显子成为真正末端外显体的可能性。在这里,我们获得了AATAAA poly-a信号的估计真末端外显子水平为30%,当考虑到信号的已知变体时,估计真末端外显子水平为61%。没有发现poly-A信号的末端外显子可能是不完整转录物的内部外显子。通过查看支持特定末端外显子的GenBank数据,可以对我们末端外显基因中的替代多聚腺苷酸化位点使用情况进行初步评估。

几种形式的选择性剪接可以从具有多个内含子的单个基因中产生包含不同外显子组合的多种mRNA。选择性剪接的主要形式包括:外显子跳跃、选择性3′剪接位点使用、选择性5′剪接部位使用、互斥外显子、选择性起始外显子,选择性末端外显子和内含子保留(56). 迄今为止,在哺乳动物中只有少数内含子保留事件具有已知的生物学后果。这些包括转录因子识别码3(56),拼接因子9个G8(57),胰岛素原(58),离子通道CACNA1H公司(59)和KCNMA1公司(60)和参与轴突引导的Robo3受体(61). 先前对EST数据的生物信息学研究发现,有证据表明5-15%的人类基因中至少有一个内含子保留事件(5,62–64),一些含有保留内含子的新预测变体已经过实验验证(59). 然而,由于异常cDNA克隆可能产生的伪影(例如,由不完全剪接的mRNA或基因组DNA污染物产生的cDNA),仅EST序列信息通常被认为不足以识别真正的功能保留内含子亚型。

使用我们的数据挖掘方法,我们在41%的人类基因中发现了16288个内含子保留事件。在16 288个保留的内含子中,通过平铺阵列分析在人类细胞系的细胞质中检测到7382个(45%)(25). 因此,这些转录物不太可能来自未拼接或部分拼接的核前mRNA。内含子保留包括排除对一对剪接位点的正常识别,并绕过通常阻止未剪接前mRNA输出到细胞质的监视机制。因此,内含子保留可能受剪接和mRNA输出所涉及的因素调节。逆转录病毒(包括HIV)是研究得最好的系统,涉及调节内含子保留和将未片段mRNA输出到细胞质(65). 未剪接病毒RNA通过使用顺式-被称为构成转运元件(CTE)的作用RNA元件,它与细胞mRNA的主要输出受体直接相互作用。最有可能的是,保留内含子的细胞mRNA使用细胞CTE当量输出到细胞质(66,67). 因此,保留的内含子预计包含一些可能参与剪接和RNA输出的协调调控的常见序列元素。事实上,影响其他类型选择性剪接的内含子和外显子基序都被证明在适当的位置调节内含子保留(68,69).

在这里,我们报告了几条证据,支持人类转录组中内含子保留事件受到特定调控的观点。首先,与大多数人类内含子相比,保留的内含子具有较弱的Py域,而人类内含子对强Py域有明显的偏向(70). 弱Py束先前已被证明与需要额外剪接因子的选择性剪接的调节有关(40). 其次,绝大多数(87%)保留的人类内含子短于500 nt,而非保留的内含子通常长于500 nt(71)保留的人类内含子的大小让人想起植物内含子[100–200nt长(71)]在植物中,内含子保留是最普遍的选择性剪接形式(72–74). 最后,最近使用5-nt分辨率的平铺阵列对人类转录组进行的分析显示,存在长度从22到200 nt的潜在功能性短RNA,其中许多位于内含子区域(25). 挖掘这些数据集,我们发现在细胞质中检测到含有保留内含子的转录物,这些内含子可能是短RNA的前体,这表明内含子保留事件可能与细胞产生短的、可能是非编码RNA有关。与这一观点一致,我们表明,与短RNA匹配的保留内含子集富含G和C核苷酸。富含G和C的区域可能形成更稳定的RNA二级结构。除此之外,我们在与短转录片段匹配的保留内含子中发现了一些已知的小RNA(共18个snoRNS和1个microRNA)。这一结果进一步支持了我们的假设,即保留的内含子子集包含小RNA,并要求实验验证内含子保留的剪接调控与特定非编码RNA的产生之间的协调。

保存分析通常用于指示功能。然而,我们仅通过一致剪接位点识别的非编码转录本,预计其整体序列保守性较低。如果存在保守性,例如,在RNA二级结构的水平上,这些序列可能已经发生了分歧,这就排除了仅通过初级序列保守性来检测它们。我们对平铺阵列验证的未注释外显子和保留的内含子进行的保守性分析表明,马、狗和牛的保守者序列数量多于小鼠和大鼠。2001年进行的系统发育研究(75)建议人类和啮齿动物有一个共同的胎盘祖先,而马、牛和狗有一个不同的胎盘祖先。这意味着啮齿类动物可能已经失去了灵长类和月牙虫的共同特征(76)相反,使用全基因组数据进行的研究结果显示,在排除啮齿动物的情况下,有大量证据表明人类食肉动物分支存在。后者支持了我们的结果,这表明在狗中保存的人类外显子和保留内含子数量比在啮齿类动物中更多。

仅就灵长类动物的保护而言,由于本次保护分析中使用的人类序列通过拼接阵列数据进行了验证,因此非原生哺乳动物物种中不保守的外显子和保留的内含子部分从其他模式生物的整体保护背景中脱颖而出,它可能以灵长类生物特有的方式发挥作用。然而,考虑到先验的人类、黑猩猩和恒河猴之间的序列高度保守,以及缺乏非人类灵长类模型生物的序列转录信息,目前还不可能准确地确定通过新的外显子和保留的内含子在人类中检测到的选择性剪接的额外复杂性在多大程度上可能是伪造的或对灵长类动物特异性的。尽管缺乏灵长类特有功能的具体证据,但这项研究强调了相当数量的序列,这些序列编码在已知的基因区域内,并在细胞质中检测到,这可能是灵长类生物特有的。

多个研究小组正在努力确定所有生物体中选择性剪接的水平,这将有助于全面了解这一复杂问题。每种方法都会带来另一种方法可能会遗漏的东西,同样,每种方法也会产生自己的虚假数据。许多工作都集中在确定选择性剪接蛋白编码变体上,我们的方法将这一工作扩展到非蛋白编码转录物,其中包括大多数选择性剪接变体。文献中的最新证据表明,非蛋白编码的选择性剪接转录物可能发挥重要的调节功能,这强化了这一假设。例如,在黑腹果蝇已有研究表明,短内含子和剪接的保守性可用于识别外显子序列保守性低的剪接的、有帽的和聚腺苷化的非编码mRNA样转录物(77). 寻找非保守未标记外显子两侧内含子的保守性是一个相关的方法。然而,生物信息学只能将聚光灯投射到潜在有趣的途径上。证明数据并非虚假的唯一方法是验证个别案例;事实上,我们正与使用我们的数据的团体合作。例如,通过我们的分析在因子VIII中检测到的所有未标记外显子最近都在人类肺内皮细胞中得到了验证,所有这些外显子都是第一个外显子(78).

这种生物信息分析强调了值得关注和验证的潜在途径。我们希望,这项研究与科学界在线获得的数据一起,将有助于更全面地了解选择性剪接,特别是内含子保留的作用和新物种中新外显子的作用。总的来说,这些结果揭示了人类选择性剪接调控的复杂性达到了新的水平。

补充数据

补充数据可从NAR Online获取。

基金

肌肉营养不良协会(MDA3662);欧盟委员会(LSHG-CT-2005-518238,EURASNET);'葡萄牙FCT技术基金会(PTDC/SAU-GMG/69739/2006)。开放获取费用的资金来源:葡萄牙技术基金会(PTDC/SAU-GMG/69739/2006)。

利益冲突声明。未声明。

补充材料

【补充资料】

致谢

我们感谢Juan Valcárcel(西班牙巴塞罗那CRG-Centre de RegulacióGenómica)及其实验室成员Britta Hartmann和Josefin Lundgren,感谢Samuel Aparicio(加拿大不列颠哥伦比亚省温哥华BC癌症机构)和Célia Carvalho(葡萄牙里斯本医学分子研究所)和Nuno Morais(英国剑桥大学肿瘤学系)对数据进行了非常有用的讨论。我们也非常感谢那些提供工具Perl、MySQL、PHP、R和Apache作为开源软件的社区。

作者贡献:I.G.M.设计了研究,开发了ExonMine数据库,分析了数据并撰写了手稿;C.B-D修改了备选拼接数据;D.F-S设计了ExonMine网络界面;A.R.G.设计了ExonMine网络接口工具;ExonMine服务器的P.E.维护;R.A.设计并实现了ExonMine出口功能,并维护了ExonMine服务器和更新;R.S.监督统计分析;T.S.S.监督ExonMine接口的开发;M.C-F.监督研究并修订了手稿。

参考文献

1Benson DA、Karsch-Mizrachi I、Lipman DJ、Ostell J、Wheeler DL。GenBank。核酸研究。2008;36:D25–D30。 [PMC免费文章][公共医学][谷歌学者]
2Matlin AJ、Clark F、Smith CW。理解选择性剪接:走向细胞代码。自然反相摩尔电池。生物。2005;6:386–398.[公共医学][谷歌学者]
三。Blencowe BJ。替代拼接:来自全球分析的新见解。单元格。2006;126:37–47.[公共医学][谷歌学者]
4Wang GS,Cooper TA。疾病中的拼接:拼接代码和解码机器的中断。Nat.Rev.基因。2007;8:749–761.[公共医学][谷歌学者]
5Modrek B,Lee C.选择性剪接的基因组观点。自然遗传学。2002;30:13–19.[公共医学][谷歌学者]
6Johnson JM、Castle J、Garrett Engele P、Kan Z、Loerch PM、Armour CD、Santos R、Schadt EE、Stoughton R、Shoemaker DD。用外显子连接微阵列对人类选择性前信使核糖核酸剪接的全基因组调查。科学。2003;302:2141–2144.[公共医学][谷歌学者]
7.Kampa D、Cheng J、Kapranov P、Yamanaka M、Brubaker S、Cawley S、Drenkow J、Piccolboni A、Bekiranov S、Helt G等。通过对人类21和22号染色体转录组的深入分析鉴定的新RNA。基因组研究。2004;14:331–342. [PMC免费文章][公共医学][谷歌学者]
8Wang ET、Sandberg R、Luo S、Khrebtukova I、Zhang L、Mayr C、Kingsmore SF、Schroth GP、Burge CB。人类组织转录体中的替代亚型调控。自然。2008;456:470–476. [PMC免费文章][公共医学][谷歌学者]
9Sultan M、Schulz MH、Richard H、Magen A、Klingenhoff A、Scherf M、Seifert M、Borodina T、Soldatov A、Parkhomchuk D等。通过人类转录组的深度测序对基因活性和选择性剪接的全球观点。科学。2008;321:956–960.[公共医学][谷歌学者]
10Pan Q,Shai O,Lee LJ,Frey BJ,Blencowe BJ。通过高通量测序深入研究人类转录组中的选择性剪接复杂性。自然遗传学。2008;40:1413–1415.[公共医学][谷歌学者]
11Lewis BP,Green RE,Brenner SE。替代剪接和无义介导的mRNA衰变在人类中广泛耦合的证据。程序。国家科学院。科学。美国。2003;100:189–192. [PMC免费文章][公共医学][谷歌学者]
12休斯助教。通过替代的非翻译区域调节基因表达。趋势Genet。2006;22:119–122.[公共医学][谷歌学者]
13.Lareau LF,Brooks AN,Soergel DA,Meng Q,Brenner SE。选择性剪接与非传感介导mRNA衰变的耦合。高级实验医学生物。2007;623:190–211.[公共医学][谷歌学者]
14Grellscheid SN,Smith CW公司。一个明显的假埃克森既可以作为导致非感觉介导衰变的替代外显子,也可以作为零长外显子。分子细胞。生物。2006;26:2237–2246. [PMC免费文章][公共医学][谷歌学者]
15Mollet I,Barbosa-Morais NL,Andrade J,Carmo-Fonseca M.人类U2AF剪接因子的多样性。FEBS J公司。2006;273:4807–4816.[公共医学][谷歌学者]
16肯特·WJ。BLAT–类似BLAST的对齐工具。基因组研究。2002;12:656–664. [PMC免费文章][公共医学][谷歌学者]
17Pruitt KD、Tatusova T、Maglott DR.NCBI参考序列(RefSeq):基因组、转录物和蛋白质的精选非冗余序列数据库。核酸研究。2007;35:D61–D65。 [PMC免费文章][公共医学][谷歌学者]
18Karolchik D、Kuhn RM、Baertsch R、Barber GP、Clawson H、Diekhans M、Giardine B、Harte RA、Hinrichs AS、Hsu F等。UCSC基因组浏览器数据库:2008年更新。核酸研究。2008;36:D773–D779。 [PMC免费文章][公共医学][谷歌学者]
19Karolchik D、Hinrichs AS、Furey TS、Roskin KM、Sugnet CW、Haussler D、Kent WJ。UCSC表浏览器数据检索工具。核酸研究。2004;32:D493–D496。 [PMC免费文章][公共医学][谷歌学者]
20国际人类基因组测序协会。人类基因组的初步测序和分析。自然。2001;409:860–921.[公共医学][谷歌学者]
21Church DM、Goodstadt L、Hillier LW、Zody MC、Goldstein S、She X、Bult CJ、Agarwala R、Cherry JL、DiCuccio M等。小鼠基因组组装完成后揭示的特定于家系的生物学。《公共科学图书馆·生物》。2009;7:e1000112。 [PMC免费文章][公共医学][谷歌学者]
22Maglott D、Ostell J、Pruitt KD、Tatusova T.Entrez基因:NCBI以基因为中心的信息。核酸研究。2007;35:D26–D31。 [PMC免费文章][公共医学][谷歌学者]
23Beaudoi E,Freier S,Wyatt JR,Claverie JM,Gautheret D.人类基因中变异多聚腺苷酸化信号的使用模式。基因组研究。2000;10:1001–1010. [PMC免费文章][公共医学][谷歌学者]
24.Yamashita R、Wakaguri H、Sugano S、Suzuki Y、Nakai K。DBTSS提供转录起始位点的组织特定动态视图。核酸研究。2010;38:D98–D104。 [PMC免费文章][公共医学][谷歌学者]
25.Kapranov P、Cheng J、Dike S、Nix DA、Duttagupta R、Willingham AT、Stadler PF、Hertel J、Hackermuler J、Hofacker IL等。RNA图谱揭示了新的RNA类别和普适转录的可能功能。科学。2007;316:1484–1488.[公共医学][谷歌学者]
26Jurka J、Kapitonov VV、Pavlicek A、Klonowski P、Kohany O、Walichewicz J.Repbase Update,真核生物重复元素数据库。细胞遗传学。基因组研究。2005;110:462–467.[公共医学][谷歌学者]
27Zhang Z,Scott Schwartz S,Wagner L,Webb Miller W。DNA序列比对的贪婪算法。J.计算。生物。2000;7:203–214.[公共医学][谷歌学者]
28Gazave E、Marqués-Bonet T、Fernando O、Charlesworth B、Navarro A.人类和黑猩猩内含子差异的模式和比率。基因组生物学。2007;8:R21。 [PMC免费文章][公共医学][谷歌学者]
29Griffiths-Jones S、Grocock RJ、van Dongen S、Bateman A、Enright AJ。miRBase:microRNA序列、靶点和基因命名。核酸研究。2006;334:D140–D144。 [PMC免费文章][公共医学][谷歌学者]
30Lestrade L,Weber MJ。snoRNA-LBME-db,人类H/ACA和C/D盒snoRNAs的综合数据库。核酸研究。2006;34:D158–D162。 [PMC免费文章][公共医学][谷歌学者]
31Ma B,Tromp J,Li M.PatternHunter:更快更敏感的同源搜索。生物信息学。2002;18:440–445.[公共医学][谷歌学者]
32de la Grange P,Dutertre M,Correa M,Auboeuf D。选择性剪接数据库的新进展:从目录到人类选择性剪接变体表达和功能调控的详细分析。BMC生物信息学。2007;8:180. [PMC免费文章][公共医学][谷歌学者]
33Kim N,Alekseyenko AV,Roy M,Lee C.ASAP II数据库:15种动物物种选择性剪接的分析和比较基因组学。核酸研究。2007;35:D93–D98。 [PMC免费文章][公共医学][谷歌学者]
34Birney E、Andrews D、Caccamo M、Chen Y、Clarke L、Coates G、Cox T、Cunningham F、Curwen V、Cutts T等,2006年合奏。核酸研究。2006;34:D556–D561。 [PMC免费文章][公共医学][谷歌学者]
35Kim E,Magen A,Ast G.真核生物间不同水平的选择性剪接。核酸研究。2007;35:125–131. [PMC免费文章][公共医学][谷歌学者]
36Lev-Maor G,Ram O,Kim E,Sela N,Goren A,Levanon EY,Ast G.内含子Alus影响选择性剪接。公共科学图书馆-遗传学。2008;4:e1000204。 [PMC免费文章][公共医学][谷歌学者]
37Ram O,Schwartz S,Ast G.多因素相互作用控制Alu衍生外显子的剪接图谱。分子细胞。生物。2008;28:3513–3525. [PMC免费文章][公共医学][谷歌学者]
38El-Sawy M,Deininger P.铝元素的串联插入。细胞遗传学。基因组研究。2005;108:58–62.[公共医学][谷歌学者]
39Crooks GE,Hon G,Chandonia JM,Brenner SE。WebLogo:序列徽标生成器。基因组研究。2004;14:1188–1190. [PMC免费文章][公共医学][谷歌学者]
40Pacheco TR、Coelho MB、Desterro JM、Mollet I、Carmo-Fonseca M。识别弱3′剪接位点对U2AF小亚基的体内需求。分子细胞。生物。2006;26:8183–8190. [PMC免费文章][公共医学][谷歌学者]
41黑猩猩测序和分析协会。黑猩猩基因组的初始序列以及与人类基因组的比较。自然。2005;437:69–87.[公共医学][谷歌学者]
42.恒河猴基因组测序和分析协会。恒河猴基因组的进化和生物医学见解。科学。2007;316:222–234.[公共医学][谷歌学者]
43Xing Y,Lee C.选择性剪接和RNA选择压力——真核生物基因组的进化后果。Nat.Rev.基因。2006;7:499–509.[公共医学][谷歌学者]
44Brett D、Pospisil H、Valcarcel J、Reich J、Bork P。选择性剪接和基因组复杂性。自然遗传学。2002;30:29–30.[公共医学][谷歌学者]
45Harrington ED,Boue S,Valcarcel J,Reich JG,Bork P.哺乳动物和无脊椎动物选择性剪接率的估算。自然遗传学。2004;36:916–917.作者回复。[公共医学][谷歌学者]
46Kim H,Klein R,Majewski J,Ott J.哺乳动物和无脊椎动物选择性剪接率的估算。自然遗传学。2004;36:915–916.[公共医学][谷歌学者]
47Takeda J、Suzuki Y、Sakate R、Sato Y、Seki M、Irie T、Takeuchi N、Ueda T、Nakao M、Sugano S等。人类和小鼠选择性剪接的低保守性和物种特异性进化:使用注释良好的全长cDNA进行比较基因组学分析。核酸研究。2008;36:6386–6395. [PMC免费文章][公共医学][谷歌学者]
48Bainbridge MN、Warren RL、Hirst M、Romanuik T、Zeng T、Go A、Delaney A、Griffith M、Hickenbotham M、Magrini V等。采用顺序合成方法分析前列腺癌细胞系LNCaP转录组。BMC基因组学。2006;7:246. [PMC免费文章][公共医学][谷歌学者]
49Mortazavi A、Williams BA、McCue K、Schaeffer L、Wold B.通过RNA-Seq对哺乳动物转录体进行定位和量化。自然方法。2008;5:621–628.[公共医学][谷歌学者]
50Cloonan N、Forrest AR、Kolle G、Gardiner BB、Faulkner GJ、Brown MK、Taylor DF、Steptoe AL、Wani S、Bethel G等。通过大规模mRNA测序进行干细胞转录组分析。自然方法。2008;5:613–619.[公共医学][谷歌学者]
51Carninci P、Sandelin A、Lenhard B、Katayama S、Shimokawa K、Ponjavic J、Semple CA、Taylor MS、Engström PG、Frith MC等。哺乳动物启动子结构和进化的全基因组分析。自然遗传学。2006;38:626–635.[公共医学][谷歌学者]
52Sandelin A,Carninci P,Lenhard B,Ponjavic J,Hayashizaki Y,Hume DA。哺乳动物RNA聚合酶II核心启动子:全基因组研究的见解。Nat.Rev.基因。2007;8:424–436.[公共医学][谷歌学者]
53Listerman I、Bledau AS、Grishina I、Neugebauer KM。RNA聚合酶II的外源性积累通过RNA聚合物III增强转录。公共科学图书馆-遗传学。2007;:e212。 [PMC免费文章][公共医学][谷歌学者]
54Smith AD,Sumazin P,Das D,Zhang MQ。挖掘ChIP-ChIP数据中的转录因子和辅因子结合位点。生物信息学。2005;21(补充1):i403–i412。[公共医学][谷歌学者]
55Ji H、Jiang H、Ma W、Johnson DS、Myers RM、Wong WH。用于分析ChIP-ChIP和ChIP-seq数据的集成软件系统。自然生物技术。2008;26:1293–1300. [PMC免费文章][公共医学][谷歌学者]
56Forrest ST、Barringhaus KG、Perlegas D、Hammarskjold ML、McNamara CA。内含子保留产生一种新的抑制血管损伤形成的Id3亚型。生物学杂志。化学。2004;279:32897–32903.[公共医学][谷歌学者]
57Lejeune F,Cavaloc Y,Stevenin J.丝氨酸/精氨酸富集蛋白9G8基因内含子3的选择性剪接。侧翼外显子剪接增强子的鉴定和9G8作为反作用因子的参与。生物学杂志。化学。2001;276:7850–7858.[公共医学][谷歌学者]
58Mansilla A、López-Sánchez C、de la Rosa EJ、GarcíA-Martínez V、Martinez-Salas E、de Pablo F、Hernández-Sínchez-C。内含子保留产生的胰岛素原信使RNA的发育调控。EMBO代表。2005;6:1182–1187. [PMC免费文章][公共医学][谷歌学者]
59Zhong X,Liu JR,Kyle JW,Hanck DA,Agnew WS。特发性全身性癫痫候选人类T通道基因CACNA1H的选择性RNA剪接和转录变异图谱。嗯,分子遗传学。2006;15:1497–1512.[公共医学][谷歌学者]
60Bell TJ、Miyashiro KY、Sul JY、McCullough R、Buckley PT、Jochems J、Meaney DF、Haydon P、Cantor C、Parsons TD等。含有细胞质BK(Ca)通道内含子的mRNA有助于海马神经元的内在兴奋性。程序。国家科学院。科学。美国。2008;105:1901–1906. [PMC免费文章][公共医学][谷歌学者]
61Chen Z,Gore BB,Long H,Ma L,Tessier-Lavigne M。Robo3轴突导向受体的选择性剪接控制从吸引到排斥的中线转换。神经元。2008;58:325–332.[公共医学][谷歌学者]
62Kan Z,状态D,Gish W.选择EST中的功能性替代拼接。基因组研究。2002;12:1837–1845. [PMC免费文章][公共医学][谷歌学者]
63Carninci P、Kasukawa T、Katayama S、Gough J、Frith MC、Maeda N、Oyama R、Ravasi T、Lenhard B、Wells C等。哺乳动物基因组的转录图谱。科学。2005;309:1559–1563.[公共医学][谷歌学者]
64Galante PA,Sakabe NJ,Kirschbaum-Slager N,de Souza SJ。人类转录组内含子保留事件的检测和评估。RNA。2004;10:757–765. [PMC免费文章][公共医学][谷歌学者]
65库伦BR。核mRNA输出:病毒学见解。趋势。生物化学。科学。2003;28:419–424.[公共医学][谷歌学者]
66Li Y,Bor YC,Misawa Y,Xue Y,Rekosh D,Hammarskjöld ML。含有组成运输元件的内含子保留在Tap信使RNA中。自然。2006;443:234–237.[公共医学][谷歌学者]
67Bor YC、Swartz J、Morrison A、Rekosh D、Ladomery M、Hammarskjöld ML。Wilms的肿瘤1(WT1)基因(+KTS亚型)具有CTE功能,以增强带有保留内含子的未切割RNA的翻译。基因发育。2006;20:1597–1608. [PMC免费文章][公共医学][谷歌学者]
68Wang Z、Xiao X、Van Nostrand E、Burge CB。外显子剪接沉默子在剪接控制中的一般和特殊功能。分子细胞。2006;23:61–70. [PMC免费文章][公共医学][谷歌学者]
69Marcucci R,Baralle FE,Romano M.通过内含子G运行对人类血小板生成素基因的复杂剪接控制。核酸研究。2007;35:132–142. [PMC免费文章][公共医学][谷歌学者]
70Schwartz SH,Silva J,Burstein D,Pupko T,Eyras E,Ast G.真核生物剪接信号及其相应剪接因子的大规模比较分析。基因组研究。2008;18:88–103. [PMC免费文章][公共医学][谷歌学者]
71Ner-Gaon H,Leviatan N,Rubin E,Fluhr R.植物中的比较跨物种选择性剪接。植物生理学。2007;144:1632–1641. [PMC免费文章][公共医学][谷歌学者]
72Iida K、Seki M、Sakurai T、Satou M、Akiyama K、Toyoda T、Konagaya A、Shinozaki K。基于全长cDNA序列的拟南芥前体mRNA选择性剪接的全基因组分析。核酸研究。2004;32:5096–5103. [PMC免费文章][公共医学][谷歌学者]
73Ner-Gaon H、Halachmi R、Savaldi-Goldstein S、Rubin E、Ophir R、Fluhr R.内含子保留是拟南芥选择性剪接中的主要现象。工厂J。2004;39:877–885.[公共医学][谷歌学者]
74Wang BB,Brendel V.植物选择性剪接的全基因组比较分析。程序。国家科学院。科学。美国。2006;103:7175–7180. [PMC免费文章][公共医学][谷歌学者]
75Murphy WJ、Eizirik E、Johnson WE、Zhang YP、Ryder OA、O'Brien SJ。胎盘哺乳动物的分子系统发育和起源。自然。2001;409:614–618.[公共医学][谷歌学者]
76Cannarozzi G,Schneider A,Gonnet G。人类、狗和小鼠的系统发育研究。公共科学图书馆计算。生物。2007;:e2。 [PMC免费文章][公共医学][谷歌学者]
77Hiller M、Findeiss S、Lein S、Marz M、Nickel C、Rose D、Schulz C、Backofen R、Prohaska SJ、Reuter G等。保守内含子揭示了果蝇体内的新转录物。基因组研究。2009;19:1289–1300. [PMC免费文章][公共医学][谷歌学者]
78Shovlin CL、Angus G、Manning RA、Okoli GN、Govani FS、Elderfield K、Birdsey GM、Laffan MA、Mollet IG、Mauri FA。内皮细胞处理和因子VIII的选择性剪接转录物。凝血级联反应和肺动脉高压的潜在影响。《公共科学图书馆·综合》。2010;5:e9154。 [PMC免费文章][公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社