跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
BMC进化生物学。2019; 19: 162.
2019年8月2日在线发布。 数字对象标识:10.1186/s12862-019-1488-y
预防性维修识别码:项目经理C6679479
PMID:31375061

二倍体和副鼻翼谱系中剪接体内含子结构的保存模式和剪接体分化

关联数据

补充资料
数据可用性声明

摘要

背景

两种剪接体内含子类型共存于真核前体mRNA中,并被不同的U2依赖和U12依赖剪接体切除。在双单子里蓝氏贾第鞭毛虫,小核(sn)RNA显示U2和U12依赖的剪接体snRNA的杂交特征,11个已鉴定的剩余剪接体内含子中有5个是反式-拼接。不寻常的内含子和剪接体特征在其他双单体中是否保守尚不清楚。

结果

我们已经从另外两个双单体中鉴定了剪接体内含子、snRNAs和蛋白质,目前可以获得它们的基因组信息,螺旋核漩涡沙门氏螺核菌,以及亲属,包括6名已核实顺式-剪接体内含子S.旋涡.内含子剪接信号在螺旋核物种和蓝氏革兰菌。类似于“long”蓝氏革兰菌内含子,RNA二级结构潜能对于“long”(>50 nt)很明显螺旋核内含子以及在抛物糖脂中识别的内含子阴道毛滴虫据预测,这些内含子内的碱基配对会将剪接连接之间的空间距离限制在这些生物体中较短且大小一致的内含子中所看到的类似距离。我们发现还有几个螺旋核剪接体内含子是古老的。我们从S.旋涡中的U2和U5 snRNAs沙门氏链球菌; 累计显示了一些双单体中的显著snRNA差异。最后,我们研究了剪接体蛋白补体,并在贾第虫属,螺旋核三波藻属PC1在整个分支中高度还原但保守,174个研究的剪接体蛋白中有44到62个可检测。与远亲的比较显示出一种高度嵌套的模式,内含子更丰富的私通比亚拉塔Kipferlia bialata保留了87个总蛋白,包括在双单胞菌和单胞菌中观察到的几乎所有蛋白单孢类保留115种总蛋白,包括在K.比亚拉塔.

结论

对双单体代表和其他密切相关的单体类群物种的比较表明,内含子结构保守性和剪接体蛋白质组成的模式相似,但基因组诱导物种的snRNA结构存在显著差异。与其他真核生物相比,进化上保守的snRNA结构域和常见的剪接体蛋白质组的丢失表明剪接机制更加简化,其中内含子序列和结构可能在功能上补偿剪接体成分的最小化.

电子辅助材料

本文的在线版本(10.1186/s12862-019-1488-y)包含补充材料,可供授权用户使用。

关键词:剪接体内含子,小核RNA,剪接体蛋白,内含子进化,古代内含子,双殖吸虫,螺旋核,核糖体蛋白

背景

真核基因组包含剪接体内含子,这些内含子将蛋白质编码序列划分为单独的外显子。在前体mRNA剪接过程中,在mRNA转运到细胞质进行蛋白质翻译之前,外显子必须连接在一起。剪接体内含子在几乎所有真核生物中都已被鉴定,然而,内含子密度在物种间存在显著差异。一些缺乏内含子的物种每个基因组只有几个内含子[1,2]而一些内含子丰富的物种平均每千个基因序列有几个内含子[]. 内含子长度也可能与纤毛虫中短至15 nt的内含子有很大不同天蓝喇叭虫[4]哺乳动物基因内含子的大小可以达到几十千碱基[]. 之前的一些研究也揭示了剪接体机制本身的系统发育多样性,但对剪接体进化的了解不如对内含子进化的了解。

迄今为止,真核生物中已鉴定出两类不同的剪接体内含子:主/U2型和次/U12型剪接体插入子。U2型内含子已在几乎所有全序列核基因组中被鉴定,而只有一部分真核生物被发现含有U12型内含子[5,6]. 然而,U12型内含子在进化方向真核生物中的分布揭示了U12型插入子的古老起源,并表明它们很可能存在于最后一个真核生物共同祖先中[5,6].

由五种进化上保守的小核RNA(snRNAs)U1、U2、U4、U5和U6以及几十到几百个剪接体蛋白组成的主要/U2依赖剪接体催化U2型内含子的去除[7]. U12型内含子由一个独特的小/U12型剪接体切除,该剪接体包含共享的U2依赖和独特的U12依赖剪接体蛋白、常见的U5 snRNA和唯一的U11、U12、U4atac和U6atac snRNA,这些snRNA在功能上分别与U1、U2、U4和U6 snRNA相似[8]. U2-或U12-型剪接体内含子通过独特的5′和3′剪接位点(SS)和内部分支点(BP)序列基序来区分,这些序列基序部分通过特定RNA-RNA碱基配对与U2-或U12-依赖剪接体snRNAs的相互作用来识别[9].

这些核心非编码snRNAs由多达数百个相关蛋白连接,形成高度动态、百万道尔顿大小的剪接体。剪接体通常高度保守,组分和亚复合物在分歧较大的真核生物中共享[7,10]. 例如,在研究充分的生物体中智人,拟南芥、和酿酒酵母它们都包含一般保守的核心成分和子复合体。以前的研究已经探索了内含子数目高的真核生物中的剪接体,有趣的是,也发现了相应减少的剪接体量。例如,最近一项关于C.梅罗莱在大于100的普通真核核心中仅发现约40个剪接体蛋白,并揭示了整个U1-snRNP亚复合物的完全丢失[11,12]. 先前的结果表明其他血统也发生了类似的转变[1113]. 这种对应关系甚至可能存在于模式生物之间:酿酒酵母其中只有约5%的基因包含内含子,在研究充分的模型中,也有最少的保守剪接体成分[13].

虽然一些剪接体内含子只在紧密相关的分类群中被定位保存,但许多内含子在很长的进化距离内被保存。例如,约25%的内含子拟南芥在人类的同源基因中占据相同的位置[14]在内含子减少的原生物种中,一些内含子在远相关、富含内含子的物种中表现出保守性[15,16]. 例如印尼盾7a基因内含子蓝氏贾第鞭毛虫(同步肠杆菌)也存在于动物和一些变形虫的同源基因中[16]. 根据99种不同真核生物内含子增益和丢失模式重建祖先真核内含子密度表明,最后一个真核共同祖先(LECA)富含内含子[17]并且已经被赋予了复杂的剪接体装置[13]. 鉴定在不同真核生物中具有保守功能的古代剪接体内含子,将表明内含子具有非常早期的有益功能。

双殖吸虫是一类真核生物,其特征物种包含高度减少的核基因组和明显较少的剪接体内含子[1,18]. 在二倍体中首次鉴定出具有特征的剪接体内含子是在蓝氏革兰菌这些内含子包含延伸的高度保守的5′剪接位点序列,其中BP融合到3′SS序列中,并且大量内含子剪接在反式来自两个或多个前体mRNA[16,1921].阴道毛滴虫是一种抛物体(双单胞菌姐妹群),与具有相同的一般剪接体内含子结构和剪接位点序列基序蓝氏革兰菌[15]因此,我们可以预先预测,其他双单体将共享这些保守的内含子特征。

在这项研究中,我们使用生物信息学来鉴定额外的双单倍体物种的剪接体机制和内含子。我们首先在螺旋核漩涡通过专门检测核糖体蛋白(RP)基因,我们可以设计搜索参数来识别该生物体中的其他内含子。然后我们使用5′RACE实验来检测预测内含子的去除。内含子剪接一致序列螺旋核然后,内含子通过以下分析为U2和U5 snRNAs的生物信息学预测提供信息S.旋涡沙门氏链球菌基因组序列。我们发现,在所检测的双单体和抛物面体中,内含子结构特性具有显著的保守性,并且观察到许多剪接体内含子在螺旋核是在RP基因中发现的保守的古老内含子。我们还搜索了蓝氏杆菌、沙门氏杆菌、,三波藻属sp.PC1以及相关的淫羊藿和氧化单胞菌原生动物,提供了对这些高度还原生物体中剪接机制的描述,以及对剪接体还原动力学的见解。

结果

RP和非RP基因的剪接体内含子S.旋涡

在双单子中仅鉴定出11个剪接体内含子蓝氏贾第鞭毛虫[1,16,1923],揭示了剪接体内含子的显著缺乏,以及相应的大量反式-该生物体中的拼接内含子。尽管如此,人们对二倍体属成员的剪接体内含子结构知之甚少螺旋体最近,对沙门氏链球菌发现三个实验证实的顺式-剪接体内含子[18]. 为了进一步扩大我们对二倍体剪接体内含子结构的了解,我们从螺旋核漩涡剪接体内含子。最初我们的搜索策略使用了保守的蓝氏革兰菌5′剪接位点(SS)序列“VTATGTT”和融合分支点(BP)以及3′SS序列“VCTRACACRCAG”(“R”是嘌呤;“V”是a、C或G核苷酸)[20],但这些搜索没有发现S.旋涡因此,我们推断内含子剪接位点序列在S.旋涡与相比蓝氏革兰菌阴道毛滴虫内含子。

核糖体蛋白(RP)基因是真核生物基因组中易于识别的高度保守的蛋白质编码序列。值得注意的是,一些缺乏内含子的真核生物(例如。酿酒酵母和微孢子虫楔状脑囊炎(PMID:20360213)在RP基因中包含大量剪接体内含子[24,25]和少数几个顺式-拼接内含子蓝氏革兰菌中断印尼盾7a基因[16]. 因此,我们确定RP基因中的蛋白质编码连续性是否被一个或多个剪接体内含子中断S.旋涡.RP基因之前在S.旋涡,所以我们最初使用来自酿酒酵母[26]作为对TBLASTN搜索的查询S.旋涡原始基因组序列数据。这些搜索确定了70个预测的RP基因序列S.旋涡(未显示数据)。接下来S.旋涡RP基因序列分别与相应的表达序列标签(EST)数据进行比对,以确定它们是否包含成熟mRNA中不存在的干预序列。该分析确定了中断RP基因保守区的单个剪接体内含子印尼盾7a,30卢比,卢比4,12卢比24卢比(图1a和其他文件2). 在每种情况下,内含子序列都包含一个帧内终止密码子和/或引入一个帧移位(在下游编码区),这将导致核糖体蛋白被截断(附加文件). 除了12卢比,我们能够进一步确认每个RP基因的内含子移除,并使用5′RACE绘制其5′mRNA末端(图2a) ●●●●。在分析过程中,我们还观察到RP基因序列变异似乎是等位变异(S.旋涡是四倍体),基于核苷酸序列的高度相似性(附加文件4)和相同的染色体背景。等位基因变体印尼盾7a,卢比412卢比基因包含内含子序列差异,因此包含在随后的内含子分析中(图1a和附加文件4).

保存图片、插图等的外部文件。对象名为12862_2019_1488_Fig1_HTML.jpg

Cis-s公司上体内含子S.旋涡. (,b条)5′RACE和/或EST确认(RP和类FolC基因)和预测的(假设基因)剪接体内含子序列S.旋涡使用ClustalW2软件对基因组序列进行比对(参见附加文件2基因序列和EST登录号)。每个内含子两侧的5 nt外显子序列用大写,斜线表示外显子-内显子边界,mRNA起始的“ATG”密码子用粗体表示。预测的内含子5′和3′剪接位点(SS)和分支点(BP)序列以灰色突出显示,假定的反应性分支点腺苷以粗体和下划线突出显示。一个保守的富含嘧啶基序('AAC[T/C]3-4分支点序列上游发现的R’)带有下划线。所有排列的内含子之间共享的核苷酸同一性由排列下的星号表示。b条已确定的共识序列S.旋涡剪接体内含子与相关双单体的内含子进行比较沙门氏螺核菌[18],蓝氏贾第鞭毛虫[20]和对羟基苯甲酸酯阴道毛滴虫[15]. R表示嘌呤,Y表示嘧啶,W表示a/T,V表示a/C/G,H表示a/C/T。c(c)二级结构潜力S.旋涡长的顺式-内含子与预测的内部茎环(见图对于30卢比). 对预测的5′/3′SS和BP基序进行了强调。剪接供体和受体位点之间的“单链”距离长度以内含子序列上方的核苷酸(nt)表示

保存图片、插图等的外部文件。对象名为12862_2019_1488_Fig2_HTML.jpg

通过5′RACE确认核糖体蛋白mRNA内含子的去除,并通过RT-PCR验证U2 snRNA的表达。预测内含子核糖体蛋白(RP)基因或b条)候选基因表达的RT-PCR检测S.旋涡U2 snRNA。产物已在3%琼脂糖凝胶上溶解。箭头表示cDNA产物的预期大小的带,表示内含子去除。在反应过程中包含逆转录酶(+)或其缺失(−)在每个通道上方指示。标记为M的通道包含一个分子量DNA大小阶梯,带大小以碱基对表示。c(c)根据预测的或EST确认的5′末端去除内含子后RP mRNA的cDNA产物的预期大小,以及靶向U2 snRNA片段的RT-PCR产物的预期尺寸表

我们对基因内含子的非序列偏见鉴定S.旋涡RP基因在5′SS处显示一个一致序列“GTAAGTY”,一个分支点与3′SS序列“RCTA”融合CAARHTAG’(预测的BP‘A’下划线,‘R’为嘌呤,‘Y’为嘧啶,‘H’为A、C或T)(图1). 利用这些已确定的保守内含子序列特征,我们接下来通过序列模式匹配程序“Scan for Matches”搜索基因组序列中的其他内含子[27]. 该搜索策略发现了一个额外的经EST验证的内含子,该内含子中断了“双功能叶酸多谷氨酸合成酶样”(类FolC)该基因和三个额外的假定内含子分别中断了三个功能未知的不同预测蛋白编码基因(图1a和附加文件2). 虽然内含子插入位点可能位于蛋白质编码序列之外,但应注意S.旋涡在其遗传密码中只使用一个终止密码子[28]增加了蛋白质编码基因预测不准确的可能性。在缺乏EST和RT-PCR数据来确认基因表达的情况下,由于其他特征物种缺乏开放阅读框(ORF)保护,这三个额外的推定内含子需要进一步的实验验证。

这个S.旋涡剪接体内含子总体较短,大小相对均匀,范围从40到67个核苷酸,主要位于ORF的5′端附近。这个卢比4内含子位于“ATG”起始密码子的正下游,即所谓的“起始密码子内含子”,该位置通常在其他真核生物的RP基因序列中观察到[29]. 我们还注意到,大多数沃尔滕斯猪笼草内含子是0期内含子(6个已确认内含子中的5个)。

这个S.旋涡内含子序列显示了内含子剪接位点的扩展序列保守性。除了标准的“GT-AG”边界外,内含子还显示出7 nt保守的5′SS和13 nt融合的BP+3′SS序列,类似于蓝氏革兰菌以及沙门氏链球菌(图1b) ●●●●。有趣的是,我们还注意到沃尔滕斯猪笼草内含子在5′SS和BP+3′SS之间的内部区域显示出明显的序列相似性。例如,在优化对齐印尼盾7a30卢比在整个内含子长度上(63个nt位点中的44个),核苷酸的同源性约为70%;在比较中排除5′SS和BP+3′SS序列元素时,核苷酸的相似性约为63%(43个位点中的27个)(图1a) ●●●●。此外,5个RP基因内含子中的3个和假定蛋白编码基因中的2个内含子包含从内含子位置+8开始的序列“TAAA”,这将这些内含子的5′SS共识扩展到“GTARGTYTAAA”。同样明显的是,在内含子分支点序列的上游直接有一个重复出现的嘧啶管束序列基序,具有一致序列“AAC[T/C]3-4R’(图1a、 下划线)。这个类FolC基因内含子在其5′SS序列的下游含有该模体的额外拷贝(图1a) ●●●●。值得注意的是,这三人证实了沙门氏链球菌内含子[18]同时显示“AAC[T/C]3-4R'基序序列和类似的a-T扩展的5′剪接位点基序“GTATGTTTAAC”

中的一个5′UTR内含子S.旋涡Rps15基因

基于内含子序列的保守性,我们还鉴定了一个类似内含子的序列,该序列位于15卢比使用新识别的印尼盾7a插入作为查询。该序列是一个似是而非的内含子候选序列,因为存在一个规范和扩展的5′SS序列“GTAAGTCTAAA”、BP和嘧啶-收缩(下划线)基序序列“AACTTTGCTAACAA”(图1a) ,如卢比7a内含子(图1a和c)。然而,与其他人不同沃尔滕斯猪笼草内含子,候选人15卢比内含子的3′SS序列基序“CTAG”未与BP序列融合,而是下游移位15 nt。BP“A”和3′SS之间的距离是所有已鉴定的序列的高度保守属性蓝氏革兰菌内含子[16,20]. 中的实验阴道毛滴虫在体内实验中,BP基序('ACTAAC')被移到其保守位置上游2或7 nt处,从而消除了剪接[15]这表明在这些生物体的剪接反应机制中需要这些内含子元件的精确间隔。基于此,可以初步预测15卢比类内含子元件可以阻止该区域的剪接。

对该插入序列进行更仔细的检查,发现一个反向重复,可以形成一个包含5个连续碱基对的RNA干环元件(图中斜体序列)1a和c)。这将使BP和3′SS-like序列在空间上更接近,并表明干环元件在其剪接中发挥功能作用的另一种可能性15卢比内含子。要确定15卢比去除成熟mRNA中的UTR内含子,进行5′RACE。值得注意的是,我们观察到单个5′RACE产品的尺寸与拼接产品的尺寸一致15卢比mRNA缺乏5′UTR内含子(图2a) ●●●●。对5′RACE产物进行测序,证实内含子去除发生在预测的5′和3′剪接位点,成熟mRNA的5′末端仅位于5′SS上游12 nt处(附加文件7). 这表明15卢比内含子充分缩短了BP和3′SS之间的距离,以便有效地去除内含子,这与其他已鉴定的内含子一致S.旋涡内含子。虽然看起来不太可能,但也有可能S.旋涡相比之下,在拼接期间BP和3′SS的接近性要求更灵活蓝氏革兰菌阴道毛滴虫剪接机制可以耐受额外插入的核苷酸,而不需要形成干环。

中的全基因组搜索沙门氏菌未显示新的内含子

我们还利用了来自沙门氏链球菌试图鉴定以前未报道的内含子。根据允许标准将RNA-Seq数据映射到基因组,确定了10153个具有典型或非典型剪接边界的候选序列。其中绝大多数可能代表排序工件。特别是,大多数人在cDNA制备过程中表现出逆转录酶的模板转换特征(49.8%的候选基因在边界的5个核苷酸内具有完美的五核苷酸框内匹配,另有22.9%的候选基因具有4/5匹配)。我们进一步手动研究了所有候选基因(i)与观察到的5′一致剪接边界的近匹配(5/6与GTATGT或GTGAGT匹配);(ii)终止于[CT]AG;或(iii)在3′端20个核苷酸内具有候选支点ACT[AG]AC。没有明确的新候选人。

中的基本配对潜力S.旋涡阴道毛滴虫内含子

“long”系列顺式-和反式-拼接内含子蓝氏革兰菌显示出广泛的二级结构潜能,这似乎将剪接供体和受体位点之间的空间距离限制在35–45 nt–与特征短的长度相似顺式蓝藻-拼接的内含子(图b)[20]. 因此,我们检查了S.旋涡类似内部碱基配对潜能的内含子。有趣的是,虽然“短”的长度S.旋涡内含子在40–42 nt处均匀聚集,MFOLD二级结构预测表明卢比15,卢比7a,30卢比卢比4内含子可以形成稳定的干环元件,从而使剪接位点具有相似的空间邻近性(图1c和和3)。). 我们还发现“长”沙门氏链球菌Rpl30内含子[18]能够形成茎环元件,使其剪接供体到剪接受体的空间长度为41nt,与另一个短的剪接供体的总长度相似沙门氏链球菌内含子(43 nt)(附加文件5).

保存图片、插图等的外部文件。对象名为12862_2019_1488_Fig3_HTML.jpg

长距离内的基本配对顺式-双单体和抛物体中的拼接内含子。代表性二级结构预测顺式-剪接体内含子S.旋涡(),蓝氏革兰菌(b条)、和阴道毛滴虫(c(c))显示了假定的5′/3′剪接位点(SS)和分支点(BP)基序下划线。剪接供体和受体位点之间“单链”距离的长度用内含子序列上方的核苷酸(nt)表示

受我们在螺旋核内含子,我们接下来研究了阴道毛滴虫内含子用来评估类似内含子的内部碱基配对电位是否是一种更广泛的现象。我们发现大多数阴道毛滴虫内含子要么均匀短(~25nt),要么更长(>50nt),但能够形成扩展的干环元件,在内含子折叠时,内含子剪接边界的空间长度介于25~44nt之间(中位数为37nt)(图c和附加文件6).

物种的系统发育分布卢比424卢比内含子表明它们是古老的内含子

上次对蓝氏杆菌Rpl7a内含子揭示了内含子在同一位置的保守性印尼盾7a目前公认的五个真核超群中的两个代表性生物体的直系同源基因[16](图4). 这种系统发育保守性印尼盾7a内含子表明该内含子在真核生物进化中的早期创造。聚合酶链反应(PCR)分析巴氏螺旋核基因组DNA表明缺乏印尼盾7a本种内含子[16]. 我们现在发现沃氏螺旋体包含印尼盾7a内含子(图1a和附加文件7)表明最近的损失印尼盾7a一些内含子螺旋核物种。

保存图片、插图等的外部文件。对象名称为12862_2019_1488_Fig4_HTML.jpg

真核生物RP基因内含子的系统发育分布。对来自每个真核生物超群的代表性真核生物进行了内含子插入检测卢比4(蓝色),24卢比(红色)和印尼盾7a(绿色)[16]Burki(2014)将每个内含子的基因和分布映射到真核生物树上[30]. 包含内含子(分子)的物种数量和取样数量(分母)表示每个真核生物群(参见附加文件8用于生物名称)。彩色线表示现存的真核生物群,其中包含预测的最后一个共同祖先的每个内含子,并包含每个相应的RP基因内含子

接下来,我们分析了其他物种的保护模式S.旋涡RP基因内含子。我们检测了80多个真核生物,它们代表了所有五个拟议的真核超群[30]并鉴定出在相同位置和阶段的剪接体内含子卢比424卢比其他一些远缘生物的基因(图5b和c)。对于这两个基因,五个超群中每个超群中至少有一个具有代表性的生物体在与S.旋涡一些生物保留了这两个内含子;这个24卢比内含子显示了更广泛的分布(图4和附加文件8). 内含子几乎总是插入ORF中相同的相对编码位置和相位;然而,我们也发现了一些潜在的“内含子滑动”的证据,其中生物体具有卢比4Rsp24型内含子位于保守内含子插入位置的相邻密码子中(数据未显示)。总的来说,我们的分析表明卢比424卢比内含子可能比印尼盾7a内含子(图4).

保存图片、插图等的外部文件。对象名称为12862_2019_1488_Fig5_HTML.jpg

保护印尼盾7a,卢比424卢比内含子插入位点。代表性真核生物的基因序列印尼盾7a(),卢比4(b条)和24卢比(c(c))剪接体内含子与代表内含子-外显子边界的斜线(/)对齐;内含子序列位于小写,外显子序列位于大写。显示了剪接位点序列之间的核苷酸数量。翻译的氨基酸序列显示在每个密码子的第一个核苷酸和卢比4编码序列下划线。每个蛋白质的氨基酸位置根据智人正交曲线。NCBI登录号()印尼盾7a-S.旋涡[NCBI跟踪档案:ti | 2141515448],蓝氏革兰菌[GenBank:NW_002477099],b条 卢比4-S.旋涡[ti | 2141550682],D.盘状体[NC_00708]中,恶性疟原虫[NC_004315],拟南芥[NC_003071],D.黑腹果蝇[NT_037436]和智人[NC_000023]和(c(c))24卢比S.旋涡[ti | 2141541737],海洋P.marinus[NW_003201404],马铃薯晚疫病[NW_003303749],卡斯特拉尼A.castellanii[NW_004457654],C.莱因哈迪[NW_001843791],拟南芥[NC_003074]和智人【NC_000010】

我们还发现剪接体内含子位于S.旋涡Rpl3012卢比基因的相对位置与人类相同。这些发现于RP氨基酸序列的不太保守的区域,因此更难确定这些是否代表古代内含子插入事件或最近在附近位置获得的独立内含子。

对观察到的卢比424卢比内含子是在这些基因的原剪接位点上发生的大量独立且广泛的内含子增益事件。与两个基因相邻的侧翼外显子部分的核苷酸序列卢比424卢比内含子在远缘相关真核生物中表现出保守性,与这些区域编码的保守的RP氨基酸序列一致。对于24卢比内含子,这些序列不符合原剪接位点共识(A/C)AG/G[31]. 然而,侧翼的外显子序列卢比4内含子是更好的匹配(通常4个nt中有3个)。因为外显子序列编码不变量G公司“起始密码子(带下划线的原剪接位点核苷酸)和保守的丙氨酸(”G公司CN')或甘氨酸('G公司GN’)存在,我们无法反驳卢比4内含子是多个独立的内含子增益事件的结果。因此,我们得出结论:卢比7a24卢比内含子不太可能是由于在原剪接位点获得独立的内含子和24卢比内含子可以用被检类群最后一个共同祖先的单个古代内含子获得事件来解释。

的标识螺旋核剪接体snRNAs

在前mRNA剪接过程中,剪接体部分通过RNA-RNA分子间碱基配对识别内含子底物,该碱基配对涉及U1、U2和U6 snRNAs,内含子5′SS和BP序列[9]. 最初,我们使用蓝氏革兰菌U1、U2、U4和U6 snRNA[32]作为对的查询S.旋涡沙门氏链球菌基因组序列;然而,这些搜索并没有产生任何可信的snRNA候选。共变异模型(CMs)是一种概率模型,它结合了已知RNA家族的一致性RNA序列和二级结构,以在DNA/RNA数据库中搜索可能的RNA物种。此外,CMs已成功用于预测不同真核生物基因组DNA序列中的snRNA-like序列[33]. 因此,我们对所有主要和次要剪接体snRNA-like序列进行了CM搜索螺旋核使用Infinal软件包的DNA序列[34]和使用来自Rfam数据库的U-snRNA序列生成的CMs[35]. 有必要使用从远相关真核生物中选择的snRNA序列生成新的CMs(而不是存储在Rfam中的CMs),以更重地加权最保守的snRNA特征,从而增加在含有高密度snRNA的生物体中识别候选分子的可能性(如之前在蓝氏革兰菌). 这些搜索确定了令人信服的U2 snRNA候选基因S.旋涡沙门氏链球菌(图6); 然而,他们未能成功识别出其他主要或任何次要(U12型)剪接体snRNA的可能候选基因。

保存图片、插图等的外部文件。对象名为12862_2019_1488_Fig6_HTML.jpg

剪接体snRNAs来自S.旋涡沙门氏链球菌.-c(c)预测的二级结构(MFOLD)螺旋核snRNA序列显示了保守序列和结构元素。Sm=Sm蛋白结合位点。b条,c(c)U2 snRNA在螺旋核.BP=支点交互序列。螺旋I和III是预测与U6 snRNA形成分子间碱基对的U2 snRNA区域。包含snRNA序列的基因组连接体的接入数量为: 沙门氏菌U5(GenBank AUWU01000115:5304–5391),b条 S.旋涡U2(ti | 2141663608:84–246)和(c(c))沙门氏链球菌U2(AUWU01000434:68649–68502)

检查S.旋涡沙门氏菌U2 snRNA候选基因揭示了来自其他代表性真核生物的U2 snRNAs的二级结构特征,具有可识别的SLs I、IIa/IIb和III以及预测的Sm蛋白结合位点(图6b和c)。然而,在大多数其他U2 snRNAs中发现的SL IV[8]似乎在两个S.旋涡沙门氏链球菌U2候选人。两者的5′半螺旋核U2候选基因包含分支点相互作用序列,该序列将在碱基配对相互作用时产生预期的隆起内含子催化腺苷(图6b和c)。我们还注意到,保守的U2 snRNA“GCU”和“GAUC”序列参与U2-U6分子间螺旋I的形成[36]两者都是保守的螺旋核U2候选人。此外,虽然S.旋涡U2 snRNA候选基因对沙门氏链球菌U2候选基因(36/45核苷酸同源性),其余下游序列是不同的,但两者都保持形成结构保守的SL IIa/IIb和扩展的SL III的能力S.旋涡U2候选人,我们对S.旋涡使用U2念珠菌特异性引物的总RNA。RT-PCR生产出预期尺寸的单一产品(图2b) 随后的DNA测序证实了U2 snRNA片段的成功扩增(附加文件7).

CM搜索没有发现任何可能的U5 snRNA候选。然而,U5 snRNAs的典型特征是一个长的干环,包含剪接反应期间参与结合外显子的高度保守的环I序列“UGCCUUUUACY”[37]. 因此,我们推断,“匹配扫描”可能更成功地发现U5 snRNA-like序列螺旋体属。通过搜索典型环I序列基序或其变体的实例(允许2个替换),在其两侧有能够形成U5 snRNA结构中预期的6 bp顶端茎Ic的序列,从而获得DNA序列。中的一个图案匹配沙门氏链球菌显示了一个完美的环I序列匹配(UGCCUUUUACU),并且经过更仔细的检查,不仅能够形成茎Ic,还能够形成一个包含内环(IL)1和2的标准扩展SLI,然后是预测的Sm蛋白结合位点(图6a) ●●●●。到目前为止,该策略还没有发现明显的U5 snRNA-like序列S.旋涡(参见讨论).

剪接体蛋白的补体大幅减少螺旋体和亲属

由于对其他内含子密度降低的生物体的观察揭示了剪接体机械的蛋白质组分丢失,我们对三种双单体的蛋白质组进行了生物信息学搜索(沙门氏葡萄球菌,蓝氏葡萄球菌(即蓝氏葡萄杆菌)和相关物种三波藻属以及另外两个远相关的富含内含子的亲戚,比亚拉塔Kipferlia bialata)和氧化单胞菌单孢类sp.PA203。

在我们搜索的174种蛋白质中,发现的蛋白质数量差异很大。如前所述贾第虫属[13],所有三个双单体都表现出剪接体蛋白质组的互补性强烈减少,其中49个为三波藻属sp.PC1,44英寸沙门氏链球菌和62英寸蓝氏革兰菌值得注意的是,这三种蛋白质补体高度重叠:仅在双单体的一个子集中发现了18种蛋白质,大多数差异仅在蓝氏G。这些差异中的一些可以部分地解释为三波藻属使用了转录组组件。有趣的是,内含子丰富的亲属表现出较大的补体(87K.比亚拉塔和115英寸单孢类服务提供商.)(附加文件9).

保留在各种变形单胞菌中的特定蛋白质显示出强烈的嵌套特征——几乎所有保留在一个或多个双胞菌体内的蛋白质都保留在K.比亚拉塔几乎所有的蛋白质都保留在比亚拉塔K.bialata保留在单胞菌属.(图7). 此外,在我们所检测的所有代谢单体中发现的单个蛋白质在我们所有三种参考生物体中发现的可能性要高出两倍。有趣的是,初步snRNA搜索表明,这两种生物体之间的核心剪接体相对于祖先真核生物状态的转化程度存在平行差异——所有五种snRNA的候选基因都是在单胞菌属但没有确定候选人比亚拉塔K.bialata(未显示数据)。

保存图片、插图等的外部文件。对象名为12862_2019_1488_Fig7_HTML.jpg

剪接体蛋白质保留模式的比较。在维恩图中比较剪接体蛋白的保留模式。对于()., 在生物体中发现的蛋白质与X/Y进行比较,其中X=在两个K(K=K.比亚拉塔)和M(M=单胞菌属。PA203),Y=在K或M中发现的蛋白质(b条)., 生物体内的蛋白质(或G/T/S生物体群,其中G=蓝氏革兰菌S=沙门氏链球菌,T=Trepomonas sp。PC1.)与X/Y进行比较,但此处X=在H.sapiens、S.cerevisiae、,拟南芥和Y=在两者的任何组合中发现的蛋白质:Hs公司Sc公司,Hs公司在,Sc公司

Sm和Sm-like蛋白质(LSm)在过去一直很难解析,在这里,对于包含LSm结构域的蛋白质组的确切身份也存在一些歧义[38,39]. 然而,这些Sm/LSm候选基因的数量确实反映了剪接体蛋白总数的总体趋势,并且沙门氏链球菌在我们的搜索中只发现了其中4种蛋白质,而单胞菌属。有10个Sm/LSm候选。值得注意的是,U1相关蛋白在所有研究的超单体中几乎完全不存在,而即使组分数量减少,Tri-snRNP和U5相关蛋白也是最有代表性的组(表1). 有趣的是,在U2 snRNP中观察到最显著的差异,其中蓝氏革兰菌保留了8个U2相关蛋白的核心集沙门氏链球菌缺乏所有U2相关蛋白三波藻属只保留一个。

表1

来自选定亚复合物的剪接体蛋白质计数摘要。本研究通过亚复合物分析剪接体蛋白。选择由生物体和相关蛋白质总数表示的亚复合物。来自的合计H.sapiens、S.cerevisiae、,拟南芥代表3种蛋白质中至少2种之间共享的蛋白质(参见方法)

保存图片、插图等的外部文件。对象名为12862_2019_1488_Tab1_HTML.jpg

讨论

二倍体和抛物体代表中内含子的保守性

中第一个剪接体内含子的鉴定蓝氏革兰菌和抛物面阴道毛滴虫发现了一个意想不到的内含子结构和序列保守性水平,两个物种之间的5′SS和融合的BP+3′SS一致序列接近相同[15,16](图1b) ●●●●。事实上蓝氏革兰菌铁氧还蛋白内含子很容易从一个表达的报告基因结构中剪接阴道毛滴虫(5′SS‘CT’二核苷酸替换为‘GT’后)[15]强调这两种生物内含子结构和剪接机制的相似性。螺旋核内含子显示了融合的BP+3′SS共享特性,它们还显示了剪接位点序列偏好和内含子元件间距相对于蓝氏革兰菌阴道毛滴虫内含子,例如5′和3′SS核苷酸序列的变异,以及在螺旋核内含子(图1b) ●●●●。支点序列和3′SS之间的严格间距是小剪接体(U12型)内含子的一个特征;然而,内含子元素的一致序列螺旋核内含子和在蓝氏革兰菌更接近于U2型内含子。

已识别的蓝氏革兰菌内含子表明,与其他真核生物相比,内含子元件在剪接位点和剪接路径中的分支点“A”的空间定位中可能具有特别重要的意义。这些内含子的性质包括分支点和3′SS之间的不变距离,并且不仅在分支点和SS之间存在广泛的碱基配对势反式-剪接的内含子一半,但也在较大的顺式-拼接的内含子,例如印尼盾7a内含子。我们现在提供了更长时间内内含子结构潜能的证据顺式-拼接内含子螺核属。阴道毛滴虫类似于蓝氏革兰菌,可以将内含子元件之间的空间距离缩短到与这些生物体中较短且大小均匀的剪接体内含子相当的长度。有趣的是,这包括S.旋涡Rps155′UTR内含子似乎形成一个短干环结构,预计将限制5′和3′SS之间的距离以及融合的BP-3′SS构型(图1c) ●●●●。抛物糖脂中广泛内含子-碱基配对势的守恒(阴道毛滴虫)和双单胞菌(蓝氏革兰菌螺核属。)进一步指出了保持内含子元件的特定空间位置以实现高效剪接的共同要求,并表明剪接体内含子的这一特性可能比先前认为的更广泛地在系统发育中传播。它还进一步建议了可能的内含子进化步骤,用于顺式-将插入子拼接到反式-拼接内含子[20]. 一旦内部碱基配对电位在顺式-拼接内含子是两个互补区域(即干环结构的环内)之间的一个自然碎片位置,它将允许新创建的两部分反式-剪接内含子以有效地结合,并且片段化事件是可以容忍的。有趣的是螺旋核到目前为止,与在蓝氏革兰菌内含子(图1c和和3))如果这些内含子在碱基配对长度显著延长之前被片段化,那么它们可能太短,无法进行有效的关联。我们很想知道在顺式-拼接机构螺旋核这就解释了为什么反式-在这些物种中没有检测到剪接内含子[23].

螺旋核snRNAs进一步揭示了双单体剪接体结构的进化

来自中国的U1、U2、U4和U6剪接体snRNA的特征蓝氏革兰菌揭示了它们在进化上的分歧,并具有二级结构和序列模体,具有主要(U2依赖)和次要(U12依赖)剪接体snRNA的特征[12,32]. 鉴于相对紧密的进化关系螺旋核贾第虫属我们最初预计蓝氏革兰菌snRNAs对鉴定螺旋核相对应的人。相反,至少在一些双单体中出现了快速明显的snRNA序列和结构差异,使得沙门氏菌S.旋涡snRNA补体鉴定尤其具有挑战性。这个蓝氏革兰菌snRNAs之前仅通过利用保守的3′端ncRNA加工基序进行鉴定[32],在这些螺旋核物种。

这个螺旋核根据与其他具有代表性的U2和U12 snRNA的一级序列比较,U2 snRNA候选基因似乎是主要的/U2 snRNA-like(附加文件10)但这两个物种在3′部分(约2/3长度)的显著序列差异进一步表明了这些双单体中snRNA的快速进化。这个螺旋核U2 snRNAs似乎缺乏SL IV(图6b和c),相反,它们被预测会形成一个延长的长SL III,这是小U12 snRNAs的一个特征[5,8]. 类似地蓝氏革兰菌U2 snRNA[32]3′半也可以折叠成与单个长SL III类似的构象。然而,我们发现蓝氏革兰菌U2 snRNA[32]也不是螺旋核U2候选基因包含保守的SL III环序列“CUACUUU”,该序列与小剪接体U12 snRNP-特异性65 kDa蛋白结合[40]在我们的剪接体蛋白分析中没有检测到该蛋白。因此,我们认为螺旋核蓝氏革兰菌U2 snRNAs更可能是真正的U2依赖性/主要剪接体成分,并显示出类似的保守3′结构特征,这可能表明U2 snRNA在二倍体中的进化。

到目前为止,我们唯一能够识别的其他剪接体snRNA候选基因是沙门氏链球菌(图6a) ●●●●。U5 snRNA是U2依赖性和U12依赖性剪接体的共同组成部分,因此,它的存在和结构对于解释双单体中剪接体snRNA的主要/次要二元性没有特别的信息。然而,值得注意的是,我们之前的snRNA搜索蓝氏革兰菌没有发现任何具有典型特征或与预测的非常相似的U5 snRNA候选者沙门氏链球菌这似乎表明U5 snRNAs(假设蓝氏革兰菌具有U5)可能在双单子体内的序列和结构上有很大差异。我们预测S.旋涡尽管我们无法识别候选基因,但也拥有一个U5 snRNA,并且这个阴性结果可能是由于S.旋涡基因组数据(联合基因组研究所,未公布数据)。然而,考虑到在螺旋核U2 snRNAs,也可能是U5 RNAs在两个物种之间的差异更大,增加了成功识别两个物种中U5的难度。

最后,一些螺旋核snRNA、U1、U4和U6 snRNA在我们的搜索中未被检测到,因此与它们相比,它们也可能在进化上存在差异贾第虫属相对应的人。尽管还有其他可能解释这一点,例如基因组序列测定期间的不完全覆盖或固有的搜索策略偏差,但有理由推测,至少其中一些“缺失”的snRNAs可能与蓝氏革兰菌以及其他开发了共同变异模型的真核生物,以逃避“容易”的检测。识别中剩余的snRNAsS.旋涡沙门氏链球菌(和其他双单体)应能进一步了解其各自剪接体的历史以及不同双单体中剪接体进化的独特途径。

双单体RP基因中古代剪接体内含子的高频率

古代剪接体内含子通常保存在缺乏内含子的真核生物中,尤其是RP基因中。与此相一致,我们发现,在确认的S.旋涡剪接体内含子是古老的RP基因内含子卢比424卢比内含子代表了迄今为止发现的一些进化保守的内含子。然而,到目前为止,在所有研究的二倍体物种中都没有发现单一的剪接体内含子,这表明剪接体的内含子丢失仍在继续,并可能最终在该组成员中完成。

双单胞菌显示一组共享但显著减少的剪接体蛋白

剪接体蛋白数量的减少沙门氏链球菌考虑到在其他生物体中观察到的现象,这并不奇怪。然而,值得注意的是,许多分泌剪接体蛋白的内含子缺失生物体似乎缺少类似的一般蛋白质组。这可能表明由于不同剪接体因子的丢失倾向不同,导致同一祖先中的丢失或相同蛋白质的平行丢失。有趣的是,U1 snRNP蛋白的明显缺乏反映了这种snRNP在高诱导剪接体系统中的完全丢失C.梅罗莱,祖先LSm/Sm蛋白的不完全互补也是如此。一个值得注意的警告是,一般来说,双单体似乎在序列水平上发生了相当大的转化,因此很难排除这样的可能性,即这些蛋白质中的许多实际上是存在的,但差异太大,无法通过我们目前的一套资源和生物信息学工具成功识别。这对剪接体蛋白质来说是一个特殊的挑战,因为许多蛋白质具有相似的、共同的结构域,很难区分。另一种可能性是,高密度生物体中的剪接体因子可能在转化过程中发挥次级功能,这可能会导致祖先因子冗余,从而促进观察到的成分流线型,降低内含子密度可以降低效率需求。

另一种复杂的可能性是转化生物体中祖先剪接体因子的结构域丢失。在这项研究中,我们需要保留所有保守结构域,这是一种我们喜欢的方法,用于区分真核基因组中真实的剪接体因子和包含无数RRM-结合结构域的蛋白质。然而,这一策略有权衡。例如,双单胞菌Prp8(U5 200K)显然丢失了一个N末端结构域,这意味着它最初被我们的自动化方法排除在外。虽然人工检测使我们能够恢复这一经过充分研究的多域蛋白质,但其他简单或快速进化的因素可能被我们方法的保守主义所忽视。

结论

缺乏内含子的真核生物以限制和扩展内含子剪接信号和减少剪接机制为特征。在这项研究中,我们发现剪接体内含子在螺旋核物种和额外结构限制的证据,以定位内含子元件进行有效剪接——这一特征在这些双胞菌代表和阴道毛滴虫(parabasalid)内含子。对内含子元件的这种定位的要求是有趣的,并指出了这些生物体中更简化的剪接机制。这与典型的保守剪接体结构的变化一致,包括snRNA结构域的丢失或修改,如蓝氏革兰菌螺核属snRNA结构的这种变化可能与参与剪接调控和选择性剪接的辅助剪接体蛋白的丢失同时发生。事实上,在蓝氏革兰菌和其他真核生物发现了一些看似缺失的核心剪接体成分的不同同源物[12,13,19]. 确定来自其他双单体和其他分化真核生物的snRNAs是否具有这些不寻常的特征将是一件有趣的事情。

最后,提出内含子-碱基配对来调节已知的反式蓝藻-内含子,因此可能是实现内含子片段化和基因裂变所必需的第一步[20]. 内含子碱基配对的守恒性顺式-双单体和抛物体中的剪接内含子和大量的反式-拼接内含子蓝氏革兰菌,建议增加反式-剪接的内含子可能在这些组的成员中等待发现。

方法

在中搜索剪接体内含子螺旋核物种

缺乏内含子的真核生物基因组的内含子可能集中在核糖体蛋白编码基因中[16,25]因此,我们推断剪接体内含子可能会中断S.旋涡因此,80个核糖体蛋白序列的补体酿酒酵母从核糖体蛋白基因数据库下载(网址:http://riberome.miyazaki-u.ac.jp/) [26]每个RP序列被用作TBLASTN搜索中的查询S.旋涡获得了NCBI数据库中的表达序列标签(EST)库和编码RP序列的匹配EST。在大多数情况下,这些搜索毫不含糊地确定了匹配S.旋涡然而,RP正交,80中的11个酿酒酵母RP蛋白序列未鉴定出明显的RP基因同源序列。接下来S.旋涡在BLASTN对S.旋涡NCBI追踪档案中的基因组序列,对于阳性点击,还下载了500 nt额外的上游和下游序列。然后将基因组追踪序列与相应的EST手动比对,并检查内含子破坏编码序列。该战略确定了印尼盾7a,30卢比,卢比424卢比RP基因内含子。

为了识别额外的(和可能的非RP基因)内含子,我们使用了模式匹配软件“Scan for Matches”[27]与新确认的S.旋涡融合分支点和3′SS序列一致性:5′-RCTAACARYTAG-3′来自已鉴定的RP基因内含子。S.旋涡原始基因组序列读取从NCBI跟踪数据库(130 Mb基因组序列)下载,并制作成连接文件,作为我们搜索的本地数据库。接下来,我们使用“Scan for Matches”和模式搜索本地数据库:500…RCTAACAARYTAG…500(其中“R”和“Y”分别代表嘌呤和嘧啶)。我们检测了BP/3′SS序列上游区域中潜在5′SS的存在。接下来,使用纤毛虫遗传密码(通常的终止密码子TAA和TAG密码子代替谷氨酰胺)在三个可能的阅读框中翻译来自每个独特点击的BP/3′SS下游区域的序列螺旋核) [28]并用作BLASTP对NCBI的非冗余蛋白质序列数据库进行搜索的查询,以确定它们是否编码保守的蛋白质编码序列。该战略确定了类FolC基因内含子、预测的假想基因内含子和15卢比5′UTR内含子。

此外,我们在全基因组范围内搜索了沙门氏链球菌,利用可用的经济级DNA和RNA-Seq数据。这个沙门氏菌基因组序列从Ensembl 41版下载(https://www.ebi.ac.uk/ena/data/view/GCA_000497125.1),配对RNA-Seq从NCBI(SRR948595)下载,并使用HISAT2 2.1.0与基因组对齐[41]具有以下非默认选项:--pen nontransplice 0,−-noval splicesite outfile。使用剪接位点文件和自定义Python/Perl脚本从基因组中检索所有至少有一个读取被注释为剪接的基因组位点,并手动搜索以识别可能的内含子序列。

cDNA末端5′快速扩增(RACE)和反转录聚合酶链反应实验

对于5′RACE实验,首先通过逆转录产生总的多聚腺苷酸RNA到cDNA文库,使用螺旋核漩涡用于第一链cDNA合成的总细胞RNA和寡核苷酸逆转录引物(oP-94)(参见附加文件1用于引物序列)。在100μL反应中进行逆转录酶(RT)反应,其中包含:1μg总沃尔滕斯猪笼草根据制造商的说明,RNA、1 X第一链缓冲液(Invitrogen)、10μM DTT、500μM dNTPs、200 pmol oP-94反向引物和500 U SuperScript™II RT(Invitorgen)生成第一链cDNA,cDNA产品使用E.Z.N.A.®Cycle Pure Kits纯化。还进行了无RT的对照反应,以记录从总RNA样品中成功去除基因组DNA。纯化后的cDNA在50μL反应中进行3′poly-dG拖尾,反应由1X TdT缓冲液(新英格兰生物实验室,NEB)、250μM CoCl组成2、300μM dGTP和10 U末端脱氧核苷酸转移酶(NEB)。尾矿反应在37°C下培养1小时,然后在70°C下热灭活10分钟。PCR反应使用塔克然后使用poly-dC正向引物(oAR8)和基因特异性反向引物(参见附加文件1用于引物序列)。

使用逆转录聚合酶链反应(RT-PCR)确认预测的S.旋涡U2 snRNA。除使用10μgS.旋涡总RNA和oDM45(附加文件1)生成cDNA,然后用5U核糖核酸酶H(NEB)处理并在37°C下培养30分钟,然后在65°C下热灭活20分钟。然后对RNase H处理的cDNA样本进行PCR,使用塔克聚合酶(NEB)和U2特异性引物(附加文件1). 还生成了A–RT对照样品,包括所有步骤,但不添加逆转录酶。

在含有GelGreen(Biotium)核酸染色的3%琼脂糖凝胶上解析5′RACE和RT-PCR扩增产物,并使用E.Z.N.A.®凝胶纯化试剂盒对预测扩增子大小对应的条带进行凝胶提取和纯化。按照制造商的说明,将提取的条带钝端克隆到pJET1.2载体中,并对DNA进行测序(美国Macrogen),以确认内含子去除、成熟5′端序列(RACE)和S.旋涡U2 snRNA-标记表达。

生物信息学预测螺旋核snRNA

剪接体小核RNA编码区预测于S.旋涡沙门氏链球菌使用序列基序和共变异模型(CM)搜索策略的组合的基因组序列,已成功用于在许多其他真核生物基因组DNA数据库中鉴定snRNA基因序列[33]. 最初,从Rfam数据库下载了进化多样真核生物snRNA序列的优化比对(http://rfam.xfam.org/)并用于使用Infinal软件包中的cmbuild工具生成CM[34]. 接下来,在cmsearch(Infinal软件包)查询中使用单个U-snRNA-CM来识别S.旋涡沙门氏链球菌本地DNA数据库,带cmsearchE类值截止设置为10。期待着螺旋核snRNAs可能高度分化(如观察到的蓝氏革兰菌snRNAs),手动检查所有产生的cmsearch点击,以确定进化保守的二级结构或预期序列基序(例如U2 snRNA的BP相互作用序列)。这些搜索成功地在S.旋涡沙门氏链球菌.

使用“Scan for Matches”查询指定保守的U5 snRNA环I序列“UGCCUUUUACY”(允许两个不匹配),并用能够形成6碱基对螺旋的核苷酸(允许G•U摆动对)来识别U5 snRNA候选序列。对于每一次撞击,检查100 nt上游和下游序列是否能够形成由保守的1a/1b/1c螺旋和IL1和IL2内环组成的更长的干环I,以及是否存在标准Sm结合位点(RAU4-6GR,其中R是嘌呤)。该战略确定了沙门氏链球菌U5 snRNA候选。

剪接体蛋白搜索

为了寻找剪接体蛋白质,预测的蛋白质组来自不同物种,无论是来自NCBI(单胞菌属PA203,组件Mono14B;酿酒酵母,R64;智人,GRCh38.p12),TAIR(拟南芥Araport11)或Goro Tanifuji(K.比亚拉塔). 剪接体蛋白是从以前的研究中收集的,其中至少有两种存在于H.sapiens、S.cerevisiae、,拟南芥已编译[4244]. 通过使用BLAST 2.7.1+版对预测的蛋白质数据集进行局部psiBLAST查询,确定所研究变形单体中的初始剪接体蛋白候选[45]. 我们使用了使用人类剪接体成分生成的位置特异性评分矩阵(PSSM)作为对NCBI nr蛋白质数据库的查询。为了避免由于NCBI数据库中某些分类群的过度代表而导致的PSSM偏差,通过从搜索集中排除植物(taxid:3193)、动物(taxis:33208)、迪卡里亚(taxid:451864)和疟原虫(taxid_5820)来创建受限(R)PSSM。由于一些R PSSM仅限于几个BLAST点击,以便与PSSM构造对齐,因此也通过在初始PSSM形成搜索中不排除上述分类来创建非限制(NR)集合。psiBLAST运行了8次迭代,E值阈值为10− 6.

为了识别保守的结构域集,使用HMMscan在线门户搜索已知的剪接体蛋白,以识别带注释的结构域。GenomeNet MOTIF工具(https://www.genome.jp/tools/motif/)使用默认截止分数(设置为E值1.0)搜索Pfam和NCBI数据库智人酿酒酵母域,而来自Wang和Brendel(2004)的信息用于识别拟南芥[46]. 如果在所有三个智人H.sapiens、拟南芥A.thaliana、,酿酒酵母构建了所有剪接体蛋白质的蛋白质查询和结构域列表。对于在所有三种生物体中未发现的蛋白质,使用在所有含有该蛋白质的物种中发现的结构域构建列表。

对于产生psiBLAST点击的元单体蛋白质,从Pfam下载上述域的原始HMM,然后使用HMMsearch(HMMer 3.1b2)使用默认参数和相关域列表搜索所有psiBLASCT点击[47]. 如果候选蛋白不包含所有预期的保守结构域,则将其删除。在某些情况下,如果候选蛋白质只包含一个预期的保守结构域,则保留它们。对含有LSM的蛋白质的结果进行独特点击筛选,并从这些点击中计算可能的LSM/Sm蛋白质总数。最后,为了消除假阳性结果,在针对人类refseq_protein数据库的本地BLASTp搜索中,将筛选出的psiBLAST点击用作查询。当前10个BLASTp点击中的一个匹配原始PSSM形成查询,并且匹配的蛋白质与原始查询的大小相似(300 aa以下的蛋白质为±50 aa,大于300 aa的蛋白质为?0%)时,蛋白质被认为是“互惠的”。

真核生物内含子二级结构与RP基因内含子保守性

为了确定可能的保守内含子二级结构S.vortens顺式-此处标识的内含子和注释阴道毛滴虫内含子(检索自TrichDB.org网站)用作MFOLD的输入[48]二级结构预测。修改MFOLD参数,使预测与剪接体机械相互作用的内含子区域(即5′SS、BP和3′SS)成为单链,RNA折叠温度设置为21°C或37°CS.旋涡阴道毛滴虫内含子分别基于每个生物体的最佳生长温度。然后对每个内含子的三个最优(自由能最小化)MFOLD二级结构预测进行检验,以确定令人信服的二级结构(延伸螺旋),并确定总单链距离(不包括环核苷酸)。

确定S.旋涡Rps424卢比真核生物中的内含子,同源卢比424卢比对来自代表性真核生物的基因在相同的相对位置进行内含子插入检测S.旋涡使用NCBI网站上的基因浏览器工具(http://www.ncbi.nlm.nih.gov/gene网站/). 只有在RP基因编码序列的相同阶段和相对位置发现的内含子才被认为是同源内含子。然后使用Burki(2014)最近提出的真核生物树绘制RP基因内含子分布图[30].

其他文件

附加文件1:(16K,docx)

用于5′RACE和RT-PCR实验的引物表。该文件包含用于5′RACE和U2 snRNA RT-PCR实验中RP cDNA合成和PCR的寡核苷酸引物的名称和序列。(DOCX 15 kb)

附加文件2:(18K,docx)

中保守蛋白编码基因的剪接体内含子螺旋核旋涡。此文件包含一个包含内含子的表S.旋涡具有相应的基因组痕迹登录号和表达序列标签(EST)的蛋白质编码序列证实内含子剪接。(DOCX 17 kb)

附加文件3:(32K,docx)

核糖体蛋白质序列的ClustalW2比对。此文件包含包含内含子的基因序列的翻译氨基酸序列比对S.旋涡来自其他各种真核生物的同源基因。路线显示S.旋涡内含子破坏了RP基因序列的进化保守区域。(DOCX 32 kb)

附加文件4:(20K,docx)

ClustalW2对齐S.旋涡包含内含子序列的基因等位基因。该文件包含所有内含子RP基因序列的核苷酸比对S.旋涡原始基因组序列读取并容易识别几个独特的RP基因等位基因。(DOCX 20 kb)

附加文件5:(75K,docx)

中的基本配对潜力沙门氏链球菌内含子。该文件确认了沙门氏链球菌Rpl30内含子和显示四个已知长度分布的比对沙门氏链球菌内含子(Xu等人,2014)。(DOCX 74 kb)

附加文件6:(18K,docx)

的结构潜力顺式-剪接体内含子阴道毛滴虫。此文件包含一个表,显示已知阴道毛滴虫MFOLD软件预测剪接体内含子和内含子区域将形成干环。还显示了拼接点之间的预测单股距离。(DOCX 18 kb)

附加文件7:(18K,docx)

5′RACE和RT-PCR测序产品的Clustal Omega比对,预测的mRNA序列缺少内含子和U2 snRNA。此文件包含我们的5′RACE产品的核苷酸比对,以及U2 snRNA-RT-PCR序列结果,在移除建议的内含子和建议的U2候选基因后,预测的RP mRNA序列。(DOCX 17 kb)

附加文件8:(32K,docx)

进化守恒卢比424卢比真核生物中的基因内含子。这个文件包含了一个检查过的所有生物体的表转速4转速24基因内含子。如有可能,将提供每个已识别内含子的长度和序列。(DOCX 31 kb)

附加文件9:(57K,pdf)

在我们的搜索中发现的剪接体蛋白质表(参见方法)。红色数字表示最初的psiBLAST搜索命中率为0,HMM搜索不是其取消资格的一部分。灰色的数字表明该蛋白在保守组中缺失了一个结构域。Sm和LSm蛋白质被归在一起。Hs公司-智人H.sapiens,Sc公司-酿酒酵母,在-拟南芥,吉-蓝氏G,吨-Trepomonas sp。PC1、S-沙门氏链球菌,千磅-Kipferlia bialata sp.公司。,男-单胞菌属。PA203。(PDF 57 kb)

附加文件10:(24K,docx)

一级序列比较螺旋核具有代表性真核生物U2和U12 snRNA的U2 snRNA候选。该文件包含U2和U12 snRNA核苷酸比对,显示螺旋核代表主要(U2)或次要(U12)snRNA类别的snRNA区域。(DOCX 24 kb)

鸣谢

作者感谢斯塔凡·斯瓦德(乌普萨拉大学)慷慨提供S.旋涡RNA。

缩写

英国石油公司分支点
cDNA互补脱氧核糖核酸
厘米协变量模型
美国东部时间表达序列标签
伊利诺伊州内部回路
LECA公司最后一个真核生物共同祖先
信使核糖核酸信使核糖核酸
纳特核苷酸
ORF公司打开阅读框架
聚合酶链反应聚合酶链式反应
比赛cDNA末端的快速扩增
RP公司核糖体蛋白
RT公司逆转录
snRNA小核糖核酸
不锈钢拼接现场
UTR公司未翻译区域

作者的贡献

AJH确定并分析了沃尔滕斯猪笼草剪接体内含子、snRNAs、RP基因内含子的系统发育保守性和合著手稿。DCM进行了RT-PCR和5′RACE实验,并共同撰写了手稿。GEL进行了全基因组的内含子搜索沙门氏链球菌。BAB对剪接体蛋白进行了搜索和分析,并共同撰写了这份手稿。SWR识别了snRNAs,做出了大量的智力贡献,并共同撰写了手稿。ANM协助检测真核生物中RP基因内含子的保守性。AGR设计了这项研究,在智力上做出了贡献,并共同撰写了这篇手稿。所有作者阅读并批准了最终手稿。

基金

AJH和ANM得到了自然科学与工程研究理事会(NSERC)CGS-D3研究生奖学金的支持,并得到了莱思布里奇大学研究生院的资助。DCM得到了莱思布里奇大学研究生院的资助。该研究的资金由授予AGR的NSERC Discovery Grant 355757–2013-RGPIN提供。GEL、BAB和SWR获得了NSF 1616878奖的支持。资助机构在研究的设计、数据的收集、分析和解释或手稿的撰写中没有任何作用。

数据和材料的可用性

补充图中提供了更多信息。

道德批准和参与同意

不适用。

出版同意书

不适用。

竞争性利益

作者声明,他们没有相互竞争的利益。

脚注

出版商备注

Springer Nature在公布的地图和机构关联中的管辖权主张方面保持中立。

安德鲁·哈德森(Andrew J.Hudson)和大卫·C·麦克瓦特斯(David C.McWatters)对这项工作做出了同样的贡献。

参与者信息

安德鲁·哈德森,ac.htelu@nosduh.ydna公司.

David C.McWatters,ac.htelu@srettawcm.divad.

布拉德利·A·鲍泽,ude.decremcu@reswobb.

Ashley N.Moore,ac.ba.cdr@eroom.yelhsa.

格雷厄姆·拉鲁,moc.liamg@euralmaharge.

斯科特·W·罗伊,moc.liamg@yorwttocs公司.

安东尼·拉塞尔,ac.htelu@llessur.ynot.

工具书类

1Morrison HG、McArthur AG、Gillin FD、Aley SB、Adam RD、Olsen GJ、Best AA、Cande WZ、Chen F、Cipriano MJ等。早期分化肠道寄生虫的基因组极简主义蓝氏贾第鞭毛虫.科学。2007;317(5846):1921–1926. doi:10.1126/science.1143837。[公共医学] [交叉参考][谷歌学者]
2Lee RC、Gill EE、Roy SW、Fast NM。微孢子虫的限制性内含子结构。分子生物学进化。2010;27(9):1979–1982. doi:10.1093/molbev/msq087。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
三。Lander ES、Linton LM、Birren B、Nusbaum C、Zody MC、Baldwin J、Devon K、Dewar K、Doyle M、FitzHugh W等。人类基因组的初始测序和分析。自然。2001;409(6822):860–921. doi:10.1038/35057062。[公共医学] [交叉参考][谷歌学者]
4Gilson PR、Su V、Slamovits CH、Reith ME、Keeling PJ、McFadden GI。水生植物核型的完整核苷酸序列:自然界最小的细胞核。美国国家科学院院刊。2006;103(25):9566–9571. doi:10.1073/pnas.0600707103。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
5Russell AG、Charette JM、Spencer DF、Gray MW。小剪接体的早期进化起源。自然。2006;443(7113):863–866. doi:10.1038/nature05228。[公共医学] [交叉参考][谷歌学者]
6Bartschat S,Samuelsson T.U12型内含子在进化过程中多次丢失。BMC基因组学。2010;11:106.网址:10.1186/1471-2164-11-106。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
7Will C.L.、Luhrmann R.剪接体结构与功能。《冷泉港生物学展望》。2010;(7) :a003707–a003707。 [PMC免费文章][公共医学][谷歌学者]
8Patel AA,Steitz JA公司。双剪接:来自第二个剪接体的见解。Nat Rev Mol细胞生物学。2003;4(12):960–970. doi:10.1038/nrm1259。[公共医学] [交叉参考][谷歌学者]
9Wahl MC、Will CL、Luhrmann R.《剪接体:动态RNP机器的设计原理》。单元格。2009;136(4):701–718. doi:10.1016/j.cell.2009.02.009。[公共医学] [交叉参考][谷歌学者]
10Jurica理学硕士,Moore MJ。前mRNA剪接:淹没在蛋白质的海洋中。分子细胞。2003;12(1):5–14. doi:10.1016/S1097-2765(03)00270-3。[公共医学] [交叉参考][谷歌学者]
11斯塔克MR、邓恩EA、邓恩WS、格里斯代尔CJ、丹尼尔AR、霍尔斯特德MR、法斯特NM、雷德SD氰化汞.美国国家科学院院刊。2015;112(11) :E1191–E1200。doi:10.1073/pnas.1416879112。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
12Hudson AJ、Stark MR、Fast NM、Russell AG、Rader SDC.梅罗莱以及其他生物。RNA生物学。2015;12(11):1–8. doi:10.1080/15476286.2015.1094602。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
13.Collins L,Penny D.现存真核生物祖先的复杂剪接体组织。分子生物学进化。2005;22(4):1053–1066. doi:10.1093/molbev/msi091。[公共医学] [交叉参考][谷歌学者]
14Rogozin IB、Wolf YI、Sorokin AV、Mirkin BG、Koonin EV。内含子位置的显著界间保守性和真核生物进化中大规模、谱系特异性内含子的丢失和获得。当前生物量。2003;13(17):1512–1517. doi:10.1016/S0960-9822(03)00558-X。[公共医学] [交叉参考][谷歌学者]
15Vanacova S、Yan W、Carlton JM、Johnson PJ。深支真核生物中的剪接体内含子阴道毛滴虫.美国国家科学院院刊。2005;102(12):4430–4435. doi:10.1073/pnas.0407500102。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
16Russell AG,Shutt TE,Watkins RF,Gray MW蓝氏贾第鞭毛虫.BMC进化生物学。2005;5:45.网址:10.1186/1471-2148-5-45。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
17Csuros M,Rogozin IB,Koonin EV。从100个完整基因组的全球调查中推断出的富含内含子的真核生物祖先的详细历史。公共科学图书馆计算生物学。2011;7(9) :e1002150。doi:10.1371/journal.pcbi.1002150。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
18Xu F,Jerlstrom-Hultqvist J,Einarsson E,Astvaldsson A,Svard SG,Andersson JO沙门氏螺核菌强调了一种适应波动环境的鱼类病原体。公共科学图书馆-遗传学。2014;10(2) :e1004053。doi:10.1371/journal.pgen.1004053。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
19Nixon JE、Wang A、Morrison HG、McArthur AG、Sogin ML、Loftus BJ、Samuelson J.剪接体内含子蓝氏贾第鞭毛虫.美国国家科学院院刊。2002;99(6):3701–3705. doi:10.1073/pnas.042700299。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
20Roy SW、Hudson AJ、Joseph J、Yee J、Russell AG。大量片段剪接体内含子、AT-AC剪接和异常的动力蛋白基因表达途径蓝氏贾第鞭毛虫.分子生物学进化。2012;29(1):43–49. doi:10.1093/molbev/msr063。[公共医学] [交叉参考][谷歌学者]
21Kamikawa R、Inagaki Y、Tokoro M、Roger AJ、Hashimoto T肠贾第鞭毛虫被剪接体介导的切除反式-拼接。当前生物量。2011;21(4):311–315. doi:10.1016/j.cub.2011.01.025。[公共医学] [交叉参考][谷歌学者]
22Nageshan RK,Roy N,Hehl AB,Tatu U。通过mRNA反式剪接对分裂热休克蛋白90基因的转录后修复。生物化学杂志。2011;286(9):7116–7122. doi:10.1074/jbc。C110.208389。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
23罗伊·SW。双胞体寄生虫的转录组学分析揭示了一个解旋酶基因中的反式剪接内含子贾第虫属.同行J。2017;5:e2861.doi:10.7717/peerj.3479。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
24Spingola M,Grate L,Haussler D,Ares M.,Jr基因全基因组生物信息学和内含子分子分析酿酒酵母.RNA。1999;5(2):221–234. doi:10.1017/S13558382999981682。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
25Bon E、Casaregola S、Blandin G、Llorente B、Neuveglise C、Munsterkotter M、Guldener U、Mewes HW、Van Helden J、Dujon B等。真核生物基因组的分子进化:半菌类酵母剪接体内含子。核酸研究。2003;31(4):1121–1135. doi:10.1093/nar/gkg213。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
26.Nakao A,Yoshihama M,Kenmochi N.RPG:核糖体蛋白基因数据库。核酸研究。2004;32(数据库问题):D168–D170。doi:10.1093/nar/gkh004。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
27Dsouza M,Larsen N,Overbeek R.在基因组数据中搜索模式。趋势Genet。1997;13(12):497–498. doi:10.1016/S0168-9525(97)01347-4。[公共医学] [交叉参考][谷歌学者]
28Keeling PJ,Doolittle WF。非经典遗传密码在双单体中的广泛和古老分布。分子生物学进化。1997;14(9):895–901. doi:10.1093/oxfordjournals.molbev.a025832。[公共医学] [交叉参考][谷歌学者]
29Nielsen H,Wernersson R.真核生物基因起始密码子之后立即出现的过多第0期内含子。BMC基因组学。2006;7:256.网址:10.1186/1471-2164-7-256。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
30从全球系统发育学的角度来看,真核生物的生命树。冷泉Harb Perspect生物。2014;6(5) :a016147。doi:10.1101/cshperspect.a016147。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
31Sverdlov AV,Rogozin IB,Babenko VN,Koonin EV.内含子进化中的保守与平行增益。核酸研究。2005;33(6):1741–1748. doi:10.1093/nar/gki316。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
32Hudson AJ、Moore AN、Elniski D、Joseph J、Yee J、Russell AG。进化分化剪接体snRNA和保守的非编码RNA加工基序蓝氏贾第鞭毛虫.核酸研究。2012;40(21):10995–11008. doi:10.1093/nar/gks887。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
33.Davila Lopez M,Rosenblad MA,Samuelsson T.剪接体RNA基因的计算筛选有助于确定主要和次要剪接体成分的系统发育分布。核酸研究。2008;36(9):3001–3010. doi:10.1093/nar/gkn142。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
34Nawrocki EP,Eddy SR.Inferal 1.1:RNA同源性搜索速度提高100倍。生物信息学。2013;29(22):2933–2935. doi:10.1093/bioinformatics/btt509。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
35Burge SW、Daub J、Eberhardt R、Tate J、Barquist L、Nawrocki EP、Eddy SR、Gardner PP、Bateman A.Rfam 11.0:RNA家族的10年。核酸研究。2013;41(数据库问题):D226–D232。doi:10.1093/nar/gks1005。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
36Burke JE,Sashital DG,Zuo X,Wang YX,Butcher SE。酵母U2/U6 snRNA复合物的结构。RNA。2012;18(4):673–683. doi:10.1261/rna.031138.111。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
37Newman AJ,Norman C.U5 snRNA在5′和3′剪接位点与外显子序列相互作用。单元格。1992;68(4):743–754. doi:10.1016/0092-8674(92)90149-7。[公共医学] [交叉参考][谷歌学者]
38雷梅尔KA、斯塔克MR、阿吉拉尔L-C、斯塔克SR、伯克RD、摩尔J、法尔曼RP、叶CK、库罗瓦H、欧芬格M等氰化汞与前信使核糖核酸剪接和信使核糖核酸降解因子相关。RNA。2017;23(6):952–967. doi:10.1261/rna.058487.116。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
39Veretnik S、Wills C、Youkharibache P、Valas RE、Bourne PE.Sm/Lsm基因提供了剪接体早期进化的一瞥。公共科学图书馆计算生物学。2009;5(3) :e1000315。doi:10.1371/journal.pcbi.1000315。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
40Benecke H,Luhrmann R,Will CL.U11/U12 snRNP 65K蛋白作为分子桥,结合U12 snRNA和U11-59K蛋白。EMBO J。2005;24(17):3057–3069. doi:10.1038/sj.emboj.7600765。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
41Kim D、Langmead B、Salzberg SL。HISAT:一种低内存要求的快速拼接对准器。自然方法。2015;12(4):357–360. doi:10.1038/nmeth.3317。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
42Fabrizio P、Dannenberg J、Dube P、Kastner B、Stark H、Urlaub H、Luhrmann R。酵母剪接体催化活化步骤的进化保守核心设计。分子细胞。2009;36(4):593–608. doi:10.1016/j.molcel.2009.09.040。[公共医学] [交叉参考][谷歌学者]
43Hegele A、Kamburov A、Grossmann A、Sourlis C、Wowro S、Weimann M、Will Cindy L、Pena V、Lührmann R、Stelzl U。人类剪接体的动态蛋白质相互作用布线。分子细胞。2012;45(4):567–580. doi:10.1016/j.molcel.2011.12.034。[公共医学] [交叉参考][谷歌学者]
44Koncz C,Dejong F,Villacorta N,Szakonii D,Koncz Z。剪接体激活复合体:多效性调节器功能的分子机制。前植物科学。2012;:9–9。doi:10.3389/fpls.2012.00009。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
45Altschul SF、Madden TL、Schäffer AA、Zhang J、ZhangZ、Miller W、Lipman DJ。Gapped BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序。核酸研究。1997;25(17):3389–3402. doi:10.1093/nar/25.17.3389。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
46Wang B-B,Brendel V.ASRG数据库:识别和调查拟南芥参与前mRNA剪接的基因。基因组生物学。2004;5(12) :R102。doi:10.1186/gb-2004-5-12-r102。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
47Johnson LS、Eddy SR、Portugaly E.隐马尔可夫模型加快了启发式和迭代HMM搜索过程。BMC生物信息学。2010;11:431.doi:10.1186/1471-2105-11-431。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
48用于核酸折叠和杂交预测的Zuker M.Mfold网络服务器。核酸研究。2003;31(13):3406–3415. doi:10.1093/nar/gkg595。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

来自的文章BMC进化生物学由以下人员提供BMC公司