跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
公共科学图书馆计算生物学。2006年4月;2(4):e33。
2006年4月21日在线发布。2006年3月6日在线预发布。 doi(操作界面):10.1371/日记.pcbi.0020033
预防性维修识别码:项目经理1440920
PMID:16628248

人类基因组中保守RNA二级结构的鉴定和分类

理查德·德宾,编辑器

关联数据

补充资料

摘要

除其他外,微RNA和核糖开关的发现表明,功能性RNA在生物学上比之前预期的更重要,在基因组上更普遍。我们开发了一种基于系统发育随机无上下文文法的通用比较基因组学方法,用于识别人类基因组中编码的功能性RNA,并用它调查了人类、黑猩猩、小鼠、大鼠、狗、鸡、斑马鱼、,和河豚基因组,以获得高度保守的功能RNA。在一个宽松的接受阈值下,这项搜索产生了一组48479个候选RNA结构。该筛查发现了大量已知的功能RNA,包括195个miRNAs、62个组蛋白3′UTR干环和各种已知的遗传记录元件。在最核心的新预测中,有169个新的miRNA候选,以及新的候选硒代半胱氨酸插入位点、RNA编辑发夹、参与转录自动调节的RNA,以及形成功能完全未知的单核或小功能RNA家族的许多折叠。虽然整体数据集中的假阳性率很难估计,而且可能很高,但结果为许多新的人类功能RNA提供了证据,并提出了具体的预测,以促进其进一步表征。

简介

结构功能RNA是细胞的一种多功能成分,包括独立分子和mRNA转录物的调控元件。最近许多功能性RNA的发现,尤其是miRNAs,表明还有更多的有待发现。传统上,由于缺乏强序列信号,功能RNA的计算识别受到阻碍。然而,长期进化过程中的结构保守性创造了一种特征性的替代模式,随着比较基因组学的出现,这种模式可以被利用。作者设计了一种基于多重比对系统发育分析的功能RNA结构鉴定方法。这种方法被用于筛选人类基因组中受强烈选择性约束的区域。结果是一组48479个候选RNA结构。对于一些已知的功能性RNA,如miRNAs和组蛋白3′UTR干环,这组RNA几乎包括所有高度保守的成员。最初的大候选集已按大小、形状和基因组位置进行了划分,并按分数进行了排序,以生成miRNAs、硒代半胱氨酸插入位点、RNA编辑发夹和参与转录自动调节的RNAs的顶级候选的具体列表。

介绍

许多新的功能RNA结构(fRNAs),如snoRNAs、miRNA、剪接因子和核糖开关[1],在过去几年中被发现。这些结构作为独立分子和mRNA转录物的一部分发挥作用。这些最新发现证实了fRNAs在细胞中发挥着许多重要的调节、结构和催化作用,并表明目前可能只有一小部分fRNAss被鉴定出来[1,,4].

通过比较基因组学有效识别fRNA的计算方法的发展受到了阻碍,因为fRNA通常只表现出弱保守的一级序列信号[5]. 幸运的是,fRNA结构的干配对区域大多以一种特征性的替换模式进化,因此只允许保持配对碱基之间配对能力的替换。这导致补偿性双重替代(例如GCAU)和几种兼容的单一替代物(例如GCGU);后者是由于RNA在G和U之间形成非Watson-Crick对的能力而成为可能的。这种进化信号可以被用来比较鉴定fRNA[612].

现在已测序的许多非人类脊椎动物基因组可以与人类基因组进行比对,从而在每个位置都可以利用有关进化过程的大量信息进行多重比对[1315]. 考虑到基因组的多样性,能够有效利用这种进化信息的比较方法原则上应该能够有效地识别保守的人类fRNAs。我们开发了一种称为EvoFold的比较方法,用于在多序列比对中识别功能性RNA结构。EvoFold利用了最近设计的一种模型构建,即系统发育随机上下文无关文法(phylo-SCFG)[10,16,17],是RNA二级结构和序列进化的组合概率模型。Phylo-SCFG使用随机上下文无关文法(SCFG)[18,19]定义可能的RNA二级结构的优先分布,以及一组系统发育模型[2022]评估每个对齐列的替换模式与其二级结构注释的符合程度。EvoFold使用了一个非常通用的RNA二级结构模型,它可以对从短发夹到复杂的多工作结构的所有结构进行建模,包括在其训练集中没有看到的新结构。置换过程使用系统发育树和与比对序列相关的进化分支长度,明确地对结构内成对碱基的共同进化进行建模。茎配对区域不仅通过补偿性替换的存在来检测,还通过相容的单一替换和整体较慢的进化速度来检测。我们建立了一个人类参考的八路脊椎动物全基因组比对,并使用EvoFold在人类基因组中搜索功能RNA。这项研究共得到48479个候选RNA结构。基于假阳性率的估计,不幸的是,假阳性率与非常大的不确定性有关,我们估计候选集包含大约10000个RNA转录物的大约18500个亚结构。这些数字是根据估计的62%的假阳性率得出的。在最核心的候选基因中,估计的假阳性率要低得多,这个屏幕会发现大量已知的功能RNA,并包含新的候选miRNAs、硒代半胱氨酸插入位点、RNA编辑发夹、参与转录自动调节的RNA、,以及形成功能完全未知的单核或小功能RNA家族的许多折叠。

结果

我们构建了人类的全基因组比对[23],黑猩猩[24],鼠标[25],老鼠[26]、狗、鸡[27]斑马鱼和河豚鱼[28]使用MULTIZ程序的基因组[13,29]. 根据这一比对,我们组装了一组人类基因组片段,其中至少有四个其他物种进行了比对,并且替换模式显示了使用PhastCons方法的负选择证据[15]. 进一步过滤这些片段,以去除逆转录基因、简单/低复杂性重复、具有线粒体染色体同源性的片段,以及相对于人类和小鼠基因组中相邻基因在同源位置不明确的片段(“非同步人-鼠匹配”)。结果集定义了1181107个保守片段,跨越参考人类基因组的3.7%。我们应用了EvoFold算法,如所示图1每个保守片段。这导致总共48479个候选RNA折叠,其中5个以上的配对碱基跨越了人类基因组的0.07%(参见图S1长度分布)。这些可以通过加州大学圣克鲁斯分校(UCSC)基因组浏览器进行交互式探索或批量检索(http://genome.ucsc.edu,协议S1).

保存图片、插图等的外部文件。对象名称为pcbi.0020033.g001.jpg
EvoFold预测方法概述

(A) 人类基因组和保守元素的示意图。保守元素定义了输入对齐。

(B) 八向基因组比对片段。

(C) fRNA模型的SCFG定义了所有可能的二级结构注释的分布。括号中显示了许多可能的二级结构之一。比对区域中的替换是相对于人类的彩色编码:补偿性双替换为绿色,兼容的单替换为蓝色。

(D) 与路线的二级结构注释相对应的颜色编码折叠。

(E) 使用两个系统发育模型评估可能的二级结构注释:使用单核苷酸系统发育模型对未配对柱进行评估。对柱进行组合,并使用双核苷酸系统发育模型进行评估。水平分支长度反映了预期的替换次数。

我们根据三个不同的标准对这些候选褶皱进行分类:它们的大小、基因组位置和整体形状。我们区分了两种尺寸范围:短(5到15个配对碱基,39075倍)和长(超过15个配对碱,9404倍);五种类型的基因组定位:编码型(12736倍)、3′UTR(3331倍)、5′UTR型(334倍)、内含子型(11777倍)和基因间型(20301倍);四种形状:发夹形(42964个折叠)、Y形(3479个折叠),三叶形(250个折叠)和更复杂的形状(1786个折叠)。该方案产生了40种不同的RNA折叠预测类别。候选折叠也通过基因组中的接近度或与cDNA重叠而聚集成一组折叠,这些折叠可能是单个潜在RNA转录物的一部分。这将48479个候选RNA折叠分为23287个候选结构,包含转录本。最后,每个类别中的折叠都是根据长度规范化的相似比分数(我们称之为折叠潜力分数(fps))进行排序的,并且使用洗牌方案初步估计每个类别中假阳性预测的比率,作为分数的函数(材料和方法,图S2第3页,表S1S2系列).

我们将所有可用的人类和非人类mRNA和EST映射到人类基因组,并确定了相对于基因组DNA中的背景命中率,我们的候选RNA折叠集的命中率的富集度。发现这些差异在3.6×(人类cDNA)到11.4×(非人类EST)之间。这明显高于从中选择这些候选元素的全套保守元素的丰度(图S4).

我们还发现,与反向补体相比,对已知fRNA的预测通常在fRNA链上得分更高(例如,我们预测的89%已知miRNAs就是这种情况)。这种不对称性主要是由GU(或UG)配对的能力引起的,而不是其反向补码AC(CA)。由于RNA茎中最常见的替换类型涉及GU(或UG)对,这可能会对EvoFold分数产生显著影响,因此可以通过比较比对分数与其反向补体分数来推断折叠的链关联。在候选RNA包含在已知转录物中的情况下,义链的EvoFold分数(即与转录模板链互补的链)通常显著高于反义链(表S3). 因为这与对已知fRNAs观察到的效应相似,这提供了间接证据,证明这些预测中有许多是新的fRNA。然而,这种效应的部分原因可能是成分不对称,也可能是转录介导的修复[30]或其他感官相关功能元素的影响(参见协议S1).

使用洗牌法,我们估计48479个候选序列包含18500个部分正确的fRNAs(参见材料和方法,验证部分)。然而,这一估计与洗牌方法固有的巨大不确定性有关,仅应视为基于可用数据的第一近似值(参见讨论). 基于洗牌方法和候选基因的基因组分布,我们估计,在上述不确定性的条件下,我们的预测包括大约10000个人类RNA转录本:其中2200个是蛋白编码基因的转录本,这些基因在UTR中含有功能性RNA或重叠其编码区,剩下的是fRNA基因。在对基于洗牌的假阳性率估计进行校正后,褶皱被分解为不同的大小、位置和形状,如所示图2.

保存图片、插图等的外部文件。对象名称为pcbi.0020033.g002.jpg
基于真阳性估计的人类基因组中检测到的RNA折叠类型的分解

请参见材料和方法,验证部分。

折叠根据(A)大小(配对碱基的数量)、(B)在基因组中的位置和(C)形状进行分类。指出了各类褶皱的相对丰度。对于(B),还显示了保守片段相对于其基因组位置的基因组跨度,以供比较。

四分之三的预测褶皱较短。这些可能代表了小的完整褶皱单元和大褶皱的部分预测的混合,其中只有一个小的核心元素具有足够的进化协变,可以通过我们的方法检测到。在长折叠中,约82%是基因间或内含子,5.5%在3′UTR中,0.5%在5′UTR中,令人惊讶的是12%(550倍)与已知编码区重叠。下文将进一步讨论这些问题。正如所料,小褶皱主要是单个发夹;这些碱基中通常没有足够的配对碱基来支持更复杂的稳定结构。长褶皱的形状分布更为多样,但也以简单的发夹为主。同样,由于这些通常是部分结构预测,因此这种分解可能会偏向更简单的褶皱类型。

由于EvoFold的目的是在所有脊椎动物中寻找在结构上保守并保持在相同基因组背景中的RNA,因此本次调查可能没有检测到其他fRNA。有一些已知的功能性RNA种类流动性太强或进化速度太快,EvoFold无法检测到,例如tRNAs和snoRNAs。脊椎动物tRNAs产生了许多特定于谱系的拷贝,这些拷贝位于基因组的不同位置,其中大多数是假基因,因此剩余的功能拷贝通常在不同脊椎动物谱系的不同基因组环境中结束[27]. 因此,超过99%的功能性人类tRNA未通过我们应用的过滤器,该过滤器去除了人类和小鼠之间的非同步匹配,因此在我们的一组预测折叠中不存在。相比之下,大多数snoRNAs在我们的预测折叠集合中缺失,要么是因为它们的碱基对(bp)太少,例如CD-box snoRNA中的4-5 bp,要么是脊椎动物进化中经历了太多的结构变化。我们观察到32%的已知高度保守snoRNAs的bp不能在鱼或鸡中形成,导致与EvoFold设计检测的整体结构信号发生冲突。信号识别粒子RNA和Y RNA也因其进化流动性而被遗漏。另一方面,RNase P RNA以及U11和U12剪接体RNA都是非常保守的,并通过该筛选进行检测。根据我们目前的方法,我们无法预测脊椎动物基因组中还有多少未发现的高度流动或快速进化的RNA。

对于其他已知类别的RNA,如miRNAs,EvoFold的灵敏度很高,几乎找到了所有已知的成员。为了评估EvoFold的敏感性,我们使用各种精选的已知RNA集进行了5倍交叉验证测试。这些测试表明,EvoFold在检测某些已知类别的RNA方面表现良好,例如miRNAs和组蛋白3′UTR干环(表1). 尽管组蛋白3′UTR茎环的茎仅包含6 bp,但它们的预测非常准确:97%的预测具有100%的正确结构。

表1

EvoFold灵敏度

保存图片、插图等的外部文件。对象名称为pcbi.0020033.t001.jpg

由于EvoFold使用的fps对高度保守的紧密折叠进行了排序,我们还直接基于替代证据定义了一个替代分数,并使用它定义了一组517个ncRNA候选序列(参见协议S1). 例如,这一得分在上述U11和U12剪接体RNA中名列前茅。这组中排名第二的三叶草状褶皱目前正在进行实验研究。

我们通过重做敏感性实验和部分仅使用鼠-人亚对齐的洗牌实验,评估了使用八向对齐代替成对对齐的相对好处。Rfam Seed混合组敏感性下降59%,假阳性率略有增加(表S4). 总的来说,EvoFold对成对排列的预测较少。

长基因间和内含子发夹中的新miRNAs

一些折叠分类中的高等级候选RNAs对于某些类别的已知RNAs来说非常丰富。特别是,我们发现已知miRNAs在长内含子和基因间发夹类中的高等级候选基因中大量富集(表2和3):):我们排名前100位的长基因间发夹中有36个和前100位长内含子发夹中的33个是已知的miRNAs。在我们第一次计算48479个候选fRNAs时,其中157个是已知的miRNAs。自那时以来,在最近的三篇论文中,又有38个被证实为miRNAs[3133],在这组中,共有195个已知的miRNAs。总之,这三篇最近的论文从输入EvoFold的1181107个保守片段中发现了55个新的miRNA;因此,EvoFold对这些新的miRNAs的敏感性为69%(38/55)。

表2

顶部取芯长型内置发夹

保存图片、插图等的外部文件。对象名称为pcbi.0020033.t002.jpg

表3

顶部取芯长芯发夹

保存图片、插图等的外部文件。对象名称为pcbi.0020033.t003.jpg

已知的miRNAs往往位于短的保守片段中(70%位于最长200 bp的片段中),它们的茎有相对较少的突起(86%的茎基最多20%位于突起中)。使用这些额外的标准,我们从3500个预测的长基因间和内含子发夹中定义了一组更具体的277个miRNA候选者。这一组包含90个已知的miRNAs和187个新的候选基因,估计假阳性率为15%(参见材料和方法). Xie等人[31]最终测试了五个预测的miRNAs,并验证了四个。Bentwich等人[32]验证了14个预测的miRNAs,Berezikov等人验证了6个[33]. 由于有六名候选人经过多次验证,因此总共有18名候选人通过了验证。

虽然miRNAs可能是高得分基因间和内含子发夹的重要组成部分,但这些类别中的大多数褶皱很可能具有其他功能。特别是,三个最高核的长内含子发夹都发现于离子通道基因的内含子中,这些内含子通常是RNA编辑的目标,通过A-to-I转换包括发夹,例如[3436]. 在A-I转换中,酶ADAR(作用于RNA的腺苷脱氨酶)作用于发夹状RNA结构,将特定腺苷(A)转变为肌苷(I)。其中一个基因,GRIA4、,已知在其编码区域中有一个A-to-I编辑发夹[37],我们也检测到了。因此,这三个内含子发夹有可能参与前mRNA的类似编辑。

新编码fRNAs

候选RNA包含数量惊人的重叠编码区的长折叠。编码折叠之所以迷人,至少有两个原因。首先,它们通常在基因记录中发挥作用,如RNA编辑GRIA4、,导致核糖体产生的蛋白质与使用遗传密码直接翻译基因组序列得到的蛋白质不同[38]. 其次,它们的一级序列编码蛋白质和fRNA水平的信息,这些双重功能限制导致了高度受限的进化过程[39].

15个排名靠前的长编码发夹包含8个经过仔细研究的RNA,其中5个以RNA编辑的形式参与遗传编码(R-G位点格栅2、格栅3、,网格接口4) [37]和编程移帧(OAZ1号机组办公自动化2) [38,40] (表4). 其余三种中的两种在调节翻译效率方面发挥作用(COL1A1COL1A2)[41]一个是miRNA[42,43]重叠的似乎是一个虚假注释的开放阅读框架。

表4

顶部取芯长代码发夹

保存图片、插图等的外部文件。对象名称为pcbi.0020033.t004.jpg

在前15名中的7个新的候选RNA中,我们预测至少有3个与基因编码有关。其中两个与已知的硒蛋白有关9月1日选择[44]. 硒蛋白构成了遗传编码的另一个重要例子:它们含有被编码为硒酸半胱氨酸插入位点的框架内UGA终止密码子。这些终止密码子的重新编码是由一个叫做硒代半胱氨酸插入序列(SECIS)的发夹控制的。在真核生物中,SECIS以前只在硒蛋白转录物的3′UTR中发现[38,44,45]但在原核生物中,它存在于UGA密码子下游的编码区[38,46]. 这两份抄本的3′UTR中都有带注释的SECIS[44,47],但Rfam数据库中给出的发夹结构仅部分保存。两者的预测编码发夹9月1日选择位于硒代半胱氨酸插入位点(UGA密码子)下游不到10个碱基(图3). 因此,我们假设这两个发夹都参与了UGA密码子的重新编码,并且它们可能构成编码区域中真核SECIS发夹的第一个示例。在审查期间,我们了解到最近的独立实验工作表明9月1日发夹确实有助于UGA的阅读[48].

保存图片、插图等的外部文件。对象名称为pcbi.0020033.g003.jpg
硒代半胱氨酸插入位点附近的编码发夹

(A) 基因结构、EvoFold预测和硒蛋白T(SELT)的硒代半胱氨酸插入位点周围的保护。发夹的配对区域以深绿色显示,可以看到仅从UGA插入位点下游的八个碱基开始(用*表示)。箭头表示转录方向。

(B) 跨越预测发夹的八向路线的注释段。SS anno,括号格式的二级结构注释(匹配的括号表示成对,句点表示未成对的区域);对符号,配对列被分配相同的符号以便于导航;分数,位置特异性得分(0-9),表明对二级结构注释的信心。预测对中的替换是相对于人类序列的彩色编码:绿色是补偿性双替换,蓝色是相容的单替换,红色是不相容的替换。

(C) 发夹的描述,显示为T而不是U,以便于与基因组序列进行比较。配对是通过八向排列中的替换进行颜色编码的(参见b)。

第三个是最高等级的长编码发夹,发现于UBE1C公司基因(图4). 这显示了在A-to-I RNA编辑位点发现的许多其他发夹的特征[3436]通过重叠内含子-外显子边界,并在其两侧有一个1 bp的对称突起和连续的腺苷。这提供了很好的证据,证明这个发夹可能作为一个a-to-I编辑位点,在初级mRNA转录中发生改变。对跨越该区域的人类cDNA的检查也发现cDNA单个基因组差异显示鸟苷(G)而不是腺苷(a)。由于肌苷被测序为鸟苷,这一证据进一步支持了这一假设,即发夹可以作为ADAR的A-to-I编辑底物。

保存图片、插图等的外部文件。对象名称为pcbi.0020033.g004.jpg
A-to-I编辑的候选基板

(A) 基因结构、EvoFold预测、cDNA、保守性和八向比对显示在UBE1C公司基因。预测的发夹显示在括号中,可以看到与内含子-外显子边界重叠。红色方框突出显示了基因组序列包含a和cDNA包含G的位置。橙色条和标签“4”表示在所示物种的该环位置中最多存在四个额外的碱基。

(B) 发夹的描述(参见图3B表示颜色图例),并指示ADAR编辑的潜在位置(A-to-I)。

(C) 这将导致赖氨酸转变为精氨酸氨基酸。

在剩下的四个候选长编码发夹中,有两个位于功能未知的基因中(KIAA1190和KIAA0924),一个是Wolf-Hirschhorn综合征候选基因-1,WHSC1L1号机组[49],也许最有趣的是DGCR8(DiGeorge综合征关键区域)基因。这个DGCR8已知该基因含有两个双链RNA结合域[50].DGCR8最近已证明与Drosha有关,并在初级miRNA转录物到前体miRNA的加工过程中发挥关键作用[51,52]. 该基因不仅在其第一外显子中包含一个高得分发夹,而且在5′UTR类别中包含最长和第二高得分发卡(图5). 5′UTR发夹类似于已知miRNAs预测的折叠,并通过mirScan获得非常显著的分数[53](请参见协议S1). 因此,这些褶皱可能参与了DGCR8,可能通过5′UTR发夹的断裂DCGR8公司/上述Drosha微处理器复合体。

保存图片、插图等的外部文件。对象名称为pcbi.0020033.g005.jpg
5′UTR miRNA-Like发夹和基因编码发夹(DGCR8)参与miRNA处理

(A) 基因结构和EvoFold预测显示在DGCR8.

(B) 跨越长的miRNA-like 5′UTR-发夹的八向定线的注释段(参见图3B代表图例)。

(C) 褶皱的描述。

新型立体折叠

除了先前已知的RNA家族的新例子外,高级候选RNA还包括几个全新的家族。其中一个是在长三叶草状褶皱类别中排名最高和第四的候选人。它们的位置相距不到3500个碱基,并且两者都被几乎没有特征的基因的转录物重叠ZNF207型[54] (图6A) ●●●●。两个折叠都包含几个支持替换(图6B) ●●●●。较短的折叠位于基因的3′UTR,较长的折叠位于选择性剪接变异体的内含子。这两个褶皱的主要序列(图6C) 排列良好:中央干配对区域几乎相同,只有少数补偿性和相容性替换,而环因替换和插入/删除而不同(图6D) ●●●●。这种进化关系表明了一种共同的功能约束,它保留了两个三叶草状褶皱的中心部分。这些褶皱内部和之间的紧密接近、高分和系统进化差异表明,它们可能构成一个新的fRNA家族的成员。

保存图片、插图等的外部文件。对象名称为pcbi.0020033.g006.jpg
立体褶皱预测

(A) 基因结构、EvoFold预测和基因末端的cDNAZNF207型3′UTR和一个替代剪接变异体的内含子具有高得分的三叶草状褶皱预测。

(B) 跨越3′UTR褶皱的八路线注释段(参见图3B代表图例)。

(C) 3′UTR褶皱(左)和内含褶皱(右)的描述。

(D) 人类3′UTR和内含子折叠初级序列的注释性比对。用褶皱的二级结构对路线进行注释,并对相应对中的替换差异进行彩色编码(参见图3B表示颜色图例)。

同源族

本着上述最后一个例子的精神,我们根据原始序列同源性将RNA折叠预测分为同源家族。我们忽略了可能因一些琐碎的原因而导致同源性推断的序列,例如重复、假基因、编码区等(参见材料和方法). 这种方法产生了299个家庭,平均家庭规模为2.7。

恢复了已知的fRNA家族,如组蛋白3′UTR干环(46个已知折叠,一个家族)、已知miRNAs家族(72个已知折叠、29个家族)和GRIA基因中的RNA编辑发夹家族(三个已知折叠和一个家庭)。但大多数家庭都是全新的。一些包含长的基因间和内含子发夹,可能是miRNA的新家族(例如,我们的17个miRNA候选基因位于11个家族中)。其他的在离子通道基因中包含发夹,以前没有被描述为经历RNA编辑(例如,一组三个编码发夹重叠钠通道外显子SCN3A、SCN8A,和SCN2A2。但大多数涉及更复杂的褶皱,目前我们还没有功能假设。家庭的完整定义在网上给出(http://www.cbse.ucsc.edu/jsp/EvoFold).

讨论

我们对人类基因组进行了一次调查,以通过使用八路全基因组序列比对的比较基因组学来确定功能性RNA结构。虽然这种比对包含了比以前更多的进化信息,但这些目前可用的基因组在检测负选择的统计能力方面仍然非常有限[55]随着更多脊椎动物基因组测序,这种情况在未来几年将发生变化。然而,这项研究表明,我们已经有足够的进化信息来有效发现许多类fRNAs。来自额外基因组和额外实验的进一步信息应该能够剔除许多假阳性预测,并完善单个候选结构。

这项初步调查表明,人类基因组中的功能性RNA比当前RNA序列数据库中的多。我们估计这些数据库注释了人类基因组中的1207个RNA基因(参见材料和方法). 我们的结果表明,可能存在10倍以上的功能性RNA,以及7倍以上的RNA基因。然而,这些值取决于混洗实验正确估计假阳性率的能力。目前尚不清楚洗牌实验能在多大程度上估计假阳性率,因此我们目前的估计与很大且难以量化的不确定性有关。以前基于成对比对的ncRNAs扫描发现,只有一小部分预测可以通过实验验证[56,57],因此需要谨慎。进一步的实验工作将有必要可靠地描述人类fRNAs的数量。然而,结合其他证据的存在(感觉链偏差、转录证据、生物学上似是而非的折叠以及同源家族的存在),我们的结果确实表明还有许多其他RNA有待发现。在我们试图全面探索人类基因组序列的关键功能元素时,对蛋白质编码基因中的RNA基因和RNA结构元素的探索既是一个巨大的机遇,也是一个巨大挑战。

我们以最高置信度预测的RNA折叠包括许多已知的fRNAs,例如miRNAs和遗传记录信号,以及数千个新的fRNA候选,其中很大一部分是由补偿性替代支持的。其中一些新的fRNAs扩大了现有的家族,而另一些则形成了新的小家族。对单个候选基因的详细分析揭示了额外的支持证据,并允许在某些情况下制定特定的功能假设,包括新的SECIS元件、RNA编辑发夹、调节发夹和上面讨论的miRNA候选基因。我们估计大约有500个编码区包含重叠的功能RNA结构,其中不可忽略的一部分可能包含未记录的遗传记录示例。

我们开发的EvoFold方法经过训练,只能预测由许多物种的清晰同源拷贝中的一致进化信号支持的RNA茎。为了保证同源性,所使用的比对要求不同物种的比对序列出现在相同的基因组背景中,即每个物种中都有同源侧翼DNA。这大大减少了因转座子和逆转录假基因等流动元件导致的假阳性预测的数量。然而,它使我们错过了一些高度流动的已知fRNAs,例如tRNAs和snoRNAs。即使相对宽松的阈值允许我们的总体预测中估计有62%的假阳性。除了EvoFold模型所包含的同源拷贝的简单进化外,用分子进化的一般模型识别移动fRNAs还需要谱系特异性复制和功能丧失的逻辑。

比对错误也会破坏真的fRNA的进化信号,因此对当前序列比对分数的改进可能会改善结果。仅涉及少数基底的局部对准误差不太可能影响整个结构,因此通常应允许至少识别信号减少的部分结构。然而,更广泛的错误,即非同源区域对齐,很可能会导致fRNA完全丢失,如上文所述。

EvoFold的假阳性率在最核心的预测中要低得多,但它永远不会完全为零,即使对于最大的预测结构也是如此。一个问题是,负选择最强的元素是超保守区域[58],通常在现有脊椎动物中的替代物太少,进化方法无法区分RNA二级结构的保护和其他类型的功能保护。在获得更多基因组之前,对于这些元素,我们面临着类似于预测单个序列中RNA结构的问题,而没有比较基因组学的好处。

新预测的fRNAs之间的序列比较证实,其中一些可分为小的同源家族,但大多数为单基因。由于许多fRNAs经历了谱系特异性扩增[2,32],我们发现,在人类基因组中寻找旁系同源物很可能会显示这些单体中的许多是系统发育浅家族的创始人。然而,特定血统的扩张和快速多样化可能会使家庭成员在基于主次身份的搜索中难以识别。

EvoFold评分方案对紧密折叠进行了非常高的排名,紧密折叠具有较高的配对与非配对碱基比率,例如miRNAs和组蛋白3′UTR干环。事实上,这两个家庭在这项调查中表现突出,如果不知道他们的存在,这项研究会有一个明确的新结果。它们排名如此之高的原因之一是因为fps是一个长度规范化的似然比,它倾向于强调成对与未成对碱基的比率,而不是成对碱数的总数。其他标准化方案可能会强调替代标记的ncRNA候选基因所示的其他fRNAs家族(参见协议S1).

这组折叠预测代表了我们认为对进化上保守的人类fRNAs的第一次全面调查。(另一项基于多重比对和保守片段PhastCons检测的调查在本文的最后阶段引起了我们的注意[59]. 对于人类RNA基因的预期数量,作者似乎也得出了类似的结论。)我们试图创建一个综合的集合,它仍然保持相对较低的假阴性率,希望它能为进一步研究fRNAs提供有用的资源。为了促进这些进一步的研究,可以通过UCSC人类基因组浏览器获得完整的预测,包括详细的结构标记比对,如图36(http://genome.ucsc.edu). 此外,可以从EvoFold网站访问每个类别的折叠排列列表、miRNA候选集合、ncRNA候选集合和旁系家族集合(http://www.cbse.ucsc.edu/jsp/EvoFold).

材料和方法

EvoFold算法。

EvoFold程序以多重比对和系统发育树为输入,并输出特定RNA二级结构预测和fps(图1). 系统发育树(包括分支长度估计)指定了多重比对序列之间的进化关系。EvoFold基于两门SCFG:一个是描述可能含有fRNAs的区域的fRNA模型,另一个是介绍不含fRNA的区域的背景模型。在这两种模型下,得分是对数似然比。EvoFold程序的Linux(i386)可执行文件可以从EvoFod网站下载(http://www.cbse.ucsc.edu/jsp/EvoFold). 源代码可根据要求提供。

SCFG门。

Phylo-SCFG是由Knudsen和Hein于1999年开发的,可以看作是HMMs的延伸[6062]. 它们结合了SCFGs模拟RNA二级结构的能力[18,19,63]具有系统发育模型[21,22]描述沿树的分支的替换过程的能力。这种模型构建的优势之一是,它可以处理与任何数量的序列的多重比对,并以反映系统发育的方式权衡其信息内容。

SCFG门使用了两种类型的系统发育模型:单核苷酸模型和双核苷酸模型(图1E) ●●●●。单核苷酸模型描述了RNA二级结构的非配对区域(即环和凸起)以及基因组的非结构区域的替换过程。二核苷酸模型描述了干配对核苷酸的取代过程。这两种模型在不同方面存在差异,特别是单核苷酸模型使多种替代相对可能,而二核苷酸模型强烈支持补偿性替代。

SCFG门由两个组件组成:结构组件和非结构组件(图S5S6系列). 结构构件描述了第一个和最后一个基底成对的结构区域。这些区域可以对应于单个发夹或更复杂的结构,在这里称为褶皱(图1D) ●●●●。该组分包含二核苷酸和单核苷酸系统发育模型。非结构成分描述了褶皱外部的区域,并且只包含一个单核苷酸系统发育模型。

fRNA模型包含结构成分和非结构成分。相反,背景模型只包含非结构组件。请参见协议S1获取phylo-SCFG参数化的完整规范。

结构和分数预测。

EvoFold使用fRNA模型将特定RNA二级结构预测指定给输入比对(图1C) ●●●●。将预测多重比对中给定信息的最可能结构。由于fRNA模型的非结构成分,预测可能缺乏结构。通过以下折叠消除的所有预测折叠都包含在候选集中。

fps测量比对包含任何fRNA的总体趋势。它被计算为观察比对的可能性之间的对数优势分数(x个)fRNA模型下(φfRNA)和背景模型(φ背景):每秒=日志(P(P)(x个|φfRNA)/P(P)(x个|φ背景). 背景模型被精心设计,以使用与fRNA模型相同的核苷酸分布对比对序列进行建模,从而缓解在例如富含GC的区域中过度预测的问题。fps分数取决于长度;因此,本文使用fps分数的长度规范化版本。分数用于对每个子类中的褶皱进行排序。

验证。

EvoFold的假阳性率是通过将其应用于一组随机排列的比对来估计的,这些比对去除了任何真fRNAs的信号,但保留了与原始比对相同的碱基组成、替代模式和保守模式。假阳性率取决于预测褶皱的大小(图S2A) :5个或更少配对碱基的褶皱占76%,25个配对碱基以上的褶皱占42%。因此,我们的褶皱预测集包含一些误报,但我们决定保留所有褶皱,只保留非常短的褶皱,以维持一组完整的褶皱,用于下游分析。假阳性发生率低得多的褶皱子集可以通过只关注排名靠前的预测来定义,例如,在得分超过15 bp的前100个褶皱中,估计只有5%的假阳性(图S2B和S2系列C) ●●●●。我们还发现假阳性率取决于序列保守性的程度、茎中突起的数量、基因组位置,在较小程度上还取决于褶皱的整体形状(图S3).

培训数据。

用于训练EvoFold的路线是从Rfam Full数据库(版本6.0)的保守子集中准备的[47]如下:使用BLAT将来自Rfam Full的所有人类条目与人类基因组对齐[64],只保留了完美的匹配。选择了与这些人类匹配重叠的保守的人-鼠联会匹配元素(见下文),并用Rfam Full中给出的二级结构进行了注释。人类序列中无法形成的带注释的干对被视为未配对。然后丢弃所有tRNA匹配(发现许多是假基因),并删除二级结构保守性较差的比对序列。最后,所有剩余序列少于四个的比对都被丢弃了。结果集包含262条带注释的路线。使用EM算法和准Newton方法的组合发现了phylo-SCFG参数的最大似然估计(参见协议S1).

基因组比对和保守元件。

EvoFold被应用于八向多重z的保守元素[13]下列脊椎动物物种的排列(括号中给出了UCSC集合名称):人类(hg17)、黑猩猩(panTro1)、小鼠(mm5)、大鼠(rn3)、狗(canFam1)、鸡(galGal2)、河豚(fr1)和斑马鱼(danRer1)。PhastCons计划[15]用于识别一组高度保守的初始元素,然后通过连接间距小于30个碱基的连续元素进行处理。这种连接避免了在几个保守元件上分裂具有快速进化环区的fRNA。由于计算约束限制了EvoFold可以处理的元素的大小,因此长度超过750个基点的元素被300个基点长窗口的平铺所取代,每个窗口偏移100个基点。从八向排列中提取出与保守元素的两股相对应的排列片段。

系统发生树。

使用PhastCons程序从基因组比对中估计出单个系统发育树,包括分支长度[15]然后用于每个路线段。

已知的fRNA注释。

将折叠预测与不同类别的fRNAs进行比较:在miRNA注册表5.1版中发现的207个人类微小RNA[43]; Rfam Full版本6.0中注释的3′UTR组蛋白干环子集[47]与组蛋白相关转录物重叠(由UCSC人类基因组浏览器的已知基因注释定义[65]); tRNAscan-SE预测得分超过55位所定义的人类tRNAs集合[66]; snoRNA-LBME-db中定义的一组snoRNAs[67]; 并针对Rfam Seed 6.0版中发现的更具广泛代表性的人类fRNAs[47]. 合并后,这些数据库总共包含1207个不同的fRNAs。

蛋白质编码基因注释。

UCSC人类基因组浏览器的已知基因注释(2004年5月汇编)[65]用于用基因组位置注释褶皱。一些折叠重叠了基因组区域的边界,在这些情况下,根据以下优先列表选择一个单一的分配:编码>5′UTR>3′UTR>内含子>基因间。已知基因轨迹的基因名称,用于表24以及在文本中,都基于RefSeq或HUGO基因符号。

折叠消除。

根据其他注释、比对或基因组位置,可能无功能的折叠被从初始集合中丢弃。过滤包括某些类型的重复序列(许多微小折叠)、具有同步断裂的区域(许多假基因)以及与线粒体基因组同源的区域(很多假基因)。这些过滤器基于以下UCSC人类基因组浏览器数据:来自RepeatMasker轨迹的简单和低复杂度重复,来自鼠标网络轨迹的同步信息[68]和Blastz自跟踪的同源信息。

RNA转录本。

如果与已知基因注释重叠,则5′UTR、编码和3′UTR折叠被视为同一转录物的一部分(见上文)。如果间隔少于250个碱基,则认为内含子和基因间折叠是同一转录物的一部分。假阳性率是使用下述随机程序从相关基因组类型的折叠中估计的(另见验证)。

随机比对。

所有短于450个碱基(占总碱基的98%)的输入比对都是随机的,首先排列没有替换的柱,然后排列有一些替换的柱。由此产生的比对保持了原始比对的保守性模式、替代模式和核苷酸偏倚,但失去了任何真正的fRNA茎的信号。

同源家族。

根据UCSC浏览器的人类Blastz自我追踪给出的原始序列同源性,对褶皱进行聚类,从而定义了一组同源家族[58]. 为了避免因琐碎的原因推断同源性,我们忽略了UCSC人类基因组浏览器(2004年5月汇编)中注释为编码、重复、逆转录基因或伪常染色体区域的序列。

支持信息

图S1

折叠长度和保守段与频率计数:

顶部,褶皱长度;底部,保守节段的长度。

超过250个核苷酸的252倍和超过1000个核苷酸的1727个保守片段未包含在上述图中。

(18 KB PDF格式)

图S2

假阳性预测的估计分数:

(A) 不同大小范围褶皱的假阳性计数。黑色条表示随机比对中的预测数(假阳性),灰色条表示原始比对中的额外预测数(真阳性)。假阳性的估计分数显示在每列上方。

(B和C)不同得分最高的短折叠(B)和长折叠(C)子集中的假阳性分数。颜色编码与(A)相同。

(30 KB PDF格式)

图S3

作为短褶皱和长褶皱的各种褶皱性质的函数的假阳性预测的估计分数:

左柱,短褶皱;右列,长折叠。

对于所有零件x个-axis给出了相关属性的度量(或类型)-axis给出了相应的假阳性分数。

属性定义:

(A) 分数的序列保守性是在输入元素水平上测量的,百分位数与它们在所有折叠中的分布有关。

(B) 凸出部分是凸出部分中茎基的百分比。

(C和D)基因位置和褶皱形状取自褶皱分类方案(参见材料和方法).

(34 KB PDF格式)

图S4

预测折叠、保守元素和不同类别ncRNAs的转录证据:

这个-轴以百分比表示覆盖率。不同类型的转录证据如下x个-轴:TF-polyA+,富含多聚腺苷化转录物的转运蛋白;TF polyA−,多聚腺苷化转录物的转铁蛋白缺失;cDNA,人类cDNA;氙cDNA,非人类cDNA;EST,人类EST;氙EST,非人类EST。每列上方给出了相对于内含子和基因间区域全基因组覆盖范围的特定类型转录证据的富集。组合类结合了tRNA、miRNAs、snoRNAs和Rfam种子非编码RNA。

(28 KB PDF格式)

图S5

非结构件和结构件的生产规则:

(A) 非结构部件,(B)结构部件。

命名:|表示在不同产品之间进行选择;x、 单柱排放;x个和x第页对发射的左侧和右侧。

这些语法组件的相应图形概述见图S6.

(45 KB PDF格式)

图S6

Phylo-SCFG的非结构组件和结构组件的转换图:

(A) 非结构部件,(B)结构部件。

状态类型在括号中给出。箭头指示可能的状态转换。如图所示,从分岔状态过渡到两个状态,即左(l)和右(r)。未配对态、环和膨胀态具有相关的单列发射分布(由单核苷酸系统发育模型指定)。茎对状态具有相关的双柱发射分布(由二核苷酸系统发育模型指定)。

(31 KB PDF格式)

协议S1

补充结果:

(176 KB PDF格式)

表S1

短折叠类的计数统计信息:

给出了短褶皱的每个位置/形状类别的褶皱计数、估计真阳性率(括号中)和估计真阳性计数。“任意形状”行和“任意位置”列给出了每组折叠类的边缘化计数。因此,右下角的条目保存了长折叠集的总计数。

(26 KB PDF格式)

表S2

长折叠类的计数统计信息:

参见图例表S1.

(29 KB PDF格式)

表S3

EvoFold预测的链偏差:

(33 KB PDF格式)

表S4

仅使用人类和小鼠序列的EvoFold敏感性:

灵敏度列给出了EvoFold识别的已知fRNAs的数量,使用人-鼠亚序列除以输入片段中的fRNAs总数。相对灵敏度列给出了仅使用人和小鼠亚对齐和完全八向对齐的灵敏度之间的比率。

(147 KB PDF格式)

接入号码

Swiss-Prot的接入号码(http://www.ebi.ac.uk/swissprot)是:第1列(P02452号),COL1A2公司(P08123号),DGCR8(问题8WYQ5),GRIA2系统(第2262页),网格3(第2263页),网格接口4(第48058页),科威特航空1190(Q6ZSY6型),KIAA0924型(问题5H9Q0),OAZ1号机组(第4368页),办公自动化2(O95190号),SCN2A2系列(Q99250问题),SCN3A号(Q9NY46号),SCN8A系列(问题9UQD0),9月1日(第9季度第5季度),选择(第62341页),UBE1C公司(问题8TBC4),WHSC1L1号机组(Q6ZSA5型)、和ZNF207型(O43670号).

GenBank(http://www.ncbi.nlm.nih.gov/Genbank)的登录号cDNAUBE1C基因的BC022853号.

致谢

我们感谢托德·洛(Todd Lowe)、特里·弗瑞(Terry Furey)和查尔斯·苏格特(Charles Sugnet)进行了有益的讨论;凯瑟琳·波拉德(Katherine Pollard)提供统计建议;UCSC Genome Browser工作人员负责UCSC浏览器及其在校准和数据管理方面的帮助;和Jane Rogers提供了斑马鱼基因组。

缩写

ADAR公司(腺苷脱氨酶作用于RNA
英国石油公司碱基对
DGCR8DiGeorge综合征关键区域
fps(英尺/秒)折叠电位评分
fRNA功能性RNA结构
藻-SCFG系统发育随机上下文无关文法
SECIS公司硒代半胱氨酸插入序列
UCSC公司加州大学圣克鲁兹分校

脚注

作者贡献。JSP、GB和DH构思并设计了实验。JSP和GB进行了实验。JSP分析了数据。JSP、AS、KR、KLT、ESL、JK和WM提供了试剂/材料/分析工具。JSP和DH写了这篇论文。

基金。这项工作得到了NHGRI(拨款1P41HG02371)和丹麦研究委员会(拨款21–04–0444)的支持。

相互竞争的利益。提交人声明,不存在相互竞争的利益。

本文的前一版本于2006年3月6日作为早期在线发布(DOI:10.1371/journal.pcbi.0020033.eor(英文)).

工具书类

  • Eddy SR.非编码RNA基因与现代RNA世界。Nat Rev基因。2001;2:919–929.[公共医学][谷歌学者]
  • Bompfünewerer AF、Flamm C、Fried C、Fritzsch G、Hofacker IL等。非编码RNA的进化模式。Theor Biosci公司。2004;123:301–369.[公共医学][谷歌学者]
  • Mattick JS,Makunin IV.哺乳动物中的小调节RNA。Hum Mol Genet 14规范编号。2005;1:R121–R132。[公共医学][谷歌学者]
  • Brosius J.RNA和逆转录对进化创新的贡献。遗传学。2003;118:99–116.[公共医学][谷歌学者]
  • Rivas E,Eddy SR.二级结构对于检测非编码rna通常没有统计学意义。生物信息学。2000;16:583–605.[公共医学][谷歌学者]
  • Noller HF,Woese CR。16S核糖体RNA的二级结构。科学。1981;212:403–411.[公共医学][谷歌学者]
  • Rivas E,Eddy SR.使用比较序列分析进行非编码RNA基因检测。BMC生物信息学。2001;2:8. [PMC免费文章][公共医学][谷歌学者]
  • di Bernardo D,Down T,Hubbard T.ddbRNA:多重比对中保守二级结构的检测。生物信息学。2003;19:1606–1611.[公共医学][谷歌学者]
  • Coventry A、Kleitman DJ、Berger B.MSARI:rna二级结构统计检测的多序列比对。美国国家科学院院刊。2004;101:12102–12107. [PMC免费文章][公共医学][谷歌学者]
  • Pedersen JS,Meyer IM,Forsberg R,Simmonds P,Hein J.蛋白质编码区内发现和折叠RNA二级结构的比较方法。核酸研究。2004;32:4925–4936. [PMC免费文章][公共医学][谷歌学者]
  • Washietl S,Hofacker IL。对齐序列的一致折叠作为通过比较基因组学检测功能RNA的新措施。分子生物学杂志。2004;342:19–30.[公共医学][谷歌学者]
  • Washietl S,Hofacker IL,Stadler PF。非编码RNA的快速可靠预测。美国国家科学院院刊。2005;102:2454–2459. [PMC免费文章][公共医学][谷歌学者]
  • Blanchette M,Kent WJ,Riemer C,Elnitski L,Smit AF等。用螺纹块集比对器比对多个基因组序列。基因组研究。2004;14:708–715. [PMC免费文章][公共医学][谷歌学者]
  • Brudno M、Do CB、Cooper GM、Kim MF、Davydov E等。LAGAN和Multi-LAGAN:基因组DNA大规模多重比对的有效工具。基因组研究。2003;13:721–731. [PMC免费文章][公共医学][谷歌学者]
  • Siepel A、Bejerano G、Pedersen JS、Hinrichs AS、Hou M等。脊椎动物、昆虫、蠕虫和酵母基因组中进化保守的元素。基因组研究。2005;15:1034–1050. [PMC免费文章][公共医学][谷歌学者]
  • Knudsen B,Hein J.使用随机无上下文文法和进化历史进行RNA二级结构预测。生物信息学。1999;15:446–454.[公共医学][谷歌学者]
  • Knudsen B,Hein J.Pfold:使用随机上下文无关语法的RNA二级结构预测。核酸研究。2003;31:3423–3428. [PMC免费文章][公共医学][谷歌学者]
  • Sakakibara Y、Brown M、Underwood R、Mian IS、Haussler D。第27届夏威夷国际系统科学会议记录;1994年1月4日至7日;美国夏威夷毛伊岛。洛斯·阿拉米托斯(加利福尼亚):IEEE计算机学会出版社;1994.RNA建模的随机上下文无关语法;第284-293页。[谷歌学者]
  • Eddy SR,Durbin R.使用协方差模型进行RNA序列分析。核酸研究。1994;22:2079–2088. [PMC免费文章][公共医学][谷歌学者]
  • Jukes TH、Cantor CR。哺乳动物蛋白质代谢。纽约:学术出版社,第24章,pp;1969. 21–132.[谷歌学者]
  • Felsenstein J.DNA序列进化树:最大似然法。分子进化杂志。1981;17:368–376.[公共医学][谷歌学者]
  • 费尔森斯坦J。推断系统发育。桑德兰(马萨诸塞州):西努埃尔协会;2003.664页。[谷歌学者]
  • 国际人类基因组测序协会。完成人类基因组的常染色序列。自然。2004;431:931–945.[公共医学][谷歌学者]
  • 黑猩猩测序和分析协会。黑猩猩基因组的初始序列以及与人类基因组的比较。自然。2005;437:69–87.[公共医学][谷歌学者]
  • Waterston RH、Lindblad-Toh K、Birney E、Rogers J、Abril JF等。小鼠基因组的初始测序和比较分析。自然。2002;420:520–562.[公共医学][谷歌学者]
  • Gibbs RA、Weinstock GM、Metzker ML、Muzny DM、Sodergren EJ等。Brown Norway大鼠的基因组序列为哺乳动物进化提供了见解。自然。2004;428:493–521.[公共医学][谷歌学者]
  • Hillier LW、Miller W、Birney E、Warren W、Hardison RC等。鸡基因组的序列和比较分析为脊椎动物进化提供了独特的视角。自然。2004;432:695–716.[公共医学][谷歌学者]
  • Aparicio S、Chapman J、Stupka E、Putnam N、Chia JM等。红鳍东方鲀全基因组鸟枪组装和基因组分析。科学。2002;297:1301–1310.[公共医学][谷歌学者]
  • Schwartz S、Kent WJ、Smit A、Zhang Z、Baertsch R等。人类与BLASTZ的关系。基因组研究。2003;13:103–107. [PMC免费文章][公共医学][谷歌学者]
  • Green P,Ewing B,Miller W,Thomas PJ,Green ED。哺乳动物进化中与转录相关的突变不对称。自然遗传学。2003;33:514–517.[公共医学][谷歌学者]
  • Xie X,Lu J,Kulbokas EJ,Golub TR,Mootha V,等。通过比较几种哺乳动物,系统地发现人类启动子和3′UTR中的调控基序。自然。2005;434:338–345. [PMC免费文章][公共医学][谷歌学者]
  • Bentwich I、Avniel A、Karov Y、Aharonov R、Gilad S等。数百种保守和非保守人类微RNA的鉴定。自然遗传学。2005;37:766–770.[公共医学][谷歌学者]
  • Berezikov E、Guryev V、van de Belt J、Wienhold E、Plasterk RH等。人类microRNA基因的系统发育阴影和计算鉴定。单元格。2005;120:21–24.[公共医学][谷歌学者]
  • Lehmann KA,Bass BL.双标记RNA腺苷脱氨酶ADAR1和ADAR2具有重叠的特异性。生物化学。2000;39:12875–12884.[公共医学][谷歌学者]
  • Kallman AM、Sahlin M、Ohman M.ADAR2 A–>I编辑:网站选择性和编辑效率是独立的事件。核酸研究。2003;31:4874–4881. [PMC免费文章][公共医学][谷歌学者]
  • Dawson TR、Sansam CL、Emeson RB。ADAR2底物RNA编辑所需的结构和序列决定因素。生物化学杂志。2004;279:4941–4951.[公共医学][谷歌学者]
  • Higuchi M、Maas S、Single FN、Hartner J、Rozov A等。AMPA受体基因的点突变可挽救RNA编辑酶ADAR2缺陷小鼠的死亡。自然。2000;406:78–81.[公共医学][谷歌学者]
  • Namy O,Rousset JP,Napthyre S,Brierley I.在细胞基因表达中重新编程基因解码。分子细胞。2004;13:157–168.[公共医学][谷歌学者]
  • Pedersen JS,Forsberg R,Meyer IM,Hein J.具有保守RNA结构的蛋白质编码区的进化模型。分子生物学进化。2004;21:1913–1922.[公共医学][谷歌学者]
  • Matsufuji S,Matsufuji T,Miyazaki Y,Murakami Y,Atkins JF,et al.哺乳动物鸟氨酸脱羧酶抗体解码中的自我调节框架转移。单元格。1995;80:51–60. [PMC免费文章][公共医学][谷歌学者]
  • Stefanovic B,Brenner DA.5′胶原α1(I)mRNA干环抑制体外翻译,但在体内合成三螺旋胶原需要。生物化学杂志。2003;278:927–933.[公共医学][谷歌学者]
  • Lagos Quintana M,Rauhut R,Yalcin A,Meyer J,Lendeckel W等。小鼠组织特异性微小RNA的鉴定。当前生物量。2002;12:735–739.[公共医学][谷歌学者]
  • Griffiths-Jones S.微RNA注册。核酸研究。2004;32:D109–D111。 [PMC免费文章][公共医学][谷歌学者]
  • Kryukov GV、Castellano S、Novoselov SV、Lobanov AV、Zehtab O等。哺乳动物硒蛋白体的特征。科学。2003;300:1439–1443.[公共医学][谷歌学者]
  • Berry MJ,Banu L,Chen YY,Mandel SJ,Kieffer JD等。在I型脱碘酶中将UGA识别为硒代半胱氨酸密码子需要3′非翻译区的序列。自然。1991;353:273–276.[公共医学][谷歌学者]
  • Zinoni F,Heider J,Bock A.将UGA密码子解码为硒代半胱氨酸所必需的甲酸脱氢酶mRNA的特征。美国国家科学院院刊。1990;87:4660–4664. [PMC免费文章][公共医学][谷歌学者]
  • Griffiths-Jones S、Moxon S、Marshall M、Khanna A、Eddy SR等。Rfam:注释完整基因组中的非编码RNA。核酸研究。2005;33:D121–D124。 [PMC免费文章][公共医学][谷歌学者]
  • Howard MT、Aggarwal G、Anderson CB、Khatri S、Flanigan KM等。位于真核细胞硒代半胱氨酸指定UGA密码子子集附近的记录元件。EMBO J。2005;24:1596–1607. [PMC免费文章][公共医学][谷歌学者]
  • Angrand PO、Apiou F、Stewart AF、Dutrillaux B、Losson R等。NSD3是一种新的SET结构域基因,定位于8p12并在人类乳腺癌细胞系中扩增。基因组学。2001;74:79–88.[公共医学][谷歌学者]
  • Shiohama A、Sasaki T、Noda S、Minoshima S、Shimizu N。位于DiGeorge综合征染色体区域的一个新基因DGCR8的分子克隆和表达分析。生物化学与生物物理研究委员会。2003;304:184–190.[公共医学][谷歌学者]
  • Gregory RI、Yan KP、Amuthan G、Chendrimada T、Doratotaj B等。微处理器复合体介导微RNA的生成。自然。2004;432:235–240.[公共医学][谷歌学者]
  • Denli AM、Tops BB、Plasterk RH、Ketting RF、Hannon GJ。微处理器复合体处理初级microRNA。自然。2004;432:231–235.[公共医学][谷歌学者]
  • Lim LP、Lau NC、Weinstein EG、Abdelhakim A、Yekta S等。秀丽隐杆线虫的microRNA。基因发育。2003;17:991–1008. [PMC免费文章][公共医学][谷歌学者]
  • Pahl PM、Hodges YK、Meltesen L、Perryman MB、Horwitz KB等。ZNF207,染色体6p21.3上普遍表达的锌指基因。基因组学。1998;53:410–412.[公共医学][谷歌学者]
  • Eddy SR.比较基因组序列分析的统计能力模型。《公共科学图书馆·生物》。2005;:e10。内政部:10.1371/期刊.pbio.0030010.[PMC免费文章][公共医学][谷歌学者]
  • McCutcheon JP,Eddy SR.通过比较基因组学计算鉴定酿酒酵母中的非编码RNA。核酸研究。2003;31:4119–4128. [PMC免费文章][公共医学][谷歌学者]
  • Babak T,Blencowe BJ,Hughes TR。对新哺乳动物非编码RNA的系统搜索表明,保守的基因间转录很少。BMC基因组学。2005;6:104. [PMC免费文章][公共医学][谷歌学者]
  • Bejerano G、Haussler D、Blanchette M。走进黑暗的心脏:人类非编码dna的大规模聚集。生物信息学20增刊。2004;1:I40–I48。[公共医学][谷歌学者]
  • Washietl S、Hofacker IL、Lukasser M、Huttenhofer A、Stadler PF。保守RNA二级结构的定位预测了人类基因组中数千个功能性非编码RNA。国家生物技术。2005;23:1383–1390.[公共医学][谷歌学者]
  • Yang Z.DNA序列进化的时空过程模型。遗传学。1995;139:993–1005. [PMC免费文章][公共医学][谷歌学者]
  • Felsenstein J,Churchill GA。进化速率站点间变化的隐马尔可夫模型方法。分子生物学进化。1996;13:93–104.[公共医学][谷歌学者]
  • Thorne JL、Goldman N、Jones DT。结合蛋白质进化和二级结构。分子生物学进化。1996;13:666–673.[公共医学][谷歌学者]
  • Durbin R、Eddy S、Krogh A、Mitchison G。生物序列分析:蛋白质和核酸的概率模型。剑桥:剑桥大学出版社;1998. 356. 第页。[谷歌学者]
  • 肯特·WJ。BLAT-类似BLAST的对齐工具。基因组研究。2002;12:656–664. [PMC免费文章][公共医学][谷歌学者]
  • Kent WJ、Sugnet CW、Furey TS、Roskin KM、Pringle TH等。UCSC的人类基因组浏览器。基因组研究。2002;12:996–1006. [PMC免费文章][公共医学][谷歌学者]
  • Lowe TM,Eddy SR.tRNAscan-SE:基因组序列中转移RNA基因检测的改进程序。核酸研究。1997;25:955–964. [PMC免费文章][公共医学][谷歌学者]
  • Lestrade L,Weber MJ。snoRNA-LBME-db,人类H/ACA和C/D盒snoRNAs的综合数据库。核酸研究。2006;34:158–162. [PMC免费文章][公共医学][谷歌学者]
  • Kent WJ、Baertsch R、Hinrichs A、Miller W、Haussler D。进化的大锅:小鼠和人类基因组中的复制、缺失和重排。美国国家科学院院刊。2003;100:11484–11489. [PMC免费文章][公共医学][谷歌学者]

文章来自PLOS计算生物学由以下人员提供多环芳烃