跳到主要内容

MapMi:microRNA基因座的自动定位

摘要

背景

目前正在进行一项大规模的工作,以发现microRNAs(miRNAs)。目前miRBase是它们的主要储存库,提供初级序列、前体和可能的基因组位点的注释。在许多情况下,miRNAs在相关(或在某些情况下更遥远)物种之间是相同或非常相似的。然而,miRBase侧重于那些miRNAs已被直接证实的物种。其次,即使在覆盖良好的物种中,特定的miRNAs或其位点有时也没有注释。为了解决这个问题,我们开发了一个计算系统,用于自动绘制物种内和跨物种的miRNAs。已知miRNA在一个物种中的序列,确定该miRNA在其他物种中的可能位点相对简单。我们的主要目标不是发现新的miRNA,而是将一个物种中经验证的miRNA映射到其他物种中最可能的同源序列。

结果

我们现在地图米是一个跨物种和物种内miRNA自动绘图的计算系统。该方法的敏感性为92.20%,特异性为97.73%。使用miRBase的最新版本(v14),当MapMi应用于Ensembl后生动物2版中的所有21个物种和Ensemble 55版中的46个物种时,我们获得了10944个未标记的潜在miRNAs。

结论

用于绘制miRNAs的管道和相关网络服务器可在上免费获得http://www.ebi.ac.uk/enright-srv/MapMi/此外,还提供了跨大量物种的miRBase miRNA的预计算miRNA映射。

背景

最近,miRNA已被证明是一类庞大而多样的调节因子[1,2]. 利用多种技术在多种物种和组织中克隆和测序miRNAs的工作正在进行中[,4]. 这些分子为18-22 nt,通过与目标转录物的3'UTR结合发挥作用[5]. 这种结合事件是通过miRNA和靶序列之间的互补性来靶向的。miRNA与其靶转录物的结合导致翻译抑制和转录不稳定[6]. 在动物界和植物界,miRNAs与大量且越来越多的疾病和过程有关[7,8]. miRBase数据库是这些数据的主要存储库[9]. 它侧重于前体和成熟序列及其可能的基因组位点的命名和记录。目前,许多沉积的miRNAs来自模型生物(例如人类、,秀丽线虫). 鉴于许多miRNAs在物种之间高度保守[10]例如,很可能在秀丽线虫也将出现在C.布里格萨在其他情况下,甚至在一个物种中,可能有多个基因组位点可以编码检测到的成熟miRNA序列,并且并非所有这些都可以在miRBase中注释。这种对模式生物的隐含偏见阻碍了其他生物的miRNA研究,并使跨物种的miRNA家族的进化和系统发育分析极为困难。给定一个物种中成熟的miRNA序列,可以使用序列分析和RNA二级结构预测检测其同源序列在另一物种中的可能位置。我们在这里的假设是,一个同源的miRNA将与miRNA成熟序列具有高度的相似性,并且确定的同源位点应具有形成miRNA前体典型的干环结构的能力。一些组使用特别的miRNA图谱分析的方法,然而,这些方法通常要么对社区不可用,要么尚未验证,要么过于具体,不适合一般使用。例如,米罗托[11]提供web访问,但不提供方法或原始数据,而CoGemiR[12]提供原始数据,但不允许序列搜索。另一个工具,miRNAminer[13]要求用户提供成熟序列和前体序列,并在有限的物种上运行。由于这些原因,很难在性能方面直接将现有方法与MapMi进行比较。然而,在可能的情况下,我们将MapMi的预测与CoGemiR、miRNAminer和miROrtho进行了比较(参见附加文件1). 最完整的比较是与miROrtho进行的,在miROrthon中,方法之间存在高度重叠,对于数据可免费获得的物种。当人类miRBase miRNAs被用作参考集时,这两种方法都预测了478个基因座的共享集,而miROrtho预测了49个MapMi没有检测到的基因座,MapMi检测到139个miROrthon没有检测的基因座(参见附加文件1,图S4)。许多方法侧重于从基因组发夹预测新的miRNA[14]这是一个非平凡的问题。在我们的案例中,我们将重点放在使用序列相似性和RNA二级结构将一个物种中已识别的miRNA映射到其他物种的简单任务上。虽然我们的系统不是为预测新的miRNAs的位点而设计的,但利用其他方法产生的数据将其扩展到其他物种是有用的。我们描述了我们的miRNA定位方法,并证明它表现良好,能够区分真的miRNA和假阳性。该方法可以作为软件和web界面免费使用。此外,我们提供了46个集合基因组和21个集合后生动物基因组中所有miRBase miRNA序列的预计算映射[15]. 我们将通过后续更新Ensembl中所有可用物种的miRBase来维护此资源。

实施

管道

MapMi管道的工作原理如下(图1). 该系统提供了一组与成熟miRNA序列相对应的输入序列。然后用户决定将这些序列映射到哪个物种。MapMi的独立版本允许用户提供自己的基因组序列。使用的基因组之前已经使用RepeatMasker进行了处理[16]去除与已知miRNAs不相似的重复成分[17](参见附加文件1,表S3)。使用Bowtie算法根据选定的基因组扫描所提供的输入序列[18],用于高效的短序列匹配。系统不允许有间隙,但最多允许三个不匹配,默认情况下允许一个不匹配。通过110 nt的延伸(例如70 nt 5'和40 nt 3'以及反之亦然). 然后使用维也纳RNA[19]. 评分功能用于评估每个候选人。评分函数(见下文)考虑了序列匹配的质量和任何预测发夹的结构。根据分数(5'或3')选择最佳候选人。根据分数阈值进一步筛选候选人。这由用户定义,但提供了一些建议的阈值。这些阈值是根据对真miRNA序列和洗牌miRNA序列的经验分析选择的(参见附加文件1,表S4)。所有高于阈值的miRNA前体基因座都会向用户报告其相关分数和其他相关信息。作为替代方案,用户可以使用miRNA名称作为查询来查询预计算结果的数据库,并选择所需的物种和阈值。

图1
图1

MapMi Webserver工作流程MapMi网络管道的工作流程。用户可以通过提供潜在的成熟序列进行映射来使用该服务,或者通过查询结果数据库来使用miRNA名称或作业id(如果检索以前运行的结果)。

最后,MapMi的web版本为预计算结果提供了详细的进一步分析功能。这包括生成和显示最大似然系统发育树(PhyML[20]PhyloWidget(&P)[21])、多序列比对(肌肉[22]Jalview(&J)[23])和RNA结构标志(RNA标志[24]).

评分功能

MapMi在其评分函数中考虑了已知miRNAs的几个特性(方程式1)。在这种情况下,错配、匹配和完美匹配对应于作为茎环两个臂之间预测结构一部分的核苷酸数量。失配对应于结构上未配对的碱基的数量,匹配于结构上配对的碱数,完美匹配对应于实际的碱基配对。成熟失配是通过解析Bowtie的输出获得的,HairpinDeltaG是RNAfold返回的最小自由能值,MismatchPenalty是用户指定的参数。MismatchPenalty参数对于区分有错配的序列和无错配的、可以匹配到相同位点的序列非常重要。可以将参数设置为一个足够大的值,以启用此区分,但同时不会因过度惩罚不匹配而妨碍方法的功能(即,由于惩罚太高,排除不匹配数量小于最大允许数量的序列)。如果可能出现这种情况,则会显示警告。

(1)

验证

负数据集是使用生成的乌瑟夫[25]以对每个初始核苷酸序列产生10次和100次改组。由于其核苷酸组成,4237个初始序列中的一些无法按照要求的次数进行重组。得到的数据集分别包含42366和423343个随机混洗序列。这些数据集针对所有67个正在分析的基因组进行了映射。

重复遮罩

在分析之前应用于基因组的重复掩盖程序有助于避免检测到含有类似于已知miRNAs序列的重复元件。然而,由于这个过程,一些miRBase注释的miRNAs[17]被屏蔽,因此降低了我们方法的敏感性(另请参阅附加文件1,表S1和S2)。

结果和讨论

我们使用所有7844个后生动物miRBase miRNAs将MapMi应用于67个集合和集合后生动物基因组,其中4237个具有唯一序列(参见方法)。总的来说,我们使用默认阈值(35)在分析的所有基因组中确定了16025个位点,包括之前在miRBase中未报告的10944个位点(表1). 各物种miRNAs的系统发育图如图所示2&其他文件1,图S2)。从聚类这些剖面得到的系统发育与已知的系统发育关系大体一致(图). 在进一步分析之前,对基因组进行重复元素屏蔽(参见实现)。

表1 MapMi映射结果。
图2
图2

果蝇miRNAs热图此图是根据存在/缺失矩阵生成的,用颜色编码以说明在分析物种中miRNAs的整体视图中使用MapMi绘图的效果。深紫色对应MapMi预测和miRBase注释之间的重叠。蓝色表示仅存在于MapMi中的miRNAs,而绿色表示miRBase上但在MapMi预测中缺失的miRNA。在这种观点中,对模式生物的偏见显而易见。从图像中也可以清楚地看出,MapMi以一种与后生动物谱系中miRNA的预期进化大体一致的方式补充miRBase。根据NCBI分类中的系统发育关系,对不同物种进行排序。

图3
图3

果蝇miRNAs热图MapMi使用D.黑腹果蝇miRNAs作为查询。数据矩阵聚类生成的树状图。深蓝色表示MapMi和miRBase中都存在miRNA,浅蓝色表示只有一组中存在miRNA。

验证

我们评估评分函数的性能(见等式1)通过比较包含4237 miRBase(Release 14)的阳性数据集沉积的后生动物物种独特序列与包含阳性对照中二核苷酸洗牌版本序列的阴性数据集的得分分布(参见实现)。显示了阳性和阴性对照序列的得分分布(附加文件1,图S1)。这说明根据上述评分函数,真正的miRNAs的表现明显好于洗牌的miRNA。这也使我们能够为平衡敏感性和特异性的大规模绘图项目得出合理的阈值(附加文件1,表S4)。

为了评估我们在更一般的情况下预测miRNA同源物时的管道性能,我们分析了马miRNA的MapMi预测。选择马是因为它是最近在miRBase的最新版本中引入的。我们使用miRBase v13沉积的Metazoan miRNA,不包括马的序列,来预测马的miRNA。MapMi预测和miRBase v14沉积的马miRNA的重叠率为82.99%(附加文件1,表S5)。通过对报告的8494个非miRNA发夹进行分类,验证了我们的分类器功能区分miRNA发卡和其他基因组发夹的能力[26]. 我们获得了93.14%的正确分类率。

对miRBase基因组坐标可用的基因组进行了进一步验证,以评估有多少MapMi预测与miRBase-注释miRNA位点重叠,以及有多少正确命名。我们发现,85.05%的预测与miRBase重叠,99.09%的预测与micRBase同名(表1).

9个miRNAs似乎在大多数物种中高度保守(附加文件1,表S6)。这些miRNAs包括众所周知的let-7家族,以前已知高度保守[10]. 相反,共有636个miRNAs被证明是物种特异性的,主要在鸡中,秀丽线虫牛、鸭嘴兽、人和老鼠。这一结果可能是由于某些生物(例如人类和老鼠)的轮廓更为明显。此外,一些物种几乎没有可供比较的相关物种(例如。十、热带)并且似乎有过多的物种特异性miRNAs。酿酒酵母据信不具备miRNA处理机制,但它存在于Ensembl中,并作为阴性对照保留。正如预期的那样,在酿酒酵母这些结果表明,虽然miRBase对许多物种具有良好的覆盖率,但它似乎只捕获了一些物种中miRNAs总数的一小部分。因此,我们认为这些结果可以补充miRBase。

结论

我们提出了一种通过序列相似性和二级结构进行miRNA映射的新系统,该系统可以作为独立工具和在线网络资源使用。我们在各种数据集上证明了该方法的选择性和敏感性,并将其应用于大量基因组。这对于最近测序的基因组特别有用,因为miRNA信息可能缺失或稀疏。使用这种方法,我们在67个基因组中绘制了miRNA位点,其中许多在miRBase中不存在。我们为许多基因组提供了一个网络接口和一个预计算的miRNA位点数据库、多序列比对和系统发育树,我们希望该系统将被证明对社区有用。

可用性和要求

  • 项目名称:MapMi

  • 项目主页:http://www.ebi.ac.uk/enright-srv/MapMi/

  • 操作系统:独立于平台(Web服务)、Linux和MacOS X(独立版本)

  • 编程语言:Perl

  • 其他要求:蝴蝶结、防尘、RNAfold(仅适用于独立版本)

  • 许可证:GNU GPL

工具书类

  1. Flynt AS,Lai EC:微RNA介导调控的生物学原理:多样性中的共同主题。Nat Rev基因2008, 9(11):831–42. 10.1038/编号2455

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  2. Kim V,Han J,Siomi M:动物体内小RNA的生物发生。Nat Rev Mol细胞生物学2009, 10(2):126–139. 10.1038/编号2632

    第条 中国科学院 公共医学 谷歌学者 

  3. Lagos-Quintana M、Rauhut R、Meyer J、Borkhardt A、Tuschl T:来自小鼠和人类的新microRNAs。核糖核酸2003, 9(2):175–9. 10.1261/rna.2146903

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  4. Landgraf P、Rusu M、Sheridan R、Sewer A、Iovino N、Aravin A、Pfeffer S、Rice A、Kamphorst AO、Landthaler M、Lin C、Socci ND、Hermida L、Fulci V、Chiaretti S、Foffa R、Schliwka J、Fuchs U、Novosel A、Müller RU、Schermermer B、Bissels U、Inman J、Phan Q、Chien M、Weir DB、Choksi R、Vita GD、Frezzetti D、Trompeter HI、Hornung V、Teng G、Hart曼恩·G,Palkovits M、Lauro RD、Wernet P、Macino G、Rogler CE、Nagle JW、Ju J、Papavasiliou FN、Benzing T、Lichter P、Tam W、Brownstein MJ、Bosio A、Borkhardt A、Russo JJ、Sander C、Zavolan M、Tuschl T:基于小RNA文库测序的哺乳动物微RNA表达图谱。单元格2007, 129(7):1401–14. 2016年10月10日/j.cell.2007.04.040

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  5. Kim VN,Han J,Siomi MC:动物体内小RNA的生物发生。Nat Rev Mol细胞生物学2009, 10(2):126–39. 10.1038/编号2632

    第条 中国科学院 公共医学 谷歌学者 

  6. Giraldez AJ、Mishima Y、Rihel J、Grocock RJ、Dongen SV、Inoue K、Enright AJ、Schier AF:斑马鱼MiR-430促进母体mRNA的去烯基化和清除。科学类2006, 312(5770):75–9. 10.1126/科学.1122689

    第条 中国科学院 公共医学 谷歌学者 

  7. Alvarez-Garcia I,Miska EA:小RNA在动物发育和人类疾病中的作用。开发2005, 132(21):4653–62. 10.1242/版本02073

    第条 中国科学院 公共医学 谷歌学者 

  8. Zhang B,Pan X,Cobb GP,Anderson TA:植物microRNA:一种具有重大影响的小调节分子。求文献一篇2006, 289: 3–16. 2016年10月10日/j.ydbio.2005.10.036

    第条 中国科学院 公共医学 谷歌学者 

  9. Griffths-Jones S、Saini HK、Dongen SV、Enright AJ:miRBase:microRNA基因组学工具。核酸研究2008,(36数据库):D154–8。

  10. Pasquinelli AE、Reinhart BJ、Slack F、Martindale MQ、Kuroda MI、Maller B、Hayward DC、Ball EE、Degnan B、Müller P、Spring J、Srinivasan A、Fishman M、Finnerty J、Corbo J、Levine M、Leahy P、Davidson E、Ruvkun G:let-7异慢性调节RNA的序列和时间表达的保护。自然2000, 408(6808):86–9. 10.1038/35040556

    第条 中国科学院 公共医学 谷歌学者 

  11. Gerlach D、Kriventseva EV、Rahman N、Vejnar CE、Zdobnov EM:miROrtho:微RNA基因的计算调查。核酸研究2009年,(37数据库):D111-7。10.1093/nar/gkn707

    谷歌学者 

  12. Artzi S,Kiezun A,Shomron N:miRNAminer:同源微小RNA基因搜索工具。BMC生物信息学2008, 9: 39. 10.1186/1471-2105-9-39

    第条 公共医学 公共医学中心 谷歌学者 

  13. Maselli V,Bernardo DD,Banfi S:CoGemiR:比较基因组学microRNA数据库。BMC基因组学2008, 9: 457. 10.1186/1471-2164-9-457

    第条 公共医学 公共医学中心 谷歌学者 

  14. Mendes N,Freitas A,Sagot MF:鉴定miRNA基因及其靶点的当前工具。核酸研究2009年,gkp145-gkp245。

    谷歌学者 

  15. 哈伯德·TJP、阿肯·BL、艾琳·S、Ballester B、Beal K、Bragin E、Brent S、Chen Y、Clapham P、Clarke L、Coates G、Fairley S、Fitzgerald S、Fernandez-Banet J、Gordon L、Graf S、Haider S、Hammond M、Holland R、Howe K、Jenkinson A、Johnson N、Kahari A、Keefe D、Keenan S、Kinsella R、Kokocinski F、Kulesha E、Lawson D、Longden I、Megy K、Meidl P、,Overduin B、Parker A、Pritchard B、Rios D、Schuster M、Slater G、Smedley D、Spooner W、Spudich G、Trevanion S、Villela A、Vogel J、White S、Wilder S、Zadisa A、Birney E、Cunningham F、Curwen V、Durbin R、Fernandez-Suarez XM、Herrero J、Kasprzyk A、Proctor G、Smith J、Searle S、Flicek P:合奏2009。核酸研究2009年,(37数据库):D690-7。10.1093/nar/gkn828

    谷歌学者 

  16. Smit A、Hubley R、Green P:重复Masker.2004。[http://www.ebi.ac.uk/enright-srv/MapMi/]

    谷歌学者 

  17. Piriyapongsa J,Marino-Ramirez L,Jordan I:转座元件中人类microRNA的起源和进化。遗传学2007, 176(2):1323. 10.1534/遗传学.107.072553

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  18. Langmead B、Trapnell C、Pop M、Salzberg S:短DNA序列与人类基因组的超快速和记忆效率比对。基因组生物学2009年10月(3):R25-R25。10.1186/gb-2009-10-3-r25

    第条 公共医学 公共医学中心 谷歌学者 

  19. Hofacker I,Fontana W,Stadler P,Bonhoeffer L:RNA二级结构的快速折叠和比较。Monatsheft für Chemie/Chemical月刊1994

    谷歌学者 

  20. Guindon S,Gascuel O:一种简单、快速、准确的算法,用于通过最大似然估计大型系统发育。系统生物2003, 52(5):696–704. 10.1080/10635150390235520

    第条 公共医学 谷歌学者 

  21. Jordan GE,Piel WH:PhyloWidget:基于网络的生命树可视化。生物信息学2008, 24(14):1641–2. 10.1093/生物信息学/btn235

    第条 中国科学院 公共医学 谷歌学者 

  22. Edgar RC:肌肉:高精度和高通量的多序列比对。核酸研究2004, 32(5):1792–7. 10.1093/nar/gkh340

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  23. Waterhouse AM、Procter JB、Martin DMA、Clamp M、Barton GJ:Jalview第2版-多序列比对编辑器和分析工作台。生物信息学2009, 25(9):1189–91. 10.1093/生物信息学/btp033

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  24. Chang TH,Hong JT,Huang HD:RNALogo:显示结构RNA比对的新方法。核酸研究2008,(36 Web服务器):W91–6。10.1093/nar/gkn258

    谷歌学者 

  25. Jiang M,Anderson J,Gillespie J,Mayne M:uShuffle:一种在保留k-let计数的同时对生物序列进行洗牌的有用工具。BMC生物信息学2008, 9: 192. 10.1186/1471-2105-9-192

    第条 公共医学 公共医学中心 谷歌学者 

  26. Batuwita R,Palade V:microPred:人类miRNA基因预测前miRNA的有效分类。生物信息学2009, 25(8):989–995. 10.1093/生物信息学/btp107

    第条 中国科学院 公共医学 谷歌学者 

下载参考资料

致谢

作者想感谢EMBL-EBI恩赖特实验室的其他成员。

我们也感谢台湾国立中央大学的张子浩(Tzu-Hao Chang)为我们提供了RNALogo软件的独立版本。

JAG-A感谢Mali Salmon-Divon(EMBL-EBI)的有益评论和讨论,感谢Gregory Jordan(EMBL/EBI)协助集成PhyloWidget。

JAG-A是剑桥大学克莱尔霍尔学院的成员。

JAG-A得到了葡萄牙Oeiras Gulbenkian de Ciencia研究所计算生物学博士项目Fundaáo para A Ciencia e Tecnologia的研究金SFRH/BI/33193/2007和SFRH/BD/33527/2008的支持。该博士项目也由Fundaço Calouste Gulbenkian和Siemens SA赞助。

作者信息

作者和附属机构

作者

通讯作者

通信至安东·恩赖特.

其他信息

作者的贡献

JAG-A进行了分析并撰写了手稿。AJE构思了这个实验,也写了手稿。

电子辅助材料

12859_2009_3590_MOESM1_ESM。PDF格式

附加文件1:补充信息。包含PDF格式补充图形和表格的多页文件。可以使用任何标准的PDF查看应用程序(例如Acrobat Reader)打开。(PDF 822 KB)

作者提交的原始图像文件

下面是作者提交的原始图像文件的链接。

图1的作者原始文件

图2的作者原始文件

图3的作者原始文件

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0),允许在任何媒体上不受限制地使用、分发和复制,前提是正确引用了原作。

转载和许可

关于本文

引用这篇文章

Guerra-Assunáo,J.A.,Enright,A.J.MapMi:微RNA基因座的自动绘图。BMC生物信息学 11, 133 (2010). https://doi.org/10.1186/1471-2105-11-133

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1471-2105-11-133

关键词