简介
MicroRNAs(miRNAs)是一种小的非编码RNA(~22nt),参与基因表达的转录后调控。miRNAs通过与通常位于其靶区3′UTR的特定序列结合,促进信使RNA的降解或抑制其表达(1). 因此,miRNAs可以影响数百个基因的表达,并且是生物过程的重要调节器。因此,它们的表达具有洞察力,并已应用于许多生物体和条件(2).
为了解释与疾病相关的miRNAs的生物学影响,研究通常包括生物信息学基于已知或推断的miRNA靶基因的通路分析。例如,在人类中,不同疾病(如癌症)的miRNA特征(三)、糖尿病(4)、传染病(5)或各种神经退行性疾病(6–10)已被描述,以及关于它们最终调节的生物过程的假设。
在这里我们展示了生物信息学在这类研究中广泛应用的方法,即识别由miRNA标记调控的途径,具有强烈的偏见,并且总是导致识别高度相关的生物过程。我们还探索了这种方法的替代方案,专门关注与阿尔茨海默病中miRNAs相关的一个特殊综述(10). 最后,我们描述了一种不受现有知识影响的策略,我们认为它应该优先于基于类似设计的未来研究。
结果
为了比较miRNA信号通路的不同关联策略,以下结果主要来自对阿尔茨海默病(AD)中差异表达的miRNA的重新分析(10),我们的研究兴趣之一。在他的综述中,与健康对照组相比,Satoh在AD患者中发现了16个miRNA过度表达(AD上升)和113个miRNA低表达(AD下降)。
以下所有分析均基于将通路视为蛋白质编码基因列表。因此,所有策略共同的一个重要步骤是首先确定miRNAs的靶基因。有多种资源可用于执行此步骤(请参阅“材料和方法”部分)。再次,为了比较这些策略,我们特意将重点放在其中一个资源上:mirTarBase(11). 将AD-up和AD-down miRNA与mirTarBase中可用的miRNA标识符进行比较,得出16和99个miRNA的列表略小(补充表S1)。此外,进行以下分析的主要途径列表来自KEGG数据库(16)由KEGG.db包提供(15).
策略1:在天然途径中间接富集miRNA靶基因
识别与miRNA列表相关的通路的最直接和广泛使用的策略是对miRNA靶基因进行富集分析(图)(例如(三,4,6–10)). 首先,使用参考数据库或预测算法识别任何感兴趣的miRNA的靶基因。然后通过富集分析(参见“材料和方法”)测量目标基因和途径基因之间重叠的重要性。该策略应用于miRNAs的AD-up和AD-down列表。
识别miRNA特征相关通路的策略。圆圈代表蛋白质编码基因和发夹miRNAs。具有与miRNA相同颜色的基因被该miRNA靶向。白色基因不被任何miRNA靶指向(一)策略1:使用生物信息学资源,然后将其与属于每个天然途径的蛋白质编码基因进行比较。(b条)策略2:与策略1相同,但路径被定制为仅使基因被至少一个miRNA靶向(c(c))策略3:蛋白质编码基因的通路在靶向至少一个基因的miRNAs列表中转换。然后将miRNA信号与miRNAs转化途径直接进行比较。
根据mirTarBase,16个AD-up miRNAs中至少有一个针对70个基因。这些靶基因在38条KEGG通路(补充表S1-AD-up-S1通路)的基因中显著富集(FDR<0.05)。同样,99个AD-down miRNAs导致762个靶基因的鉴定(补充表S1-AD-down靶基因)显著富集在73个KEGG通路的基因中(补充表S-AD-down-S1通路)。有趣的是,这两个miRNA列表共有37条通路,即使根据定义,没有miRNA属于这两个列表。这一观察结果使人怀疑该方法的有效性及其产生的结果。
为了评估该策略的特异性,将相同的工作流程应用于1000个随机选择的16(RAND-16)和99(RAND-99)miRNA,长度列表分别等于AD-up和AD-down miRNA。RAND-16平均靶向120个基因(SD=46),RAND-99 miRNAs靶向555个基因(SD=78)。在229条KEGG通路中,有14条在至少90%的RAND-16靶点中富集(FDR<0.05),64条KEGG通路在至少10%的RAND-18靶点富集。这64条通路包括之前确定的38条AD-up S1通路中的37条(97%)。同样,51条KEGG通路富集在至少90%的RAND-99靶点中,78条通路富集于至少10%的RAND-1999靶点,包括73条ADdown S1通路中的72条(99%)。这一结果表明,在miRNAs相关文献中广泛使用的这一策略是有偏见的,并导致高度非特异性的结果,即无论miRNA的初始输入列表是什么,通常都会识别出相同的路径。
随机选择mirRNA的结果表明,整个miRNA靶点列表对生物功能的子集有偏见。为了验证这一假设,从mirTarBase中至少一个miRNA靶向的1324个基因的整个列表开始进行了富集分析。73条KEGG通路显著富集了这些1324个miRNA靶基因(FDR<0.05),它们主要与癌症和细胞周期有关(补充表S2)。表显示了20个最重要的。与之前的AD用例相比,38条AD-up和73条AD-down S1通路中有37条是在整个miRNA靶基因列表中非特定富集的通路中常见的(图). 这一结果表明,mirTarBase中可用的靶点对某些KEGG途径具有强烈的偏见。
应用策略1时与miRNA特征相关的途径。(一)根据mirTarBase,AD-up S1通路、AD-down S1通路和富含至少一个miRNA靶向基因的通路。(b条)根据MetaBase、TargetScan或mirTarBase,富含至少一个miRNA靶向基因的途径。红色数字对应KEGG路径,蓝色数字对应MetaBase路径。
表1。
根据mirTarBase,至少一个miRNA靶向的所有蛋白质编码基因中富集的前20条通路
| 排名 | P(P)-价值 | 财务总监 | 阿尔茨海默病(10) | 脊索瘤(三) | 开发人脑(18) | 外周动脉疾病(19) |
---|
癌症的途径 | 1 | 2.68E-61页 | 6.15E-59页 | 对 | 对 | | 对 |
前列腺癌 | 2 | 3.17E-32型 | 3.63E-30型 | 对 | 对 | 对 | 对 |
胰腺癌 | 三 | 2.5E-29型 | 1.72E-27号机组 | 对 | 对 | 对 | 对 |
慢性粒细胞白血病 | 三 | 3.01E-29级 | 1.72E-27号机组 | 对 | | 对 | 对 |
大肠癌 | 5 | 1.09E-26号机组 | 4.99E-25型 | 对 | | | 对 |
焦点粘连 | 6 | 1.5E-23型 | 5.71E-22号机组 | 对 | 对 | | 对 |
神经营养素信号通路 | 7 | 3.65E-23型 | 1.19E-21号机组 | | 对 | | 对 |
MAPK信号通路 | 8 | 7.01E-22年 | 2.01E-20年 | 对 | 对 | | 对 |
小细胞肺癌 | 9 | 第22页第8.74页 | 2.23E-20号机组 | 对 | 对 | | 对 |
破骨细胞分化 | 10 | 2.81E-21型 | 5.84E-20型 | | | | 对 |
细胞周期 | 10 | 2.81E-21型 | 5.84E-20年 | 对 | 对 | | 对 |
膀胱癌 | 12 | 7.62E-21页 | 1.45E-19号机组 | 对 | | | 对 |
肾细胞癌 | 13 | 2.96E-20型 | 5.21E-19年 | 对 | 对 | 对 | 对 |
恰加斯病(美国锥虫病) | 14 | 1E-19级 | 1.64E-18 | | | | 对 |
弓形虫病 | 15 | 5.59E-18型 | 8.24E-17页 | | | | 对 |
黑色素瘤 | 15 | 5.76E-18号机组 | 8.24E-17页 | 对 | | | 对 |
子宫内膜癌 | 17 | 8.94E-18号机组 | 1.2E-16号机组 | 对 | | | 对 |
Toll样受体信号通路 | 18 | 1.23E-17号机组 | 1.57E-16型 | | | | 对 |
T细胞受体信号通路 | 19 | 3.15E-17号机组 | 3.8E-16段 | | 对 | 对 | 对 |
胶质瘤 | 20 | 9.45E-17号机组 | 1.08E-15号机组 | 对 | 对 | 对 | 对 |
为了检查偏差是否仅与mirTarBase和KEGG途径有关,使用其他资源应用相同的方法进行miRNA靶点识别和生物途径。许多KEGG通路也被targetScan提供的另外两个miRNA靶点列表所丰富(12–14)和Thomson-Reuters MetaBase(图). 此外,在对MetaBase途径进行富集分析时,无论miRNA靶点的来源如何,都观察到了类似的偏差(图和). 综上所述,这些结果表明,不同的识别miRNA靶点的方法或不同的生物途径资源都存在这种偏见。
在他的评论中,佐藤(10)描述了20条与AD大脑中miRNAs下调相关的前KEGG通路(补充表S2)。然而,根据我们的结果,这些途径与未明确识别的途径有很大的重叠。因此,与作者声称的相反,AD大脑中低表达的miRNA参与这20种途径的调节,目前还没有得出任何结论。
其他与miRNA特征相关的类似研究使用这种策略来识别受影响的通路。例如,一项研究发现miRNAs在人脑发育过程中有差异表达(18)另一种是外周动脉疾病的放松管制(19)第三个是脊索瘤(三). 这些出版物中描述的大多数途径也被完整的miRNA靶点列表(分别为9/11、51/56和34/44)所丰富,因此无法得出有关miRNAs对病灶条件的特异性调节的任何结论(表和补充表S2)。这些结果表明,这种偏倚策略对miRNA相关文献产生了强烈的负面影响,并提出需要建立一种新的无偏倚分析策略,用于从miRNA签名中识别通路。
无论使用何种数据库,通过上述方法确定的许多途径都与癌症相关,这表明与蛋白质编码基因相比,在该领域对microRNA存在知识偏见。为了验证这一假设,使用文本挖掘方法比较了miRNA和蛋白质编码基因在癌症相关科学文献中的相对表达(补充信息)。该分析证实了当前有关miRNA在疾病中作用的知识对肿瘤和癌症相关过程的重大偏见。在进行分析时,例如本例中的路径识别,所使用的方法不应受到知识表示中任何偏见的影响。
策略2:在定制路径中间接富集miRNA靶基因
在第一种策略中,将属于每个通路的所有基因都考虑在内,以计算与miRNA签名目标列表重叠的重要性。然而,这些基因中的许多尚未被miRNA靶向,我们之前的研究表明,miRNA靶点显著富集了一些主要与癌症相关的途径的基因。因此,如果不考虑这种不平衡,这些途径有更多的机会被选择。处理这种偏见的最直接的方法是调整路径,使其只被至少一个miRNA靶向基因,使用相同的资源来确定感兴趣的miRNA列表的靶向(图). 这一新策略再次应用于miRNAs的AD-up和AD-down列表。
应用此策略时,5条KEGG通路(AD-up S2通路)富集于AD-up靶点(FDR<0.05),3条KEGGG途径(AD-down S2通路。为了评估该策略的特异性,对RAND-16和RAND-99 miRNAs应用了相同的工作流程。12条KEGG通路富集在至少10%的RAND-16靶点中,包括所有5条AD-up S2通路。同样,18条KEGG通路富集在至少10%的RAND-99靶点中,包括所有三条ADdown S2通路(补充表S1)。这些结果表明,这种基于miRNA靶基因路径资源过滤的替代策略,即使与第一种策略相比,最终选择的路径更少,也没有特异性。
这种方法的低特异性可能与识别感兴趣的miRNA靶向的基因有关。事实上,由于进行富集分析的基因是间接选择的,针对每个基因的miRNAs的数量可能会影响将其纳入富集分析的概率,许多miRNAs-针对的基因在策略的第一步中有更多的机会被选择。为了验证这一假设,对mirTarBase中的整个靶基因列表以及1000、500、100和50个最常见的靶基因进行了富集分析。通过设计,1324个miRNA靶基因的整个列表没有显著丰富的通路,只有一个通路富含前1000个最具靶基因。相比之下,20、12和18条KEGG通路分别显著丰富(FDR<0.05),其中前500、100和50个靶基因,其中大多数通路与癌症生物学有关(补充表S2)。这一结果表明,在该方法的第一步中,有更多机会被选择的基因在某些途径中已经显著富集,从而使该策略的第二步不平衡。
同样,为了检查此结果对工具和数据库的依赖性,使用替代资源应用了相同的工作流。当使用其他来源进行miRNA靶点鉴定和对MetaBase途径进行富集分析时,也观察到了相同的偏差(图). 这一结果表明,这种偏见与方法本身有关,而与它使用的知识资源无关。
应用策略2时,根据MetaBase、TargetScan或mirTarBase,miRNAs靶向的前500个基因中富集的路径。红色数字对应KEGG路径,蓝色数字对应MetaBase路径。
策略3:在转化途径中直接富集miRNAs
为了避免与先前描述的将被包括在富集分析中的基因的间接鉴定相关的偏差,设置了第三种策略(图). 首先,蛋白质编码基因的通路在靶向其中至少一个基因的miRNAs列表中转换。然后,通过将感兴趣的miRNAs列表与之前与不同途径相关的miRNA列表进行直接比较,进行富集分析。这种策略确保miRNA在一条通路中只出现一次,而不管其在该特定通路中的靶基因数量如何。
将该策略应用于AD用例后,发现16个AD-up miRNAs中没有一条通路显著富集,而99个AD-down miRNAs(AD-downS3通路)中有81条通路显著浓缩(FDR<0.05)(补充表S1)。再次,为了评估这种新策略是否能提高特异性,该方法被应用于1000个随机选择的16或99个miRNAs。在1000个试验中,没有一条通路被选择超过三次(FDR<0.05),这清楚地支持了这种方法的特异性。
再次,对识别miRNA靶点的不同工具进行了比较,以评估它们对与miRNA特征相关的通路的影响。除了不同工具之间的强烈重叠外,只有在仅使用其中一种工具时,才能识别出大量的途径(图). 同样,使用MetaBase途径也采用了同样的策略,并导致识别出631条富含AD-down miRNAs的途径,而没有富含AD-up miRNAs。同样,从1000个随机选择的16或99个miRNA开始,没有任何Metabase途径被选择超过两次(FDR<0.05)。这一观察反映了所用工具和资源中知识的不同表现,更重要的是,新方法可以应用于不同的资源,其知识偏见不会影响最终结果的统计相关性。
应用策略3时与ADdown miRNAs相关的途径。使用MetaBase、TargetScan或mirTarBase鉴定了靶向不同通路中蛋白质编码基因的miRNAs。红色数字对应KEGG路径,蓝色数字对应MetaBase路径。
然而,考虑到miRNA的数量(99),AD-down miRNAs显著富集的路径数量惊人地多(81个KEGG和631个Metabase路径)。这一结果表明,这些途径共享许多miRNAs。
为了验证这一假设,将与每个miRNA相关的KEGG通路的数量与包含每个原始蛋白质编码基因的通路的数量进行比较。如图所示,有许多miRNAs与10多种途径相关(图)而大多数蛋白质编码基因与<5相关(图). 这一结果表明,在miRNA水平上,通路信息比在基因水平上冗余得多。
蛋白质编码基因和miRNAs水平的KEGG通路冗余。(一)KEGG.db包中与每个Entrez基因ID相关的通路数量分布。(b条)使用mirTarBase信息的与每个miRNA相关的途径数量的分布。(c(c))平均至少20%的Entrez基因ID共享的每个路径簇的路径数分布(d日)使用mirTarBase信息,平均共享至少20%相关miRNAs的每个路径簇的路径数分布。
在蛋白质编码基因水平上计算每个通路对的Jaccard指数上,应用层次聚类法对这种相对重叠的结构进行了比较(
)(补充图S1)和miRNAs水平(补充图S2)。根据平均Jaccard指数20%定义路径簇。每个集群的路径数量如图所示和一方面,大多数途径与其他途径共享的蛋白质编码基因不超过20%(图). 另一方面,有一个由70条路径组成的大簇,平均共享其相关miRNAs的20%以上,并且许多其他路径在此水平上相互关联(图).
这一结果表明,基因的通路富集通常是相互独立的,而miRNAs的情况并非如此。事实上,81条通路中的大多数(58条)显著富集在AD大脑中表达不足的99个miRNAs中,属于70条通路的大簇(补充表S1)。因此,很难确定哪些与疾病相关。
然而,在99个AD下调的miRNA中显著富集的11个途径属于小簇(≤2个途径)。这11条通路可能对重点研究更具特异性:参与阿尔茨海默病的miRNA调控。为了加强这一假设,阿尔茨海默病KEGG通路属于这11条通路。该通路与99个AD-down miRNAs重叠的FDR为0.007。这条途径没有被前两种策略识别出来。
同样的策略也被应用于之前的研究确定为在人脑发育过程中差异表达的各种额外miRNA列表(18),在外周动脉疾病中(19)或脊索瘤(三). 22条KEGG通路与脊索瘤中过度表达的miRNA显著相关(FDR<0.05),这也与原始出版物中确定的不同(补充表S3)。在其他miRNA列表中,没有发现一条通路显著富集,因此从通路的角度解释这些通路很困难。
讨论
这里我们展示了最常用的生物信息学推断受miRNA特征调控的通路的策略并不具体,因此可以系统地识别高度相关的生物过程,即细胞周期和癌症生物学。在这种间接方法中,将miRNAs的靶点与蛋白质编码基因的通路进行比较。许多与差异表达miRNAs的功能解释相关的已发表结果都基于这种有偏见的间接分析(例如(三,10,18,19))并识别相似的生物过程,即使感兴趣的条件非常不同。我们的结果表明,此类研究关于推断调控途径的结论不可信,应在新的无偏见分析后进行审查。此外,这些结果还表明,应用此策略的工具,如DIANA mirPath(20),应进行修改,以考虑到这种偏差。
为了避免这种偏见,还探索了两种替代方案。一个与之前的策略高度相关,但路径中考虑的蛋白质编码基因仅限于已知的miRNAs靶点。我们发现,由于与癌症高度相关的miRNA生物学知识,这种其他间接策略也有偏见。正如莫克最近讨论的那样(21)这种偏见可能与研究失衡或miRNAs本身的潜在功能有关。在任何情况下,在使用当前知识进行分析时,如路径分析时,都必须考虑到这一点。
我们探讨的最后一个策略与前两个策略相反。蛋白质编码基因的通路被转换为靶向原始通路中至少一个基因的miRNAs列表,避免了靶向同一通路中多个基因的micRNAs的过多计算。然后,直接使用聚焦下的miRNA签名进行富集分析。最近,我们将这种方法应用于各种癫痫小鼠模型的miRNA特征(22)我们提出了这些miRNAs在该病理学炎症通路调节中的作用。这种方法不受当前知识的偏见,并且结果对每个miRNA特征都是特异的。然而,我们也表明,许多途径共享大量miRNAs,往往导致它们的共同鉴定。为了避免这个问题,也为了减少无用的多次测试,可以在任何富集分析之前聚合这些类似的转化途径。
更一般地说,当不直接从基因开始,而是从其上游调节器(例如miRNAs、转录因子或蛋白激酶)开始时,应小心富集蛋白质编码基因通路。在这种情况下,本研究框架中确立的替代战略可以得到有益的应用。无论如何,分析中应始终包括适当的负面控制,以评估与所选策略相关的任何潜在偏差。