跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
公共科学图书馆一号。2011; 6(2):e17429。
2011年2月25日在线发布。 数字对象标识:10.1371/journal.pone.0017429
预防性维修识别码:PMC3045450型
PMID:21364759

NAViGaTing the Micronome–使用多个MicroRNA预测数据库识别与信号通路相关的MicroRNA

埃斯特班·巴利斯塔,编辑器

关联数据

补充资料

摘要

背景

微RNA是一类已知的小RNA,可以在转录水平、蛋白质水平或两者都调节基因表达。由于microRNA结合是基于序列的,但可能是结构特异的,因此该领域的工作导致了多个数据库存储预测的microRNA:使用不同算法计算的靶关系。我们整合预测数据库,将预测与在体外数据,并使用跨数据库预测来建模microRNA:转录物相互作用组-称为微米组–研究microRNA参与已知信号通路以及与疾病的关系。我们通过灵活的用户界面免费提供这些数据,作为我们的microRNA数据集成门户-mirDIP(http://ophid.utoronto.ca/mirDIP).

结果

mirDIP整合预测数据库以阐明精确的microRNA:靶关系。使用NAViGaTOR生成相互作用网络,在基于文献的、基于KEGG的和基于反应体的通路中涉及microRNA,我们发现这些信号通路网络与偶然性相比,microRNA的参与显著更多(p<0.05),表明microRNA共同靶向给定通路中的许多基因。对微粒子的进一步检测显示了两类不同的microRNA;宇宙microRNA参与许多信号通路;通路内microRNA它针对一条信号通路中的多个基因。我们发现,与途径内微RNA相比,宇宙微RNA具有更多的靶点(p<0.0001),需要更多的研究(p<00002),并且在KEGG癌症途径中具有更高的程度(p<00.0001)。

结论

我们对mirDIP数据的基于通路的分析表明,微小RNA参与通路内信号传导。我们确定了两类不同的microRNA,表明microRNA在通路内和通路间共同靶向基因的层次结构,并暗示宇宙和通路内microRNAs在疾病水平上的不同参与。

介绍

微RNA是短而重要的非编码RNA序列,用于调节基因表达[1]它们被认为以mRNA的3′非翻译区(UTR)为靶点,破坏其转化为蛋白质的能力,有时抑制mRNA本身的表达[2],[3],[4],[5],[6],[7],[8],[9].MicroRNA预测算法通常将MicroRNA的种子区域(MicroRNA 5′端的碱基2–8)与同源mRNA序列配对。然而,这种结合因许多因素而变得复杂,尤其是发生了不完美的微小RNA:mRNA结合,因此必须考虑单碱基对错配和G:U摆动碱基对。

在蠕虫中发现第一个microRNA–lin-4(C.优雅)[10],1989年进一步描述[11],1993年注释为非编码RNA,其序列与lin-14 3′UTR互补[1],[12]以及功能表征在当年晚些时候具有翻译抑制效应[13]开辟了丰富的研究领域。许多后续在体外旨在揭示microRNA的实验和计算预测:研究microRNA对基因表达调控的影响的目标关系。随着第二种针对lin-41和hbl-1的线虫microRNA-let-7的发现,microRNAs的概念从蠕虫跳到了更高级的物种,因为let-7甚至在人类中也有已知的同源物[14],[15],[16]2001年,在三篇背对背的科学论文中为这类非编码基因调节器创造了术语“microRNA”[17],[18],[19]microRNA的发现已经跨越到人类领域,寻找microRNA靶点成为当务之急。在第一次生物信息学尝试预测植物microRNA之后[5],许多microRNA预测算法,适用于两只苍蝇(黑腹果蝇)和人类(智人),已开发[20],[21],[22]已经创建了10多个用于microRNA:mRNA靶预测的公共数据库,所有这些数据库都使用不同的算法和方法。考虑到不同程度的序列相似性、保守性、位点可访问性和mRNA的不同靶区,所有数据库都为microRNA问题增加了新的复杂性[20],[23],[24],[25],[26],[27],[28],[29],[30],[31],[32],[33],[34],[35],[36],[37],[38],[39],[40].

为了可视化和分析微小RNA:mRNA靶点映射的不同预测之间的这些复杂关系,我们借鉴了蛋白质-蛋白质相互作用和基因调控网络的思想。我们首先将所有数据库集成到免费的数据门户mirDIP(microRNA数据集成门户)中,并使用NAViGaTOR(网络分析、可视化和多伦多绘图)[41]分析并可视化产生的microRNA网络:mRNA靶向映射-microRNA相互作用网络(微米组).

结果和讨论

microRNA预测数据库的特点

microRNA有许多特点:每个microRNA预测数据库都考虑到了mRNA靶结合的不同组合。我们首先回顾这些标准。表1显示了本研究中考虑的所有数据库。为了更好地整合这些预测,我们详细考虑了单个microRNA预测算法的特点,并将其总结为表2。用于预测的所有十一组主要特征如下所述:

表1

微RNA预测数据库。
数据库细节映射的交互微小RNA唯一映射目标
目标扫描保护189,07567516,512
目标扫描无缺点。1,457,48467717,678
RNA22号3英尺UTR264, 63031314,949
RNA22号5英尺UTR53,4053137,333
RNA22号客户尽职调查487,11031319,766
Microrna.org网站保护956,66467716,875
mir底座保护568,09971121,111
PITA公司热门歌曲208,93767710,143
PITA公司* 全圣时期精选4,010,54867716,942
PicTar公司* 4路56,2291786,792
PicTar公司5路17,2241292,534
微量T$ 3.0版1,434,40655517,585
*未用于所有比较,也未用于构建microRNA相互作用网络,因为它是顶级数据库预测的超集。
$未用于所有比较,也未用于构建微小RNA相互作用网络,因为在数据管理时无法批量下载。

表2

微RNA预测数据库的特点。
目标扫描已送达目标扫描非保守RNA22 3′UTRRNA22 5′UTR基因RNA22 CDSmicroRNA.org网站microCosm(以前叫mirBase)PITATop点击PITA全部命中picTar 4路picTar 5路戴安娜microT
保护X(X)* X(X)X(X) § § X(X)X(X)X(X)
网站可访问性X(X)X(X)
当地AU含量X(X)X(X)
多结合位点(1 microRNA)X(X)X(X)X(X)X(X)X(X)X(X)X(X)X(X)X(X)
多结合位点(>1 microRNA)X(X)¥ X(X)¥
使用miRandaX(X)X(X)
双原子的自由能X(X)X(X)X(X)X(X)X(X)X(X)X(X)
检查周围序列X(X)X(X)X(X)X(X)
加权5′端或考虑种子类型X(X)X(X)X(X)X(X)X(X)
*Targetscan Conserved使用守恒,但它没有集成到上下文得分中。
§PITA在得分目标中没有明确使用守恒。然而,可访问的microRNA结合位点往往表现出高度保守性。
¥picTar确实预测了与单个3′UTR结合的多个microRNA;然而,该数据并未用于本研究。
  1. 种子序列匹配。所有预测算法都依赖于此准则。考虑到碱基对错配和G:U摆动,这在microRNA结合中很重要[42]预测算法寻找microRNA的5′端和mRNA靶序列的3′端之间的高度互补性。特别注意种子区(microRNA 5′端的碱基2-8)。
  2. 保护。许多预测算法都考虑到了mRNA靶中microRNA结合序列的保守性。通常用作过滤步骤,高度保守的目标位点被认为可以产生更可靠的预测。某些数据库不直接使用保护(目标可及性交互概率(PITA))[30],[34],未直接纳入其他评分中(Targetscan)[24],[27],[33],在其他(RNA22)中根本不使用[34]有趣的是,PITA结果表明考虑位点可及性与考虑保守性类似,因为可获得的3′UTR microRNA结合位点往往位于保守性区域[30]为了减少分析中的偏差,我们使用了有守恒和无守恒的预测。
  3. microRNA的自由能:mRNA双链。microRNA的自由能:mRNA双链(ΔG),通常使用维也纳折叠软件包计算[43],[44],[45]或RNA杂交[46]它评估形成microRNA所需的能量:mRNA从完全游离状态开始的双链-负值越大,表示两个RNA结合的倾向越大。
  4. 现场可达性。许多预测算法没有考虑站点可访问性。测量为用于PITA的ΔΔG,它比较了已经折叠的3′UTR展开以允许microRNA到达靶位点,以及重新折叠到microRNA:mRNA双链的能量需求[30]ΔΔG越负,表明microRNA:mRNA构型的折叠能量越有利。
  5. 多个结合位点的贡献。许多算法奖励在特定基因的3′UTR内具有多个结合位点的microRNA,理由是microRNA能够对目标表达产生剂量依赖性影响。结合位点可以是单个microRNA或多个不同microRNA的结合位点,这些microRNA表现出协同作用,导致协同基因抑制[47]几项研究表明,理想的互连站点距离介于8-40个基线之间[27],[48].
  6. 本地ALU内容。ALU序列是散布在人类基因组中的重复DNA片段,被认为是通过逆转录产生的,之所以这样命名是因为它们可以被限制性内切酶Alu1切割(在[49]). 在Targetscan的上下文评分中,Grimson等人表明,3′UTR中microRNA结合位点上游或下游的30个核苷酸中A或U碱基的富集往往与靶表达的抑制有良好的关联[27],[33].
  7. 局部mRNA序列。有时会考虑3′UTR上microRNA结合位点周围的序列。算法可以检查局部序列对站点可访问性的影响,或检查特定核苷酸的序列内容[27],[30],[33].
  8. 核糖体阴影。在Targetscan中考虑,3′UTR中终止密码子后的15个核苷酸形成的microRNA靶结合位点较差,几乎没有抑制表达的能力。据推测,这是由于核糖体阴影效应引起的[27].
  9. 使用miRanda。米兰达[20],[29]是第一个microRNA比对算法,类似于用于序列比对的Smith-Waterman算法,并使用先前在序列比对中建立的经验规则[50],[51],[52]它构成了几种microRNA预测算法的基础。miRanda考虑了以下几个功能:
    • 序列匹配–G=C或a=U匹配奖励+5,G:U抖动奖励+2。间隙延伸的惩罚为-2,间隙开口的惩罚为-8。S的截止值,这些序列匹配的结果通常是S>80(苍蝇),S>50(人类)。
    • 缩放–将microRNA(从5′端开始)位置1-11处的匹配物的重量增加到其他位置匹配物重量的两倍,以反映microRNA结合的不对称性[29].
    • 四条经验法则:
      • 基2-4没有错配;
      • 碱基3–12中<5个不匹配;
      • 基9到(长度-5)至少有1个不匹配;
      • 在最后的5个底线中,<2个不匹配。
    • Vienna Package Folding假设microRNA通过8–x碱基与3′UTR相连,不能结合任何东西。然后将这个单一结构折叠起来。苍蝇的ΔG临界值通常设定为ΔG<−14 kcal/mol,人类的ΔG<−17 kcal/mol。

    最后得分是microRNA和3′UTR之间所有点击的总能量和总得分。

    • 保护–过滤步骤需要在人和大鼠或小鼠之间保护90%或更多,在黑腹果蝇D.假遮蔽A.冈比亚。
  10. 位置效应。位置效应奖励落在终止密码子后3′UTR的第一个四分位数(+15个碱基对)内或落在聚(AAAA)尾附近3′UTR的最后四分位数内的微小RNA靶位点。这种影响在长UTR中更为明显[27].
  11. 3′配对。除了强大的种子区域配对外,许多不基于miRanda的算法还要求microRNA和靶mRNA之间的核苷酸结合在microRNA 3′端的12–17个碱基之间[27].

MicroRNA预测数据库相似性

由于microRNA:mRNA靶预测算法使用不同的特征组合来执行相同的任务,因此分析这些预测在数据库中的分布是很有用的。这是一个预期的趋势——跨越六个或更多数据库的预测远远少于仅存在于一个数据库中的预测。我们仅在一个数据库中统计了200多万个预测,在所考虑的9个数据库中的8个数据库中,只有18个预测出乎意料地小(如表1,我们在这部分分析中不考虑PITA All Targets或picTar 4路,以避免重复计算。我们也不考虑microT,因为在数据管理时无法进行批量下载)(图1A).图1B将所有数据库预测与microRNA.org进行了比较,这表明尽管我们发现所有数据库之间的总重叠很低,但就最大的考虑保守性的数据库而言,至少五种数据库预测方案之间存在相当大的相似性。尽管DIANA microT v3.0[39],[40]没有包含在我们的扩展数据库分析和比较中,因为在我们的研究开始时,它不能批量下载,为了进行比较,我们将其包含在这个图中。

保存图片、插图等的外部文件。对象名称为pone.0017429.g001.jpg
MicroRNA预测数据库特征。

A组:microRNA的分布:根据预测数据库的数量进行目标预测。小组B:微小RNA预测数据库与microRNA.org的重叠。小组C:微小RNA预测数据库Targetscan和picTar的重叠,因为两者都将保存程度作为评分方案的一部分。D组:两个或多个数据库中重叠microRNA预测的百分比。

尽管大多数数据库都考虑保护,但它们各自的处理方式不同。Bartel的Targetscan发布了基于保守或非保守站点的双重目标列表。这两个列表中有百分之三十一的microRNA:mRNA靶预测是相同的(图1C,左面板),表明基因沿其3′UTR长度同时包含保守和非保守microRNA结合位点的趋势很强。另一方面,picTar在预测算法中考虑了保守性等级。picTar同时发布了四向和五向保守性方案(人类、小鼠、大鼠、狗对人、小鼠、鼠、狗、鸡),表明保守性程度与预测的稳健性相关。在这种情况下,我们可以看到,一个列表显然是另一个列表的子集,从一个不太保守的设置移动到一个更保守的设置会将预测目标的数量减少30%(图1C,右侧面板)。组合数据集时,图1D显示了当需要在至少三个数据库中进行microRNA:mRNA靶预测时,每个预测方案保留的预测百分比。应用此过滤器后,Targetscan和PITA Top Hits的交互次数最多。

比较microRNA预测数据库与事实

微RNA靶点筛选至关重要

为了检验microRNA预测数据库的组合是否会优于任何一种来源,来自15个公开可用的microRNA过表达/敲除实验的数据,然后是微阵列[53],[54],[55],[56],[57],[58],[59],[60],[61]已组装(表3). 如中所述方法第节,当比较microRNA靶预测与实际microRNA目标(由微阵列实验确定)时,执行了两个过滤步骤,以提高目标预测对数据的适用性,即通过微阵列和细胞类型进行过滤。微阵列筛选(表3第3列)消除了实验中特定芯片上不存在的目标,因此没有机会出现在最终目标集中。按单元格类型筛选(表3第4列)消除了在细胞系中仅以低水平表达的基因(这将降低它们表现出敲除效应的机会)。这两步过滤彻底改变了预测。如所示图2A,从所有数据库中相同的mir-1预测目标集开始,并按单元类型和芯片类型进行过滤,使目标预测适合于与两个不同的实验进行比较,最终预测集显著不同,重叠目标仅占预测集的60%,这清楚地表明在进行任何比较之前,需要根据实验的环境调整预测。这项筛选工作表明,在检测感兴趣的微RNA时,考虑组织特异性是多么重要。显然,随着更多在体外体内数据,确保数据以组织特定的方式组织将变得至关重要,以便能够对特定环境中的交互进行更准确的建模。

保存图片、插图等的外部文件。对象名称为pone.0017429.g002.jpg
MicroRNA靶预测处理和评估。

A组:识别microRNA靶点高度依赖于实验装置。在相同的初始预测集上按细胞类型和微阵列平台进行筛选,可能会导致最终目标列表中的差异高达40%。B组:MicroRNA在不同实验环境中过度表达导致识别的靶点重叠不良。维恩差异图在体外mir-124的microRNA过表达实验。C组:通过计算特定数据库的所有microRNA预测的平均值,并将其与匹配的低严格性“基本事实”进行比较,对microRNA各预测数据库的精确度和召回率进行比较。D组:通过考虑2、3、4和5个预测数据库之间的重叠,剩余预测的百分比。小组E:微小RNA的精确测量:通过预测数据库的数量进行的靶点预测,表明预测的靶点在在体外实验。严格程度是指微阵列数据的置信度,由p值或百分比击倒确定,如方法F组:microRNA的召回测量:根据预测数据库的数量进行目标预测,表明在体外预测覆盖的目标。严格程度是指微阵列数据的置信度,由p值或百分比击倒确定,如方法.

表3

高通量实验的特点。
书房微小RNA站台单元格类型
Lim等人,2005年hsa-mir-1罗塞塔25 k v2.2.1希拉牌手表
Baek等人,2008年hsa-mir-1安捷伦全基因组4×44 k希拉牌手表
Linsley等人,2007年hsa-mir-106b罗塞塔/默克44 k 1.1希拉牌手表
Lim等人,2005年hsa-mir-124型罗塞塔25 k v2.2.1希拉牌手表
Wang等人,2006年hsa-mir-124型Affymetrix U133加2HepG2型
Baek等人,2008年hsa-mir-124型安捷伦全基因组4×44 k希拉牌手表
Ceppi等人,2009年hsa-mir-155Affymetrix U133加2MDDS公司
Linsley等人,2007年hsa-mir-16罗塞塔/默克44 k 1.1希拉牌手表
Baek等人,2008年hsa-mir-181安捷伦全基因组4×44 k希拉牌手表
Gennarino等人,2009年hsa-mir-26b型Affymetrix U133 2号希拉牌手表
Tavazoie等人,2008年hsa-mir-335Affymetrix U133加2LM2型
Huang等人,2008年hsa-mir-373型Wistar Illumina V6MCF-7型
Huang等人,2008年hsa-mir-520cWistar Illumina V6MCF-7型
Webster等人,2009年hsa-mir-7Affymetrix U133加2A549型
Gennarino等人,2009年hsa-mir-98Affymetrix U133 2号希拉牌手表

高通量目标验证实验并不总是一致的

理想情况下,高通量实验将在简单的过度表达实验中提供清晰简明的答案。不幸的是,我们还没有发现情况完全如此。通过多组高通量实验结果检查2个microRNA的过滤结果-报告的靶点之间几乎没有重叠。以mir-124过表达为例,比较Baek等人。[53],Lim等人。[57]Wang等人。[60]数据集-在最低的目标置信水平上,允许实验之间的重叠达到最大-我们在所有3个列表中只看到10个共同目标,占最小目标列表的3.7%(图2B). 扩大重叠以包括2上预测的“真实”目标在体外列表改善了这种情况,但覆盖的最小数据集不到50%。在重复的mir-1实验中也看到了类似的结果,重叠率为8%。对这种观察结果的一个可能解释是转染剂量过大,导致微RNA分子大量涌入而导致基因表达失控[62].

将预测与实际情况进行比较

PITA Top Targets、picTar 5向保守性和TargetScan保守性靶点都是顶级microRNA预测数据库的合适候选对象。它们不仅保留了许多通过过滤器的预测,要求预测出现在3个或更多数据库中(分别为79%、64%、57%)(图1D)与公开的高通量微阵列数据相比,它们在评估数据库在精确度和召回率方面的性能时也表现良好(图2C). 虽然所有三个数据库都有许多保留的跨数据库预测目标,但如果同时考虑精度和召回率,PITA和Targetscan Conserved的性能往往优于picTar 5,也就是说,当我们要求数据库预测集不仅包含许多真正数据,而且还要预测许多实际真目标时。检查最不严格的在体外“地面真相”数据:PITA Top Targets、picTar 5路保护和Targetscan保护的精确度和召回值分别为:30%、9%;38%, 2%; 分别为32%、12%。这表明,尽管picTar 5-way的许多预测都是真实的,但在测量picTar实际预测的真实目标数量时,它的表现异常糟糕。

在精确性和召回率之间的平衡中,有人可能建议使用以下数据库:1)在寻找微RNA和特定靶点之间特定相互作用的确证证据时,最好使用召回率较高的数据库,例如Targetscan Conserved、Targetscan-Non-Conserveed或microCosm(以前称为mirBase),如果存在目标预测,则更可能包括目标预测;2) 当确定特定microRNA的任何可能靶点时在体外体内实验中,最好参考picTar 5种方法;3) 查找时生物信息学作为微RNA与特定家族或功能的基因相互作用的证据,最好使用在精确度和召回率之间更平衡的数据库,如PITA Top Targets。

将预测与Tarbase进行比较

柏油基[63]由DIANA实验室策划,提供了一个microRNA相互作用的运行列表,这些相互作用已被微阵列实验、pSILAC实验或特定microRNA的其他特定探测方式证实为真或假:靶相互作用。虽然Tarbase并不代表microRNA靶点的无偏见列表,但将我们的2+DB microRNA相互作用列表与数据库中的列表进行比较是很有趣的。39%的Tarbase报告的True mRNA阻遏靶点、48%的Tarbase-reported True mRNA切割靶点、67%的Tarbase-reported靶点的未知效应、32%的Tarase-reported-pSILAC测试的相互作用和62%的Tarbas-reported微阵列测试的交互作用出现在我们的2+DB交互作用集合中。

由于microRNA通过翻译抑制作用的频率高于通过mRNA降解作用的频率,因此很明显,检测微阵列数据并不是评估microRNA靶点的理想环境。已转录但未翻译的目标子集仍将在数据中表示,因此它们将被遗漏。然而,研究表明,被抑制30%以上的蛋白质在转录水平上也趋于不稳定[53]——这意味着对表达水平的检查是大规模翻译抑制的合理替代。错误预测的另一个可能来源包括离目标效应。微小RNA过度表达被认为会产生一些假阳性,可能是由于剂量问题[62]然而,与合成siRNA过表达系统相比,这些非靶向效应发生的频率更低。

高通量蛋白质组学方法,如pSILAC实验,是在microRNA靶向研究前沿出现的令人兴奋的新技术,可以直接比较两个不同样品的蛋白质组。尽管微RNA靶点研究的表达分析有所改进,但蛋白质水平的检测仍将无法区分初级效应和次级效应。此外,它们既没有表达分析那样的高通量,也没有运行的时间效率,而且运行质谱实验的设置成本远高于目前的微阵列。最佳的微小RNA靶点分析需要实验来证明实际的微小RNA:mRNA结合是伴随着mRNA或蛋白质表达的相关减少而发生的。只有这样,我们才能确定交互正在发生——这样的高通量实验系列仍然是未来的挑战。

在mirDIP中集成预测数据库

由于每天都要破译大量的基因组信息,在计算预测和结合位点识别之间存在着不可避免的瓶颈在体外体内验证此类交互。显然,能够优先考虑microRNA:mRNA靶预测,以减少过多的假线索和不必要的实验,这将很有用。先前已经证明,并在这里证实,没有一个microRNA预测数据库能够完美地识别目标[53],[64],尽管它们都适合提供初始预测。通过平衡精确度和召回率,集成多个数据库可以提高预测的准确性或覆盖率。将至少两个或三个数据库的microRNA预测与所有真相文件进行比较,使我们能够保留24%和8%的过滤目标预测(图2D),并获得25%、19%的准确度和召回值;分别为29%、11%(图2E、2F),提供更平衡的精确性:召回率。

为了实现这一分析,我们引入了mirDIP,即microRNA数据集成门户,这是一个免费且公开的数据门户,集成了来自11个单独来源预测数据库的最新microRNA目标预测[20],[23][35]与我们的Interologous Interaction Database(I2D)维护程序类似,我们将每年至少更新两次,以确保用户可以获得所有来源的最新microRNA:靶预测数据。重要的是,为了确保一致性,并在未来使用新的和旧的数据进行准确的重新分析,我们跟踪各个资源的版本,所有mirDIP版本都将能够搜索最新或旧的版本。

类似于mirGator,它将三个microRNA数据库(miRanda、picTar和TargetScan)与表达数据合并,同时还提供富集分析[65]mirDIP允许用户对他们考虑的预测数据进行更多控制。我们的资源不仅可以方便地将11个不同的预测数据库集成在一个地方,还允许用户在选择预测数据时选择他们想要考虑的数据库组合,即根据数据库或数据库特征细化选项。这使用户能够利用他们对不同数据库工作的了解,弥补单个数据库的优势和劣势,选择关注考虑不同变量的方案,根据用户的偏好创建定制的预测集,并根据应用程序特定的任务进行定制,考虑到上述高精度或高召回率的需要。文件S1介绍mirDIP接口(图S1)并描述了几个搜索场景。图S2,第3章,S4系列,第5章显示mirDIP搜索参数的屏幕截图。最后,在接下来的章节中,我们描述了mirDIP如何与NAViGaTOR一起使用[41]–一个可扩展的网络分析和可视化系统–用于执行新的microRNA:目标预测可视化。

microRNA相互作用网络的构建

为了构建基于基因信号通路的microRNA相互作用网络,我们避免仅使用来自在体外体内由于这些数据中存在明显的偏差而进行的实验。相反,我们选择使用出现在两个不同置信水平上的相互作用,即出现在至少2个或至少3个microRNA预测数据库(2+DB,3+DB)中的相互作用作为稳健microRNA的阈值:目标预测。此外,根据表1为了确定2+DB和3+DB数据集(通过省略PITA All Targets和picTarget 4路数据库而不包括microT来消除重复计算的风险),我们从4/9数据库中提取数据,使用保守性作为目标站点算法标准,而5/9数据库不考虑保守性。因此,我们确保序列守恒的要求不会在任何方向上影响微小RNA网络的构建。

从众所周知的磷脂酰肌醇3-激酶(PI3K)途径开始,我们研究了该途径与microRNA参与有关的两个方面,从讨论成员基因的综述中获得了我们的途径信息[66],[67],[68],[69].

PI3K亚基调控

为了研究将microRNA映射到信号通路的相关性,我们选择了PI3K通路中的两个单独的坐标信号场景。众所周知,PI3K通路控制着广泛的下游效应基因,参与细胞生长、增殖、分化、细胞死亡、运动和存活。在许多癌症中,它不仅将许多癌基因视为成员,而且在该途径的顶端存在迄今为止已知的最有效的乳腺癌癌基因——受体酪氨酸激酶HER2(也称为ERBB2)——一种位于信号转导链顶端的关键受体。

PI3K系列分为三类。每类PI3K分子的成员由2个亚单位组成——一个调节亚单位和一个催化亚单位。这些亚单位是编码在基因组不同区域的不同蛋白质,作为不同基因或剪接变异体,从相似的位点转录而来,产生不同大小的翻译蛋白质。PI3K的2个亚基的特殊组装组合决定了分子的结构和功能,不同亚基的组合在完全不同的细胞环境中起作用[69]利用3+DB稳健性水平上的相互作用,我们绘制了与1类PI3K组装相关的microRNA靶向基因(图3). 很快,PI3K亚单位在转录后水平调控的可能性变得明显。由所有1类PI3K亚基基因(PIK3CA/B/C/D、PIK3R1/2/3/4/5/6)输入产生的网络包含五个主节点(其他亚基基因因缺乏足够数量的数据库中针对它们的微RNA而缺失)、181个次级节点和206个交互作用。随机选择的5节点网络的排列分析证实,这显著丰富了网络中的节点数量和交互作用(p<0.05)。该网络最显著的特点是主节点参与与至少两个其他节点的交互,这表明该网络通过microRNAs的连接比人们仅凭巧合就能预期的要多得多(p<0.01)。

保存图片、插图等的外部文件。对象名称为pone.0017429.g003.jpg
PI3K亚基组装的微RNA相互作用网络。

将PI3K亚基映射到microRNA相互作用产生了一个网络,该网络的连接显著多于随机连接(p<0.05)。绿色节点是调节亚单位,黄色节点是催化亚单位。

PI3K信号的调节

为了进一步研究microRNA参与这一途径,我们使用了这一途径下游信号成分的模型,如最近的综述所示[66]在这里,我们展示了第二个高度连接的微小RNA网络(图4)(基于2000个排列:网络中节点数p<0.05,网络中交互数p<0.05,度≥4的节点数p<0.05)。令人惊讶的是,能够共同靶向有效肿瘤抑制因子和致癌基因的microRNA的数量如此之多。我们发现一种microRNA(hsa-mir-19b)同时靶向PTEN-TSC1-PI3KCA-TP53,以及其他靶向RPS6KB1-PDK1-TSC1-PTEN和PTEN-RPS6KB1-FOXO3-TSC1的microRNA。此外,有许多microRNAs以该途径的成对元件为靶点:15个microRNAs以RPS6KB1和PTEN为靶点,8个microRNA以RPS6KB1和TSC1为靶点;4个microRNAs以EIF4E和RPS6KB1.为靶点。显然,我们才刚刚开始了解微RNA共同靶向许多不同基因时可能的调控水平,但越来越明显的是,这种网络复杂性水平控制着细胞中强效致癌基因和肿瘤抑制因子之间一些有趣且以前隐藏的关系。

保存图片、插图等的外部文件。对象名称为pone.0017429.g004.jpg
PI3K通路元件的MicroRNA相互作用网络。

根据文献综述绘制PI3K途径的要素[66]产生了一个网络,其中许多基因被常见的microRNA靶向,表明microRNA在通路调节中的新作用。

基于KEGG和反应体路径的microRNA网络的检测

基本网络参数

在初步测试了我们关于PI3激酶途径的假设后,我们决定对细胞内的信号通路进行更广泛和严格的检查。由于通路的定义尚未达成一致,并且对于哪种资源最准确、最全面地定义信号通路仍存在很多争议,我们决定使用《京都基因和基因组百科全书》数据库(KEGG)中描述的通路[70],[71]和反应组定义的途径[72],[73],[74]数据库,以进一步支持基于前一节中专家管理的通路综述构建的microRNA网络。研究在2个阈值水平(2+DB和3+DB)下预测的相互作用,我们为标准信号通路和2000个由相同数量的初级节点基因创建的通路排列创建了microRNA网络。我们的研究结果显示,我们所研究的大多数相互作用集和信号通路都有类似的趋势。我们发现,真正的信号通路往往涉及更多的microRNA,包含更多的相互作用,以及比随机起始节点集产生的通路具有更多的高度节点(度≥4)。我们在2+DB和3+DB相互作用阈值下检测了9条KEGG途径和12条反应体途径。平均p值最低的通路为KEGG通路:ERBB信号通路(hsa04012)(2+DB)、mTOR信号通路(hsa04150)(2+DB)、,Wnt信号通路(hsa04310)(2+DB)、MAPK信号通路(hsa04010)(3+DB)和癌症通路(hsa 05200)(3+DB)的平均p值分别为p<0.0006、p<0.0009、p<0002、p<00002、p<0007(图5). 在KEGG和Reactome数据库(NOTCH、VEGF和WNT)中描述的途径中,WNT结果在这两个数据库中都是最不保守的——在KEGG中显示出显著性(2+DB和3+DB的平均p值分别为p<0.002和p<0.036),但在Reactome中没有(2+DB和3+DB的平均p值分别为p<0.64和p<0.68),而NOTCH测量参数在两个数据库中最有可能一致(KEGG中2+DB和3+DB的平均p值分别为p<0.102和p<0.105,Reactome中2+DB和3+DB分别为p<0.256和p<0.139)。我们发现,一些途径比其他途径更倾向于显示重要性,例如FGFR和细胞周期基因途径(可以说,这不是一种信号途径,因此不适合本研究,因此充当我们的阴性对照)仅由Reactome数据库描述的p值有高于其他检测路径的趋势(2+DB和3+DB的Reactome-FGFR路径平均p值分别为p<0.35和p<0.4,2+DB的Reactiome细胞周期基因平均p值为p<0.78和p<0.45)。在所有研究场景中,被发现最为显著的测量参数是等级≥4的网络中microRNA节点数量(在30/42个测试场景中显著为p<0.05),以及网络中总microRNA:靶相互作用的数量(在27/42个被测试场景中明显为p<0.05)。如中所示图5–可以找到两个路径数据库支持的丰富内容,而使用一个或另一个路径数据库在分析中突出显示其他丰富内容。通过研究具有类似发现的专家管理的途径、KEGG途径和反应体途径,我们相信这一现象实际上是真实的。

保存图片、插图等的外部文件。对象名称为pone.0017429.g005.jpg
微RNA相互作用网络特征。

使用KEGG(面板A和B)和Reactome通路数据库(面板C和D)检查已知信号通路中的四个microRNA相互作用网络特征。信号通路往往因microRNA的数量、相互作用的数量和映射的高度节点的数量而丰富。

中心性测量

我们进一步检验了网络之间的中心性(使用Brandes算法[75]在R中[76]使用RBGL包[77],[78])以及前10个基因与microRNAs之间的平均中心度(按程度)以及前10条基因之间的平均最短路径长度。总的来说,这些措施在真实的信号通路中与大多数通路中的随机网络没有显著差异。对于KEGG 3+DB信令路径网络的中间中心性(测量具有最高中间中心性的节点(最短路径上的节点)与网络中所有其他节点之间的差异),我们确实看到了具有较低中间中心性路径网络的小趋势(p<0.0001(WNT路径)p<0.837(VEGF途径)。这一趋势表明,真正的信号通路具有更平衡的中心性结构,与随机网络相比,“中枢”节点更少,在信号通路中,我们没有发现前十个microRNAs按程度或前十个基因按程度的中心性之间存在任何差异(microRNA为p<0.089至p<0.687,基因为p<0.37至p<0.987)。此外,由于平均和最大最短路径的网络值分布(使用Dijkstra算法测量[79])在前10个基因中,我们无法确定这些参数(95%的平均最短路径值为3,几乎75%的最大最短路径为无限)。这种在中心性测量中缺乏决定性意义的现象可以解释为,我们没有对网络中蛋白质之间的相互作用进行建模,选择只检查基因和microRNA之间的相互影响。因此,由于缺乏蛋白质连接,我们的网络往往具有一种特殊的结构,需要所有途径在基因和microRNA之间交替。蛋白质相互作用与microRNA-靶相互作用在网络中的整合可以在以后重新检查。

网络集线器

我们还研究了这些microRNA网络中的中心更有可能是Han等人论文中定义的约会或聚会中心的可能性[80].使用我们的I2D数据库[81],[82]我们研究了已知的人类蛋白质-蛋白质相互作用的二项式分布来定义这样的中心,但没有找到这样的分布,因此我们无法进一步研究任何这样的关系。

宇宙和通路内微RNA

在意识到微RNA在信号通路中发挥着重要作用后,我们绘制了一张路线图,以描绘两岸之间的联系(图6). 很快就清楚了,存在不同类别的microRNA。通过检查任何信号通路中度数大于2的微小RNA,我们能够识别出77种仅以通路内方式作用的微小RNA,它们影响多个靶点,但仅在一个单一通路内。这些microRNAs倾向于靶向ERBB、mTOR、MAPK、WNT和Jak-STAT通路,而没有靶向VEGF、NOTCH和PI3K通路。我们在3+DB水平上进一步鉴定了61个靶向所有8条KEGG通路的microRNAs。为了验证这种将微RNA分为细胞内和宇宙类别的分类,我们查阅了文献。通过搜索PubMed的全部文章,我们发现宇宙和中途微RNA之间存在显著差异(p<0.0002)——宇宙微RNA的讨论频率更高(图7A). 此外,讨论最多的微小RNA,hsa-mir-15a、hsa-mir-16和hsa-mir-34a在它们所涉及的许多途径中具有高度的相关性(hsa-mir-15a的途径内排名为2(ERBB)、1(Jak STAT)、2(MAPK)、3(VEGF)、4(mTOR)、1(WNT)、27(NOTCH))。当人们考虑到许多关于选择要研究的microRNA的决定都是基于高通量实验,通过microRNA文库的过度表达和几个简单的读出条件的检查时,这一观察是有意义的。因此,与对照组相比,参与多种途径的microRNA(宇宙microRNA)可能会在细胞内产生巨大变化,从而产生可测量的结果。因此,可能会选择这些microRNA进行进一步研究,从而产生更多PubMed文章。当根据KEGG中已知的信号通路构建microRNA路线图时,我们没有将pathways包括在癌症基因网络中,因为它本身不是信号通路。将宇宙和体内microRNA与癌症网络中的通路重叠图5,我们发现在癌症网络中的通路中,宇宙microRNAs的程度远远高于通路内microRNA(p<0.0001)(图7B). 考虑到这种效应可能是由我们的过滤方法引起的,我们检查了我们的3+DB相互作用集,以预测宇宙和通道内微RNA的靶数量。我们确实发现宇宙microRNA的预测靶点明显多于行内microRNA(p<0.0001)。然而,这种分布在TargetScan预测靶点(p<0.0001)、PITA预测靶点(图7C). 由于这种分布超越了我们已经应用的任何过滤器,并且它适用于这些单独的数据库预测集,我们认为宇宙microRNAs只是倾向于有更多的靶点,因此能够对细胞实施比体内microRNA更广泛的控制程序。

保存图片、插图等的外部文件。对象名称为pone.0017429.g006.jpg
Micronome路线图。

基于基于3+DB microRNA相互作用数据构建的KEGG信号通路的网络。宇宙microRNA以红色显示,而通道内microRNA则以蓝色显示。

保存图片、插图等的外部文件。对象名称为pone.0017429.g007.jpg
宇宙和通路内微小RNA的比较。

A组:宇宙microRNAs的PubMed论文数量显著高于对照组microRNAs(p=0.0002)。B组:Universe microRNA在癌症3+DB网络中的KEGG通路中的程度显著较高(p<0.0001)。C组:在多个不同的microRNA预测数据库中,宇宙microRNA的预测靶相互作用显著高于通路内microRNA(p<0.0001)。D组:顶部-宇宙microRNA靶点(红色)比途径内microRNA(蓝色)的OMIM命中率更高。底部——宇宙microRNA自身的“癌症”PhenomiR命中率高于通道内microRNA(p<0.0001),支持B组的结果。

在这一点上,我们想解决数据中的偏差问题,并将微RNA相互作用集与蛋白质相互作用数据集区分开来。蛋白质和microRNA相互作用之间有一个巨大而明显的区别。蛋白质之间的相互作用通常通过高度偏倚的信息收集方法来管理;文献检索偏向于高度研究的蛋白质,高通量实验侧重于为一种感兴趣的蛋白质寻找所有伴侣,同时考虑潜在伴侣库。尽管相互作用生成技术很有用,但它们不能公开地揭示蛋白质组中的蛋白质相互作用。微RNA:靶关系不同。我们的研究所依据的信息完全基于序列。所考虑的数据库确实使用不同的算法进行预测;然而,由于所研究的一切都是基于序列的基本事实,这些预测没有偏见。结合位点的保存、结合位点的可及性以及种子区的存在与否完全取决于编码基因、其转录的RNA以及可能与之结合的微RNA的序列,从而使我们摆脱了补偿微RNA中任何偏差的要求:靶向预测。也就是说,我们无法从当前分析中分离出的一个可能的偏差是给定基因的3′UTR长度与靶向它的microRNA数量之间的关系。目前尚不清楚,具有长3′UTR的基因往往具有更多预测的靶向微小RNA,这是因为这是生物学的工作方式,还是仅仅与在较长UTR中具有更多结合位点的几率有关。

最后,我们研究了疾病环境中宇宙和通路内微RNA之间的差异。首先,我们检查了人类在线孟德尔遗传(OMIM)数据库的累计数量[83]命中每个microRNA的所有目标(图7D顶部面板)。按照递减顺序排列,我们发现宇宙微小RNA的OMIM命中率比通路内微小RNA多得多。值得注意的是,我们没有对每个microRNA的靶点数量进行标准化。下面的面板显示,PhenomiR数据库中的每个microRNAs对宇宙microRNA具有显著的癌症命中率[84]与行内microRNA相比(p<0.0001)。我们发现宇宙microRNA和途径内microRNAs在疾病关联方面有很大区别,再次支持了我们的假设,即宇宙microRNAs是microRNA的一个子集,可以靶向细胞内的许多基因,起主控作用。

为了进一步解释为什么宇宙微RNA的研究要比体内微RNA多,我们比较了微RNA的“数量”——它们独特的识别ID,按照发现的大致顺序分配的结果表明,宇宙microRNA的平均识别数低于行内microRNA(宇宙microRNAs的平均ID=51,行内microrRNAs=84,p<0.0001)。

这可能是因为宇宙microRNAs的发现时间更早,纯属偶然,因此得到了更多的研究,也可能是因为它们确实更普遍,因此在许多条件下更容易被发现。为了提供更多证据来回答这个问题,我们考虑了Landgraf等人的一组组织中microRNA的表达。[85].图8图中显示了一个比较宇宙和跨组织间microRNA表达的热图,证实宇宙microRNA的表达比跨组织间的microRNA更广泛。因此,宇宙microRNAs更有可能更广泛地影响不同的细胞类型,通过其错误表达,宇宙microrAs有机会通过影响许多不同途径中的基因来快速创造更为全球性的变化。因此,为了进一步了解它们在人类疾病中的作用,需要进行进一步的研究。

保存图片、插图等的外部文件。对象名称为pone.0017429.g008.jpg
宇宙和通路内microRNA的表达。

宇宙microRNAs在组织中的表达范围比行内microRNA更广[96].

这项在microRNA相互作用网络中的工作为microRNA事实上以相互协调的方式以及在信号通路中工作的可能性提供了更多证据。以前已经注意到许多microRNA可能与UTR联合结合[2],[31],[48],[85],也许我们的研究结果支持这一观点,因为共同途径中的基因共享的共同微小RNA比人们偶然预期的要多得多(KEGG 2+DB的p<0.0035至p<0.365)。这种想法为许多激动人心的事情打开了大门在体外研究这种共调节和共结合的实验,提出了一个问题,即有多少microRNA可能同时占据3′UTR?这是一个连续的还是平行的microRNA过程?未来确定此类microRNA结合位点在未翻译区域的布局的工作可能会提供进一步的见解,而对相互作用基因上microRNA连接位点的重叠程度和布局的路径内研究将提供对microRNA调控网络的见解。这项工作的另一个有趣的扩展是确定5′UTR和目标基因编码区中的预测结合位点,并将其与mirDIP中已经包含的RNA22预测相结合,以便进行跨数据库比较。虽然大多数已确认的microRNA结合位点属于3′UTR,但在其他区域也显示了功能性结合位点[86],[87],[88]而将它们纳入mirDIP的尝试将导致细胞内真正的microRNA靶基因的更完整表示。

两类不同的微RNA的鉴定——宇宙微RNA和通道内微RNA——为可能的通路和基因级控制的层级组织以及基因调控的执行奠定了框架。使用PhenomiR,我们提供了第一个与疾病相关的证据,表明宇宙microRNA可能更可能特异性地参与癌症,这表明其在乳腺癌(p<0.05)、卵巢癌(p<0.005)和肺癌(p<0.05)以及整体致癌(p<00001)中的参与显著增加同时也显示了与一般人类疾病的关系(p<0.0001),这一信息将使我们能够将疾病驱动的microRNA-相关研究的重点放在这些强有力的细胞调节因子的较小子集上。

结论

MicroRNA预测数据库

与其他小组的工作类似,我们检查了microRNA预测数据库,以确定PITA Top、picTar 5向和Targetscan Conserved提供了最准确的microRNA:靶预测。使用不同的预测算法,单个预测只会部分重叠,与在体外真相数据。然而,每个都有一个特定的应用程序,在那里它可能最适合使用。在进行microRNA数据库比较之前,我们进一步检查了筛选目标预测的重要性,并确定通过实验细胞类型和微阵列芯片类型进行筛选是改变基因预测集多达40%的关键步骤。我们建议,在寻找真正的微小RNA靶点时,考虑这样的步骤是有用的。

mirDIP公司

我们提供了一个独特的数据库,以帮助研究人员确定用于特定应用的microRNA的最佳microRNA预测数据库:目标搜索。mirDIP允许用户将搜索重点放在“高精度”或“高召回率”数据库中的microRNA预测数据库的任何子集上,具体取决于他们的研究路径。

在相互作用网络中发现宇宙和通道内microRNA

使用来自mirDIP的数据,我们发现与随机机会相比,微小RNA在已知信号通路中的参与明显更多,产生具有更多相互作用的网络(在76%的测试通路中p<0.1)。信号通路包含许多靶向该通路多个元件的microRNAs,这可能意味着以前没有描述过的转录调控水平。我们的数据表明,信号蛋白在转录后水平(无论是并发还是顺序)可能存在共同调节,这为研究微RNA的层次结构开辟了新的研究领域。此外,我们还发现了两类新的microRNA:宇宙microRNA和通道内microRNAs,它们通过参与细胞内信号通路的程度及其与癌症(p<0.0001)和人类疾病(p<00001)的关系而显著区分。宇宙microRNA参与许多已知信号通路的调节,而双向microRNA是特定于通路的,似乎在细胞调节中不起全球作用。

材料和方法

从单个MicroRNA预测站点下载MicroRNA的预测:

目标预测文件

所有目标预测文件都经过处理,以包含相同格式的相同信息。UCSC基因组浏览器(http://genome.ucsc.edu/)[89],[90],[91]和Galaxy[92],[93]根据人类基因组版本hg18,用于转换所有文件,以包括所有交互作用的HUGO基因名称。RNA22、picTar和DIANA microT需要使用Ens54进行中间绘图步骤[94]和RefSeq 2006年5月[95]程序集。然后将所有文件合并为一个包含所有预测的文件。过滤步骤产生了NAViGaTOR的交互文件——消除了不到2或3个microRNA预测数据库中存在的所有交互。为了避免使用不同严格要求编译的同一来源的两个数据库中出现重复计数交互作用,只有最严格的PITA和picTar microRNA预测文件被用作集成和过滤步骤的输入。

microRNA微阵列真值文件

用于比较microRNA预测文件与真实情况的文件来自以下GEO数据集:GSE2075标准 [57],GSM306946标准 [53],通用电气6838/GSM155064[58],GSE6207型 [60],GSM302945标准 [53],GSE13296标准 [54],GSE6838标准 [58],GSM302995标准 [53],GSE12091标准 [55],GSE9586型 [59],GSE9742型 [56],GSE14507标准,GSE12092标准 [55]使用p值p<0.1、p<0.05、p<0.01建立低、中、高置信真值阈值,其中存在重复,否则在三个逐步递增的敲除或过度表达阈值,取决于mir-335的靶敲除分布–50%-25%-10%(GSE9586型)和mir-7(GSE14507标准)(在这种情况下,由于只有2个重复,我们还要求重复之间的误差在15%以内),对于mir-155为75%-25%-10%(GSE13296标准)mir-124为25%-20%-10%(邮编6207).

目标筛选

为了在预测数据库比较之前筛选目标预测,我们使用了控制细胞系微阵列实验的下四分位中的基因。在大多数情况下,存在一个或多个阴性对照样品值,对这些值进行平均,然后根据强度值进行排序。当通过实验细胞类型进行筛选时,只有不存在于这个底部四分位中的基因才能通过我们的过滤器。在不可能从实验中提取对照细胞系值的少数情况下(mir-1Lim等人。[5]和mir-124 Lim等人。[5]),从同一细胞系的微阵列实验中筛选阴性对照的基因(mir-98阴性对照Gennarino等人。[53]). 我们通过实验中使用的微阵列芯片上预测的目标基因的存在,进一步过滤了GEO数据集中的可用信息。

NAViGaTOR网络

NAViGaTOR网络[81],[82]基于上面讨论的microRNA:target交互文件构建,具有两个级别的健壮性:在两个或多个数据库(2+DB)中存在交互,或在三个或更多数据库中存在交互(3+DB)。请注意,在第一节中检查的11个数据库中,只有9个用于microRNA相互作用网络,因为PITA Top Targets(使用的)是PITA All Targets的子集(未使用的),而picTar 5-way(已使用的)则是picTar4-way(未使用)的子集。使用感兴趣的相关基因组(由已知亚单位确定[69],从文献中提取的路径[66]和KEGG[70],[71]和Reactome[72],[73],[74]数据库)作为主要节点-构建网络以检查给定相关基因集在microRNA水平上的相互作用。关联基因网络的显著性基于四个特征进行评估:1)网络中的节点数,2)网络中交互的数量,3)度大于3的节点数和4)测量的网络密度,并与从相同数量的主节点构建的2000个随机网络中获得的值进行比较(从交互文件中随机选择的基因,因此至少有两个或三个预测数据库已确定参与microRNA交互的基因)。KEGG通路HUGO ID用于创建网络,而Reactome Swiss蛋白质ID在构建网络之前在UCSC基因组浏览器中映射到HUGOID。使用该图构建网络(版本1.24.1)[78]和RBGL(1.22.0版)包[77]R统计软件包(2.8.1版)[76]在比较KEGG和Reactome数据库中的路径时,对四个网络参数的p值总和的差异进行了比较。所有分析均使用2.1.13版NAViGaTOR进行[1](http://ophid.utoronto.ca/navigator网站).

检查日期和党中心节点

在我们检测人类蛋白质相互作用以确定是否存在双峰日期和聚会中心分布时,使用了I2D人源相互作用[81],[82].

宇宙和通路内微RNA

使用2.1.13版NAViGaTOR显示来自KEGG 3+DB研究的microRNA:通路相互作用,我们制定了用于识别宇宙和通路内microRNA的微粒体路线图。使用biopython(v1.50)对两类microRNA和相关PubMed文章的数量进行了比较(http://biopython.org). OMIM公司[83]hits和PhenomiR(v1.0)[84]点击来自各自的来源(网址:http://www.ncbi.nlm.nih.gov/omim/(2010年2月访问)和http://mips.helmholtz-muenchen.de/penomir网站/).

Tarbase比较

我们使用了Tarbase V5.0[63]将我们的2+DB相互作用集与现有的最佳microRNA相互作用集进行比较。我们只使用了人工交互,消除了support_type=FALSE交互,并由HGNC列映射。

有关mirDIP的详细信息,请参阅方法S1.

支持信息

文件S1

mirDIP接口和示例mirDIP搜索的描述。

(文件)

图S1

microRNA数据集成门户的关键组件字段。

(畅通节能法)

图S2

样本mirDIP搜索靶向一个感兴趣基因的microRNA,需要高精度的靶数据。

(畅通节能法)

图S3

使用来自单个microRNA数据库的数据,对共同靶向三个感兴趣基因的microRNA进行mirDIP样本搜索。

(畅通节能法)

图S4

样本mirDIP搜索特定microRNA的目标,根据特定算法标准选择microRNA预测算法。

(畅通节能法)

图S5

使用4个或更多microRNA预测数据库预测的靶点,样本mirDIP搜索针对一个感兴趣基因的microRNA。

(畅通节能法)

方法S1

mirDIP开发。

(文件)

致谢

作者要感谢Isaac R.Smith对我们网络人物的帮助,也要感谢Milton R.S.Smith作为一个睡着的婴儿——不管怎样,这是第一个月。

脚注

竞争利益:提交人声明,不存在相互竞争的利益。

基金:作者感谢加拿大创新基金会12301号和203383号拨款、加拿大研究主席计划、CIHR催化剂拨款202370号、加拿大自然科学与工程研究委员会拨款104105号、加拿大CIHR研究生奖学金计划和IBM的资助。这项研究部分由安大略省卫生和长期护理部(OMOHLTC)资助。所表达的观点不一定反映OMOHLTC的观点。资助者在研究设计、数据收集和分析、出版决定或手稿准备方面没有任何作用。

工具书类

1Lee RC、Feinbaum RL、Ambros V.秀丽线虫异慢性基因lin-4编码与lin-14具有反义互补性的小RNA。单元格。1993;75:843–854.[公共医学][谷歌学者]
2Doench JG、Petersen CP、Sharp PA。siRNAs可以作为miRNAs发挥作用。基因发育。2003;17:438–442. [PMC免费文章][公共医学][谷歌学者]
三。Hutvagner G,Zamore PD。多重翻转RNAi酶复合物中的微RNA。科学。2002;297:2056–2060.[公共医学][谷歌学者]
4.Olsen PH,Ambros V.在翻译开始后,lin-4调节RNA通过阻断lin-14蛋白的合成来控制秀丽隐杆线虫的发育时间。开发生物。1999;216:671–680.[公共医学][谷歌学者]
5Rhoades MW、Reinhart BJ、Lim LP、Burge CB、Bartel B等,《植物microRNA靶点预测》。单元格。2002;110:513–520.[公共医学][谷歌学者]
6Seggerson K,Tang L,Moss EG。翻译起始后,两个基因回路抑制秀丽隐杆线虫异慢性基因lin-28。开发生物。2002;243:215–225.[公共医学][谷歌学者]
7Tang G,Reinhart BJ,Bartel DP,Zamore PD。植物RNA沉默的生化框架。基因发育。2003;17:49–63. [PMC免费文章][公共医学][谷歌学者]
8Zeng Y,Wagner EJ,Cullen BR。天然和设计的微RNA在人类细胞中表达时都能抑制同源mRNA的表达。分子细胞。2002;9:1327–1333.[公共医学][谷歌学者]
9Zeng Y,Yi R,Cullen BR。微小RNA和小干扰RNA可以通过类似的机制抑制mRNA的表达。美国国家科学院院刊。2003;100:9779–9784. [PMC免费文章][公共医学][谷歌学者]
10Chalfie M、Horvitz HR、Sulston JE。导致秀丽线虫细胞谱系重复的突变。单元格。1981;24:59–69.[公共医学][谷歌学者]
11Ambros V.一系列调控基因控制秀丽隐杆线虫幼虫到成虫的发育转换。单元格。1989;57:49–57.[公共医学][谷歌学者]
12Horvitz HR,Sulston JE。秀丽隐杆线虫细胞系突变体的分离和遗传特征。遗传学。1980;96:435–454. [PMC免费文章][公共医学][谷歌学者]
13.Wightman B,Ha I,Ruvkun G.通过lin-4对异慢性基因lin-14的转录后调节介导秀丽隐杆线虫的时间模式形成。单元格。1993;75:855–862.[公共医学][谷歌学者]
14Abrahante JE、Daul AL、Li M、Volk ML、Tennessen JM等。秀丽隐杆线虫驼背样基因lin-57/hbl-1控制发育时间并受microRNA调节。开发单元。2003;4:625–637.[公共医学][谷歌学者]
15Lin SY、Johnson SM、Abraham M、Vella MC、Pasquinelli A等。秀丽线虫驼背同源物hbl-1控制时间模式,是可能的microRNA靶点。开发单元。2003;4:639–650.[公共医学][谷歌学者]
16Reinhart BJ、Slack FJ、Basson M、Pasquinelli AE、Bettinger JC等。21-核苷酸let-7 RNA调节秀丽隐杆线虫的发育时间。自然。2000;403:901–906.[公共医学][谷歌学者]
17Lagos-Quintana M,Rauhut R,Lendeckel W,Tuschl T.小表达RNA编码新基因的鉴定。科学。2001;294:853–858.[公共医学][谷歌学者]
18Lau NC、Lim LP、Weinstein EG、Bartel DP。秀丽隐杆线虫中丰富的一类可能具有调节作用的微小RNA。科学。2001;294:858–862.[公共医学][谷歌学者]
19.Lee RC,Ambros V.秀丽隐杆线虫中一类广泛的小RNA。科学。2001;294:862–864.[公共医学][谷歌学者]
20Enright AJ、John B、Gaul U、Tuschl T、Sander C等,《果蝇的微RNA靶点》。基因组生物学。2003;5:R1。 [PMC免费文章][公共医学][谷歌学者]
21Lewis BP、Shih IH、Jones-Rhoades MW、Bartel DP、Burge CB。哺乳动物microRNA靶点的预测。单元格。2003;115:787–798.[公共医学][谷歌学者]
22Stark A、Brennecke J、Russell RB、Cohen SM。果蝇微RNA靶点的鉴定。《公共科学图书馆·生物》。2003;1:E60。 [PMC免费文章][公共医学][谷歌学者]
23Betel D、Wilson M、Gabow A、Marks DS、Sander C。microRNA.org资源:靶点和表达。核酸研究。2008;36:D149–153。 [PMC免费文章][公共医学][谷歌学者]
24Friedman RC、Farh KK、Burge CB、Bartel DP。大多数哺乳动物的mRNA是microRNA的保守靶点。基因组研究。2009;19:92–105. [PMC免费文章][公共医学][谷歌学者]
25Griffiths-Jones S、Grocock RJ、van Dongen S、Bateman A、Enright AJ。miRBase:microRNA序列、靶点和基因命名。核酸研究。2006;34:D140–144。 [PMC免费文章][公共医学][谷歌学者]
26Griffiths-Jones S、Saini HK、van Dongen S、Enright AJ。miRBase:用于微小RNA基因组学的工具。核酸研究。2008;36:D154–158。 [PMC免费文章][公共医学][谷歌学者]
27Grimson A、Farh KK、Johnston WK、Garrett-Engele P、Lim LP等。哺乳动物中微RNA靶向特异性:种子配对以外的决定因素。分子细胞。2007;27:91–105. [PMC免费文章][公共医学][谷歌学者]
28Grun D、Wang YL、Langenberger D、Gunsalus KC、Rajewsky N.对7种果蝇的microRNA靶向预测以及与哺乳动物靶向的比较。公共科学图书馆计算生物学。2005;1:e13。 [PMC免费文章][公共医学][谷歌学者]
29John B、Enright AJ、Aravin A、Tuschl T、Sander C等,《人类微RNA靶点》。《公共科学图书馆·生物》。2004;2:e363。 [PMC免费文章][公共医学][谷歌学者]
30Kertesz M,Iovino N,Unnerstall U,Gaul U,Segal E.位点可及性在微RNA靶识别中的作用。自然遗传学。2007;39:1278–1284.[公共医学][谷歌学者]
31Krek A、Grun D、Poy MN、Wolf R、Rosenberg L等。组合微RNA靶预测。自然遗传学。2005;37:495–500.[公共医学][谷歌学者]
32Lall S、Grun D、Krek A、Chen K、Wang YL等。秀丽隐杆线虫保守microRNA靶点的全基因组图谱。当前生物量。2006;16:460–471.[公共医学][谷歌学者]
33.Lewis BP、Burge CB、Bartel DP。保守的种子配对,通常两侧有腺苷,表明数千人类基因是microRNA的靶标。单元格。2005;120:15–20.[公共医学][谷歌学者]
34Miranda KC,Huynh T,Tay Y,Ang YS,Tam WL,et al.一种基于模式的方法,用于识别微RNA结合位点及其相应的异源双链。单元格。2006;126:1203–1217.[公共医学][谷歌学者]
35Chen K,Rajewsky N.根据SNP数据推断的人类microRNA结合位点的自然选择。自然遗传学。2006;38:1452–1456.[公共医学][谷歌学者]
36Bartel博士。微RNA:基因组学、生物发生、机制和功能。单元格。2004;116:281–297.[公共医学][谷歌学者]
37He L,Hannon GJ。MicroRNAs:在基因调控中起重要作用的小RNA。Nat Rev基因。2004;5:522–531.[公共医学][谷歌学者]
38Lee R、Feinbaum R、Ambros V.短RNA的简短历史。单元格。2004;116:S89–92,81 p遵循S96。[公共医学][谷歌学者]
39Maragkakis M、Alexiou P、Papadopoulos GL、Reczko M、Dalamagas T等。准确的微RNA靶点预测与蛋白质阻遏水平相关。BMC生物信息学。2009;10:295. [PMC免费文章][公共医学][谷歌学者]
40Maragkakis M、Reczko M、Simosis VA、Alexiou P、Papadopoulos GL等。DIANA-microT网络服务器:通过靶预测阐明microRNA功能。核酸研究。2009;37:W273–276。 [PMC免费文章][公共医学][谷歌学者]
41Brown KR、Otasek D、Ali M、McGuffin MJ、Xie W等。NAViGaTOR:网络分析、可视化和多伦多绘图。生物信息学。2009;25:3327–3329. [PMC免费文章][公共医学][谷歌学者]
42Wuchty S,Fontana W,Hofacker IL,Schuster P.RNA的完全次优折叠和二级结构的稳定性。生物聚合物。1999;49:145–165.[公共医学][谷歌学者]
43Hofacker IL、Fontana W、Stadler PF、Bonhoeffer S、Tacker M等。RNA二级结构的快速折叠和比较。化学莫纳瑟夫。1994;125:167–188. [谷歌学者]
44Zuker M,Stiegler P.利用热力学和辅助信息优化大RNA序列的计算机折叠。核酸研究。1981;9:133–148. [PMC免费文章][公共医学][谷歌学者]
45McCaskill JS公司。RNA二级结构的平衡配分函数和碱基对结合概率。生物聚合物。1990;29:1105–1119.[公共医学][谷歌学者]
46Rehmsmeier M,Steffen P,Hochsmann M,Giegerich R.快速有效预测microRNA/靶标双链。RNA。2004;10:1507–1517. [PMC免费文章][公共医学][谷歌学者]
47Doench JG,Sharp PA。翻译抑制中微RNA靶点选择的特异性。基因发育。2004;18:504–511. [PMC免费文章][公共医学][谷歌学者]
48Saetrom P、Heale BS、Snove O,Jr、Aagaard L、Alluin J等。microRNA靶位点之间的距离限制决定了疗效和合作性。核酸研究。2007;35:2333–2342. [PMC免费文章][公共医学][谷歌学者]
49Batzer MA,Deininger PL.Alu重复序列与人类基因组多样性。Nat Rev基因。2002;:370–379.[公共医学][谷歌学者]
50Schneider R,Sander C.蛋白质结构序列比对的HSSP数据库。核酸研究。1996;24:201–205. [PMC免费文章][公共医学][谷歌学者]
51Smith TF,Waterman MS。常见分子子序列的识别。分子生物学杂志。1981;147:195–197.[公共医学][谷歌学者]
52Waterman MS,Eggert M.一种用于tRNA-rRNA比较的最佳子序列比对的新算法。分子生物学杂志。1987;197:723–728.[公共医学][谷歌学者]
53Baek D、Villen J、Shin C、Camargo FD、Gygi SP等。微RNA对蛋白质输出的影响。自然。2008;455:64–71. [PMC免费文章][公共医学][谷歌学者]
54Ceppi M、Pereira PM、Dunand Sauthier I、Barras E、Reith W等。MicroRNA-155调节活化的人单核细胞衍生的树突状细胞中的白细胞介素-1信号通路。美国国家科学院院刊。2009;106:2735–2740. [PMC免费文章][公共医学][谷歌学者]
55Gennarino VA、Sardiello M、Avellino R、Meola N、Maselli V等。通过宿主基因表达分析预测微RNA靶点。基因组研究。2009;19:481–490. [PMC免费文章][公共医学][谷歌学者]
56Huang Q,Gumiredy K,Schrier M,le Sage C,Nagel R,等。微RNA miR-373和miR-520c促进肿瘤侵袭和转移。自然细胞生物学。2008;10:202–210.[公共医学][谷歌学者]
57Lim LP、Lau NC、Garrett-Engele P、Grimson A、Schelter JM等。微阵列分析表明,一些微RNA下调了大量靶mRNA。自然。2005;433:769–773.[公共医学][谷歌学者]
58Linsley PS、Schelter J、Burchard J、Kibukawa M、Martin MM等。microRNA-16家族靶向的转录物协同调节细胞周期进展。分子细胞生物学。2007;27:2240–2252. [PMC免费文章][公共医学][谷歌学者]
59Tavazoie SF、Alarcon C、Oskarsson T、Padua D、Wang Q等。抑制乳腺癌转移的内源性人类微RNA。自然。2008;451:147–152. [PMC免费文章][公共医学][谷歌学者]
60Wang X.通过结合靶点预测和表达谱对microRNA功能进行系统鉴定。核酸研究。2006;34:1646–1652. [PMC免费文章][公共医学][谷歌学者]
61Webster RJ,Giles KM,Price KJ,Zhang PM,Mattick JS,et al.microRNA-7对人癌细胞表皮生长因子受体信号的调节。生物化学杂志。2009;284:5731–5741.[公共医学][谷歌学者]
62Arvey A、Larsson E、Sander C、Leslie CS、Marks DS。靶mRNA丰度稀释了microRNA和siRNA活性。分子系统生物学。2010;6:363. [PMC免费文章][公共医学][谷歌学者]
63Papadopoulos GL、Reczko M、Simosis VA、Sethupathy P、Hatzigeorgiou AG。实验支持目标的数据库:TarBase的功能更新。核酸研究。2009;37:D155–158。 [PMC免费文章][公共医学][谷歌学者]
64Selbach M、Schwanhausser B、Thierfeld N、Fang Z、Khanin R等。微RNA诱导的蛋白质合成的广泛变化。自然。2008;455:58–63.[公共医学][谷歌学者]
65Nam S、Kim B、Shin S、Lee S.miRGator:一个用于微RNA功能注释的集成系统。核酸研究。2008;36:D159–164。 [PMC免费文章][公共医学][谷歌学者]
66Cully M,You H,Levine AJ,Mak TW。PTEN突变之外:PI3K通路作为肿瘤发生过程中多种输入的整合体。Nat Rev癌症。2006;6:184–192.[公共医学][谷歌学者]
67Engelman JA,Luo J,Cantley LC。磷脂酰肌醇3-激酶作为生长和代谢调节器的进化。Nat Rev基因。2006;7:606–619.[公共医学][谷歌学者]
68Hawkins PT、Anderson KE、Davidson K、Stephens LR。哺乳动物细胞中通过I类PI3K发出信号。生物化学Soc Trans。2006;34:647–662.[公共医学][谷歌学者]
69刘鹏,程华,罗伯茨TM,赵JJ。针对癌症中的磷脂酰肌醇3-激酶途径。Nat Rev药物发现。2009;8:627–644. [PMC免费文章][公共医学][谷歌学者]
70Kanehisa M,Goto S.KEGG:基因和基因组京都百科全书。核酸研究。2000;28:27–30. [PMC免费文章][公共医学][谷歌学者]
71Kanehisa M、Goto S、Hattori M、Aoki-Kinoshita KF、Itoh M等。从基因组学到化学基因组学:KEGG的新发展。核酸研究。2006;34:D354–357。 [PMC免费文章][公共医学][谷歌学者]
72Joshi Tope G、Vastrik I、Gopinath GR、Matthews L、Schmidt E等。基因组知识库:生物学家和生物信息学家的资源。冷泉Harb Symb Quant生物。2003;68:237–243.[公共医学][谷歌学者]
73Matthews L、Gopinath G、Gillespie M、Caudy M、Croft D等。人类生物途径和过程的反应组知识库。核酸研究。2009;37:D619-622。 [PMC免费文章][公共医学][谷歌学者]
74Vastrik I、D’Eustachio P、Schmidt E、Gopinath G、Croft D等。反应组:生物途径和过程的知识库。基因组生物学。2007;8:R39。 [PMC免费文章][公共医学][谷歌学者]
75Brandes U。中间中心性的更快算法。数学社会学杂志。2001;25:163–177. [谷歌学者]
76RDC团队。R: 用于统计计算的语言和环境。奥地利维也纳:R.Fuundation for Statistical Computing;2005[谷歌学者]
77Carey V,Long L,Gentleman R.2010年。RBGL:BOOST图形库的接口。
78绅士R,Whalen E,Huber W,Falcon S.2009。graph:处理图形数据结构的包。
79Dijkstra东部。关于与图有关的两个问题的注记。Numerische Mathematik。1959;1:269–271. [谷歌学者]
80Han JD、Bertin N、Hao T、Goldberg DS、Berriz GF等。酵母蛋白质相互作用网络中动态组织模块性的证据。自然。2004;430:88–93.[公共医学][谷歌学者]
81Brown KR,Jurisica I.在线预测人类交互数据库。生物信息学。2005;21:2076–2082.[公共医学][谷歌学者]
82Brown KR,Jurisica I.人类蛋白质相互作用在物种间网络中的不平等进化保护。基因组生物学。2007;8:R95。 [PMC免费文章][公共医学][谷歌学者]
83人类孟德尔遗传在线研究,OMIM(TM)、约翰·霍普金斯大学麦库西克·纳坦遗传医学研究所(马里兰州巴尔的摩)和国家医学图书馆国家生物技术信息中心(马里兰州贝塞斯达)
84Ruepp A、Kowarsch A、Schmidl D、Bruggenthin F、Brauner B等。PhenomiR:疾病和生物过程中微RNA表达的知识库。基因组生物学。2010;11:R6。 [PMC免费文章][公共医学][谷歌学者]
85Kloosterman WP,Wienhold E,Ketting RF,Plasterk RH.发育中斑马鱼胚胎中let-7功能的底物要求。核酸研究。2004;32:6284–6291. [PMC免费文章][公共医学][谷歌学者]
86Duursma AM、Kedde M、Schrier M、le Sage C、Agami R.miR-148靶向人类DNMT3b蛋白编码区。RNA。2008;14:872–877. [PMC免费文章][公共医学][谷歌学者]
87Orom UA、尼尔森足球俱乐部、Lund AH。MicroRNA-10a结合核糖体蛋白mRNA的5′UTR并增强其翻译。分子细胞。2008;30:460–471.[公共医学][谷歌学者]
88福尔曼·JJ、莱吉斯·米勒A、科勒·HA。对编码区保守序列的搜索表明,let-7 microRNA在其编码序列中以Dicer为靶点。美国国家科学院院刊。2008;105:14879–14884. [PMC免费文章][公共医学][谷歌学者]
89Karolchik D、Hinrichs AS、Furey TS、Roskin KM、Sugnet CW等。UCSC表格浏览器数据检索工具。核酸研究。2004;32:D493–496。 [PMC免费文章][公共医学][谷歌学者]
90Kent WJ、Sugnet CW、Furey TS、Roskin KM、Pringle TH等。加州大学洛杉矶分校的人类基因组浏览器。基因组研究。2002;12:996–1006. [PMC免费文章][公共医学][谷歌学者]
91Rhead B、Karolchik D、Kuhn RM、Hinrichs AS、Zweig AS等。UCSC基因组浏览器数据库:2010年更新。核酸研究。2010;38:D613–619。 [PMC免费文章][公共医学][谷歌学者]
92Blankenberg D、Taylor J、Schenck I、He J、Zhang Y等。ENCODE数据协同分析框架:使大规模分析对生物学家有利。基因组研究。2007;17:960–964. [PMC免费文章][公共医学][谷歌学者]
93Taylor J,Schenck I,Blankenberg D,Nekrutenko A.使用星系进行大规模交互式数据分析。当前协议生物信息学。2007;第10章:单元10 15。 [PMC免费文章][公共医学][谷歌学者]
94Hubbard TJ、Aken BL、Ayling S、Ballester B、Beal K等人,合奏2009。核酸研究。2009;37:D690-697。 [PMC免费文章][公共医学][谷歌学者]
95Pruitt KD、Tatusova T、Maglott DR.NCBI参考序列(RefSeq):基因组、转录物和蛋白质的精选非冗余序列数据库。核酸研究。2007;35:D61–65。 [PMC免费文章][公共医学][谷歌学者]
96.Landgraf P、Rusu M、Sheridan R、Sewer A、Iovino N等。基于小RNA文库测序的哺乳动物microRNA表达图谱。单元格。2007;129:1401–1414. [PMC免费文章][公共医学][谷歌学者]

文章来自PLOS ONE系列由以下人员提供多环芳烃