介绍
最近,人们发现动物的基因组中含有数百个microRNA基因。这些小的非编码基因通常由RNA聚合酶II转录,加工成发夹,然后输出到细胞质中,在细胞质中被RNAi途径的中心酶Dicer裂解,形成单链成熟microRNA[1,2]. 在动物中,成熟的微小RNA被认为与靶基因的信使核糖核酸中的部分互补结合位点结合,并通过未知的机制调节其转录后表达。在所有已知的情况下,微小RNA通过抑制翻译而不影响靶标的mRNA浓度,或潜在地通过直接诱导靶标mRNA浓度的降低来抑制蛋白质编码靶基因的表达[三]. 因此,为了了解microRNA的生物学功能,确定其靶点非常重要。由于用于识别microRNA靶点的高通量实验方法尚未发表,因此基于其与microRNA的部分互补性来识别靶点的计算方法变得越来越重要[4–13]. 在苍蝇中,这些方法的灵敏度足以预测噪声以上每个microRNA约8个靶点,尽管实际靶点数量估计要高得多[14]. 跨谱比较能够识别进化上保守的、因而可能具有功能的靶点,已被证明非常有助于提高微RNA靶点检测的灵敏度。最近,基于八种脊椎动物的跨物种比较的三项独立研究得出结论,在脊椎动物中,microRNAs被预测至少调节所有基因的20%-30%[8,13,15]. 这些发现与实验结果一致[三].
人们还普遍认为,与转录因子类似,microRNA可以以浓度依赖的方式结合到同一mRNA,从而联合(或协同)发挥作用。基因表达的组织特异性可以用“microRNA代码”部分解释[16]组织特异性表达反式-作用微RNA。这个想法得到了实验的支持[17]以及使用计算方法搜索同一靶mRNA中不同microRNA靶位点的结果[5,6,13]. 特别是,一种哺乳动物基因被预测出来,并且实验表明它受到几种共表达的microRNA的协同调控[13].
我们使用了我们的microRNA-目标查找算法PicTar[13],以及最近测序的7个物种的跨物种比较果蝇属预测和分析苍蝇中的microRNA靶点。目标位置识别的基本模型以及这些结果与我们之前预测的比较[9]显示在讨论。自最近的实验以来,我们还计算了聚集微RNA共同靶点的预测[18,19]他们认为,分布在约50 kbp基因组DNA簇中的microRNA基因倾向于共同表达。为了阐明microRNA的特定功能,我们使用基因本体(GO)术语分析了预测目标集的功能注释[20]. 然而,为了更全面地了解microRNA的功能,我们随后询问了microRNA在苍蝇中的靶向程度是否与脊椎动物的靶向相似,microRNA–mRNA的某些调控关系是否在两个分支之间保持不变,以及单个microRNA是否可能在分支特异性基因调控中发挥作用。
结果
七种蝇类的全基因组交叉种比较允许高特异性和高敏感性microRNA靶点预测
已经广泛证明,通过搜索进化上保守的目标位点,并因此可能具有功能性,可以显著提高microRNA靶位点计算识别的成功率。因此,我们开始利用最近对一些苍蝇物种的全基因组测序(). 其中八个物种的基因组序列,包括黑腹角雉、黑腹角鲨、黑尾角鲨,和男性化组,已组装(D.melanogaster、D.simulans、D.yakuba、D.erecta、D.ananassae、D.pseudomburga、D.virilis、,和D。
莫哈文斯)。我们丢弃了D.模拟人装配,因为它被证明有很大的间隙。这些物种的估计分化时间从几百万年到大约4000万年不等().
系统发育树(共12棵)果蝇属物种我们的数据集包括7个物种的3′UTR:D.melanogaster、D.yakuba、D.erecta、D.ananassae、D.pseudombscria、D.virilis、,和D。
莫贾文斯病。在第1组和第2组中有以红色下划线的物种。D.直立人(红色虚线)仅出现在集合2中。资料来源:http://species.flybase.net/.
为了鉴定3′UTR序列中进化保守的microRNA靶位点,鉴定同源mRNA至关重要。我们对八个物种的两组独立产生的全基因组比对进行了实验(参见材料和方法). 第一组对齐(称为组1),不包含D.直立人,由UCSC基因组数据库生成(http://genome.ucsc.edu/)并基于随后进行乘法对齐的成对对齐。第二组(称为第2组)来自真正的全基因组多重比对(C.Dewey,MERCATOR,http://hanuman.math.berkeley.edu/~cdewey/墨卡托/) [21]. 对于这两个集合,我们提取了D.黑腹果蝇3′UTR使用D。
黑腹食肉动物FlyBase对18892个基因转录本进行注释,并获得13465个转录本(集合1)和13030个转录本的所有八个物种的3′UTR比对(集合2)(). 我们还通过仅保留同一基因所有转录变体中最长的3′UTR来定义比对集,从而导致每组约9800次比对(称为唯一比对)。因此,两组之间的基因覆盖率大致相当。此外,我们使用集合1的UCSC重复遮罩和串联重复移除器屏蔽了唯一路线中的重复[22]继Rajewsky等人[23]对于第2组。各种比对集的核苷酸空间列于对于重复标记的独特排列,每组每种总容量为2.2–4.1 Mb。因此,屏蔽重复删除了大量序列(每个物种高达22%)。
为了识别保守的微小RNA靶点,我们使用了PicTar算法[13]. PicTar的关键组成部分是“细胞核”(或“种子”)的概念,定义为七个碱基的延伸(从微小RNA 5′端的第一个或第二个位置开始),与靶位点连续进行完美的Watson–Crick碱基配对。最近的计算和实验研究[14]证明这种细胞核的存在对于所有microRNA靶位点中的很大一部分是必要的果蝇属对于其余的位点,细胞核是不完美的,并且包含不匹配、凸起或G:U碱基对。实验结果表明,核不完全的位点似乎只有在通过microRNA的3′端与靶位点的额外结合进行补偿时才有功能[14,17]. PicTar的输入由直系的、对齐的3′UTR序列和一个或多个microRNA的搜索集组成。PicTar首先确定候选的3′UTR比对,其中包含最少数量的保守完美核,称为锚定位点。锚固点的最小数量和保护程度由用户定义。每个候选UTR分别搜索具有完美核和不完美核的位点。随后,不完美的位置需要通过自由能过滤器。目前设置为最大三分之二的完全碱基配对的microRNA–mRNA双链的自由能,从而去除了核不完美的绝大多数位点。具有完美细胞核的部位可能会选择性地接受更温和的自由能过滤步骤(取决于设置)。最后,PicTar计算分数(请参见材料和方法)反映基于隐马尔可夫模型的搜索集成员将给定UTR作为目标的可能性。
评估microRNA靶向的范围果蝇,我们使用PicTar计算具有完美核(锚)的保守假定靶点。用于这些搜索的microRNA由所有当前已知的microRNAs组成,这些microRNA似乎在所有考虑中的物种中都是保守的(参见材料和方法). 为了避免多次计算靶位点,我们用每个家族中的一个成员代表了所有共享相同核的microRNA“家族”。最后一组包含46个microRNAs,其独特的细胞核在所有苍蝇中都是保守的。与我们之前的研究一样[13],我们招募随机microRNA序列的队列来估计假阳性的数量(参见材料和方法). 具体来说,我们计算了集合1和集合2的所有锚定位点(单个保守核),包括真实microRNAs的屏蔽和无屏蔽重复,以及每种情况下的五组随机队列(). 特异性的一个度量是信噪比,它被定义为真实微RNA与随机微RNA的锚定位点数量之比。在每种情况下,我们平均了五个队列的结果,并计算了信噪比的平均值和标准偏差。我们计算了特异性和敏感性,需要在有自由能过滤和无自由能过滤的情况下对锚定点进行不同程度的进化保护(). 总的来说,我们观察到使用自由能滤波器或掩蔽重复序列往往会增强特异性,但灵敏度会有适度的损失。我们在集2中获得了较高的信噪比,但在集1中获得了更高的灵敏度。我们还发现,要求不同程度的锚定点进化保护强烈影响敏感性和特异性。更准确地说,搜索所有苍蝇之间保守的锚定位点(在各种参数设置下)得到的信噪比为2.8-3.6(集合1)和3.3-4.0(集合2)。平均而言,噪声以上每一microRNA的敏感性为25-33(组1)和15-29(组2)个锚定位点。保存在黑腹食肉动物和蒙昧各组的信噪比为2.1–2.4(组1)和2.3–2.7(组2().
PicTar单靶点预测的信噪比对于第1组和第2组,46个在所有果蝇中保守的独特microRNA的预测锚定位点数量,以及相应的随机microRNA(五个队列的平均值)和各自的信噪比(在条形图上显示)显示了使用和不使用具有掩蔽和未掩蔽重复的UTR的锚定位点的自由能滤波。
(A) 锚定位点保守的集合1的预测黑腹食肉动物和蒙昧组。
(B) 在所有苍蝇中,锚定位点保守的第1组预测。
(C) 第2组的预测,锚点保存在黑腹食肉动物和蒙昧组。
(D) 所有苍蝇中锚定位点保守的第2组预测。
根据这些结果,我们定义了三种设置,称为S1、S2和S3(参见材料和方法)这使我们能够调整敏感性和特异性之间的权衡,并分别生成高灵敏度、高特异性和中等特异性/敏感性的预测。对于每种设置S1–S3,我们记录了作为PicTar评分截止值函数的特异性和目标转录物的数量,即放弃分数低于给定阈值的所有预测(). 我们发现高得分转录本往往具有显著提高的特异性。例如,当使用设置S3时,信噪比可以提高1.7倍,同时每个microRNA保留相当数量的预测转录物。特异性和PicTar评分之间的正相关与我们的观察结果一致,即一些非锚定位点对评分有贡献。这些地点似乎是“分散的”,即仅存在于某些物种中,或并非在路线中相同位置的所有物种中都存在。我们尝试放宽锚定点的定义,以包括在考虑中的所有物种中发现完美核的情况,但不一定是在路线的重叠位置。在所有设置S1–S3中,信噪比都降低了(例如S3从3.3降低到2.6),灵敏度没有显著提高。因此,我们得出的结论是,许多分散的站点可以发挥作用,但只有当它们与锚站点一起出现时才应该进行评分,如PicTar算法中所实现的那样。
作为PicTar评分函数的敏感性和特异性所示为三种不同PicTar设置(S1–S3;参见材料和方法):(A)高灵敏度设置(S1),(B)高特异性设置(S2),和(C)中等灵敏度/中等特异性设置。信噪比还取决于分数截止值,并在曲线上方显示特定截止值。所有设置的所有预测都可以在PicTar Web服务器上访问(不通过分数截止值进行过滤)。
脊椎动物microRNA靶向性研究进展[6,8,13,15]和苍蝇[5,14]表明这两个分支中的所有蛋白编码基因中有相当一部分(10%-30%)受microRNA调节。使用设置S3(或S2),我们发现15%(13%)的注释大约10000个唯一黑腹食肉动物3′UTR转录物(对应约10000个基因)至少有一个锚定位点,在所有七种蝇类中以约三(4)个信噪比保守。因此,在设置S3或S2的情况下,在所有苍蝇中,大约10%的转录物被高于噪声的微小RNA靶向。为了估计有多少基因可以被一个以上的microRNA调控,我们统计了至少有两个锚定位点的所有转录本。应用高特异性设置S2,我们发现搜索多靶向转录物进一步显著提高了特异性(). 例如,我们发现,与随机microRNA相比,具有至少两个锚定位点的真实microRNA靶向转录物的数量是随机microRNAs的7倍。通过设置S2和S3,我们预测30%的目标转录物有多个锚定位点。最后,对于我们的高灵敏度设置S1,我们发现27%的转录本至少有一个锚定位点,单位点信噪比约为2.2。其中,40%至少有两个锚点。
多靶点基因PicTar预测的特异性46个独特、保守的microRNA和随机microRNA的最小锚定位点数量与独特基因数量的关系(五个队列的平均值)。这些数字的比率反映了特异性,显示在每个条形图的上方。
总之,根据我们的高灵敏度设置,我们预测至少有15%的D。
黑腹食肉动物具有目前注释的3′UTR序列的基因由至少一种已知的微小RNA调节,并且其中至少五分之一果蝇属microRNA靶点可能受到来自不同microRNA家族的两个或多个microRNA的协调控制(高于噪音)。我们在我们的可搜索网站上为所有保守的microRNA、所有FlyBase转录本和设置S1–S3提供排名PicTar目标预测(http://pictar.bio.nyu.edu). 这些结果链接到其他各种公共数据库,可以查询感兴趣的基因或感兴趣的微RNA。
实验验证的microRNA靶点的回收果蝇属
我们之前已经证明PicTar具有经验证的极好的回收率秀丽隐杆线虫microRNA靶点[13]. 分析实验验证目标的回收果蝇,我们从文献中收集了19个microRNA靶向调控关系[4,12,24]. 设置S1–S3与PicTar预测的重叠总结如下.凋亡基因隐藏/起皱被microRNA靶向矮脚鸡[24]. 对于所有设置S1–S3,隐藏得分最高矮脚鸡target(PicTar得分为17.3),在所有苍蝇中有五个锚定位点。尤其是,隐藏目标为矮脚鸡在我们所有的目标预测中,PicTar得分排名第二。唯一得分较高的基因(40.5)是nerfin-1,其中包含两个锚点miR-286型(或同等miR-279型)在所有苍蝇和相同microRNA的许多额外位点中都保存(参见讨论).
这个缺口信号基因多毛的是最近预测的[4,9]并确认为目标miR-7型具有单个绑定站点[4]. PicTar发现了一个miR-7型在所有的苍蝇中都保存了锚定位点黑腹食肉动物和蒙昧组,而站点位于D.雄性似乎略微向上游移动。因此,可以通过设置S1而不是设置S2和S3来恢复此目标。有实验证据表明miR-7型也是目标HLHm3型和E(spl)m4,两个基因位于E(标准普尔)复杂[4]. 对于HLHm3,PicTar预测了一个miR-7型目标位置在所有苍蝇中保存(所有设置)。基因E(斑点)m4没有带注释的3′UTR,但在将可能的3′UTR序列添加到我们的数据集后恢复了[4]. 另一个基因E(标准普尔)复杂,HLHm5,是排名最高的目标基因miR-7型搜索所有苍蝇中保守的目标时(设置S2;设置S3排名2)。降低保守性水平的目标预测(设置S1)也会产生HLHm5型排名第一miR-7基因目标。这个槽口基因有胡子的作为的目标恢复miR-4型(或miR-79,等效)。设置S1后,我们在其3′UTR中发现了三个保守位点。这些所谓的有胡子的盒子已经被证明可以通过一个有胡子的体内3′UTR[25]. 该基因得分再次非常高(15.6分),排名第二miR-4型目标预测(设置S1)。该目标不能用其他设置恢复,因为该基因的比对不包含莫哈文氏双球菌和D.男性。同样的microRNA被认为可以抑制风笛[14],排名第二miR-4型目标预测(S3)。
促凋亡基因收割者,冷酷,和镰刀是经验证的miR-2型家庭[4]. 对于镰刀我们在所有苍蝇中发现了一个保守位点miR-2、miR-13、,和miR-6,它们共享同一个核。对于收割台,我们在黑腹食肉动物和暗箱设置为S1的组,而其他设置由于该基因在莫哈文斯博士。
严峻的是PicTar没有发现的唯一目标,因为它只有一个6分子的核miR-2型.
最近一种预测microRNA靶点的算法不依赖进化信息,而是结合了3′UTR二级结构来计算假定的microRNA目标[12]. 细胞系中的荧光素酶报告子结构可以支持一些高分预测。我们从这个列表中找到了四个目标(miR-7/HLHm5、miR-279/SP555、miR-124/Gli、,和miR-310/imd)但未能定位其他六个靶点的保守核(见). 令人惊讶的是,在9个经过实验分析但没有显示任何抑制活性的计算预测靶点中(可能为假阳性)[12],我们只预测了一种微RNA-靶调控关系(miR-286/boss)。
总之,PicTar通过体内实验证据回收了所有已知靶点的8/9(89%),通过设置S1的其他实验支持回收了4/10(40%)的靶点,即只需要在黑腹食肉动物和蒙昧组。当需要在所有苍蝇物种之间进行保护时,只有三个具有实验支持的目标丢失,因此在设置S2和S3时无法恢复。
一些簇状microRNA可能协同调节基因表达
表达分析表明,位于彼此相距50 kb以内的同一基因组区域的microRNA基因通常是共表达的[18,19]这表明它们可能协同调节共同的靶基因。在D.黑腹果蝇,我们在50-kb区域内确定了七个簇,其中包含来自不同家族的至少两个保守microRNA的前体。为了确定苍蝇中聚集的microRNA的共同靶点,我们使用PicTar预测这些microRNA簇中每一个的坐标靶点(可在PicTar服务器上获得)。概述了所有集群及其在中的位置果蝇属基因组、目标转录物的丰度,以及当给定簇的所有microRNA基因位于另一个基因的内含子时,该基因的标识符。为了评估聚集的miRNAs靶向同一基因的频率是否高于预期,我们考虑了所有48个独特的保守microRNAs的1128对组合。虽然来自同一簇的微小RNA对仅占这些对的2.1%,但132个基因对于这些簇对中的每个微小RNA含有至少一个锚定位点(使用设置S1),或者1104个基因中的12%对于这48个微小RNA的任何组合含有至少两个不同的锚定位点。因此,来自集群的一些微RNA对可能协调调节的基因比例(12%)明显高于预期(2.1%)。此外,在48个保守的microRNA中,成对聚集的microRNAs预测的目标基因数量是随机抽取的24对microRNAs中预期数量的两倍,这一数字在三个标准偏差下显著(参见材料和方法). 这些发现支持了由聚集的微小RNA执行协调控制的假设。
预测microRNA靶点的生物学和分子分类
深入了解果蝇属microRNA,我们使用了GeneMerge[26]分析特定GO术语的过度表示[20]在预测特定microRNA靶向的基因与背景基因集的功能注释中(参见材料和方法). 为了避免潜在的虚假统计意义,我们选择了不使用所有基因作为背景,而是构建了一个背景集,包含真实和随机microRNA的所有预测目标。从“生物过程”本体中,共识别出112个显著过度表示的GO术语;保守microRNA单独靶向70%的基因集,以及包含至少一个过度代表GO项的microRNA簇的两组组合靶向预测(A) ●●●●。对于“分子功能”本体,在36%的所有单个microRNA靶基因集和一组microRNA簇靶基因中,共获得了25个明显过度代表的GO类别(B) ●●●●。与之前的估计一致[1,2]我们的数据表明,microRNAs在许多不同的生物过程中调节多种基因。全球突出的GO术语包括形态发生、器官发生、发育(包括胚胎发育、前/后和背/腹轴规范)、神经发生、信号转导(包括Notch、Torso、Sevenless和Frizzled信号)和转录调控。在最近的一项研究中,我们与另一个针对苍蝇microRNA靶点的GO分析的总体重叠是微不足道的,这很可能是因为识别过度代表的GO项的方法不同,而且PicTar和已发表的miRanda算法对靶点预测的性质也不同[5].
所有单个microRNA和共表达microRNA簇预测靶基因中的重要GO项显著丰富了GO术语,用于(A)“生物过程”和(B)“分子功能”本体论。所示为GO条款第页-值小于0.1,针对多次测试进行了修正。对GO术语和microRNA分别进行分级聚类(参见材料和方法).
我们的数据与最近一项使用GO功能分析预测microRNA靶基因的研究结果一致,并得到了扩展[4],其中miR-7型被预测在Notch信号和miR-277缬氨酸、亮氨酸和异亮氨酸降解。对于miR-277,我们恢复了所有9个预测目标,并在第页< 10−7.目标miR-7型PicTar预测包括许多Notch通路基因以及Notch信号的靶点,包括E(spl)m5、Tom、Bob、E(spl)mγ、Bearded、E(spl)m3、,和E(spl)m4,其中大多数得分很高(使用设置S1)。此外,Notch信号的许多靶点也被预测为Bearded-box microRNA的靶点miR-4基因和miR-79(E(spl)m5,有胡子,E(spl)mγ,和汤姆)和K-box microRNAmiR-2型和miR-11型
(E(spl)m5,E(spl)m2,E(spl)mδ,和E(spl)m3),与以前的观察结果一致[27]. 如果在当前的FlyBase版本中对其他已知的Notch目标的3′UTR进行了注释(数据未显示),那么这些目标就会包含在PicTar的目标列表中。我们注意到,如果将严格的自由能过滤应用于预测的具有完美核的microRNA靶双工体,PicTar预测的大多数Notch靶点都不会被预测。
苍蝇和脊椎动物microRNA靶点的比较
此前,我们应用PicTar对8种脊椎动物(人类、黑猩猩、小鼠、大鼠、狗、鸡、河豚和斑马鱼)的3′UTR序列进行了穷尽搜索,以寻找microRNA靶位点[13]. 为了比较microRNA在苍蝇和脊椎动物中的靶向程度,我们首先使用UCSC数据库中的数据集,比较了两个分支之间的长度、重复内容和3′UTR的保守性。我们重点比较了D.黑腹果蝇根据注释的转录本从这些物种中提取3′UTR。我们发现,3′UTR的长度分布及其内重复序列的分布在所有哺乳动物之间和所有苍蝇之间都非常相似,因此人类和苍蝇之间的比较D.黑腹果蝇UTR应揭示两个分支之间的本质差异。我们发现哺乳动物的3′UTR长度分布比苍蝇广得多,人类平均每3′UTR900个核苷酸D.黑腹果蝇(),与之前的结果一致[28]. 通过检测重复序列的贡献,我们发现重复序列占人类3′UTR序列的11%,而在D.黑腹果蝇(). 有趣的是,对于短重复序列(最多约50个核苷酸)D.黑腹果蝇和人类相似(). 对于较长的元素,苍蝇体内的分布继续以相同的斜率呈指数衰减,而人类的分布显示出宽尾,另一个显著的峰值集中在大约300个核苷酸附近。为了分析3′UTR的保守性,我们统计了在每个3′UTR-多重比对中表现出完全保守性的所有7个单体,并将这些计数除以3′UTR.序列的长度。我们发现,在脊椎动物排列(包括人类、黑猩猩、小鼠、大鼠、狗和鸡)和涵盖我们数据集中所有苍蝇物种的排列(分别为0.02和0.03)之间,核苷酸存在于保守7聚体中的概率是可比的。同样,3′UTR的保守性在哺乳动物和苍蝇中具有可比性黑腹食肉动物和蒙昧组(分别为0.06和0.08)。在脊椎动物和苍蝇中,重复序列对保守的7个单体的贡献有很大不同(). 在脊椎动物和苍蝇中,掩蔽重复使保守7个碱基的数量分别减少约1%和10%。因此,3′UTR中的重复序列在果蝇中的保守性似乎比在脊椎动物中好得多,因此可能对果蝇具有功能重要性。
3′UTR在人和人中的长度分布D.黑腹果蝇
集合1和集合2的数据采用对数刻度。人体内的分布随长度增加呈指数衰减,比人体内慢得多D.黑腹果蝇人和人的平均3′UTR长度D.黑腹果蝇分别约为900和400个核苷酸。
人和人3′UTR中重复元件的长度分布D.黑腹果蝇
集合1的数据采用对数刻度。在11个核苷酸的长度上,两种物种的分布均达到峰值,而在D.黑腹果蝇直到大约50个核苷酸的长度,两种分布都非常相似,而对于较长的元素,人类的分布不再呈指数衰减,而是具有在大约300个核苷酸的长度处具有另一个显著峰值的宽尾。
哺乳动物和苍蝇之间的microRNA调节程度总体上大致相当,有几个有趣的分支特异性差异。在脊椎动物中,我们和其他动物[6,8]发现大约30%的基因可能受微RNA调控。这是我们在苍蝇中发现的数字的两倍(15%),但这可以解释为苍蝇中已知的microRNA数量较少以及其他原因(参见讨论). 更有趣的是,我们检查了单个microRNA是否针对哺乳动物和苍蝇中相似或显著不同数量的基因,因为这些差异可能表明microRNA功能的枝特异性变化。为了在分析中保持目标预测的合理敏感性,我们使用人类、黑猩猩、小鼠、大鼠和狗对哺乳动物和黑腹食肉动物和蒙昧苍蝇预测小组。我们在哺乳动物和苍蝇中定义了一组48个同源微RNA(参见材料和方法)并计算了两个分支中microRNA靶的平均数量。然后,我们分别计算了每个微小RNA的预测靶点与每个分支的平均值的比率(). 这些比率的散点图()证明了哺乳动物和苍蝇中同源microRNA的靶基因数量之间的相关性。然而,某些microRNAs在两人中的靶基因数量似乎明显较高(miR-10,miR-133,miR-125,let-7,和miR-285)或苍蝇(miR-184和miR-210)。例如,对于let-7我们在哺乳动物中发现了1.64个平均预期的靶基因,但仅为苍蝇平均预期数量的50%左右。从这个分析中不可能确定microRNA是在一个分支中获得了更多的靶点,还是在另一个分支失去了靶点,但令人惊讶的是,这两个人类同源的蝇microRNAmiR-184型和miR-210型在许多人类组织中以低丰度表达,而miR-10、miR-133、miR-125、let-7,和miR-285型在更高的层次上进行整体表达[19]. 我们强调miR-10型和miR-133型在人类中具有平均或低于平均数量的预测目标。我们的数据表明,上述七种微RNA可能在基因调控的枝特异性模式中发挥作用。
表7
哺乳动物和苍蝇之间的同源microRNA黑腹食肉动物和蒙昧靶基因群及其各自的数目
哺乳动物和苍蝇同源microRNA的预测靶基因数量哺乳动物和苍蝇中同源microRNA靶基因相对数量的散点图。在哺乳动物中绘制了一个microRNA的预测靶基因数量与每个microRNA假定靶基因平均数量的比率(年-轴)与苍蝇(x个-轴)。苍蝇保护包括黑腹食肉动物和暗箱组。圈出异常值(预测目标基因的相对数量比大于3.0或小于0.33)。microRNA标识符是指注释在D.黑腹果蝇.
最后,我们计算了苍蝇和哺乳动物之间哪些调节性microRNA–mRNA关系似乎是保守的(参见材料和方法). 来自所有8136个同源人类-D类.黑腹食肉动物在我们的数据集中,50个独特的基因对被同源microRNA(列于表S1). 这50对由大约60个microRNA-mRNA调控关系组成。尽管这些数字很小,但严格的排列测试表明结果略微显著(1.7个标准偏差)(参见材料和方法). 也许并不奇怪,50人中几乎有一半D.黑腹果蝇基因属于GO类别“发育”,“组织发生”被分配给这24个基因中的13个。两个结果都很显著(参见材料和方法).
讨论
转录后基因调控的范围果蝇属由microRNA介导
几种植物的基因组测序果蝇属物种被证明是分析苍蝇microRNA靶点的宝贵资源。与最近的方法相比,跨谱比较使我们能够显著提高微RNA靶预测的敏感性和特异性。例如,以前的研究预测每个microRNA平均有8个靶基因(参见[14]以及其中的参考文献),而我们的数据允许我们(高灵敏度设置S1)预测噪声以上的每个microRNA 54个靶基因D.黑腹果蝇我们仍然预测,在S2和S3设置下,每个microRNA平均仍有23个和30个以上的靶基因,且信噪比显著提高。
根据我们的目标预测,我们发现目前已知的microRNAs有望调节大部分D.黑腹果蝇基因(15%)。这个数字几乎可以肯定是低估了,因为(a)3′UTRs的注释不完整,(b)几个蝇类的基因组序列仍然存在很大的缺口,以及(c)预计蝇类中还有更多的microRNAs有待发现。事实上,使用一种类似于最近哺乳动物比较研究的方法[15],我们分析了所有七个物种的苍蝇3′UTR,发现了大量尚未发现的苍蝇微小RNA基因存在的有力证据(N.Rajewsky,未发表的数据)。
我们预测的每个microRNA的靶点数量与Brennecke等人最近对microRNA靶点真实数量的估计一致[14]. 在该研究中,作者分析了保守的8聚体核和保守的7聚体核的统计意义,并得出结论,绝大多数可计算检测的靶点至少有一个保守的7聚体核。我们的方法与此方法类似,但在我们的保护分析中包含的物种数量较多时有所不同。对于这两种方法来说,要求相似的序列保守性,每一个microRNA的目标基因数量大致相当。在我们数据集中的许多情况下,集合中的间隙会人为地减少预测目标的数量。另一方面,使用所有七个果蝇属物种使我们的信噪比几乎翻了一番。未来,将进一步完成果蝇属基因组几乎肯定会增加PicTar预测的数量。
与之前算法的比较
此前,我们发表了一种微小RNA靶点识别算法,并用它来预测一组中央发育基因中的微小RNA靶点,这些基因参与了果蝇属[9]. 在我们的靶位点识别模型中,我们引入了细胞核的概念,即微小RNA和靶位点之间的一段完美的Watson–Crick碱基配对,并表明细胞核(a)通常有6-8个碱基长,(b)是靶识别特异性的中心组分,以及(c)可以作为核化位点,使microRNA-mRNA双链的细胞核区域快速收缩[9]. 该目标位置识别模型明确地解释了结合动力学和热力学成分的目标位置识别的物理基础。最近的一篇实验论文支持这一观点[29]. 我们还观察到,细胞核在microRNA中的位置通常是保守的,并且位于5′端,这表明顺式-调控基序可用于协调微RNA在不同基因间的作用。我们将之前预测的microRNA–mRNA调控关系与当前PicTar预测进行了比较。我们发现,在两个数据集中都存在基因的所有案例中,PicTar准确地恢复了之前30个预测位点中的11个。PicTar无法恢复许多预测,因为我们之前的算法没有将细胞核限制在microRNA的5′端。
未来PicTar改进
所有单个microRNA靶点预测中得分最高的基因是nerfin-1,有两个锚点miR-286型在所有苍蝇和所有苍蝇中存在的许多额外的非对齐位点中保存。路线中的错误或含糊不清常常可以解释这些“分散”站点的存在。此外,补偿性突变可能导致3′UTR中的非对齐但功能保守的靶点。目前,PicTar对这些分散的位点进行评分的方式与对保守位点进行评分相同,只要它们都出现在同一UTR中。该算法的未来改进应该探索(a)3′UTR序列和microRNA靶位点进化的显式进化模型,(b)改进核不完美位点的概率评分[14],(c)二级结构信息的合并[12]、(d)纳入mRNA表达水平(例如,来自微阵列实验)和(e)microRNA表达水平。
我们的数据表明,一些聚集的microRNAs可能协调调节靶基因。此外,已经证明聚集的microRNAs可能是共表达的。使用多个共同表达的microRNA协同调节靶基因可能是提高靶基因调控特异性的有效方法,也可能增强靶基因表达水平对单个microRNA浓度波动的鲁棒性。我们注意到,我们的数据仅表明聚集的微RNA比非聚集的微RNAs更有可能通过与3′UTR的配位结合来协调调节靶基因。许多位于集群中的microRNA似乎也以相同集群中microRNA没有额外结合位点的基因为靶点。相反,来自不同簇的微小RNA似乎有许多可能性协同结合相同的靶基因。
microRNA功能在大进化距离上的进化
微RNA为研究反式-调控基因及其进化顺式-使用计算方法调节靶点。在这项研究中,我们只通过比较一个分支中每个microRNA的靶基因估计数与另一个分支的同源microRNA靶基因预测数来触及这个问题,根据我们对同源性的定义,这两个分支可能与相同的microRNA结合顺式-监管场所。我们警告说,我们对同源性的定义也指可能在一个或两个分支中独立进化的微小RNA。然而,我们的比较在苍蝇和脊椎动物中每个microRNA的靶基因数量之间产生了非平凡的相关性,表明每个microRNA的microRNA靶相对数量在很大的进化距离上趋于保守。相比之下,两个分支之间似乎只有相对少量的特异性microRNA-mRNA调控关系。这种情况暗示了由微RNA介导的基因调控的全球“网络”特征的保护,同时也暗示了微RNA在生物体进化过程中广泛重组转录后基因调控。
令人惊讶的是,一些微小RNA(包括第7列)脊椎动物中可能有大量的靶基因,但苍蝇中的靶基因相对数量似乎大大减少,反之亦然。我们挑选出三个microRNA(miR-184,miR-304,和miR-210)与脊椎动物相比,苍蝇体内目标的相对数量大大增加。我们对microRNA靶点的GO术语分析显示其中一个(miR-210)有70多个预测的靶基因,作为一个群体,这些靶基因显著丰富(第页修正多重测试后<0.03),用于带有GO注释“雌性配子世代”的11个基因(参见A) ●●●●。这11人预测miR-210型目标是切割、鸡蛋头、无生殖细胞、角鲨、菱形、par-1、Ras癌基因85D、菱形-4、RNA结合蛋白9、烧焦、,和回转。大多数这些基因在进化上是保守的,在果蝇属卵子发生,无论是在卵母细胞的发育和模式化过程中,还是在围绕着正在发育的卵室的体细胞卵泡细胞的分化过程中,11个中的7个与涉及受体酪氨酸激酶、Notch、无翅或刺猬的发育关键信号通路有关(参见协议S1). 发展成熟果蝇属卵母细胞包含一系列精心安排的事件,这些事件必须及时准确地安排好。上述列表中数量惊人的基因在卵子发生期间必须在特定时间窗口内发生的重要事件中发挥作用,其中许多涉及生殖系和体细胞之间的信号传递。因此,miRNA调控的一个重要新兴主题可能围绕着发育过程中精确控制时空限制事件的广泛需求。此外,卵子发生果蝇属发生于脊椎动物的发育过程与脊椎动物完全不同。因此,令人感兴趣的是,单个microRNA有可能进化为包含对这种发育分化过程很重要的广泛靶基因。然而,这些潜在靶点中的许多并不局限于卵子生成,还可以在其他时间和地点发挥作用,包括眼睛、神经系统和上皮细胞,以及许多其他预测的靶点miR-210型靶点也在这些组织中起作用(例如。,箭头、杂音、三重奏、Sema-1b、makorin、梵高、Syntaxin 17、G-oα47A、RhoGAP92B、cul-2、Apc、,和Scm公司). 因此,这种微RNA可能在发育网络中发挥更复杂的多效性作用。我们得出结论,一些microRNAs可能是介导基因表达中分支特异性差异的候选基因,并可能在塑造生命多样性方面发挥重要作用。