介绍
MicroRNAs(miRNAs)是一种小的非编码RNA,在植物和动物中充当基因表达的转录后调节器。它们通过与靶mRNA上的互补位点结合来诱导生产性翻译的分裂或抑制(在[1,2,三,4]). miRNAs在动物中约占基因的1%,并且通常在广泛的物种中高度保守(例如[5,6,7]). 此外,miRNA功能或生物发生所需的蛋白质突变会损害动物的发育[8,9,10,11,12,13,14,15].
迄今为止,数百种动物miRNA基因中只有少数被赋予功能。线虫和苍蝇的突变表型导致发现线-4和第7列miRNAs控制发育时间[16,17],那个第六季度miRNA调节神经系统左右不对称[18],那个矮脚鸡miRNA控制组织生长[19],还有那个矮脚鸡和miR-14型控制细胞凋亡[19,20]. 鼠标miR-181型优先在骨髓中表达,并被证明参与造血分化[21]. 最近,鼠标miR-375型被发现是一种调节胰岛素分泌的胰岛特异性miRNA[22].
miRNA靶点的预测提供了一种分配生物功能的替代方法。这在植物中非常有效,其中miRNA和靶mRNA往往几乎完全互补[23,24,25]. 在动物身上,功能性双工在结构上可能更加多变:它们只包含短的互补序列延伸,被间隙和不匹配打断。到目前为止,还没有设计出捕获所有已知功能靶标的功能性miRNA-靶标配对的具体规则。这给搜索策略带来了问题,搜索策略对如何最好地识别功能站点应用了不同的假设。因此,预测目标的数量变化很大,仅在顶级目标中有有限的重叠,这表明这些方法可能仅捕获真实目标的子集和/或可能包含大量的背景匹配([19,26,27,28,29,30]; 审核人[31]). 尽管如此,经过实验测试,许多预测目标已被证明具有功能[19,26,27,29].
更好地理解miRNA和靶标之间的配对要求将清楚地改善对动物miRNA靶标的预测。众所周知顺式-监管要素果蝇属3′UTR与某些miRNAs的5′端互补[32]. miRNA 5′末端的重要性也体现在已知靶位点的配对特征和进化保护上[26]以及在全基因组靶点预测中观察到5′端特有的非随机统计信号[27]. 组织培养实验也强调了5′配对的重要性,并对一般结构要求提供了一些具体的见解[29,33,34]尽管不同的研究在一定程度上相互冲突,并与已知的靶点发生冲突(参见[31]). 迄今为止,尽管miRNAs在其全长上趋于保守,但尚未将其3′端归因于特定的作用。
在这里,我们系统地评估了体内功能性miRNA-靶双链的最低要求。这些实验使我们能够确定两大类miRNA靶点。第一类靶点为“5′显性”位点,碱基与miRNA的5′端配对良好。尽管这类中存在3′配对质量的连续性,但区分两个亚型是有用的:“典型”位点,在5′端和3′端配对好,以及“种子”位点,只需要很少或不需要3′配对支持。第二类靶点为“3′补偿性”位点,其5′碱基对较弱,并且依赖于miRNA 3′端的强补偿性配对。我们提供的证据表明,所有这些位点类型都用于调节miRNA的调节,并表明靶位点的3′补偿类用于区分体内miRNA家族的单个成员。全基因组统计分析使我们能够估计平均一个miRNA有大约100个进化上保守的靶位点,这表明miRNAs调节大部分蛋白编码基因。对3′配对质量的评价表明,种子位点是最大的群体。在以前的目标预测方法中,这种类型的地点在很大程度上被忽视了。
结果
最小miRNA靶位点
为了更好地理解功能性miRNA靶点的最低要求,我们在果蝇属机翼影像盘。我们在椎间盘中央区域的细胞条带中表达了一个miRNA,并评估了其抑制普遍转录增强型绿色荧光蛋白(EGFP)转基因表达的能力,该转基因在其3′UTR中包含一个单一靶点。通过比较miRNA-表达细胞和相邻非表达细胞中的EGFP水平来评估抑制程度。miRNA的表达强烈降低了含有单一功能靶点的转基因EGFP的表达(图1A) ●●●●。
在第一系列实验中,我们询问RNA双链的哪一部分对靶点调节最重要。制备了一组转基因果蝇,每个果蝇都含有一个不同的靶点miR-7型在EGFP报告结构的3′UTR中。起点看起来是最强的矮脚鸡生物靶点中的miRNA位点隐藏[19]并在报告基因的3′UTR中以单拷贝形式存在时赋予强调控(图1B) ●●●●。我们测试了在靶位点引入单核苷酸改变以在miRNA双链的不同位置产生不匹配的影响(注意,靶位点不匹配是这些实验中唯一的变量)。起始位点介导的有效抑制不受位置1、9或10的失配的影响,但位置2至8的失配强烈降低了目标调控的幅度。两个同时引入到3′区的错配对靶点抑制的影响很小,报告活性从10%增加到30%。为了排除这些发现对测试的miRNA序列或双重结构具有特异性的可能性,我们用miR-278型以及不同的双工结构。结果相似,只是在这种情况下,位置8的配对对调节并不重要(图1C) ●●●●。此外,位置2-7的一些不匹配仍然允许EGFP表达抑制高达50%。综上所述,这些观察结果支持了先前的观点,即miRNA 5′端的广泛碱基连接对靶点功能很重要[26,27,29,32,34].
接下来,我们确定了赋予目标调控所必需的最小5′序列互补性。我们将目标位点识别所必需的5′序列互补的核心称为“种子”(Lewis等人[27]). 与miRNA前八个核苷酸互补的所有可能的6、5和4聚体种子均在允许miRNA 3′端强碱基连接的位点上进行测试(图2A) ●●●●。种子通过恒定的中央凸起从完全3′端配对的区域中分离出来。从位置1或2开始的5mer和6mer种子具有功能。令人惊讶的是,在这些条件下,只有4个2–5号位置的基点能够实现有效的目标监管,而1–4号基点则完全无效。从位置3开始的4粒、5粒或6粒种子效果较差。这些结果表明,一个有功能的种子需要至少4或5个核苷酸的连续螺旋,并且配对具有一定的位置依赖性,因为产生可比较配对能量的位点在功能上不同。例如,中的前两个双工器图2A(4mer,顶行)具有相同的5′配对能(前8 nt的ΔG为−8.9 kcal/mol),但只有一个具有功能性。类似地,第三个4相双工和第四个5相双工(中排)具有相同的能量(−8.7 kcal/mol),但只有一个功能正常。因此,我们没有发现5′配对能量和功能之间的明确相关性,如[34]. 这些实验还表明,在缺乏最小5′元素的情况下,多达17个核苷酸的广泛3′配对不足以实现调控。因此,主要基于优化碱基配对程度或双链形成的总自由能的目标搜索将包括许多非功能性目标位点[28,30,35],根据双链形成的整体互补性或自由能对miRNA靶点进行排序可能无法反映其生物活性[26,27,28,30,35].
为了确定5′种子匹配的最小长度足以单独进行调控,我们测试了与miRNA的5′端配对的8个、7个或6个连续碱基,但不配对到其3′端的单个位点(图2B) ●●●●。令人惊讶的是,一个单一的8聚体种子(miRNA位置1-8)足以实现miRNA的强大调控。一个单一7聚体种子也有功能,尽管效果较差。当在UTR中引入两份该位点的拷贝时,8粒和7粒种子的调控幅度显著增加。相比之下,6粒种子没有表现出调控作用,即使是在两个拷贝中。最近在基于细胞的分析中,报道了两份具有有限3′配对能力的8聚体位点的比较结果[34]. 这些结果不支持前面建议的中央凸起要求[29].
根据RNA二级结构预测,我们精心设计了miRNA 3′端,以排除与邻近序列的任何3′配对。然而,我们不能排除UTR序列的广泛循环可能允许报告结构中的3′端对序列进一步下游的可能性。然而,请注意,即使发生了远程3′配对,并且8和7分子种子的功能需要远程3′比对,但对于少于7个互补碱基的5′配对来说是不够的(所有测试位点都在相同的序列上下文中;图2B) ●●●●。此外,如果允许足够长的循环,则将以任意顺序进行随机配对。然而,参与翻译抑制的核糖核蛋白复合物是否需要3′配对,以及它们是否能够允许广泛的环化来实现这一点,仍然是一个悬而未决的问题。计算上,如果允许任何长度的循环,则无法将远程3′配对与随机匹配区分开来。在此基础上,任何具有7或8分子种子的地点都必须被认真对待,特别是在进化上保守的时候。
从这些实验中,我们得出结论:(1)即使靶3′UTR仅包含单个位点,7个或更多个碱基与5′端miRNA的互补性也足以赋予调控;(2) 5′互补性较弱的位点需要与miRNA的3′端进行补偿性配对,以实现调控;和(3)在没有5′互补性的最小元素的情况下,与miRNA的3′端的广泛配对不足以赋予其自身的调节。
G:U碱基对种子膨大和膨大的影响
一些已证实的miRNA靶基因含有预测的与种子结合的位点,这些位点被G:U碱基对或单核苷酸隆起中断[17,19,26,36,37,38,39]. 在大多数情况下,这些mRNAs包含多个预测的靶位点,而单个位点的贡献尚未测试。体外试验表明,含有G:U碱基的位点可以发挥作用[29,34],但G:U基板对目标站点功能的贡献小于其对预测基板燃烧能量的贡献[34]. 我们测试了含有G:U碱基和隆起物的种子的单个位点在体内的功能。将一个、两个或三个G:U碱基对引入具有8、7或6分子种子的单个靶点(图3A) ●●●●。单个G:U基板导致8个种子位点和7个种子位点的调控效率明显降低。带有6个种子的网站几乎完全失去了活力。超过一个G:U基板会影响所有站点的活动。由于目标位点设计为允许最佳3′配对,因此我们得出结论,种子区的G:U碱基对总是有害的。
种子中的单核苷酸突起出现在第7列目标林-41和在林-4目标第14行[17,36,37]. 最近的组织培养实验表明,如果在种子区对称放置,这种隆起是可以容忍的[29]. 我们测试了一系列靶点或miRNA中单核苷酸突起的位点(图3B) ●●●●。只有其中一些位点对报告基因具有良好的调控作用。我们的结果不支持这样的观点,即这些场地依赖于凸起两侧的对称布置的基板。我们还注意到,突起核苷酸的身份似乎很重要。虽然很明显,如果miRNA 3′端具有广泛的互补性,一些具有一个核苷酸隆起或一个单一错配的靶位点可以发挥功能,但不可能概括其潜在功能。
目标站点的功能类别
虽然认识到miRNA和靶位点之间存在一个连续的碱基配对质量,但上述实验表明,关键依赖于miRNA 5′末端配对的位点(5′优势位点)可以与那些没有与miRNA 3′末端(3′补偿位点)强配对就无法发挥作用的细胞区分开来。3′补偿性组包括4到6个碱基对的种子匹配,以及包含G:U碱基对、单核苷酸突起或错配的7或8个碱基的种子。
我们认为区分5′显性位点的两个亚群是有用的:那些与miRNA的5′和3′端配对良好的亚群(典型位点),以及那些5′配对良好但很少或没有3′配对(种子位点)的亚群。我们认为种子位点是指没有证据表明miRNA 3′末端与邻近序列配对的位点,这比随机预期的要好。我们不能排除某些我们识别为种子位点的位点可能被额外的长距离3′配对支持的可能性。从计算上看,如果UTR序列中允许足够长的循环,这总是可能的。长环在体内是否有功能尚待确定。
典型位点具有由与miRNA 3′端的强碱基配对支持的强种子匹配。因此,典型位点可以被视为种子类型的延伸(除了足够的5′种子外,还有增强的3′配对)或作为3′补偿型的延伸(5′种子质量提高,3′配对充分)。就个体而言,典型站点可能比其他站点类型更有效,因为它们具有更高的配对能量,并且可能在一个副本中发挥作用。由于它们的配对能量较低,当种子位点存在于多个拷贝中时,预计会更加有效。图4介绍了生物相关miRNA靶点中不同位点类型的示例,并说明了它们在多个果蝇基因组中的进化保护。
目前确定的大多数miRNA靶位点是规范的。例如多毛的3′UTR包含单个站点miR-7,种子长9米,3′互补。该位点在体内具有功能[26]在种子配合度和3′端的互补性程度上都有显著的保守性miR-7型在所有六个直向同源的3′UTR中。
虽然种子位点以前没有被确定为功能性miRNA靶点,但有一些证据表明它们存在于体内。例如胡子(英国)3′UTR包含三个序列元素,称为Brd盒,与miR-4型和miR-79型[32,40]. Brd盒被证明在体内抑制报告基因的表达,可能是通过miRNAs,作为英国3′UTR记者被提升骰子-1突变细胞,不能产生任何miRNAs[14]. 所有三个Brd盒靶点均由7mer种子组成,其中任何一个的3′端几乎没有或几乎没有基极引线miR-4型或miR-79型(见下文)。对齐英国3′UTRs表明miR-4型或miR-79型目标位点位于种子序列之外,也没有与miRNA 3′末端配对的保守性。这表明可能与miRNAs的3′端配对的序列对调控并不重要,因为它们似乎没有受到选择性压力。这使得尚未鉴定的Brd盒miRNA不太可能形成典型位点复合体。
HOX基因的3′UTR减少性梳(Scr)提供了一个3′补偿位点的好例子。紧急停堆包含的单个站点miR-10型具有5个种子,与miRNA 3′端具有连续的11-碱基对互补性[28]. 这个miR-10型转录本编码在同一HOX簇下游紧急停堆,类似于miR-iab-5p和Ultrabithorax公司在苍蝇中[26]和miR-196型/霍克斯B8在小鼠中[41]. 预测的配对miR-10型和紧急停堆在所有六个果蝇基因组中完全保守,唯一的序列差异发生在未配对环区。该位点也保存在紧急停堆蚊子的基因,冈比亚按蚊面粉甲虫,栗Tribolium castaneum还有蚕蛾,家蚕.在亿万年的进化过程中保持如此高度的3′互补性表明,这可能是一种功能miR-10型目标站点。其他3′补偿位点也存在广泛的5′和3′序列保守性,例如第7列中的站点林-41或miR-2基因中的站点严峻的和镰刀[17,26,36].
miRNA 3′端决定miRNA家族中的靶向特异性
已鉴定出几个miRNAs家族,其成员具有共同的5′序列,但3′端不同。鉴于有证据表明miRNA的5′端在功能上很重要[26,27,29,42]在某些情况下(目前的研究),可以预期miRNA家族成员可能具有冗余或部分冗余功能。根据我们的模型,5′优势典型位点和种子位点应该对给定miRNA家族的所有成员都有反应,而3′补偿位点对不同miRNA家族成员的敏感性则因3′互补程度而异。我们使用3′UTR报告基因转基因和各种miRNA家族成员的过表达构建物的翼状盘试验对此进行了测试。
miR-4型和miR-79型共享一个共同的5′序列,该序列与风笛3英尺UTR(图5A和5B) ●●●●。miRNAs的3′端不同。miR-4基因预计在最大可能水平(−10.8 kcal/mol)的50%左右有3′配对,而miR-79型最大值约为25%(−6.1 kcal/mol),低于随机匹配的平均水平(见下文)。两种miRNAs都抑制了风笛3′UTR报告者,不考虑3′的互补性(图5B) ●●●●。这表明这两种类型的位点在体内都有功能,表明风笛是这个家族中两个miRNA的靶点。
为了测试miRNA家族成员是否也具有非重叠靶点,我们使用了促凋亡基因的3′UTR报告子严峻的和镰刀,两个最近确定的miRNA靶点[26]. 这两个基因在其3′UTR中都包含K盒,与miR-2、miR-6、,和miR-11型miRNA家族[26,32]. 这些miRNAs共享2–8个残基,但在其3′区差异很大(图5A) ●●●●。中的站点严峻的3′UTR预计与所有三个miRNAs形成6分子种子匹配(图5C、 左),但仅限于miR-2型显示了我们预测的具有6分子种子的3′补偿位点需要广泛的3′互补性才能发挥作用(−19.1 kcal/mol,最大3′配对为63%,而−10.9 kcal/mol46%,最大miR-11型和−8.7 kcal/mol,最大37%,适用于miR-6型). 的确,只有miR-2型能够调节严峻的3′UTR报告子,而miR-6型和miR-11型都是非功能性的。
这个镰刀3′UTR包含两个K盒,提供了一个测试弱位点是否可以协同作用的机会。第一个站点类似于严峻的3′UTR,因为它包含所有三个miRNAs的6聚体种子,但广泛的3′互补性仅限于miR-2型。第二个站点包含一个7mer种子miR-2型和miR-6型但只有6粒种子miR-11型(图5C、 右侧)。miR-2型强烈下调镰刀记者,miR-6型具有中等活性(可能通过7mer种子位点),并且miR-11基因尽管miRNAs过度表达,但几乎没有活性。一个位点被至少一个miRNA靶向的事实证明它是可访问的(例如。,miR-2型能够对两名UTR记者进行监管),而对其他家庭成员缺乏监管是由于双重结构。这些结果与我们基于单个站点的预测功能所预期的结果一致,并表明我们的目标站点功能模型可以扩展到具有多个站点的UTR。不单独起作用的弱站点在合并时也不起作用。
为了表明内源性miRNA水平调节所有三个3′UTR报告子,我们比较了野生型细胞和骰子-1突变细胞,不能产生miRNAs[14].骰子-1克隆不会影响缺少miRNA结合位点的对照报道者,但显示含有先前鉴定的3′UTR的报道者的高表达矮脚鸡miRNA靶隐藏(图5D) ●●●●。同样,上述所有3′UTR记者在骰子-1突变细胞,表明风笛、镰刀、,和严峻的受到在翼盘中表达的miRNA的抑制。综上所述,这些实验表明,具有5′显性规范位点和种子位点的转录物可能受miRNA家族所有成员的调控。然而,具有3′补偿位点的转录本可以区分miRNA家族成员。
靶位点的全基因组发生率
上述实验测试和观察到的进化保守性表明,所有三种类型的靶点都可能在体内使用。为了获得更多的证据,我们检查了所有站点类型的发生情况黑腹果蝇3英尺UTR。我们利用了D.假遮蔽基因组,第二个组装的果蝇基因组,用于确定在直系3′UTR序列中三个不同位点类别的位点保护程度。从已知的78个果蝇属miRNA,我们选择了一组49个具有非冗余5′序列的miRNA。我们首先研究了与miRNA 5′端互补的序列是否比预期的随机序列更保守。对于每个miRNA,我们构建了一个由十个随机洗牌的变体组成的队列。为了避免对可能的目标匹配数产生偏差,要求洗牌变异体产生与原始miRNAs相当的序列匹配数(±15%)D.黑腹果蝇3英尺UTR。与真正的miRNA 5′端互补的7mer和8mer种子的保守性显著好于与改组变体互补的那些。这与Lewis等人的发现一致[27]但不需要对全长miRNA目标双链应用秩和能量截断,就像脊椎动物miRNA一样。实际miRNAs的保守8 mer种子的出现频率平均是洗牌miRNA的补充种子的2.8倍(图6A) ●●●●。对于7mer种子,该信号为2:1,而6mer、5mer和4mer种子没有表现出比随机序列更好的保守性。为了评估这些信号的有效性并控制miRNA的随机重排,我们对“突变”miRNA重复了这一过程,其中5′区的两个残基发生了变化。突变测试miRNAs和它们的洗牌变体之间没有差异(图6A) ●●●●。这表明,与真正的miRNAs互补的保守7mer和8mer种子中有很大一部分能够识别生物相关的靶位点。
3′补偿性和典型位点依赖于miRNA 3′末端的大量配对。对于这些位点,我们预计与miRNA 5′种子匹配相邻的UTR序列与miRNA 3′末端的配对比随机序列更好。然而,与5′互补性不同,在先前的序列互补性和核苷酸保守性研究中没有检测到3′碱基配对偏好,因为与miRNA 3′端互补的UTR序列的保守性并不比随机预期的更好[27].
在此基础上,我们决定分别处理miRNA的5′端和3′端。对于5′端,要求在直系同源排列中完全保存种子匹配D.黑腹果蝇和D.假遮蔽3′UTR(我们预计其中一半到三分之二是真正的miRNA位点)。我们首先研究了与保守种子匹配相邻的UTR序列的整体保守性,发现总的来说,这些序列的保守性并不比随机对照的洗牌miRNAs更好(图6B) ●●●●。无论是真实匹配还是随机匹配,位点的数量都随着3′保守度的增加而增加(高达80%),反映出与保守种子匹配相邻的序列也位于保守序列块中的概率增加(图6B) ●●●●。对于真正的7岁和8岁的人,我们发现在30%到80%的网站中,他们的身份比例略高于我们对洗牌控制的比例。相反,对于真实的7或8分子,序列一致性超过80%的位点的比率小于随机的,这意味着在高度保守的3′UTR区块(>80%一致性)中,随机匹配的比率超过了真实的miRNA靶位点。这使我们怀疑,如果保护是由于一个生物学相关的miRNA靶位点,那么种子匹配附近序列的保护程度是否与miRNA 3′配对相关。事实上,我们发现种子匹配附近的最佳保守位点(即在3′UTR比对中具有零、一或两个不匹配的位点)和最不保守位点(例如,只有三个、两个或一个匹配核苷酸的位点)无法区分,因为这两对都是随机地连接到相应的miRNA 3′末端(大约35%的最大3′配对能量,数据未显示)。miRNA靶位点在其整个长度上似乎并不完全保守的观察结果与图4其中仅保留3′配对度而不保留核苷酸同一性(miR-7/多毛),或者至少这个未配对的隆起明显没有受到进化压力(miR-10/Scr)。尽管这一结果显然取决于所考虑物种的进化距离(见[43]对于哺乳动物位点的比较),这表明miRNA3′配对对靶位点功能的贡献不能仅从序列保守性程度得出结论。
因此,我们选择通过预测的RNA–RNA双链的稳定性来评估3′配对的质量。我们评估了miRNA 3′末端和相邻UTR序列之间的预测配对能量果蝇属物种和使用的得分较低。使用较低的分数衡量整体配对程度的守恒性,而不需要序列一致性。图6C表示所有守恒3′补偿的3′配对能量的分布miR-7型通过6个种子匹配确定的位点,与50个分布相比miR-7型序列只在3′部分洗牌,5′保持不变。这意味着真实的和洗牌的miRNAs在3′UTR中识别相同的5′种子匹配,这使我们能够比较相邻序列的3′配对特征。我们还要求3′洗牌序列与其互补序列和10000个随机选择的位点具有相似的配对能量(±15%),以排除普遍改变的配对特征。真实miRNAs和洗牌miRNAs的分布高度相似,平均约为最大3′配对能量的35%,少数位点超过55%。然而,少数网站与miR-7型其能量远高于打乱的平均值,并且50个打乱的控制中的任何一个都没有达到。这个例子说明,对于3′互补性最高的位点,真实和洗牌miRNAs之间存在显著差异,这可能与生物学相关。3′配对较弱的位点也可能具有功能性,但无法与随机匹配区分,只能通过实验进行验证(参见图5). 为了对包含所有miRNA的3′配对进行全局分析,并研究有多少miRNA显示出显著的非随机3′配对,我们只考虑了3′配对能量最高1%的位点。
将58个3′非冗余miRNAs中每一个最高1%的3′配对能量的平均值除以其50个3′洗牌对照的平均值。如果平均值相同,这个比率为1,如果真实的miRNA比混乱的miRNA有更好的3′配对,这个比率就会增加。为了测试信号是否对真正的miRNA具有特异性,我们对每个miRNA的突变版本重复了相同的方案。突变miRNA中改变的5′序列选择了与真实miRNA不同的种子匹配,并允许比较未被选择的序列与miRNA 3′末端的互补性。图6D显示了所有58个真实和突变的3′非冗余miRNA的典型(左)和3′补偿位点(右)的能量比分布。大多数真正的miRNAs的比率接近1,与突变体相当。但有几个比率远远高于突变miRNAs的比率,表明3′配对具有显著的保守性。
一小部分位点显示出非常好的3′配对。如果我们使用3′配对能量截止值来检查所有miRNAs的位点质量,我们希望这种类型的位点可以与随机匹配区分开。将真实miRNAs与3′洗牌miRNA的切点以上的位点数之比绘制为3′配对切点的函数(图6E) ●●●●。对于低截止值,比率为1,因为位点的数量对应于种子匹配的数量(这对于真实的和3′洗牌的miRNAs是相同的)。对于增加截止值,一旦达到某个阈值,比率就会增加,这反映出与真正的miRNA 3′末端配对的位点过多,而与3′洗牌的miRNA不配对。突变miRNAs的最大比率从未超过5,我们将其作为阈值来定义显著过度表达的起始点。对于8 mer种子位点,过度表达始于55%的最大3′配对;对于7个种子点,为65%;对于6个种子点,为68%;对于5个种子点,为78%。没有统计证据表明有4粒种子的位点。
我们还测试了形成包含G:U碱基对、错配或隆起的7或8聚体种子的序列,如果与真正的miRNAs互补,是否能更好地保存。我们没有发现这些种子类型的任何统计证据。3′配对分析也未能显示这些位点的任何非随机信号。这表明这样的位点在全基因组中数量很少,并且不容易与随机匹配区分开来。尽管如此,我们的实验确实表明这种类型的位点可以在体内发挥作用。这个第7列中的站点林-41提供一个自然的例子。
大多数网站缺乏实质性的3′配对
上述实验和计算结果提供了关于5′和3′配对的信息,使我们能够估计果蝇。3′补偿性位点的数目不能根据5′配对来估计,因为4、5或6个碱基的种子匹配不能与随机匹配区分开来,反映出大量随机保守和非功能匹配占优势(图6A) ●●●●。对于最大3′配对能量大于68%的6个位点和大于78%的5个位点,可以区分显著的3′配对和随机配对(图6E) ●●●●。使用这些配对水平可以估计每个miRNA平均有一个3′补偿位点图5为评估3′配对对6分子种子位点功能的贡献提供了机会。位于严峻的3′UTR受miR-2型(63%的最大3′配对能量),但不是通过miR-11,其预测3′配对能为46%。类似地miR-11型在中镰刀3′UTR的3′配对能约为35%,无功能。我们可以使用63%和46%的水平提供每miRNA平均1个和20个3′补偿性6mer位点的上下估计值图1表明76%和83%最大3′配对的位点不起作用。在80%的阈值水平上,我们预计每个miRNA平均不到一个额外位点,这表明具有5个种子的3′补偿位点是罕见的。预测的miR-10型站点位于紧急停堆(参见图4)是少数几个种子粒径为5mer的位点之一,种子粒径达到这个阈值(100%最大3′配对能;−20 kcal/mol)。很可能该组中的其他站点也将被证明具有重要的功能。
保守5′种子匹配的过度表达(参见图6A) 表明大约三分之二的8分子种子位点和大约一半的7分子种子位点具有生物学相关性。这相当于平均28个8和53个7分子,每个miRNA共有81个位点。我们将典型位点定义为那些在5′和3′配对中都有重要贡献的位点。考虑到7和8分子种子配对可以在没有显著3′配对的情况下发挥作用,很难评估3′配对在何种水平上对其功能有意义。最小足以支持弱种子匹配的3′配对能量范围在最大配对能量的46%到63%之间(参见图5C) ●●●●。如果将46%的水平作为有意义3′配对的下限,95%以上的位点将被视为种子位点。对于可以从统计上与噪声区分开的配对能量,此值变为99%(最大55%;请参见图6E) 即使配对能量达到随机匹配的平均水平(最大30%),也保持在50%以上。从这一分析中可以清楚地看出,大多数miRNA靶位点在附近序列的3′端缺乏实质性配对。实际上,三个种子位点的3′配对水平miR-4型在里面英国均小于25%(即低于随机匹配的平均值),并且英国因此没有预测为miR-4型以前的目标[26,28,35].
再次,我们注意到需要注意的是,我们识别为种子的一些位点原则上可以通过与更遥远的上游序列的3′配对来支持,但这种位点在计算上很难与背景区区分,并且不清楚大循环是否起作用。如果有统计证据表明某些位点的3′配对低于随机预期,这将是不使用3′配对的离散函数类的一条论证线,因此建议选择3′配对。尽管与8分子种子匹配相邻的真实miRNA 3′末端的3′配对能量的总体分布与3′洗牌序列的随机控制非常相似(图7;R(右)
2=0.98),我们观察到随机分布两侧的真实位点出现了少量但显著的过度表达,这导致真实位点的分布稍宽,但损失了约30%配对的峰值。请记住,八聚体种子匹配中有三分之一为假阳性(参见图6A) ,我们可以通过减去三分之一的随机分布来解释噪声。然后我们看到两个峰值分别位于最大配对能量的20%和35%左右,并被一个凹陷分开。减去更多的随机分布(例如,二分之一或三分之二)会增加两个峰的分离,这表明实际8分子种子位点的3′配对的潜在分布可能确实是双峰分布。如果包括700万种子匹配,这种影响仍然存在,尽管不那么明显。对于5个和6个月的种子组合,没有观察到这种影响。此外,我们发现,评估3′洗牌miRNA与真实miRNA种子匹配识别的UTR位点的3′配对的随机(噪声)模型与将真实(即非洗牌)miRNA 3′末端与随机选择的UTR序列配对的随机模型之间没有差异,从而排除了洗牌导致的偏差。总的来说,这些结果表明,由于3′配对较好和较差的位点的富集,可能确实存在双峰分布。我们将此作为证据,证明种子位点是5′优势位点范畴内具有生物学意义的亚群。
总的来说,这些估计表明每miRNA中有80多个5′优势位点和20个或更少的3′补偿位点果蝇属基因组。作为miRNAs数量的估计果蝇属范围从96到124[44]这转化为全基因组8000–12000个miRNA靶位点,接近蛋白质编码基因的数量。即使考虑到一些基因有多个miRNA靶点这一事实,这些发现也表明大部分基因受miRNA调控。
讨论
我们为不同类型的miRNA靶位点提供了实验和计算证据。一个关键发现是,与miRNA 5′端互补的碱基对少至七个的位点足以在体内进行调控,并用于生物相关靶点。在保守的3′UTR序列中,全基因组5′显性位点的出现频率是随机预期的2到3倍。这些位点中的大多数被以前的miRNA靶点预测方法忽略了,因为它们对miRNA 3′端的有限碱基能力无法与随机噪声区分开来。这些网站在优化总体配对能量的搜索方法中排名较低[16,17,26,27,28,30,35]. 事实上,我们发现,即使5′互补性被赋予额外的权重(例如[28,43]. 因此,我们怀疑带有配对截止值的方法会排除许多(如果不是全部)这样的站点。
在蛋白质编码基因在进化过程中获得miRNA靶位点的情况下[4],很可能只有7或8个碱基与miRNA互补的种子位点将是获得的第一个功能位点。一旦出现,如果一个站点具有优势,则将保留该站点,并且还可以选择具有扩展互补性的站点以实现更强的抑制。在这种情况下,位点的数量可能会随着进化过程而增加,因此古代miRNAs的靶点往往比最近进化的靶点多。同样,在给定的细胞类型中,不应被miRNA环境抑制的基因往往会避免与miRNA 5′端的种子匹配(“抗靶标”[4]).
虽然一个7到8分子的种子足以让一个位点发挥作用,但额外的3′配对增加了miRNA的功能。单个7mer标准位点的活性预计大于等效的种子位点。同样,通过在标准位点引入3′错配,miRNA诱导的阻遏作用减弱。在基因组范围内,有许多位点似乎显示出对保守3′配对的选择,有趣的是,许多位点似乎表明对3′配对有选择。在体内,典型位点可能在较低的miRNA浓度下发挥作用,并可能更有效地抑制翻译,尤其是当一个UTR中存在多个站点时(例如[42]). 有效的抑制对于那些表达有害的基因可能是必要的,如基因识别的miRNAs所示,当其靶点通常不被抑制时,它们会产生明确的突变表型(“切换靶点”)[4]). 长时间表达第14行和林-41中的基因秀丽隐杆线虫突变体线-4或第7列导致发育缺陷,其调控涉及多个位点[17,36,37]. 同样,多个靶点可以对促凋亡基因进行强有力的调控隐藏通过矮脚鸡miRNA输入果蝇属[19]. 更微妙的表达水平调节可以通过较弱的位点来实现,例如那些缺乏3′配对的位点。事实上,不能单独有效发挥作用的位点是多种miRNA组合调节的先决条件。因此,种子位点可能对多种miRNAs的联合输入用于调节靶基因表达的情况有用。根据靶位点的性质,任何单个miRNA自身可能不会产生强大的影响,而在其他情况下可能需要。
3′互补性区分miRNA家族成员
3′代偿位点的5′配对较弱,需要大量的3′配对才能发挥作用。我们发现了具有5mer和6mer种子的3′补偿位点的全基因组统计支持,并表明它们在体内使用。此外,这些位点可以由不同的miRNA家族成员根据其3′配对的质量进行不同的调节(例如,促凋亡基因的调节严峻的和镰刀通过miR-2、miR-6、,和miR-11型). 因此,miRNA家族成员可能有共同的靶点和不同的靶点。它们可能在某些靶点的调节中功能冗余,但在其他靶点的调控中功能冗余。因此,我们可以预期一些重叠的表型以及它们的突变表型的差异。
根据这一推理,很可能第7列miRNA家族成员差异调节林-41在里面秀丽线虫[17,45]. 种子与林-41到第7列和相关的miRNAsmiR-48、miR-84、,和miR-241型都很弱,而且只有第7列具有强大的3′配对。在此基础上,似乎有可能临41仅受第7列相反,血红蛋白-1有四个具有强大种子匹配的站点[38,39],我们希望它受到所有四个方面的监管第7列家庭成员。和四个人一样第7列-相关的miRNAs在发育过程中表达类似[6],他们作为监管机构的角色血红蛋白-1可能是多余的。第7列还必须有其他家庭成员不共享的目标,因为其功能至关重要。林-41很可能就是这样一个目标。
miRNAs的3′末端是一个特异性因子,这一观点为观察到许多miRNA在经过数亿年进化而分离的物种中全长保守的现象提供了一个有吸引力的解释。3′补偿位点可能是由降低种子匹配质量的突变从经典位点进化而来的。通过允许miRNA家族成员对位点进行差异调节,这可能会带来优势。此外,位点可以保留特异性和总配对能量,但活性降低,可能允许区分miRNA的高水平和低水平表达。这也可能使靶基因获得对多个miRNAs输入的依赖性。这些场景说明了miRNAs在进化过程中可能产生更复杂调控作用的几种方式。
很大一部分基因组受到miRNA的调控
这项研究的另一个有趣的结果是,有证据表明全基因组中存在数量惊人的miRNA靶位点。即使我们的保守估计也远高于最近预测的位点数量,例如每miRNA 7个或更少[27,28,29]. 我们对靶基因总数的估计接近于蛋白质编码基因的数量,这表明miRNAs对基因表达的调节在生物学中的作用比先前预期的更大。的确,巴特尔和陈[46]在最近的一次审查中,约翰等人(John et al[43]这篇手稿正在审查时发表的文章预测,大约10%的人类基因受miRNAs调控。我们同意这些作者的建议,即这可能是一种低估,因为他们的方法平均只识别出每个miRNA 7.1个目标基因,很少有人会被归类为缺乏实质性3′配对的种子位点。每个miRNA的大量目标位点也与miRNA的组合基因调控相一致,类似于转录因子,导致细胞型特异性基因表达[47]. 多个miRNA的位点允许细胞型特异性miRNA组合的可能性,以实现强大而特异的基因调控。
我们的结果提供了对定义miRNAs如何与靶基因结合的一些重要参数的更好理解。我们预计这些将有助于理解已知的miRNA与靶点的关系,并改进预测miRNA靶点的方法。我们的评估仅限于3′UTR中的目标站点。针对其他类型靶点或具有显著不同功能(例如调节染色质结构)的miRNAs可能会使用不同的规则。因此,可能会有比我们目前估计的更多的目标。此外,还可能存在其他功能,例如总体UTR上下文,这些功能可以增强或限制预测站点的可访问性,从而增强或限制其功能。例如,有关目标站点结构的规则无法解释在第7列/第41列法规[48]. 进一步的实验靶点验证和UTR特征的系统检查有望为miRNA靶点的功能提供新的见解。