介绍
MicroRNAs(miRNAs)是一种小的非编码RNA,在植物和动物中充当基因表达的转录后调节器。它们通过与靶mRNA上的互补位点结合来诱导生产性翻译的分裂或抑制(在[1,2,三,4]). miRNAs在动物中约占基因的1%,并且通常在广泛的物种中高度保守(例如[5,6,7]). 此外,miRNA功能或生物发生所需的蛋白质突变会损害动物的发育[8,9,10,11,12,13,14,15].
迄今为止,数百种动物miRNA基因中只有少数被赋予功能。线虫和苍蝇的突变表型导致发现线-4和let-7miRNAs控制发育时间[16,17],那个lsy-6型miRNA调节神经系统左右不对称[18],那个矮脚鸡miRNA控制组织生长[19],还有那个矮脚鸡和miR-14基因控制细胞凋亡[19,20]。鼠标miR-181型优先在骨髓中表达,并被证明参与造血分化[21]。最近,鼠标miR-375型被发现是一种调节胰岛素分泌的胰岛特异性miRNA[22].
miRNA靶点的预测提供了一种分配生物功能的替代方法。这在植物中非常有效,其中miRNA和靶mRNA往往几乎完全互补[23,24,25]。在动物身上,功能性双工在结构上可能更加多变:它们只包含短的互补序列延伸,被间隙和不匹配打断。迄今为止,还没有设计出捕捉所有已知功能靶点的功能性miRNA-靶点配对的具体规则。这给搜索策略带来了问题,搜索策略对如何最好地识别功能站点应用了不同的假设。因此,预测目标的数量变化很大,仅在顶级目标中有有限的重叠,这表明这些方法可能仅捕获真实目标的子集和/或可能包含大量的背景匹配([19,26,27,28,29,30]; 审核人[31]). 尽管如此,经过实验测试,许多预测目标已被证明具有功能[19,26,27,29].
更好地理解miRNA和靶标之间的配对要求将清楚地改善对动物miRNA靶标的预测。众所周知顺式-监管要素果蝇属3′UTR与某些miRNAs的5′端互补[32]。miRNA 5′末端的重要性也体现在已知靶位点的配对特征和进化保护上[26]以及在全基因组靶点预测中观察到5′端特有的非随机统计信号[27]。组织培养实验也强调了5′配对的重要性,并对一般结构要求提供了一些具体的见解[29,33,34]尽管不同的研究在一定程度上相互冲突,并与已知的靶点发生冲突(参见[31]). 迄今为止,尽管miRNAs在其全长上趋于保守,但尚未将其3′端归因于特定的作用。
在这里,我们系统地评估了体内功能性miRNA-靶双链的最低要求。这些实验使我们能够确定两大类miRNA靶点。第一类靶点为“5′显性”位点,碱基与miRNA的5′端配对良好。尽管这类中存在3′配对质量的连续性,但区分两个亚型是有用的:“典型”位点,在5′端和3′端配对好,以及“种子”位点,只需要很少或不需要3′配对支持。第二类靶点为“3′补偿性”位点,其5′碱基对较弱,并且依赖于与miRNA 3′端的强补偿性配对。我们提供的证据表明,所有这些位点类型都用于调节miRNA的调节,并表明靶位点的3′补偿类用于区分体内miRNA家族的单个成员。全基因组统计分析使我们能够估计平均一个miRNA有大约100个进化上保守的靶位点,这表明miRNAs调节大部分蛋白编码基因。对3′配对质量的评价表明,种子位点是最大的群体。在以前的目标预测方法中,这种类型的站点在很大程度上被忽略了。
结果
最小miRNA靶位点
为了更好地理解功能性miRNA靶点的最低要求,我们在果蝇属机翼影像盘。我们在椎间盘中央区域的细胞条带中表达了一个miRNA,并评估了其抑制普遍转录增强型绿色荧光蛋白(EGFP)转基因表达的能力,该转基因在其3′UTR中包含一个单一靶点。通过比较miRNA-表达细胞和相邻非表达细胞中的EGFP水平来评估抑制程度。miRNA的表达强烈降低了来自含有单一功能靶位点的转基因的EGFP表达(A) ●●●●。
miRNA 5′端的互补性对体内靶点功能至关重要(A) 翼想象盘靶点调节的体内实验。EGFP报告子在所有细胞中表达(绿色)。在ptcGal4控制下表达miRNA的细胞显示为红色。功能靶点允许miRNA强烈抑制GFP(中间)。非功能性目标站点没有(对)。黄色方框表示(B)和后面的图中所示的圆盘区域。
(B) 单个目标站点的监管miR-7。每个图像左上角的数字表示目标位点中不匹配的核苷酸。重要的监管头寸用红色表示,可有可无的头寸用绿色表示。只有少数情况下,miRNA的调控被完全废除。
(C) (B)中系列和第二组涉及的报告基因抑制程度的总结miR-278型以及类似于miR-9型站点位于天琴座[26]。重要的监管头寸用红色表示,可有可无的头寸用绿色表示。误差线基于3-5个单独的光盘的测量值。
在第一系列实验中,我们询问RNA双链的哪一部分对靶点调节最重要。制备了一组转基因果蝇,每个果蝇都含有一个不同的靶点miR-7型在EGFP报告结构的3′UTR中。起点看起来是最强的矮脚鸡生物靶点中的miRNA位点隐藏[19]当在报告基因的3′UTR的单个拷贝中存在时,赋予了强烈的调控(B) ●●●●。我们测试了在靶位点引入单核苷酸改变以在miRNA双链的不同位置产生不匹配的影响(注意,靶位点不匹配是这些实验中唯一的变量)。起始位点介导的有效抑制不受位置1、9或10的失配影响,但位置2至8的失配强烈降低了目标调控的幅度。两个同时引入到3′区的错配对靶点抑制的影响很小,报告活性从10%增加到30%。为了排除这些发现对测试的miRNA序列或双重结构具有特异性的可能性,我们用miR-278型和不同的双工结构。结果相似,只是在这种情况下,位置8的配对对调节并不重要(C) 。此外,位置2-7的一些不匹配仍然允许EGFP表达抑制高达50%。综上所述,这些观察结果支持了先前的观点,即miRNA 5′端的广泛碱基连接对靶点功能很重要[26,27,29,32,34].
接下来,我们确定了赋予目标调控所必需的最小5′序列互补性。我们将对靶位点识别至关重要的5′序列互补性的核心称为“种子”(Lewis等人[27]). 与miRNA前八个核苷酸互补的所有可能的6、5和4聚体种子均在允许miRNA 3′端强碱基连接的位点上进行测试(A) ●●●●。种子通过恒定的中央凸起从完全3′端配对的区域中分离出来。从位置1或2开始的5mer和6mer种子具有功能。令人惊讶的是,在这些条件下,只有4个2–5号位置的基点能够实现有效的目标监管,而1–4号基点则完全无效。从位置3开始的4粒、5粒或6粒种子效果较差。这些结果表明,功能性种子需要至少4或5个核苷酸的连续螺旋,并且对配对存在一定的位置依赖性,因为产生可比较配对能量的位点的功能能力不同。例如,中的前两个双工器A(4mer,顶行)具有相同的5′配对能(前8 nt的ΔG为−8.9 kcal/mol),但只有一个具有功能性。类似地,第三个4相双工和第四个5相双工(中排)具有相同的能量(−8.7 kcal/mol),但只有一个功能正常。因此,我们没有发现5′配对能量和功能之间的明确相关性,如[34]。这些实验还表明,在缺乏最小5′元素的情况下,多达17个核苷酸的广泛3′配对不足以实现调控。因此,主要基于优化基本射程或双重编队总自由能的目标搜索将包括许多非功能性目标位置[28,30,35],根据双链形成的整体互补性或自由能对miRNA靶点进行排序可能无法反映其生物活性[26,27,28,30,35].
最小miRNA靶位点(A) 体内试验中,靶位点的功能包括与miRNA前8个核苷酸互补的6聚体、5聚体和4聚体种子。设计的位点具有来自3′配对的最佳支持。第一个4聚体的种子位点表明,与miRNA 3′区域的广泛互补不足以进行体内调节。
(B) 8、7和6分子种子位点的调控与miRNA 3′端缺乏互补性。测试UTR包含一个站点(第一列)或两个相同的站点(第二列)。
为了确定5′种子匹配的最小长度足以单独进行调控,我们测试了与miRNA的5′端配对的8个、7个或6个连续碱基,但不配对到其3′端的单个位点(B) ●●●●。令人惊讶的是,一个单一的8聚体种子(miRNA位置1-8)足以实现miRNA的强大调控。一个单一7聚体种子也有功能,尽管效果较差。当在UTR中引入两个该位点的拷贝时,8粒和7粒种子的调控幅度显著增加。相比之下,6粒种子没有表现出调控作用,即使是在两个拷贝中。最近在基于细胞的分析中,报道了两份具有有限3′配对能力的8聚体位点的比较结果[34]。这些结果不支持前面建议的中央凸起要求[29].
根据RNA二级结构预测,我们精心设计了miRNA 3′端,以排除与邻近序列的任何3′配对。然而,我们不能排除UTR序列的广泛循环可能允许报告结构中的3′端对序列进一步下游的可能性。然而,请注意,即使发生了远程3′配对,并且8和7分子种子的功能需要远程3′比对,但对于少于7个互补碱基的5′配对来说是不够的(所有测试位点都在相同的序列上下文中;B) ●●●●。此外,如果允许足够长的循环,则将以任意顺序进行随机配对。然而,参与翻译抑制的核糖核蛋白复合物是否需要3′配对,以及它们是否能够允许广泛的环化来实现这一点,仍然是一个悬而未决的问题。计算上,如果允许任何长度的循环,则无法将远程3′配对与随机匹配区分开来。在此基础上,任何具有7或8分子种子的地点都必须被认真对待,特别是在进化上保守的时候。
从这些实验中我们得出结论:(1)7个或更多碱基与5′端miRNA的互补足以进行调控,即使靶3′UTR只包含一个位点;(2) 5′互补性较弱的位点需要与miRNA的3′端进行补偿性配对,以实现调控;(3)如果没有最小的5′互补元素,与miRNA 3′端的广泛配对不足以进行自身调控。
G:U碱基对种子膨大和膨大的影响
一些已证实的miRNA靶基因含有预测的与种子结合的位点,这些位点被G:U碱基对或单核苷酸隆起中断[17,19,26,36,37,38,39]。在大多数情况下,这些mRNAs包含多个预测的靶位点,而单个位点的贡献尚未测试。体外测试表明,含有G:U碱基对的位点可以发挥作用[29,34],但G:U基板对目标站点功能的贡献小于其对预测基板燃烧能量的贡献[34]。我们测试了含有G:U碱基和隆起物的种子的单个位点在体内的功能。将一个、两个或三个G:U碱基对引入具有8、7或6分子种子的单个靶点(A) ●●●●。单个G:U基板导致8个种子位点和7个种子位点的调控效率明显降低。带有6个种子的网站几乎完全失去了活力。有一个以上的G:U碱基对会损害所有位点的活性。由于目标位点设计为允许最佳3′配对,因此我们得出结论,种子区的G:U碱基对总是有害的。
G:U基座和凸起的影响(A) 种子区(列)中含有零、一、二或三个G:U碱基对的8分子、7分子或6分子种子(行)的位点的调控。
(B) 调控靶序列或miRNA中隆起的位点。
种子中的单核苷酸突起出现在let-7目标林-41并且在线-4目标第14行[17,36,37]。最近的组织培养实验表明,如果在种子区对称放置,这种隆起是可以容忍的[29]。我们测试了一系列靶点或miRNA中单核苷酸突起的位点(B) ●●●●。只有其中一些位点对报告基因具有良好的调控作用。我们的结果不支持这样的观点,即这些场地依赖于凸起两侧的对称布置的基板。我们还注意到,突起核苷酸的身份似乎很重要。虽然很明显,如果miRNA 3′端具有广泛的互补性,一些具有一个核苷酸隆起或一个单一错配的靶位点可以发挥功能,但不可能概括其潜在功能。
目标站点的功能类别
虽然认识到miRNA和靶位点之间存在一个连续的碱基配对质量,但上述实验表明,关键依赖于miRNA 5′末端配对的位点(5′优势位点)可以与那些没有与miRNA 3′末端(3′补偿位点)强配对就无法发挥作用的细胞区分开来。3′代偿组包括四到六个碱基对的种子匹配,以及含有G:U碱基对、单核苷酸突起或错配的七或八个碱基的种子。
我们认为区分5′显性位点的两个亚群是有用的:那些与miRNA的5′和3′端配对良好的亚群(典型位点),以及那些5′配对良好但很少或没有3′配对(种子位点)的亚群。我们认为种子位点是指没有证据表明miRNA 3′末端与邻近序列配对的位点,这比随机预期的要好。我们不能排除某些我们识别为种子位点的位点可能被额外的长距离3′配对支持的可能性。从计算上看,如果UTR序列中允许足够长的循环,这总是可能的。长环在体内是否有功能尚待确定。
典型位点具有强大的种子匹配,支持miRNA 3′端的强碱基配对。因此,典型位点可以被视为种子类型的延伸(除了足够的5′种子外,还具有增强的3′配对)或作为3′补偿型的延伸(5′种子质量提高,3′配对充分)。就个体而言,典型站点可能比其他站点类型更有效,因为它们具有更高的配对能量,并且可能在一个副本中发挥作用。由于它们的配对能量较低,当种子位点存在于多个拷贝中时,预计会更加有效。介绍了生物相关miRNA靶点中不同位点类型的示例,并说明了它们在多个果蝇基因组中的进化保护。
三类miRNA靶位点典型(左)、种子(中)和3′补偿(右)靶点模型。上图说明了靶位点(上图)和miRNA(下图,颜色)之间的配对模式。下一列是3′UTR守恒模式的图表。垂直的黑色条显示了至少六个核苷酸的延伸,这些核苷酸在几个果蝇基因组中是保守的。的目标站点miR-7、miR-4、,和miR-10型显示为UTR下方的彩色水平条。其他miRNA的位点显示为黑色条。在每一列的最下面显示了miRNA与其靶位点之间预测的双链结构;标准的基本路径用实心圆圈标记,G:U基本路径用开放圆圈标记。序列比对显示了不同果蝇物种中这些靶位点的核苷酸保守性。预测与miRNA配对的核苷酸以粗体显示;预测为未配对的核苷酸为灰色。红色星号表示100%的序列保守性;灰色星号表示对包括G:U对在内的miRNA的碱基连线保持不变。The additional sequence alignment for themiR-10基因中的目标站点紧急停堆在里面卡斯塔纳Tribolium castaneum,冈比亚按蚊,和家蚕加强了这一预测。值得注意的是,这些物种中3′补偿的质量降低是由质量更好的7聚体种子的存在所补偿的。A.ga,冈比亚按蚊;B.mo、B.mori;D.an、D.ananassae;D.me,D.melanogaster;D.ps、D.pseudomburbia;D.si、D.simulans;D.vi、D.virilis;D.ya、D.yakuba;卡氏锥虫、蓖麻锥虫。
目前确定的大多数miRNA靶位点是规范的。例如多毛的3′UTR包含单个站点miR-7,种子长9米,3′互补。该位点在体内具有功能[26]在种子配合度和3′端的互补性程度上都有显著的保守性miR-7型在所有六个直系3′UTR中。
虽然种子位点以前没有被确定为功能性miRNA靶点,但有一些证据表明它们存在于体内。例如胡子(Brd)3′UTR包含三个序列元素,称为Brd盒,与miR-4型和miR-79型[32,40]。Brd盒被证明在体内抑制报告基因的表达,可能是通过miRNAs,作为英国3′UTR报告基因在骰子-1突变细胞,不能产生任何miRNAs[14]。所有三个Brd盒靶点均由7mer种子组成,其中任何一个的3′端几乎没有或几乎没有基极引线miR-4型或miR-79型(见下文)。对齐英国3′UTRs表明miR-4型或miR-79型目标位点位于种子序列之外,也没有与miRNA 3′末端配对的保守性。这表明可能与miRNAs的3′端配对的序列对调控并不重要,因为它们似乎没有受到选择性压力。这使得尚未鉴定的Brd盒miRNA不太可能形成典型位点复合体。
HOX基因的3′UTR减少性梳(Scr)提供了一个3′补偿位点的好例子。紧急停堆包含的单个站点miR-10型具有5个种子,与miRNA 3′端具有连续的11-碱基对互补性[28]。这个miR-10型转录本编码在同一HOX簇下游紧急停堆,类似于miR-iab-5p和Ultrabithorax公司在苍蝇中[26]和miR-196型/霍克斯B8在小鼠中[41]。预测的配对miR-10型和科学委员会在所有六个果蝇基因组中完全保守,唯一的序列差异发生在未配对环区。该位点也保存在紧急停堆蚊子的基因,冈比亚按蚊面粉甲虫,谷草Tribolium castaneum还有蚕蛾,家蚕.在亿万年的进化过程中保持如此高度的3′互补性表明,这可能是一种功能miR-10型目标站点。其他3′补偿位点也存在广泛的5′和3′序列保守性,例如let-7中的站点林-41或miR-2基因中的站点严峻的和镰刀[17,26,36].
miRNA 3′端决定miRNA家族中的靶向特异性
已鉴定出几个miRNAs家族,其成员具有共同的5′序列,但3′端不同。鉴于有证据表明miRNA的5′端在功能上很重要[26,27,29,42]在某些情况下(本研究),可以预期miRNA家族成员可能具有冗余或部分冗余功能。根据我们的模型,5′显性标准位点和种子位点应该对给定miRNA家族的所有成员都有反应,而3′补偿性位点对不同miRNA家族成员的敏感性则因3′互补程度而异。我们使用3′UTR报告基因转基因和各种miRNA家族成员的过表达构建物的翼状盘试验对此进行了测试。
miR-4型和miR-79型共享一个共同的5′序列,该序列与风笛3英尺UTR(A和B) ●●●●。miRNAs的3′端不同。miR-4型预计在最大可能水平(−10.8 kcal/mol)的50%左右有3′配对,而miR-79型最大值约为25%(−6.1 kcal/mol),低于随机匹配的平均水平(见下文)。两种miRNAs都抑制了风笛3′UTR报告者,不考虑3′的互补性(B) ●●●●。这表明这两种类型的位点在体内都有功能,表明风笛是这个家族中两个miRNA的靶点。
miRNA家族成员的靶向特异性(A) 六个果蝇基因组(水平黑条)中的3′UTR保守性图和预测的miRNA靶位点的位置。以上是肌源性转录因子的3′UTR风笛显示了Brd-box miRNA家族的预测靶位点,miR-4型和miR-79型(UTR下方的黑框)。对齐miR-4型和miR-79型说明它们共享相似的种子序列(除了密尔-4有一个额外的5′碱基),但3′端相似性很小。以下是促凋亡基因3′UTR的保守序列严峻的和镰刀。K盒miRNAs的预测靶点miR-11、miR-2b、,和miR-6型显示在UTR下方。对齐miR-11、miR-2b、,和miR-6型说明它们具有相同的家族主题,但在3′端几乎没有相似之处。
(B) 风笛(bap)3′UTR报告基因受miR-4型和miR-79。两个miRNAs与预测目标位点的比对显示出良好的8分子种子匹配(左)。的过度表达miR-4型或miR-79型在ptcGal4控制下,下调了风笛3′UTR记者(右)。
(C) 左图:K盒miRNAs与严峻的3′UTR及其过表达调控miR-2型(顶部),但不是由miR-6型(中间)或miR-11型(底部)。右图:K盒miRNAs与镰刀3英尺UTR。通过过度表达miR-2型强大(顶部),监管miR-6型较弱(中等),并且miR-11型效果甚微(底部)。
(D) 缺乏细胞克隆的影响骰子-1预测miRNA-调节基因的UTR报告子表达。突变细胞以β-Gal不表达为标志(红色)。EGFP表达式以绿色显示。两个频道分别以黑白显示在下面。突变克隆用黄色箭头表示。缺乏miRNA靶位点的均匀转录报告结构的表达在骰子-1突变细胞(第一列)。UTR记者矮脚鸡miRNA靶隐藏在突变细胞中上调(第二列)。这个风笛(bap)UTR记者在年被上调骰子-1克隆(第三列)。这个严峻的(第四列)和镰刀(第五栏)UTR记者受到监管。
为了测试miRNA家族成员是否也具有非重叠靶点,我们使用了促凋亡基因的3′UTR报告子严峻的和镰刀,两个最近确定的miRNA靶点[26]。这两个基因在其3′UTR中都包含K盒,与miR-2、miR-6、,和miR-11型miRNA家族[26,32]。这些miRNAs共享2–8个残基,但在其3′区差异很大(A) ●●●●。中的站点严峻的3′UTR预计与所有三个miRNAs形成6分子种子匹配(C、 左),但仅限于miR-2型显示了我们预测的具有6分子种子的3′补偿位点需要广泛的3′互补性才能发挥作用(−19.1 kcal/mol,最大3′配对为63%,而−10.9 kcal/mol46%,最大miR-11型和−8.7 kcal/mol,最大37%,适用于miR-6型). 的确,只有miR-2基因能够调节严峻的3′UTR记者,而miR-6型和miR-11型都是非功能性的。
这个镰刀3′UTR包含两个K盒,提供了一个测试弱位点是否可以协同作用的机会。第一个站点类似于严峻的3′UTR,因为它包含所有三个miRNAs的6聚体种子,但广泛的3′互补性仅限于miR-2型。第二个站点包含一个7mer种子miR-2型和miR-6型但只有6粒种子miR-11型(C、 右侧)。miR-2型强烈下调镰刀记者,miR-6型具有中等活性(可能通过7mer种子位点),并且miR-11型尽管miRNAs过度表达,但几乎没有活性。位点被至少一种miRNA靶向的事实证明它是可访问的(例如。,miR-2型能够对两名UTR记者进行监管),而对其他家庭成员缺乏监管是由于双重结构。这些结果与我们基于单个站点的预测功能所预期的结果一致,并表明我们的目标站点功能模型可以扩展到具有多个站点的UTR。不单独起作用的弱站点在合并时也不起作用。
为了表明内源性miRNA水平调节所有三个3′UTR报告子,我们比较了野生型细胞和骰子-1突变细胞,不能产生miRNAs[14].骰子-1克隆不会影响缺少miRNA结合位点的对照报道者,但显示含有先前鉴定的3′UTR的报道者的高表达矮脚鸡miRNA靶隐藏(D) ●●●●。同样,上述所有3′UTR记者在骰子-1突变细胞,表明风笛、镰刀、,和严峻的受到翼盘中表达的miRNAs的抑制。综上所述,这些实验表明,具有5′显性规范位点和种子位点的转录物可能受miRNA家族所有成员的调控。然而,具有3′补偿位点的转录本可以区分miRNA家族成员。
靶位点的全基因组发生率
上述实验测试和观察到的进化保守性表明,所有三种类型的靶点都可能在体内使用。为了获得更多的证据,我们检查了所有站点类型的发生情况黑腹果蝇3英尺UTR。我们利用了D.假遮蔽基因组,第二个组装的果蝇基因组,用于确定在直系3′UTR序列中三个不同位点类别的位点保护程度。从已知的78个果蝇属miRNA,我们选择了一组49个具有非冗余5′序列的miRNA。我们首先研究了与miRNA 5′端互补的序列是否比预期的随机序列更保守。对于每个miRNA,我们构建了一个由十个随机洗牌的变体组成的队列。为了避免对可能的目标匹配数产生偏差,要求洗牌变异体产生与原始miRNAs相当的序列匹配数(±15%)D.黑腹果蝇3英尺UTR。与真正的miRNA 5′端互补的7mer和8mer种子比那些与洗牌变异体互补的种子保存得更好。这与Lewis等人的发现一致[27]但不需要对全长miRNA目标双链应用秩和能量截断,就像脊椎动物miRNA一样。实际miRNAs的保守8 mer种子的出现频率平均是洗牌miRNA的补充种子的2.8倍(A) ●●●●。对于7mer种子,该信号为2:1,而6mer、5mer和4mer种子没有表现出比随机序列更好的保守性。为了评估这些信号的有效性并控制miRNAs的随机洗牌,我们用5′区的两个残基发生改变的“突变”miRNA重复这个过程。突变测试miRNA和它们的重组变体之间没有差异(A) ●●●●。这表明,与真正的miRNAs互补的保守7mer和8mer种子中有很大一部分能够识别生物相关的靶位点。
目标站点发生率的计算分析(A) 保守5′种子匹配的全基因组发生率。直方图显示了一组49个5′非冗余miRNAs的5′种子匹配比率,以及不同种子类型(黑色条)的10个完全洗牌变体的平均值。比率为1(红线)表示miRNA与其重排的变体之间没有差异。突变miRNAs及其洗牌变体的相同比率显示无信号(白色条)。插图描绘了整个miRNA序列的洗牌(紫色波浪线)。
(B) 目标场地保护D.黑腹果蝇和D.假遮蔽直方图显示了将与miRNA 3′端配对的保守8聚体种子匹配的上游3′UTR序列(16 nt)的平均保守性。所有位点都根据其保守性进行了分类,每个分类中的位点百分比显示了由49 5′非冗余miRNA序列(灰色)及其洗牌控制序列(黑色,错误条表示一个标准偏差)识别的位点。
(C) 3′配对偏好miR-7型目标站点。直方图显示了miR-7型(红色条)和50个3′洗牌变异体(黑色条)的平均值,这些变异体是通过6个5′种子匹配在全基因组范围内识别的miR-7。插图仅显示了miRNA序列3′端的洗牌(紫色波浪线)。由于miRNA的5′端没有改变,因此将相同的靶位点组与真实和洗牌miRNA的3′端配对进行比较。
(D) miRNA靶位点的3′配对偏好。直方图显示了58个3′非冗余miRNAs及其洗牌变体的前1%3′配对能量的比率。y轴显示每个比率的miRNAs数量。真正的miRNA以红色显示;突变miRNAs以黑色显示。左边显示的是8个和7个种子位点的组合。右图所示为5和6分子种子位点的组合。对于8和7分子结合的种子,1%对应于每miRNA约10个位点;对于合并的6和5mer,大约为25个站点。如果考虑到每个miRNA的位点较少,则实际miRNA和突变miRNA之间的差异会有所改善。
(E) 3′配对的非随机信号。绘制58个3′非冗余miRNAs及其洗牌miRNA3′末端(y轴)的靶位点数与3′配对能量超过给定配对截止值(x轴)的比值。100%是与3′端完全互补的序列的配对能量。随着所需的3′配对能量水平的增加,对信号起作用的miRNAs及其位点减少。实际miRNAs的图谱延伸到比突变体更高的3′配对能量,但随着位点数量的减少,我们观察到对比率的异常影响,因此当剩余miRNAss的数量低于5时,曲线被截断。
3′补偿性和典型位点依赖于miRNA 3′末端的大量配对。对于这些位点,我们预计与miRNA 5′种子匹配相邻的UTR序列与miRNA 3′末端的配对比随机序列更好。然而,与5′互补性不同,在以往研究序列互补性和核苷酸保守性时,未检测到3′碱基配对偏好,因为与miRNA 3′端互补的UTR序列的保守性并不比随机预测的好[27].
在此基础上,我们决定分别处理miRNA的5′端和3′端。对于5′端,要求在直系同源排列中完全保存种子匹配D.黑腹果蝇和D.假遮蔽3′UTR(我们预计其中一半到三分之二是真正的miRNA位点)。我们首先研究了与保守种子匹配相邻的UTR序列的整体保守性,发现总的来说,这些序列的保守性并不比随机对照的洗牌miRNAs更好(B) ●●●●。无论是真实匹配还是随机匹配,位点的数量都随着3′保守度的增加而增加(高达80%),反映出与保守种子匹配相邻的序列也位于保守序列块中的概率增加(B) ●●●●。对于真正的7mers和8mers,我们发现30%至80%的站点的同一性百分比略高于混合对照。相反,对于真实的7或8分子,序列一致性超过80%的位点的比率小于随机的,这意味着在高度保守的3′UTR区块(>80%一致性)中,随机匹配的比率超过了真实的miRNA靶位点。这使我们怀疑,如果保护是由于一个生物学相关的miRNA靶位点,那么种子匹配附近序列的保护程度是否与miRNA 3′配对相关。事实上,我们发现种子匹配附近的最佳保守位点(即在3′UTR比对中具有零、一或两个不匹配的位点)和最不保守位点(例如,只有三个、两个或一个匹配核苷酸的位点)无法区分,因为这两对都是随机地连接到相应的miRNA 3′末端(大约35%的最大3′配对能量,数据未显示)。miRNA靶位点在其整个长度上似乎并不完全保守的观察结果与其中仅保留3′配对度而不保留核苷酸同一性(miR-7/多毛),或者至少这个未配对的隆起明显没有受到进化压力(miR-10/Scr)。虽然这一结果显然取决于所考虑物种的进化距离(参见[43]对于哺乳动物位点的比较),这表明miRNA3′配对对靶位点功能的贡献不能仅从序列保守性程度得出结论。
因此,我们选择通过预测的RNA–RNA双链的稳定性来评估3′配对的质量。我们评估了miRNA 3′末端和相邻UTR序列之间的预测配对能量果蝇属物种和使用的得分较低。使用较低的分数衡量整体配对程度的守恒性,而不需要序列一致性。C表示所有守恒3′补偿的3′配对能量的分布miR-7型通过6个种子匹配确定的位点,与50个分布相比miR-7型序列只在3′部分洗牌,5′保持不变。这意味着真实的和洗牌的miRNAs在3′UTR中识别相同的5′种子匹配,这使我们能够比较相邻序列的3′配对特征。我们还要求3′洗牌序列与其互补序列和10000个随机选择的位点具有相似的配对能量(±15%),以排除普遍改变的配对特征。真实miRNAs和洗牌miRNAs的分布高度相似,平均约为最大3′配对能量的35%,少数位点超过55%。然而,少数网站与miR-7型能量远高于洗牌后的平均值,50个洗牌后控制中没有任何一个达到。这个例子说明,对于3′互补性最高的位点,真实和洗牌miRNAs之间存在显著差异,这可能与生物学相关。3′配对较弱的位点也可能具有功能性,但无法与随机匹配区分,只能通过实验进行验证(参见). 为了对包含所有miRNA的3′配对进行全局分析,并研究有多少miRNA显示出显著的非随机3′配对,我们只考虑了3′配对能量最高1%的位点。
将58个3′非冗余miRNAs中每一个最高1%的3′配对能量的平均值除以其50个3′洗牌对照的平均值。如果平均值相同,则该比率为1;如果实际miRNA的3′配对比洗牌miRNA更好,则该比值会增加。为了测试信号是否对真实的miRNA具有特异性,我们对每种miRNA的突变版本重复了相同的方案。突变miRNA中改变的5′序列选择了与真实miRNA不同的种子匹配,并允许比较未被选择的序列与miRNA 3′末端的互补性。D显示了所有58个真实和突变的3′非冗余miRNA的典型(左)和3′补偿位点(右)的能量比分布。大多数真正的miRNAs的比率接近1,与突变体相当。但有几个比率远远高于突变miRNAs的比率,表明3′配对具有显著的保守性。
一小部分位点显示出非常好的3′配对。如果我们使用3′配对能量截止值来检查所有miRNAs的位点质量,我们希望这种类型的位点可以与随机匹配区分开。真实miRNA与3′重排miRNA在临界点以上的位点数之比被绘制为3′配对临界点的函数(E) ●●●●。对于低截止值,比率为1,因为位点的数量对应于种子匹配的数量(这对于真实的和3′洗牌的miRNAs是相同的)。对于增加截止值,一旦达到某个阈值,比率就会增加,这反映出与真正的miRNA 3′末端配对的位点过多,而与3′洗牌的miRNA不配对。突变miRNAs的最大比率从未超过5,我们将其作为阈值来定义显著过度表达的起始点。对于8 mer种子位点,过度表达始于55%的最大3′配对;对于7个种子点,为65%;对于6个种子点,为68%;对于5个种子点,为78%。没有统计证据表明有4粒种子的位点。
我们还测试了形成含有G:U碱基对、错配或凸起的7mer或8mer种子的序列,如果与真实的miRNA互补,是否更保守。我们没有发现这些种子类型的任何统计证据。3′配对分析也未能显示这些位点的任何非随机信号。这表明这样的位点在全基因组中数量很少,并且不容易与随机匹配区分开来。尽管如此,我们的实验确实表明这种类型的位点可以在体内发挥作用。这个let-7中的站点林-41提供一个自然的例子。
大多数网站缺乏实质性的3′配对
上述实验和计算结果提供了关于5′和3′配对的信息,使我们能够估计果蝇。3′补偿性位点的数目不能根据5′配对来估计,因为4、5或6个碱基的种子匹配不能与随机匹配区分开来,反映出大量随机保守和非功能匹配占优势(A) ●●●●。对于最大3′配对能量大于68%的6个位点和大于78%的5个位点,可以区分显著的3′配对和随机配对(E) ●●●●。使用这些配对水平可以估计每个miRNA平均有一个3′补偿位点为评估3′配对对6分子种子位点功能的贡献提供了机会。位于严峻的3′UTR受miR-2型(63%最大3′配对能量),但不是miR-11,其预测3′配对能为46%。类似地miR-11基因在中镰刀3′UTR的3′配对能约为35%,无功能。我们可以使用63%和46%的水平提供每miRNA平均1个和20个3′补偿性6mer位点的上下估计值表明76%和83%最大3′配对的位点不起作用。在80%的阈值水平上,我们预计每个miRNA平均不到一个额外位点,这表明具有5个种子的3′补偿位点是罕见的。预测的miR-10型站点位于紧急停堆(参见)是少数几个种子粒径为5mer的位点之一,种子粒径达到这个阈值(100%最大3′配对能;−20 kcal/mol)。很可能该组中的其他站点也将被证明具有重要的功能。
保守5′种子匹配的过度表达(参见A) 表明大约三分之二的8分子种子位点和大约一半的7分子种子位点具有生物学相关性。这相当于平均28个8和53个7分子,每个miRNA共有81个位点。我们将典型位点定义为那些在5′和3′配对中都有重要贡献的位点。考虑到7和8分子种子配对可以在没有显著3′配对的情况下发挥作用,很难评估3′配对在何种水平上对其功能有意义。最小足以支持弱种子匹配的3′配对能量范围在最大配对能量的46%到63%之间(参见C) 。如果我们将46%的水平作为有意义的3′配对的下限,则超过95%的位点将被视为种子位点。对于可以从统计上与噪声区分开的配对能量,此值变为99%(最大55%;请参见E) 即使配对能量达到随机匹配的平均水平(最大30%),也保持在50%以上。从该分析中可以清楚地看出,大多数miRNA靶位点在邻近序列的3′端缺乏实质性配对。实际上,三个种子位点的3′配对水平miR-4型在里面英国均小于25%(即低于随机匹配的平均值),并且英国因此没有预测为miR-4型以前的目标[26,28,35].
再次,我们注意到需要注意的是,我们识别为种子的一些位点原则上可以通过与更遥远的上游序列的3′配对来支持,但这种位点在计算上很难与背景区区分,并且不清楚大循环是否起作用。如果有统计证据表明某些位点的3′配对低于随机预期,这将是不使用3′配对的离散函数类的一条论证线,因此建议选择3′配对。尽管与8分子种子匹配相邻的真实miRNA 3′末端的3′配对能量的总体分布与3′洗牌序列的随机控制非常相似(;R(右)
2=0.98),我们观察到随机分布两侧的真实位点出现了少量但显著的过度表达,这导致真实位点的分布稍宽,但损失了约30%配对的峰值。请记住,八聚体种子匹配中有三分之一为假阳性(参见A) ,我们可以通过减去三分之一的随机分布来解释噪声。然后我们看到两个峰值分别位于最大配对能量的20%和35%左右,并被一个凹陷分开。减去更多的随机分布(例如,二分之一或三分之二)会增加两个峰的分离,这表明实际8分子种子位点的3′配对的潜在分布可能确实是双峰分布。如果包括7个种子的匹配,这种影响仍然存在,尽管不太明显。对于5个和6个月的种子组合,没有观察到这种影响。此外,我们发现,评估3′洗牌miRNA与真实miRNA种子匹配识别的UTR位点的3′配对的随机(噪声)模型与将真实(即非洗牌)miRNA 3′末端与随机选择的UTR序列配对的随机模型之间没有差异,从而排除了洗牌导致的偏差。总的来说,这些结果表明,由于3′配对较好和较差的位点的富集,可能确实存在双峰分布。我们认为这是种子位点是5′显性位点类别中一个具有生物学意义的亚群的证据。
8粒种子配对的3′对能量分布图中所示为58个3′非冗余miRNA(黑色)与随机对照(每个真实miRNA使用50个3′洗牌miRNA(灰色))的全基因组8分子种子匹配的分布(位点数量与3′配对)。请注意,实际miRNAs在高端和低端的分布都比随机对照更广,并且肩部接近峰值。红色、蓝色和绿色曲线显示了从三个不同级别的真实匹配中减去背景噪音(随机匹配)的效果,这揭示了这些肩膀背后的真实匹配。
总的来说,这些估计表明,每个miRNA中有80个以上的5′显性位点和20个或更少的3′补偿位点果蝇属基因组。作为miRNAs数量的估计果蝇属范围从96到124[44]这转化为全基因组8000–12000个miRNA靶位点,接近蛋白质编码基因的数量。即使考虑到一些基因有多个miRNA靶点这一事实,这些发现也表明大部分基因受miRNA调控。
讨论
我们为不同类型的miRNA靶位点提供了实验和计算证据。一个关键发现是,与miRNA 5′端互补的碱基对少至七个的位点足以在体内进行调控,并用于生物相关靶点。在保守的3′UTR序列中,全基因组5′显性位点的出现频率是随机预期的2到3倍。这些位点中的大多数被以往的miRNA靶点预测方法忽略了,因为它们对miRNA 3′端的有限碱基能力无法与随机噪声区分开来。这类网站在旨在优化整体配对能量的搜索方法中排名较低[16,17,26,27,28,30,35]。事实上,我们发现,即使5′互补性被赋予额外的权重(例如[28,43]。因此,我们怀疑带有配对截止值的方法会排除许多(如果不是全部)这样的站点。
在蛋白质编码基因在进化过程中获得miRNA靶位点的情况下[4],很可能只有7或8个碱基与miRNA互补的种子位点将是获得的第一个功能位点。一旦出现,如果一个站点具有优势,则将保留该站点,并且还可以选择具有扩展互补性的站点以实现更强的抑制。在这种情况下,位点的数量可能会随着进化过程而增加,因此古代miRNAs的靶点往往比最近进化的靶点多。同样,在给定的细胞类型中,不应被miRNA环境抑制的基因往往会避免与miRNA 5′端的种子匹配(“反靶点”)[4]).
虽然一个7到8分子的种子足以让一个位点发挥作用,但额外的3′配对增加了miRNA的功能。单个7mer标准位点的活性预计大于等效的种子位点。同样,通过在标准位点引入3′错配,miRNA诱导的阻遏作用减弱。在基因组范围内,有许多位点似乎显示出对保守3′配对的选择,有趣的是,许多位点似乎表明对3′配对有选择。在体内,典型位点可能在较低的miRNA浓度下发挥作用,并可能更有效地抑制翻译,尤其是当一个UTR中存在多个站点时(例如[42]). 有效的抑制对于那些表达有害的基因可能是必要的,如基因识别的miRNAs所示,当其靶点通常不被抑制时,它们会产生明确的突变表型(“切换靶点”)[4]). 长时间表达第14行和林-41中的基因秀丽隐杆线虫突变体线-4或let-7导致发育缺陷,其调控涉及多个位点[17,36,37]。同样,多个靶点可以对促凋亡基因进行强有力的调控隐藏通过矮脚鸡miRNA输入果蝇属[19]。表达水平的更精细调节可以通过较弱的位点完成,例如那些缺乏3′配对的位点。不能单独有效发挥作用的位点实际上是多个miRNAs组合调控的先决条件。因此,种子位点可能对几种miRNA的联合输入用于调节靶表达的情况有用。根据靶位点的性质,任何单个miRNA自身可能不会产生强大的影响,而在其他情况下可能需要。
3′互补性区分miRNA家族成员
3′代偿位点的5′配对较弱,需要大量的3′配对才能发挥作用。我们发现全基因组统计支持具有5个和6个种子的3′补偿位点,并表明它们在体内使用。此外,这些位点可以由不同的miRNA家族成员根据其3′配对的质量进行不同的调节(例如,促凋亡基因的调节严峻的和镰刀通过miR-2、miR-6,和miR-11型). 因此,miRNA家族成员可能有共同的靶点和不同的靶点。它们可能在某些靶点的调节中功能冗余,但在其他靶点的调控中功能冗余。因此,我们可以预期一些重叠的表型以及它们的突变表型的差异。
根据这一推理,很可能let-7miRNA家族成员差异调节林-41在里面秀丽线虫[17,45]。种子与临41到let-7和相关的miRNAsmiR-48、miR-84、,和miR-241型都很弱,而且只有let-7具有强大的3′配对。在此基础上,似乎有可能林-41仅受let-7相反,血红蛋白-1有四个具有强大种子匹配的站点[38,39],我们希望它受到所有四个方面的监管let-7家庭成员。和四个人一样let-7-相关的miRNAs在发育过程中表达类似[6],他们作为监管机构的角色血红蛋白-1可能是多余的。let-7还必须有其他家庭成员不共享的目标,因为其功能至关重要。临41很可能就是这样一个目标。
miRNAs的3′末端是一个特异性因子,这一观点为观察到许多miRNA在经过数亿年进化而分离的物种中全长保守的现象提供了一个有吸引力的解释。3′补偿性位点可能是通过降低种子匹配质量的突变从典型位点进化而来的。通过允许miRNA家族成员对位点进行差异调节,这可能会带来优势。此外,位点可以保留特异性和总配对能量,但活性降低,可能允许区分miRNA的高水平和低水平表达。这也可能使靶基因获得对来自多种miRNA的输入的依赖性。这些场景说明了miRNAs在进化过程中可能产生更复杂调控作用的几种方式。
基因组的很大一部分受miRNAs调控
这项研究的另一个有趣的结果是,有证据表明全基因组中存在数量惊人的miRNA靶位点。即使我们的保守估计也远高于最近预测的位点数量,例如每miRNA 7个或更少[27,28,29]。我们对靶基因总数的估计接近于蛋白质编码基因的数量,这表明miRNAs对基因表达的调节在生物学中的作用比先前预期的更大。的确,巴特尔和陈[46]在最近的一次审查中,约翰等人(John et al[43]这篇手稿正在审查时发表的文章预测,大约10%的人类基因受miRNAs调控。我们同意这些作者的建议,即这可能被低估了,因为他们的方法平均每个miRNA只能识别7.1个靶基因,很少有我们可以归类为缺乏实质性3′配对的种子位点。每个miRNA的大量靶位点也与miRNA的组合基因调控一致,类似于转录因子,导致细胞型特异性基因表达[47]。多个miRNA的位点允许细胞型特异性miRNA组合的可能性,以实现强大而特异的基因调控。
我们的结果提供了对定义miRNAs如何与靶基因结合的一些重要参数的更好理解。我们预计这些将有助于理解已知的miRNA与靶点的关系,并改进预测miRNA靶点的方法。我们的评估仅限于3′UTR中的目标站点。针对其他类型靶点或具有显著不同功能(例如调节染色质结构)的miRNAs可能会使用不同的规则。因此,可能会有比我们目前估计的更多的目标。此外,还可能存在其他功能,例如总体UTR上下文,这些功能可以增强或限制预测站点的可访问性,从而增强或限制其功能。例如,有关目标站点结构的规则无法解释在let-7/lin-41法规[48]。进一步的实验靶点验证和UTR特征的系统检查有望为miRNA靶点的功能提供新的见解。