基因发育。2003年4月15日;17(8): 991–1008.
的microRNA秀丽隐杆线虫
,1,2,3中,4 ,1,2,三 ,1,2,三 ,1,2,三 ,1,2 ,1,2 ,1,5和1,2,6
Lee P.Lim先生
1美国马萨诸塞州剑桥市麻省理工学院生物系,邮编:021392美国马萨诸塞州剑桥市剑桥中心9号怀特海生物医学研究所,邮编:02142
尼尔森·C·刘
1美国马萨诸塞州剑桥市麻省理工学院生物系,邮编:021392美国马萨诸塞州剑桥市剑桥中心9号怀特海生物医学研究所,邮编:02142
伯爵·G·温斯坦
1美国马萨诸塞州剑桥市麻省理工学院生物系,邮编:021392美国马萨诸塞州剑桥市剑桥中心9号怀特海生物医学研究所,邮编:02142
阿里亚·阿卜杜勒哈基姆
1美国马萨诸塞州剑桥市麻省理工学院生物系,邮编:021392美国马萨诸塞州剑桥市剑桥中心9号怀特海生物医学研究所,邮编:02142
索拉亚·耶克塔
1美国马萨诸塞州剑桥市麻省理工学院生物系,邮编02139,以及2美国马萨诸塞州剑桥市剑桥中心9号怀特海生物医学研究所,邮编:02142
马修·W·罗兹
1美国马萨诸塞州剑桥市麻省理工学院生物系,邮编:021392美国马萨诸塞州剑桥市剑桥中心9号怀特海生物医学研究所,邮编:02142
克里斯托弗·B·伯格
1美国马萨诸塞州剑桥市麻省理工学院生物系,邮编:021392美国马萨诸塞州剑桥市剑桥中心9号怀特海生物医学研究所,邮编:02142
大卫·P·巴特尔
1美国马萨诸塞州剑桥市麻省理工学院生物系,邮编:021392美国马萨诸塞州剑桥市剑桥中心9号怀特海生物医学研究所,邮编:02142
1美国马萨诸塞州剑桥市麻省理工学院生物系,邮编:021392美国马萨诸塞州剑桥市剑桥中心9号怀特海生物医学研究所,邮编:02142
三这些作者为这项工作做出了同等贡献。
4现住址:华盛顿州柯克兰市西北115大道12040号罗塞塔国际制药公司,邮编:98034。
收稿日期:2003年1月13日;2003年2月25日接受。
补充材料可在网址:http://www.genesdev.org.
长度为~22核苷酸(nt)的非编码RNA(ncRNAs)在动物、植物和真菌的基因表达调控中发挥着重要作用。第一个被发现的如此微小的调节RNA是线-4RNA,它控制秀丽隐杆线虫幼虫发育(Lee等人,1993年;Wightman等人,1993年). 这种21-nt RNA与靶mRNA的3′非翻译区(UTR)内的位点配对,指定这些mRNA的翻译抑制并触发向下一个发育阶段的过渡(Lee等人,1993年;Wightman等人,1993年;Ha等人,1996年;Moss等人,1997年;奥尔森和安布罗斯1999). 第二个微小的核糖调节器,let-7RNA在发育后期表达,并以类似的方式触发向晚期和成年阶段的过渡(Reinhart等人,2000年;Slack等人,2000年). 这个线-4和let-7RNAs有时被称为小时间RNA(stRNAs),因为它们在调节幼虫发育时间方面起着重要作用(Pasquinelli等人,2000年). 这个线-4和let-7stRNAs现在被认为是一大类约22-nt的ncRNAs的创始成员,称为microRNAs(miRNAs),类似于stRNA,但不一定控制发育时间(Lagos-Quintana等人,2001年;Lau等人,2001年;Lee和Ambros 2001).
通过与另一类称为小干扰RNA(siRNAs)的微小非编码RNA的类比和对比,极大地促进了对miRNAs的生物发生和功能的理解,因为它们在介导动物RNA干扰(RNAi)和植物转录后基因沉默中的作用而首次被鉴定(Hamilton和Baulcombe 1999;Hammond等人,2000年;Parrish等人,2000年;Zamore等人,2000年;Elbashir等人,2001a;Klahre等人,2002年). 在RNAi过程中,长双链RNA(双分子双链RNA或长发夹状RNA)被一种RNAse III酶Dicer加工成许多siRNAs,作为指导RNA,以指定相应mRNA的破坏(Hammond等人,2000年;Zamore等人,2000年;Bernstein等人,2001年;Elbashir等人,2001a). 尽管这些siRNAs最初是短双链物种,具有5′磷酸盐和2-nt 3′悬垂物的RNAse III裂解产物的特征,但它们最终以单链RNAs的形式并入核糖核蛋白复合物,称为RNA-induced silensing complex(RISC;Hammond等人,2000年;Elbashir等人,2001a,b条;Nykäken等人,2001年;Martinez等人,2002年;Schwarz等人,2002年). RISC基于siRNA和mRNA之间的完美(或近乎完美)反义互补性来识别目标信息,然后RISC的核酸内切酶在siRNA互补性中间附近的位置切割mRNA(Elbashir等人,2001a,b条). 植物和真菌中的基因沉默也有类似的途径,siRNAs在转录后基因沉默期间以mRNA为靶点进行切割,异色siRNA以染色质为靶点实现组蛋白甲基化,从而触发异染色质的形成和随后的转录基因沉默(Hamilton和Baulcombe 1999;Vance和Vaucheret,2001年;霍尔等人,2002年;Hamilton等人,2002年;Pickford等人,2002年;莱因哈特和巴特尔2002;Volpe等人,2002年;Zilberman等人,2003年).
miRNAs与siRNAs在化学和功能上有许多相似之处。与siRNA一样,它们是由Dicer处理的,因此它们的长度和5′-磷酸和3′-羟基末端与siRNA相同(Grishok等人,2001年;Hutvágner等人,2001年;Ketting等人,2001年;Lau等人,2001年;Park等人,2002年;Reinhart等人,2002年). 它们还被并入核糖核蛋白复合物,称为miRNP,与RISC相似,如果不完全相同(Caudy等人,2002年;Hutvágner和Zamore 2002;石冢等人,2002年;Martinez等人,2002年;Mouralatos等人,2002年). 事实上,许多植物miRNAs将其预测的mRNA靶点与近乎完美的反义互补性相匹配,就像它们在RISC复合体中作为siRNAs发挥作用一样(Rhoades等人,2002年),并且植物miR171和miR165/166已被证明指定其mRNA靶点的切割(Llave等人2002b;Tang等人,2003年). 这个秀丽线虫和果蝇属miRNAs并不具有与目标配对的近完美互补性的明显倾向(Rhoades等人,2002年). 尽管如此,一些分子仍可能直接裂解其靶点,正如观察到的与靶点有3-4个错配的miRNAs和siRNAs仍然可以在植物和动物裂解物中直接裂解(Tang等人,2003年). 此外let-7miRNA存在于复合物中,当人工RNA靶标与miRNA完全互补时,复合物可以切割人工RNA靶标(Hutvágner和Zamore 2002). 已知的生物靶点线-4和let-7RNA在miRNA互补位点的中心区域有几个不匹配,这可能解释了为什么在这些特殊情况下,miRNA在转录抑制而不是mRNA断裂过程中起着重要作用秀丽线虫幼虫发育(Lee等人,1993年;Wightman等人,1993年;Ha等人,1996年;Moss等人,1997年;奥尔森和安布罗斯1999;Reinhart等人,2000年;Slack等人,2000年;Hutvágner和Zamore 2002).
大多数动物miRNAs的调控靶点尚未确定。对植物miRNA靶点的预测导致了这样一种观点,即许多植物miRNA的功能是从分化细胞中清除编码关键转录因子的mRNA,从而促进植物发育和器官发生(Rhoades等人,2002年). 动物miRNA靶点的可信计算预测依赖于实验证据,以首先缩小候选mRNA的数量(Lai 2002年). 然而,正如植物miRNA所见,动物miRNA的序列在进化中通常高度保守。例如,从哺乳动物克隆的107个miRNAs中,有91个在河豚中检测到(河豚)基因组,意味着它们在脊椎动物进化过程中保留了重要功能(Lim等人,2003年).
识别miRNA生物学作用的系统方法的第一步是找到miRNA基因本身。由于还没有开发出基因靶向程序来识别基因组序列中的miRNA,因此miRNA基因识别主要是通过从大小分馏RNA样品中克隆小RNA来实现的,有时通过首先免疫沉淀miRNP复合物或使用针对Dicer产品中发现的5′磷酸盐和3′羟基的克隆方案来特异性地富集miRNAs(Lagos-Quintana等人,2001年,2002,2003;Lau等人,2001年;Lee和Ambros 2001;Llave等人2002a;Mouralatos等人,2002年;Park等人,2002年;Reinhart等人,2002年). 一旦小RNA被克隆,挑战在于将真正的miRNAs与细胞中存在的其他RNA,特别是内源性siRNAs区分开来。由于miRNAs和siRNAs都是Dicer产物,它们都可以指定mRNA的切割,因此无法根据它们的化学组成或功能特性来区分miRNA。然而,根据其生物发生和进化保护,miRNAs可以与siRNAs区分开来:(1)它们是20-24-nt RNA,来源于可形成局部RNA发夹结构的内源性转录物;(2) 这些发夹被加工成单个miRNA分子最终从每个发夹前体分子的一个臂累积而成;(3) 成熟miRNA及其发夹前体的序列通常在进化上是保守的;和(4)miRNA基因组位点与其他类型的已识别基因不同,通常距离较远,尽管在预测的内含子中发现了一些,但不一定与内含子位于同一方向。内源性siRNA的不同之处在于:(1)它们来源于扩展的dsRNA,(2)每个dsRNA前体产生许多不同的siRNA,(3)它们通常表现出较少的序列保守性,(4)它们通常与已知或预测的mRNA、转座子或异色DNA区域的序列完全对应(Aravin等人,2001年;Djikeng等人,2001年;Elbashir等人,2001a;Lau等人,2001年;Llave等人2002a;Mochizuki等人,2002年;莱因哈特和巴特尔2002;Reinhart等人,2002年). 关于第四个标准,miRNA也可以完全对应于其mRNA靶标的序列,但当它们这样做时,它们仍然来源于与其mRNA靶标不同的基因座(Llave等人2002a,b条;Reinhart等人,2002年). 由于miRNA主要是根据其生物发生和进化保守性来区分的,因此目前用于鉴定和验证miRNA基因的规范包括miRNA内源性表达的实验证据,以及发夹状前体的证据,最好是进化上保守性的前体(Ambros等人,2003年).
一些miRNAs可能很难通过克隆分离出来,因为它们的丰度低或克隆过程中存在偏见。因此,从基因组序列中计算鉴定miRNAs将为克隆提供有价值的补充。通过比较基因组学在计算识别ncRNA基因方面取得了最新进展,并开发了复杂的算法来识别一般的ncRNA(Argaman等人,2001年;Rivas等人,2001年;Wassarman等人,2001年)以及特定的ncRNA家族,如tRNAs和snoRNAs(Lowe和Eddy 1997,1999).
在本研究中,我们描述了识别miRNA基因的计算程序。通过使用这个程序,再加上克隆的广泛测序(3423个miRNA克隆已测序),我们检测到30个额外的miRNA基因,包括以前未被识别的基因线-4和let-7同源物。计算分析的外推表明,miRNA基因鉴定秀丽线虫目前已接近饱和,该物种中的miRNA基因不超过120个。我们还鉴定了那些在幼虫发育和营养胁迫条件下具有有趣表达模式的基因,我们发现大多数miRNAs的表达水平很高,其中一些在每个细胞中的拷贝数与高度丰富的U6 snRNA一样多。这一对蠕虫miRNA及其表达模式的广泛普查确立了该基因类的一般特性,并为线虫和其他生物中miRNA功能的研究提供了资源和工具。
结果
秀丽线虫miRNA基因的计算预测
我们开发了一种计算工具,专门识别在两个基因组中保守且具有已知miRNA特征的miRNAs。为了鉴定线虫中的miRNAs秀丽线虫基因组首先扫描发夹结构,其序列在线虫发现约36000个发夹,满足发夹结构和序列保持的最低要求。这一过程撒下了一张足够宽的网,可以捕获之前报道在这两个物种中保守的53个miRNA中的50个(Lau等人,2001年;Lee和Ambros 2001). 这50个已发表的miRNA基因作为一个训练集,用于开发一个名为MiRscan的程序,然后使用该程序为36000个发夹中的每个发夹分配分数,根据它们与训练集在以下特征方面的相似性对它们进行评估:折回miRNA部分的碱基配对,折回的其余碱基配对,miRNA的5′半部分的严格序列守恒,miRNA 3′半部分序列守恒略为宽松,miRNA前五个碱基的序列偏差(尤其是第一位的U),miRNA区域有对称而非不对称的内环和突起的倾向,miRNA和末端环区域之间存在2到9个共有碱基对,偏好4到6 bp(图。A) ●●●●。
MiRscan用于在两个基因组的对齐片段中识别miRNA基因的标准。(A类)MiRscan评分的七个组成部分mir-232型属于秀丽隐杆线虫/亮杆线虫这些组件在MiRscan预测的上下文中进行注释mir-232型,预测的miRNA残留物用紫色圈起来,验证的miRNA的残留物(表),用绿色圈出。括号中是每个成分的得分,将其相加得出总得分为13.9。MiRscan预测在共识范围内可视化线虫/C.briggsae二级结构,使用ClustalW生成(汤普森等人,1994年)和Alidot(Hofacker和Stadler 1999). 显示的是秀丽线虫残基着色的序列表示保守序列和配对电位。残留物保存于C.布里格斯为红色,在保持其预测的成对或未成对状态的同时变化的残基为蓝色(保持配对的变体残基也用黑色圈出),而既不保持序列也不保持配对的残基则为灰色。(B)每个MiRscan标准的估计相对重要性。估计基于50个先前识别的线虫miRNAs的训练集与约36000个潜在茎环的背景集之间的相对熵。由于配对和保守性被用于识别潜在的干环,这些类型的标准在区分miRNA基因和非蛋白编码基因组序列方面的总贡献被低估了。同样,由于只评估了距离回路2-9 bp的候选值,因此低估了距离回路距离的总贡献。
~36000发夹的MiRscan得分分布说明了MiRscan识别训练集50个miRNA基因的能力,这些基因大多位于分布的高得分尾部(图。). 在MiRscan评估的特征中,碱基激发电位和序列保守性在区分已知miRNAs中起着主要作用(图。B) ●●●●。其他一些保守发夹也得分很高;35人的得分超过13.9,这是58个已知miRNA的中位数(图。B) ●●●●。这35个发夹被作为MiRscan预测的最佳miRNA候选物进行了结转。
miRNA基因的计算鉴定。(A类)35697的MiRscan分数分布秀丽线虫可能形成茎环并在中具有松散保守性的序列C.布里格斯。请注意Y(Y)-轴是不连续的,因此可以更容易地看到作为MiRscan训练集的50个先前报告的miRNA基因的分数(红色)。这50个基因的得分被绞死,以防止其价值膨胀,因为它们存在于训练集中。(B)高得分分布尾部的扩展视图。该视图捕获了训练集50个基因中的49个(红色)。先前报道的58个miRNA位点的中位数得分满足当前指定为miRNA基因的标准(Ambros等人,2003年)为13.9(绿色箭头)。请注意,该中位数得分是50人训练集第29个和第30个最高得分位点得分之间的中点;也就是说,将之前报道的8个不在训练集中的miRNA基因包括在内后,将其指定为中位数,因为这些基因在识别保守发夹时丢失,通常是因为它们缺乏足够的C.布里格斯同源性。图中显示了通过克隆验证的基因得分(黄色),以及尚未克隆但通过Northern分析验证的六个基因得分(紫色)。(C)通过MiRscan和Northern印迹鉴定的miRNA基因的示例用于验证它们。阀杆环注释如图所示A、 除了描述了DNA序列,而不是RNA序列。Northern杂交显示了野生型(N2)或dcr-1型蠕虫,使用我们的标准方案(Std.)或额外的聚乙二醇沉淀步骤进行分离,以富集小RNA(Enr.)。纯合子蠕虫dcr-1型种群降低了Dicer活性,增加了miRNA前体的水平(例如,miR-250-L和miR-255-L),这有助于验证miRNA位点,尤其是那些未检测到成熟miRNA的位点(例如,miR-255)。RNA标记(左边车道)为18、21、24、60、78和119 nt。所示miR-250干环的miR扫描得分为14.7。mir-250反向补体得分更高,为18.4分,但Northern分析未检测到。因此,预测mir-250型基因被分配了更高的核心得分,尽管不正确,但替代的茎环(表; 图。B) ●●●●。
miRNA基因的分子鉴定
我们最初从混合阶段克隆和测序小RNA秀丽线虫已鉴定出300个克隆,代表54个独特的miRNA序列(Lau等人,2001年). 在本研究中,这种识别miRNAs的方法被放大了~10倍。为了鉴定在混合阶段对数生长的雌雄同体蠕虫中不正常表达的miRNA,还从他-8蠕虫、饥饿的L1和dauer蠕虫。这个他-8种群为~40%的雄性,而正常(N2)种群几乎都是雌雄同体(Broverman和Meneely 1994). 饥饿的L1和dauer蠕虫分别在幼虫阶段L1和L3被阻止发育,dauer虫经历了形态变化,在干燥或其他恶劣条件下可以提高存活率。
和以前一样,一些克隆匹配大肠杆菌,蠕虫的食物来源,其他则与注释的片段相对应秀丽线虫RNA。然而,3423个克隆被归类为miRNA克隆(表). 其中大多数代表了之前在秀丽线虫(Lau等人,2001年;Lee和Ambros 2001). 例如,线-4由125个克隆代表,let-717个克隆,以及密尔52404个克隆(表). 其余的miRNA克隆代表23个新发现的miRNA位点。
表1
秀丽隐杆线虫的克隆频率和MiRscan评分miRNA
微小RNA
| MiRscan评分
| 测序克隆数
|
---|
混合阶段
| 达尔
| 饥饿L1
| 他-8
| 全部的
|
---|
let-7 RNA | 13.8 | 15 | 0 | 0 | 2 | 17 |
lin-4 RNA | 15.8 | 48 | 46 | 4 | 27 | 125 |
miR-1型 | 14.7 | 43 | 17 | 7 | 9 | 76 |
miR-2型 | 6.2 | 138 | 46 | 20 | 9 | 213 |
miR-34型 | 14.1 | 13 | 25 | 5 | 9 | 52 |
miR-35型 | 14.4 | 23 | 0 | 1 | 2 | 26 |
miR-36型 | 14.6 | 21 | 0 | 1 | 5 | 27 |
miR-37型 | 9.6 | 8 | 0 | 1 | 2 | 11 |
miR-38型 | 8.9 | 10 | 0 | 1 | 0 | 11 |
miR-39型 | 9.5 | 11 | 0 | 0 | 1 | 12 |
miR-40基因 | 15.4 | 12 | 0 | 4 | 2 | 18 |
miR-41型 | 12 | 2 | 0 | 0 | 0 | 2 |
miR-42型 | 9.5 | 10 | 4 | 三 | 1 | 18 |
miR-43型 | 17.5 | 8 | 1 | 9 | 0 | 18 |
miR-44/45型 | 16.6/17.4 | 22 | 三 | 三 | 4 | 32 |
miR-46型 | 11.3 | 14 | 11 | 9 | 三 | 37 |
miR-47型 | 16.5 | 19 | 7 | 4 | 5 | 35 |
miR-48型 | 12 | 52 | 1 | 0 | 8 | 61 |
miR-49型 | 13.1 | 1 | 0 | 1 | 1 | 三 |
miR-50型 | 14.6 | 10 | 16 | 5 | 1 | 32 |
miR-51型 | 12 | 16 | 5 | 2 | 2 | 25 |
miR-52型 | 11.6 | 287 | 70 | 18 | 29 | 404 |
miR-53型 | 12.4 | 20 | 6 | 1 | 4 | 31 |
miR-54型 | 9.4 | 49 | 40 | 9 | 13 | 111 |
miR-55型 | 13.8 | 47 | 32 | 16 | 15 | 110 |
miR-56型 | NS公司 | 40 | 16 | 9 | 6 | 71 |
miR-57 | 12.1 | 31 | 11 | 8 | 三 | 53 |
miR-58型 | 17.5 | 181 | 51 | 27 | 31 | 290 |
miR-59型 | 18.5 | 1 | 0 | 0 | 0 | 1 |
miR-60型 | 14.1 | 20 | 6 | 三 | 7 | 36 |
miR-61型 | 13.7 | 8 | 5 | 1 | 三 | 17 |
miR-62型 | 15.1 | 4 | 4 | 6 | 0 | 14 |
miR-63型 | NS公司 | 7 | 1 | 0 | 1 | 9 |
miR-64型 | NS公司 | 11 | 4 | 8 | 三 | 26 |
miR-65型 | 7.4 | 22 | 7 | 三 | 2 | 34 |
miR-66型 | NS公司 | 68 | 25 | 6 | 7 | 106 |
miR-67型 | 16.8 | 三 | 0 | 0 | 0 | 三 |
miR-70型 | 11.6 | 11 | 8 | 三 | 6 | 28 |
miR-71型 | 17.9 | 53 | 72 | 23 | 22 | 170 |
miR-72型 | NS公司 | 49 | 22 | 10 | 9 | 90 |
miR-73型 | 11.3 | 13 | 7 | 1 | 1 | 22 |
miR-74型 | 17.9 | 35 | 12 | 6 | 7 | 60 |
miR-75型 | 12.6 | 14 | 三 | 2 | 2 | 21 |
miR-76型 | 14.9 | 1 | 2 | 6 | 三 | 12 |
miR-77型 | 14.2 | 17 | 三 | 0 | 2 | 22 |
miR-78型 | NS公司 | 5 | 1 | 1 | 0 | 7 |
miR-79 | 14.2 | 14 | 三 | 三 | 三 | 23 |
miR-80型 | 17.1 | 121 | 27 | 20 | 17 | 185 |
miR-81型 | 18.8 | 32 | 24 | 6 | 12 | 74 |
miR-82型 | 16.3 | 36 | 12 | 6 | 11 | 65 |
miR-83型 | 15.2 | 12 | 12 | 2 | 8 | 34 |
miR-84 | −3.3 | 12 | 2 | 1 | 4 | 19 |
miR-85型 | 17.5 | 10 | 0 | 0 | 12 | 22 |
miR-86型 | 16.3 | 46 | 57 | 30 | 17 | 150 |
miR-87型 | 16.7 | 1 | 0 | 0 | 0 | 1 |
miR-88型 | −7.9 | | | | | 0 |
miR-90型 | 14 | 5 | 37 | 14 | 9 | 65 |
miR-124型 | 15.7 | 7 | 16 | 7 | 5 | 35 |
miR-228型 | 17.5 | 1 | 13 | 8 | 三 | 25 |
miR-229型 | NS公司 | 2 | 1 | 0 | 0 | 三 |
miR-230型 | 16.8 | 0 | 0 | 0 | 1 | 1 |
miR-231型 | 14.1 | 1 | 2 | 0 | 0 | 三 |
miR-232型 | 13.8 | 4 | 7 | 2 | 1 | 14 |
miR-233型 | 16.4 | 1 | 8 | 4 | 0 | 13 |
miR-234型 | 14.3 | 0 | 0 | 1 | 0 | 1 |
miR-235型 | 1.9 | 5 | 21 | 1 | 8 | 35 |
miR-236型 | 16.8 | 三 | 6 | 2 | 1 | 12 |
miR-237型 | 11.9 | 三 | 0 | 0 | 0 | 三 |
miR-238型 | 14 | 0 | 4 | 1 | 0 | 5 |
miR-239a型 | 12.7 | 4 | 0 | 0 | 1 | 5 |
miR-239b型 | 13.6 | | | | | 0 |
miR-240型 | 12.5 | 0 | 0 | 0 | 1 | 1 |
miR-241型 | 14.9 | 7 | 0 | 0 | 三 | 10 |
miR-242型 | 9.9 | 0 | 0 | 1 | 1 | 2 |
miR-243型 | NS公司 | 1 | 0 | 1 | 0 | 2 |
miR-244型 | 13.4 | 0 | 2 | 5 | 0 | 7 |
miR-245型 | 13.8 | 0 | 1 | 0 | 0 | 1 |
miR-246型 | 12.8 | 0 | 0 | 0 | 1 | 1 |
miR-247型 | NS公司 | 0 | 2 | 0 | 0 | 2 |
miR-248型 | 14.6 | 0 | 2 | 0 | 0 | 2 |
miR-249型 | 13.7 | 0 | 2 | 1 | 0 | 三 |
miR-250基因 | 18.4 | | | | | 0 |
miR-251型 | 15.5 | | | | | 0 |
miR-252型 | 17.7 | | | | | 0 |
miR-253型 | 16.9 | | | | | 0 |
miR-254型 | 15.7 | | | | | 0 |
miR-255 | 16.4 | | | | | 0 |
克隆总数 | 1821 | 851 | 363 | 388 | 3423 |
总共有80个位点由克隆的miRNAs代表(表). 其中77个具有秀丽线虫miRNA基因,因为它们有潜力编码定型发夹前体分子,将20-25-nt克隆RNA正确定位在发夹臂内,以便在Dicer加工过程中切除,并且其表达表现为20-25-nt范围内可检测到的Northern信号。其他三个位点,mir-41,mir-249、和mir-229型,也包括在内。这个mir-41型和mir-249型在Northern blot上未检测到RNA,但仍被归类为miRNAs,因为这些RNA及其预测的发夹前体在C.布里格斯.
这个mir-229型该基因座也被归类为miRNA基因,尽管它似乎来源于一种不寻常的折返前体。其前体看起来比正常大,可能是因为前体干环的3′臂上额外突出了35-nt干环(补充图1)。尽管如此,miR-229在Northern blot上可检测到约25-26-nt的物种,其推测前体的积累在dcr-1型突变体,表明Dicer处理了该前体,尽管预测到了不寻常的二级结构(补充图1)。此外,mir-229型在先前识别的miRNA基因簇上游只有400 bp,包括mir-64、mir-65、和密尔-66miR-229也与该簇的miRNAs具有显著的序列同源性。我们暂时分类米尔-229作为miRNA和其中一员秀丽线虫集群。如果其不寻常的前体结构在另一物种中得到保护,那么将有更大的信心。发现两个潜在miRNAs的弱同源簇C.布里格斯,但这两个预测都没有C.布里格斯同源物似乎有一个类似miR-229的不寻常前体。
计算预测miRNAs的验证
在23个新克隆的miRNAs中,有20个获得了MiR扫描分数,这些分数在图中用黄色表示B.其他三个未得分,因为C.布里格斯未识别。Mann-Whitney检验表明,这些最近克隆的miRNAs的得分分布与之前克隆的miRNA没有显著差异。由于最近克隆的miRNAs在MiRscan的开发过程中尚不为人所知,因此他们的高分进一步保证了MiRscan并没有过度适应其训练集。在23个新克隆的miRNA中,有10个是35个高得分miRNA候选基因,用于验证这10个候选基因。
其余25个尚未克隆的候选miRNAs通过Northern blots进行了测试。RNA来自dcr-1型在印迹上加入蠕虫,以增强对前体发夹的检测。在六个候选者中检测到对~70-nt前体的依赖性加工(如miR-250和miR-255所示;图。C) 检测到miR-250、miR-251和miR-252的~22-nt miRNA。尽管暴露时间延长,小RNA通过大小分级富集,但Northern信号通常较弱,这可能解释了为什么这些miRNA在当前3423个测序miRNA克隆中缺失。
为了研究在进一步克隆和测序我们的小RNA序列cDNA文库后,这些miRNAs是否最终会被识别,我们使用PCR检测文库中是否存在这些miRNA。通过使用预测的miRNA的3′片段的特异性引物,以及与所有小RNA的5′末端的适配器序列相对应的第二个引物,对miRNA的5’片段进行扩增、克隆和测序。该程序验证了六个预测miRNA中的五个,其中至少有一个前体可以在Northerns上检测到,包括两个候选(miR-253和miR-254),Northern blots上没有检测到成熟的~22-nt RNA。此外,它确定了这五种miRNAs的5′末端,这在仅使用生物信息学和杂交时很难实现。
结合克隆和表达数据,35个经计算确定的候选基因中有16个得到了验证(10个来自克隆,5个来自Northerns加PCR分析,1个仅来自Northernss,验证了前体,但没有识别成熟的miRNA)。在剩下的19名候选人中,有4名很容易被归类为假阳性。它们似乎是非命名的较大的ncRNA基因,因为设计的探针与这些候选基因杂交,而不是与样本中保持不变的高分子量物种杂交dcr-1型蠕虫。其余15个MiRscan得分高但没有任何Northern信号的新候选基因也可能是假阳性,或者它们可能是在低水平或仅在非常特定的细胞类型或环境中表达的真实miRNAs。考虑到所有未经验证的候选者均为假阳性的极端情况,MiRscan对线虫/C.briggsae分析可以计算为(29+16)/(29+35)或0.70,灵敏度水平可以检测到58个已知miRNAs的一半。表中显示了通过验证计算候选物(16个基因)或单独克隆(13个基因)新鉴定的miRNA基因的摘要和预测的干环前体如补充材料所示。表还包括一个额外的基因,mir-239b型,根据其与mir-239a型MiRscan得分为13.6。
表2
miRNA基因
| ID方法
| miRNA序列
| miRNA长度(nt)
| C.布里格斯同源性
| 折叠靠背臂
| 变更。
| 与最近基因的距离
|
---|
mir-124型 | MS、C、N | UAAGGCACGCGGUGAAUGCCA公司 | 21 | +++ | 3′ | 四、 | 在的内含子内 | C29E6.2型 | (s) |
mir-228型 | MS、C、N | AAUGGCACUGCAUGAAUCACGG(美国) | 21–24 | +++ | 5′ | 四、 | 下游0.2 kb | T12E12.5型 | (作为) |
mir-229型 | C、 N个 | AAUGACACUGGUUAUCUUUCCAUCG公司 | 25–27 | 负极 | 5′ | 三 | 上游0.4 kb | mir-64型 | (s) |
mir-230型 | MS、C、N | 瓜乌阿瓜瓜 | 23 | ++ | 3′ | X(X) | 下游0.4 kb | F13D11.3财年 | (作为) |
mir-231型 | MS、C、N | UAAGCUGUGAUCAACAGGCAGAA公司 | 23–24 | ++ | 3′ | 三 | 上游10.4 kb | 林-39 | (s) |
mir-232型 | C、 N个 | UAAAUGCAUUAACUGCGUGA(阿乌古古古阿乌) | 23–24 | +++ | 3′ | 四、 | 下游1.1 kb | F13H10.5层 | (作为) |
mir-233型 | 毫秒、C、N | UUGAGCAAUGCGCUGGGGA公司 | 19–23 | +++ | 3′ | X(X) | 在的内含子内 | W03G11.4型 | (s) |
mir-234型 | MS、C、N | UUAUGCUCGAAUACCUU公司 | 21 | +++ | 3′ | 二 | 下游1.5 kb | Y54G11B.1号 | (作为) |
mir-235型 | C、 N个 | UAUGCACUCCCCGGCCUGA公司 | 22 | + | 3′ | 我 | 上游0.6 kb | T09B4.7型 | (s) |
mir-236型 | MS、C、N | UAAUACUGUCAGUAAUGACGCU公司 | 21–25 | +++ | 3′ | 二 | 下游0.3 kb | C52E12.1代码 | (作为) |
mir-237型 | C、 N个 | UCCCUGAGAAUUCGAACAGCU大学 | 23–24 | + | 5′ | X(X) | 上游3.4 kb | F22F1.2层 | (作为) |
mir-238型 | MS、C、N | UUGUACUCCGAUGCACAUCAGA(乌古古卡加) | 21–23 | ++ | 3′ | 三 | 上游2.0 kb | mir-80型 | (s) |
mir-239a型 | C、 N个 | UUGUACUACACAUAGUACUGG(乌古古亚卡亚加加古古古古格) | 22–23 | ++ | 5′ | X(X) | 上游6.0 kb | C34E11.1型 | (s) |
mir-239b型 | H(H) | UUGUACUACACAAAAGUACUGG公司 | 未注明日期。 | ++ | 5′ | X(X) | 上游7.0 kb | C34E11.1型 | (s) |
mir-240型 | C、 N个 | UACUGGCCCCAAAUCGCU公司 | 22 | ++ | 3′ | X(X) | 1.7 kb上游 | C39D10.3分 | (s) |
mir-241型 | MS、C、N | 乌干达 | 21 | ++ | 5′ | 五 | 上游1.8 kb | mir-48型 | (s) |
mir-242型 | C、 N个 | UUGCGUAGGCCUUUGCUUCGA公司 | 21 | ++ | 5′ | 四、 | 下游0.9 kb | nhr-78型 | (作为) |
mir-243型 | C、 N个 | CGGUACGAUCGGCGGGAUAUC公司 | 22–23 | 负极 | 3′ | 四、 | 上游1.0 kb | R08C7.1版 | (s) |
mir-244型 | C、 N个 | UCUUGUGUUGUACAAAGUGUAUG | 23–25 | +++ | 5′ | 我 | 下游1.6 kb | T04D1.2型 | (作为) |
mir-245型 | C、 N个 | 奥古古CCUCCAAGUAGCUC | 22 | +++ | 3′ | 我 | 1.9下游 | F55D12.1型 | (s) |
mir-246型 | C、 N个 | UUACAUGUUUCGGGGUAGGAGCU乌古古古库 | 22 | ++ | 3′ | 四、 | 0.4 kb的下游 | ZK593.8孔 | (s) |
mir-247型 | C、 N个 | UGACUGAGCCUAUUCUCUU | 22–23 | 负极 | 3′ | X(X) | 1.9 kb上游 | C39E6.2号 | (作为) |
mir-248型 | MS、C、N | UACACGUGCACGGAUACGCUCA公司 | 23 | ++ | 3′ | X(X) | 在的内含子内 | AH9.3型 | (s) |
mir-249型 | C | UCACAGGACUUUUGAGCUUGC大学 | 22–23 | ++ | 3′ | X(X) | 2.7 kb上游 | Y41G9A.6型 | (s) |
mir-250型 | MS、N、PCR | UCACAGUCAAGUGUGGCAUGG公司 | ∼22 | ++ | 3′ | 五 | 下游0.1 kb | mir-61型 | (s) |
mir-251型 | MS、N、PCR | 乌阿瓜古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古古 | ∼24 | +++ | 5′ | X(X) | 下游0.2 kb | 59层3.4层 | (作为) |
mir-252型 | MS,N,聚合酶链式反应 | UAAGUAGUAGUGCCGCAGUAAC公司 | ∼23 | +++ | 5′ | 二 | 下游1.8 kb | VW02B12L.4型 | (作为) |
mir-253型 | MS、D、PCR | CACACCUCACUAACACUGACC公司 | 未注明日期。 | ++ | 5′ | 五 | 在的内含子内 | F44E7.5型 | (s) |
mir-254型 | MS、D、PCR | UGCAAAUCUUCGCGACUGUAGG(乌干达) | 未注明日期。 | ++ | 3′ | X(X) | 在的内含子内 | ZK455.2孔 | (s) |
mir-255型 | 理学硕士、博士 | — | 未注明日期。 | | | | 上游1.5 kb | F08F3.9型 | (作为) |
miRNAs的进化保守性
88人秀丽线虫到目前为止确定的miRNA基因分为48个家族,每个家族包含一到八个基因(数据未显示)。在家族中,序列一致性要么跨越miRNAs的长度,要么主要位于其5′末端。除了两个家族外,所有这些家族都延伸到了C.布里格斯.这两个家族无法辨认C.布里格斯每个同源序列都包含一个miRNA(miR-78和miR-243)。因此,几乎所有(>97%)秀丽线虫所鉴定的miRNAs在C.布里格斯,除了六个秀丽线虫miRNAs(miR-72、miR-63、miR-64、miR-66、miR-229和miR-247)与C.布里格斯正交曲线。48人中秀丽线虫miRNA家族,22在已知的人类miRNA基因中也有代表性(图。). 这22个家庭包括33个秀丽线虫基因,似乎至少有三分之一(33/88)的秀丽线虫miRNA基因在人类和其他脊椎动物中具有同源性。
miRNAs的发育表达
对62个miRNAs在幼虫发育过程中的表达进行了检测,并与之前报道的表达谱进行了汇编(Lau等人,2001年)生成88个秀丽线虫miRNA(图。). 探测野生型胚胎、四个幼虫期(L1至L4)和年轻成人的RNA,以及来自glp-4型(二硼化硼)年轻人生殖细胞严重耗竭(Beanan和Strome 1992). 近三分之二的miRNAs似乎在幼虫发育过程中具有组成性表达(图。A) ●●●●。这些miRNAs在胚胎发生过程中可能仍有差异表达,或者可能有组织特异性表达,正如在组织和器官更容易解剖和检查的大型生物体中观察到的miRNAs(Lee和Ambros 2001;Lagos-Quintana等人,2002年;Llave等人2002a;Park等人,2002年;Reinhart等人,2002年).
的表达式秀丽线虫幼虫发育过程中的miRNA。分析混合阶段N2蠕虫(M)、胚胎(E)、幼虫阶段(L1、L2、L3、L4)、成虫(A)、,glp-4(bn2)成年(G)、N2涂抹器(D)、混合阶段him-8(e1489)蠕虫(H)和N2饥饿抑制L1幼虫(sL1)。强烈信号用黑色矩形表示,微弱信号用灰色矩形表示。87人中秀丽线虫在发育期的北方人(miR-41、miR-78、miR-249、miR-253、miR-256和miR-255)中未检测到6个miRNAs。(A类)miRNAs在线虫发育过程中组成性表达。(B)stRNA,线-4和let-7和类似表达的miRNAs,它们在幼虫发育期间开始表达,并在成年期保持表达。(C)具有不连续发育表达模式的miRNAs。(D类)dauer期表达增强的miRNAs的Northern分析。为了控制加载,对用于miR-234和miR-248的印迹以及用于miR-247的印迹进行了U6 snRNA(U6)的重复。用荧光成像仪定量显示,U6信号的车道到车道的变化是原来的三倍。按照U6信号标准化,miR-248信号在dauer期是大多数其他阶段的四倍,除了glp-4型成人的miR-234信号是正常人的两倍,而dauer和L1的miR-244信号最高,这些阶段的信号大约是其他阶段平均值的两倍。(E类)Northern分析线-4RNA及其paralog,miR-237。
超过三分之一的miRNAs的表达模式在幼虫发育过程中发生了变化(图。B、 C),并且在四个幼虫阶段的每一个阶段都有miRNA表达的例子(图。B) ●●●●。miR-48和miR-241的表达谱(在秀丽隐杆线虫基因组)与之前报道的类似let-7RNA和miR-84(图。B类;Reinhart等人,2000年;Lau等人,2001年). 事实上,这四个miRNAs似乎是并行的,所有四个miRNA共享相同的前八个残基(图。). 另一种新发现的miRNA,miR-237,是另一种典型stRNA的类似物,线-4RNA(图。)虽然miR-237的表达模式与线-4RNA(图。E) 。这些Paralog以及在幼虫发育的不同阶段开始表达的其他miRNAs家族的存在支持了以下观点:线-4和let-7miRNAs并不是唯一在秀丽线虫异慢性途径。
表达式在启动后通常保持不变线-4和let-7miRNA表达(图。A、 B)。这种趋势的例外包括mir-35–mir-41簇,在胚胎发生期间瞬时表达(Lau等人,2001年); miR-247,在幼虫3期(和dauer)瞬时表达;和miR-248,在dauer中表达最高(图。C、 D)。miR-234在所有阶段都有表达,但在L1蠕虫(在收获前不久饥饿以同步蠕虫的发育阶段)和dauer蠕虫中表达最高,这表明这种miRNA可能是营养胁迫的结果。
miRNAs的分子丰度
某些miRNA的克隆频率很高(例如,miR-52,以>400个克隆为代表),这对这些和其他miRNA物种的分子丰度提出了疑问。此外,还有一个问题,即线虫中miRNAs的实际分子丰度是否与测序克隆的数量成正比。为了解决这些问题,定量Northerns被用来检测12个代表性miRNAs的分子丰度,以跨越频繁克隆序列和罕见克隆序列的范围以及不同的3′和5′末端残基(图。).
miRNA表达的定量分析。(A类)Northern杂交用于量化miR-66的丰度。从用于克隆的野生型(N2)混合阶段蠕虫和glp-4(bn2)用合成miRNA标准的浓缩过程对年轻成年蠕虫进行重复运行。当来自HeLa细胞的总RNA被替换时,来自标准的信号没有改变大肠杆菌tRNA作为RNA载体,表明其他miRNA的存在并不影响miRNA的膜固定或探针的杂交。(B)miR-66浓度过程定量的标准曲线。数据的最佳拟合是由等式表示的直线年 = 3.3x个0.96(右2 = 0.99). 平均信号的内插glp-4型车道表示glp-4型样品中含有240 pg miR-66(折线)。(C)miRNA和U6 snRNA的分子丰度glp-4型样品测定如所示A类和B。然后,考虑到用于制备样品的动物数量,以及在RNA制备早期添加到制备中的放射性标记miRNA的产量,计算每个细胞的平均分子数。进行了类似实验,以确定HeLa RNA样品中所示人类miRNA的数量。(D类)miRNA分子丰度与克隆频率的相关性。混合阶段RNA样品中的分子数量按照glp-4型样本,然后根据miRNAs从该混合阶段人群中克隆的次数绘制曲线(表). 该线最适合数据,并由方程式表示年 = 0.32x个(右2 = 0.78).
为了确定成虫体中这12个miRNAs的分子丰度,从已知数量的glp-4型将幼成虫与化学合成miRNAs的标准曲线进行比较(图。;Hutvágner和Zamore 2002). 考虑到RNA提取的产量,并将每个蠕虫的miRNA分子数除以蠕虫中的细胞总数,得出每个细胞平均多达50000个分子,其中最丰富的miRNA与剪接体的U6 snRNA一样丰富(图。C) ●●●●。这些数字比典型蠕虫mRNA的数字要高得多,据估计,在细胞中5000个最高表达基因中,每个细胞平均约100个分子。[这一估计是根据我们每个蠕虫细胞20 pg总RNA的产量计算的,假设5000个最高表达的基因的mRNA平均长度为2 kb,占成虫总RNA的3%;这与基于小鼠组织mRNA杂交动力学的估计一致(Hastie and Bishop 1976年).] 可能需要高浓度的miRNAs来饱和靶mRNAs内的相关互补位点,这可能是因为动物miRNA-靶相互作用的特征是非经典配对或隆起,所以亲和力低。
因为这些数字代表了蠕虫所有细胞(包括可能不表达miRNA的细胞)的平均分子丰度,所以可能有一些细胞表达更多的miRNA分子。为了检测单个细胞类型的丰度,HeLa RNA被检测出代表性的人类miRNA,产生类似的分子丰度范围(图。C) ●●●●。人类细胞中miRNA分子的大量存在增加了miRNA为何长期未被检测到的神秘性,这就提出了其他类别的高表达ncRNA是否仍有待发现的问题。最近对小鼠全长cDNA的大规模分析表明脊椎动物中可能存在数百或数千个表达的ncRNA(Okazaki等人,2002年).
为了解决线虫中miRNA的实际分子丰度与测序克隆数成比例反映的程度,将混合阶段RNA制剂中miRNA丰度与该制剂产生的克隆数进行了比较(图。D) ●●●●。在分子丰度和miRNA被克隆的次数之间观察到的强正相关表明,克隆过程中的系统偏差并不严重。相对于定量Northerns测定的实际丰度,这些miRNAs在测序集中最多有五倍于或不足。我们不能排除某些尚未克隆的miRNAs可能对我们的克隆过程有困难的可能性,例如,因为有形成次级结构的倾向,从而阻止了适配器连接反应。尽管如此,总的来说,克隆频率可以用来近似计算miRNAs的分子丰度,我们没有理由怀疑,通过克隆鉴定的一组miRNA除了整体较高的稳态表达水平外,与完整的一组秀丽线虫miRNA。
秀丽线虫的其他内源性~22-nt RNA
4078人中秀丽线虫克隆,绝大多数代表真实的miRNAs(3423个克隆,表). 第二类最丰富的是较大ncRNA的降解片段,如tRNA和rRNA(447个克隆)和内含子(18个克隆)。其余克隆代表未归类为miRNAs的潜在Dicer产品。一些对应于已知或预测mRNA的正义(18个克隆)或反义(23个克隆)片段,可能代表内源性siRNA。其他(143个克隆)对应于基因组中未被转录的区域;这些可能代表另一种内源性siRNA,称为异色siRNA(莱因哈特和巴特尔2002). 潜在siRNA和异色siRNA在调节基因表达中的可能作用仍在研究中。剩下的克隆很难分类,因为它们匹配多个基因座,而且它们的基因座是不同类型的(六个克隆)。
第四类潜在的Dicer产物(38个克隆,代表14个位点)与miRNA前体相对应,但来源于发夹的相反臂,而非表达量更丰富的miRNA,正如之前在秀丽线虫植物中的miR156d和miR169,以及几种脊椎动物的miRNA(Lau等人,2001年;Lagos-Quintana等人,2002年,2003;Mouralatos等人,2002年;Reinhart等人,2002年). 我们目前的数据又增加了13个这种现象的例子(图。). 在我们的所有案例中,从折返体的一个臂克隆的~22-nt RNA比从另一个臂的克隆频率更高,并且在Northern blots上更容易检测到。我们将频率较低的克隆RNA指定为miRNA-star(miRNA*)片段(Lau等人,2001年).
miRNA(红色)和miRNA*(蓝色)序列在其预测的折叠前体的背景下。已排序克隆的数量显示在括号中。对于每个miRNA和miRNA*,有色残基是最常见的克隆物种的残基。一些miRNA*s和大多数miRNAs的测序克隆之间存在3′异质性。miRNA*s测序克隆中未发现5′末端的异质性,而miRNA*测序克隆的异质性很少见;当它发生时,在代表每个miRNA的许多克隆中没有观察到超过一个。
讨论
我们已经开发了一种用于识别两个基因组中保守的miRNA基因的计算程序。通过使用这个程序,再加上对小RNA文库克隆的广泛测序,我们现在已经在秀丽线虫(表格,). 与一起mir-88型(Lee和Ambros 2001),我们尚未克隆或计算发现秀丽线虫基因数为88。这些基因中超过三分之一具有人类同源物(图。),以及类似的分数,包括以前未识别的线-4和let-7paralogs在幼虫发育过程中有不同的表达(图。). 大多数miRNA积累到非常高的稳态水平,其中一些至少与U6 snRNA一样丰富(图。). 下面,我们将讨论这些结果对动物中miRNA基因的某些定义特征、miRNA前体的加工以及尚待鉴定的miRNA基因数量的一些影响。
MiR扫描的准确性和miRNAs的定义特征
根据结果部分的计算,MiRscan的特异性≥0.70,灵敏度为之前已知的一半秀丽隐杆线虫miRNAs,当从组装开始时秀丽线虫基因组和C.布里格斯猎枪读数。这种准确性足以识别新基因并获得蠕虫基因组中miRNA基因总数的上限(稍后描述)。然而,它不足以可靠地鉴定所有保守的miRNA基因秀丽线虫MiRscan的准确性似乎至少与鉴定细菌中ncRNA基因的一般方法一样高(Argaman等人,2001年;Rivas等人,2001年;Wassarman等人,2001年),但低于用于识别蛋白质编码基因的算法或预测tRNAs和snoRNAs的专门程序(Lowe和Eddy 1997,1999;Burge和Karlin 1998年). 识别miRNAs的相对困难可以解释为其小尺寸固有的低信息含量和缺乏强的一级序列基序。MiRscan的性能将随着更加完整和组装而提高C.布里格斯基因组。我们预计,仅使用在两个基因组的同步比对中保存的序列将捕获较少的背景序列,从而使真正的miRNAs更容易与假阳性区分开来。
改进还将来自引入第三个线虫基因组,特别是一个比秀丽线虫和C.布里格斯我们将MiRscan应用于使用三个基因组鉴定脊椎动物miRNA,这说明了这种额外基因组的优势。这里描述的MiRscan版本,已经在蠕虫中保存的50个miRNAs的集合上进行了训练,并应用于组装的人类基因组、小鼠基因组的鸟枪读取以及组装的河豚鱼(河豚)基因组(Lim等人,2003年). 该分析的特异性≥0.71,检测到四分之三的先前已知脊椎动物miRNAs。因此,脊椎动物分析的准确性比线虫/C.briggsae分析,尽管脊椎动物的基因组比秀丽线虫和C.布里格斯、和的背景序列的数量将相应增加。这种性能的提高可以归因于使用了三个基因组,以及哺乳动物和鱼类基因组之间的进化距离,它们足够远,可以减少偶然的高分序列的数量,但又足够近,可以保留大多数已知的miRNA。
miRNAs计算识别的其他改进将来自于额外序列和结构特征的定义,这些特征指定了哪些序列被转录、处理成miRNAs并加载到miRNP中。除了序列保守性外,MiRscan当前用于识别miRNAss的特征(图。A) 这些都是细胞用来指定miRNAs和miRNPs的生物发生的。MiRscan的这些参数的实用性(图。B) 是这些特征被正确建模(或已被用于限制miRNA候选数量)的程度的函数;见图。B图例)及其在体内的相对重要性。显然,体内miRNA的大部分定义仍有待确定。目前无法用于MiRscan的序列元件包括转录启动子和终止信号。对初级转录物和发夹前体的加工很重要的其他序列和结构特征也有待确定(Lee等人,2002年).
miRNA生物生成
miRNA*物种的存在,目前观察到14种秀丽线虫miRNA(图。;Lau等人,2001年),为miRNA前体的Dicer处理与siRNA前体相似的想法提供了证据(Hutvágner和Zamore 2002;Reinhart等人,2002年). 我们怀疑,随着克隆的更广泛测序,大多数miRNA前体都会发现miRNA*序列,这一概念得到了使用我们的PCR分析鉴定额外miRNA*sequences的支持(数据未显示)。正如对两者的观察156d英里和MIR169型在植物中(Reinhart等人,2002年)miRNA:miRNA*片段通常出现在预测的前体中,与2-nt 3′悬垂配对(图。)-类似于经典siRNA双链的结构。如果miRNA和miRNA*都是从同一前体分子中切除的,并且miRNA*fragments是生产性Dicer加工的暂时副产物,那么这正是预期的结构。miRNA生物生成和miRNA*形成的另一种模型是,Dicer复合物通常只从miRNA前体的一侧切除一个~22-nt RNA,但有时它以错误的方向结合前体,并切除错误的一侧。在偏爱模型的极端版本中,miRNA*的产生需要用于miRNA加工和miRNP组装;在一个不太极端的版本中,miRNA*的产生将是一种可选的离路径现象。~22-nt RNA通常可以从同一前体干环的两侧切除,这一观点提出了一个问题,即为什么miRNAs和miRNA*存在如此不同的水平。除了miR-34*(测序17次)外,没有一个miRNA*由三个以上的测序克隆表示。也许miRNAs相对于其miRNA*片段是稳定的,因为它们优先进入miRNP/RISC复合物。或者,miRNA和miRNA*都可能进入复合物,但miRNA可能通过与其靶点的相互作用而稳定。
五个新识别的miRNAs位于带注释的内含子内,所有五个与预测的mRNAs方向相同。当与注释内含子中发现的先前鉴定的miRNA一起考虑时(Lau等人,2001年),第10页,共12页已知秀丽线虫预测位于内含子中的miRNAs与预测的mRNAs方向相同。最近也报道了哺乳动物miRNAs的这种定向偏差(Lagos-Quintana等人,2003年),表明这些miRNA中的一些不是从它们自己的启动子转录的,而是从切除的前信使核糖核酸内含子(许多snoRNA也是如此)衍生的,并且很容易想象miRNA与信使核糖核酸的协调表达是可取的调节场景。
秀丽线虫和其他动物中miRNA基因的数量
除了提供一组候选miRNA外,MiRscan评分还提供了一种方法来估计秀丽线虫共有64个位点的得分高于最初报告的58个位点的中位数秀丽线虫miRNA(图。B) ●●●●。请注意,这组58个miRNAs不仅包括训练集中50个保守的miRNAss,还包括8个以前报道的miRNAs,它们不在我们的36000个潜在干环集合中,通常是因为它们缺乏易于识别的C.布里格斯正交曲线。因此,下面计算的估计值考虑了没有MiRscan评分的保守度很低的miRNAs。64个高得分位点中有4个已知为假阳性。因此,miRNA基因数量的上限秀丽线虫将为2×(64−4)或120。从中位数以外的点进行推断时,约120个基因的上限保持稳定,范围从前25至55个百分位。对于这个估计,我们假设秀丽线虫miRNAs的MiRscan评分分布与最初报告的miRNAs的分布类似。这种假设可能会受到质疑,尤其是当考虑到最初报告的miRNAs作为MiRscan开发的训练集时(尽管训练集基因座的分数已被切割以防止过拟合)。然而,这一假设得到了两个观察结果的支持。首先,新克隆的miRNAs组确实有分数分布,与之前报道的miRNAs训练组的分数分布没有区别(图。B) ●●●●。第二,miRNA的克隆次数与其MiRscan评分之间没有相关性(图。). 克隆频率和MiRscan评分之间没有相关性,这减轻了我们的担忧,即难以克隆的miRNAs,包括那些在我们的3423个测序克隆中仍然不存在的miRNA,可能代表了一个对计算分析也很难进行的miRNA群体。
显示克隆miRNA的MiR扫描分数与miRNA克隆和测序次数之间不存在相关性的曲线图。表中80个克隆位点中的9个未得分(左边)因为这些基因的潜在同源物在现有的C.布里格斯排序读取。
这一对120个基因的估计是一个上限,如果额外的高分候选者被证明是假阳性,这一估计将减少。在极端的情况下,所有的都是假阳性,将miRNA基因的下限放在验证基因的数量附近,可能再加上五个基因来解释只有Northerns和PCR验证的五个计算候选基因的低得分对应物,从而得出miRNA基因数量的下限秀丽线虫~93的miRNAs。
我们对105±15 miRNA基因的计数秀丽线虫如果克隆了具有异常折叠前体的miRNAs,但将其视为内源性siRNAs或降解片段,则可能低估了真实计数。为了研究这种可能性,我们检测了每种小RNA的表达,这些小RNA被克隆了一次以上,但似乎并不像RNAfold预测的那样来源于典型的miRNA前体。因为迄今为止鉴定出的大多数(88个中的72个)真正的miRNAs是由多个克隆代表的(表),这项分析应该可以揭示来自非传统前体的大多数miRNAs。这个更广泛的分析只检测到一个额外的miRNA,miR-229。我们多次克隆的所有其他序列都是较小的降解片段或较大ncRNA的加工副产物(例如tRNA的5′先导序列)。因此,来自非传统前体的miRNA数量不足以显著影响miRNA基因计数。
miRNA基因的估计数量占秀丽线虫基因组,与其他具有推测调控作用的超大基因家族的基因组相似,例如编码核激素受体(270个预测基因)、C2H2 Zin-finger蛋白(157个预计基因)和同源域蛋白(93个预测基因;Chervitz等人,1998年;秀丽线虫排序协会1998). 将我们的分析扩展到脊椎动物基因组中,发现230±30个人类基因是miRNAs,也是基因组中近1%的基因(Lim等人,2003年). miRNA基因也是人类中最丰富的ncRNA基因家族之一,在数量上与编码rRNA(~650–900个基因)、tRNA(~500个基因),snRNA(~100个基因)和snoRNAs(~100–200个基因;Lander等人,2001年). 对于rRNAs、tRNAs和snRNAs,人类基因组中的数百个基因拷贝仅代表相对较少的不同基因,这三类基因的组合可能不超过100个不同基因。对于miRNAs和snoRNAs,有更多不同的基因,每一个都只有一个或几个拷贝。
与其他大型ncRNA基因家族和许多转录因子基因家族不同,没有迹象表明miRNA存在于酵母等单细胞生物中。克隆miRNAs的飞行员尝试绒球裂殖酵母没有检测到任何miRNAs(莱因哈特和巴特尔2002)没有证据表明植物和动物体内积累miRNA所需的蛋白质(如Dicer)存在于酿酒酵母鉴于miRNAs在秀丽线虫发展(Lee等人,1993年;Wightman等人,1993年;Reinhart等人,2000年)以及miRNAs在植物发育中非常可能的作用(Rhoades等人,2002年)很容易推测,动物体内miRNA基因的大量扩增(以及酵母中miRNA基因明显的缺失)与它们在指定细胞分化和发育模式方面的重要性有关,miRNAs提供的额外基因调控层对多细胞体计划的出现至关重要。大多数蠕虫miRNAs的鉴定和剩余待发现基因数量的量化是理解这类有趣基因的进化并将其置于这些动物和其他动物的基因调控回路中的重要步骤。
材料和方法
MiR扫描
在约40000对发夹中,35697对发夹的保守性和碱基配对最低,需要获得MiRscan评分。在这一组中,有50个之前发表的miRNAs被报道在秀丽线虫和C.布里格斯(Lau等人,2001年;Lee和Ambros 2001). miR-53被列为先前报道的保守miRNA,因为它与miR-52几乎相同,后者具有高度保守的C.布里格斯正交曲线(Lau等人,2001年;Lee和Ambros 2001). ~36000对发夹中缺失的三个保守基因是mir-56、mir-75、和mir-88型.的反面补语mir-75型和mir-88型后来在约36000个发夹中观察到,并给出分数(表).] 开发MiRscan程序是为了将这50个已知的miRNA发夹从一组约36000个发夹中的背景序列中区分出来。对于给定的21-nt miRNA候选基因,MiRscan利用了图中所示的共有发夹结构衍生出的七个特征A: x个1,“miRNA碱基配对”,涉及21-nt候选miRNA的配对的碱基配对概率之和;x个2,“碱基配对的扩展”,预测位于21-nt候选miRNA之外但在同一螺旋内的配对的碱基配对概率之和;x个三,“5′守恒”秀丽线虫和C.布里格斯在miRNA候选物的前10个碱基内;x个4,“3′保守”,miRNA候选序列最后11个碱基中保守碱基的数量;x个5,“凸起对称”,候选miRNA中凸起或不匹配的碱基数量减去干环另一臂上相应片段中凸起的或不匹配碱基数量;x个6,“与回路的距离”,是指茎回路回路和候选体最近端之间的碱基对数量;和x7,“初始五聚体”,候选5′末端前五个位置的特定碱基。
对于给定特征我具有值x个我,MiRscan分配log-odds分数
哪里(f)我(x个我)是特征值频率的估计值x个我来自50个已知miRNA训练集的miRNAs,以及克我(x个我)是对特征值频率的估计x个我在一组约36000对发夹的背景中。分配给候选miRNA的总分数就是七个特征的log-odds分数之和:
为了给一个给定的发夹打分,MiRscan沿着发夹的每一个臂滑动一个代表候选miRNA的21-nt窗口,为每个窗口指定一个分数,然后为发夹指定其最高得分窗口的分数。为了进行评估,一个窗口需要距离终端环路2到9个一致性碱基对。
对于功能x1,x个三,x4,x个5、和x6,(f)我和克我分别使用R统计软件包对训练集和背景集的经验频率分布进行平滑处理,得到(http://lib.stat.cmu.edu/R/CRAN)有一个三角形的内核。因为x1和x2不是相互独立的x个2通过计算减少了(f)2和克2根据条件分开x个1 ≥ 9和x个1 < 为了解释这种依赖性。对于x7为miRNA 5′末端的五个位置生成了重量矩阵模型(WMM)。背景WMM,克7,设置为等于背景序列集的基组成。miRNA WMM,(f)7,由50个训练集序列的特定位置基频推导而来,使用标准单位伪计数并对相关miRNA的贡献进行归一化。
因为两股秀丽隐杆线虫对基因组进行了分析,发夹序列及其反向补体有时包含在约36000个茎环中。用于图中的表示在这种情况下,这两个序列都被视为一个获得较高得分发夹得分的基因座。此外,为了防止训练集中50个已知miRNA位点的重叠,每个已知的miRNA位点都被分配了一个折刀得分,该得分是使用由其他49个miRNA组成的训练集计算得出的。MiRscan可用(http://genes.mit.edu/mirscan).
RNA克隆和生物信息学分析
如前所述克隆小RNA(Lau等人,2001年),使用Web上可用的协议(http://web.wi.mit.edu/bartel/pub). 测序由Agencourt Bioscience完成。已知序列秀丽线虫删除tRNA和rRNA,并根据其与秀丽线虫基因组(秀丽线虫测序联盟1998),从WormBase下载(网址:http://www.wormbase.org). 使用RNA折叠程序RNAfold检测之前未报告编码miRNAs的基因组位点(Hofacker等人,1994年). 每个位点折叠了两个序列:一个包含该位点最常见克隆序列的上游15 nt和下游60 nt;另一个包括上游60nt和下游15nt。最稳定的预测折叠与先前验证的miRNA的干环前体相似的序列被作为候选miRNA位点继续进行。也对没有经典干环前体的序列进行了进一步分析(见讨论),但只有一个miR-229被归类为miRNA。被归类为代表mRNA潜在片段(18个克隆)和mRNA潜在反义片段(23个克隆)的克隆对应于预测的ORF(如GenBank中的注释)或可能的UTR段(预测ORF上游100 bp或下游200 bp)。
北方
使用Northern blot和放射性标记DNA探针检测候选miRNA位点的表达(Lau等人,2001年). 为了在不改变杂交或洗涤条件的情况下保持杂交特异性,对不同序列的探针长度进行了调整,以使miRNA-probe双工体的预测熔化温度不超过60°C(Sugimoto等人,1995年). 设计与整个miRNA序列不对应的探针与miRNA的3′区杂交,该区域在相关miRNA序列中差异最大。
PCR验证
用PCR检测混合期蠕虫中表达的18-26-nt RNA构建的cDNA文库中预测的miRNAs序列。此库与用于克隆的库相同(Lau等人,2001年),由PCR扩增的DNA组成,该DNA包含18至26个nt序列,侧翼为3′-和5′-接头序列。对于每一个miRNA候选体,在1.0μM和0.1μM的浓度下使用一个针对候选体预测的3′末端的引物和一个对应于文库所有成员共有的5′-适配器序列的引物(ATCGTAG GCACCTGAAA),分别(100μL PCR反应包含5μL稀释400倍的PCR反应,之前用于扩增cDNA文库的所有成员)。在初始变性培养达到80°C后添加特异性引物。在20个PCR循环后,将反应稀释20倍,形成新的PCR反应,再进行20个循环。对PCR产物进行克隆和测序,以确定miRNA的5′末端,并确保扩增产物不是引物二聚体或其他扩增伪影。成功检测候选miRNAs反应的特异性引物为ACCATGCCAACAGTTG(miR-250)、TAAGAGGCGGCACA CTAC(miR-251)、TACCTGGCCACTACAC(miR-252)、GTCAGTGTAGG(miR253)、TACAGTCGAAAGA TTTG(miR-256)和GTGGAAAATCTATGCTTC(miR-244*)。
定量北方
在1.0μg/μL载体RNA存在下,将miRNA标准品(购自Dharmacon)稀释至适当浓度,其形式为大肠杆菌tRNA或HeLa细胞总RNA。进行Northern分析(Lau等人,2001年),每个泳道加载30μg RNA,其格式如miR-66所示(图。A) ●●●●。使用磷光体成像对信号进行量化,构建标准曲线(线性通过至少三个数量级,包括插值区域),并确定每个样本的miRNAs绝对量,如miR-66所示(图。B) ●●●●。每个miRNA分子的平均数量glp-4型成年线虫的计算方法是使用每只蠕虫提取的总RNA的平均量19ng。这个数字是三个独立提取试验的平均值,来自已知数量的同步2天大的成年人glp-4(bn2)雌雄同体,与用于定量Northern印迹的冷冻蠕虫种群相同。所有拔牙均按上述方法进行(Lau等人,2001年),除了在其中两个试验中,在蠕虫裂解期间将放射性标记的miRNA添加到制剂中。至少90%的RNA被回收,表明接近定量产量。在计算了每个蠕虫的每个miRNA的数量后,使用989作为每个蠕虫细胞的数量来计算每个细胞的miRNA的平均数量。每个蠕虫的989个细胞是基于成年雌雄同体的959个体细胞核加上2日龄成年的30个生殖细胞核glp-4(bn2)动物(Sulston等人,1983年;Beanan and Strome 1992年). 以类似的方式测定已知数量HeLa细胞的总RNA。