制备和使用全长cDNA文库一直很诱人(Kato等人,1994年;Maruyama和Sugano 1994;Edery等人,1995年;Carninci等人,1996年,1998;Carninci和Hayashizaki 1999)在大规模基因发现工作中,结合与现有EST项目类似的单程测序(Adams等人,1991年,1995;Hillier等人,1996年;Marra等人,1999年). 这种方法的一个优点是,大多数克隆包含完整的编码序列以及5′和3′非翻译区(UTR),从而大大加快了后续的测序、生物计算、蛋白质表达和其他功能分析。然而,生成全长cDNA文库有一些固有的问题。制备全长cDNA对短mRNA比长转录物更有效。此外,长cDNA的克隆和繁殖比短cDNA更困难,因此引入了更多的尺寸偏差。使用截短的cDNA来检索全长同源物在基因组规模上是不切实际的;然而,标准文库中的cDNA可以以全长或截短形式克隆,因此有利于发现任何基因的至少一个EST,而不管其长度如何。
另一个与基因发现相关的问题反映了细胞mRNA的性质。根据mRNA的表达,mRNA可以定义为超价(或丰富)、中间或罕见。在一个典型的细胞中,5-10种超价cDNA至少占mRNA质量的20%,500-2000种中间表达的mRNA占mRNA重量的40%-60%,10000-20000条罕见信息可能占mRNA总量的<20%-40%。这种平均分布在组织来源之间可能有显著差异,大量高表达基因的存在可能会进一步失衡这种分布。从标准cDNA文库中对cDNA进行测序对于发现很少表达的基因是无效的,而中等和高表达的cDNA将被重复测序。
我们正在进行小鼠全长cDNA百科全书项目,其最终目标是为每个表达的基因收集至少一个全长cDNA,无论其组织如何(http://genome.rtc.riken.go.jp/). 为此,我们不仅要删除多余的cDNA,还要删除先前文库中已有的序列,从而加速新的全长cDNA的发现。因此,我们希望开发一种技术,不仅能够从属于三种不同表达类别的mRNA中归一化全长cDNA的频率,而且能够减去已经出现在其他库中的cDNA。
我们考虑了几种基于核酸重新结合动力学的可能策略,但没有一种适用于全长cDNA方法。现有技术(Soares等人,1994年;Bonaldo等人,1996年)通过EST方法广泛用于大规模基因发现的归一化和减法对我们没有吸引力,主要是因为它们不容易适用于长cDNA插入。这些协议实际上依赖于扩增质粒库中核酸的重新结合。然而,质粒库与cDNA大小的克隆偏差有关,表现为短cDNA的克隆效率提高。此外,在标准化和/或减法之前的文库扩增过程中,cDNA克隆的生长随着质粒长度的变化而变化;因此,在对文库进行批量扩增后,长克隆的代表性不足。这种差异将导致长cDNA的表达不足,并且难以克隆长而罕见的cDNA。
为了避免与文库扩增相关的问题,我们想开发一种技术,在克隆之前对cDNA进行标准化和减除。已发表的方案并没有在不同大小的克隆之间实现平等表示,也没有在杂交后保持长cDNA的长度,也没有同时纳入cDNA的归一化和减法。因此,基于PCR的方法(高桥和Ko 1994;Diatchenko等人,1996年)长cDNA和其他难以扩增的cDNA可能代表性不足,不适合全长cDNA方法。在固体基质上固定核酸驱动器以减去mRNA测试器的方法(Sasaki等人,1994年;Tanaka等人,1996年)不适合我们的目的,因为在cDNA合成之前存在mRNA降解的风险。此外,固相固定核酸的杂交动力学(Tanaka等人,1996年)比溶液杂交慢(安德森和杨1985). 使用PCR和基于固体基质的技术创建的文库仅具有部分特征,并且显示出与EST项目中使用的非标准化cDNA文库相似的序列冗余。
在解决全长cDNA的标准化问题时,我们认为最初用于cDNA文库制备的一份mRNA是理想的驱动因素,因为它反映了第一链cDNA测试仪的复杂性。此外,这种策略可以很容易地扩展到从其他组织中减去感觉mRNA源。此外,由于cDNA文库构建中常用的cDNA克隆载体携带T7和T3 RNA聚合酶的启动子序列,因此很容易从其他文库或克隆库中减去已通过一次测序分类的cDNA。尽管羟基磷灰石色谱法经常用于分离杂交的驱动器和测试仪,但它需要严格的温度控制,因此使该程序在技术上要求很高。mRNA驱动因子的生物素化是一种易于放大的替代方法。此外,生物素化可以很容易地与链霉亲和素苯酚萃取耦合(巴尔和伊曼纽尔1990)或使用磁珠的技术,前提是所报告的cDNA降解是由光生物素化驱动器引起的(Fargnoli等人,1990年)被阻止。在这里,我们介绍了第一种用于制备规范化/减法文库的方法,这种方法也有助于高效克隆全长cDNA。
结果
战略
在初步实验中,我们首先致力于开发或改造解决以下问题的技术:高效去除mRNA驱动因子;杂交后cDNA大小没有减少,这会影响全长cDNA的频率;适用于归一化和减法;相似但不一致序列之间的交叉反应性低;并且在驱动程序的大小和要准备的库的数量方面都具有可复制性和可升级性。
我们的总体战略(图。)将第一链cDNA与mRNA杂交有几个优点。该方法是对Cap-Trapper先前提出的cDNA文库制备方法的改进(Carninci和Hayashizaki 1999)并适应全长、标准化消减cDNA的克隆。我们的方法的优点是可以使用起始mRNA进行标准化过程,也可以使用体外转录RNA驱动程序从任何其他定向克隆cDNA库(最好是使用Cap-Trapper技术制作的库)中进行减法。在减法/归一化步骤之后,克隆cDNA。
标准化提取cDNA制备协议示意图。(A类)制备全长单链cDNA的总体方案;(B类)各种测试者cDNA群体的表示;(C类)标准化驱动因素(细胞mRNA)和减去驱动因素(径流转录本);(D类)杂交;(E类)稀有/新cDNA用于第二链cDNA制备(标准化/差减cDNA文库);(F类)大量的cDNA/不需要的cDNA被删除,并可用于准备微型库以实现减法。
技术的发展
我们将杂交纳入42°C的甲酰胺中,因为温和的温度显然不会导致cDNA在长时间培养后降解(未显示)。我们检查了在这些条件下是否发生了相关的非特异性杂交,以避免删除相关但不同的序列。我们使用的两个克隆在1554个核苷酸中具有76.8%的同源性,并且同源性也很长,为~85%。这些克隆是小鼠全长微管蛋白Mβ5和一个未知的小鼠cDNA,与中国仓鼠β-微管蛋白mRNA(克隆B3T)相似93%。0.25的杂交米NaCl可以很好地去除特异性杂交克隆,而无需在两个克隆之间进行杂交。
我们的一个主要要求是,我们的方法必须删除大部分RNA驱动程序,这也是删除测试驱动程序混合的必要条件。因此,我们测试了RNA生物素化系统是否能够高效地用生物素标记RNA。最初最有效地去除驱动因子的方法是补骨脂素-生物素化,它可以通过使用链霉亲和素珠去除大多数生物素化的驱动因子。我们通过在卷取cDNA的3′端杂交5-Kb测试cDNA来验证我们选择的方法的实用性(Hirotsune等人,1995年)RoT的RNA驱动程序 = 0.2(有关RoT的详细说明,请参见安德森和杨1985). 该方法通过计算cDNA的放射性和可视化电泳涂片的强度来测量,去除了约98%–99%的起始cDNA。由于它的表现与补骨脂素-生物素系统一样好,但更易于使用,我们转而使用Mirus生物素化试剂盒(Panvera)进行后续的文库准备。为了减去杂交探针,磁性多孔玻璃(MPG)链霉亲和素珠(CPG)在我们手中的工作效果比其他系统更好,例如链霉亲和物苯酚技术;链霉亲和素珠去除率接近或大于99%的测试驱动混合(未显示)。
降低高表达频率 cDNA
经过初步实验,我们制备了几个归一化和归一化/减法库(表). 最近生成的cDNA文库被归一化,并使用从重新绘制的非冗余RIKEN cDNA百科全书中衍生的迷你文库和RNA驱动程序进行减法,以减少已经表示的克隆的重复测序浪费。
表1
库ID | 发育阶段/组织 | 多孔驱动器(Rot) | 减法驱动器(RoT) | 方法 | 提特 | 插入大小(kbp) | 排序 | 斯皮斯 | 冗余 | EST数量(%) | 数量NT(%) | 唯一(%) | 编码(%) |
---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
18–100 | 成人/胰腺 | 信使核糖核酸 (5) | 毫秒1 (20) | 1 | 8.20秒 + 04 | 1.2 | 13556 | 3402 | 3.98 | 307 | (9.0) | 873 | (25.7) | 442 | (13.0) | (100.0) |
22–000 | 成人/胃 | (标准) | (标准) | | 5.90电子 + 04 | 0.88 | 1458 | 488 | 2.99 | 26 | (5.3) | 52 | (10.7) | 42 | (8.6) | (82.1) |
22–100 | 信使核糖核酸 (5) | 毫秒1 (20) | 1 | 3.50秒 + 05 | 1.21 | 4400 | 1932 | 2.28 | 120 | (6.2) | 324 | (16.8) | 196 | (10.1) | (82.1) |
22–104 | 信使核糖核酸 (5) | 毫秒1 (20) ,牛顿米1 (5) | 1 | 2.0当量 + 05 | 1.13 | 3936 | 1862 | 2.11 | 144 | (7.7) | 302 | (16.2) | 207 | (11.1) | (82.1) |
23–000 | 成人/舌头 | (标准) | (标准) | | 4.10秒 + 04 | | 1179 | 556 | 2.12 | 30 | (5.4) | 50 | (9.0) | 36 | (6.5) | 76.8 |
23–100 | 信使核糖核酸 (5) | 毫秒1 (20) ,牛顿米1 (5) | 1 | 4.10秒 + 04 | 1.44 | 10267 | 4017 | 2.56 | 410 | (10.2) | 992 | (24.7) | 586 | (14.6) | 76.8 |
24–100 | ES细胞 | 信使核糖核酸 (5) | 毫秒1 (20) ,牛顿米1 (5) | 1 | 1.30秒 + 05 | 1.77 | 15226 | 4495 | 3.39 | 236 | (5.3) | 677 | (15.1) | 485 | (10.8) | (88.6) |
25–100 | 胚胎13/肝脏 | 信使核糖核酸 (5) | 毫秒1 (20) ,牛顿米1 (5) | 1 | 8.50秒 + 04 | 1.19 | 5448 | 1525 | 3.57 | 52 | (3.4) | 179 | (11.7) | 168 | (11.0) | (92.2) |
26–000 | 胚胎10/整个男孩 | (标准) | (标准) | | 6.10秒 + 05 | 1.38 | 2108 | 1061 | 1.99 | 31 | (2.9) | 97 | (9.1) | 71 | (6.7) | 92.3 |
26–100 | mRNA(7.5) | 毫秒1 (30),牛顿米1 (7.5) | 1 | 5.00秒 + 05 | 1.32 | 11267 | 4722 | 2.39 | 330 | (7.0) | 870 | (18.4) | 582 | (12.3) | 92.3 |
28–100 | 胚胎10+11/全身 | mRNA(7.5) | 毫秒1 (30),牛顿米1 (7.5) | 1 | 8.80电子 + 05 | 1.29 | 6248 | 3411 | 1.83 | 190 | (5.6) | 450 | (13.2) | 271 | (7.9) | (93.9) |
28–104 | mRNA(7.5) | 毫秒1 (30),牛顿米1 (7.5) | 1 | 8.80秒 + 05 | 1.38 | 9321 | 4335 | 2.15 | 293 | (6.8) | 672 | (15.5) | 453 | (10.4) | (93.9) |
31–000 | 胚胎/头部 | (标准) | (标准) | | 4.90秒 + 04 | 1.22 | 488 | 369 | 1.32 | 12 | (3.3) | 30 | (8.1) | 23 | (6.2) | (86.2) |
31–100 | 信使核糖核酸(10) | 毫秒1 (40),牛顿米1 (10) | 1 | 4.20秒 + 05 | 1.55 | 7838 | 4229 | 1.85 | 344 | (8.1) | 682 | (16.1) | 494 | (11.7) | (86.2) |
32–304 | 胚胎14+17/头 | mRNA(10) | 毫秒1 (40),牛顿米1 (10) 平方奈米 (10) | 1 | 3.30秒 + 05 | 2.5 | 424 | 389 | 1.09 | 22 | (5.7) | 41 | (10.5) | 20 | (5.1) | (88.2) |
38–304 | 胚胎11/胎盘和胚外c组织 | mRNA(10) | 毫秒1 (40),平方奈米 (10) | 2 | 2.60秒 + 06 | 1.45 | 3657 | 2165 | 1.69 | 98 | (4.5) | 255 | (11.8) | 156 | (7.2) | (100.0) |
39–304 | 胚胎13/全身 | mRNA(10) | 毫秒1 (40),牛顿米1 (10) 平方奈米 (10) | 2 | 2.10东经 + 05 | 2.47 | 348 | 319 | 1.09 | 14 | (4.4) | 33 | (10.3) | 22 | (6.9) | (90.0) |
49–304 | 成人/睾丸 | mRNA(10) | 毫秒2 (90),平方奈米 (10) | 2 | 2.60东经 + 06 | 2.11 | 8900 | 5444 | 1.63 | 1102 | (20.2) | 1443 | (26.5) | 1214 | (22.3) | (95.7) |
52–304 | 成人/剑突 | 总RNA(3) | 毫秒2 (90),Nm2 (10) | 2 | 7.30秒 + 05 | 2.69 | 272 | 256 | 1.06 | 12 | (4.7) | 21 | (8.2) | 15 | (5.9) | (100.0) |
53–304 | 成人/垂体腺瘤 | 总RNA(3) | 毫秒2 (90),平方奈米 (10) | 2 | 2.10秒 + 06 | 2.38 | 8059 | 4658 | 1.73 | 411 | (8.8) | 640 | (13.7) | 833 | (17.9) | (100.0) |
54–304 | 新生儿6/头 | mRNA(10) | 毫秒2 (90),平方奈米 (10) | 2 | 1.30秒 + 06 | 2.3 | 2663 | 2101 | 1.27 | 115 | (5.5) | 217 | (10.3) | 196 | (9.3) | (90.0) |
55–304 | 新生儿10/头 | mRNA(10) | 毫秒2 (90),平方奈米 (10) | 2 | 1.70秒 + 06 | 2.18 | 603 | 525 | 1.15 | 39 | (7.4) | 83 | (15.8) | 44 | (8.4) | 77.3 |
56–304 | 胚胎6/全身 | (仅减去) | 毫秒2 (90),平方奈米 (10) | 2 | 6.00英寸 + 05 | 2.3 | 416 | 371 | 1.12 | 10 | (2.7) | 25 | (6.7) | 16 | (4.3) | (100.0) |
57–304 | 胚胎8/全身 | (仅减去) | 毫秒2 (90),平方奈米 (10) | 2 | 1.20秒 + 06 | 1.91 | 19632 | 7758 | 2.53 | 778 | (10.0) | 1598 | (20.6) | 1155 | (14.9) | (100.0) |
58–304 | 成人/胸腺 | mRNA(10) | 毫秒2 (90),平方奈米 (10) | 2 | 1.70秒 + 06 | 3.27 | 10259 | 6442 | 1.59 | 604 | (9.4) | 1074 | (16.7) | 1100 | (17.1) | (80.0) |
60–304 | 胚胎13/睾丸 | 总RNA(5) | 毫秒2 (90),平方奈米 (10) | 2 | 5.70秒 + 05 | | 11079 | 6498 | 1.7 | 672 | (10.3) | 1122 | (17.3) | 1243 | (19.1) | (75.0) |
61–304 | 胚胎14/胸腺 | (仅减去) | 毫秒2 (90),平方奈米 (10) | 2 | 4.80当量 + 05 | 4.13 | 206 | 196 | 1.05 | 9 | (4.6) | 24 | (12.2) | 16 | (8.2) | (60.0) |
62–304 | Enbryo11/头 | mRNA(10) | 毫秒2 (90),平方奈米 (10) | 2 | 3.30秒 + 05 | 2.19 | 2967 | 2374 | 1.25 | 149 | (6.3) | 265 | (11.2) | 256 | (10.8) | (70.0) |
我们将标准胰腺cDNA文库中的第二链cDNA与其标准化/减法对应物进行了比较(图。). 在RoT进行归一化 = 10,减法是通过使用一组迷你库完成的,每个迷你库包含1000–2000个冗余的,主要是来自肝脏、肺、大脑或胎盘的丰富克隆。我们通过克隆先前制备的标准化cDNA文库的高表达部分来生成迷你文库。然后使用扩增的cDNA小型文库来制备减法驱动器(见方法)。减法驱动器的RoT等于每200个克隆1 U(例如RoT = 使用1000个克隆时为5)。归一化减去cDNA的平均大小比非归一化未减去cDNA长,这表明在减去步骤中不会发生降解,长cDNA的表达比短cDNA的少。我们经常在其他cDNA中观察到类似的结果。此外,与高表达cDNA相对应的cDNA在标准化亚克隆文库中不存在;电泳图谱显示cDNA标准化(图。). 使用全长cDNA进一步有助于更好地可视化特定cDNA的去除。我们没有对标准胰腺cDNA文库进行进一步测序,因为只有极少数cDNA物种具有超常性。图中显示了证明归一化/减法优点的另一种方法我们使用来自肺部的第一链cDNA作为模板,对一份样本进行归一化或归一化/减去,并克隆另一份未归一化的样本。标准化cDNA文库和标准对应物的斑块杂交表明,标准化文库中高表达基因的频率降低。当我们筛选10000个标准化肺文库斑块时,延伸因子1-α的代表性从对照文库的90个斑块减少到标准化文库的10个斑块,羰基还原酶从大约70个减少到3个,子宫珠蛋白从大约510个减少到2个斑块。这些结果强烈表明,归一化文库中高表达cDNA的频率远低于对照。
可视化去除高度丰富的全长cDNA。左侧,用对照胰腺cDNA制备第二链cDNA;正确的,在归一化/减法后,用相同胰腺cDNA的等分样品制备cDNA。高度丰富的cDNA用箭头表示,并在标准化/减去的cDNA中删除。
含有对照肺cDNA文库(左)或标准化肺cDNA文库(右)的复制品的Plaque杂交。在右侧面板(标准化)中,一个箭头指示我们计数的斑块。
提高发现稀有物种的频率 基因
为了验证稀有cDNA的富集情况,对文库进行大规模测序是最具指示性的测试,因为我们预计序列冗余会减少,新基因的发现会增加。我们准备了几个库(表)并通过检查滴度、cDNA插入物的平均大小、全长cDNA的存在、冗余度(通过对插入物的3′末端进行测序)和新基因/EST的恢复来对其进行评估。评估序列冗余度是我们对归一化/减法过程效率的最终评估。从等分起始cDNA制备的标准库(序列22-、23-、26-和31-)显示用于比较(表).
根据Lib.32,我们开发了一种新的克隆载体,它可以包含长cDNA插入,从而提高长cDNA的克隆效率,并通过使用cre-lox公司系统(P.Carninci,准备中)。纳入该克隆系统的标准化/减法文库比以前制备的文库更深,其中主要克隆了短cDNA。在使用我们的新克隆系统成功的标准化提取cDNA文库(例如来自睾丸组织的Lib.49)中,对8900个克隆进行测序后,来自3′端的序列冗余度低至1.63(通过将不同簇的数量除以测序总次数计算)。在复杂组织(例如睾丸、大脑和胸腺)的成功cDNA文库中,预计存在<2.0 in>10000–15000个3′末端序列的冗余。此外,归一化/减法cDNA文库有助于有效和增加未知基因的恢复。例如,22–100、23–100、26–100和31–100库每次测序反应产生的新数据量大约是标准库22–000、23–000、26–000和31–000的两倍或两倍以上(表,没有EST和没有NT列)。
从不同文库中对几个cDNA进行测序表明,与标准cDNA文库相比,标准化子文库中的序列冗余度相对减少(图。). 在给定的测序过程中,标准化将新基因发现的频率提高到标准库的近两倍。相比之下,使用非冗余、重新排列的驱动程序进行减法可以消除各种组织之间的冗余cDNA,从而提高项目过程中新基因发现的速度。
在标准cDNA文库(-000文库)中,序列冗余(或新基因发现的减少)急剧增加,但在标准化/减法全长cDNA文库中(-100文库),冗余增加得慢得多。在给定的cDNA文库中,新基因(%)被称为单体(%)。
迄今为止,通过对929814个克隆进行测序,我们已经能够将128671个3′端序列聚类到不同的组中。由于不断监测每个给定cDNA文库的基因发现率(P.Carnichi,提交),归一化/减法cDNA文库比标准文库更受欢迎。此外,从标准化/减法cDNA文库的829017次测序运行中收集到60941个单克隆(仅出现一次的克隆簇)。目前,我们重新设计了大约30000个cDNA克隆,用于为小鼠cDNA百科全书项目的新cDNA库准备RNA驱动程序(http://genome.rtc.riken.go.jp/). 到目前为止,我们已经在RoTs>200的条件下制备了标准化的减去cDNA文库,与70000个不同的cDNA簇进行比较时,通过3′端读取,根据我们的内部数据库生成了20%-30%的新序列。
全长cDNA比率
最重要的是,经过归一化/减法步骤后,全长cDNA含量达到最大。事实上,在表中,我们可以了解全长cDNA在各种cDNA文库中的比例。评估按照总结进行(Y.Sugahara等人提交)。然后,我们从标准化的子库中测序了数百个克隆。对命中小鼠“完整mRNA”序列的序列进行比对,并检查是否存在启动子ATG。引发剂ATG的存在是用于评估5′端质量的因素,而不是我们的克隆与已发表的5′序列的确切重叠。事实上,由于启动子/转录起始位点使用和克隆技术的不同,公开的“完整”序列可能与Cap-Trapper序列不同。相反,起始剂ATG的存在可靠地表明给定克隆实际上是全长的。在我们的大多数cDNA库中(表),80%–100%的克隆包含第一个ATG,在这里介绍的库中平均为88.1%。该平均值接近标准Cap-Trapper cDNA文库,其中报告了约95%的全编码cDNA(Carninci等人,1996年),尽管之前分析中使用的数据集不同,因为我们包括了小鼠与其他脊椎动物同源基因的比较。用cap开关法获得成功的囊胚cDNA文库(Sasaki等人,1998年)得分相似(94%的克隆包含第一个ATG),但在这个文库中,我们在3995个测序通路中只能聚类937个基因。在另一个项目的数据中(Marra等人,1999年),在三个非标准化全长寡核苷酸cDNA文库中(Maruyama和Sugano 1994),约77%的克隆包含第一个ATG(Sugahara等人提交)。当ESTs候选序列与注释为全长的序列在50bp内匹配时,将其视为5′端的全长,这些寡帽文库在5′端的全长得分为65%-70%(Marra等人,1999年),而其余标准库和主要规范化库中的EST(Bonaldo等人,1996年)5′端全长率约为27%(Marra等人,1999年). 不幸的是,寡核苷酸库中的基因多样性减少了:分别为Unigene数据库中聚集的“mewa”、“mkia”和“mlia”库获得了2159/8231、4463/21594和2648/18792个“聚类与分类EST”(http://www.ncbi.nlm.nih.gov/UniGene/Mm.Home.html)2000年7月18日。
归一化子牵引的特异性 步骤
为了初步评估我们的规范化subtraction协议的特异性,我们检查了我们文库的3′序列是否存在B1重复序列。约5%的cDNA 3′端存在B1重复序列。我们假设,如果杂交是非特异性的,那么由于携带B1-重复序列的驱动器过多,在标准化的提取文库中,高度同源的B1重复序列的频率将大大降低。B1重复的频率在标准化提取库和对照库之间明显没有变化(表)表明减法的特异性是令人满意的。B1区的发病率与前面描述的5%不同,因为测序读取长度不跨越整个3′UTR。对全长cDNA序列的详细分析将证实基因家族成员间减法的特异性。
表2
从减去/归一化和对照Cap-Trapper cDNA中cDNA的3-UTR中200和300碱基拉伸中B1重复的相似存在 图书馆
图书馆 | 归一化减法子库 | 控制子库 |
---|
|
|
|
胚胎18 | 1.3% (143/10970) | 1.6% (4/244) |
胃 | 1.3% (114/8840) | 0.6% (10/1606) |
舌头 | 1.2% (131/10974) | 0.7% (10/1408) |
胚胎干细胞 | 1.4% (209/15220) | 0.9% (10/1089) |
胚胎13-肝 | 0.7% (37/5521) | 1.0% (7/718) |
胚胎10 | 1.8% (225/12724) | 1.3% (30/2239) |
胚胎12头 | 1.8% (160/8873) | 1.4% (7/490) |
讨论
当我们开始这项工作时,全长cDNA的基因组规模表征是一个重要问题。尽管已经描述了生成全长cDNA文库的技术(Kato等人,1994年;Maruyama和Sugano 1994;Edery等人,1995年;Carninci等人,1996年,1998;Carninci和Hayashizaki 1999)其中一些方法涉及PCR扩增。cDNA特定亚群的相关优先扩增对稀有和/或难以扩增的cDNA的发现产生不利影响(Maruyama和Sugano 1994). Cap-Trapper技术不需要PCR,因此可以生成相对深入且无偏见的库。然而,在不使用归一化和减法等策略的情况下,该方法并没有通过一次测序高效发现罕见的全长cDNA。通常认为,同时制备全长的标准化/减法cDNA文库存在问题(Rubin等人,2000年). 在这里,我们描述了我们开发的策略和方法,以制备用于基因组规模、全长cDNA发现的标准化提取cDNA。我们的技术大大改进了以前的情况,即标准化提取的cDNA文库通常主要携带不完全合成的cDNA。本报告首次显示了使用测序方法进行全长基因组规模基因发现的可能性,因为我们表明文库的大小和全长cDNA插入的比例非常令人满意。
关于稀有植物的大小 mRNA
我们反复观察到,在碱性凝胶和质粒大小检查中,减去的标准化cDNA似乎比标准文库中的插入物更长。这一发现可能不是我们的标准化提取方法的伪影,因为我们在测试实验中使用磁珠有效地减去了长cDNA;新基因的发现率证实了这一趋势。此外,标准化提取cDNA文库的插入长度不短于使用相同起始RNA制备的标准文库。这一结果表明,我们的方法保留了减去后cDNA的完整性,并通过后续序列分析进行了验证。这一观察进一步表明,很少表达的mRNA的平均长度比体细胞mRNA的长度长。支持长全长cDNA插入物的生产和克隆的协议似乎提高了全长cDNA文库中新基因的发现率。在全长cDNA文库的生成过程中,特别令人关注的是,在cDNA文库繁殖期间,难以构建克隆短cDNA和长cDNA的载体,其效率和稳定性与长质粒载体相同。尽管存在这些困难,我们预计当至少7000个克隆测序时,一个令人满意的全长、标准化/减法cDNA文库的测序冗余度将小于1.5,而15000个克隆的测序重复度将小于2.0。
大规模基因发现中减法的相关性 项目
除了简单的标准化,我们在全长cDNA基因发现程序中遇到的关键因素是减法的重要性。减法可以删除已测序的cDNA以及主要在其他库中表达的cDNA。减法有助于保持基因发现过程的效率,因为已经代表的基因的重新测序减少了。显然,这种方法是通过将图书馆生产和测序中心设在同一个物理位置来促进的,这样就可以及时地对用作减法驱动程序的克隆进行反馈。按照这种方法,我们已经准备好了用对应于30000个不同的、先前测序的cDNA的驱动程序减去的库。在这种情况下,我们能够制备文库,其中新基因的发现率在根据>80000个3′末端序列(未显示)的数据库进行聚类后,每成功测序反应接近25%-30%。
在对3′EST的相关部分进行测序后,新基因的发现率必须被视为极高。减法去除了文库中可能存在的90%–95%的cDNA质量;这一事实表明,在未经提取的cDNA文库中新基因的发现率为1.25%–3.0%。如果我们从给定的有效消减cDNA文库中测序10000个克隆,我们将能够以50%的概率克隆每100000–200000个事件中表达一次的cDNA。对于表达频率更高的cDNA,还需要其他策略,例如从组织的特定亚区制备cDNA文库(P.Carninci,预备)。我们预计,我们提出的方法将有助于收集剩余的人类全长cDNA,以及生成其他生物体的cDNA百科全书。我们的方法还可以用于从标准化全长cDNA库中受益的应用,例如表达克隆。
方法
如前所述,完成了mRNA的采集和所有其他准备步骤(Carninci和Hayashizaki 1999).
cDNA合成
在24μL的总体积中,我们结合了5–10μg mRNA和5μg第一链引物,其中包含巴姆HI和上海I限制位点(5′-(GA)5AAGGATCAAGAGCTC(T)16VN-3′)和11.2μL 80%甘油。对于肝库、肺库和迷你库,我们使用了包含Xho公司I站点(5′(GA)8ACTCGAG(T)公司16VN-3′),生成反向cDNA文库。RNA-聚合酶混合物在65°C下变性10分钟。同时,我们将最终体积合并为76μL;18.2μl 5×第一链合成缓冲液;9.1μL 0.1 M DTT;6.0μL 10 mM(每个)dTTP、dGTP、dATP和5-甲基-dCTP(代替dCTP);29.6μL饱和海藻糖(~80%,金属含量低;Fluka生化);和10.0μL Superscript II逆转录酶(200 U/μL)。我们放置1.0μl[α-32P] 第三根管子中的dGTP。将mRNA、甘油和引物与含有上标的溶液混合在冰上,并将等分(20%)快速添加到含有[α-32P] dGTP。第一链cDNA合成在带加热盖的热循环器中(例如,MJ Research)按照以下程序进行:步骤1,45°C,持续2分钟;第二步,梯度退火:冷却至35°C超过1分钟;第三步,完全退火:35℃,2min;步骤4,50°C持续5分钟;步骤5,56°C,持续60分钟。结合放射性使我们能够估计cDNA的产量(Carninci和Hayashizaki 1999年). cDNA经蛋白酶K、苯酚/氯仿和氯仿萃取处理,并以乙酸铵为盐沉淀乙醇(Carninci和Hayashizaki 1999).
cDNA生物素化
在生物素化之前,RNA帽和3′-末端的二醇组在最终体积为50μL的条件下被氧化,其中含有再悬浮的第一链cDNA,66 m米醋酸钠(pH 4.5)和5 m米次碘酸钠4将样品在黑暗中在冰上孵育45分钟。然后通过添加0.5μL的10%SDS、11μL的NaCl和61μL的异丙醇沉淀cDNA。在冰上黑暗培养45分钟或在−20°或−80°C培养30分钟后,以15000 rpm离心10分钟。最后,我们用70%乙醇将cDNA漂洗两次,并将其重新悬浮在50μL水中。随后,通过添加5μL,在最终体积为210μL的瓶盖中进行生物素化米醋酸钠(pH 6.1)、5μL 10%十二烷基硫酸钠和150μL 10m米生物素酰肼长臂(载体生物系统)。
在室温(22°–26°C)下培养过夜(10–16小时)后,通过添加75μL 1沉淀cDNA米乙酸钠(pH 6.1),5μL 5米NaCl和750μL无水乙醇,在冰上培养1小时或在−20°至−80°C下培养30分钟。cDNA通过15000 rpm离心10分钟制成颗粒;然后,我们用70%乙醇和80%乙醇清洗一次颗粒。我们将cDNA重新悬浮在70μL 0.1×TE(1 m米Tris[pH 7.5],0.1 m米EDTA)。
捕获和释放全长 cDNA
我们将500μL MPG-链霉亲和素珠和100μg不含DNA-的tRNA混合,在冰上培养30分钟,偶尔混合。使用磁性支架将珠子分离3分钟,并去除上清液。然后用500μL洗涤/结合溶液(2米氯化钠,50米米乙二胺四乙酸(pH 8.0))。
同时,我们向制造商提供的缓冲液中的cDNA样品中添加每微克起始mRNA 1 U RNase I(Promega)(最终体积200μL);将样品在37°C下培养15分钟。为了停止反应,我们将样品放在冰上,并添加100μg tRNA和100μL的5米氯化钠。为了捕获全长cDNA,我们将生物素化、RNase I处理的cDNA和洗涤珠结合在一起,洗涤珠再悬浮在400μL洗涤/结合溶液中。混合后,在室温下轻轻旋转试管30分钟。全长cDNA保留在珠子上,而短cDNA没有。用磁力搅拌器将珠子从上清液中分离出来。我们轻轻清洗珠子,以去除非特定吸附的cDNA:用洗涤/结合溶液洗涤两次;一种含有0.4%十二烷基硫酸钠,50μg/mL tRNA;一个10米米三氯化氢(pH 7.5),0.2 m米EDTA,40μg/mL tRNA,10 m米NaCl和20%甘油;和一个含有50μg/mL tRNA的水溶液。
通过添加50μL 50 m米氢氧化钠,5米米EDTA,在室温下培养10分钟,偶尔混合。然后用磁力去除珠子,将洗脱的cDNA转移到含有50μL 1的试管中米三氯化氢,pH 7.5。用50μL的50 m等分试样重复洗脱循环一次或两次米氢氧化钠,5米米EDTA,直到我们从珠子中回收了大部分cDNA(80%-90%,通过手持监测仪监测放射性测量)。
为了去除以后可能干扰生物素化RNA驱动程序的微量RNA,我们迅速添加了100μL的1米Tris-HCl,pH 7.0,1μL RNase I(10U/μL)到冰上回收的cDNA;然后将样品在37°C下孵育10分钟。用蛋白酶K、苯酚/氯仿萃取和反萃取处理cDNA。然后,我们添加2–3μg糖原和乙醇,将样品沉淀在硅化管中。或者,可以通过使用Microcon 100(Millipore)在2000 rpm下进行一轮超滤40–60分钟来浓缩样品。如果乙醇沉淀,cDNA可以在20μl 0.1×TE中重新溶解。
第一流的低聚-dG尾矿 cDNA
我们将cDNA样本,5μL的10×TdT缓冲液(2米碳酸钾[pH7.2],10 m米氯化镁2,10米米2-巯基乙醇),5μL,50μ米dGTP,5μL,10 m米氯化钴2和40 U末端脱氧核苷酸转移酶,最终体积为50μL。样品在37°C下培养30分钟。最后,用EDTA 20 m停止反应米,用蛋白酶K消化cDNA,用苯酚-氯仿提取,乙醇沉淀。样品最终在TE中重新溶解。我们按照描述检查了尾部长度(Carninci等人,1999年)之后,将cDNA用于第二链合成,以用于检查库(参见下文)或进行归一化/减法。
规范化驱动因素
由一小份起始mRNA组成的mRNA驱动程序被称为“正常化驱动程序”。为了计算正常化驱动的浓度,我们假设第一链合成的掺入率反映实际的mRNA浓度,从而近似计算起始mRNA中的核糖体/结构RNA污染,因此假设底漆和伸长率为100%。假设mRNA转化为第一链cDNA的比例与有效mRNA浓度相对应,我们忽略了小于全长cDNA的原因,通常并非所有mRNA都被激活。稍微超出正常化驱动程序,不太可能像缺少驱动程序那样严重干扰正常化过程。因此,我们假设样品中mRNA的量与产生的第一链cDNA的量相同。
减法驱动因素
减法驱动因素包括使用T7和T3 RNA聚合酶从克隆的小型文库中制备的大量径流转录物和从非冗余RIKEN cDNA百科全书中重新绘制的文库。
迷你文库包含从先前的标准化实验中获得的约1000–2000个cDNA克隆。通过采用标准方案,我们从归一化实验的副产品捕获的等分(丰富的cDNA片段)中制备了微型文库。归一化后,用50 m米氢氧化钠/5米米乙二胺四乙酸;中和后制备第二链cDNA。克隆的完成方式与前面描述的类似(Carninci和Hayashizaki 1999). 然后对质粒进行大批量扩增,在琼脂糖/氨苄西林上扩增每个小型文库1000–2000个克隆。对于驾驶员准备,我们在SOB-琼脂糖/氨苄西林上培养20000–50000个菌落,并在37°C下培养培养板过夜。我们在存在再悬浮溶液(Wizard DNA提取试剂盒;Promega)的情况下从平板上刮下细菌细胞,然后遵循制造商的方案。
非冗余cDNA文库的制备 驾驶员
全长cDNA百科全书中的单个克隆(http://genome.rtc.riken.go.jp/)为减法重新拍摄。从384孔板中,将重新绘制的cDNA涂布在SOB-琼脂糖/氨苄西林板上。对微型文库进行质粒提取、DNA切割和RNA制备。
我们使用Pvu公司我用克隆迷你图书馆时Xho公司I位于3′端位置或上海当库被克隆到上海我的网站。RNA是通过使用T3或T7 RNA聚合酶(生命技术)合成的,这取决于用于制备驱动程序的结构图,以制备感测径流RNA。我们使用T3聚合酶Pvu公司I-裂解迷你文库(多达14个)和T7聚合酶上海I-cleaved迷你图书馆(15个及以下)。根据制造商的说明,使用RNA聚合酶(生命技术)制备RNA。用1–2μL DNaseI(RQ1,无RNase,Promega)进行广泛消化30分钟。然后进行蛋白酶K消化,然后用苯酚/氯仿和氯仿萃取,并沉淀cDNA。
归一化/减法RNA的生物素标记 驱动程序
为了在标记之前进一步清理RNA驱动程序,我们根据制造商的说明使用了RNeasy试剂盒(QIAGEN)。随后,我们使用了制造商描述的Mirus核酸生物素化试剂盒(Panvera)。例如,将10μg的RNA混合物与10μL的Label it试剂和10μL的标记缓冲液A混合,最终体积为100μL。我们在37°C下培养反应1小时,然后通过添加1/20体积的5M NaCl和两个体积的99%乙醇沉淀生物素化RNA。在标准乙醇沉淀后,用80%乙醇清洗一次颗粒,再悬浮在20μL的1×Mirus标记缓冲液A中,并在−80°C下保存直至使用。或者,根据制造商的说明,使用补骨脂素-生物素化试剂盒(Ambion)标记mRNA。
归一化/减法
RNA驱动程序和cDNA使用蛋白酶K脱蛋白,然后进行苯酚/氯仿萃取、氯仿萃取和乙醇沉淀。使用寡核苷酸尾cDNA作为底物,将其与RNA驱动因子和阻断寡核苷酸(生物素-dG16)以与存在于减法驱动器中的C-tretch杂交,并与寡核苷酸dT引物杂交以阻断polyA序列。根据实验结果,在含有80%甲酰胺(来自去离子原料)的缓冲液中,以5–500的RoT值进行杂交,缓冲液长度为250 m米氯化钠,25米米HEPES(pH值7.5)和5 m米EDTA公司。在42°C的干燥箱中进行杂交;即使体积小至5μL,也不需要矿物油覆盖层。杂交后,我们通过添加2.5体积的无水乙醇沉淀样品,并在冰上培养30分钟。样品以15000 rpm离心10 min,并用70%乙醇清洗一次;我们小心地将cDNA重新悬浮在10μL冰上的水中。
混合动力的拆卸
同时,我们为每1μg生物素化驱动RNA制备50μl CPG磁珠;5μL珠可以结合>400 ng的生物素化驱动器。对于每50μL的珠子,我们添加10μg tRNA作为阻断剂,然后在室温下培养珠子10–20分钟或在冰上培养30–60分钟,偶尔摇晃。我们用一个磁性支架去除珠子,我们用超过1倍的量清洗了三次米氯化钠,10米米EDTA并将其重新悬浮在1体积内米氯化钠,10米米EDTA相当于胎圈悬浮液的原始体积。
我们将阻塞的珠子与再溶解的测试仪/驱动器混合物混合,并在室温下培养整个样品15分钟,偶尔轻轻混合。使用磁力支架取出珠子3分钟后,我们回收了上清液,其中包含单链标准化/减法cDNA。用过量体积的结合缓冲液(1米氯化钠,10米米EDTA)以回收任何剩余的ssDNA。我们测量了程序前后标记样品的放射性,以估计归一化/减法的产率。
为了将cDNA溶液浓缩至~50μL,我们使用了制造商(Millipore)描述的Microcon 100超滤。随后,使用标准异丙醇程序造粒cDNA;将颗粒重新悬浮在44μL的0.1中 × TE,其中添加5μL RNase I缓冲液和1 U RNaseⅠ,体积为50μL。然后将样品在37°C下培养20分钟,然后我们添加400μL 0.2%SDS以灭活RNase I。用Microcon 100过滤器在2000 rpm和25°C下超滤去除降解RNA、阻断寡核苷酸、SDS和缓冲液的痕迹,直到体积减至<20μL。样品通过添加400μl 0.1脱盐 × TE,然后如上所述离心,总共洗涤三次。我们通过将过滤器倒置在新试管中并以9000 rpm离心1分钟来回收cDNA。
第二链cDNA 合成
对于标准化/减法cDNA、标准对照库和迷你库,第二链合成和克隆步骤相同。这个Xho公司含I底漆5′-(GA)7TTCTCGAGTTAATTAATATAATTAATC公司13-使用标准技术制备并纯化3′,作为第一链cDNA引物。对于肺和肝库以及小型库上海含I底漆5′-(GA)9GAGCTCACTAGTTAATTAATTAATC公司11-第二条引物为3′。为了制备第二链反应,我们将寡核苷酸尾cDNA与6μl 100 ng/μl第二链引物适配器、6μl EX-Taq第二链缓冲液(Takara)和6μl 2.5 mM(每个)dNTP混合。然后通过在65°C的热循环器中添加3μl 5 U/μl ExTaq聚合酶(Takara)进行热启动。混合后,退火温度通过负斜坡达到45°CXho公司I底漆和35°C上海I底漆。在退火温度下10分钟后,第二链cDNA在68°C孵育20分钟期间被延长。再次重复退火-延长循环,然后在72°C下最终延长10分钟。在热启动开始时,我们将5μL等分样品与0.5μL[α32P] dGTP或[α32P] dCTP将遵循公司注册。我们在反应结束时使用标记的等分样品来可视化cDNA并计算第二链产量(Carninci和Hayashizaki 1999).
cDNA克隆
用蛋白酶K处理二级cDNA,用酚-氯仿和氯仿萃取,并按照标准程序沉淀乙醇。然后我们用25 U/μg上海我和Xho公司I(肺和肝图书馆和图书馆18–31)或巴姆HI和Xho公司一(Lib.32-64)。消化后,用蛋白酶K处理cDNA,用酚氯仿提取,并在CL-4B旋转柱(法玛西亚)上纯化。乙醇沉淀后,我们基本上克隆了cDNA(Carninci和Hayashizaki 1999). 用于克隆cDNA Lib.32-64的载体将在别处介绍(P.Carnichi,预备)。
其他方法
根据标准方案使用随机引物进行菌斑杂交(Sambrook等人,1989年). 按说明进行碱性电泳(Sambrook等人,1989年). 使用Bas 2000成像系统(Fuji)显示所有放射自显影信号。
用市售的采摘机(Q-bot和Q-pix;Genetics,UK)采摘细菌,并将其转移到384个微孔板中。用复制板制备质粒DNA。对于质粒DNA,384孔板在4个 × 96个深井板。隔夜生长后,手动提取质粒(Itoh等人,1997年)或自动(Itoh等人,1999年). 序列通常在RISA测序仪上运行(K.Shibata,预备);使用Perkin Elmer-Applied Biosystems ABI 377生成了一些序列。测序引物为M13正向和反向引物,主要测序操作将在别处详细描述(P.Carnichi,预备)。
聚类序列分析如下。从单程序列中修剪poly-T(3′端)和C-streach(5′端)区域。从修剪后的序列中,我们选择了100-bp序列作为标签序列。我们使用BLAST 2.0.9搜索新标签和非冗余100-bp标签序列数据库之间的同源性;BLAST参数为E的序列 = 1.0秒−25或更低的聚集在一起。当标签序列不在数据库中时,标签被添加到数据库中。当数据库包含标签时,它被添加到标签的相同组的成员中。如果在数据库中找到标签,同时偏移量小于10个碱基,重叠量大于80个碱基。重叠中的同源性大于90%,则将序列分组在一起。此外,该算法根据之前定义的标准将库中的序列分类为“新的”、“非冗余的”或“冗余的”。