跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
美国国家科学院院刊。2004年11月2日;101(44): 15573–15578.
2004年10月20日在线发布。 数字对象标识:10.1073/pnas.0406911101
预防性维修识别码:项目经理524854
PMID:15496466

长DNA序列的全合成:一个相邻的32-kb聚酮合酶基因簇的合成

摘要

为了开发全基因组序列信息的巨大潜力,高效合成长而准确的DNA序列的能力变得越来越重要。为此目的提出的一种方法包括合成≈5-kb的DNA片段,然后通过常规克隆方法将其组装成更长的序列[Smith,H.O.,Hutchinson,C.A.,III,Pfannkoch,C.&Venter,J.C.(2003)程序。国家。阿卡德。科学。美国100, 15440–15445]. 目前阻碍该策略成功的主要因素是难以从短合成寡核苷酸构建块中准确、高效、快速构建≈5-kb的组件。我们已经开发并实施了一种高通量合成长而准确的DNA序列的策略。通过基于PCR的自动基因合成,将未经纯化的40-base合成寡核苷酸构建成500-800-bp的“合成子”,错误频率较低。通过并行处理,这些合成子仅使用三种核酸内切酶和“选择连接”就能有效地连接成约5-kb的多合成子片段。这些大片段随后可以通过常规克隆组装成很长的序列。我们通过构建一个合成的31656-bp聚酮合成酶基因簇来验证该方法,该基因簇的功能通过其在大肠杆菌.

几十年来,基因和基因组的化学合成受到了相当大的关注,并且在全基因组序列信息的开发中变得越来越重要。该领域由Khorana及其同事开创,他们进行了tRNA结构基因的全合成(1,2)和Itakura等。()随着生长抑素基因的合成和表达。自那时以来,DNA合成方法学取得了稳步进展,目前的方法依赖于化学合成的短寡核苷酸的酶催化组装。在各种方法中,聚合酶循环组装(PCA)(4)由于其固有的简单性,是使用最广泛的。重叠的互补寡核苷酸经过退火,并用热稳定的DNA聚合酶递归拉长,最终产生全长序列,该序列由常规PCR扩增。PCA,首次报道用于合成303-bp HIV-2利润基因(5),自那以后发展了(68)成为广泛使用的合成高达≈1kb基因的通用方法。

1990年,Mandecki打破了1kb大小的障碍等。(9)他通过连接30个片段合成了2.1-kb质粒,1995年Stemmer再次合成等。(7)报道了一步PCA合成2.7kb质粒,该质粒通过抗生素选择纯化。史密斯等。(4)通过结合使用连接和PCA方法,从一个化学合成的寡核苷酸池中组装5386⁄X174噬菌体基因组,但产品的纯化再次需要生物选择。2002年,大提琴等。(10)描述了通过结扎和PCA逐步合成7558-bp脊髓灰质炎病毒cDNA。这个序列似乎是迄今为止报道的最长的合成DNA。有远见的人甚至计划应用DNA合成技术来构建合成的最小基因组(11). 如果要实现这些目标,就需要有方法来制备长的、连续的和完美的DNA序列,而不需要进行生物选择来纯化。

我们在这方面的努力源于开发大聚酮合成酶(PKS)基因在大肠杆菌I型模块化PKS基因编码巨大的酶(已知最大的蛋白质之一),可合成聚酮类天然产物,如红霉素、埃博西龙和他克莫司(12). 这些基因位于原核生物的放线菌和粘细菌群的高G+C基因组中,并编码具有多组或模块活性位点(结构域)的蛋白质。每个模块对聚酮产品的特定双碳单元组分的组装进行催化。我们试图重建PKS基因,其双重目标是优化其密码子组成,以便在大肠杆菌并在模块和结构域两侧引入常见的限制性位点,以便于互换,从而充分发挥“非天然天然产物”组合生物合成的潜力(12).

史密斯等。(4)建议通过从合成的短寡核苷酸合成≈5-kb的DNA片段,然后用传统方法将其组装成更长的序列,从而构建非常长的DNA序列。然而,用于制备≈5 kb片段的方法不够准确或简便,无法实现该方法。因此,对于我们的项目中要合成的大量序列,我们排除了一步合成≈5-kb片段的可能性,因为这需要耗时的手动更正大量错误(4). 相反,我们开发了两个无错误步骤来构建它们的方法。首先,我们构建了多个长度约为500 bp的完美序列,称为“合成子”(13); 然后我们使用一种简单的方法,称为选择结扎(LBS),将它们连接到≈5000 bp的多合成子片段。反过来,通过传统的克隆策略,这些片段很容易组装成较大的序列,如我们构建的一个连续的合成31.7-kb PKS基因簇所示。

材料和方法

除非另有说明,酶是从新英格兰生物实验室获得的,并按建议使用。分子生物学技术被用作标准协议(14). 参考文献报道了pUC18衍生质粒pKOS239-172-2和pKOS293-172-A76。15.DH5α大肠杆菌使用来自Zymogen Research(加利福尼亚州奥兰治)的试剂盒使其具有化学活性。寡核苷酸来自Qiagen/Operon Technologies(加利福尼亚州阿拉米达)。NTP为罗氏应用科学公司的PCR级。根据制造商推荐的方案,在ABI 3730 DNA分析仪(Applied Biosystems)上进行DNA测序。

对于尿嘧啶DNA糖苷酶/连接无关克隆(UDG/LIC),正向引物为5′-GCUUAUCGCUAUCGAUGAGCACTGACCACTACTACG,反向引物为5-GCUAGUGAUCGAUGCACTCACTACCC。

基因合成和测序由一个集成自动化系统协助进行,该系统由BioMek FX、一个ORCA机器人臂、一个尖端提升装置(Beckman Coulter)、一个封板和穿孔装置(Velocity11)(加利福尼亚州帕洛阿尔托)、两个四分体热循环装置(马萨诸塞州剑桥市MJ Research)和一个细胞瘤酒店(北卡罗来纳州阿什维尔市肯德罗)组成。

矢量构造。这个英国标准协会无丝酵素抗性(Ap)中的I位点R(右))基于PCR-based SDM将pKOS293-172-2和pKOS293-172-A76的基因转化为GAGATC(16)给出pKOS309-52[ApR(右)和氯霉素耐药性(CmR(右))]和pKOS309-53[ApR(右)和卡那霉素抗性(KmR(右))]分别是。四环素耐药基因(TetR(右)),通过PCR从pACYC184中获得,引入生态pKOS309-52的RV位点,该基因的5′端与Ap相邻R(右)产生pKOS399-16-78(Ap)的基因R(右),抄送R(右)和TetR(右)). 通过使用基于PCR的定点突变英国广播公司我在太特岛的网站R(右)将pKOS399-16-78的基因改为GTATTC,得到pKOS3996-21-1生态Cm中的RI站点R(右)将该基因改为GAGTTC,得到pKOS399-51-1。链霉素抵抗(StrR(右))通过PCR从pAY1105获得的标记被引入斯图pKOS309-53中的I位点,基因5′端靠近ApR(右)产生pKOS399-16-69(Ap)的基因R(右),公里R(右)、和StrR(右)).

将连接器5′-AATTGGCACGCGTAATTAAGCGACCCGTTAA插入生态pKOS399-51-1和pKOS3996-16-69的RI站点,引入了派克靴I位点(核苷酸14–21)并破坏生态RI现场,提供pKOS399-55-9(ApR(右),抄送R(右)和TetR(右))和pKOS399-56-2(ApR(右),公里R(右)、和StrR(右)).

在准备连接非依赖性克隆(LIC)时,每个载体(20μg)80μl的溶液用8μl的I(20单位/μl)在37°C下持续2小时。然后,8μl缺口核酸内切酶N.Bbv公司添加C IA(10单位/μl),并在37°C下培养2 h。将混合物在65°C下加热20分钟,并用苯酚萃取。用2 vol的冷EtOH沉淀样品,再悬浮在50μl的10 mM Tris-HCl中,pH值为7.5,调整到20 ng/μl DNA的最终浓度,并储存在-20°C下。

合成嵌件设计。使用定制的软件设计待合成的DNA序列(http://software.kosan.com/GeMS). 简言之,它接受DNA或蛋白质序列,并根据密码子偏好表选择、随机化和协调ORF的密码子;使用者可以保留部分或全部天然DNA序列。预测允许的限制站点,由用户选择并插入所需的站点,或按定义的间隔自动插入,并清除不需要的站点。然后将长基因分成适合合成的片段(此处为500–800 bp),并确定茎-环结构。在插入端添加用户定义的序列以促进克隆过程后,优化了引物特异性,并且该软件以可供生产的格式提供重叠的寡核苷酸组分。

所有DNA序列都设计为缺少英国证券交易所我,英国广播公司一、 和Xho公司结扎所需的I位点(见下文)和后续操作所需的那些位点。编码N末端片段的基因的ATG起始密码子前面是序列CAT,以便用Nde公司一个片段的5′端和相邻片段的3′端设计为包含相同的6-nt序列。每条链的5′端附加一个不同的20-nt通用PCR模板,然后是IIS型限制位点英国标准协会我在正链上定位英国广播公司我在负链上定位,后跟G。用这些核酸内切酶在每个插入物末端的普通6 nt内裂解,为结扎提供内聚的4 nt 5′外伸。合成了40个碱基的寡核苷酸,这些寡核苷酸共同编码插入物的两条链,每条链与另一条链的40个寡核苷酸重叠20-nt。允许单股5′悬臂的尺寸变化,并在组装期间填充。

Synthon合成。寡核苷酸整合和组装。向微量滴定板的每个孔中添加5μl 50μM溶液(250 pmol),溶液中含有合成子的每个寡核苷酸成分,并添加足够的水使体积加倍。对于高达1 kb的合成子,在“组装”微量滴定板的每个孔中装入48μl储备溶液,其中含有0.5μl Expand High Fidelity聚合酶(5单位/μl,Roche)、1.0μl 10 mM dNTPs、5.0μl 10×PCR缓冲液、3.0μl 25 mM MgCl2和38.5μl水。为了分离组装板的孔,添加2.0μl每个寡核苷酸混合物。对于大于1 kb的合成子,添加额外的寡核苷酸混合物,以使单个寡核苷酸的最终浓度保持在1μM。热循环从95°C下的5分钟变性步骤开始,然后在95°C条件下继续进行25次循环,持续30秒,50°C持续30秒和72°C持续90秒。

放大。“扩增”微量滴定板的每个孔装载48.75μl储备溶液,该储备溶液包含0.5μl扩增高保真聚合酶(5单位/μl,罗氏)、1.0μl 10mM dNTP、5.0μl 10×PCR缓冲液、3.0μl 25mM MgCl2,39.25μl水,正向和反向LIC引物各1.0μl。为了分离微孔,向每个组装混合物中添加1.25μl。扩增开始于95°C下5分钟的变性步骤,然后在95°C条件下继续25个周期,持续30秒,在62°C下持续30秒和在72°C下60秒,最后延长10分钟。

UDG/LIC公司。在“结扎”微量滴定板的每个孔中装入2μl含有1μl(20 ng)先前消化的溶液我/N.Bbv公司C IA载体和1μl(1单位)USER酶混合物(新英格兰生物实验室核酸内切酶VIII加UDG)。向每个孔中添加五微升扩增反应产物。将反应在37°C下培养15分钟,然后在室温下培养15 min。将平板置于冰上2分钟,并将每个反应混合物的5μl添加到具有化学活性的DH5α中大肠杆菌冰上的细胞。30分钟后,细胞在42℃处理45秒,0℃处理2分钟;向每个孔中添加200μl LB,并将每个孔的内容物镀在含有100μg/ml羧苄青霉素的LB板上。通过DNA测序验证插入物的大小和序列。

磅/平方英寸。微量滴定板的孔含有6μl DNA(100–200 ng)、3μl适当的10×NEB缓冲液、3μl 10×BSA(250μg/ml)和水,最终体积为28μl。对于需要的反应英国广播公司I消化,1μl(5单位)英国广播公司I和1μl(20单位)Xho公司我被包括在内,并在37°C下消化2小时。反应需要英国标准协会我首先接受了1μl(5单位)的英国标准协会I在50°C下保持1小时,然后1μl(20单位)Xho公司将样品在37°C下加热1小时,然后在80°C下进行20分钟的凝胶电泳分析,以验证消化情况。

将含有3–4μl(10–30 ng)消化的供体和受体质粒、1.5μl(600单位)T4连接酶和足够的水以产生30μl的连接混合物在环境温度下保存2 h。使用5μl的样品转化DH5α,将混合物涂布在含有适当抗生素(从卡那霉素、氯霉素四环素和链霉素中选择)的LB上,以选择含有连接性插入物的质粒。用5个单位的不是I加上10个单位生态在37°C下进行2小时的RI,并通过凝胶电泳进行分析。纯化含有正确大小插入物的质粒,并用于下一个LBS循环。

结果和讨论

构建无错误的合成子。为了确定合子的最佳长度范围,我们假设,后来又证明了(表1)PCA合成DNA群体中的误差分布将遵循泊松分布。因此,误差频率(EF)和序列长度(L(左))允许估计分数(F类)具有准确序列和克隆数的克隆的数量(N个)要求测序,以提供95%的置信度来识别正确的序列。F类估计为exp(-EF×L(左))、和N个=0.301/[1-对数(1-F类)]. 因此,在低EF为0.2%的情况下,500-bp片段需要约1.5个克隆的测序才能获得正确的克隆,而2000-bp序列需要约30个克隆的序列。此外,因为N个随着EF和L(左),EF的小幅度增加对N个对于较长的碎片。例如,如果EF为0.25%,仅比前一示例中高0.05%,则500-bp序列只需要测序≈2.1个克隆即可获得正确的克隆,而2000-bp片段则需要测序>100个克隆。此外,随着合成基因长度的增加,还会引入额外的导致错误的影响。例如,在PCA中,随着组分寡核苷酸数量的增加,组装过程中其错配现象不可避免地增加(8,17). 事实上,假设EF为0.20%,我们计算出5386-bp174合成基因组制备(4)每个基因组平均包含10.8个错误,以及2×10个错误-5正确序列;据估计,合成基因组包含≈5×10-5感染序列中约四分之一的序列与预期序列完全相同。利用我们目前的DNA测序能力,我们可以容忍≈500-bp合成片段≤0.4%EF(N个= 4.8). 基于这些考虑,我们选择了约500 bp的合成子长度。我们专注于开发稳健、可重复的方法来制备低EF的合成子,高效的方法来连接这些合成子,以及分子生物学技术来实现并行处理和自动化。

表1。

合成的DNA合成子概述
合成子大小,bp
正确克隆,%
EF公司
实验*合成子数量范围平均合成总bp测序的克隆总数测序DNA,bp预测已找到不匹配删除插入总计
1102229-54149650634个647308,93843390.120.0470.0040.176
2118129-78151059884个797409,26730320.170.0700.0040.24
44286-74851927,004706346,22220200.270.060.0060.34
485112-65050242,743589317,38219160.240.0780.020.33
总计/平均值349112-748505180,2652,7391,381,80928270.200.0640.0070.27
*每个实验代表所示DNA的平行处理合成
假设误差的泊松分布
任何特定错误只统计一次

由于主成分分析涉及的变量众多,而且缺乏大型对比研究,我们无法预测一般情况以最小化EF。在PCA典型条件下的初始实验中,我们经历了令人无法接受的0.5–0.9%的高EF(N个=8–62L(左)=500 bp)。尽管某些变量是相互依赖的,但通过改变试剂(例如,粗寡核苷酸与纯化寡核苷酸、聚合酶和NTP)和条件(循环数和退火温度),我们实际收敛于最终通过使用商用未纯化寡核苷酸得出约0.2–0.3%EF的条件。

四个大型PCA实验的数据(表1)使用未经纯化的40-mer合成寡核苷酸,可以评估导致EF的某些因素。总的来说,这些结果代表了349个合成子(180265 bp),长度范围为112-781 bp(平均505 bp)。在本研究中,≈99%的PCA反应提供了预测大小的片段,其余片段是在组装期间使用较高的退火温度(62°C)获得的。测序1382 kb以上的平均EF≈0.27%F类合理地跟踪了由误差的泊松分布预测的结果。PCA中观察到的EF显著高于使用的聚合酶混合物(≈1×10-5)以及其他人指出的(4,8),表明PCR错误对合成子中的错误贡献不大。令人费解的是,在成分寡核苷酸中观察到的EF低于预期。有趣的是,当改变组装的循环次数时,在≈25个循环时,EF为2.6±0.6%,但在50个循环时几乎翻了一番,达到4.1±0.8%。也许在早期周期中对正确序列的动力学选择导致完美的寡核苷酸杂交比不完美的杂交扩展得更快。EF与合成片段的大小或组分寡核苷酸中的错误位置无关,但当G+C超过60%时,EF>0.3%的序列出现频率较高。我们没有观察到寡核苷酸的错序导致的产物,这可能反映了序列设计软件的理想特征或所制备的适度序列长度。在最终产物中,0.007%的碱基插入频率归因于组装期间引物的滑移,0.06%的缺失频率(90%的单核苷酸)归因于滑移,或者更可能的是,n个-1个寡核苷酸成分和0.20%的点突变频率。由于主成分分析期间发生的错误预计主要涉及引物-模板滑移的插入/删除,并预计聚集在合成寡核苷酸组分的末端,因此我们得出结论,大多数错误源于短合成寡核苷酸。出乎意料的是,主要错误是由于点突变而非缺失导致的不匹配n个-1个错误,通常认为在寡核苷酸合成中占主导地位。因此,在PCA之前通过凝胶电泳纯化寡核苷酸没有什么益处,与最近的报告相反(4),可以使用未纯化的寡核苷酸成分实现高保真PCA。然而,一批合成的寡核苷酸偶尔会在PCA中产生令人无法接受的高EF。因此,在每次大型实验之前,应先合成一个控制序列,通过使用试验寡核苷酸与之前验证的集合比较EF。

为了避免PCR产物的耗时纯化,我们使用了UDG/LIC(1820)将合成子克隆到含有适当抗性标记的载体中,以允许后续LBS(参见下文). PCA扩增步骤中使用的引物在5′端有22或23个含U序列的碱基,然后是一个20 bp的启动序列,与合成子末端引入的序列互补。PCR产物的UDG处理在两端产生长(22或23 bp)3′悬垂,同时破坏PCR过程中形成的任何引物二聚体。将UDG处理的PCR产物与含有互补5′末端的受体LIC载体退火后,将混合物引入大肠杆菌并将其培养成数百个菌落。在进行了>300个UDG/LIC反应并对每个反应的6-8个菌落进行测序插入后,确定了上述EF的统计数据和克隆效率。95%以上的克隆包含正确大小的插入,其余的是父LIC载体。在制备LIC载体的过程中,通过更严格的质量控制,我们获得了100%的克隆效率。与这个显著的价值相比,将粗PCR产物克隆到定向TOPO克隆载体中,克隆效率仅为56%。这里,错误的克隆插入了含有定向引物的合成DNA的小片段。

并行处理和自动化促进了多个≈500-bp序列的合成,在≈1周内生成≈50000 bp的合成DNA。第一天,测微板中的寡聚物被装入板旅馆,机器人将每个合成子的组件整合到96个组装板的各个井中。组装和放大PCR由一个ORCA臂自动执行,将组装板输送至封板机和热循环机,并将其从封板机输送至热循环机。第2天,机器人将样本转移到含有LIC载体的平板上,并在UDG/核酸内切酶处理后,转移到含有大肠杆菌用于转换的单元格。然后手动将混合物涂敷在琼脂上。菌落在第3天采摘并生长。第4天,分离质粒并测序,以在第6天确定正确的序列。

从合成子构建更大的DNA片段。下一个挑战是开发将合成子有效连接到≈5 kb片段的方法。通常,这些连接需要片段切割和纯化、与相邻片段连接、转化、细胞生长和质粒分离,每个周期需要约3天的显著干预。我们最近报道了一种称为LBS的技术,用于简单地连接多个DNA片段(15). 互补外伸是由两个片段共有的限制位点的裂解产生的,在结扎后,抗生素选择和限制纯化(21)用于纯化含有连合片段的质粒。该程序存在某些缺陷。()尽管结扎的插入物很容易通过大小识别,但约25%的克隆是含有标记的起始供体载体,该标记在限制纯化后存活下来。(ii(ii))连接多个片段所需的多种独特的限制性酶通常需要盐和/或温度变化,这阻碍了并行处理。()对有规则间隔的独特限制性位点的需要限制了基因设计,最重要的是,当需要进一步组装成更长序列时,阻止了它们的后续使用。

除了更简单,因此易于并行处理之外,改进的LBS策略图1为构建大型DNA序列提供了两大优势。()相同的三种限制性内切酶,Xho公司I和IIS型酶英国标准协会我和英国广播公司一、 用于所有结扎,以便其他所有结扎都可供后续使用。(ii(ii))每个载体都有两个独特的可选择标记,在LBS期间分离,在重组时产生四个可能的对,并且通过交替序列连接中使用的载体(见下文),每个连接性片段对与一个独特的标记对相关联,该标记对允许通过双重抗生素选择高效地分离产物。

保存图片、插图等的外部文件。对象名称为zpq0440463250001.jpg

带有IIS型限制性内切酶的LBS和结扎产物的双重抗生素选择。步骤如所述结果和讨论P和P′代表插入端的PCR引物位点。

如所示图1,用于合成子UDG/LIC克隆的两个亲本载体中的每一个都包含两个独特的抗生素抗性标记(TetR(右)+抄送R(右)或StrR(右)+公里R(右)),克隆站点两侧各一个。两种载体都包含ApR(右)为了便于繁殖,5′不是I和3′派克靴I位点位于克隆位点两侧,以便于确定片段大小,以及Xho公司Ap之间的I站点R(右)以及靠近克隆位点3′端的唯一抗生素标记。通过LIC,将5′片段对应的PCA产物克隆到一个质粒中,形成“受体”载体,将3′片段对应产物克隆到另一个质粒,形成“供体”载体。IIS型酶的限制位点英国证券交易所我和英国广播公司插入物的5′端和3′端附近的I分别引入PCR产物的正链,以便用英国广播公司I和带有英国标准协会我在每个插入物的一端按照相同的顺序进行切割,以创建互补的四基悬垂,从而实现无缝连接。受体载体,被劈开Xho公司我和英国广播公司一、 给出包含插入物和唯一标记(例如,Tet)的大片段R(右))和含有另一个独特标记的小片段(CmR(右)). 供体载体被切割Xho公司我和英国标准协会我要给出一个包含插入物和唯一标记(例如Km)的小片段R(右))和一个含有不同独特标记(StrR(右)). 当四个片段的混合物退火后用T4连接酶连接酶连接时,包含融合插入物的载体具有唯一的一对可选标记(例如,TetR(右)+公里R(右)). 将结扎混合物引入大肠杆菌,并选择菌落对适当的一对抗生素产生耐药性,以产生带有融合插入物的载体。为了鉴定产品,通过电泳进行片段大小分析不是我/派克靴我消化。一个完整的LBS周期需要≈3天。第1天,进行切割和结扎反应,并对细菌进行转化和培养;第2天包括菌落采集和细胞生长;第3天包括质粒制备和插入物大小分析。

为了通过LBS有效连接多个DNA片段,一开始就必须制定计划()允许在每个LBS循环中受体和供体载体的抗性标记物的交替(ii(ii))定义将synthon克隆到哪个LBS向量,以及()最小化并行处理所需的周期数。在中的示例中图1,两个DNA片段位于含有Tet的父载体上R(右)+抄送R(右)和StrR(右)+公里R(右)将标记连接起来,得到一个具有独特Tet的双片段质粒R(右)+公里R(右)标记对;通过交替父载体,两片段质粒产物携带一个StrR(右)+抄送R(右)标记对。这些双片段质粒产物的LBS产物产生一个四片段质粒,该质粒具有独特的TetR(右)+抄送R(右)标记对。因此,通过适当的规划以最小化LBS循环和并行处理,该方法可以递归地用于有效地将任意数量的片段组装成单个连续的DNA片段。图2显示了用于将八个DNA片段连接在一起以形成3408-bp PKS模块的树状图。如图所示,序列的构建需要七个结扎,这些结扎可以在三个3天的周期内并行进行。在第一个周期中,将八个克隆到相应姐妹质粒中的单个DNA片段连接起来,形成四个双片段质粒。在下一个循环中,将每个双片段质粒连接到另一个双片段插入物上。在第3周期中,将两个四片段插入物组合在一起,得到3408-bp的模块。包括合成组分合子,a≈5 kb序列的制备需要≈3周,≈10个这样的序列可以同时处理。

保存图片、插图等的外部文件。对象名称为zpq0440463250002.jpg

3408-bp PKS模块的三周期八片段LBS合成计划树状图。指定的合成子编号、插入长度(以bp为单位)和LBS所用的抗性标记均已显示。以类似的方式计划和准备其他序列。

到目前为止,LBS的当前版本在获得所需产品方面取得了90%以上的成功,很少有失败是由于共转化的母体质粒污染或英国广播公司I.我们注意到,通过在合成片段末端包含一个限制性位点,如LBS的第一个版本(15)以及此处所述的与插入相邻的IIS站点类型,这两种方法的优点都可以实现。该系统的多功能性可以通过包括自动变速箱引物站点中的B个站点将启用网关克隆作为选项。

将≈5-kb片段组装成基因簇。下一阶段是连接≈5-kb片段以形成PKS基因,并将这些基因组合成转录单位,进而形成全基因簇。PKS ORF的≈5-kb片段设计为包含独特的5′和3′限制位点,这将有助于构建这些大序列(图3表2). N端模块用恩德我在起始密码子和Xba公司我站在C终点站。内部模块以Spe公司我网站上有一个Xba公司我的网站在ACP的末尾。C末端组分(硫醚酯酶和C末端连接物)具有Spe公司I位于N终点和生态C终点站的RI站点。设计为3′Xba公司N端子或内部模块的I悬挑可与5′连接Spe公司相邻模块、连接子或硫醚酯酶的悬挑,同时破坏两个位点(图3).

保存图片、插图等的外部文件。对象名称为zpq0440463250003.jpg

合成DEBS ORF、TU和基因簇的构建。(顶部)将DEBS ORF的组分从LBS载体中分离出来,组装成pUC衍生物,得到pKOS 422-33-1(DEBS 1)、pKOS 4282-51-1(DEBS2)和pKOS 222-31-2(DEBS 3)。(中部)TU克隆载体pKOS 422-174-3是通过克隆一个270 bp的合成片段创建的,该片段包含5′-3′的Bgl公司II位点,T7启动子(Pr),a紫胶算子(Op),核糖体结合位点(RBS),Nde公司我/生态RI克隆位点、T7转录终止子(TT)和Mfe公司我限制站点进入Bgl公司二/经济效益pET22b的I位点。DEBS的ORF被删除为Nde公司IT7公司/生态RI片段并克隆到Nde公司我/生态pKOS 422-74-3的RI位点生成TUs pKOS 4282-80-1(DEBS 1)、pKOS 222-80-2(DEBS一)和pKOS 42.2-80-3(DEBS壹)。(底部)Xba公司我/派克靴含有DEBS 3 TU的pKOS 422-80-3的I片段被克隆到Spe公司我/派克靴I pKOS 422-80-2的位置,靠近DEBS 2 TU,以提供pKOS 428-81-1。这个Xba公司我/派克靴将该质粒的I片段插入Spe公司我/派克靴包含DEBS 1 TU的pKOS 422-80-1的I位点获得三个ORF基因簇pDE1。

表2。

DEBS ORF的合成成分
合成子
ORF公司组件大小bp氨基酸编码*5′位点3′站点设计替代品不。大小范围,bp
DEBS1公司负载模块1,6141-538Nde公司Xba公司A537S;A538S型528-559
模块14,440537-2016Spe公司Xba公司V560I;E1436O型9370-754
模块24,3442015年3462年Spe公司Xba公司G2015S;G2016S;L2908O型10325-737
C端子连接器2523461-3544 (+3)Spe公司生态RI公司G3461S;T3462S型1252
DEBS2公司模块34,4161-1472Nde公司Xba公司V1471S病毒;G1472S型9326-737
模块46,0601471-3490Spe公司Xba公司F3489S;A3490S型13377-642
C端子连接器2373489-3567 (+3)Spe公司生态RI公司-1237
DEBS3公司模块54,3981-1466Nde公司Xba公司第900页9376-718
模块64,2901465-2894Spe公司Xba公司V1465S;G1466S;A2357Q型9355-735
硫酯酶8342893-3170Spe公司生态RI公司D2893S型2417-422

除了特定的修改,合成基因的序列被设计为编码根据最近修正的DEBS基因簇序列(GenBank)预测的蛋白质AY661566年).

*相邻成分有两个重叠的密码子,提供3′Xba公司I(TCTAGA)和5′Spe公司I(ACTAGA)结扎部位;在连接时,两个位点都被破坏,并在部件的连接处提供编码SS的碱基(TCTAGA)
C-末端连接子有九个碱基(GGGAATTCN),编码三个氨基酸,GNS,添加到自然序列中以包含生态3′端RI克隆位点;GGGAATTCN用于编码硫酯酶C末端的天然GNS

靶向合成的PKS基因簇之一是编码红霉素苷元结构的6-deoxyerythronolide B synthase(DEBS)簇。我们从中列出的10个组件设计了集群表2在组装的下一步使用之前,通过DNA测序验证每个成分的准确性,包括制作DEBS基因簇的三个大ORF。这些ORF包括包含加载域的10.6-kb DEBS 1,以及模块1和2;包含模块3和4的10.7-kb DEBS 2;9.5-kb的DEBS 3包含模块5和6,其次是硫酯酶结构域。

用于将组件组装成PKS ORF的几种策略之一使用了一种特殊的ORF克隆载体,该载体包含一个5′Nde公司I–不是I–Spe公司I–生态RI多克隆站点(图3). 组装是通过将前两个ORF的C末端连接子或第三个ORF中的硫酯酶结构域克隆到Spe公司我/生态ORF载体的RI位点。然后按顺序克隆内部模块(如果不止一个),如不是我/Xba公司I片段从LBS向量中剪切到不是我/Spe公司ORF载体的I位点;这个结扎破坏了Spe公司我站点的ORF向量又引入了另一个派生自合成片段。最后,N端模块被克隆到Nde公司我/Spe公司我网站要完成ORF的建设。因此,三个DEBS ORF被组装在单个载体中,两侧有独特的5′Nde公司I和3′生态RI站点。

接下来,三个DEBS ORF被转换为转录单位(TU),其中每个ORF前面都有一个5′T7启动子和一个核糖体结合位点,后面是一个3′转录终止子(图3). 用一个270 bp的合成插入物构建了一个特殊的TU克隆载体,该插入物含有T7噬菌体的一个具有重叠的紫胶运算符、Shine–Dalgarno序列和T7转录终止子;Nde公司我/生态适当放置RI位点以插入PKS ORF,以及5′Xba公司I和相邻3′Spe公司我和派克靴I站点位于末端,用于动员整个TU。三个DEBS ORF中的每一个都被克隆到Nde公司我/生态要创建相应TU的RI矢量站点。

最后,组装三个DEBS TU,得到一个pDE1,其中包含31656-bp连续序列的合成DNA,其中包含完整的DEBS基因簇(图3). 对于此组件Xba公司我/派克靴DEBS 2 TU的I片段被克隆到Spe公司我/派克靴DEBS 1 TU的I站点,然后Xba公司我/派克靴DEBS 3的ITU被克隆到Spe公司我/派克靴包含DEBS 1+DEBS 2 TU的载体的I位点。PDE1完全测序,以验证其具有预期的成分DNA序列。

什么时候?大肠杆菌K207-3公路(22)用IPTG诱导携带pDE1,在可溶性蛋白的SDS/PAGE上观察到较大的DEBS亚基,用液相色谱-MS观察到6-dEB。

观点。与其他程序相比,我们制备长而准确的DNA序列的策略具有许多优势。该方法始于高通量合成和克隆约500 bp长的DNA序列,称为合成子,作为较长序列的主要构建块。使用较小片段而不是较大片段的好处是,它们的合成可以并行进行,完美序列的频率足以通过序列筛选进行简单的识别。然后,利用LBS将≈500 bp的合成子有效地组装成≈5 kb的多合成子序列。我们目前的LBS方法对所有连接使用相同的三种限制性内切酶,以便保留其他限制性内切酶供以后使用,并且通过双抗生素选择简单地纯化连接产物。通过并行处理,在≈2周内可以从较短的组分中制备出约10≈5kb的精确DNA片段。最后,通过高效但传统的克隆方法将≈5-kb序列组装成更大的序列。

利用这些方法,我们已经制备了30多个PKS基因模块,包括DEBS基因簇的所有7个模块及其硫酯酶结构域。DEBS基因簇的模块化成分进一步组合成一个完整的DEBS基因群,由31.7 kb的连续合成DNA组成。基因簇的功能通过成功表达聚酮合成酶并在大肠杆菌.

尽管在这里应用于模块化PKS基因簇,但目前掌握的技术可以用于合成这种大小的任何序列,并且这些序列可以组合起来产生更长的序列。提出这里描述的DNA合成技术将挑战制造人工染色体甚至预测性合成最小基因组的任务并非不切实际(11).

致谢

我们感谢大卫·霍普伍德帮助我们准备手稿。这项工作得到了国家标准与技术研究所高级技术项目拨款70NANB2H3014的部分支持。

笔记

作者贡献:S.J.K.、R.R.、H.G.M.、M.W.和D.V.S.设计的研究;S.J.K.、K.G.P.、H.G.M.和M.W.进行了研究;S.J.K.、K.G.P.、R.R.、H.G.M.、M.W.和D.V.S.分析数据;D.V.S.写了这篇论文。

缩写:DEBS,6-deoxyerythonolide B synthase;EF,错误频率;LBS,选择性结扎;LIC,连接无关克隆;PCA,聚合酶循环组装;PKS,聚酮合酶;TU,转录单位;UDG/LIC,尿嘧啶DNA糖苷酶/连接无关克隆。

数据保存:本文中的序列已保存在GenBank数据库中(登录号AY661566和AY771999)。

脚注

在合成化学中,合成子被定义为“分子中与可能的合成操作有关的结构单元”(13).

工具书类

1Khorana,H.G.、Yamada,T.、Weber,H.、Terao,T.和RajBhandary,U.L.、Otsuka,E.、Kumar,A.、Gupta,N.K.、Buchi,H.和Agarwal,K.L。,等。(1972)分子生物学杂志。 72,209-217. [公共医学][谷歌学者]
2Sekiya,T.、Takeya,T.、Brown,E.L.、Belagaje,R.、Contreras,R.,Fritz,H.J.、Gait,M.J.,Lees,R.G.、Ryan,M.J、Khorana,H.G。,等。(1979)生物学杂志。化学。 254,5787-5801. [公共医学][谷歌学者]
三。Itakura,K.、Hirose,T.、Crea,A.D.、Riggs,A.D.,Heyneker,H.L.、Bolivar,F.和Boyer,H.W.(1977)科学类 198,1056-1063. [公共医学][谷歌学者]
4Smith,H.O.,Hutchison,C.A.,III,Pfannkoch,C.&Venter,J.C.(2003)程序。国家。阿卡德。科学。美国 100,15440-15445.[PMC免费文章][公共医学][谷歌学者]
5Dillon,P.J.&Rosen,C.A.(1990年)生物技术 9,298-300. [公共医学][谷歌学者]
6Prodromou,C.和Pearl,L.H.(1992)蛋白质工程。 5,827-829. [公共医学][谷歌学者]
7Stemmer,W.P.、Crameri,A.、Ha,K.D.、Brennan,T.M.和Heyneker,H.L.(1995)基因 164,第49-53页。[公共医学][谷歌学者]
8胡佛,D.M.和卢布科夫斯基,J.(2002)核酸研究。 30,e43。[PMC免费文章][公共医学][谷歌学者]
9Mandecki,W.、Hayden,M.A.、Shallcross,M.A.和Stotland,E.(1990)基因 94,103-107. [公共医学][谷歌学者]
10大提琴J.、保罗A.V.和威默E.(2002)科学类 297,1016-1018. [公共医学][谷歌学者]
11Hutchison,C.A.,III,Peterson,S.N.,Gill,S.R.,Cline,R.T.,White,O,Fraser,C.M.,Smith,H.O.&Venter,J.C.(1999)科学类 286,2165-2169. [公共医学][谷歌学者]
12Walsh,C.(2003)抗生素:作用、来源、耐药性(美国微生物学会,华盛顿特区)
13Corey,E.J.(1967年)纯应用程序。化学。 14,19-37.[谷歌学者]
14Sambrook,J.、Fritsch,E.F.和Maniatis,T.(1989)分子克隆:实验室手册(纽约州普莱恩维尤市冷泉港实验室出版社),第2版。
15Kodumal,S.J.&Santi,D.V.(2004)生物技术 37,34-40. [公共医学][谷歌学者]
16Fisher,C.L.和Pei,G.K.(1997)生物技术 23,570-574. [公共医学][谷歌学者]
17Zhang,H.、Howard,E.M.和Roepe,P.D.(2002)生物学杂志。化学。 277,49767-49775. [公共医学][谷歌学者]
18Rashtchian,A.、Buchman,G.W.、Schuster,D.M.和Berninger,M.S.(1992)分析。生物化学。 206,91-97. [公共医学][谷歌学者]
19钱伯斯,R.S.&约翰斯顿,S.A.(2003)自然生物技术。 21,1088-1092. [公共医学][谷歌学者]
20Smith,C.,Day,P.J.R.和Walker,M.R.(1993)PCR方法应用。 2,328-332. [公共医学][谷歌学者]
21Wells,J.A.、Cunningham,B.C.、Graycar,T.P.和Estell,D.A.(1986)菲洛斯。事务处理。R.Soc.伦敦 317,415-423.[谷歌学者]
22Murli,S.、Kennedy,J.、Dayem,L.C.、Carney,J.R.和Kealey,J.T.(2003)《工业微生物学杂志》。生物技术。 30,500-509. [公共医学][谷歌学者]

文章来自美国国家科学院院刊由提供美国国家科学院