跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
EMBO代表。2000年9月15日;1(3): 287–292.
数字对象标识:10.1093/embo-reports/kvd058
预防性维修识别码:项目编号:1083732
PMID:11256614

大规模cDNA测序鉴定新蛋白的系统亚细胞定位

摘要

与生物信息分析相比,生物信息分析只能对约一半已测序的cDNA进行功能预测,作为对cDNA进行更全面的功能表征的第一步,我们开发并测试了一种允许其系统快速亚细胞定位的策略。我们使用一种新的克隆技术快速生成cDNA的N端和C端绿色荧光蛋白融合物,以检测活细胞中>100个表达的融合蛋白的细胞内定位。整个分析适合于自动化,这对于扩大吞吐量非常重要。对于>80%的这些新蛋白,可以确定其在已知结构或细胞器中的明确胞内定位。对于生物信息学分析能够预测可能身份的cDNA,定位能够在75%的病例中支持这些预测。对于那些无法预测同源性的cDNA,定位数据代表了第一个信息。

简介

将现在可用的大量DNA序列信息与信息量更大的功能数据进行协调,是现代生物学中的一个基本问题。基因组和cDNA测序项目生产率的快速增长(邓纳姆等。, 1999;基库诺等。2000年; S.维曼现在,全球范围内提供了一个基本的基础,下一个任务是以足够高的吞吐量将序列与功能关联起来。由于真核细胞,特别是哺乳动物细胞是高度分隔的,因此在大多数情况下,蛋白质的定位与其功能紧密相关。延伸这一点,我们想到了这样一个概念:将蛋白质的细胞内定位知识与其来源的DNA序列及其生物信息学分析相结合,将使我们对其功能有一个切实的感受。事实上,很明显,尽管序列数据库迅速扩展,但仅凭序列比较和生物信息学分析仍然不足以确定新cDNA的功能(Eisenhaber和Bork,1998年). 作为大规模cDNA测序项目鉴定的新cDNA系统功能表征的第一步,我们设计并测试了一种策略,用绿色荧光蛋白(GFP)光谱变体的编码序列系统标记新cDNA的开放阅读框(ORF),随后在细胞中表达融合蛋白并确定其亚细胞定位。

结果和讨论

如果要启动ORF和编码蛋白的大规模功能分析的任何策略,显然这些方法需要具备自动化的潜力。因此,必须解决的主要问题之一是高容量克隆系统的可用性和应用。ORF的克隆需要快速、高效和定向,并与一系列表达载体兼容,因此,任何试图分析大量目标ORF的传统方法都无法满足所有这些标准。为此,我们调整并应用了Gateway™克隆系统,最近由沃尔浩特等。(2000年)。该系统允许通过重组克隆扩增的ORF,从而避免了筛选克隆载体克隆位点中存在但不存在于所述ORF中的限制性位点的需要。

通过PCR扩增ORF,然后在单管(BP)反应中克隆产物,从而生成与任何Gateway™表达载体兼容的通用“入口克隆”(图(图1;1; 另请参见方法)。随后,再次通过重组将进入克隆的插入物克隆(LR反应)到合适的GFP表达载体中(参见方法),使ORF表达为氰荧光蛋白(CFP,N末端融合)或黄色荧光蛋白(YFP,C末端融合)融合蛋白(图(图1;1; 另见方法)。然后将产生的ORF–GFP融合质粒转染到哺乳动物细胞中,并在转染后的不同时间点分析活细胞中的表达,并记录定位结果。在这些多个时间点对细胞进行监测,可以使表达水平增加的任何影响与表达时间相关联。表达48小时后,将细胞固定并保存,以便酌情进行进一步的免疫荧光分析。为了测试克隆和转染策略的可靠性,我们首先选择了亚细胞定位特征良好的已知蛋白质。用Gateway™克隆系统扩增代表这些蛋白质的ORF,克隆到CFP和YFP载体中,然后转染到细胞中。从这些对照实验中,我们发现九分之七的GFP标记蛋白如预期的那样定位,代表了细胞核、高尔基复合体和微管等结构。(这些数据可在项目网站上获得:http://www.dkfz-heidelberg.de/abt0840/GFP网站/)这些结果表明,这里描述的方法,特别是融合蛋白上存在的Gateway™重组肽,只会对少数示例中的蛋白质定位造成干扰,因此应适用于以高度确定性确定新蛋白质的定位。

保存图片、插图等的外部文件。对象名称为kvd05801.jpg

图1。新cDNA编码蛋白质的快速系统定位和功能表征策略。使用自动设计的引物PCR扩增单个全编码cDNA,并在5′端和3′端分别添加重组序列attB1和attB2。然后将这些产物重组到入口克隆中,作为所有表达载体的通用材料来源。N端和C端GFP(CFP/YFP)融合表达载体均由进入克隆在单个重组反应中生成。然后将这些克隆转染到细胞中,并记录融合蛋白的定位。然后,将该信息与序列分析产生的生物信息数据相结合,并在适当时使用室特异性抗体进行额外的免疫染色。

图22显示了在新cDNA实验中观察到的明确亚细胞定位示例,包括核仁、线粒体、分泌途径膜和细胞骨架元素。总共测试了107个ORF,每个ORF有两个独立的N端和C端融合,共有428个转染。重要的是,这些结果在细胞类型之间也高度一致。在对照实验中,在人类HeLa细胞中测试了14例这些不同的定位,发现观察到的定位与猴Vero细胞中记录的原始数据没有区别。同样,项目网站上提供了完整的数据。

保存图片、插图等的外部文件。对象名称为kvd05802.jpg

图2。cDNA–GFP融合表达并定位于多种细胞内区室。依次用每个cDNA–GFP转染Vero细胞,并允许其在方法中规定的时间内表达蛋白质。对细胞进行活体成像并记录定位。该图显示了观察到的十二个本地化示例,并使用箭头指示适当的特定结构。数字表示在所示类别中表达和定位的单个cDNA分子的百分比。其他未描述的类别包括高尔基体和质膜定位(6%)、其他未知定位(8%)和无表达(1%)。棒材,10µm。

正如预期的那样,大量cDNA产物定位于细胞质(18%)或细胞核(12%);然而,大量的分子也被发现与分泌途径有关(28%)。此外,还鉴定了线粒体蛋白(5%)和细胞骨架结构(3%)。另外还指出了一个类别(其他/未知)(8%的cDNA产物),指的是从视觉分析中不容易识别的结构。在一些例子中,这些可能是蛋白质聚集体或GFP标签抑制膜结合的蛋白质(例如Rab蛋白质)。在其他例子中,可以看到在随后的免疫染色分析中没有与任何已知的细胞器标记物共同定位的大型球状结构。其余21%的cDNA产物定位于细胞质和细胞核,而这个群体提供的信息最少。

使用GFP的一个常见问题是,它对相关分子的哪一端应该融合至关重要(参见例如。规模等。, 1997). 然而,这里使用的克隆方法允许我们在单个反应中生成N端和C端GFP融合,因此我们能够立即确定GFP对蛋白质靶向信号的任何异常影响。显然,这似乎对定位研究至关重要,因为观察到的许多模式只在特定的融合顺序中出现。最引人注目的例子是线粒体蛋白的鉴定。在定位于该隔室的五种蛋白质中,在每种情况下,ORF–YFP融合序列都给出了特定的线粒体定位,而CFP–ORF序列给出了核和细胞溶质定位(表明GFP靶向)。很明显,由此推断出,N端线粒体靶向信号的任何扰动都会破坏该蛋白质正确定位的能力。分泌途径的蛋白质也有进一步的例子;在生物信息学分析预测存在信号肽的情况下,只有定向ORF–YFP正确定位于内质网(ER)。然而,例如,在预测外周膜蛋白的地方,ORF–YFP和CFP–ORF结构都定位于ER模式。因此,这里提出的策略在很大程度上避免了由于GFP标签的错位而导致丢失整个类别蛋白质的危险。

接下来,我们考虑了cDNA生物信息分析数据相对于其实际定位的有用性。对于47%的这些新cDNA,生物信息学能够基于序列相似性或预测域进行一些预测。生物信息学信息的相似性和有用性的强弱差异极大。例如,一个cDNA(DKFZp564J1864)与家族犬微粒体信号肽酶23kDa亚单位,因此被认为是该蛋白的人类同源物。确定的实际定位是ER,从而有效地证实了预测。生物信息学预测的较低同一性值通常也被证明是有价值的。一个cDNA(DKFZp564I2482)的最高相似性是与来自黑腹果蝇。观察到的该cDNA产物的定位是细胞核,因此为该生物信息学预测增添了力量。另一种RNA解旋酶(DKFZp564C183)也通过cDNA序列分析预测。然而,与前面的例子相反,这个cDNA产物定位于核膜。因此,有可能在这种情况下,定位数据使我们能够区分两种具有不同功能的解旋酶:第一种参与RNA成熟,第二种参与RNA运输到胞浆。这个例子清楚地表明,这里的数据不仅证实或反驳了生物信息学的预测,而且可以用对功能预测有影响的重要信息来扩展它们。总的来说,获得的结果表明,对cDNA的生物信息学预测得到支持的案例比被反驳的案例多出三倍。然而,也许更重要的是,生物信息学分析无法对53%的cDNA和编码蛋白进行任何同源性预测。因此,对于这些cDNA产品,它们在活细胞中的离散隔间的特定定位提供了第一批数据。由于空间限制,本工作生成的完整数据集(包括生物信息分析结果和每个cDNA的定位图像)无法在此显示,但它会不断更新,并可在项目网站上免费获取(http://www.dkfz-heidelberg.de/abt0840/GFP网站/).

这里生成的工具也为后续分析感兴趣的候选人提供了宝贵的材料来源。这些克隆对于研究蛋白质过度表达的影响、研究蛋白质的运输、揭示可能的翻译后修饰或使用表达的GFP标记蛋白与抗GFP抗体的免疫沉淀来识别相互作用的蛋白质,都是立即有用的。此外,通过这项工作生成的每个ORF的入口克隆可以转移到其他功能上有用的目的载体中:例如谷胱甘肽-转移酶(GST)或他的6融合载体可以方便地纯化感兴趣的蛋白质,或者酵母双杂交载体可以检测相互作用的伙伴(沃尔浩特等。2000年).

总之,我们已经确定了由新的人类cDNA编码的~100个蛋白质的细胞内定位。我们已经适应并证明了一种新的克隆系统的可行性,该系统可以在功能有用的载体之间快速转移编码序列。这使我们能够更好地利用德国cDNA协会生成的大量数据和克隆集,增加了第一个体内数据与先前可用的生物信息学数据进行比较,并推断cDNA产物的可能功能,但没有任何确定的同源性。这种GFP融合定位方法在活细胞中具有优势,因为它快速,生成有价值的试剂,用于进一步分析感兴趣的候选者,并且非常适合自动化和更大的高通量能力。此外,它还可以识别定位于同一亚细胞区室的蛋白质组。这将有助于将后续工作仅集中在那些cDNA上,如这里所确定的定位与特定研究领域相关[例如,基因转录(细胞核)或分泌膜交通(ER、高尔基体、质膜)]。此外,这种方法不需要在识别出感兴趣的定位后对cDNA进行后续的识别和克隆,这在其他基于定位的策略中一直是一个耗时的因素(由Gonzalez和Bejarano,2000年). 显然,人类基因组学的挑战是将相关功能数据分配给正在测序的大量cDNA,而这里提出的方法和数据无疑是朝着这一目标迈出的一步。

方法

本研究中使用的ORF来源。德国cDNA协会的目的是生成和分析尚未发现的人类转录物的cDNA。为了鉴定新的cDNA,已经从胎脑、胎肾、睾丸、杏仁核、黑色素瘤细胞系(MeWo)和一些其他组织中生成了阵列cDNA文库。这些文库被系统地测序,迄今为止已产生了30000多个EST。对5′EST进行生物信息学分析后,选择全长测序的靶点。最终用生物信息学工具对产生的序列进行表征,并分析是否存在新的ORF。在这里描述的项目中,已识别的ORF按顺序扩增,最终目的是筛选由联盟识别的全编码cDNA编码的所有蛋白质。

放大ORF以生成与Gateway™克隆系统兼容的产品。ORF是从cDNA(384个克隆的克隆池、单个克隆或初级cDNA)中扩增出来的,省略了5′和3′UTR。使用PRIDE程序选择PCR引物对(哈斯等。1998年). 将5′扩增引物的ORF特异性部分固定为包括起始剂ATG。设计的3′扩增引物包含编码C末端氨基酸残基的密码子,但省略了终止子三联体,以便表达C末端融合蛋白。PCR引物购自商业供应商(生命科技)。使用高保真扩增系统(罗氏,曼海姆)对ORF进行扩增,以尽量减少PCR错误的数量。借助Qiaquick自旋柱(Qiagen,Hilden)纯化PCR产物。

表达载体的修改。原始EGFP载体(pEGFP-N3和pEGFP-C1)及其颜色变体(pEYFP-N1和pECFP-C1。pEYFP和pECFP载体中的卡那霉素抗性基因分别被庆大霉素和氨苄青霉素抗性基因取代,庆大霉素和氨苄青霉素抗性基因已从标准载体(pLacUV5-gen,Life Technologies和pBluescript,Stratagene)中扩增。然后,Gateway™射频磁带被克隆到钝化的Xho公司我和年龄pEYFP和钝化的I位点Bgl公司II和巴姆pECFP载体的HI位点用于生成与Gateway™兼容的“目的地载体”。这些载体在宿主B462中繁殖,以补偿盒上存在的ccdB基因的表达(伯纳德等。, 1994). 通过测序验证结构的正确方向和阅读框架。

克隆协议。借助Gateway™系统克隆ORF利用噬菌体Lambda重组系统,克服了限制性消化和连接反应的需要。使用Gateway™系统克隆ORF分两步进行。首先,通过BP反应将扩增的ORF克隆到“进入载体”中。由此产生的“入口克隆”随后形成了任何表达构建体的下一代的通用材料来源。为每个ORF挑选并分析两个独立的进入克隆。通过测序来验证ORF的完整性,以排除放大步骤中引入的错误。在LR反应中克隆到EYFP和ECFP表达载体。在相同的管中将pdEYFP和pdECFP载体与进入克隆组合在一起,以执行ORF从进入克隆到目的地载体的同时转移。转化为DH10B(生命技术)后,通过在合适的选择性琼脂平板上电镀来选择相应的目的克隆(氨苄西林用于pdECFP-ORF目的克隆,庆大霉素用于pdEYFP-ORF目的克隆)。

质粒DNA的纯化。使用Macherey和Nagel Nucleobond preps(Macherey、Nagel、Dueren),在Qiagen生物机器人9600(Qiangen、Hilden)的帮助下,以96-well格式制备质粒DNA。或者,使用Qiawell Ultra试剂盒(希尔登Qiagen)制备DNA。在核糖体预处理的帮助下制备的DNA质量足以用于转染,因此主要用于制备表达质粒DNA。

转染。Vero细胞(ATCC CCL81)常规培养于MEM中,MEM补充有10%胎牛血清、100 IU青霉素和100µg/ml链霉素,37°C,5%湿CO2孵化器。转染细胞前一天,将细胞以20%的密度置于35 mm的玻璃底培养皿中(马萨诸塞州MatTek Corp.)。根据制造商的说明,在转染当天,使用1µg每种DNA和3µl FuGENE6(罗氏,曼海姆)转染细胞。

数据收集和图像分析。所有数据采集和图像分析均在海德堡EMBL的高级光学显微镜设施进行(http://www.EMBL-Heidelberg.DE/ExternalInfo/almf/index.html).

在转染细胞后16、24和40小时,在与10 mM HEPES pH值7.4平衡的无碳酸盐培养基中对细胞进行成像(希马等。, 1999)在带有63×NA 1.4PL Apo物镜的徕卡DM/IRBE显微镜上,使用定制设计的CFP或YFP滤波器(斯蒂芬斯等。2000年). 使用Openlab 2.0软件(英国考文垂Improvision),使用哈马松电荷耦合设备相机(ORCA 1)拍摄图像。使用Adobe Photoshop 5.0分析图像。

免疫荧光和GFP融合蛋白定位的测定。某些结构的鉴定相对清晰:例如细胞质、细胞核、核仁、核膜、线粒体、内质网和质膜。对于其他结构,我们还考虑了生物信息学预测,然后再指定定位类别:例如过氧化物酶体和局部粘附位点。在N端和C端融合定位不一致的情况下(一个融合序列给出不同的结构,另一个给出细胞核和细胞质),由于GFP掩盖了适当的靶向信号,在将细胞核和胞浆定位视为异常之前,也考虑了生物信息学预测。对于其他结构,将细胞在–20°C的甲醇中固定4分钟,然后用磷酸盐缓冲盐水洗涤。使用针对已知蛋白质的初级抗体进行免疫荧光,例如微管(抗α-微管蛋白;Amersham)和高尔基复合体(来自英国国际癌症研究基金会David Shima的抗栀子苷和抗GM130)(抗β-COP;Pepperkok公司等。, 1993).

生物信息分析。使用BLASTN将每个cDNA序列与EMBL和EMBL-EST数据库中的序列进行比较。通过搜索三个前向帧中每个帧中最长的ORF(最小长度为90个密码子)来确定推测的蛋白质序列。使用BLASTX程序将推导的蛋白质序列与包含PIR、SWISPROT和TREMBL的非冗余蛋白质数据库进行比较。通过功能域分析(PFAM)筛选命中率的显著性,最后选择最显著的命中率作为参考。

致谢

我们感谢David Shima提供的抗体,Philippe Bastiaens、Jan Ellenberg、Wilhelm Just和David Stephens提供的已知DNA克隆,以及Cayetano Gonzalez和Martin Lowe对这份手稿的批判性阅读。我们感谢Daniel Bongartz、Oliver Heil和Lars Ebert在数据网络演示方面的帮助。我们感谢德国cDNA协会提供cDNA克隆和序列。我们感谢Life Technologies对网关技术的先进访问。EMBL的先进光学显微镜设备(ALMF)由Bitplane(瑞士)、Eppendorf(德国)、Improvision(英国)、Zeiss(德国),Leica(德国”)、Olympus(欧洲)、Omicron(德国。J.C.S.由EMBO长期奖学金资助。

参考文献

  • Bernard P.,Gabant,P.,Bahassi,E.M.和Couturier,M.(1994)使用F质粒ccdB杀伤基因的阳性选择载体。基因,148,71–74。[公共医学][谷歌学者]
  • 邓纳姆一世。.(1999)人类22号染色体的DNA序列。自然,402, 489–495. [公共医学][谷歌学者]
  • Eisenhaber F.和Bork,P.(1998)通缉:基于序列的蛋白质亚细胞定位。趋势细胞生物学。,8, 169–170. [公共医学][谷歌学者]
  • Gonzalez C.和Bejarano,L.A.(2000)《蛋白质陷阱:利用细胞内定位进行克隆》。趋势细胞生物学。,10, 162–165. [公共医学][谷歌学者]
  • Haas S.,Vingron,M.,Poustka,A.和Wiemann,S.(1998)大规模测序的引物设计。核酸研究。,26, 3006–3012.[PMC免费文章][公共医学][谷歌学者]
  • Kikuno R.、Nagase T.、Suyama M.、Waki M.、Hirosawa M.和Ohara,O.(2000)HUGE:Kazusa cDNA测序项目中确定的人类大蛋白数据库。核酸研究。,28, 331–332.[PMC免费文章][公共医学][谷歌学者]
  • Pepperkok R.、Scheel,J.、Horstmann,H.、Hauri,H.P.、Griffiths,G.和Kreis,T.E.(1993)Beta-COP对于从内质网到高尔基复合体的生物合成膜运输至关重要体内.单元格,74, 71–82. [公共医学][谷歌学者]
  • Scales S.J.、Pepperkok,R.和Kreis,T.E.(1997)活体细胞中ER-高尔基体转运的可视化揭示了COPII和COPI的顺序作用模式。单元格,90, 1137–1148. [公共医学][谷歌学者]
  • Shima D.T.、Scales,S.J.、Kreis,T.E.和Pepperkok,R.(1999)内质-颗粒-高尔基体转运复合物中富含COPI和富含顺行银的结构域的分离。货币。生物。,9, 821–824. [公共医学][谷歌学者]
  • Stephens D.J.、Lin-Marq,N.、Pagano,A.、Pepperkok,R.和Paccaud,J.-P.(2000)COPI涂层的ER-Golgi转运复合体在ER出口位置与COPI分离。细胞科学杂志。,113, 2177–2185. [公共医学][谷歌学者]
  • Walhout A.J.M.、Sordella,R.、Lu,X.、Hartley,J.L.、Temple,G.F.、Brasch,M.A.、Thierry-Mieg,N.和Vidal,M.(2000年)线虫使用与外阴发育有关的蛋白质。科学类,287, 116–122. [公共医学][谷歌学者]

文章来自EMBO报道由以下人员提供自然出版集团