A reversible gene trap collection empowers haploid genetics in human cells

Tilmann Bürckstümmer; Carina Banning; Philipp Hainzl; Richard Schobesberger; Claudia Kerzendorfer; Florian M Pauler; Doris Chen; Nicole Them; Fiorella Schischlik; Manuele Rebsamen; Michal Smida; Ferran Fece de la Cruz; Ana Lapao; Melissa Liszt; Benjamin Eizinger; Philipp M Guenzl; Vincent A Blomen; Tomasz Konopka; Bianca Gapp; Katja Parapatics; Barbara Maier; Johannes Stöckl; Wolfgang Fischl; Sejla Salic; M Rita Taba Casari; Sylvia Knapp; Keiryn L Bennett; Christoph Bock; Jacques Colinge; Robert Kralovics; Gustav Ammerer; Georg Casari; Thijn R Brummelkamp; Giulio Superti-Furga; Sebastian M B Nijman

doi:10.1038/nmeth.2609

自然方法。作者手稿；PMC 2019年1月22日提供。

以最终编辑形式发布为：

自然方法。2013年10月；10(10): 965–971.

2013年8月25日在线发布。数字对象标识：10.1038/neth.2609年10月10日

预防性维修识别码：PMC6342250型

EMSID:EMS81262标准

PMID：24161985

可逆基因陷阱收集增强人类细胞单倍体遗传学

蒂尔曼·比尔克斯特·默尔（Tilmann Bürckstümmer）,¹ 卡琳娜·班宁,¹ 菲利普·海因策,^1,² 理查德·肖贝伯格（Richard Schobesberger）,¹ 克劳迪娅·克岑多夫,² 弗洛里安·保勒,² 多丽丝·陈,² Nicole他们,² Fiorella Schischlik公司,² 曼努埃尔·雷布萨曼,² 米查尔·斯米达,² 费兰·费斯·德拉克鲁斯,² 安娜·拉帕（Ana Lapao）,^1,² 梅丽莎·李斯特,^1,² 本杰明·艾辛格,¹ 菲利普·M·根策尔,² 文森特·布洛曼,^三托马斯·科诺普卡,² 比安卡·加普,² 卡加寄生虫,² 芭芭拉·梅尔,^2,⁴ 约翰内斯·施特克尔,⁵ 沃尔夫冈·费希尔,¹ 塞伊拉·萨利奇,¹ M Rita Taba Casari女士,¹ 西尔维娅·纳普,^2,⁴ 凯琳·本内特,² 克里斯托夫·博克,² 雅克·科林奇,² 罗伯特·克拉洛维奇,² 古斯塔夫·阿莫勒,⁶ 乔治·卡萨里,¹ Thijn R Brummelkamp公司,^2,^三朱利奥·苏佩蒂·弗加,²和塞巴斯蒂安·M·B·奈曼²

作者信息版权和许可信息 PMC免责声明

关联数据

补充资料: 补充材料。
NIHMS81262补充-1.pdf（210万）
GUID:98E8A007-90A5-47DA-AC4D-4850F7F5DA13

摘要

敲除收集是研究模型生物（如酵母）的宝贵工具。然而，目前还没有大规模的人类细胞敲除收集。利用近单倍体人类细胞中的基因陷阱诱变，我们建立了一个平台来生成和分离单个“基因陷阱细胞”，并用它来制备携带单个基因陷阱插入的人类细胞系集合。在大多数情况下，插入可以反转。这个不断增长的文库包含3396个基因，占表达基因组的三分之一，是DNA条形码，可以对多种细胞表型进行系统筛选。我们检测了细胞对TNF-α、TGF-β、TNF-γ和TNF-相关凋亡诱导配体（TRAIL）的反应，以说明这一独特的等基因人类细胞系集合的价值。

在整个人类基因组测序十年后，约20000个蛋白编码基因的功能注释仍不完整。因此，需要系统和可扩展的方法来查询基因产品的生物功能。在模式生物中，通过基因失活来阐明蛋白质功能是一种非常有价值的方法。但由于许多人类疾病基因在低等真核生物中缺乏同源基因，因此这些生物体对研究人类病理学的适用性有限。

大多数高等生物实验遗传学的一个主要障碍是，它们的基因组是二倍体，掩盖了单个等位基因的失活。然而，并没有基本的生物学原因表明单倍体基因组会阻止正常的细胞行为。例如，单倍体鱼类和两栖类已经产生，马赛克鸡的实验表明单倍体细胞可以形成多种血统¹^–^三此外，最近从Medaka鱼类和小鼠中获得了单倍体胚胎干细胞，并证明其具有多能性，突显出单倍体细胞的行为与二倍体细胞相似的概念⁴^–⁶.

在人类中，白血病中经常观察到亚二倍体，并且从慢性粒细胞白血病（CML）患者样本中亚克隆了一种稳定的近单倍体细胞系（KBM7），该样本含有业务连续性审查-ABL1公司基因融合⁷^–⁹与许多其他已建立的人类细胞系相比，KBM7细胞可以被重新编程为诱导的多能干细胞，表明它们保持分化为所有三个胚层的潜能¹⁰.

最近，利用基因陷阱逆转录病毒对近单倍体细胞进行突变，已被用于灭活人类基因，并筛查诸如增殖缺陷或对病原体感染的敏感性等表型¹¹^–¹⁹然而，由于这些筛选必须在约1亿个细胞的大池中进行，因此迄今为止，它们仅限于对抗毒剂（例如病毒、细菌毒素或药物）的突变株进行阳性选择。阵列收集可以对单个克隆或克隆的集中子集进行详细调查，尽管同时培养大量克隆将是一项挑战。我们启动了一项大规模的工作，对含有单个基因陷阱的细胞进行亚克隆，目的是建立一个基因突变细胞系的文库。我们通过以下途径为科学界提供了这一独特的人类细胞克隆集合：http://clones.haplogen.org/，这将增强人类细胞的遗传学能力。

结果

KBM7细胞的基因组和蛋白质组特征

我们详细分析了KBM7细胞的遗传组成以及表达的mRNA和蛋白质的储备。此前，光谱核型分析显示，大多数KBM7亚克隆包含25条染色体，并且是第8染色体的二倍体（核型25，XY，第8染色体二联体，包含费城染色体易位）⁷^,¹¹事实上，FACS分析表明间期细胞含有~1N个染色体(图1a). 虽然这种近单倍体核型在几个月的培养中是稳定的，但偶尔会出现二倍体细胞(图1a)可能是通过有丝分裂不分离²⁰.

在单独的窗口中打开

图1

KBM7细胞的基因组和蛋白质组特征。

(一)通过碘化丙啶染色和FACS分析单倍体和二倍体KBM7细胞的细胞分裂素Giemsa染色和DNA含量。比例尺，20μm。(b条)KBM7细胞的圆形图。从外到内圈显示带有细胞遗传学带和着丝粒的染色体（红色）；纯合子（橙色）和杂合子（紫色）变体，双基因区以绿色突出显示，完全缺失以红色突出显示已知的SNV（在dbSNP构建137、dbSNP建立129、1000 Genomes版本2012年4月、Exome Variant Server 5400或6500中列出）描述为蓝色，“唯一”（未在上述任何数据库中列出）表示为绿色，COSMIC（版本61）表示为黄色，移码为浅蓝色，停止键变体为红色勾号（后两个在同一个圆圈中）。这个BCR-ABL1型易位和SRGAP1公司-PPM1H（PPM1H）反转显示为灰色带状。(c（c）)比较mRNAs（百万千碱基读取数，RPKM）和蛋白质（指数修正蛋白质丰度指数，emPAI）表达的散布密度图。皮尔逊相关系数P（P）价值(n个= 9,835). (d日)通过蛋白质表达评估所选途径的KEGG途径覆盖率。所有KEGG通路（199条通路）均根据覆盖率进行分类。(e（电子）,（f）)mRNA的超染色体分析(e（电子）)和蛋白质(（f）)级别。第8染色体上基因的mRNA表达(e（电子）,P（P）= 4.5 × 10⁻¹²（Wilcoxon秩和）用于比较所有常染色体(n个=9453），带8号染色体(n个=385））和蛋白质表达(（f）,P（P）=0.002（Wilcoxon秩和），用于将所有常染色体与8号染色体进行比较）。

为了获得高分辨率的KBM7细胞核型，我们进行了高密度单核苷酸多态性（SNP）阵列基因分型(补充表1). 在KBM7细胞中经常发生Y染色体的完全丢失，我们在研究的一些KBM7克隆中观察到了这一点(图1b). 与大部分单倍体基因组一致，我们观察到95%以上的基因存在单拷贝。相反，我们检测到整个8号染色体和15号染色体长臂的一小部分的SNP杂合性和高信号强度，表明这些染色体上的基因存在两个拷贝。这证实了这些基因的二倍体不是通过复制事件产生的，而是在克隆进化过程中保留下来的⁸.

KBM7细胞来源于具有费城染色体的CML患者，并通过白细胞分型显示出骨髓单核细胞谱系的特征(补充表2). CML起源提出了一个问题，即KBM7基因组中可能积累了哪些额外的驱动基因突变。此外，KBM7细胞的单倍体可能在表型上揭示了种系编码的隐性SNP。为了解决这个问题，我们分别以21×和34×覆盖率对外显子和全基因组进行测序，并使用100-base-pair（bp）paired-end reads对信使RNA进行测序(补充表3). 除了BCR-ABL1型易位和潜在的损伤点突变TP53型和槽口1，我们没有观察到髓系恶性肿瘤的复发性畸变。接下来我们使用质谱分析蛋白质组(补充表4). 与之前的研究一致，蛋白质丰度与mRNA水平相关²¹(图1c和补充表5). 至于其他常用的细胞系，约75%的京都基因和基因组百科全书（KEGG）通路由至少50%的注释蛋白质表示(图1d和补充表6). 例如，我们通过蛋白质质谱检测到了多种信号通路（例如胰岛素、VEGF、NOD和PPAR）中注释的大多数蛋白质，这表明可以在KBM7细胞中研究这些通路。

我们注意到来自二倍体8号染色体的基因的mRNA表达增加，可能是拷贝数增加的结果(图1e). 然而，这种差异表达在蛋白质水平上不太明显(图1f). 这表明转录后蛋白质平衡机制可以补偿增加的基因剂量。为了方便和最新地访问上述数据集，我们创建了加州大学圣克鲁斯分校（UCSC）基因组浏览器中心，该中心还包含有关先前绘制的插入位点的信息(http://kbm7.genomebrowser.cemm.at/)¹².

单倍体基因捕捉突变体生成平台

基于基因陷阱的插入突变是通过随机插入剪接受体，然后将GFP标记和终止序列插入基因组，从而干扰基因表达。必须确定插入位点以识别被破坏的基因。额外引入短而独特的DNA序列作为细胞基因组的条形码，可以方便地追踪复杂混合物中的单个克隆，从而实现高效的混合筛选。此外，条形码极大地促进了使用大规模并行测序从多孔板中检索单细胞克隆。因此，我们将随机22-bp DNA序列引入逆转录病毒基因陷阱载体中，以获得高复杂度的条形码向量库(图2a). 我们感染感染倍数小于0.1的KBM7细胞，并将其置于FACS中以检测GFP的表达。尽管GFP公司转基因是无启动子的，基因间或反义插入可能导致低GFP表达，可能是因为长末端重复活性或（神秘的）基因组启动子活性。因此，并非所有GFP⁺克隆破坏了基因的插入。随后，我们使用限制稀释策略接种细胞，将其扩展到96个平板中，并将其储存在液氮中(图2b). 我们绘制了单个克隆的插入位点(图2c和联机方法); 插入位点和DNA条形码序列的例子显示在补充表7.

在单独的窗口中打开

图2

用于生成单倍体“基因标记”细胞的管道。

(一)逆转录病毒基因捕捉载体示意图。SA，剪接受体；LTR，长端子重复。条形码是使用网关克隆策略引入的。(b条,c（c）)克隆生成概述(b条)和条码位置映射(c（c）).

使用这个管道，我们映射了23468个具有相同数量唯一条形码的克隆(图3a). 其中，321个克隆在编码外显子中包含基因陷阱插入，直接破坏了各自的开放阅读框架。如果基因捕获盒插入到感观取向中，则内含子中的插入被预测为诱变。在11766个内含子插入事件中，预计约50%（6352）会影响相应基因的表达。在3396个被捕获的基因中，67%（2289个基因）在FPKM（每百万片段外显子千基片段数）>3处表达，81%（2755个基因）表达在FPKM>1处。正如预期的那样，在捕获的基因中，诸如参与核糖体生物生成、剪接和氨基酸代谢的关键基因未得到充分表达(补充图1和补充表8).

在单独的窗口中打开

图3

基因标记突变体是可逆的，可以类似于基因敲除。

(一)高通量测序管道中绘制的所有基因陷阱整合位点的分布。(b条)逆转录病毒基因捕捉载体示意图，包括平行液氧磷重组位点和品红箭头指示PCR分析的引物位点（顶部）。用逆转录病毒编码和他莫昔芬诱导的Cre重组酶感染克隆4天后的基因组DNA PCR分析。亲代KBM7细胞作为PCR特异性的阴性对照（C）。SA，剪接受体；LTR，长端子重复。(c（c）)用基因陷阱阻断p53表达的KBM7细胞进行Western blot，用Cre重组酶治疗和不治疗。亲代KBM7细胞被用作p53表达的对照。(d日)对指定克隆的mRNA进行RT-PCR分析。设计位于整合位点两侧的外显子PCR引物（如右图所示），用于从顶部所示的突变体中扩增cDNA。(e（电子）)所示克隆的Western blot分析。每个抗体识别的抗原显示在右侧。

由于逆转录病毒载体显示出整合偏差，新捕获的基因比例随着收集的大小而减少。我们使用我们的载体观察到的偏差与之前报道的基于小鼠白血病病毒（MLV）的载体的偏差非常相似²²(补充图2). 我们模拟了捕获的基因和映射的克隆之间的关系，以研究使用我们的策略可以恢复的表达基因的比例(补充图3和4). 根据这一分析，我们估计，要恢复8000个捕获的基因（>表达基因组的75%），需要约35000个突变克隆，这在使用当前平台的范围内。

对171个克隆的FACS分析表明，143个克隆（约84%）在培养4-6周后仍保持单倍体。此外，对八个突变克隆进行的高密度SNP分析显示，只有少数微小的遗传改变，表明遗传漂变有限(补充表9). 有关所有克隆的信息，请访问http://clones.haplogen.org/和中补充表10.

单倍体基因陷阱突变体类似基因敲除

我们使用包含基因捕获盒的载体生成了大多数突变克隆，该载体两侧有液氧磷地点。对于带有内含子插入和液氧磷位点（62%），这允许可逆的基因失活(图3b). 事实上，在感染表达Cre重组酶的逆转录病毒后，基因捕获盒很容易被切除。此外，蛋白质表达得到了恢复，尽管并非所有检测克隆都完全恢复(图3c和补充图5). 这表明在某些情况下，剩余的逆转录病毒和液氧磷序列影响基因转录。

为了说明基因捕捉盒的剪接受体被细胞剪接机制有效利用，从而干扰相关基因转录，我们首先使用了基于逆转录酶（RT）-PCR的验证方法。我们设计了位于基因陷阱插入位点两侧的引物，并用它们从选定的克隆中扩增cDNA。正如预期的那样，基因标签高效剪接到内源性转录物中导致PCR产物的缺失(图3d). 然而，并非所有克隆都显示出PCR产物数量的大幅减少（数据未显示）。尽管在某些情况下，这可能是由于分析的技术局限性所导致的，但这表明在部分克隆中，基因陷阱插入并没有有效地干扰表达。

对于第二组克隆，我们分析了蛋白质表达并进行了定量（q）RT-PCR分析(图3e和补充表10). 低mRNA水平导致在蛋白质水平上无法检测到表达(图3e和补充表11). 我们的结论是，单倍体KBM7细胞的基因捕获可以导致与传统敲除类似的近完全基因失活。

选择突变体的反向遗传分析

我们分析了所选基因标记克隆的表型，以说明其作为研究基因功能的工具的价值。通过肿瘤坏死因子受体1（TNFR1，由TNFRSF1A型基因）有助于炎症疾病，而干扰其功能则彻底改变了类风湿关节炎的治疗²³。包含有效中断的克隆TNFRSF1A型预计对TNF-α刺激不再有反应。确实，突变细胞TNFRSF1A型在TNF-α刺激下，未降解下游靶点IκB-α(图4a；图4中使用的该克隆和其他克隆的qRT-PCR数据如下补充表12). 因此，这些细胞对TNF-α的转录反应几乎完全受损(图4b)对TNF-α诱导的细胞凋亡有抵抗力(图4c). 因此，突变细胞TNFRSF1A型对TNF-α诱导的信号传导是难治的，并为研究TNF介导的作用提供了一个易于操作的工具。

在单独的窗口中打开

图4

突变KBM7细胞的分子图谱建立了基因型-表型关系。

(一)IκB-α水平的Western blotTNFRSF1A型TNF-α刺激的突变细胞和对照细胞。(b条)转录组分析TNFRSF1A型用TNF-α刺激6小时的突变细胞和对照细胞（Affymetrix探针组的散点图）。折叠变化>2以红色表示(c（c）)用CellTiter-Glo测定细胞活力TNFRSF1A型突变体(n个=2个生物复制品；两个样品在同一实验中分别处理和测量）和对照细胞(n个=4个生物复制品）用环己酰亚胺处理12小时，含或不含TNF-α。误差棒，s.d(d日)Western blot分析显示的细胞中磷酸化的SMAD2（Ser465和Ser467），用TGF-β刺激或不治疗（−）。(e（电子）)蛋白质印迹NF1型磷酸化ERK（pERK）的突变体和对照细胞。细胞被血清饥饿过夜。(（f）)磷酸化STAT1（pSTAT1）的蛋白质印迹JAK2号机组用干扰素-γ刺激突变体和对照细胞。(克)转录组分析JAK2号机组用干扰素-γ刺激突变细胞和对照细胞6小时，如b条. (小时)RIP1、裂解半胱天冬酶3（C3）和微管蛋白的Western blot分析CASP8公司用TRAIL刺激突变细胞和对照细胞4小时。箭头表示RIP1断裂。(我)细胞活力CASP8公司用TRAIL处理突变细胞和对照细胞16小时。阿霉素作为阳性对照。误差线，s.d(n个=同一试验中3个独立处理的重复）。(j个)通过qRT-PCR测定的mRNA水平国际单项体育联合会1控制中或ARID2公司用IFN-γ处理突变细胞24小时或不处理。误差线，s.d(n个=3个独立实验）。(k个)FACS直方图猪和PIGX公司用抗CD59-PE抗体染色的突变细胞。

细胞因子TGF-β通过结合TGF-？受体I（TGFBR1）向细胞传递信号。随后与TGF-β受体II（TGFBR2）发生异源二聚反应，导致第二信使下游磷酸化，包括受体激活的SMAD蛋白，其指导涉及细胞周期、凋亡、分化和免疫调节的细胞程序²⁴.突变细胞TGFBR1型或TGFBR2型用TGF-β处理后不能磷酸化SMAD2(图4d). 未来的研究，例如用TGF-β受体点突变体重组的基因标记细胞，可能对揭示TGF-α触发的信号事件很有价值。

神经纤维蛋白1（NF1）编码基因的失活突变会导致遗传性和散发性癌症。众所周知，NF1通过刺激Ras固有的GTPase活性发挥Ras的负调控作用。我们使用突变细胞NF1型以测试NF1缺失对血清饥饿时Ras信号传导的影响。我们检测到下游效应器ERK的磷酸化升高(图4e)，证实NF1在Ras-RAF-ERK途径中的负作用，并说明等基因突变KBM7细胞可用于系统研究致癌信号通路。

γ干扰素（IFN-γ）通过其同源受体激活JAK-STAT通路，是先天性和适应性免疫和信号的关键介体。获得携带干扰素-γ信号成分突变的等基因细胞系将允许对该途径进行系统解剖。该系列已经包含了几种成分的突变体，包括基因IFNGR2、JAK1、JAK2、SOCS7、GRB2、SOS1、SOS2、STAT3、STAT4、PTPN6（编码SHP-1）和CBLC公司（编码c-CBL）。这里我们使用了突变细胞JAK2号机组开始这样的分析。这些细胞在刺激后表现出磷酸化STAT1水平严重但未完全降低(图4f). 这表明了其他激活途径，很可能是通过同源的JAK1。因此，突变的KBM7细胞对IFN-γ的转录反应严重减弱JAK2号机组(图4g). 在Cre重组酶介导的基因陷阱切除后，STAT1的激活可以恢复，从而证实信号钝化是由JAK2表达受损引起的(补充图6).

Caspase-8是包括Fas配体和TRAIL在内的外源性凋亡刺激的重要效应器²⁵^,²⁶。我们测试了CASP8公司收集中的突变细胞，发现它们确实对TRAIL诱导的效应物caspase-3和RIP1的裂解具有完全抵抗力(图4h)证明了它的非冗余作用。尽管有突变的细胞CASP8公司对TRAIL诱导的凋亡有抵抗力，对另一种凋亡诱导剂阿霉素保持敏感性(图4i). 半胱氨酸天冬氨酸蛋白酶-8介导的细胞死亡途径的完整阻断可能允许未来筛选绕过该途径的基因。

ARID2（也称为BAF200）是PBAF SWI-SNF染色质重塑复合体的组成部分，在多种肿瘤中发现了功能丧失突变²⁷^–³⁰然而，ARID2的分子功能及其作为肿瘤抑制剂的作用尚不清楚。已发现ARID2是诱导选定的干扰素应答基因所必需的，包括国际单项体育联合会1表明在抗病毒反应中起作用³¹支持这一重要作用的KBM7细胞ARID2公司无法诱导国际单项体育联合会1γ干扰素治疗后mRNA水平超出基础表达(图4j).

大约1%的真核蛋白质被糖基-磷脂酰-肌醇（GPI）部分修饰，将其固定在质膜的外叶上³².介导GPI附着的基因的种系突变导致一种溶血性贫血，称为阵发性夜间血红蛋白尿。KBM7细胞表达GPI锚定蛋白CD55和CD59，我们的收集包括GPI附着因子基因的突变清管器和PIGX公司当任一基因突变时，CD55和CD59的表面表达均被消除(图4k和补充图7). 这说明KBM7突变细胞可以用于生产缺乏特定翻译后修饰的蛋白质，这可能有助于生产生物制品。总之，这些数据表明，收集突变的KBM7细胞可用于询问多种细胞过程。

讨论

我们收集了数千个具有单个基因突变的人类等基因细胞系。该集合的主要特征是：细胞来源于人类，允许相关模式生物中的基因型与表型关系；细胞的分子结构具有综合特征；可以实现完全的基因失活；细胞系是等基因的；许多插入（内含子中）通过Cre重组酶是可逆的–液氧磷技术，从而避免了RNA干扰实验或基于核酸的敲除所需的重组；单个突变体用独特的DNA条形码标记，从而实现更多的功能遗传学应用。

由于这些被捕获基因的mRNA转录物在许多克隆中功能失调，它们可能类似于传统的敲除等位基因。”基因标记的小鼠胚胎干细胞已被广泛用于产生“敲除小鼠”³³^,³⁴然而，对于小鼠胚胎干细胞突变体，并不是KBM7细胞中的每个被捕获的基因都导致其相关转录物的完全失活。在某些情况下，基因组背景可能阻止腺病毒剪接受体位点的有效使用，或者替代转录物可能掩盖次要转录物的失活。在其他情况下，被截获的基因可能仍然会产生截短的转录物，从而获得功能或部分功能（即低形态）蛋白质。尽管这些机制和潜在的其他机制会产生不代表完全丧失功能等位基因的突变细胞，但它们仍可能被证明对蛋白质功能的分析有价值。此外，低形态等位基因将有助于增强子或抑制子筛选，从而允许对基本基因进行研究。

它已经被很好地记录下来，我们还观察到逆转录病毒具有强烈的基因组整合偏见。事实上，它们对表达基因的5′区的偏好使得它们成为基于基因陷阱的诱变的首选试剂。尽管我们打算扩大这个突变株集合，但强烈倾斜的突变可能会阻碍全基因组集合的生成。因此，用慢病毒、转座子、化学物质或核酸酶等其他诱变剂制成的KBM7突变体可能有助于构建完整的全基因组集合。KBM7细胞的单倍体基因组使其非常适合基于靶向核酸酶的技术，如转录激活物样效应核酸酶，因为只需要靶向一个等位基因，因此大大提高了效率并简化了基因分型（数据未显示）。

虽然基于基因陷阱的人类细胞突变产生方法可以应用于二倍体细胞，但在大多数情况下，它只会导致单倍体细胞的完全基因失活，而人类目前仅限于KBM7或HAP1细胞¹³没有一种单一细胞系能够概括人类生物学的所有方面，KBM7细胞的研究结果需要在独立的实验系统中进行验证。然而，所有可用的证据表明，KBM7细胞作为研究可能不太依赖于特定组织环境的保守过程的模型，其有效性并不低于其他流行的细胞系。因此，我们建议最合适的使用该集合可能是对基本细胞过程（如代谢、分泌和糖基化）以及常见信号转导和转录过程的基因功能进行系统注释。在基础条件下或用选定的刺激物激发后，仔细测量许多突变KBM7细胞系的转录景观，将使遗传网络的逻辑建模具有前所未有的精确性和可靠性。这里介绍的收集为系统和严格评估人类细胞系在多种条件下的许多过程的遗传需求铺平了道路。

联机方法

细胞培养

KBM7细胞在添加10%FCS和青霉素-链霉素的Iscove改良Dulbecco培养基（IMDM）中生长。实验中使用的所有突变克隆的列表见补充表13.

SNP阵列、外显子组、基因组和RNA测序

使用Wizard Genomic DNA纯化试剂盒（Promega）提取DNA。将DNA与全基因组人类SNP 6.0阵列（Affymetrix）杂交，并使用基因分型控制台4.1.1版软件（Affmetrix）分析染色体拷贝数变化的数据。检测到chr.11p上的删除包含AMBRA1、，参与自噬的基因³⁵.

基因组DNA文库使用TruSeq DNA LT Sample Prep-Kit v2生成，外显子富集使用TruSeg exome enrichment Kit（均来自Illumina）进行。将这些文库与Illumina流式细胞V3杂交，并在Illumiana HiSeq 2000仪器上测序（3700万个50-bp双端读用于全基因组测序，1065万个100-bp双端读用于全基因测序）。此外，对第二批独立的野生型细胞进行全基因组测序（2.36亿个60-bp和1.79亿个75-bp配对基因读取）。读数与hg19参考基因组比对（Burrows-Wheeler Aligner 0.5.9-r16；参考。36)使用SAM工具去除潜在PCR重复项（0.1.18）³⁷。在RseQC和SAMtools mpileup的帮助下生成了覆盖率计算和轨迹。在组合中，50%的基因组在35倍或更多时被覆盖（99%在14倍或更多）。使用SAMtools mpileup+bcftools调用变量。生成的SNV列表经过高质量筛选，并由ANNOVAR进一步注释（2012年11月版本）³⁸使用Refseq基因注释。circos图是在circos软件（v0.63）的帮助下创建的³⁹。RNA-seq文库使用4μg千分之七RNA、RiboZero（Epicenter）和ScriptSeq v1（Epicentre）。在HiSeq2000上对库进行测序（50 bp单端读取）。使用Bowtie 2.0.0.6和ENSEMBL基因注释（加州大学圣克鲁斯基因组浏览器），1.13亿次读取与TopHat 2.0.3版一致。使用RSeQC包计算RPKM，不包括多次匹配读取。

除上述内容外BCR-ABL1型易位和潜在破坏性突变TP53型和槽口1(补充表3)，在KBM7细胞中未观察到髓系恶性肿瘤的复发异常，以及与癌症相关的主要基因，包括PTEN公司,KRAS公司,RB1型,BRAF公司和表皮生长因子受体没有携带突变。然而，配对RNA测序表明12号染色体上有一个小的反转，这已被Sanger测序证实(补充图8). 倒置破坏了两个基因(SRGAP1公司和PPM1H（PPM1H）)并生成一个新的、无特征的融合转录本。

质谱法

PBS洗涤的KBM7细胞颗粒与300μl 50 mM HEPES（pH 8.0）、2%十二烷基硫酸钠、1 mM PMSF、蛋白酶抑制剂混合物（Sigma-Aldrich）混合，并在室温下培养20分钟。在99°C下将裂解液加热5分钟后，用Covaris声波仪（声波仪S2X，Covaris）对样品进行声波处理，并在16000℃下通过离心进行澄清克在室温下保持10分钟。蛋白质浓度采用BCA蛋白质测定法（皮尔斯生物技术公司）进行测量。用二硫苏糖醇还原二硫键后，根据辅助过滤样品制备（FASP）协议，用胰蛋白酶消化150μg总蛋白⁴⁰.通过固相萃取（SPE）浓缩和纯化50毫克消化液，并收集50个离线馏分⁴¹然后通过液相色谱分离肽，并在LTQ-Orbitrap-Velos混合质谱仪（Thermo Fisher Scientific）和安捷伦1200 HPLC纳米流系统（安捷伦生物技术）上通过碰撞诱导解离（CID）进行分析。使用搜索引擎MASCOT（v2.3.02，MatrixScience）和Phenyx（v2.5.14，GeneBio）对采集到的原始质谱（MS）数据文件进行处理，并根据人类SwissProt数据库进行搜索⁴²通过对反向数据库应用相同的程序，蛋白质和肽的假阳性检测率（FDR）分别为<1%和<0.1%。

我们观察到，KBM7细胞的蛋白质组与用于人类遗传学研究的其他11个先前具有特征的人类细胞系的蛋白质组有实质性的重叠（>50%）(补充表14)⁴³此外，细胞系之间KEGG通路的表达和覆盖显示出显著的一致性(补充图9). 因此，根据表达量高到可以通过质谱检测到的蛋白质判断，KBM7和几个流行的细胞系之间存在一致性。

基因捕捉突变克隆的生产和绘图管道

用于本研究的基因捕获盒的注释序列可在http://clones.haplogen.org/基因陷阱感染的KBM7细胞¹²经FACS分类用于GFP表达，并通过限制稀释进行克隆。

我们为每组6个96 well板生成正交克隆池（行、列和板），以跟踪它们的位置，条形码序列用索引引物进行PCR-扩增（即“池码”；图2c). 通过配对测序读取条形码和索引，从而为单个条形码（即克隆）唯一指定一个微孔和平板位置。这种正交池策略与索引测序相结合，可以明确识别约70%克隆的平板位置。在大多数情况下，未指定的板块位置是由于生长缓慢的克隆或空井造成的。由于每个板的位置都与单个条形码序列相关联，因此该程序也会标记包含多个克隆或多个基因标记整合的微孔，这两个微孔都会被丢弃。

为了绘制单个克隆的基因组插入位点，使用NlaIII和MseI并行消化相同池中的基因组DNA，并通过反向PCR进行处理¹²在第二次配对测序中匹配条形码和插入位点。相对较短的DNA序列标签和反向PCR中的强偏倚将常规作图效率限制在~85%。

使用QIAamp DNA迷你试剂盒（Qiagen）从细胞池中分离基因组DNA。使用GoTaq聚合酶（Promega）通过PCR扩增条形码。引物为Fwd:AATGATACGACCACCGAGATCTACACACAAACTCGTCAGTTCCACAC和Rev:CAAGCAGACGCATGAGATXXXXXXXXXXGTGACTGGAGTCAGACGTGTGT，其中X表示池特异性15 bp索引序列的碱基。

PCR产物被纯化并使用以下测序引物进行配对测序：第一读（池索引）：GATCGGAGAGCACACGTCTGACCAGTCAC和第二读（条形码）：GTGACTGGAGTCAGACGTGTCTTCCGATCT。每个条形码都链接到三个池代码，以指定行、列和唯一标识其在给定96-well板上位置的板。

为了将条形码与基因组插入位点联系起来，我们对576个克隆集（6个96 well板）进行了反向PCR，这些克隆集全部合并到一个池中。从细胞池中分离基因组DNA，并用NlaIII或MseI消化。将消化后的样品进行连接，并使用以下引物进行反向PCR：Fwd:AATGATACGGACCGAGATCTACATCTGATGTTCTAGCTTCC和Rev:CAAGCAGACGGCATACGGTGTACAAAAAGCGC。

使用以下测序引物对PCR产物进行配对测序：第一读（基因组）：CTAGCTTGCCAACTACAGGTGGTCTCTCA和第二读（条形码）：GTGACTGGAGTCAGACGTGTCTCTCT。

第一次读取确定基因陷阱的基因组整合位点，第二次读取确定22-bp条形码。因此，每个条形码都链接到单个基因组整合位点。我们估计，使用该平台生成、映射和分离单个突变克隆的成本在每个克隆200至400欧元（250至500美元）之间。预计成本会随着时间的推移而降低。

RT-PCR

为了测定mRNA的表达，我们分离出RNA并进行逆转录。根据制造商的说明，使用GoTaq聚合酶（Promega）通过PCR分析cDNA。为每个克隆定制PCR引物，以侧翼标记基因盒的插入位点。

选择性突变KBM7细胞的反向遗传分析

用TNF-α（Peprotech）细胞刺激的细胞在Frackelton缓冲液（10 mM Tris/HCl pH 7.5，50 mM NaCl，30 mM焦磷酸钠，1%Triton X-100，50 mM-NaF和蛋白酶抑制剂）中进行裂解，并使用IκB-α特异性抗体（C-21，稀释度1:500，Santa Cruz）进行蛋白质印迹分析和一种微管蛋白特异性抗体（ab-7291，稀释1:2000，Abcam）。为了诱导TNF-α介导的凋亡，用3μg/ml环己酰亚胺（Sigma-Aldrich）预处理细胞1 h，然后用30 ng/ml TNF-a刺激细胞24 h。用CellTiterGlo（Promega）评估细胞活力。

为了测量磷酸化-SMAD2（Ser465和Ser467，1:500，3108，细胞信号），将细胞血清饥饿过夜，并用10 ng/ml TGF-β（Peprotech）刺激。使用SMAD1/2/3（Santa Cruz sc-7960，1:1000）作为负载对照，通过蛋白质印迹分析细胞裂解物。

为了评估对TRAIL的反应，用TRAIL（Peprotech）刺激细胞4小时，收获并裂解细胞（50 mM HEPES pH 7.4，250 mM NaCl，5 mM EDTA，1%NP40，50 mM NaF和蛋白酶抑制剂）。使用裂解的caspase-3（9661，Cell Signaling，1:1000）、RIP1（610458，BD Transduction Lab，1:1000，）和tubulin（7291，Abcam，1:1000。添加TRAIL后16 h，使用CellTiter-Glo（Promega）评估细胞活力。

细胞对干扰素-γ的反应是通过用100 ng/ml干扰素γ（肽基）刺激指定的时间段来测定的。细胞用冷PBS洗涤并在Frackelton缓冲液中溶解。使用磷酸-STAT1（Tyr701）特异性抗体（9171，稀释度1:1000，细胞信号传导）和微管蛋白特异性抗体（ab-7291，稀释度1:2000，Abcam）通过蛋白质印迹分析裂解物。

控制KBM7或ARID2公司用IFN-γ处理克隆24小时。然后用PBS清洗细胞，并使用RNeasy MinElute Cleanup Kit（Qiagen）提取RNA。国际单项体育联合会1使用KAPA SYBR FAST ABI Prism试剂盒（Peqlab）通过qRT-PCR测定表达水平。GAPDH公司以家政基因为对照。

为了进行微阵列分析，收集细胞并使用RNeasy Mini Kit（Qiagen）提取总RNA。使用Primeview（Affymetrix）微阵列分析RNA，数据经过稳健的多阵列平均值（RMA）归一化。

抗体和FACS

识别BTK（sc-1107，1:1000）、CYLD（sc-74434，1:1000。Anti-Tec 06-561（1:500）购自Upstate（Millipore），Anti-PTEN（138G6，1:1000）、JAK2（D2E12，1:1000）和RB1（4H1，1:1000）购自Cell Signaling Technologies。

对于膜染色，将细胞与以下所示单克隆抗体（mAb）孵育30分钟。使用俄勒冈州绿色共轭山羊抗鼠Ig抗体（分子探针）作为第二步试剂。FACS分析在FACSCalibur流式细胞仪（BD Biosciences）上进行。以下鼠抗人单克隆抗体由O.Majdic（维也纳医科大学免疫学研究所）产生并用于染色（克隆）：MHC-I（W6/32）、CD3（VIT3b）、CD11a（CD11a-5E6）、CD11 b（VIM12）、CD13（5-390）、CD34（9F2）、CD40（G28-5）、CD44（3F5）、CD45（VIT200）、CD47（AIV）、CD63（11C915）、CDM71（VIP1）和CD147（AAA1）。

用冷PBS洗涤细胞，用CD59-PE（p282）或CD55-FITC抗体（IA10）（BD Transduction Lab）在冰上染色20分钟，测定CD55和CD59的表面表达。样品在FACSCalibur上测量。

补充材料

注：任何补充信息和源数据文件都可以在论文的在线版本.

补充材料

单击此处查看。^{（210万，pdf）}

致谢

我们感谢G.Winter和Brummelkamp、Nijman和Superti-Furga实验室成员的讨论和技术援助，感谢R.Martins在图2O.Majdic（维也纳医科大学）提供抗体，J.Carette提供基因陷阱载体设计建议，H.Pickersgill提供手稿编辑和建议。C.Banning获得了Zentrum für Innovation und Technologie（Die Technologieagentur der Stadt Wien）的FemPower赠款的支持，a.L.和M.L.获得了Zenterum fúr创新和技术生命科学2011赠款的支持。M.R.获得了欧洲分子生物学组织奖学金（ALTF1346-2011）的支持。K.P.得到了欧洲研究委员会的资助（ERC-2009-AdG-250179-i-FIVE）。

脚注

接入代码。GenBank（基因银行）：KF179301型（序列编码SRGAP1-PPM1H）。肽Atlas：通过00240.基因表达总览：GSE48848型.

贡献者

作者贡献

S.M.B.N.、T.R.B.和G.S.-F构思了单倍体基因陷阱突变体集合，并提供了总体指导。S.M.B.N.和T.B.分析了数据，并与G.S.-F.和T.R.B.一起撰写了论文。S.M.B.N.、T.R.B.、T.B.和G.C.构思了包括条形码和液氧磷站点和克隆映射管道。T.B.和C.Banning监督了突变体收集的建立，并进行了验证实验。P.H.、A.L.、M.L.、W.F.、S.S.和M.R.T.C.协助建立了突变体收集和验证实验。F.M.P.、D.C.、N.T.、F.S.、B.E.、P.M.G.、V.A.B.、T.K.、B.G.、C.Bock和R.K.生成了用于DNA和RNA测序以及SNP阵列的样本，并分析了数据。R.S.、B.E.和G.C.建立了克隆映射生物信息学管道和数据库。C.K.、M.R.、M.S.和F.F.d.l.C.进行了克隆验证实验。K.P.、K.L.B.和J.C.制作了质谱样品，并对数据进行了分析。B.M.、J.S.和S.K.进行并分析了白细胞分型实验。G.C.和G.A.协助平台设计。

竞争性财务利益

作者声明了相互竞争的财务利益：详情可参见论文的在线版本.

转载和许可信息可在线访问 http://www.nature.com/reprints/index.html.

工具书类

1从单倍体细胞核移植获得的单倍体和纯合二倍体青蛙胚胎的发育。实验动物园杂志。1958;139:263–305.[公共医学][谷歌学者]

2Thorne MH、Collins RK、Sheldon BL.活单倍体二倍体和其他不寻常的马赛克鸡(家鸡)细胞遗传学细胞遗传学。1987;45:21–25.[公共医学][谷歌学者]

三。Corley-Smith GE、Lim CJ、Brandhorst BP。雄核发育斑马鱼的生产(达尼奥雷里奥)遗传学。1996;142:1265–1276. [PMC免费文章][公共医学][谷歌学者]

4Yi M，Hong N，Hong Y.水母鱼单倍体胚胎干细胞的产生。科学。2009;326:430–433.[公共医学][谷歌学者]

5Elling U等。单倍体小鼠胚胎干细胞衍生的正向和反向遗传学。细胞干细胞。2011;9:563–574. [PMC免费文章][公共医学][谷歌学者]

6Leeb M，Wutz A.小鼠胚胎单倍体胚胎干细胞的衍生。自然。2011;479:131–134. [PMC免费文章][公共医学][谷歌学者]

7Kotecki M，Reddy PS，Cochran BH.近单倍体人类细胞系的分离和鉴定。实验细胞研究。1999;252:273–280.[公共医学][谷歌学者]

8Andersson BS等.近单倍体转化的Ph阳性慢性髓细胞白血病体内建立具有相似细胞遗传学模式的持续生长细胞系。癌症基因细胞基因。1987;24:335–343.[公共医学][谷歌学者]

9Holmfeldt K，Odic D，Sullivan MB，Middelboe M，Riemann L.感染海洋拟杆菌的培养单链DNA噬菌体很难用DNA结合染色法检测。应用环境微生物。2012;78：892–894。 [PMC免费文章][公共医学][谷歌学者]

10Carette JE等。从培养的人类恶性细胞中生成iPSC。鲜血。2010;115:4039–4042. [PMC免费文章][公共医学][谷歌学者]

11Carette JE等。人类细胞中的单倍体基因筛查可识别病原体使用的宿主因子。科学。2009;326:1231–1235.[公共医学][谷歌学者]

12Carette JE等。通过深度测序将基因分配到表型的人类细胞中的全球基因破坏。国家生物技术公司。2011;29:542–546. [PMC免费文章][公共医学][谷歌学者]

13Carette JE等。埃博拉病毒进入需要胆固醇转运蛋白Niemann-Pick C1。自然。2011;477:340–343. [PMC免费文章][公共医学][谷歌学者]

14Guimares CP等人。通过使用改良霍乱毒素确定中毒所需的宿主细胞因子。细胞生物学杂志。2011;195:751–764. [PMC免费文章][公共医学][谷歌学者]

15Papatheodorou P等人。脂解刺激脂蛋白受体（LSR）是二元毒素艰难梭菌转移酶（CDT）的宿主受体美国国家科学院院刊。2011;108:16422–16427. [PMC免费文章][公共医学][谷歌学者]

16Reiling JH等。单倍体遗传筛查确定了包含2A（MFSD2A）转运体的主要促化域是对衣霉素反应的关键介体。美国国家科学院院刊。2011;108：11756–11765。 [PMC免费文章][公共医学][谷歌学者]

17Rosmarin DM等人，附件沙眼衣原体L2到宿主细胞需要硫酸化。美国国家科学院院刊。2012;109:10059–10064. [PMC免费文章][公共医学][谷歌学者]

18Birsoy K等人。MCT1介导的毒性分子转运是靶向糖酵解肿瘤的有效策略。自然遗传学。2013;45:104–108. [PMC免费文章][公共医学][谷歌学者]

19Jacobson LS等。组织蛋白酶介导的坏死通过Th2（T辅助因子2型）相关佐剂控制适应性免疫反应。生物化学杂志。2013;288:7481–7491. [PMC免费文章][公共医学][谷歌学者]

20石青，金瑞文。染色体不分离在人类细胞系中产生四倍体细胞，而不是非整倍体细胞。自然。2005;437:1038–1042.[公共医学][谷歌学者]

21Lundberg E等。定义三种功能不同的人类细胞系中的转录组和蛋白质组。分子系统生物学。2010;6:450. [PMC免费文章][公共医学][谷歌学者]

22Lewinski MK等。逆转录病毒DNA整合：靶向选择的病毒和细胞决定因素。《公共科学图书馆·病理学》。2006;2：e60。 [PMC免费文章][公共医学][谷歌学者]

23Scheinecker C，Smolen JS公司。2010年类风湿关节炎：从肠道到关节。Nat Rev风湿病。2011;7:73–75.[公共医学][谷歌学者]

24Moustakas A，Heldin CH.TGF-β信号转导的调节。发展。2009;136:3699–3714.[公共医学][谷歌学者]

25Varfolomeev EE等。小鼠Caspase 8基因的靶向破坏可阻断TNF受体、Fas/Apo1和DR3诱导的细胞死亡，并且在产前是致命的。免疫。1998;9:267–276.[公共医学][谷歌学者]

26Kischkel FC等人。内源性FADD和caspase-8对死亡受体4和5的Apo2L/TRAIL依赖性募集。免疫。2000;12:611–620.[公共医学][谷歌学者]

27Biankin AV等。胰腺癌基因组揭示了轴突导向通路基因的异常。自然。2012;491:399–405. [PMC免费文章][公共医学][谷歌学者]

28Manceau G等。非小细胞肺癌中ARID2的复发失活突变。《国际癌症杂志》。2013;132:2217–2221.[公共医学][谷歌学者]

29Hodis E等。黑色素瘤驱动基因突变的景观。单元格。2012;150:251–263. [PMC免费文章][公共医学][谷歌学者]

30Li M，等。肝细胞癌中染色质重塑基因ARID2的失活突变。自然遗传学。2011;43：828–829。 [PMC免费文章][公共医学][谷歌学者]

31Yan Z等。PBAF染色质重塑复合物需要一种新的特异性亚单位BAF200来调节选择性干扰素反应基因的表达。基因发育。2005;19:1662–1667. [PMC免费文章][公共医学][谷歌学者]

32Orlean P，Menon阿拉斯加州。主题综述系列：脂质翻译后修饰。蛋白质在酵母和哺乳动物细胞中的GPI锚定，或者：我们是如何学会停止担忧和热爱糖磷脂的。脂质研究杂志。2007;48:993–1011.[公共医学][谷歌学者]

33Skarnes WC等。小鼠功能基因组学的公共基因陷阱资源。自然遗传学。2004年；36:543–544. [PMC免费文章][公共医学][谷歌学者]

34Stanford WL，Cohn JB，Cordes SP。基因陷阱诱变：过去、现在和未来。自然资源部Genet。2001;2:756–768.[公共医学][谷歌学者]

35Fimia GM等。Ambra1调节神经系统的自噬和发育。自然。2007;447:1121–1125.[公共医学][谷歌学者]

36Li H，Durbin R.使用Burrows-Wheeler变换快速准确地进行短读对齐。生物信息学。2009;25:1754–1760. [PMC免费文章][公共医学][谷歌学者]

37Li H等。序列比对/地图格式和SAMtools。生物信息学。2009;25:2078–2079. [PMC免费文章][公共医学][谷歌学者]

38Wang K，Li M，Hakonarson H.ANNOVAR：高通量测序数据中遗传变异的功能注释。核酸研究。2010;38：e164。 [PMC免费文章][公共医学][谷歌学者]

39Krzywinski M等人，《马戏团：比较基因组学的信息美学》。基因组研究。2009;19:1639–1645. [PMC免费文章][公共医学][谷歌学者]

40Wisniewski JR，Zougman A，Nagaraj N，Mann M.蛋白质组分析通用样品制备方法。自然方法。2009;6:359–362.[公共医学][谷歌学者]

41Bennett KL等。人类白内障房水的蛋白质组学分析：一维凝胶LCMS与未标记和iTRAQ（R）标记标本的二维LCMS的比较。蛋白质组学杂志。2011;74:151–166.[公共医学][谷歌学者]

42Colinge J、Masselot A、Giron M、Dessingy T、Magnin J.OLAV：走向高通量串联质谱数据识别。蛋白质组学。2003;三:1454–1463.[公共医学][谷歌学者]

43Geiger T，Wehner A，Schaab C，Cox J，Mann M。十一种常见细胞系的比较蛋白质组学分析揭示了大多数蛋白质的普遍但不同的表达。分子细胞蛋白质组学。2012;11M111 014050。[PMC免费文章][公共医学][谷歌学者]

可逆基因陷阱收集增强人类细胞单倍体遗传学

蒂尔曼·比尔克斯特·默尔（Tilmann Bürckstümmer）

卡琳娜·班宁

菲利普·海因策

理查德·肖贝伯格（Richard Schobesberger）

克劳迪娅·克岑多夫

弗洛里安·保勒

多丽丝·陈

Nicole他们

Fiorella Schischlik公司

曼努埃尔·雷布萨曼

米查尔·斯米达

费兰·费斯·德拉克鲁斯

安娜·拉帕（Ana Lapao）

梅丽莎·李斯特

本杰明·艾辛格

菲利普·M·根策尔

文森特·布洛曼

托马斯·科诺普卡

比安卡·加普

卡加寄生虫

芭芭拉·梅尔

约翰内斯·施特克尔

沃尔夫冈·费希尔

塞伊拉·萨利奇

M Rita Taba卡萨里

西尔维娅·纳普

凯琳·本内特

克里斯托夫·博克

雅克·科林奇

罗伯特·克拉洛维奇

古斯塔夫·阿莫勒

乔治·卡萨里

Thijn R Brummelkamp公司

朱利奥·Superti-Furga

塞巴斯蒂安·M·B·奈曼

关联数据

摘要

结果

KBM7细胞的基因组和蛋白质组特征

单倍体基因捕捉突变体生成平台

单倍体基因陷阱突变体类似基因敲除

选择突变体的反向遗传分析

讨论

联机方法

细胞培养

SNP阵列、外显子组、基因组和RNA测序

质谱法

基因捕捉突变克隆的生产和绘图管道

RT-PCR

选择性突变KBM7细胞的反向遗传分析

抗体和FACS

补充材料

补充材料

致谢

脚注

工具书类