跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
自然。作者手稿;PMC 2013年6月20日提供。
以最终编辑形式发布为:
2012年11月18日在线发布。 数字对象标识:10.1038/自然11629
预防性维修识别码:PMC3532053型
NIHMSID公司:NIHMS411275标准
PMID:23160490

诱导多能干细胞显示人体皮肤中的体细胞拷贝数嵌合体

关联数据

补充资料

摘要

将人体体细胞重新编程为诱导的多能干细胞(iPSCs)被怀疑会导致从头开始拷贝数变化(CNV)1-4为了探索这个问题,我们使用下一代测序对来源于7个个体的原代皮肤成纤维细胞的20个人iPSC系进行了全基因组和转录组分析。我们发现,平均而言,一个iPSC株表现出两种CNV,而这两种CNVs在iPSC来源的成纤维细胞中并不明显。使用qPCR、PCR和数字滴状PCR(ddPCR),我们发现至少50%的CNV在亲代成纤维细胞(即每个相应的hiPSC系衍生自的成纤维细胞)中以低频体细胞基因组变体的形式存在,并且由于克隆起源而在iPSC克隆中表现出来。因此,重新编程不一定会导致从头开始iPSC中的CNV,因为大多数线性CNV反映了人体皮肤中的体细胞嵌合体。此外,我们的研究结果表明,克隆扩增,尤其是iPSC株,可以作为一种发现工具,可靠地检测起源组织中的低频CNV。总的来说,我们估计大约30%的成纤维细胞基因组中含有体细胞CNV,这表明人体中存在广泛的体细胞嵌合体。我们的研究为理解人体细胞通常在多大程度上获得DNA后合子结构改变这一基本问题铺平了道路。

从体细胞衍生iPSC的能力5-8为人类发展、人类遗传变异和再生医学的研究开辟了令人兴奋的新可能性9-13然而,所有这些应用都要求iPSC,即每个来源于一个或仅几个体细胞的克隆细胞系,稳定地维持其来源个体的遗传背景。然而,有报道称干细胞和前体细胞中存在基因组不稳定性,这表明除了单个碱基对改变外,多能干细胞中还可能出现拷贝数变异/结构变异(CNV/SVs)1-4,14-17这些变异可能是由于去分化过程、培养时间过长或起源的体细胞组织中预先存在低频率引起的。新的证据表明,由于DNA复制、DNA修复、有丝分裂和转座因子动员过程中的错误,不仅在癌症中,而且在体细胞谱系中可能存在广泛的基因组嵌合体18-21。这种现象可能会产生深远的生理后果,但人们对其仍知之甚少,也很难进行研究22-25iPSC的衍生提供了以高分辨率和高灵敏度分析单个细胞基因组的机会。

利用典型的逆转录病毒方法,我们从两个家族的七个成员的皮肤成纤维细胞中获得了21个人类iPSC(hiPSC)株(补充图1). hiPSC株系由四组质量控制标准表征:1)形态,2)多能性因子在蛋白质水平的表达,3)基因表达分析(RT-PCR,微阵列,RNAseq的完整转录组)和4)典型多能性因素启动子的去甲基化(补充图2-补充表1-2). 这次彻底的评估(补充信息)揭示了hiPSCs与hESCs的广泛相似性以及hiPSC与成纤维细胞的差异性,表明hiPSC完全重新编程。最后,通过神经元分化分析,我们发现hiPSC表现出类似的神经谱系分化倾向(补充图4).

然后,我们在ILLUMINA HiSeq平台上为20个hiPSC品系生成了一条全基因组配对末端(PE)测序数据,并用CNVnator预测了hiPSC品系中的CNVs26(补充图1B). CNVnator使用读取深度(RD)分析,在确认之前通过阵列和磷定序发现的CNV方面具有最高的灵敏度27首先,我们通过与参考人类基因组进行比较,在成纤维细胞和hiPSC样本中发现CNV,然后将每个hiPSC株系的基因型与其各自的亲代成纤维细胞(即每个克隆hiPSC系的起源成纤维细胞株)进行比较,以确定仅在hiPSC中出现的变异,即线路指定CNV(LM-CNV)。我们能够发现小到2 kbp的CNV,但对大小至少为5 kbp的cnV的敏感性最高(补充图5). 使用保守标准,我们预测所有20条线路中总共有74条LM-CNV(补充表3)即每条生产线只有几个LM-CNV。通过外显子法产生的少数额外hiPSC株系中,每株系的LM-CNV数量相似(补充信息).

我们观察到LM-CNV的数量与hiPSC株系测序的传代数之间存在正相关但不显著(图1A). 无论是更宽松的CNV调用还是更敏感的LM-CNV识别标准都没有使相关性显著。LM-CNV仅占最初在hiPSC株系中发现的所有CNV的一小部分,在较高覆盖率(约20X)下进行RD分析并没有改变LM-CNVs相对于CNV总数的比例(图1B). 即使使用LM-CNV预测的敏感标准,其比例也不超过17%。作为阳性对照,我们使用相同的方法,将hiPSC系与另一家族个体的成纤维细胞进行比较,每次比较观察到大约40种不同的CNV(即每个hiPSC株显著多于LM-CNV,图1C),这与之前描述的类似尺寸范围内的个体间变化一致27.

保存图片、插图等的外部文件。对象名称为nihms-411275-f0004.jpg
候选株系表现的CNV(LM-CNVs)在通过数和总CNV方面的特征

,无论我们的检测标准的灵敏度如何,LM-CNV的数量在通过方面没有表现出显著的变化。在本文中,除非另有说明,否则使用了保守标准(蓝色符号)。b条,与参考人类基因组相比,在hiPSC中检测到的所有CNV中LM-CNV的百分比;方形符号表示在增加(20倍)覆盖范围时获得的数据。LM-CNV只占一个人所有CNV的一小部分。c(c),以不同个体的成纤维细胞为基线,研究hiPSC中LM-CNV的计数。与来自无关人群(即来自其他家庭的个体)的成纤维细胞相比,约40个CNV(灰条)中的hiPSC基因组不同。相反,与来源的成纤维细胞相比,hiPSC的基因组差异不到10个CNV(蓝条)。与成纤维细胞相比,hiPSC中的LM-CNV对人类现有的遗传多样性来说增加了一小部分。

不一致配对阅读分析证实了RD分析发现的22个LM-CNV(补充信息). 对于39个最有把握的预测,我们在hiPSC早期传代(即第5-13代)和晚期传代细胞(如可用)(即第17-52代)中进行了qPCR验证分析(见下文)。这些分析验证了33个LM-CNV(表1,补充表3,补充图6-44). 20个hiPSC株系中有15个(75%)株系存在经验证的LM-CNV,其中9个(45%)hiPSC具有一个以上LM-CNV。

表1

通过hiPSC中PE分析获得的额外实验支持,对验证的线性CNV进行总结。对于每个CNV,在成纤维细胞样本中未检测到PE支持。NA表示在三次尝试后,在成纤维细胞和hiPSC中均未成功进行ddPCR的事件。零频率表明CNV不是体细胞病毒,或者其频率超过0.1%的检测限。

iPS系统LM-CNV区域
chrom:开始,类型
尺寸,
千字节
支持,
#PE的
分数in
成纤维细胞
父亲
S1123-01号
#1个22:38755001,重复34--
#33:175005001,重复59
5:168431001,重复2886
20:14809001,德尔751
十: 64962001,重复6712.6%
#4十: 64963001,重复65512.6%
母亲
S1123-02号
#212:66253001,删除725~0%
13:11111 2001年,del48-
#114:130288001,删除+3301
#177:133748001,重复37414.6%
11:84329001,德尔211--
20:15010001,删除1825
探险家
第123页至第03页
#1个---
#8---
#9----
父亲
03-01
#2---
#38:124671001,重复33--
22:38753001,重复36--
#9---
母亲
03-02
#5十: 90672001,德尔172-
#8---
#91:162043001,复制65--
12:37961001,德尔426--
18:70516001,删除27--
十: 141153001,德尔38--
探险家
03-03
#214:76667001,德尔+11121.9%
22:28832001,德尔+472~0%
#3日期:5:263001+1344-
#411:84581001,重复+1076~0%
兄弟姐妹
03-04
#1个1:243008001,德尔+525--
7:2400001,重复+4007-
8:3558001,德尔+127-
12:37993001,德尔+429--
#51:234023001,德尔+378--
8:43563001,del−230--
#63:143236001,重复+63110.3%
8:15540001,德尔+7510.8%
10:70514001,重复+6220.4%
10:74033001,重复+*617-
*PE分析预测的分散重复+CNV在后期验证。−CNV未在后期段落中得到验证。

为了对我们的LM-CNV检测方法进行独立验证,我们通过高分辨率阵列比较基因组杂交(aCGH)分析了S1123家族母亲和03家族先证者的hiPSC和成纤维细胞样本。通过qPCR验证的所有10个LM-CNV(表1)通过对这些个体的hiPSC进行测序发现的,也被aCGH证实(补充图45-54). 然而,使用CGH数据无法发现额外的LM-CNV,因为根据随机子集的qPCR验证,额外预测集的估计FDR接近100%(补充表4-5). 这些数据表明,仅对测序数据进行分析就可以发现所有或几乎所有LM-CNV。最后,我们在五个hiPSC品系的后续传代,即第17-52代中,通过qPCR检测了经验证的LM-CNV的存在。我们观察到晚传代和早传代的qPCR结果之间存在很强的相关性(皮尔逊系数0.96)(补充图6). 在测试的16个LM CNV中,87.5%在传代后期得到验证(表1)表明hiPSC基因组的长期稳定性。

然后我们分析了LM-CNV的起源,即它们是否出现从头开始在hiPSC中作为重编程的后遗症,或在供体成纤维细胞群体中存在低等位基因频率。成纤维细胞体细胞基因组异质性的第一个间接但提示性证据是在来自同一个人的成纤维细胞培养物的两个不同hiPSC系(#3和#4)中观察到相同的经验证的LM-CNV(chrX:64962001-65029000)(表1;图2a;补充图55). 基因组异质性的进一步证据是认识到,对于许多CNV来说,拷贝数比率偏离1.5,表示一个单倍型重复或0.5,表示一种单倍型缺失,使用RD分析及其qPCR验证(补充图6,补充信息).

保存图片、插图等的外部文件。对象名称为nihms-411275-f0005.jpg
成纤维细胞中典型体细胞CNV细胞频率的验证和估计

,从成纤维细胞样品S1123-01中获得的三个hiPSC系中,有两个在X染色体上有相同的重复,而在亲代成纤维细胞中没有检测到。b条,通过CNV断点的PCR扩增显示,双亲成纤维细胞中存在较低频率的重复(FBR=成纤维细胞;CTRL=阴性对照)c(c),散点图,显示与LM-CNV断点处PCR扩增相关的信号强度(Y轴,绿色)。用于控制区域的并行放大的信号显示在X轴上(蓝色)。每个点代表一个PCR事件。CNV区域的PCR位点明显少于对照区的PCR位点。d日假设hiPSCs中携带LM-CNV的细胞的频率为100%,在控制区对LM-CNVs的事件数进行标准化后,计算成纤维细胞中携带LMC-CNV的细胞频率。LM-CNV(绿色条)和对照区(蓝色条)的ddPCR事件计数允许估计成纤维细胞中的细胞频率为12.6%。e(电子)第7号染色体上的重复,RD在亲代成纤维细胞中检测不到,但PCR检测为微弱带。(f)通过ddPCR,该事件的成纤维细胞中的细胞频率估计为14.6%。RD和PCR均未检测到亲代成纤维细胞中的第8号染色体缺失。小时通过ddPCR,该事件的成纤维细胞中的细胞频率估计为0.8%。

为了检测成纤维细胞培养物中是否存在体细胞CNV,我们使用诊断引物对20例LM-CNV在hiPSC和相应供体成纤维细胞中的CNV断点进行PCR扩增,并通过PE分析对其断点进行了初步估计(图2b,表1,补充表3). 当使用hiPSC DNA时,我们在所有病例中都观察到了预期的条带,当使用相应的成纤维细胞培养物的DNA时,在8例病例中观察到了期望的条带(表1; 看见图2b、e、g代表性示例和补充图7-39). 对于15个LM-CNV,我们额外进行了数字滴滴PCR(ddPCR)(图2c),这不仅可以观察低频体细胞CNVs,还可以估计它们在体细胞镶嵌中的等位基因频率,灵敏度低至0.1%。根据等位基因频率,利用靶区和对照区之间的比率计算成纤维细胞中的细胞频率,如方法中所述。成纤维细胞X染色体的重复频率估计为12.6%(图2d). 细胞频率变化范围为14.6%(图2f)小于1%(图2h)和总结如下表1总之,使用PCR和ddPCR可以确定20个LM-CNV中有10个存在于亲代成纤维细胞培养物中,这表明成纤维细胞体细胞基因组异质性可以解释hiPSC中至少50%的LM-CNVs(补充表6).

PCR条带的Sanger毛细管测序允许我们用碱基对分辨率确定18个非冗余LM-CNV的断点(补充对齐文件). 对断点周围序列的分析表明,非同源末端连接(NHEJ)是LM CNVs产生的关键机制。最后,我们检查了LM-CNVs是否影响交叉基因的表达。使用Fischer精确检验进行的统计分析表明,p值为0.01时,基因表达与其拷贝数直接相关,即重复增加表达,而缺失减少表达(补充图56).

总之,我们报告了hiPSC株系的基因组稳定性,以及人类皮肤成纤维细胞基因组中的拷贝数变异存在广泛的体细胞嵌合体。这是系统性发现和分析20个hiPSC株系中CNV的结果,与衍生hiPSC系的7个成纤维细胞培养物相关。由于hiPSC是从少数或仅一个成纤维细胞克隆而来,因此对其基因组的分析使我们能够发现亲代成纤维细胞亚群中存在的CNV,从而可以揭示原始人群中极低的等位基因频率变异。然后,我们跨断点使用PCR/ddPCR对亲代成纤维细胞中的CNV进行基因分型,并估计hiPSCs中50%的CNV可追溯到原始成纤维细胞群体。我们可能低估了这一现象,因为由于技术限制,极低等位基因频率的体细胞CNV仍可能无法通过PCR/ddPCR在成纤维细胞中得到证实。尽管如此,从概念上讲,我们的方法可以用于比较任何克隆(不仅是iPSC)和亲本细胞群体,目的是研究体细胞变异。

总的来说,我们发现hiPSC在平均两个验证的大于10 kbp的CNV上表现出来,这比之前的两个研究要多得多1,28差异可能是由于我们使用了测序(通常是一种更敏感的方法,参见补充讨论)而不是使用SNP阵列1。而Cheng等人。28他们还使用测序法,只分析了三个hiPSC株系,因此,如果外推到更大的数量,他们的结果仍可能与我们的结果一致。或者,骨髓单个核细胞可能比成纤维细胞具有更少的体细胞变异,这解释了为什么由Cheng等人从前者衍生的hiPSC系表现出的LM-CNV少于我们从后者衍生的hiPSC系。

此前曾假设,在重编程过程中,DNA损伤或受损的DNA修复可能导致hiPSC中出现CNV。虽然我们承认在某些hiPSC株系中,在重编程过程中可能会出现一些CNV,但我们的数据表明重编程就其本身而言不强制诱导从头开始至少有一半的LM-CNV突变之前存在于亲代成纤维细胞中。我们还发现LM-CNV的数量与传代数之间没有显著差异。因此,我们的分析既不支持这一假设hiPSC通常有很大的发病率从头开始hiPSC中大多数LM-CNV在晚期传代中消失的突变和观察使用不同的亲本细胞和应用不同的细胞培养方案可能是导致结果差异的因素。

在6个hiPSC中,我们确定至少一个LM-CNV起源于亲代成纤维细胞。假设每个hiPSC集落代表单个克隆性扩增细胞,我们估计30%(=6/20)的皮肤成纤维细胞携带大型体细胞CNV。据我们所知,这是第一次这样的估计。此外,通过ddPCR,我们估计细胞频率高达15%,低至百分之一,这表明成纤维细胞嵌合体的程度存在很大的可变性。虽然在成纤维细胞培养过程中可能出现了一些CNV29,我们认为这是不可能的,因为它们在进行hiPSC生成之前传代不到5次。

这已经有一段时间了22体细胞变异可能导致各种疾病,包括癌症,我们刚刚提供的证据表明,体细胞变异的程度可能被严重低估。如果是真的,在设计基于hiPSC的研究时需要考虑这一点。但更重要的是,这一发现可能会对广泛采用的用于复杂遗传疾病遗传分析的实验设计提出挑战,在复杂遗传疾病中,只分析淋巴母细胞的基因组。通过以意想不到的方式影响表型,体获得性CNV可能至少部分解释了在确定某些复杂疾病,特别是神经发育疾病中的遗传贡献方面存在的挑战,而确定遗传易感性的确切位点已被证明是困难的30.

方法

诱导多能干细胞(iPSC)生成

使用标准技术从两个家族的每个成员的上臂内侧进行皮肤活检。根据耶鲁大学IRB和YCCI的规定,从参与研究的每个受试者中获得知情同意。使用标准程序获得原代培养的成纤维细胞,并在第3代感染Yamanaka的四种逆转录病毒载体,使用5的MOI编码典型的重编程因子(OCT4、SOX2、KLF4和c-MYC)。在培养一个月后,挑选具有典型hESC形态的菌落,在DMEM/F12中的Matrigel底物上扩增,含有1%N2增补剂、2%B27增补剂、2 mM L-谷氨酰胺、0.1 mM非必需氨基酸、1%青霉素/链霉素、0.5 mg/mL BSA分数V(均来自Invitrogen)、0.12 mM单硫代甘油(Sigma,M-6145)、,并补充80 ng/ml重组人碱性成纤维细胞生长因子(Millipore)。菌落通过免疫荧光、RT-PCR和基因表达进行表征(见下文)。

逆转录聚合酶链反应

总RNA为保存图片、插图等的外部文件。对象名称为nihms-411275-ig0001.jpg使用PicoPure RNA从hiPSC克隆的第5代至第13代中纯化保存图片、插图等的外部文件。对象名称为nihms-411275-ig0002.jpg隔离套件(Arcturus)。使用SuperScript III逆转录酶和随机六聚体对从hiPSC株中提取的100毫微克总RNA进行逆转录。ES细胞标记基因引物保存图片、插图等的外部文件。对象名称为nihms-411275-ig0003.jpg在其他地方有描述31用于Oct4、c-Myc和Sox2的引物专门检测内源性基因的转录物。β-actin作为负荷对照。

亚硫酸氢盐测序

使用亚硫酸氢甲酯转化试剂盒(加利福尼亚州生命技术公司)将200 ng来自成纤维细胞或hiPSC的基因组DNA转化为亚硫酸氢盐。用10月4日的引物集7通过PCR扩增亚硫酸氢盐转化的DNA32和设置333对于Nanog。使用以下成分进行PCR:200μM dNTPs、200 nM正向或反向引物和2单位PfuTurboCx热启动DNA聚合酶(安捷伦科技公司,加利福尼亚州),PCR条件为95°C 5分钟,95°C 35个周期30秒,58/55°C 1分钟,72°C 1 min,然后在72°C下延长10分钟。然后克隆PCR产物,并为每个扩增子选择7-8个菌落进行Sanger测序。

神经元分化

神经分化是通过对hiPSC领域已经使用的方案稍作修改来实现的13,34将保存在Matrigel上的未分化hiPSC菌落与ROCK抑制剂(Y-27632)预先孵育,分离成单个细胞,然后使用V-bottom Aggrewell平板在含有重组Noggin(200ng/mL)的无血清培养基中重新聚集。两天后,将产生的类胚体(EB)转移到皮氏培养皿中,在悬浮培养中再培养两天,然后转移到无血清培养基中的Matrigel底物中,该培养基补充有Noggin(200ng/mL)、FGF2(20ng/mL)和Dkk1(200ng/mL)。24小时后,EB产生被称为玫瑰花结的神经上皮结构。在FGF2和EGF(均为10ng/mL)存在的情况下,在聚鸟氨酸和层粘连蛋白包被的培养皿上人工解剖、解离和重新定位神经玫瑰花结后,获得单层神经祖细胞(NPC),这允许增殖的神经祖细胞扩增(3或4代)。

基因表达分析用微阵列

通过HumanHT-12 v4 BEADCHIP Illumina微阵列分析上述分离的总RNA。数值由GenomeStudio使用分位数归一化和背景减法进行分析。将差异分数与从联邦批准的H1人类胚胎干细胞(hESC)系获得的值进行比较。

配对末端(PE)RNA和DNA测序的文库准备

对于RNA-seq文库,聚腺苷化RNA片段通过Dynabeads mRNA纯化试剂盒(invitrogen,CA)纯化,片段化(RNA片段缓冲区,Ambion CA),并使用随机六聚体和上标II(invitro,CA)反转录成第一链cDNA,然后使用RNaseH和DNA聚合酶I(invitrogen,CA)合成第二链cDNA。在与Illumina成对末端适配器结扎之前,对cDNA进行末端修复,并在3′端添加一个“a”。在凝胶上运行后,使用MinElute凝胶纯化试剂盒(Qiagen,MD)切割并提取250至350 bp的DNA片段,并使用Phusion High-Fidelity主混合物和Illumnia PE引物在98°C条件下进行PCR扩增,98°C 15个循环10秒,65°C条件30秒,72°C条件30s,以72°C结束5分钟。

为了制作DNA文库,遵循了PE DNA样品制备的Illumina协议,并进行了少量修改。简而言之,对gDNA进行声波处理,生成200bp至800bp的片段,这些片段经过末端修复,末端附着“A”,与Illumina PE适配器连接,大小在2%E-gel(Invitrogen,CA)上选择(450bp–550 bp)并从凝胶中提取。最后的PCR步骤与RNA-seq文库制备相同,但有18个周期。

hiPSC中线性CNV的保守预测

使用BWA 0.5.9-r1635带有选项“-t 4-q 15”的对准器,我们已将基因组序列读取与1000基因组项目使用的人类参考基因组对齐(ftp://ftp-trace.ncbi.nih.gov/1000基因组/ftp/technical/reference),它基于hGRC37,包含少量额外的连接。对齐读取由BWA使用以下选项“-a 1000-n 1-n 1”进行配对、映射和排序。因此,对于每个序列样本,我们都获得了一个BAM格式的映射读取文件。为了预测CNV,使用CNVnator方法处理bam文件26,36其基于读取深度分析(参见Mills等人。27供审查)。为了分析低覆盖率下测序的基因组,我们使用了1000 bp的箱子。为了分析在高覆盖率下测序的两个基因组,我们使用了400 bp的箱子。然后,在hiPSC和相应的成纤维细胞中,我们估计/基因分型并比较(通过CNVnator)hiPSC中预测的CNV拷贝数(CN)。在正常细胞中,CN应该是一个整数(例如0、1、2等),但是,如果用于分析的细胞群不是异质的,那么CN可以是一个非负实数(例如1.5)。如果i)中国<1.5&中国(f)>1.5&中国(f)中国>0.5; 或ii)中国<0.5&中国(f)>0.5&中国(f)中国>0.5男性样本中的X和Y染色体。在这里,中国中国(f)分别代表iPSCs和成纤维细胞样品中的CN。同样,如果iii)中国>2.5&中国(f)<2.5&中国-中国(f)>0.5; 或iv)中国>1.5&中国(f)<1.5&中国-中国(f)>0.5男性样本中的X和Y染色体。换句话说,我们认为CNV在成纤维细胞中的估计等位基因频率至少为25%,与hiPSC株相比,等位基因的频率差异至少为25%。然后,我们手动检查RD信号轨迹,以选择最有信心的线状CNV(LM-CNV)候选进行验证。为了选择有信心的候选者,我们依靠人类专业知识直观评估候选者区域的RD信号,存在支持预测的不一致配对读码(见下文),以及在片段重复区域需要非常明显的信号;我们还考虑了CNV是否是以前发现的CNV27,37.重新估计了两个CNV边界。通过qPCR、aCGH、PCR和ddPCR对筛选出的可靠LM-CNV候选基因进行了实验验证。

hiPSC中线性CNV的敏感性预测

为了使用CNVnator进行更敏感的CNV呼叫,我们使用了选项“relax”,这允许我们找到等位基因频率低至12.5%的CNV,而默认选项为25%。值得注意的是,二倍体染色体上的杂合缺失/重复具有50%的等位基因频率。此外,我们放宽了将CNV声明为LM-CNV的标准。具体而言,我们使用了以下标准i)中国<1.7&中国(f)>1.5&中国(f)中国>0.3; 和ii)中国<0.7&中国(f)>0.5&中国(f)中国>0.3要求在二倍体和单倍体染色体上分别进行线性缺失。同样,我们使用了iii)中国>2.3&中国(f)<2.5&中国-中国(f)>0.3; 和iv)中国>1.3&中国(f)<1.5&中国-中国(f)>0.3要求在二倍体和单倍体染色体上分别进行线性重复。换句话说,与hiPSC株系相比,我们认为CNV在成纤维细胞中具有估计的等位基因频率(低至15%)和等位基因的频率差异(低至15%。

通过配对分析获得CNV的额外支持

为了获得预测CNV的额外支持,我们在hiPSC细胞系和亲代成纤维细胞中搜索异常映射的配对基因(PE)38。对于删除,支持PE必须映射到预期的方向,但与测序库准备中的预期PE相比,其跨度应更大。对于串联复制,支持PE smust贴图的方向与预期不同,并且跨度也较大(补充图57). 预测的重复可能是串联的,也可能是分散的。对于分散复制,我们搜索了PEs簇,其中一端映射接近预测的复制边界,另一端在基因组中某处聚集。众所周知,见Lam等人。39在读映射不明确的断点附近,CNV被富集为重复序列和同源序列。因此,预测的CNV没有PE支持并不会使CNV无效。我们认为,如果PE具有适当的(针对CNV类型的)读取映射模式,并且其跨度和预测的CNV大小至少有80%的相互重叠,则PE支持删除/复制。这种条件和预测的CNV的千基大小保证了支持性PE的跨度至少为几个kbp,这远远大于测序文库准备的预期跨度,即300-800 bp。最后,尽管我们不需要任何特定的读取映射质量,但每个支持读取不低于25(根据映射器,这意味着不正确映射的几率小于0.003)。由于只找到了大约100个支持读取,我们不希望其中任何一个被错误映射。

用于LM-CNV调用验证的qPCR

引物对是使用罗氏应用科学公司的ProbeFinder软件设计的(https://www.roche-applied-science.com/sis/rtpcr/upl/index.jsp). ProbeFinder扫描假定CNV中心附近2-4kbp的DNA序列,UCSC In-Silio PCR确认引物对设计(http://genome.ucsc.edu/cgi-bin/hgPcr)和底漆-BLAST(http://www.ncbi.nlm.nih.gov/tools/primer-blast)对于唯一性和染色体位置,只有一个产物和扩增子大小。

用于参考靶点分析的对照引物从RPP30基因中获得65 bp扩增子(正向引物:AGATTGGACCTGAGCGG;反向引物:GAGCGGCTGCCACAAGT),从ZNF423基因中获得128 bp扩增子。已知这些基因在单倍体人类基因组中以单拷贝形式存在40,41。使用Applied Biosystems StepOne实时PCR系统(ABI)和SYBR®绿色化学进行实时定量PCR。实验数据使用StepOne Software v2.1进行处理。采用比较Ct法分析成纤维细胞和iPSCs中CNV的数据。

每个引物集的所有反应均以一式三份的形式进行,并由相同的主混合物制备而成,该主混合物包含1×Power SYBR Green PCR master mix、300nM CNV正向引物、300nM CNV反向引物和10ng基因组DNA。热循环条件包括在95°C下预运行10分钟和40个循环,其中95°C变性步骤持续15秒,然后60°C退火/延伸步骤持续60秒。在每次运行中,将成纤维细胞校准品与每个CNV的iPSC样品并行扩增。对于每个CNV测定,还包括重复的无模板阴性对照运行。

RNA-Seq分析及其与基因组CNV的相关性

Tophat公司42用于将数据与人类基因组(hGRC37)和动态构建的外显子和剪接文库进行比对。使用SAMtools将BAM格式的Tophat输出转换为SAM格式43然后,使用RSEQ工具44映射读取格式(MRF)。对于每个GENCODE45基因,RSEQtools用于计算转录物的标准化丰度水平,以RPKM,Reads Per Kb Per Million mapped Reads为单位。

对于来自同一个人的hiPSC的每一个三联体,我们选择了与三联体中至少一个hiPSC中的LM-CNV交叉的基因,并且在至少一个hiPSC中具有不同的零表达(保守地说,超过5个标准偏差)。然后,在同一个三联体中的hiPSC之间,比较有无LM-CNV的所选基因的表达值。

PCR检测成纤维细胞异质性

为了验证LM-CNV候选基因并检测成纤维细胞中的异质性,特异性引物(补充表3)设计用于靶向与删除区域相邻的区域两侧或复制区域的5′和3′端。通过这种方式,只有在存在缺失或重复的情况下才能扩增特定产物。来自HapMap细胞系GM12878的基因组DNA用作阴性对照。PCR使用10 ng iPSC gDNA、500 ng(即过量)成纤维细胞gDNA、500ng阴性对照的gDNA、200uM dNTPs、200 nM正向和反向引物、1.5 mM Mg2+和4单位Taq聚合酶(Invitrogen,CA),使用热循环条件,包括95°C 2分钟,35个95°C循环30秒,56°C循环30s,72°C循环30min,最后72°C延长5min。对于一个事件,进行了第二轮30个周期的PCR,以进一步增加信号。对于第一次PCR产物产量可观的CNV,在相同条件下进行额外的30个周期的PCR,但起始成纤维细胞gDNA的量减少到10 ng(即等于hiPSC的gDNA量)。所有特异扩增的PCR条带在2%的E-gel(Invitrogen,CA)上运行,凝胶由MinElute凝胶纯化试剂盒(Qiagen,MD)提取,提取的DNA用正向和反向引物测序。使用AGE将结果带与参考基因组对齐46导出准确的CNV断点。

数字PCR检测成纤维细胞LM-CNV细胞频率

数字液滴PCR(ddPCR)47使用Bio-Rad QX100平台Quantalife系统(Bio-Rad-Laboratories Inc.,Hercules CA)执行。按照制造商的说明,由ddPCR母液和TaqMan试剂组成的20ul PCR反应混合物被分成15000到20000个油包水滴。每个化学均质液滴都支持热循环中的PCR扩增。TaqMan试剂能够对扩增的参考区和靶区进行荧光标记。然后将PCR产物插入自动液滴流式细胞仪中,在该仪器中测量液滴的单色、同时双色检测。鉴于PCR混合物被随机分为15000到20000个反应囊泡,泊松统计可应用于该过程,以获得样品的目标核酸定量。

在这种情况下,VIC荧光探针与靶向RPP30基因的扩增子杂交,作为每个细胞中应有两个拷贝的参考区域(由BioRad提供的探针和引物)。合成了LM-CNV特异性FAM探针,以便将其与针对给定LM-CNV的扩增子杂交。引物设计用于靶向LM-CNV,使扩增子包含断点序列,FAM探针设计用于尽可能直接与该断点序列杂交(来自加利福尼亚州圣地亚哥IDT的LM-CNV特异性引物和探针)。在给定液滴中没有靶向LM-CNV的情况下,不会发生PCR反应。然后参照RPP30事件计数计算目标区域的拷贝数。

ddPCR检测参考区域和靶CNV的等位基因计数。是参考区域的测量值(即计数),以及CNV公司是hiPSC中靶CNV等位基因的测量值(即计数)。然后假设hiPSC中的细胞群体均匀,我们预计二倍体染色体上LM-CNV的目标杂合CNV的估计等位基因频率约为50%(一个单倍体没有LM-CNV),单倍体染色体上LM-CNVs的约为100%。那就是

CNV公司~=0.5对于二倍体染色体2CNV公司~=1单倍体染色体

(这里我们需要乘以2来解释单倍体染色体,因为参考区域位于二倍体染色体上)。事实上,我们观察到测量值与上述预期值非常接近,验证了我们的假设,即hiPSC细胞是均质的,LM-CNV是杂合的。

由于实验可变性(例如引物效率),这两个比率与0.5或1.0略有不同。作为实验偏差引入b条解释差异,然后用hiPSC

CNV公司b条=0.5对于二倍体染色体2CNV公司b条=1单倍体染色体

给我们b条=0.5*/CNV公司单倍体染色体的任何二倍体。

使用相同的逻辑,我们现在可以得出成纤维细胞中LM-CNV等位基因频率的估计。F类是参考等位基因的测量值(即计数),以及F类CNV公司是成纤维细胞中目标CNV等位基因的测量(即计数)。等位基因频率可估算如下

等位基因频率=F类CNV公司F类b条对于二倍体染色体等位基因频率=2F类CNV公司F类b条单倍体染色体

b条是从对hiPSC的数据分析中估计的,并且通常接近1。这个小区CNV频率也就是说,携带CNV的细胞数量可以估计为

小区CNV频率=2F类CNV公司 ∕ F类b条对于其中一个上的LM−CNV

单倍体或二倍体染色体。

为了评估该方法的敏感性,我们进行了一项阴性对照实验,将S1123家族中确认的LM-CNV的引物应用于03家族的样品,该家族没有这种特异的LM-CN。对于三个副本中的6146个参考等位基因,我们只观察到一个LM-CNV等位基因的虚假计数。对于我们按照制造商的说明设计和使用的所有引物,hiPSC中的等位基因比率没有超过预期的1:2(一条二倍体染色体)或1:1(单倍体染色体上)的16%。因此,我们估计了一个修正系数b条小于1.16,估计背景噪声为2*1/6146*1.16=0.038%。因此,0.1%的等位基因频率估计值与背景噪声至少相差1.63个标准差(假设噪声计数具有泊松性质)。

列比较基因组杂交

每个样本在NimbleGen 4.2M全基因组CNV阵列上杂交48在制造商建议的标准条件下。在来自先证者S1123-02的DNA样本的每次杂交中,将来自Promega的雌性DNA作为参考基因组。对于来自先证者03-03的DNA样本,将每个iPSC DNA样本与相应的成纤维细胞DNA样本杂交到同一阵列上。杂交后,在NimbleGen MS200微阵列扫描仪上扫描每个阵列,并使用NimbleScan 2.6软件对结果图像进行预处理。使用Nexus拷贝号版本6对来自阵列的数据进行进一步分析和可视化。

使用NimbleScan 2.6生成的原始探针强度数据,通过实施快速自适应状态分割技术(FASST2),在Nexus Copy Number 6中执行阵列分析。此分割算法关联日志2基因组中相邻探针与CNV事件估计值的比值。每个片段的最小探针数量设置为3,因为这是该分割算法的标准。调用CN增益的阈值设置为日志2CN损失的值为0.37和-0.5(这大致符合使用排序的保守调用标准)。日志2高增益(1个或多个拷贝)和高损耗的阈值分别设置为1.0和-1.1。

根据定义,先证者03-03是候选LM-CNV,因为我们将hiPSC DNA与成纤维细胞DNA杂交。对于先证者S1123-02,我们选择LM-CNV候选者作为hiPSC中与相应成纤维细胞中的任何调用都不重叠的调用。对于这个人,我们进一步筛选出可能是噪音的呼叫,即小于6 kbp的呼叫以及位于着丝粒和端粒的呼叫。

补充材料

1

单击此处查看。(22K,文档)

2

单击此处查看。(22M,pdf格式)

单击此处查看。(2.1M,xlsx)

4

单击此处查看。(43K,xlsx)

5

单击此处查看。(13K,xlsx)

致谢

我们感谢NIH、AL Williams教授基金和Harris教授基金的支持。我们还感谢耶鲁大学生物医学高性能计算中心;其支持团队(尤其是Robert Bjornson和Nicholas Carriero)。我们感谢Ami Klin博士在家庭招聘方面提供的重要帮助。我们感谢Maria Vittoria Simonini博士的技术帮助,感谢In-Hyun Park博士在iPSC系列特性描述和iPS PGP1-1礼品方面的建议,感谢Stephen A.Duncan博士赠送iPS K3 iPSC系列。我们感谢以下拨款支持:NIMH MH089176和MH087879、西蒙斯基金会和康涅狄格州,它们资助了hiPSC的生成和表征;国家卫生研究院拨款:RR19895,为仪器提供资金。我们感谢耶鲁临床研究中心在获取活检标本方面提供的临床支持。我们感谢耶鲁大学基因组分析中心的John Overton博士对DNA和RNA测序的建议。最后,我们感谢斯坦福大学的Maeve O'Huallachain女士和Jennifer Li-Pook-Than博士就ddPCR实验的规划、实施和分析提出的建议。

脚注

重印和权限信息可在www.nature.com/reprints网站

作者声明没有相互竞争的经济利益

作者贡献如下文所述,作者在不同层面上对本研究做出了贡献。研究构思和设计:F.M.V.、A.A.和A.E.U.家族选择:E.L.G.Skin L.T.和Y.Z.RNAseq数据的处理和分析:D.P.和A.A.DNAseq数据的处理和分析:A.A.和M.W.qPCR验证:A.F.PCR验证:Y.Z.和A.A.aCGH杂交和分析:M.S.H.ddPCR实验和分析:M.S.H.和A.A。人类受试者:K.C.分析的协调:F.M.V.、S.W.、A.E.U.和M.G.显示项目准备:A.A.、F.M.V..、L.T.、D.P.、J.M.、N.E.C.、Y.Z.和M.S.H.书写手稿:A.A。所有作者都参加了结果讨论和手稿编辑。

参考文献

1Laurent LC等。人类胚胎干细胞和多能干细胞在重编程和培养期间多能干和细胞增殖基因拷贝数的动态变化。细胞干细胞。2011;8:106–118. [PMC免费文章][公共医学][谷歌学者]
2Quinlan AR等。小鼠诱导多能干细胞的基因组测序揭示了逆转录酶稳定性和重编程期间罕见的DNA重排。细胞干细胞。2011;9:366–373. [PMC免费文章][公共医学][谷歌学者]
3Hussein SM等人。重编程到多能性期间的拷贝数变化和选择。自然。2011;471:58–62.[公共医学][谷歌学者]
4Mayshar Y等人。人类诱导多能干细胞染色体畸变的鉴定和分类。细胞干细胞。2010;7:521–531.[公共医学][谷歌学者]
5Takahashi K等。通过特定因子从成人成纤维细胞诱导多能干细胞。单元格。2007;131:861–872.[公共医学][谷歌学者]
6于杰,等。从人体体细胞诱导多能干细胞系。科学。2007;318:1917–1920.[公共医学][谷歌学者]
7Wernig M等。成纤维细胞体外重编程为多功能类ES-cell状态。自然。2007;448:318–324。[公共医学][谷歌学者]
8Lowry WE等。从皮肤成纤维细胞中生成人诱导的多能干细胞。美国国家科学院院刊。2008;105:2883–2888。 [PMC免费文章][公共医学][谷歌学者]
9Vaccarino FM等人,《年度研究综述:神经精神疾病干细胞研究的前景》。儿童心理精神病学杂志。2011;52:504–516. [PMC免费文章][公共医学][谷歌学者]
10Park IH等。疾病特异性诱导多能干细胞。单元格。2008;134:877–886. [PMC免费文章][公共医学][谷歌学者]
11Lee G等。使用患者特异性iPSCs对家族性自主功能障碍的发病机制和治疗进行建模。自然。2009;461:402–406. [PMC免费文章][公共医学][谷歌学者]
12Hargus G等。分化的帕金森病患者源性诱导多能干细胞在成年啮齿动物大脑中生长,并减少帕金森病大鼠的运动不对称性。美国国家科学院院刊。2010;107:15921–15926. [PMC免费文章][公共医学][谷歌学者]
13Brennand KJ,盖奇FH。简要回顾:基于人类诱导多能干细胞的精神分裂症研究的前景。干细胞。2011;29:1915–1922. [PMC免费文章][公共医学][谷歌学者]
14Liang Q,Conte N,Skarnes WC,Bradley A.胚胎干细胞中广泛的基因组拷贝数变异。美国国家科学院院刊。2008;105:17453–17456. [PMC免费文章][公共医学][谷歌学者]
15Wu H等。人类胚胎干细胞的拷贝数变异分析。干细胞。2008;26:1484–1489. [PMC免费文章][公共医学][谷歌学者]
16Elliott AM,Elliott KA,Kammesheidt A.使用以干细胞为中心的微阵列对人类干细胞进行高分辨率阵列CGH表征。分子生物技术。2010;46:234–242.[公共医学][谷歌学者]
17Howden SE等。旋回萎缩患者诱导多能干细胞的遗传校正和分析。美国国家科学院院刊。2011;108:6537–6542. [PMC免费文章][公共医学][谷歌学者]
18De S.健康人体组织中的体细胞嵌合体。遗传学趋势:TIG。2011;27:217–223。[公共医学][谷歌学者]
19Baillie JK等人。体细胞逆转录转座改变了人脑的遗传景观。自然。2011 [PMC免费文章][公共医学][谷歌学者]
20Coufal NG等。人类神经祖细胞中的L1逆转录转座。自然。2009;460:1127–1131. [PMC免费文章][公共医学][谷歌学者]
21Rehen SK等。正常人脑中的非整倍体构成。神经科学杂志。2005;25:2176–2180. [PMC免费文章][公共医学][谷歌学者]
22Youssoufian H,Pyeritz RE。人体内体细胞嵌合体的机制和后果。Nat Rev基因。2002;:748–758.[公共医学][谷歌学者]
23Piotrowski A等。分化人体组织中拷贝数变异的体细胞镶嵌现象。人类突变。2008;29:1118–1124.[公共医学][谷歌学者]
24Mkrtchyan H等人。早期胚胎染色体不稳定性导致人类组织中稳定的镶嵌图案。公共科学图书馆一号。2010;5:e9591。 [PMC免费文章][公共医学][谷歌学者]
25Poduri A等。纯合PLCB1缺失与婴儿期恶性迁移性部分性癫痫发作相关。癫痫。2012 [PMC免费文章][公共医学][谷歌学者]
26Abyzov A,Urban AE,Snyder M,Gerstein M.CNVnator:一种从家族和人群基因组测序中发现、分型和表征典型和非典型CNV的方法。基因组研究。2011;21:974–984. [PMC免费文章][公共医学][谷歌学者]
27Mills RE等人。通过人群规模的基因组测序绘制拷贝数变化图。自然。2011;470:59–65. [PMC免费文章][公共医学][谷歌学者]
28Cheng L等。非整合质粒表达产生的人类诱导多能干细胞中DNA序列变异的低发生率。细胞干细胞。2012;10:337–344. [PMC免费文章][公共医学][谷歌学者]
29Arlt MF、Ozdemir AC、Birkeland SR、Wilson TE、Glover TW。羟基脲诱导人类细胞中的从头拷贝数变异。美国国家科学院院刊。2011;108:17360–17365. [PMC免费文章][公共医学][谷歌学者]
30Eichler EE等人。缺失遗传力和寻找复杂疾病潜在原因的策略。Nat Rev基因。2010;11:446–450. [PMC免费文章][公共医学][谷歌学者]

参考文献

31Chan EM等。活细胞成像将真正的人类iPS细胞与部分重新编程的细胞区分开来。国家生物技术。2009;27:1033–1037.[公共医学][谷歌学者]
32Deb-Renker P,Ly D,Jezierski A,Sikorska M,Walker PR.神经元分化期间人类NT2细胞Nanog和Oct-4上游区域的序列DNA甲基化。生物化学杂志。2005;280:6257–6260。[公共医学][谷歌学者]
33Freberg CT、Dahl JA、Timoskainen S、Collas P。胚胎癌细胞提取物对OCT4和NANOG调节区的表观遗传重编程。细胞的分子生物学。2007;18:1543–1553. [PMC免费文章][公共医学][谷歌学者]
34Kim JE等。利用人类多能干细胞源神经元研究突触的形成和功能。美国国家科学院院刊。2011;108:3005–3010. [PMC免费文章][公共医学][谷歌学者]
35Li H,Durbin R.使用Burrows-Wheeler变换快速准确地进行长读数对齐。生物信息学。2010;26:589–595. [PMC免费文章][公共医学][谷歌学者]
36Wang LY、Abyzov A、Korbel JO、Snyder M、Gerstein M.MSB:一种基于均值-位移的基因组结构变异分析方法。基因组研究。2009;19:106–117。 [PMC免费文章][公共医学][谷歌学者]
37Zhang J、Feuk L、Duggan GE、Khaja R、Scherer SW。开发生物信息学资源,用于显示和分析人类基因组中的拷贝数和其他结构变体。细胞遗传学基因组研究。2006;115:205–214.[公共医学][谷歌学者]
38Korbel JO等人。PEMer:一个计算框架,带有基于模拟的错误模型,用于从大量配对测序数据推断基因组结构变体。基因组生物学。2009;10:R23。 [PMC免费文章][公共医学][谷歌学者]
39Lam HY等。使用BreakSeq和断点库对结构变体进行核苷酸再溶分析。国家生物技术。2010;28:47–55. [PMC免费文章][公共医学][谷歌学者]
40Sanders SJ等。多个复发新发CNV,包括7q11.23 Williams综合征区域的重复,与自闭症密切相关。神经元。2011;70:863–885. [PMC免费文章][公共医学][谷歌学者]
41Qin J,Jones RC,Ramakrishnan R.使用纳米流体平台研究拷贝数变化。核酸研究。2008;36:e116。 [PMC免费文章][公共医学][谷歌学者]
42Trapnell C、Pachter L、Salzberg SL。TopHat:利用RNA-Seq发现剪接连接。生物信息学。2009;25:1105–1111. [PMC免费文章][公共医学][谷歌学者]
43Li H等人,序列比对/映射格式和SAMtools。生物信息学。2009;25:2078–2079. [PMC免费文章][公共医学][谷歌学者]
44Habegger L等人。RSEQtools:一个模块化框架,用于使用紧凑的匿名数据摘要分析RNA-Seq数据。生物信息学。2010;27:281–283. [PMC免费文章][公共医学][谷歌学者]
45Bernstein BE等人。人类基因组中DNA元素的综合百科全书。自然。2012;489:57–74. [PMC免费文章][公共医学][谷歌学者]
46Abyzov A,Gerstein M.AGE:通过与间隙切除的最佳比对,在单核苷酸分辨率下定义基因组结构变体的断点。生物信息学。2011;27:595–603. [PMC免费文章][公共医学][谷歌学者]
47Hindson BJ等。用于DNA拷贝数绝对定量的高通量液滴数字PCR系统。分析化学。2011;83:8604–8610. [PMC免费文章][公共医学][谷歌学者]
48Haraksingh RR,Abyzov A,Gerstein M,Urban AE,Snyder M.人类拷贝数变异的全基因组映射:高分辨率阵列平台的比较分析。公共科学图书馆一号。2011;6:e27859。 [PMC免费文章][公共医学][谷歌学者]