自然。作者手稿;PMC 2013年6月20日提供。
以最终编辑形式发布为:
预防性维修识别码:PMC3532053型
NIHMSID公司:NIHMS411275标准
诱导多能干细胞显示人体皮肤中的体细胞拷贝数嵌合体
,1,2,三 ,1,4,* ,1,4,* ,1,6,* ,12,13,* ,1,4,* ,1,4,5 ,1,4 ,1,6,7 ,1,2,三 ,1,4 ,1,4 ,1,4,8中,9 ,1,11 ,1,4 ,1,6 ,1,12,13,# ,1,2,三,10,#和1,4,5,#
阿列克谢·阿卜佐夫
1耶鲁大学神经发育与再生项目,康涅狄格州纽黑文06520
2计算生物学和生物信息学课程,耶鲁大学,康涅狄格州纽黑文06520
三耶鲁大学分子生物物理和生物化学系,康涅狄格州纽黑文06520
杰西卡·马里亚尼
1耶鲁大学神经发育与再生项目,康涅狄格州纽黑文06520
4耶鲁大学儿童研究中心,康涅狄格州纽黑文06520
迪安·帕列耶夫
1神经发育和再生项目,耶鲁大学,康涅狄格州纽黑文06520
4耶鲁大学儿童研究中心,康涅狄格州纽黑文06520
张颖(音)
1耶鲁大学神经发育与再生项目,康涅狄格州纽黑文06520
6耶鲁大学遗传学系,康涅狄格州纽黑文06520
迈克尔·谢默斯·哈尼
12美国斯坦福大学精神病学和行为科学系
13美国斯坦福大学医学院遗传学系
利维亚·托马西尼
1耶鲁大学神经发育与再生项目,康涅狄格州纽黑文06520
4耶鲁大学儿童研究中心,康涅狄格州纽黑文06520
安东尼·费兰迪诺
1耶鲁大学神经发育与再生项目,康涅狄格州纽黑文06520
4耶鲁大学儿童研究中心,康涅狄格州纽黑文06520
5耶鲁大学神经生物学系,康涅狄格州纽黑文06520
Lior A.Rosenberg Belmaker律师
1耶鲁大学神经发育与再生项目,康涅狄格州纽黑文06520
4耶鲁大学儿童研究中心,康涅狄格州纽黑文06520
安娜·塞凯利
1耶鲁大学神经发育与再生项目,康涅狄格州纽黑文06520
6耶鲁大学遗传学系,康涅狄格州纽黑文06520
7耶鲁大学神经病学系,纽黑文CT 06520
米高·威尔逊
1神经发育和再生项目,耶鲁大学,康涅狄格州纽黑文06520
2计算生物学和生物信息学课程,耶鲁大学,康涅狄格州纽黑文06520
三耶鲁大学分子生物物理和生物化学系,康涅狄格州纽黑文06520
阿里夫·科卡巴斯
1耶鲁大学神经发育与再生项目,康涅狄格州纽黑文06520
4耶鲁大学儿童研究中心,康涅狄格州纽黑文06520
纳撒尼尔·卡利克斯托
1耶鲁大学神经发育与再生项目,康涅狄格州纽黑文06520
4耶鲁大学儿童研究中心,康涅狄格州纽黑文06520
埃琳娜·格里戈伦科
1耶鲁大学神经发育与再生项目,康涅狄格州纽黑文06520
4耶鲁大学儿童研究中心,康涅狄格州纽黑文06520
8耶鲁大学心理学系,康涅狄格州纽黑文06520
9耶鲁大学流行病学和公共卫生系,康涅狄格州纽黑文06520
安妮塔·赫特纳
1耶鲁大学神经发育与再生项目,康涅狄格州纽黑文06520
11耶鲁大学病理学系,纽黑文CT 06520
卡塔兹纳·查瓦斯卡
1神经发育和再生项目,耶鲁大学,康涅狄格州纽黑文06520
4耶鲁大学儿童研究中心,康涅狄格州纽黑文06520
谢尔曼·魏斯曼
1耶鲁大学神经发育与再生项目,康涅狄格州纽黑文06520
6耶鲁大学遗传学系,康涅狄格州纽黑文06520
亚历山大·埃克哈特·乌尔本
1耶鲁大学神经发育与再生项目,康涅狄格州纽黑文06520
12美国斯坦福大学精神病学和行为科学系
13美国斯坦福大学医学院遗传学系
马克·格斯坦
1耶鲁大学神经发育与再生项目,康涅狄格州纽黑文06520
2计算生物学和生物信息学课程,耶鲁大学,康涅狄格州纽黑文06520
三耶鲁大学分子生物物理学和生物化学系,康涅狄格州纽黑文06520
10耶鲁大学计算机科学系,康涅狄格州纽黑文06520
弗洛拉·瓦卡里诺
1耶鲁大学神经发育与再生项目,康涅狄格州纽黑文06520
4耶鲁大学儿童研究中心,康涅狄格州纽黑文06520
5耶鲁大学神经生物学系,康涅狄格州纽黑文06520
1耶鲁大学神经发育与再生项目,康涅狄格州纽黑文06520
2计算生物学和生物信息学课程,耶鲁大学,康涅狄格州纽黑文06520
三耶鲁大学分子生物物理和生物化学系,康涅狄格州纽黑文06520
4耶鲁大学儿童研究中心,康涅狄格州纽黑文06520
5耶鲁大学神经生物学系,康涅狄格州纽黑文06520
6耶鲁大学遗传学系,康涅狄格州纽黑文06520
7耶鲁大学神经病学系,纽黑文CT 06520
8耶鲁大学心理学系,康涅狄格州纽黑文06520
9耶鲁大学流行病学和公共卫生系,康涅狄格州纽黑文06520
10耶鲁大学计算机科学系,康涅狄格州纽黑文06520
11耶鲁大学病理学系,纽黑文CT 06520
12美国斯坦福大学精神病学和行为科学系
13美国斯坦福大学医学院遗传学系
*这些作者对这项工作做出了同样的贡献
#通讯作者
从体细胞衍生iPSC的能力5-8为人类发展、人类遗传变异和再生医学的研究开辟了令人兴奋的新可能性9-13然而,所有这些应用都要求iPSC,即每个来源于一个或仅几个体细胞的克隆细胞系,稳定地维持其来源个体的遗传背景。然而,有报道称干细胞和前体细胞中存在基因组不稳定性,这表明除了单个碱基对改变外,多能干细胞中还可能出现拷贝数变异/结构变异(CNV/SVs)1-4,14-17这些变异可能是由于去分化过程、培养时间过长或起源的体细胞组织中预先存在低频率引起的。新的证据表明,由于DNA复制、DNA修复、有丝分裂和转座因子动员过程中的错误,不仅在癌症中,而且在体细胞谱系中可能存在广泛的基因组嵌合体18-21。这种现象可能会产生深远的生理后果,但人们对其仍知之甚少,也很难进行研究22-25iPSC的衍生提供了以高分辨率和高灵敏度分析单个细胞基因组的机会。
利用典型的逆转录病毒方法,我们从两个家族的七个成员的皮肤成纤维细胞中获得了21个人类iPSC(hiPSC)株(补充图1). hiPSC株系由四组质量控制标准表征:1)形态,2)多能性因子在蛋白质水平的表达,3)基因表达分析(RT-PCR,微阵列,RNAseq的完整转录组)和4)典型多能性因素启动子的去甲基化(补充图2-三和补充表1-2). 这次彻底的评估(补充信息)揭示了hiPSCs与hESCs的广泛相似性以及hiPSC与成纤维细胞的差异性,表明hiPSC完全重新编程。最后,通过神经元分化分析,我们发现hiPSC表现出类似的神经谱系分化倾向(补充图4).
然后,我们在ILLUMINA HiSeq平台上为20个hiPSC品系生成了一条全基因组配对末端(PE)测序数据,并用CNVnator预测了hiPSC品系中的CNVs26(补充图1B). CNVnator使用读取深度(RD)分析,在确认之前通过阵列和磷定序发现的CNV方面具有最高的灵敏度27首先,我们通过与参考人类基因组进行比较,在成纤维细胞和hiPSC样本中发现CNV,然后将每个hiPSC株系的基因型与其各自的亲代成纤维细胞(即每个克隆hiPSC系的起源成纤维细胞株)进行比较,以确定仅在hiPSC中出现的变异,即线路指定CNV(LM-CNV)。我们能够发现小到2 kbp的CNV,但对大小至少为5 kbp的cnV的敏感性最高(补充图5). 使用保守标准,我们预测所有20条线路中总共有74条LM-CNV(补充表3)即每条生产线只有几个LM-CNV。通过外显子法产生的少数额外hiPSC株系中,每株系的LM-CNV数量相似(补充信息).
我们观察到LM-CNV的数量与hiPSC株系测序的传代数之间存在正相关但不显著(). 无论是更宽松的CNV调用还是更敏感的LM-CNV识别标准都没有使相关性显著。LM-CNV仅占最初在hiPSC株系中发现的所有CNV的一小部分,在较高覆盖率(约20X)下进行RD分析并没有改变LM-CNVs相对于CNV总数的比例(). 即使使用LM-CNV预测的敏感标准,其比例也不超过17%。作为阳性对照,我们使用相同的方法,将hiPSC系与另一家族个体的成纤维细胞进行比较,每次比较观察到大约40种不同的CNV(即每个hiPSC株显著多于LM-CNV,),这与之前描述的类似尺寸范围内的个体间变化一致27.
候选株系表现的CNV(LM-CNVs)在通过数和总CNV方面的特征一,无论我们的检测标准的灵敏度如何,LM-CNV的数量在通过方面没有表现出显著的变化。在本文中,除非另有说明,否则使用了保守标准(蓝色符号)。b条,与参考人类基因组相比,在hiPSC中检测到的所有CNV中LM-CNV的百分比;方形符号表示在增加(20倍)覆盖范围时获得的数据。LM-CNV只占一个人所有CNV的一小部分。c(c),以不同个体的成纤维细胞为基线,研究hiPSC中LM-CNV的计数。与来自无关人群(即来自其他家庭的个体)的成纤维细胞相比,约40个CNV(灰条)中的hiPSC基因组不同。相反,与来源的成纤维细胞相比,hiPSC的基因组差异不到10个CNV(蓝条)。与成纤维细胞相比,hiPSC中的LM-CNV对人类现有的遗传多样性来说增加了一小部分。
不一致配对阅读分析证实了RD分析发现的22个LM-CNV(补充信息). 对于39个最有把握的预测,我们在hiPSC早期传代(即第5-13代)和晚期传代细胞(如可用)(即第17-52代)中进行了qPCR验证分析(见下文)。这些分析验证了33个LM-CNV(,补充表3,补充图6-44). 20个hiPSC株系中有15个(75%)株系存在经验证的LM-CNV,其中9个(45%)hiPSC具有一个以上LM-CNV。
表1
通过hiPSC中PE分析获得的额外实验支持,对验证的线性CNV进行总结。对于每个CNV,在成纤维细胞样本中未检测到PE支持。NA表示在三次尝试后,在成纤维细胞和hiPSC中均未成功进行ddPCR的事件。零频率表明CNV不是体细胞病毒,或者其频率超过0.1%的检测限。
人 | iPS系统 | LM-CNV区域 chrom:开始,类型 | 尺寸, 千字节 | 支持, #PE的 | 分数in 成纤维细胞 |
---|
父亲 S1123-01号 | #1个 | 22:38755001,重复 | 34 | - | - |
#3 | 3:175005001,重复 | 59 | 三 | 纳 |
5:168431001,重复 | 288 | 6 | 纳 |
20:14809001,德尔 | 75 | 1 | 纳 |
十: 64962001,重复 | 67 | 三 | 12.6% |
| #4 | 十: 64963001,重复 | 65 | 5 | 12.6% |
母亲 S1123-02号 | #2 | 12:66253001,删除 | 72 | 5 | ~0% |
13:11111 2001年,del | 48 | 三 | - |
#11 | 4:130288001,删除+ | 330 | 1 | 纳 |
#17 | 7:133748001,重复 | 37 | 4 | 14.6% |
11:84329001,德尔 | 211 | - | - |
20:15010001,删除 | 182 | 5 | 纳 |
探险家 第123页至第03页 | #1个 | 无 | - | - | - |
#8 | 无 | - | - | - |
#9 | - | - | - | - |
父亲 03-01 | #2 | 无 | - | - | - |
#3 | 8:124671001,重复 | 33 | - | - |
22:38753001,重复 | 36 | - | - |
| #9 | 无 | - | - | - |
母亲 03-02 | #5 | 十: 90672001,德尔 | 17 | 2 | - |
#8 | 无 | - | - | - |
#9 | 1:162043001,复制 | 65 | - | - |
12:37961001,德尔 | 426 | - | - |
18:70516001,删除 | 27 | - | - |
十: 141153001,德尔 | 38 | - | - |
探险家 03-03 | #2 | 14:76667001,德尔+ | 111 | 2 | 1.9% |
22:28832001,德尔+ | 47 | 2 | ~0% |
#3 | 日期:5:263001+ | 134 | 4 | - |
| #4 | 11:84581001,重复+ | 107 | 6 | ~0% |
兄弟姐妹 03-04 | #1个 | 1:243008001,德尔+ | 525 | - | - |
7:2400001,重复+ | 400 | 7 | - |
8:3558001,德尔+ | 127 | 三 | - |
12:37993001,德尔+ | 429 | - | - |
#5 | 1:234023001,德尔+ | 378 | - | - |
8:43563001,del− | 230 | - | - |
#6 | 3:143236001,重复+ | 631 | 1 | 0.3% |
8:15540001,德尔+ | 75 | 1 | 0.8% |
10:70514001,重复+ | 622 | 三 | 0.4% |
10:74033001,重复+* | 617 | 三 | - |
为了对我们的LM-CNV检测方法进行独立验证,我们通过高分辨率阵列比较基因组杂交(aCGH)分析了S1123家族母亲和03家族先证者的hiPSC和成纤维细胞样本。通过qPCR验证的所有10个LM-CNV()通过对这些个体的hiPSC进行测序发现的,也被aCGH证实(补充图45-54). 然而,使用CGH数据无法发现额外的LM-CNV,因为根据随机子集的qPCR验证,额外预测集的估计FDR接近100%(补充表4-5). 这些数据表明,仅对测序数据进行分析就可以发现所有或几乎所有LM-CNV。最后,我们在五个hiPSC品系的后续传代,即第17-52代中,通过qPCR检测了经验证的LM-CNV的存在。我们观察到晚传代和早传代的qPCR结果之间存在很强的相关性(皮尔逊系数0.96)(补充图6). 在测试的16个LM CNV中,87.5%在传代后期得到验证()表明hiPSC基因组的长期稳定性。
然后我们分析了LM-CNV的起源,即它们是否出现从头开始在hiPSC中作为重编程的后遗症,或在供体成纤维细胞群体中存在低等位基因频率。成纤维细胞体细胞基因组异质性的第一个间接但提示性证据是在来自同一个人的成纤维细胞培养物的两个不同hiPSC系(#3和#4)中观察到相同的经验证的LM-CNV(chrX:64962001-65029000)(;;补充图55). 基因组异质性的进一步证据是认识到,对于许多CNV来说,拷贝数比率偏离1.5,表示一个单倍型重复或0.5,表示一种单倍型缺失,使用RD分析及其qPCR验证(补充图6,补充信息).
成纤维细胞中典型体细胞CNV细胞频率的验证和估计一,从成纤维细胞样品S1123-01中获得的三个hiPSC系中,有两个在X染色体上有相同的重复,而在亲代成纤维细胞中没有检测到。b条,通过CNV断点的PCR扩增显示,双亲成纤维细胞中存在较低频率的重复(FBR=成纤维细胞;CTRL=阴性对照)c(c),散点图,显示与LM-CNV断点处PCR扩增相关的信号强度(Y轴,绿色)。用于控制区域的并行放大的信号显示在X轴上(蓝色)。每个点代表一个PCR事件。CNV区域的PCR位点明显少于对照区的PCR位点。d日假设hiPSCs中携带LM-CNV的细胞的频率为100%,在控制区对LM-CNVs的事件数进行标准化后,计算成纤维细胞中携带LMC-CNV的细胞频率。LM-CNV(绿色条)和对照区(蓝色条)的ddPCR事件计数允许估计成纤维细胞中的细胞频率为12.6%。e(电子)第7号染色体上的重复,RD在亲代成纤维细胞中检测不到,但PCR检测为微弱带。(f)通过ddPCR,该事件的成纤维细胞中的细胞频率估计为14.6%。克RD和PCR均未检测到亲代成纤维细胞中的第8号染色体缺失。小时通过ddPCR,该事件的成纤维细胞中的细胞频率估计为0.8%。
为了检测成纤维细胞培养物中是否存在体细胞CNV,我们使用诊断引物对20例LM-CNV在hiPSC和相应供体成纤维细胞中的CNV断点进行PCR扩增,并通过PE分析对其断点进行了初步估计(,,补充表3). 当使用hiPSC DNA时,我们在所有病例中都观察到了预期的条带,当使用相应的成纤维细胞培养物的DNA时,在8例病例中观察到了期望的条带(; 看见代表性示例和补充图7-39). 对于15个LM-CNV,我们额外进行了数字滴滴PCR(ddPCR)(),这不仅可以观察低频体细胞CNVs,还可以估计它们在体细胞镶嵌中的等位基因频率,灵敏度低至0.1%。根据等位基因频率,利用靶区和对照区之间的比率计算成纤维细胞中的细胞频率,如方法中所述。成纤维细胞X染色体的重复频率估计为12.6%(). 细胞频率变化范围为14.6%()小于1%()和总结如下总之,使用PCR和ddPCR可以确定20个LM-CNV中有10个存在于亲代成纤维细胞培养物中,这表明成纤维细胞体细胞基因组异质性可以解释hiPSC中至少50%的LM-CNVs(补充表6).
PCR条带的Sanger毛细管测序允许我们用碱基对分辨率确定18个非冗余LM-CNV的断点(补充对齐文件). 对断点周围序列的分析表明,非同源末端连接(NHEJ)是LM CNVs产生的关键机制。最后,我们检查了LM-CNVs是否影响交叉基因的表达。使用Fischer精确检验进行的统计分析表明,p值为0.01时,基因表达与其拷贝数直接相关,即重复增加表达,而缺失减少表达(补充图56).
总之,我们报告了hiPSC株系的基因组稳定性,以及人类皮肤成纤维细胞基因组中的拷贝数变异存在广泛的体细胞嵌合体。这是系统性发现和分析20个hiPSC株系中CNV的结果,与衍生hiPSC系的7个成纤维细胞培养物相关。由于hiPSC是从少数或仅一个成纤维细胞克隆而来,因此对其基因组的分析使我们能够发现亲代成纤维细胞亚群中存在的CNV,从而可以揭示原始人群中极低的等位基因频率变异。然后,我们跨断点使用PCR/ddPCR对亲代成纤维细胞中的CNV进行基因分型,并估计hiPSCs中50%的CNV可追溯到原始成纤维细胞群体。我们可能低估了这一现象,因为由于技术限制,极低等位基因频率的体细胞CNV仍可能无法通过PCR/ddPCR在成纤维细胞中得到证实。尽管如此,从概念上讲,我们的方法可以用于比较任何克隆(不仅是iPSC)和亲本细胞群体,目的是研究体细胞变异。
总的来说,我们发现hiPSC在平均两个验证的大于10 kbp的CNV上表现出来,这比之前的两个研究要多得多1,28差异可能是由于我们使用了测序(通常是一种更敏感的方法,参见补充讨论)而不是使用SNP阵列1。而Cheng等人。28他们还使用测序法,只分析了三个hiPSC株系,因此,如果外推到更大的数量,他们的结果仍可能与我们的结果一致。或者,骨髓单个核细胞可能比成纤维细胞具有更少的体细胞变异,这解释了为什么由Cheng等人从前者衍生的hiPSC系表现出的LM-CNV少于我们从后者衍生的hiPSC系。
此前曾假设,在重编程过程中,DNA损伤或受损的DNA修复可能导致hiPSC中出现CNV。虽然我们承认在某些hiPSC株系中,在重编程过程中可能会出现一些CNV,但我们的数据表明重编程就其本身而言不强制诱导从头开始至少有一半的LM-CNV突变之前存在于亲代成纤维细胞中。我们还发现LM-CNV的数量与传代数之间没有显著差异。因此,我们的分析既不支持这一假设三hiPSC通常有很大的发病率从头开始hiPSC中大多数LM-CNV在晚期传代中消失的突变和观察三使用不同的亲本细胞和应用不同的细胞培养方案可能是导致结果差异的因素。
在6个hiPSC中,我们确定至少一个LM-CNV起源于亲代成纤维细胞。假设每个hiPSC集落代表单个克隆性扩增细胞,我们估计30%(=6/20)的皮肤成纤维细胞携带大型体细胞CNV。据我们所知,这是第一次这样的估计。此外,通过ddPCR,我们估计细胞频率高达15%,低至百分之一,这表明成纤维细胞嵌合体的程度存在很大的可变性。虽然在成纤维细胞培养过程中可能出现了一些CNV29,我们认为这是不可能的,因为它们在进行hiPSC生成之前传代不到5次。
这已经有一段时间了22体细胞变异可能导致各种疾病,包括癌症,我们刚刚提供的证据表明,体细胞变异的程度可能被严重低估。如果是真的,在设计基于hiPSC的研究时需要考虑这一点。但更重要的是,这一发现可能会对广泛采用的用于复杂遗传疾病遗传分析的实验设计提出挑战,在复杂遗传疾病中,只分析淋巴母细胞的基因组。通过以意想不到的方式影响表型,体获得性CNV可能至少部分解释了在确定某些复杂疾病,特别是神经发育疾病中的遗传贡献方面存在的挑战,而确定遗传易感性的确切位点已被证明是困难的30.
方法
诱导多能干细胞(iPSC)生成
使用标准技术从两个家族的每个成员的上臂内侧进行皮肤活检。根据耶鲁大学IRB和YCCI的规定,从参与研究的每个受试者中获得知情同意。使用标准程序获得原代培养的成纤维细胞,并在第3代感染Yamanaka的四种逆转录病毒载体,使用5的MOI编码典型的重编程因子(OCT4、SOX2、KLF4和c-MYC)。在培养一个月后,挑选具有典型hESC形态的菌落,在DMEM/F12中的Matrigel底物上扩增,含有1%N2增补剂、2%B27增补剂、2 mM L-谷氨酰胺、0.1 mM非必需氨基酸、1%青霉素/链霉素、0.5 mg/mL BSA分数V(均来自Invitrogen)、0.12 mM单硫代甘油(Sigma,M-6145)、,并补充80 ng/ml重组人碱性成纤维细胞生长因子(Millipore)。菌落通过免疫荧光、RT-PCR和基因表达进行表征(见下文)。
亚硫酸氢盐测序
使用亚硫酸氢甲酯转化试剂盒(加利福尼亚州生命技术公司)将200 ng来自成纤维细胞或hiPSC的基因组DNA转化为亚硫酸氢盐。用10月4日的引物集7通过PCR扩增亚硫酸氢盐转化的DNA32和设置333对于Nanog。使用以下成分进行PCR:200μM dNTPs、200 nM正向或反向引物和2单位PfuTurboCx热启动DNA聚合酶(安捷伦科技公司,加利福尼亚州),PCR条件为95°C 5分钟,95°C 35个周期30秒,58/55°C 1分钟,72°C 1 min,然后在72°C下延长10分钟。然后克隆PCR产物,并为每个扩增子选择7-8个菌落进行Sanger测序。
神经元分化
神经分化是通过对hiPSC领域已经使用的方案稍作修改来实现的13,34将保存在Matrigel上的未分化hiPSC菌落与ROCK抑制剂(Y-27632)预先孵育,分离成单个细胞,然后使用V-bottom Aggrewell平板在含有重组Noggin(200ng/mL)的无血清培养基中重新聚集。两天后,将产生的类胚体(EB)转移到皮氏培养皿中,在悬浮培养中再培养两天,然后转移到无血清培养基中的Matrigel底物中,该培养基补充有Noggin(200ng/mL)、FGF2(20ng/mL)和Dkk1(200ng/mL)。24小时后,EB产生被称为玫瑰花结的神经上皮结构。在FGF2和EGF(均为10ng/mL)存在的情况下,在聚鸟氨酸和层粘连蛋白包被的培养皿上人工解剖、解离和重新定位神经玫瑰花结后,获得单层神经祖细胞(NPC),这允许增殖的神经祖细胞扩增(3或4代)。
基因表达分析用微阵列
通过HumanHT-12 v4 BEADCHIP Illumina微阵列分析上述分离的总RNA。数值由GenomeStudio使用分位数归一化和背景减法进行分析。将差异分数与从联邦批准的H1人类胚胎干细胞(hESC)系获得的值进行比较。
配对末端(PE)RNA和DNA测序的文库准备
对于RNA-seq文库,聚腺苷化RNA片段通过Dynabeads mRNA纯化试剂盒(invitrogen,CA)纯化,片段化(RNA片段缓冲区,Ambion CA),并使用随机六聚体和上标II(invitro,CA)反转录成第一链cDNA,然后使用RNaseH和DNA聚合酶I(invitrogen,CA)合成第二链cDNA。在与Illumina成对末端适配器结扎之前,对cDNA进行末端修复,并在3′端添加一个“a”。在凝胶上运行后,使用MinElute凝胶纯化试剂盒(Qiagen,MD)切割并提取250至350 bp的DNA片段,并使用Phusion High-Fidelity主混合物和Illumnia PE引物在98°C条件下进行PCR扩增,98°C 15个循环10秒,65°C条件30秒,72°C条件30s,以72°C结束5分钟。
为了制作DNA文库,遵循了PE DNA样品制备的Illumina协议,并进行了少量修改。简而言之,对gDNA进行声波处理,生成200bp至800bp的片段,这些片段经过末端修复,末端附着“A”,与Illumina PE适配器连接,大小在2%E-gel(Invitrogen,CA)上选择(450bp–550 bp)并从凝胶中提取。最后的PCR步骤与RNA-seq文库制备相同,但有18个周期。
hiPSC中线性CNV的保守预测
使用BWA 0.5.9-r1635带有选项“-t 4-q 15”的对准器,我们已将基因组序列读取与1000基因组项目使用的人类参考基因组对齐(ftp://ftp-trace.ncbi.nih.gov/1000基因组/ftp/technical/reference),它基于hGRC37,包含少量额外的连接。对齐读取由BWA使用以下选项“-a 1000-n 1-n 1”进行配对、映射和排序。因此,对于每个序列样本,我们都获得了一个BAM格式的映射读取文件。为了预测CNV,使用CNVnator方法处理bam文件26,36其基于读取深度分析(参见Mills等人。27供审查)。为了分析低覆盖率下测序的基因组,我们使用了1000 bp的箱子。为了分析在高覆盖率下测序的两个基因组,我们使用了400 bp的箱子。然后,在hiPSC和相应的成纤维细胞中,我们估计/基因分型并比较(通过CNVnator)hiPSC中预测的CNV拷贝数(CN)。在正常细胞中,CN应该是一个整数(例如0、1、2等),但是,如果用于分析的细胞群不是异质的,那么CN可以是一个非负实数(例如1.5)。如果i)中国我<1.5&中国(f)>1.5&中国(f)–中国我>0.5; 或ii)中国我<0.5&中国(f)>0.5&中国(f)–中国我>0.5男性样本中的X和Y染色体。在这里,中国我和中国(f)分别代表iPSCs和成纤维细胞样品中的CN。同样,如果iii)中国我>2.5&中国(f)<2.5&中国我-中国(f)>0.5; 或iv)中国我>1.5&中国(f)<1.5&中国我-中国(f)>0.5男性样本中的X和Y染色体。换句话说,我们认为CNV在成纤维细胞中的估计等位基因频率至少为25%,与hiPSC株相比,等位基因的频率差异至少为25%。然后,我们手动检查RD信号轨迹,以选择最有信心的线状CNV(LM-CNV)候选进行验证。为了选择有信心的候选者,我们依靠人类专业知识直观评估候选者区域的RD信号,存在支持预测的不一致配对读码(见下文),以及在片段重复区域需要非常明显的信号;我们还考虑了CNV是否是以前发现的CNV27,37.重新估计了两个CNV边界。通过qPCR、aCGH、PCR和ddPCR对筛选出的可靠LM-CNV候选基因进行了实验验证。
hiPSC中线性CNV的敏感性预测
为了使用CNVnator进行更敏感的CNV呼叫,我们使用了选项“relax”,这允许我们找到等位基因频率低至12.5%的CNV,而默认选项为25%。值得注意的是,二倍体染色体上的杂合缺失/重复具有50%的等位基因频率。此外,我们放宽了将CNV声明为LM-CNV的标准。具体而言,我们使用了以下标准i)中国我<1.7&中国(f)>1.5&中国(f)–中国我>0.3; 和ii)中国我<0.7&中国(f)>0.5&中国(f)–中国我>0.3要求在二倍体和单倍体染色体上分别进行线性缺失。同样,我们使用了iii)中国我>2.3&中国(f)<2.5&中国我-中国(f)>0.3; 和iv)中国我>1.3&中国(f)<1.5&中国我-中国(f)>0.3要求在二倍体和单倍体染色体上分别进行线性重复。换句话说,与hiPSC株系相比,我们认为CNV在成纤维细胞中具有估计的等位基因频率(低至15%)和等位基因的频率差异(低至15%。
通过配对分析获得CNV的额外支持
为了获得预测CNV的额外支持,我们在hiPSC细胞系和亲代成纤维细胞中搜索异常映射的配对基因(PE)38。对于删除,支持PE必须映射到预期的方向,但与测序库准备中的预期PE相比,其跨度应更大。对于串联复制,支持PE smust贴图的方向与预期不同,并且跨度也较大(补充图57). 预测的重复可能是串联的,也可能是分散的。对于分散复制,我们搜索了PEs簇,其中一端映射接近预测的复制边界,另一端在基因组中某处聚集。众所周知,见Lam等人。39在读映射不明确的断点附近,CNV被富集为重复序列和同源序列。因此,预测的CNV没有PE支持并不会使CNV无效。我们认为,如果PE具有适当的(针对CNV类型的)读取映射模式,并且其跨度和预测的CNV大小至少有80%的相互重叠,则PE支持删除/复制。这种条件和预测的CNV的千基大小保证了支持性PE的跨度至少为几个kbp,这远远大于测序文库准备的预期跨度,即300-800 bp。最后,尽管我们不需要任何特定的读取映射质量,但每个支持读取不低于25(根据映射器,这意味着不正确映射的几率小于0.003)。由于只找到了大约100个支持读取,我们不希望其中任何一个被错误映射。
用于LM-CNV调用验证的qPCR
引物对是使用罗氏应用科学公司的ProbeFinder软件设计的(https://www.roche-applied-science.com/sis/rtpcr/upl/index.jsp). ProbeFinder扫描假定CNV中心附近2-4kbp的DNA序列,UCSC In-Silio PCR确认引物对设计(http://genome.ucsc.edu/cgi-bin/hgPcr)和底漆-BLAST(http://www.ncbi.nlm.nih.gov/tools/primer-blast)对于唯一性和染色体位置,只有一个产物和扩增子大小。
用于参考靶点分析的对照引物从RPP30基因中获得65 bp扩增子(正向引物:AGATTGGACCTGAGCGG;反向引物:GAGCGGCTGCCACAAGT),从ZNF423基因中获得128 bp扩增子。已知这些基因在单倍体人类基因组中以单拷贝形式存在40,41。使用Applied Biosystems StepOne实时PCR系统(ABI)和SYBR®绿色化学进行实时定量PCR。实验数据使用StepOne Software v2.1进行处理。采用比较Ct法分析成纤维细胞和iPSCs中CNV的数据。
每个引物集的所有反应均以一式三份的形式进行,并由相同的主混合物制备而成,该主混合物包含1×Power SYBR Green PCR master mix、300nM CNV正向引物、300nM CNV反向引物和10ng基因组DNA。热循环条件包括在95°C下预运行10分钟和40个循环,其中95°C变性步骤持续15秒,然后60°C退火/延伸步骤持续60秒。在每次运行中,将成纤维细胞校准品与每个CNV的iPSC样品并行扩增。对于每个CNV测定,还包括重复的无模板阴性对照运行。
RNA-Seq分析及其与基因组CNV的相关性
Tophat公司42用于将数据与人类基因组(hGRC37)和动态构建的外显子和剪接文库进行比对。使用SAMtools将BAM格式的Tophat输出转换为SAM格式43然后,使用RSEQ工具44映射读取格式(MRF)。对于每个GENCODE45基因,RSEQtools用于计算转录物的标准化丰度水平,以RPKM,Reads Per Kb Per Million mapped Reads为单位。
对于来自同一个人的hiPSC的每一个三联体,我们选择了与三联体中至少一个hiPSC中的LM-CNV交叉的基因,并且在至少一个hiPSC中具有不同的零表达(保守地说,超过5个标准偏差)。然后,在同一个三联体中的hiPSC之间,比较有无LM-CNV的所选基因的表达值。
PCR检测成纤维细胞异质性
为了验证LM-CNV候选基因并检测成纤维细胞中的异质性,特异性引物(补充表3)设计用于靶向与删除区域相邻的区域两侧或复制区域的5′和3′端。通过这种方式,只有在存在缺失或重复的情况下才能扩增特定产物。来自HapMap细胞系GM12878的基因组DNA用作阴性对照。PCR使用10 ng iPSC gDNA、500 ng(即过量)成纤维细胞gDNA、500ng阴性对照的gDNA、200uM dNTPs、200 nM正向和反向引物、1.5 mM Mg2+和4单位Taq聚合酶(Invitrogen,CA),使用热循环条件,包括95°C 2分钟,35个95°C循环30秒,56°C循环30s,72°C循环30min,最后72°C延长5min。对于一个事件,进行了第二轮30个周期的PCR,以进一步增加信号。对于第一次PCR产物产量可观的CNV,在相同条件下进行额外的30个周期的PCR,但起始成纤维细胞gDNA的量减少到10 ng(即等于hiPSC的gDNA量)。所有特异扩增的PCR条带在2%的E-gel(Invitrogen,CA)上运行,凝胶由MinElute凝胶纯化试剂盒(Qiagen,MD)提取,提取的DNA用正向和反向引物测序。使用AGE将结果带与参考基因组对齐46导出准确的CNV断点。
数字PCR检测成纤维细胞LM-CNV细胞频率
数字液滴PCR(ddPCR)47使用Bio-Rad QX100平台Quantalife系统(Bio-Rad-Laboratories Inc.,Hercules CA)执行。按照制造商的说明,由ddPCR母液和TaqMan试剂组成的20ul PCR反应混合物被分成15000到20000个油包水滴。每个化学均质液滴都支持热循环中的PCR扩增。TaqMan试剂能够对扩增的参考区和靶区进行荧光标记。然后将PCR产物插入自动液滴流式细胞仪中,在该仪器中测量液滴的单色、同时双色检测。鉴于PCR混合物被随机分为15000到20000个反应囊泡,泊松统计可应用于该过程,以获得样品的目标核酸定量。
在这种情况下,VIC荧光探针与靶向RPP30基因的扩增子杂交,作为每个细胞中应有两个拷贝的参考区域(由BioRad提供的探针和引物)。合成了LM-CNV特异性FAM探针,以便将其与针对给定LM-CNV的扩增子杂交。引物设计用于靶向LM-CNV,使扩增子包含断点序列,FAM探针设计用于尽可能直接与该断点序列杂交(来自加利福尼亚州圣地亚哥IDT的LM-CNV特异性引物和探针)。在给定液滴中没有靶向LM-CNV的情况下,不会发生PCR反应。然后参照RPP30事件计数计算目标区域的拷贝数。
ddPCR检测参考区域和靶CNV的等位基因计数。让米是参考区域的测量值(即计数),以及米CNV公司是hiPSC中靶CNV等位基因的测量值(即计数)。然后假设hiPSC中的细胞群体均匀,我们预计二倍体染色体上LM-CNV的目标杂合CNV的估计等位基因频率约为50%(一个单倍体没有LM-CNV),单倍体染色体上LM-CNVs的约为100%。那就是
(这里我们需要乘以2来解释单倍体染色体,因为参考区域位于二倍体染色体上)。事实上,我们观察到测量值与上述预期值非常接近,验证了我们的假设,即hiPSC细胞是均质的,LM-CNV是杂合的。
由于实验可变性(例如引物效率),这两个比率与0.5或1.0略有不同。作为实验偏差引入b条解释差异,然后用hiPSC
给我们b条=0.5*米/米CNV公司单倍体染色体的任何二倍体。
使用相同的逻辑,我们现在可以得出成纤维细胞中LM-CNV等位基因频率的估计。让F类是参考等位基因的测量值(即计数),以及F类CNV公司是成纤维细胞中目标CNV等位基因的测量(即计数)。等位基因频率可估算如下
b条是从对hiPSC的数据分析中估计的,并且通常接近1。这个小区CNV频率也就是说,携带CNV的细胞数量可以估计为
单倍体或二倍体染色体。
为了评估该方法的敏感性,我们进行了一项阴性对照实验,将S1123家族中确认的LM-CNV的引物应用于03家族的样品,该家族没有这种特异的LM-CN。对于三个副本中的6146个参考等位基因,我们只观察到一个LM-CNV等位基因的虚假计数。对于我们按照制造商的说明设计和使用的所有引物,hiPSC中的等位基因比率没有超过预期的1:2(一条二倍体染色体)或1:1(单倍体染色体上)的16%。因此,我们估计了一个修正系数b条小于1.16,估计背景噪声为2*1/6146*1.16=0.038%。因此,0.1%的等位基因频率估计值与背景噪声至少相差1.63个标准差(假设噪声计数具有泊松性质)。
列比较基因组杂交
每个样本在NimbleGen 4.2M全基因组CNV阵列上杂交48在制造商建议的标准条件下。在来自先证者S1123-02的DNA样本的每次杂交中,将来自Promega的雌性DNA作为参考基因组。对于来自先证者03-03的DNA样本,将每个iPSC DNA样本与相应的成纤维细胞DNA样本杂交到同一阵列上。杂交后,在NimbleGen MS200微阵列扫描仪上扫描每个阵列,并使用NimbleScan 2.6软件对结果图像进行预处理。使用Nexus拷贝号版本6对来自阵列的数据进行进一步分析和可视化。
使用NimbleScan 2.6生成的原始探针强度数据,通过实施快速自适应状态分割技术(FASST2),在Nexus Copy Number 6中执行阵列分析。此分割算法关联日志2基因组中相邻探针与CNV事件估计值的比值。每个片段的最小探针数量设置为3,因为这是该分割算法的标准。调用CN增益的阈值设置为日志2CN损失的值为0.37和-0.5(这大致符合使用排序的保守调用标准)。日志2高增益(1个或多个拷贝)和高损耗的阈值分别设置为1.0和-1.1。
根据定义,先证者03-03是候选LM-CNV,因为我们将hiPSC DNA与成纤维细胞DNA杂交。对于先证者S1123-02,我们选择LM-CNV候选者作为hiPSC中与相应成纤维细胞中的任何调用都不重叠的调用。对于这个人,我们进一步筛选出可能是噪音的呼叫,即小于6 kbp的呼叫以及位于着丝粒和端粒的呼叫。