跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
国家生物技术。作者手稿;PMC 2015年4月2日提供。
以最终编辑形式发布为:
预防性维修识别码:项目编号:4383288
NIHMSID公司:美国国家卫生研究院368579
PMID:22544022

人类癌症中体细胞DNA变化的绝对定量

关联数据

补充资料

摘要

我们开发了一种计算方法(ABSOLUTE),可以直接从体细胞DNA改变的分析中推断肿瘤纯度和恶性细胞倍性。ABSOLUTE可以检测亚克隆异质性、体细胞纯合性,并计算检测特定畸变的统计敏感性。我们使用ABSOLUTE分析卵巢癌数据并确定普遍存在的亚克隆体细胞点突变。相反,关键抑癌基因发生突变,TP53型NF1型主要是克隆和纯合子,以及候选抑癌基因的突变,CDK12型对3155例癌症标本的绝对等位基因拷贝数分析表明,基因组加倍事件在人类癌症中很常见,并且可能发生在已经非整倍体的细胞中。通过将基因组加倍状态与突变数据相关联,我们发现NF1型主要发生在非加倍样本中。这一发现表明,基因组加倍影响肿瘤进展的途径,基因组加倍后隐性失活不太常见。

介绍

定义染色体拷贝数和等位基因比率是理解癌症基因组结构和历史的基础。当前的基因组表征技术以基因组单位(DNA质量)测量癌症样本中的体细胞变化。这种测量的意义取决于肿瘤的纯度及其整体倍性;因此,它们很难在样本之间进行解释和比较。理想情况下,拷贝数应该以癌细胞拷贝数来衡量。这种测量很容易解释,对于癌细胞群体中固定的变化,是简单的整数值。这比测量肿瘤衍生样本中二倍体DNA质量单位的相对拷贝数更具挑战性。

使用微阵列在相对基础上测量体细胞拷贝数变化(SCNA)是很简单的1,2,,4,5或大规模并行测序技术6,7; 自比较基因组杂交(CGH)发展以来,它一直是拷贝数分析的标准方法8.

推断绝对拷贝数更困难,因为:(i)癌细胞几乎总是与未知部分的正常细胞混合(肿瘤纯度);(ii)癌细胞的实际DNA含量(倍性)未知,这是由染色体的数量和结构异常引起的9,10,11,12,13(iii)癌细胞群体可能是异质的,可能是由于正在进行的亚克隆进化14,15原则上,可以根据每个癌细胞DNA质量的细胞学测量结果,通过重新调整相关数据来推断绝对拷贝数16,17,18或通过单细胞测序方法15然而,这种方法不适合支持癌症基因组综合表征的初始大规模工作19.

几年前,我们开始关注这个问题,最初发展特别的技术20,21随后,我们开发了一种完全定量方法(ABSOLUTE),并将其应用于多个癌症基因组分析项目,包括癌症基因组图谱(TCGA)项目。ABSOLUTE为在绝对(细胞)基础上对癌症基因组改变进行综合基因组分析奠定了基础。我们使用这些方法将纯度和倍性估计值与表达亚型相关联,并开发统计能力计算,并使用它们为几个已发表的全基因组测序选择性能良好的样本22,23,24以及许多正在进行的项目,包括乳腺癌、前列腺癌和皮肤癌基因组特征分析。最近,我们扩展了ABSOLUTE,以推断每个癌细胞在整数等位基因单位中的体细胞点突变的多样性。

我们在这里的目的是:(i)介绍ABSOLUTE方法的数学推理框架,以及其预测的实验验证;(ii)将其应用于分析大型癌症数据集,从而能够对肿瘤演化过程中全基因组加倍的发生率和时间进行新的表征;描述一种新的点突变和拷贝数估计的综合分析及其在卵巢癌中的应用。

我们描述了ABSOLUTE的三个关键数学特性。首先,它直接从观察到的相对拷贝图谱(如果可用,也可以使用点突变)联合估计肿瘤纯度和倍性。其次,由于联合估计可能无法在单个样本上完全确定,因此它使用大量不同的样本集合来帮助解决不明确的情况。第三,该模型试图解释异质性癌症样本中的亚克隆拷贝改变和点突变。

然后,我们报告了第一次大规模的绝对“泛癌”分析,分析了3155个癌症样本的拷贝数变化,代表25种疾病,至少有20个样本。分析表明,全基因组加倍事件在肿瘤发生过程中频繁发生,最终导致由加倍细胞衍生的成熟癌症,具有复杂的核型。尽管有证据表明基因组加倍可能导致基因不稳定并加速肿瘤发生25,13,26此类事件的发生率和发生时间在人类癌症中还没有广泛的特征。

然后,我们描述了肿瘤纯度和绝对拷贝数的估计如何使我们能够分析测序数据,以区分克隆和亚克隆点突变,并检测卵巢癌样本中的宏观亚克隆结构。克隆事件在癌细胞中可分为纯合性或杂合性,指导对其功能的解释。此外,量化点突变的整数多重性的能力将DNA获得之前发生的事件(包括突变位点)与之后发生的事件区分开来。

最后,我们的数据可以描述与基因组加倍有关的体细胞癌进化特征,我们在卵巢癌中证明了这一点,并与临床病理参数相关联。

结果

癌源DNA样品纯度和倍性的推断

ABSOLUTE的概念概述如所示图1当从癌症和正常细胞混合群体中提取DNA时,绝对拷贝数信息每个癌细胞在混合过程中丢失。ABSOLUTE的目的是从混合DNA群体中重新提取这些数据。这一过程始于生成分段拷贝数数据,将其与复发性癌症核型的预先计算模型以及体细胞点突变的等位基因分数值一起输入到ABSOLUTE算法。然后,ABSOLUTE的输出提供了关于局部DNA片段的绝对细胞拷贝数的重新提取信息,对于点突变,还提供了突变等位基因的数量(图1).

保存图片、插图等的外部文件。对象名为nihms368579f1.jpg
使用ABSOLUTE进行肿瘤DNA分析综述

从由癌症和正常细胞组成的异质细胞群中提取出恒定质量的DNA。使用微阵列或大规模平行测序技术对这种DNA进行分析,得出DNA浓度的全基因组图谱(蓝线)。ABSOLUTE使用复发性癌症核型的统计模型将DNA浓度解释为离散拷贝状态,对应于主要为克隆的体细胞拷贝数变化,尽管通常存在一些亚克隆变化。如果体细胞点突变数据可用(来自DNA测序),那么这些突变的等位基因部分(测序读数中含有非参考等位基因的部分)可能有助于解释DNA浓度。此外,等位基因片段可能被重新解释为每个癌细胞的整数等位基因拷贝数(多重性),可能揭示亚克隆点突变。

我们首先描述ABSOLUTE方法中使用的推理框架。假设一个癌组织样本由一定比例的混合物组成α癌细胞(假定为单基因组-即癌细胞中含有同质SCNA)和比例(1-α)污染正常(二倍体)细胞。对于基因组中的每个基因座x,让q(x)表示癌细胞中该基因座的整数拷贝数。τ表示癌细胞部分的平均倍性,定义为基因组中q(x)的平均值。在混合癌样本中,x位点的平均绝对拷贝数为αq(x)+2(1-α)平均倍性为D=ατ+ 2(1 -α),以单倍体基因组单位计量。

因此,位点x的相对拷贝数为:

R(右)(x个) = [αq(x)+2(1−α)]/D=[α/D] q(x)+[2(1−α)/D]公司
(1)

因为q(x)取整数值,R(x)则取离散值。最小可能值为[2(1-α)/D] 发生在纯合缺失位点,对应于正常细胞DNA的部分。值之间的间距[α/D] 对应于每个癌细胞一个拷贝和每个正常细胞0个拷贝的等位基因的浓度比。重要的是,如果一个癌症样本不是严格克隆的,那么在大量亚克隆片段中发生的拷贝数变化将显示为该模式的异常值(图1,补充图1a-c,箭头)。

类似的考虑为利用SNP微阵列衍生的等位基因复制比推断纯度和倍性的算法奠定了基础27-31,32。我们将绝对拷贝引用扩展到包括体细胞点突变,如下所示:

F类(x个)==========================================================================[αq个(x) ]/D日= [α/天]秒q个(x个)
(2)

这里是q个表示点突变的多重性,单位为每个癌细胞的整数值(不能超过q(x)),D=αq(x)+ 2(1 -α). F(x)的值对应于支持突变的预期测序读数部分,这取决于样本纯度和突变位点q(x)处的绝对体细胞拷贝数。

ABSOLUTE算法通过联合优化两个参数来检查相对于整数拷贝数的可能映射ατ(补充图1c-d,h-i; 联机方法等式5). 在许多情况下,可能会有多个这样的映射,对应于多个optima。

为了帮助解决不明确的病例,我们使用了基于大量样本数据集的复发性癌症核型模型(补充图2; 联机方法等式8)确定能充分解释数据的最简单(即最常见)的核型。这种方法倾向于更简单的解决方案,同时保留了灵活性,以便在提供充分证据的情况下,通过拟合复制文件来识别意外的核型。事实上,使用ABSOLUTE鉴定出了几个不寻常的核型,包括近单倍体(<1.2n)和超非整倍体(>6n)基因组(补充图2).

我们的实现支持从总或等位基因拷贝比率数据进行拷贝数推断,因此可以使用阵列CGH、SNP微阵列或大规模并行测序数据。ABSOLUTE可从以下网址下载:http://broadinstitute.org/software/ABSOLUTE.

验证

我们使用以下几种方法验证了ABSOLUTE对Affymetrix SNP微阵列数据的纯度和倍性预测:(i)通过荧光激活细胞分选直接测量37个TCGA卵巢癌样本的倍性33(图2a); (ii)基于光谱核型分析的33个NCI60细胞系的倍性测量34(图2b、c); 和(iii)DNA混合实验,其中癌细胞系与成对的正常B淋巴细胞衍生DNA以不同的质量比例混合(图2d,在线方法)。我们还评估了一种相关的计算方法ASCAT30,基于这些数据(图2a-d,补充说明1). 虽然结果与我们的估计大致一致,但ABSOLUTE的结果要准确得多(图2a-d)我们的验证数据。值得注意的是,我们观察到ASCAT明显低估了癌细胞分数(图2 c,d),与之前在基于Illumina SNP阵列的类似混合实验中应用ASCAT的报告一致30, (图S4)表明偏差与测量平台无关。

保存图片、插图等的外部文件。对象名为nihms368579f2.jpg
ABSOLUTE方法验证和比较a-d ABSOLUTE和ASCAT在4种验证试验中的性能

RMSE:均方根误差。P(P)-使用配对单侧Wilcoxon检验(*:P(P)<0.05,**:P(P)< 0.001). 请参见补充说明1用于ASCAT2.1协议。

a、,37例原发性肿瘤样本基于FACS的倍性测量与推断的倍性估计。虚线表示=x个.

b、,基于SKY的33种癌细胞系倍性测量与推断的倍性估计。数据显示如下.

c、,所示33个细胞系的估计纯度(b条)虚线水平线表示真实性(1.0)。

d、 两种细胞系的癌-正常DNA混合实验结果。每个癌细胞系的DNA以不同比例与匹配的B淋巴细胞的DNA混合(x个-轴)。(顶部)预测与真实DNA混合分数与=x个线(虚线)。(底部)预测的癌症细胞系倍性与混合物纯度。几个样本的复制文件被曲解了(x);RMSE计算中没有包括这些点。倍性估计值与之前SKY对这些细胞系的分析基本一致:网址:http://www.path.cam.ac.uk/~木鱼/细胞%20line%20cataloges/breast-cell-lines.htm.

e、 组织学肿瘤中白细胞甲基化特征富集低估了纯度。HGS-OvCa样本根据所示的组织学纯度评估进行分组(x个-轴)33黑色水平线表示各组的中位纯度,由ABSOLUTE估算(-轴)。每个点的颜色对应于样本甲基化特征与纯化白细胞相似的程度(在线方法)。

值得注意的是,ABSOLUTE对大块肿瘤的纯度估计似乎比冷冻肿瘤切片的组织学检查结果更准确(在线方法,图2e). 458例卵巢癌标本中正常细胞污染比例的估计33由ABSOLUTE产生的基因与白细胞基因组甲基化的分子特征(在线方法)密切相关(第页2= 0.59,P(P)< 2.2×10-16,图2e),但仅与组织学检查的污染估计值弱相关(第页2=0.1,P(P)= 2.4×10-12; 在线方法;图2ex轴刻度,补充图4).

不同癌症类型肿瘤纯度和倍性的评估

我们使用ABSOLUTE分析了来自3155个癌症样本(包括2791个组织样本和364个癌细胞株)的SNP阵列的等位基因拷贝比谱。样本来自两项描述胶质母细胞瘤的TCGA试点研究(GBM;192个样本)21卵巢癌(488例)33以及从之前的泛广告文案分析中合并的2445个简介35(在线方法)。少数样本(519或16.4%)无法进行分析,因为它们缺乏可明确识别的SCNA,或者是因为它们接近整倍体(“非异常”),或者是被正常细胞过度污染(“纯度不足”)(图3a). 尽管体细胞点突变的测序数据可能解决了这些病例,但该队列中的大多数样本都没有这些数据35.

保存图片、插图等的外部文件。对象名为nihms368579f3.jpg
ABSOLUTE的泛癌应用

a、,绝对结果类型:(i)“称为”——唯一纯度/倍性溶液;(ii)“非异常”——样品没有可检测到的体细胞拷贝数变化;(iii)“纯度不足”——癌细胞比例不足;(iv)无法确定“多基因”离散复制比率水平。参见联机方法和补充图5获取每个结果类型的描述和示例。

b、,几个数据集的估计肿瘤纯度分布。括号中显示了每组肿瘤样本的数量。我们注意到,由于使用ABSOLUTE很难调用严重污染的肿瘤,因此其中一些分布偏向于高纯度样本。

c(c),括号中显示了每组肿瘤样本的数量。因为没有SCNA的肿瘤不能用ABSOLUTE来命名,所以这些分布不包括此类样本的流行率。

对于2636个具有可检测SCNA的样本,ABSOLUTE为92%的病例提供了纯度和倍性要求,并将其余样本指定为“多基因”(基因组异质性)(图3a),(在线方法;补充图5). 呼叫样本的比例因疾病类型而异,从34.6%(骨髓增生性疾病;主要是非异常基因组)到96.7%(卵巢癌,100%异常基因组),平均呼叫率为79.2%(图3a).

估计纯度的分布因癌症类型而异,测试的肺癌、食管癌和乳腺癌样本的平均纯度最低(图3b). 污染的影响在不纯肿瘤类型的拷贝率中显而易见(补充图6). 估计倍性的分布(图3c)与之前获得的每种肿瘤类型的细胞学数据定性一致13.

每个肿瘤样本的特征以及预测纯度/倍性值的表格如下补充表1详细说明每个肿瘤的分段绝对等位基因拷贝数的附加表格如下补充表2.

通过测序检测体细胞点突变的能力

肿瘤纯度和倍性都会影响检测点突变所需的局部测序深度。例如,假设一个区域存在6个拷贝,其中只有1个拷贝携带突变,在一个被正常细胞污染50%的样本中。在这种情况下,该位点的8个等位基因中只有1个(6个来自癌细胞,2个来自正常细胞)携带突变(补充图7a). 因此,我们预计只有12.5%的读操作会观察到突变。假设测序错误率为10,考虑到这一等位基因部分,需要33倍的局部序列覆盖率才能以80%的灵敏度检测突变-3每基和假阳性率控制在<5×10-7,(在线方法,等式9,补充图7b).

利用ABSOLUTE对纯度和全基因组整数拷贝数的估计,我们可以计算出对每个癌细胞特定等位基因多重性的突变进行有力检测所需的覆盖率。类似的考虑也适用于通过使用分数重数检测部分癌细胞中的亚克隆突变(补充图7c). 我们注意到,在设计测序实验的功率计算时,优先考虑以细胞单位表示的肿瘤纯度,而不是DNA分数,因为许多感兴趣的体细胞改变预计会在单个拷贝中发生每个癌细胞.

我们分析了等位基因拷贝数分析的癌症样本中纯度和倍性值的分布35,21,33为了确定检测克隆突变所需的适当测序覆盖深度,每个样本的幂为0.8。为此,我们计算了在给定样本纯度的情况下,在平均拷贝数下,在一个位点检测一个拷贝中的突变所需的读取次数。(人们可以在拷贝数分布上选择一个特定的百分位。)对于这样的位点,我们发现30倍的局部覆盖率足以满足大多数样本(补充图7d). 相比之下,在子克隆中以20%的频率携带突变的平均拷贝数的位点需要覆盖约100倍才能在大约一半的样本中检测到(补充图7e). 利用这些计算和基因组局部覆盖率的分布(取决于特定的测序技术),人们可以确定在预定的基因组部分中获得足够功率所需的平均覆盖率(例如,在>80%的基因组中获得>80%的功率)。

然后我们检查了214例TCGA卵巢癌样本的全基因组测序数据(~150×平均覆盖率)33确定检测能力是否与实际观察到的突变数量相关。对于每个样本,我们计算了局部覆盖率提供至少80%的检测能力的位点比例,以检测5%存在的亚克隆中单个拷贝的突变。这些基因座比例最低的样本往往是2个检测到最少突变的样本(第页2= 0.24,P(P)= 2.7×10-2013年补充图7f)这表明,未能找到这种突变是由于缺乏能量。这一结果也证明了功率计算对亚克隆频谱表征的重要性。

体细胞点突变的多重性分析

接下来,我们使用ABSOLUTE将突变的等位基因片段转换为细胞多样性。为此,我们检测了29268个在Illumina全杂交捕获测序中发现的体细胞突变36214对卵巢癌与正常卵巢癌的数据33(在线方法,图4a). 肿瘤纯度、倍性和绝对拷贝数值是从Affymetrix SNP6.0杂交数据中获得的,该数据与测序的同一DNA小份相同,允许将等位片段重新标度为多重单位(图4a,b;在线方法,等式12).

保存图片、插图等的外部文件。对象名称为nihms368579f4.jpg
SNP阵列和全基因组测序数据综合分析卵巢癌亚克隆进化特征

a、,214个原代HGS OvCa样本中检测到的29628个体细胞点突变的等位基因部分(交替/总读取计数)值直方图33.

b、,中所示突变的等位基因部分()转换为每个癌细胞的整数等位基因数的点估计值(细胞多样性;x个-轴)通过校正样品纯度和局部拷贝数。使用定义于方程式10.

c、,克隆与亚克隆点突变的6个可区分核苷酸替换中的每一个的分数。实线灰色表示=x个.RMSE:均方根误差。

d-f,HGS-OvCa样品TCGA-24-1603中不同亚克隆群体的分析(纯度=0.96,倍性=1.75)。

日期:,具有模型化绝对拷贝数的肿瘤SCNA图谱,如补充图1c,h正常同源copy-number=1的区域呈灰色,克隆SCNA呈棕色。亚克隆SCNA(浅蓝色)出现在几个簇中(箭头)。

e、,点突变等位基因片段谱。每条实心曲线对应一个突变,密度根据观察到的等位基因断裂和局部读取深度暗示的后验(Beta)分布(在线方法,等式12). 颜色表示克隆亚克隆的分类程度,如(b条). 虚线表示单个后验密度的总和。

(f),来自的SCNA()和点突变(e(电子))被重新缩放到癌细胞分数的单位。SCNA和点突变(分别为紫色、蓝色和橙色箭头;参见).

该程序确定了卵巢癌样本中普遍存在的亚克隆点突变。虽然许多突变是围绕整数多重性聚集的,但相当一部分突变发生在每个平均癌细胞的多重性大大低于1拷贝的情况下,这与亚克隆多重性一致(图4b).

一些证据支持这些亚克隆突变的有效性,包括Illumina对一个独立的全基因组扩增小份进行重新测序,这证实了它们的存在(补充图8a、b)它们的等位基因部分对应于亚克隆多重性值(补充图8c,d). 此外,克隆和亚克隆突变的突变谱相似(RMSE=0.02,图4c)符合共同的起源机制。功率计算表明,这些样本至少有80%的功率用于检测发生在10%至53%癌细胞组分中的亚克隆突变,中位数为19%(补充图7e).

在大多数样本中,亚克隆突变的多重性分布相似(图4b)——当在所有样品(未显示)中汇集时,它在特定于样品的检测极限处迅速增加,然后以近似于0.05至0.5倍多重性范围内指数衰减的方式减少。相比之下,HGS-OvCa样品TCGA-24-1603(图4d-f)显示了离散的“宏观亚克隆”的证据。亚克隆SCNA的重新克隆(图4d)和点突变(图4e)癌细胞分离单位(图4f)在分数0.2、0.3和0.6附近发现了离散簇(图4f)这意味着每个簇内的改变可能在同一个细胞中同时发生。我们注意到,细胞部分的组合总和超过1,这意味着至少有一个检测到的子克隆嵌套在另一个子克隆中。

接下来,我们使用ABSOLUTE分析参考和替代等位基因的多重性,将受影响细胞片段中的点突变分为杂合或纯合突变(图5a-c). 我们考虑了最近在这些数据中发现的15个突变基因33包括5个已知的肿瘤抑制基因(TSG)和5个癌基因(图5d). 已知TSG和癌基因的纯合子突变频率显著不同,TSG纯合子变异比例显著升高(P(P)= 0.006,图5d)癌基因无纯合子突变:(P(P)= 0.012,图5d). 这一结果提供了证据支持CDK12型作为卵巢癌的候选TSG33,自2012年7月起CDK12型突变是纯合的(P(P)= 6.5×10-5图5d).

保存图片、插图等的外部文件。对象名为nihms368579f5.jpg
214例原发性HGS-OvCa肿瘤标本体细胞突变的多重分析分类

a、,等位基因浓度比率的经验密度估计,通过等位基因部分乘以该位点的复制比率得到。

b、,等位基因多重性估计的密度估计,如图4b,用于对照突变等位基因。根据突变和参考等位基因的多重性,将突变分为四类。

c、,图中显示了四种突变类型中每一种的等位基因浓度比值的密度估计值b条叠加显示。

日期:,HGS-OvCa中显著复发基因的突变分类谱33以及之前在这些数据中观察到突变的几个COSMIC基因。注意,这里只考虑了个别点突变;未考虑多重事件导致隐性失活的可能性(复合杂合性)。1412个至少有5个重复突变基因的基因分类分数直方图。虚线表示5第个(顶部)和95第个每个分布的(其他)百分位数。NF1型(未显示)。

总的来说,TP53型在编码外显子组中,克隆、纯合和多重性突变的比例最高,>1(图5e),明确了HGS-OvCa致癌的关键起始事件37直接从基因组数据和独立于统计复发分析。

全基因组倍增在人类癌症中频繁发生

对于许多癌症类型,总拷贝数(倍性)的分布是显著的双峰分布(图3c),与SKY衍生的染色体计数曲线一致10,13虽然这些结果与它们的体细胞进化过程中的全基因组加倍一致,但很难排除另一种假说,即高倍性核型的进化是由连续的部分扩增过程引起的12.

为了研究基因组加倍,我们使用了同源的copy-number信息–即拷贝号,b条c(c)每个位点的两个同源染色体片段。通过查看b条,c(c)在整个基因组中,我们可以得出关于基因组加倍的推论。基因组加倍后,b条c(c)将是偶数。区域的单个副本丢失后b条c(c)将保持偶数,但较小的将变为奇数。事实上,当我们观察高倍样本时,我们发现b条c(c)通常在整个基因组中是均匀的,这与它们是由整个基因组加倍而产生的一致(补充图9). 通过模拟,我们发现由于SCNA在多个独立染色体上以串行方式发生,观察到的轮廓不太可能出现(P(P)<1e-3;在线方法)。

利用这些信息,我们可以将样本分为三组,我们将其解释为对应于癌症克隆进化中的0、1和>1基因组加倍事件。这三组的模态倍性值分别为1.75、2.75和4.0(图6a)并通过倍性和平均同源拷贝数不平衡将其分为三个簇(图6b). 我们将其解释为SNCA发生净损失的证据,其间散布着基因组加倍。这一过程导致了加倍克隆的中间倍性值(2.2–3.4N),同源染色体普遍不平衡(图6b).

保存图片、插图等的外部文件。对象名为nihms368579f6.jpg
原发性癌症全基因组加倍事件的发生率和时间

a、 b、,倍性估计值来自ABSOLUTE。平均同源物失衡计算为基因组中每个位置同源拷贝数的平均差异。根据同源拷贝数推断基因组加倍状态(在线方法,补充图9).

c、,MPD—骨髓增生性疾病,ALL—急性淋巴细胞白血病,GBM—多型胶质母细胞瘤,RCC—肾细胞癌,HCC—肝细胞癌,HGS-OvCa—高级浆液性卵巢癌。

日期:,杂合性缺失定义为0等位基因拷贝。扩增被定义为0个基因组加倍样本的>1等位基因拷贝,而1个基因组加倍的样本的>2等位基因副本。根据每个染色体臂的模式等位基因拷贝数进行呼叫。虚线表示=x个.

e、,SCNA被定义为与每个样本的模态绝对拷贝数不同的区域,以自适应分辨率将其分为两部分,以保持每个分格200个SCNA,并通过分格长度重新规范化。每个箱子中的数值进一步除以每个基因组加倍类别中肿瘤样本的数量,用颜色表示,如。黑线表示斜率=-1。使用SCNA 0.5分别为每个类别拟合线性回归模型<x个<20 Mb。这导致0、1和>1基因组加倍的拟合斜率值分别为-1.05、-0.96和-0.88(未显示)。

基因组加倍的频率因肿瘤类型而异(图6c)反映了疾病特异性生物学和临床进展状态的差异。造血肿瘤(MPD、ALL)几乎没有加倍事件,而GBM、RCC、前列腺癌、各种肉瘤、HCC和髓母细胞瘤都有~25%的加倍发生率。基因组加倍在上皮性癌中更为常见,结直肠癌、乳腺癌、肺癌、卵巢癌和食管癌的加倍发生率均大于50%(图6c). 食管腺癌的加倍发病率最高,这与之前关于巴雷特食管进展不同阶段频繁出现“4N”人群的报道一致38,39.

特定非整倍体先于基因组加倍

然后我们使用ABSOLUTE推断肿瘤发生中基因组加倍的时间顺序,相对于涉及特定染色体臂的SNCA。在许多癌症类型中,臂级SCNA的固定发生在基因组加倍之前,因为加倍和非加倍样本的特定臂级SNCA频率相似(图6d,补充图10).

在GBM样本中,涉及9号和10号染色体的LOH以及7号染色体的扩增发生在同等频率(图6d),表明GBM中最常见的广泛SCNA发生在基因组加倍之前。19号和20号染色体的增益几乎只存在于非加倍样本中,在加倍样本中有几个臂的LOH频率更高(图6d)这表明这些样本背后还存在其他生物差异。

由于ABSOLUTE无法在没有观察到SCNA的病例中区分二倍体2N和4N,因此我们从分析中丢弃了这些非异常样本(图3a). 对于许多肿瘤类型来说,由于加倍后染色体丢失的趋势,这种病例是罕见的(图3c,图6a、b,补充图9). 然而,由于确定上的差异,特定癌症亚型的表现可能会有偏差。

与广泛的染色体改变相比,局部SCNA事件在加倍基因组中发生的频率更高(图6e). 与以前的报告一致35,40,41,作为其长度函数的焦点SCNA的观测频率(L(左))遵循幂律缩放:P(P)(L(左)) ∝L(左)α,用于L(左)>0.5兆字节(图6e). 基因组加倍与较大的SCNA总数相关,但我们获得了各组α接近1的估计值(图6e)这表明它们产生的机制并不是很大程度上依赖于倍性。

基因组加倍对卵巢癌进展的影响

接下来,我们试图将卵巢癌的全基因组加倍发生率与其他遗传和临床特征相关联。基因组加倍样本显示杂合子突变的发生率较高,但校正样本倍性消除了这种影响(图7a)表明碱基突变率是相等的。多重性>1的克隆突变在双倍样本中的流行率约为10倍;其中许多事件可能发生在加倍事件之前。基因加倍样本的纯合子缺失频率较低(图7b)克隆纯合子突变率低两倍(P(P)= 1.55×10-8,图7c). 我们预计,在基因组加倍之前,在加倍样本中观察到的许多纯合子改变是固定的。

保存图片、插图等的外部文件。对象名为nihms368579f7.jpg
HGS-OvCa原发样本基因组加倍的遗传和临床相关性

a-e、,如图所示,颜色与假定的基因组加倍状态相对应。重要性代码:**–P(P)< 10-5, * –P(P)<0.05,NS–P(P)> 0.05.

a-c、,指示类别中的突变数量作为基因组加倍的函数。P(P)-采用双侧Wilcoxin秩和检验计算值,比较基因组加倍为0和1的样本。误差条表示平均值的标准误差。

日期:, P(P)-数值采用双侧Wilcoxin秩和检验计算。

e、, P(P)-使用log-rank检验计算值。

基因组加倍样品中纯合子突变的发生率较低,这可能反映了这样一个事实,即在基因组加倍样品中将突变变为纯合子需要更多的事件(尽管这种影响可能会被部分抵消,但是,由于加倍后遗传不稳定性的可能增加,例如中心体复制42). 这些考虑表明,基因组加倍样本通过不同的轨迹进化,因为在加倍后,肿瘤抑制因子失活的发生频率可能较低。

我们注意到,在15个检测到的点突变中,有13个位于肿瘤抑制因子NF1型发生在93个未进行基因组加倍的卵巢样本中(P(P)= 0.002; Fisher精确测试),这些突变均为纯合子(未显示)。这与隐性失活的选择一致NF1型,这是肿瘤抑制基因的典型模式。它还表明,非基因组加倍卵巢癌样本是通过一个独特的轨迹进化而来的,而不是加倍样本的前驱。如果没有,很多NF1型在加倍的样本中,突变将是纯合的,多重性>1,如图所示TP53型.

最后,我们注意到基因组加倍样本与病理诊断年龄的显著增加相关(图7d)癌症复发率明显较高(图7e).

讨论

我们在这里报道了一种可靠的高通量方法的发展,该方法可以从肿瘤衍生DNA样本中推断绝对同源拷贝数,以及点突变的多重值(absolute)。可以将绝对延伸到其他类型的基因组改变,例如结构重排和小插入/缺失,尽管这可能需要更长的序列读取以确保准确的序列比对。

对SCNA的绝对分析表明,所分析的许多拷贝数变化在样本中所代表的癌症谱系中是固定的(图3). 这一点在卵巢癌的体细胞点突变中得到了重申,其中许多点突变被固定为整数倍(图4b). 根据点突变的多样性对其进行分类可能有助于区分抑癌基因和基因(图5d). 离散肿瘤复制状态、亚克隆结构和基因组加倍状态的知识为进一步重建癌症内部的系统发育关系和特定癌症基因组产生的时间序列奠定了基础43,44,45.

ABSOLUTE为利用基因组测序来检测癌症组织样本中的变异等位基因的研究设计提供了一个框架,该研究基于检测突变的灵敏度的计算,作为样本纯度、局部拷贝数和测序深度的函数(补充图7). 基于SNP微阵列数据的ABSOLUTE对肿瘤纯度和倍性的高精度估计(图2)可以确定给定样本所需的测序深度,也可以选择给定固定测序深度的合适样本。这些考虑对解释亚克隆点突变至关重要(补充图7f,10).

absolute对人类癌症中预测的绝对等位基因拷贝数谱的分析为癌症基因组进化提供了新的线索。观察到的SCNA剖面(补充图9)如前所述,与早期染色体不稳定,随后出现稳定的非整倍体克隆的共同轨迹一致11我们的数据进一步表明,基因组加倍发生在已经具有相应肿瘤类型特征的臂级SCNA的癌细胞亚群中。因此,在加倍和进一步克隆生长之前,这些癌症的基因组是通过染色体臂级分辨率的选择形成的(图6d,补充图10).

这些发现与早期对原发性乳腺癌FACS/SKY图谱的解释大体一致46最近在宏观解剖和倍性分类细胞群的研究中进行了综述14和单细胞测序15原发性乳腺肿瘤。我们注意到,这个模型代表了对四倍体是一种启动事件47,13,26,48,49此外,基因组谱系的关联(图6c)卵巢癌的诊断年龄(图7d)与最近描述的在培养的小鼠胚胎成纤维细胞中连接端粒危机、DNA损伤反应和基因组加倍的机制一致48.

本研究中提出的克隆性分析为癌症临床测序提供了一条前进的道路,并提供了解决最近报道的有关肿瘤内异质性的担忧的方法50,14,44,15,45,51,52使用ABSOLUTE的分析可以鉴定在所有有助于DNA等分试样的癌细胞中存在的改变(图1)即使这种克隆改变对应于少数观察到的突变。这些改变是特定癌症的候选致癌因素,可能是首选的治疗靶点。癌症亚克隆体细胞变化的进一步表征对于理解靶向治疗的可变反应可能非常重要,靶向突变的克隆性可能会影响反应水平。

联机方法

纯度、倍性和绝对体细胞拷贝数的推断

无论是细胞学分析还是细胞学分析,种群都对这种分析提出了挑战10和基因组数据11支持这一假设,正如从配对原发性和转移性病变中获得的类似SCNA图谱的报告一样,同系物特异性拷贝比(HSCR;两条同源染色体的拷贝比估计值)优先用于ABSOLUTE分析,和用于本研究中的所有分析。虽然ABSOLUTE可以在总复制率数据(例如来自阵列CGH或低通测序数据)上运行,但我们在此不提供此类结果。HSCR的使用减少了复制配置文件的模糊性。例如,不含SCNA的样品的总拷贝率曲线与倍性值1、2、3等相等,但HSCR曲线将排除奇数倍性值,因为这些值与相同的同源拷贝数不一致。此外,由于亚克隆SCNA通常只影响给定基因组片段中两个HSCR值中的一个,因此当考虑HSCR而非总拷贝数时,克隆与亚克隆SCNAs全基因组的比率通常更高。

HSCR是通过HAPSEG程序对杂合子位点的阶段性多点等位基因复制比进行分段估计得出的53Affymetrix SNP阵列数据。作为该程序的一部分,来自群体连锁分析HAPMAP3的单倍型面板54与统计相位软件BEAGLE结合使用55为了估计每个癌症样本中SNP标记的阶段性生殖系基因型。这增加了我们分辨这些基因型的敏感性,因为它自然地利用了SNP之间的局部统计依赖性53此外,由于SCNA引起的杂合标记等位基因不平衡的相位信息可以与单倍型面板的统计相位相结合,这使得同源复制比之间的微小差异得到了更大的分辨率53.

候选肿瘤纯度和倍性值的鉴定和评估

我们描述了候选肿瘤纯度和倍性值的鉴定及其计算SCNA-fit公司使用概率模型进行log-likelihood评分。这是通过用高斯混合模型拟合输入HSCR估计值来实现的,其中成分集中在由等式1该模型还支持一小部分不限于离散水平的亚克隆事件。通过在纯度和倍性值的大范围内搜索此可能性的局部最优值来确定候选解决方案。这导致了具有相应SCNA-fit可能性的离散候选解集(等式1,补充图1d,h).

这些分数量化了通过将观察到的HSCR解释为整数SCNA而提供的每个解决方案的证据。这些计算对于每个样本都是独立的。输入数据包括N个高速断路器x个,∈ {1, …,N个}. 每一项都有标准误差σ,并且对应于表示为w个。每个x个被认为是由以下任一原因引起的整数拷贝数状态:= {0,1, …,−1},或附加状态Z轴对应于亚克隆拷贝号。我们将可能的复制状态集合称为S公司=Z轴。我们定义+1个指示器对于每个段的复制状态第页()表示分段概率已从状态生成S公司.的整数copy-statesS公司被编入索引q个; 非整数状态表示为z(z).

每个整数拷贝数对应的预期拷贝比率q个(x个)肿瘤样本中的方程式1注意,当使用同源复制比率时,该等式变为:

μq个= 2[α/D类]q个(x个) + [2(1 − α)/D类], 
(3)

因为HSCR是相对于单倍体浓度测量的,而不是根据等式。1.D类与肿瘤纯度和倍性有关(ατ) (等式1,补充图1). 观察到的x个使用以下混合建模高斯分量位于μ= {μq个}表示整数复制状态和一个额外的统一组件Z轴.混合物Z轴允许为片段分配非整数拷贝值,以便偶尔的亚克隆更改或伪影不会显著影响可能性。

Multinom公司(第页(|w个,θ))x个={μq个+ε如果u个如果=Z轴εN个(0,σ2+σH(H)2)u个U型()
(4)

保存图片、插图等的外部文件。对象名称为nihms368579ig1.jpg保存图片、插图等的外部文件。对象名为nihms368579ig2.jpg分别表示正常密度和均匀密度。自由参数σH(H)表示样本级噪声超过HSCR标准误差σ,这可能代表了恶性细胞群中的适度数量的相关克隆,持续的基因组不稳定,或由于可变的实验条件而产生的过度噪音。混合物重量θ= {θS公司}指定分配给每个复制状态的预期基因组部分。参数表示均匀密度的域,对应于合理的复制比率值的范围(我们使用=7).

由于数据由基因组分段计算的复制率组成,因此出现了一些复杂情况。为了一致解释,混合物权重(P(P)(|w个,θ))必须分别计算每个片段,并考虑可变基因组分数w个这是通过限制分配给每个复制状态的基因组质量的标准平均值来实现的,以匹配θ:

S公司,=1N个w个C=θ,

其中:保存图片、插图等的外部文件。对象名为nihms368579ig3.jpg表示所有配置的平均值{},由函数加权保存图片、插图等的外部文件。对象名为nihms368579ig3.jpg=P(P)(|w个,λ)该密度对应于最大熵分布受这些约束:

P(P)(|w个,λ)=e(电子)λ#w个k个e(电子)λk个k个#w个,

哪里#表示状态的顺序在复制状态序列中,从0开始。的值拉格朗日乘数λ通过Nelder-Mead优化确定L(左)2损失:

λ=参数最小值λ(S公司[(=1N个[w个P(P)(|w个,λ)]θ)2])12.

这种近似允许SCNA-fit分数对数据过度分割的鲁棒性。给定段的可能性然后计算为:

L(左)(x个|μ,σ,σH(H),θ,w个)=q个[P(P)(q个|w个,λ)N个(x个|μq个,σ2+σH(H)2)]+P(P)(z(z)|w个,λ)U型(),

然后,数据的完整对数似然为:

=1N个日志L(左)(x个|μ,σ,σH(H),θ,w个).
(5)

我们定义参数化b条=2(1−α),δτ=α/D类,它决定μ通过方程(3).通过优化等式(5)关于b条δτ.计算等式(5)需要估计θσH(H),尚不清楚先验的我们做了一个近似(尺度分离),假设等式(5)对这些参数的适度波动保持不变。每种情况的临时可能性x个然后可以通过以下公式计算

L(左)P(P)(x个|μ,σ,σ)=q个[N个(x个|μq个,σ2+σ2)]+U型().

然后通过优化

=1N个日志L(左)P(P)(x个|μ,σ,σP(P)),

从跨越域的正则格中的所有点开始b条δτ.参数σP(P)在本研究中设置为0.01。我们验证了上述近似识别模式与通过全Metropolis-Hastings Markov chain Monte Carlo(MCMC)模拟获得的模式等效(数据未显示)。近似值允许使用更简单的计算。

每个解决方案的SCNA-fit得分是在优化σH(H):

σ^H(H)=参数最大值σH(H)=1N个日志L(左)(x个|μ^,σ,σH(H),θ,w个),

具有以下元素θ计算每个值σH(H)签署人:

θ^q个==1N个w个N个(x个|μ^q个,σ2+σH(H)2)L(左)P(P)(x个|μ^,σ,σH(H))θ^z(z)==1N个w个U型()L(左)P(P)(x个|μ^,σ,σH(H)).
(6)

每个模式的SCNA-fit对数似然的最终计算通过插入μ̂,θ ^、和σ̂H(H)进入之内等式(5)。每个部分的复制状态指标估计值计算如下:

q个^=P(P)(q个|w个λ)N个(x个|μ^q个,σ2+σ^H(H)2)L(左)(x个|μ^,σ,σ^H(H),θ^,w个),z(z)^=P(P)(z(z)|w个,λ)U型()L(左)(x个|μ^,σ,σ^H(H),θ^,w个).

请注意,每个q个̂是一个向量,表示每个变量的后验概率整数复制状态,对应于复制比率(位置)μ.

基因组范围内的绝对拷贝图谱相对于DNA倍性估计是过度确定的。倍性的另一个估计值可以计算为基因组上的预期绝对拷贝数:

τ^==1N个(w个q个=01q个q个^q个).
(7)

根据定义,这个数量(τ̂)是对癌症倍性的另一种估计(请注意,当使用HSCR时,添加了一个额外的因子2)。因为(τ̂)是模型数据中离散状态的加权平均值,预计它对稍微改变或缩放复制文件的实验波动更为稳健。注意,对于此计算q个̂ij公司计算方法为θ̂z(z)=0,因此上述期望仅超过整数状态。

我们验证了这些估计值通常接近(τ̂)通过优化SCNA-fit似然(RMSE=0.26,补充图12a). 然而,我们注意到倍性估计值和校准数据平均值之间的不一致程度之间的关系(补充图12b). 注意到正确校准的复制比率数据的平均值始终为1,我们检查了校准错误是否是由于数据中的缩放偏差造成的。我们发现,该模型解释了两个估计之间近三分之二的不一致性(修正后的RMSE=0.09,补充图12c)由此我们推断,标度偏差主导了我们的校准错误。这很重要,因为这些偏差不会影响肿瘤纯度的估计(补充图12).

复制状态位置的两个附加转换μ当使用微阵列测量复制率时使用。其中第一个解释了等温吸附模型的衰减效应7:

(x个)=x个(1+ϕ^)(1+x个ϕ^),

其中,值ϕ̂参数化给定样本中的衰减响应,并通过HAPSEG进行估计。第二种转换是根据56:

小时(x个)=小时(x个e(电子)ση21σε),

哪里σησε表示每个微阵列的乘性和加性噪声等级,由HAPSEG估计。在估计x个值,在此值之后,其分布近似正常。中规定的正常混合物成分(4)然后变成小时(x个) =小时((μq个))+ε,并在这些变换下执行相应的似然计算。

核型模型

为了从通过拟合模型确定的候选组中可靠地选择正确的肿瘤纯度和倍性解决方案,通常需要附加信息(4). 在给定的肿瘤样本中,理论上可能的纯度、倍性和拷贝数值的几种组合可能映射到等效拷贝率(补充图1c,h). 此外,亚克隆SCNA的存在可能会导致虚假的高倍性解决方案,通过过度离散拷贝配置文件,使难以置信的核型获得更大的SCNA-fit可能性,从而允许将其分配到整数拷贝级别(附图1h-j).

ABSOLUTE根据肿瘤组绝对同源拷贝数分布的相似性对肿瘤组进行分组,从而对常见癌症核型进行建模(补充图2). 这些模型是以“boot-strapping”的方式直接从肿瘤数据构建的,其中使用具有相对明确轮廓(例如,由于高纯度值)的肿瘤子集初始化模型,迭代地允许调用更多肿瘤等。以前人类癌症的细胞遗传学特征被用来指导这一过程13。这些模型可以计算核型可能性,对于每个候选纯度/倍性溶液,反映了相应核型与输入肿瘤样本的特定疾病相关模型的相似性(8). 结合SCNA-fit和核型可能性有助于在许多肿瘤样本中准确鉴定纯度和倍性值(补充图1d,h).选择一种不太常见的核型的溶液需要来自SCNA拷贝图谱的更多证据。

特定疾病的核型特征的先验知识总结为以下内容的混合K(K)整数同调复态上的多元多项式分布=每个染色体臂[0,7]。对于给定的候选纯度和倍性解决方案,每个片段对应的片段复制状态指标,q个̂ij公司,总结为J型臂级同源拷贝数,表示Ĉ核型对数似然分数计算如下:

K(K)(C^|K(K))=日志=1K(K)[w个j个=1J型q个K(K)j个q个C^j个q个],
(8)

哪里w个表示每种混合物成分的重量。核型模型K(K)J型×使用标准期望最大化(EM)算法对模型副本文件的臂级同源副本状态进行聚类,得到SCNA概率矩阵57对于多项式混合物。该计算确定了具有相似基因组拷贝谱的疾病亚型组(补充图2). 注意,每个臂的两个同源物的复制状态都是建模的(J型= 78). 使用两条同源染色体的多项式概率的卷积来计算仅具有总拷贝率数据的样本的核型得分。

簇的数量K(K)通过最小化贝叶斯信息准则(BIC)复杂性惩罚来选择每种疾病:-2L(左)̂k个+科威特日志(N个),其中L(左)̂k个表示K(K)值超过N个输入样本,使用计算K(K)集群。为了避免局部极小,EM算法对每个值运行25次K(K)∈[2,8],起始点随机,保留最佳模型。

这些模型是以半自动化的方式构建的,通过植入相对明确的防拷贝文件。随着肿瘤的增加,重复核型的使用清楚地确定了额外样本的正确解决方案等。例如,chr17的LOH发生在几乎100%的卵巢癌样本33中,这使得模型能够了解到,暗示chr17 LOH的解决方案可能是正确的。总共创建了14种疾病类型的模型。ABSOLUTE称之为样本少于40个的疾病在此过程中被忽略。此外,通过合并所谓的原发性癌症特征,创建了一个“主”模型。该模型用于没有特定核型模型的疾病。

从复制文件数据进行联合纯度/倍性推断的局限性

将SCNA-fit和核型模型精确校准到数据所暗示的真实确定性水平,将允许为每个候选解决方案分配概率;我们认为,我们在这里提出的模型没有充分捕捉到癌症基因组的复杂性,无法进行这样的解释。即使是人工审查,使用ABSOLUTE进行分析有时也可能导致错误的解释,例如,在没有随后可检测到的增益或损失的情况下,基因组加倍可能会导致一个包含真实倍性值一半的解决方案,这在某些情况下可能对应于合理的核型模型。或者,当多个亚克隆SCNA出现在相邻克隆峰之间的中点附近时,可以选择一个意味着真倍性加倍的解决方案。我们注意到,在我们的框架中无法调用没有可靠检测到SCNA的样本(倍性2N或4N;纯度待定)。因此,这些样品被排除在下游分析之外(见下文)。推断错误率的估计需要独立测量样本倍性。对不同肿瘤类型的进一步验证实验将有助于澄清任何特定疾病的警告。

我们注意到,使用体细胞突变等位基因片段,结合SCNA复制比率,通常可以提高SCNA含量较少的样本的敏感性。此外,突变数据有助于区分纯度/倍性估计中的基因组加倍模糊性,尽管它们没有告知类型的模糊性b′=b条+ 2(1-α)/D类(补充图1d,i,等式1). 因此,组合分析通常有助于使用ABSOLUTE(未显示)获得更高的呼叫率。

幸运的是,我们的泛癌SNP阵列数据集中的许多样本在基因组加倍之前和之后都与频繁的SCNA保持一致,从而能够在不使用体细胞点突变数据的情况下对许多样本进行明确的推断。癌症基因组进化的这一方面先前在乳腺癌细胞遗传学数据46中有所记录。我们注意到,在生成FACS验证数据或分析NCI60细胞系倍性估计值之前,对ABSOLUTE结果进行了手动审查(图2a、b).

鉴定不符合纯度/倍性推断的样品

为了便于对本研究中使用的许多癌症样本进行快速分析,ABSOLUTE被编程为自动识别无法可靠调用的复制档案,并将其分类为信息故障类别(图3a),由以下标准定义。定义̂作为后验全基因组拷贝状态分配的排序向量(θ̂),因此̂1代表了θ̂(模态复制状态)。该向量由θ0替换为0,如果θ0<0.01和b条<0.15,因此种系拷贝数变体(CNV)或遗传纯合子区域不会与小SCNA混淆,这意味着样本非常纯。然后分类如下:

  1. 非异常:̂< 0.001,̂2< 0.005,σ̂H(H)< 0.02
  2. 纯度不足:̂< 0.001,̂2< 0.005,σ̂H(H)≥ 0.02
  3. 多基因的:θ̂z(z)> 0.2.

这些标准适用于每个样本的顶级模式(结合SCNA-fit和核型得分)。每个结果的几个示例如所示补充图5上述指定使得自动呼叫与手动审查后获得的呼叫具有相当好的一致性。我们注意到,体细胞点突变数据的使用增加了这些样本类别中的呼叫敏感性。

癌细胞系DNA混合实验

从两个癌细胞株(HCC38、HCC1143)提取的DNA与匹配的B淋巴细胞株(HCC38BL、HCC1144BL)以不同比例混合,并与Affymetrix 250 K Sty SNP阵列杂交。通过将DNA浓度标准化至50ng,为每个细胞系创建DNA储备小份/μl.按体积将癌症和匹配的B淋巴细胞DNA混合到每个所需的混合分数。

原发性肿瘤样本的FACS分析

卵巢浆液性癌患者的福尔马林固定和石蜡包埋块可从肿瘤切片中获得,对应于从中获得DNA等分样品用于SNP阵列杂交的冷冻块。将含有至少70%肿瘤细胞核的多个卷曲切割成150微米的总厚度。切片被分解并用碘化丙啶标记(DNA染色)。FACS用于测定倍性。

通过病理学检查确定肿瘤纯度

从多家医院的组织库中收集冷冻卵巢浆液性囊腺癌标本,并将其保存在液氮蒸汽中。用两侧的H&E载玻片(任意命名为顶部和底部)制作组织部分,如下所示:将组织安装在最佳切割温度介质(OCT)中,并将其加热至-20°C。答4μm冰冻切片(顶部幻灯片)用低温恒温器切割(Leica Microsystems,Wetzlar,德国)。通过用手术刀从组织表面刮下100毫克肿瘤组织,然后再刮下4毫克,制作出一个用于分子提取的样本μm冻结段被切割(底部滑动)。使用Autostainer XL和一体式拖鞋(徕卡)对两个玻片组织切片进行H&E染色。使用Scanscope XT(Aperio,Vista,CA,USA)以20倍分辨率创建幻灯片的数字图像。由董事会认证的病理学家通过ImageScope软件(Aperio)远程进行病理学审查。病理学家最初在低倍镜下检查每张幻灯片,以确定低倍镜的形态,然后将放大倍数增加到20倍,并在每张幻灯片上检查10个具有代表性的高倍镜场。卵巢浆液性囊腺癌的诊断得到了证实,肿瘤纯度是指肿瘤细胞核与载玻片上总细胞核的比例。提取标本的肿瘤纯度计算为上下载玻片的平均纯度分数。质量控制包括由第二位病理学家随机检查10%的载玻片,以验证读数的一致性。

白细胞甲基化特征

489例高分期、高级别浆液性卵巢肿瘤和8例正常输卵管样本的DNA甲基化数据来自http://tcga.cancer.gov/dataportal/此外,还获得了两名女性的浅黄色皮毛样本。所有数据均使用Illumina Infinium HumanMethylation 27阵列生成,该阵列查询了位于NCBI数据库(Genome Build 36)中14475个一致性编码序列转录起始位点附近的27578个CpG位点。每个探针的DNA甲基化水平总结为0(非甲基化)到1(甲基化)的β值58.

白细胞甲基化特征推导如下。每个探针都根据浅黄色皮毛和输卵管样本中平均β值的差异进行排序。我们保留了100个在正常输卵管组织和外周血白细胞中平均DNA甲基化之间具有最大正差异和最大负差异的探针,指定不列颠哥伦比亚省英尺(分别富含浅黄色皮毛和输卵管)。T型伊克表示探针的β值k个在肿瘤样本中.让B类k个表示每个探针的棕黄色涂层样品的平均β值。T型k个表示所有肿瘤样本中观察到的最小β值不列颠哥伦比亚省探针和最大值英尺探针。表示方式(f)B类样品中棕黄色涂层成分的分数,则每个探针的方程如下:T型伊克=B类k个(f)B类+T型k个(l−(f)B类). 求解以下方程(f)B类给予:(f)B类= (T型伊克T型k个)/(B类k个T型k个). 的值(f)B类对于特征中的200个探针中的每一个,计算并获得核密度估计。然后计算白细胞特征作为密度估计的模式。

数据集的选择

我们分析了2445个Affymetrix 250 K Sty SNP样本,这些样本来自之前的泛癌调查35包含3131个癌症样本。因为我们的数据处理需要使用鸟食算法59,无法使用缺乏二倍体PCR对照的外部数据集。此外,样本少于20个的癌症类型被排除在外。此外,从TCGA GBM中采集了680个Affymetrix SNP6.0样本21和HGS-OvCa33研究,以及30个细胞系样本,使总样本数达到3155。完整的癌症样本分析表如下补充文件1。ABSOLUTE结果的完整表格如下所示补充文件2.

癌症组织样本体细胞突变检测的功率计算

我们开发了一个用于检测突变的统计能力计算框架。检测变异的能力取决于等位基因分数(f)和局部覆盖深度n个为了计算功率,我们对随机序列错误与速率一致的理想场景进行建模ε。我们计算支持读取的最小数量k个这样k个或由于排序错误导致的更多相同的非参考读取小于定义的假阳性率(FPR):

k个=argmin(最小值)|P(P)()≤FPR

在哪里?

P(P)()={1如果=0,1=01比诺姆(|n个,ε/)如果1.

≥的变量k个然后认为检测到支持读取。我们指定了测序错误率ε= 1 × 10−3且FPR=5×10−7用于本研究中的所有计算。功率计算如下:

功率(n个,(f))=1=0k个1比诺姆(|n个,(f)(+比诺姆(k个|n个,(f)),
(9)

在哪里?

=FPR公司P(P)(k个)P(P)(k个1)P(P)(k个).

我们考虑在癌组织衍生DNA样本中检测每个癌细胞单个拷贝处存在的克隆体细胞变体的情况。给定的纯度估计(α)和本地绝对拷贝数(q个t吨),此类变体的等位基因分数为:

δ=α2(1α)+αq个t吨.
(10)

在Pow等情况下计算功率(n个,δ).

为了简化功率和肿瘤纯度/倍性之间的关系补充图7,我们考虑了预期基因座的检测能力,超过全基因组拷贝平均值。功率由样品决定等位指数δτ=α/D类,这仅仅是肿瘤纯度/倍性的函数(等式。1). 通过使用等位基因分数获得期望功率(f)=δτ在里面等式(9)此计算仅在替换预期基因组拷贝数方面有所不同,即倍性(τ)对于本地copy-numberq个t吨在里面等式:(10).

分数形式的预期亚克隆变异体的功率(f)的癌细胞由Pow提供(n个,(f)δτ)此计算用于补充图7c,e使用Pow进行本地副本计算(n个,(f)δ)用于补充图7f、11.

卵巢癌体细胞点突变的检测

我们分析了全基因组杂交捕获Illumina测序(WES)36TCGA联合会先前分析的214对卵巢癌肿瘤-正常对照的数据33我们使用了程序muTect(K.Cibulskis等人,正在准备中)。我们使用了比以前分析该数据时使用的程序muTett更新的版本33新版本的主要改进是减少了体细胞突变等位基因分数为0.5的先例,使低等位基因突变(例如不纯样品中的克隆事件)或亚克隆突变更为敏感。该过程导致29268个体细胞突变。

点突变多重性的推断

基于肿瘤纯度和全基因组绝对拷贝数的知识,我们开发了一个概率模型,用于推断种系和体细胞变体的整数多重性。将突变位点的绝对同源拷贝数表示为q个1q个2,使用q个1q个2。种系变体的可能多样性如下:

q个= {q个1q个2q个t吨}, 

哪里q个t吨=q个1+q个2假设所有的体细胞点突变都是在单个单倍型上唯一出现的,那么可能的多重性为:

q个= {1, …, q个2}.

请注意,当只有总复制比率数据可用时,q个2上述情况未知,以及q个t吨而是使用。

种系突变通常存在于癌细胞和正常细胞群体中,体细胞拷贝数的改变会影响等位基因部分。种系中的杂合变体,具有多重性q个在癌症基因组中,具有等位基因部分:

(f)q个=(1α)+αq个2(1α)+αq个t吨,
(11)

其中,纯合子种系变体的等位基因部分为1,而不考虑α对于体细胞点突变,多重性下的预期等位基因分数q个(f)q个=q个δ,使用δ如中所示等式(10).

考虑一个观察到的未知拷贝的体细胞点突变q个q个,观察到的等位基因分数(f)̂、和n个覆盖轨迹的总读数。完全可能(f)̂可以表示为对应于每个元素的β分布的混合q个,再加上一个附加组件S公司对应于亚克隆状态:

((f)^|n个,q个,w个q个,w个c(c))=q个q个[w个q个贝塔((f)q个|n个(f)^=1,n个(1(f)^)+1)]+w个c(c)S公司((f)^|n个,λ),
(12)

哪里w个S公司q个w个q个指定每个状态的混合物重量q个、和w个S公司c(c)指定子克隆组件权重。亚克隆成分S公司由贝塔分布(建模采样噪声)与亚克隆癌细胞分数的指数分布组成,具有单个参数λ:

S公司((f)^|n个,λ)=01贝塔((f)|n个(f)^+1,n个(1(f)^)+1)费用((f)/δ|λ)δ1(f)

注意指数分量中坐标的变化,使用δ; 这使得无论肿瘤纯度和局部拷贝数如何,都可以用一致的癌细胞分数单位进行建模(注意,这种分布在单位间隔上是重新规范化的)。给定整数复制状态的概率q个然后可以计算为:

^q个=w个q个q个2贝塔((f)q个|n个(f)^+1,n个(1(f)^)+1)((f)^|n个,q个,w个q个,w个c(c)).

类似地,给定突变为亚克隆的概率计算如下:

^c(c)=w个c(c)q个2S公司((f)^|n个,λ)((f)^|n个,q个,w个q个,w个c(c)).

对于本研究中的计算,我们修正了λ= 25,w个q个至0.25,以及w个S公司c(c)到0.75,这与组合样本突变分数分布相吻合(图4b). 结果显示于图4对各种设置都是稳健的。

与整数体细胞多重性对应的混合组分权重的优化可以通过与SNCA混合模型中描述的方法类似的方式完成等式(6)狄利克雷先验可以被指定为伪计数的向量,该伪计数等价于每个重数值的先验观测。然后根据观测计数计算出的后Dirichlet模式计算重量。当使用成对的SCNA和体细胞点突变数据运行ABSOLUTE时,这些计算用于计算每个纯度倍性模式的可能的突变分数。

支持基因组加倍推断的癌基因进化模拟

进行了简单的模拟,以获得P(P)-观察到的同源拷贝数配置可能由独立增益和损耗的串行过程产生的概率值。基因组范围的同源拷贝数在染色体臂分辨率下总结为整数增益/损耗(共78个状态)。然后我们确定收益/损失的总数N个并计算每个手臂的速率,这些速率被归一化为概率。通过独立采样进行样本模拟N个从这些概率中获得和损失。每个样本重复1000次,记录次数在观察到的样品中,甚至达到或超过了较高的同源拷贝数。这个P(P)-值为:P(P)=/1000,如果>0,否则P(P)< 0.001.

补充材料

1

单击此处查看。(4.1M,docx)

致谢

这项工作得到了国家癌症研究所的资助,作为癌症基因组图谱项目的一部分:U24CA126546(医学博士)、U24CA143867(医学硕士)和U24CA43845(G.G.)。S.L.C.和E.H.得到了国家人类基因组研究所(NHGRI)的培训拨款T32 HG002295的支持。此外,D.P.由NIH-5R01 GM083299-14支持,D.A.L.由DoD W81XWH-10-1-0222支持,T.Z.由NIH/NIGMS 5 T32 GM008313支持,R.B.由NIH K08CA122833和U54CA143798支持。B.A.W.获得了NRSA拨款F32CA113126的支持。

脚注

作者贡献:M.M.提出了使用等位基因拷贝数分析评估肿瘤基因组纯度的概念。G.G.和S.L.C.构思并设计了分析。S.L.C.设计并实现了ABSOLUTE算法,并进行了数据分析。K.C.协助进行突变调用和验证。E.H.使用ASCAT进行分析,并协助进行多重性分析。A.M.协助确定卵巢癌数据的统计能力。T.Z.协助分析SCNA长度分布与基因组加倍。R.O.和W.W.进行了SNP阵列实验。W.W.设计并执行了DNA混合实验。H.S.和P.W.L.构思并执行了白细胞甲基化特征分析。B.A.W.对SNP阵列数据的等位基因分析作出了贡献。D.A.L.负责对样本进行FACS分析,以进行倍性测定。所有作者都参与了最后的手稿。D.P.和R.B.对手稿进行了批判性审查。S.L.C.、M.M.、G.G.和E.S.L.撰写了这份手稿。R.B.、M.M.和G.G.为项目提供了领导。

工具书类

1Pinkel D等人。利用比较基因组杂交技术对微阵列进行DNA拷贝数变异的高分辨率分析。自然遗传学。1998;20:207–211.[公共医学][谷歌学者]
2Mei R等人,使用人类SNPs和高密度DNA阵列对等位基因失衡进行全基因组检测。基因组研究。2000年;10:1126–1137。 [PMC免费文章][公共医学][谷歌学者]
三。Lindblad-Toh K等人。利用单核苷酸多态性阵列对小细胞肺癌的异基因缺失分析。国家生物技术。2000年;18:1001–1005.[公共医学][谷歌学者]
4Zhao X等。使用单核苷酸多态性阵列对癌症基因组中拷贝数和等位基因改变的综合观点。癌症研究。2004;64:3060–3071.[公共医学][谷歌学者]
5Bignell GR等人。使用寡核苷酸微阵列对DNA拷贝数进行高分辨率分析。基因组研究。2004;14:287–295. [PMC免费文章][公共医学][谷歌学者]
6Campbell PJ等人。使用全基因组大规模平行配对测序鉴定癌症中的体获得性重排。自然遗传学。2008;40:722–729. [PMC免费文章][公共医学][谷歌学者]
7Chiang DY等。用大规模平行测序进行拷贝数改变的高分辨率绘图。自然方法。2009;6:99–103. [PMC免费文章][公共医学][谷歌学者]
8Kallioniemi A等人。科学。1992;258:818–821.[公共医学][谷歌学者]
9Boveri T。细胞科学杂志。2008[公共医学][谷歌学者]
10米特尔曼·F·。突变研究。2000年;462:247–253.[公共医学][谷歌学者]
11Albertson DG、Collins C、McCormick F、Gray JW。实体瘤中的染色体畸变。自然遗传学。2003;34:369–376.[公共医学][谷歌学者]
12Storchova Z,Pellman D.从多倍体到非整倍体,基因组不稳定性和癌症。Nat Rev Mol细胞生物学。2004;5:45–54.[公共医学][谷歌学者]
13Storchova Z,Kuffer C.四倍体和非整倍体的后果。细胞科学杂志。2008;121:3859–3866.[公共医学][谷歌学者]
14Navin N等。从基因组异质性推断肿瘤进展。基因组研究。2010;20:68–80. [PMC免费文章][公共医学][谷歌学者]
15Navin N等。通过单细胞测序推断肿瘤进化。自然。2011 [PMC免费文章][公共医学][谷歌学者]
16Hicks J等。非整倍体和二倍体乳腺肿瘤的高分辨率ROMA CGH和FISH分析。冷泉Harb Symb Quant生物。2005年;70:51–63.[公共医学][谷歌学者]
17Mullighan CG等。急性淋巴细胞白血病遗传改变的全基因组分析。自然。2007;446:758–764.[公共医学][谷歌学者]
18Lyng H等人。GeneCount:从阵列比较基因组杂交数据计算肿瘤DNA绝对拷贝数的全基因组计算。基因组生物学。2008;9:R86。 [PMC免费文章][公共医学][谷歌学者]
19Hudson TJ等人,国际癌症基因组项目网络。自然。2010;464:993–998. [PMC免费文章][公共医学][谷歌学者]
20Weir BA等。描述肺腺癌中癌症基因组的特征。自然。2007;450:893–898。 [PMC免费文章][公共医学][谷歌学者]
21全面的基因组特征定义了人类胶质母细胞瘤基因和核心通路。自然。2008;455:1061–1068. [PMC免费文章][公共医学][谷歌学者]
22Berger MF等。原发性人类前列腺癌的基因组复杂性。自然。2011;470:214–220。 [PMC免费文章][公共医学][谷歌学者]
23Stransky N等人,《头颈部鳞癌的突变景观》。科学。2011 [PMC免费文章][公共医学][谷歌学者]
24Bass AJ等。大肠腺癌的基因组测序确定了复发性VTI1A-TCF7L2融合。自然遗传学。2011;43:964–968. [PMC免费文章][公共医学][谷歌学者]
25Fujiwara T等。细胞分裂失败产生的四倍体促进p53完整细胞的肿瘤发生。自然。2005年;437:1043–1047.[公共医学][谷歌学者]
26Holland AJ,克利夫兰DW。Boveri重访:染色体不稳定性、非整倍体和肿瘤发生。Nat Rev Mol细胞生物学。2009;10:478–487. [PMC免费文章][公共医学][谷歌学者]
27Attiyeh EF等。基于非整倍体校正的定量基因分型,从单核苷酸多态性微阵列中确定癌细胞的基因组拷贝数。基因组研究。2009;19:276–283. [PMC免费文章][公共医学][谷歌学者]
28Popova T等人,《基因组改变打印(GAP):通过SNP阵列获得的复杂癌症基因组图谱的可视化和挖掘工具》。基因组生物学。2009;10:R128。 [PMC免费文章][公共医学][谷歌学者]
29Greenman CD等。PICNIC:一种利用微阵列癌症数据预测绝对等位基因拷贝数变化的算法。生物统计学。2010;11:164–175. [PMC免费文章][公共医学][谷歌学者]
30Van Loo P等人。肿瘤的等位基因特异性拷贝数分析。美国国家科学院院刊。2010 [PMC免费文章][公共医学][谷歌学者]
31Yau C等。从单核苷酸多态性基因分型数据中检测异质性肿瘤样本基因组畸变的统计方法。基因组生物学。2010;11:R92。 [PMC免费文章][公共医学][谷歌学者]
32Li A,et al.GPHMM:使用全基因组SNP阵列识别复杂肿瘤样本中拷贝数改变和杂合性丢失的综合隐马尔可夫模型。核酸研究。2011;39:4928–4941. [PMC免费文章][公共医学][谷歌学者]
33Bell D等。卵巢癌的综合基因组分析。自然。2011;474:609–615. [PMC免费文章][公共医学][谷歌学者]
34Roschke AV等。NCI-60药物筛查小组的核型复杂性。癌症研究。2003;63:8634–8647.[公共医学][谷歌学者]
35Beroukhim R等人。人类癌症中体细胞拷贝数变化的前景。自然。2010;463:899–905. [PMC免费文章][公共医学][谷歌学者]
36Gnirke A等。用超长寡核苷酸进行大规模平行靶向测序的溶液杂交选择。国家生物技术。2009;27:182–189. [PMC免费文章][公共医学][谷歌学者]
37Levanon K,Crum C,Drapkin R.对浆液性卵巢癌发病机制及其临床影响的新见解。临床肿瘤学杂志。2008;26:5284–5293. [PMC免费文章][公共医学][谷歌学者]
38Galipeau PC等人,17p(p53)等位基因缺失,4N(G2/四倍体)人群,以及Barrett食管非整倍体进展。美国国家科学院院刊。1996;93:7081–7084。 [PMC免费文章][公共医学][谷歌学者]
39Barrett MT等。Barrett食管肿瘤细胞系的进化。自然遗传学。1999;22:106–109。 [PMC免费文章][公共医学][谷歌学者]
40Mermel CH等人。GISTIC2.0有助于敏感而自信地定位人类癌症中局灶性体细胞拷贝数改变的靶点。基因组生物学。2011;12:R41。 [PMC免费文章][公共医学][谷歌学者]
41Fudenberg G,Getz G,Meyerson M,Mirny LA。高阶染色质结构塑造了癌症中染色体改变的景观。自然生物技术。2011;29:1109–1113. [PMC免费文章][公共医学][谷歌学者]
42Ganem NJ,Godinho SA,Pellman D.将额外中心体与染色体不稳定性联系起来的机制。自然。2009;460:278–282. [PMC免费文章][公共医学][谷歌学者]
43Campbell PJ等。超深测序揭示的癌症亚克隆系统发育结构。美国国家科学院院刊。2008;105:13081–13086. [PMC免费文章][公共医学][谷歌学者]
44Yachida S等。胰腺癌基因进化过程中,远处转移发生较晚。自然。2010;467:1114–1117. [PMC免费文章][公共医学][谷歌学者]
45丁磊等。通过全基因组测序揭示复发性急性髓细胞白血病的克隆进化。自然。2012 [PMC免费文章][公共医学][谷歌学者]
46Dutrillaux B、Gerbault-Seureau M、Remvikos Y、Zafrani B、Prieur M。乳腺癌遗传进化:I.细胞遗传学和DNA含量数据。乳腺癌研究治疗。1991;19:245–255.[公共医学][谷歌学者]
47Ganem NJ、Storchova Z、Pellman D。当前操作基因开发。2007;17:157–162。[公共医学][谷歌学者]
48Davoli T,Denchi EL,de Lange T。持续的端粒损伤导致有丝分裂旁路和四倍体。单元格。2010;141:81–93. [PMC免费文章][公共医学][谷歌学者]
49Bazeley PS等人,随机遗传损伤模型,指导二倍体或非整倍体肿瘤的选择。细胞增殖。2011;44:212–223. [PMC免费文章][公共医学][谷歌学者]
50刘伟,等。拷贝数分析表明致命转移性前列腺癌的单克隆起源。自然医学。2009;15:559–565. [PMC免费文章][公共医学][谷歌学者]
51Walter MJ等。继发性急性髓细胞白血病的克隆构筑。新英格兰医学杂志。2012;366:1090–1098. [PMC免费文章][公共医学][谷歌学者]
52Gerlinger M等人。多区域测序揭示的肿瘤内部异质性和分支进化。新英格兰医学杂志。2012;366:883–892. [PMC免费文章][公共医学][谷歌学者]
53Carter S、Meyerson Matthew、Getz Gad。准确估计癌症样本中同源特异性DNA浓度比值可以进行长期单倍型分析。2011 可从Nature Precidings获得 http://hdl.handle.net/10101/npre.2011.6494.1.
54Altshuler DM等。整合不同人群中常见和罕见的遗传变异。自然。2010;467:52–58。 [PMC免费文章][公共医学][谷歌学者]
55Browning BL,Yu Z.同时进行基因型调用和单倍型相位调整可提高基因型准确性,并减少全基因组关联研究中的假阳性关联。美国人类遗传学杂志。2009;85:847–861。 [PMC免费文章][公共医学][谷歌学者]
56Huber W,von Heydebreck A,Sultmann H,Poustka A,Vingron M.方差稳定应用于微阵列数据校准和差异表达量化。生物信息学。2002;18增刊1:S96–104。[公共医学][谷歌学者]
57Dempster AP、Laird NM、Rubin DB。通过EM算法从不完整数据中获得最大似然。英国皇家统计学会学报B辑(方法学)1977;39:1–38. [谷歌学者]
58Noushmehr H等人。CpG岛甲基化表型的鉴定,该表型定义了胶质瘤的不同亚群。癌细胞。2010;17:510–522. [PMC免费文章][公共医学][谷歌学者]
59Korn JM等。SNP、常见拷贝数多态性和罕见CNV的综合基因型调用和关联分析。自然遗传学。2008;40:1253–1260. [PMC免费文章][公共医学][谷歌学者]