跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
美国国家科学院院刊。2010年9月28日;107(39): 16910–16915.
2010年9月13日在线发布。 数字对象标识:10.1073/pnas.1009843107
预防性维修识别码:项目经理2947907
PMID:20837533

肿瘤等位基因特异性拷贝数分析

关联数据

补充资料

摘要

我们对体内乳腺癌基因组进行了等位基因特异性拷贝数分析。我们描述了一种独特的生物信息学方法,ASCAT(肿瘤的等位基因特异性拷贝数分析),用于准确解剖实体肿瘤的等等位基因特异性拷贝数,同时估计和调整肿瘤倍性和非倍性细胞混合。这允许计算“ASCAT谱”(全基因组等位基因特异性拷贝数谱),从中可以准确地确定增益、损耗、拷贝数中性事件和杂合性丢失(LOH)。在早期乳腺癌系列中,我们观察到45%的病例存在非整倍体(>2.7n),平均非增殖细胞混合率为49%。通过聚合我们系列中的ASCAT谱,我们获得了增益和损耗的基因组频率分布,以及乳腺癌中LOH和拷贝数中性事件的全基因组视图。此外,ASCAT图谱揭示了五种先前确定的分子乳腺癌亚型之间异常肿瘤细胞分数、倍性、增益、损失、LOH和拷贝数中性事件的差异。与其他亚型相比,基底样乳腺癌的LOH发生率明显更高,其ASCAT图谱显示肿瘤发展过程中基因组物质大量丢失,随后出现全基因组重复,导致近三倍体基因组。最后,根据ASCAT图谱,我们构建了乳腺癌等位基因偏斜的全基因组图,表明一个等位基因优先丢失,而另一个等位点优先获得的位点。我们假设这些替代等位基因对乳腺癌的发展有不同的影响。

关键词:乳腺癌,单核苷酸多态性阵列,生物信息学,癌症

基因组变化是癌症的主要病因。与正常宿主基因组相比,癌症基因组的特点是序列发生了大量变化,从单个碱基变化(点突变)到大型染色体片段的插入或缺失,甚至是全基因组重复(1,2). 这些癌症基因组已通过阵列比较基因组杂交(CGH)、SNP阵列广泛绘制(,4),最近通过全基因组测序(58). 然而,由于肿瘤经常偏离二倍体状态,因此很难对数据进行正确的组装和解释(9,10),其中许多包含多种肿瘤和非肿瘤细胞(11,12). 由于这些原因,大多数研究仅限于报告增益和损耗(阵列CGH),可能还补充了等位基因不平衡(SNP阵列),并且无法为参考基因组中的所有位点分配正确的(等位基因特定的)拷贝数。同样,为了从测序数据中正确组装完整的癌症基因组,计算所有基因座的准确拷贝数是正确解释从点突变到大规模基因组重排等变化的必要第一步。

我们在这里提出了体内乳腺癌基因组的等位基因特异性拷贝数分析,其中考虑了肿瘤细胞的非整倍性和非癌细胞浸润。我们获得了112例乳腺癌中91例的准确全基因组等位基因特异性拷贝数谱[称为“ASCAT(肿瘤等位基因特异性拷贝数分析)谱”]。根据这些ASCAT图谱,在先前确定的五种乳腺癌分子亚型中,发现了异常肿瘤细胞分数、倍性、获得、丢失、杂合性丢失(LOH)和拷贝数中性事件的差异。最后,通过评估每个SNP位点上两个可能的等位基因的缺失和重复的相对频率,我们构建了一个等位基因偏斜的全基因组图,指出可能驱动乳腺癌发展的候选基因/位点。

结果

乳腺癌等位基因特异性拷贝数分析。

我们使用Illumina 109K SNP阵列对112例乳腺癌样本进行了基因分型,并构建了一种算法(ASCAT)来估计异常细胞的比例和肿瘤倍性,以及考虑到这两种特性的全基因组等位基因特异性拷贝数谱(图1图S1S2系列). 使用ASCAT,我们获得了91例(81%)乳腺癌的全基因组等位基因特异性拷贝数谱(以下简称ASCAT谱)。ASCAT表示找不到可接受的解决方案的21例(19%)中,大多数病例的特征是Log R曲线中的残差显著较大(图S3). 因此,ASCAT能够计算所有检测SNP基因座的等位基因特异性拷贝数,考虑到大多数乳腺癌病例的肿瘤非整倍体和异常肿瘤细胞的比例,并指示输入数据的质量何时有问题。

保存图片、插图等的外部文件。对象名为pnas.1009843107fig01.jpg

ASCAT剖面及其计算。给出了两个示例:(A类)倍性接近2n的肿瘤(B类)倍性接近4n的肿瘤。(左侧)ASCAT首先确定肿瘤细胞的倍性ψt吨畸变细胞百分率ρ。此程序评估两个参数(蓝色表示良好解决方案;红色表示不良解决方案;详见材料和方法). 基于这种拟合优度,选择最优解(绿叉)。使用产生的肿瘤倍性和异常细胞分数,计算ASCAT曲线(右上),包含所有分析位点的等位基因特定拷贝数[轴与基因组在x个轴线;绿色,拷贝数最低的等位基因;红色,具有最高拷贝数的等位基因;仅出于说明目的,两条线略微移动(红色,向下;绿色,向上),使其不重叠;只显示了种系中杂合的探针]。最后,对于发现的所有畸变,计算畸变可靠性得分(右下角).

我们通过三种方式验证了ASCAT剖面预测。首先,我们通过将该算法应用于与不同比例的生殖系DNA混合的肿瘤样品稀释系列,检查ASCAT对不同比例的异常肿瘤细胞的一致性和敏感性。总的来说,不同稀释度的ASCAT曲线非常相似(图S4). 其次,我们通过实验测定91例评分乳腺癌中79例肿瘤细胞的DNA含量,验证了ASCAT的倍性预测。我们与ASCAT的预测取得了良好的一致性(图2图S5). 最后,对11例乳腺癌的三个位点进行了FISH实验(表S1),表明与ASCAT估计的拷贝数有很好的对应性,尽管FISH似乎始终低估了与ASCAT相比的拷贝数。总之,这些验证实验证实,ASCAT可以在广泛的肿瘤倍性和异常肿瘤细胞分数范围内准确预测ASCAT曲线。

保存图片、插图等的外部文件。对象名为pnas.1009843107fig02.jpg

ASCAT预测肿瘤倍性的验证。ASCAT的倍性估计值是相对于实验测量的倍性绘制的。这里我们将倍性定义为相对于单倍体基因组的DNA数量。对于79份化验样品中的58份(73.4%),ASCAT的倍性预测与实验测定的倍性(靠近对角线的绿色三角形)吻合良好。三个样品(3.8%)的实验测定倍性大于5n(蓝色三角形),超出ASCAT使用的倍性范围(1.6n–4.8n,用蓝色方框表示)。10例乳腺癌(12.7%)的预测倍性接近2n,而实验测定的倍性接近4n(粉红色三角形)。在大多数情况下,人工检查拷贝数剖面并不能发现任何迹象(ASCAT没有发现),表明这些样本实际上接近四倍体(图S5A类). 事实上,四倍体但仅显示偶数等位基因特异性拷贝数的病例将被视为二倍体,因为SNP阵列数据没有提供任何信息来区分四倍体样本和二倍体样本。或者,将倍性测定的实验方法应用于肿瘤的不同部位,如SNP阵列,可以测量细胞周期S期的肿瘤细胞或肿瘤的不同亚克隆。最后,与实验测定的倍性(红色三角形)相比,ASCAT预测的八个样本(10.1%)显示出明显更高的倍性。一个可能的解释是,存在多个畸变肿瘤细胞群体,这些细胞具有(轻微)不同的畸变(图S5B类).

乳腺癌中异常肿瘤细胞的倍性和分数。

为了研究非整倍体和非异倍细胞在乳腺癌中的相关性,我们检查了乳腺癌系列的倍性和异常细胞分数估计。由于病理学家对肿瘤样本进行了宏观解剖,以尽可能多地去除周围的非肿瘤组织,因此异常的细胞分数估计将反映肿瘤内的非癌细胞,而不是肿瘤周围的正常细胞。我们发现肿瘤平均浸润了49%的非癌细胞,其中45%的细胞倍性为2.7n或更高。这些结果证实了同时考虑非增殖细胞混合物和肿瘤非整倍体的重要性。

根据561转录物的表达模式,乳腺癌可分为五种不同的亚型(13). 这五个亚组,即内脏A、内脏B、ERBB2、基底样和正常样乳腺癌,与不同的临床结果相关(14). 我们将倍性和异常细胞分数估计值与这些基于基因表达的乳腺癌亚型相关联。按乳腺癌亚型对异常细胞的估计百分比进行分层显示出显著差异(图3A类)Luminal A亚型的异常肿瘤细胞比例最高,ERBB2和Normal-like亚型的比例最低。根据分子亚型分层的肿瘤倍性评估显示,Luminal A、Basal-like和Normal-like亚型的倍性最低,ERBB2亚型的倍率最高(图3B类). 对于Luminal A亚型来说,特定的倍性分布及其特征性的畸变少(以及偏好涉及整个染色体臂的畸变)意味着这些肿瘤具有共同的二倍体状态,少数子宫内膜癌通过内复制进行多倍体化(只有少数额外畸变),导致四倍体状态。

保存图片、插图等的外部文件。对象名称为pnas.1009843107图03.jpg

五种乳腺癌亚型中异常肿瘤细胞和倍性的百分比。使用的分子亚型:LumA、Luminal A(n个= 45); 亮度B,亮度B(n个= 10); ERBB2号机组(n个= 12); 基色、类基色(n个= 12); 正常,正常(n个= 8). (A类)五种亚型中异常肿瘤细胞百分比的分布。方框图显示了中间值(粗线)和上下四分位数(方框)。晶须达到盒子四分位范围1.5倍内的最大极值。而内脏A癌的异常肿瘤细胞水平最高(P(P)= 6.9 × 10−6,未成对t吨不等方差检验、鲁米纳A亚型与所有其他癌之间的差异检验),ERBB2和正常亚型肿瘤的异常细胞比例最低(P(P)= 3.7 × 10−4P(P)= 8.4 × 10−3)。(B类)五个亚型的倍性分布。绝大多数Luminal A肿瘤的倍性接近2n,而较小部分的倍性则接近4n。鲁米纳B亚型癌在2n和4n肿瘤中的分布大致相同,其中两个肿瘤为3n。平均而言,ERBB2亚组表现出最高水平的倍性,但范围也最广。Basal-like亚组显示出倍性为1.6n–2n的病例和2.8n–3.2n的病例。正常类肿瘤显示一组倍性接近2n的病例和一组倍性高于3n的病例。

ASCAT档案允许准确分析收益、损失、LOH和拷贝数中性事件,并允许深入了解肿瘤发展。

人群中的得失频率可以从ASCAT曲线中推断出来。在我们的乳腺癌系列中,这导致了与以前的(array-CGH)报告相类似但略为显著的模式(1517) (图S6A类). 然而,与直接从Log R数据中得出的结果相比,分子亚型分层导致ERBB2和正常型亚型的增益和损耗频率明显更高(图S6B类). 因此,与之前的报告相反,之前的报告仅描述了这两种亚型的有限数量的畸变(1517)ASCAT配置文件的使用带来了明显的收益和损失。由于ERBB2和正常型亚型中非阳性细胞的比例较高,早期方法忽略了这些畸变(图3A类),这是使用ASCAT配置文件时考虑的一项功能。

ASCAT配置文件还允许我们调查LOH和复制中性事件。这是不可能使用直接评估肿瘤样本的SNP阵列数据的,因为与细胞混合后没有显示这些事件。基因组中出现了一种独特的LOH模式(图4A类),LOH在染色体臂8p、11q、16q和17p上最常见。16号染色体的q臂显示了LOH的最高比例,包括位于钙粘蛋白家族多个成员中的其他SNP(例如。,CDH1型,CDH3型,CDH15型,CDH13型、和CDH8型). 对拷贝数中性事件频率的计算表明,许多区域的频率高于20%,有些峰值高达50%(图4B类). 我们在这里将拷贝数中性事件定义为生殖系中SNP杂合子的等位基因偏见,使得总拷贝数与肿瘤倍性没有差异。根据这个定义,拷贝数中性事件是指阵列CGH无法检测到的所有基因组畸变。我们观察到,许多丢失频率较高的基因组区域也更有可能存在拷贝数中性事件。这在染色体/染色体臂1p、2、3、4q、9q、15和19p中尤为明显。这表明,实际损失的频率(一个等位基因的损失,可能与另一个等位数的增加相结合)远高于先前报道的频率(仅考虑DNA总量,而不区分两个等位蛋白)。另一个值得注意的是染色体17q,它显示了高频率的增益和较高水平的拷贝数中性事件。这个染色体臂包含了ERBB2号机组基因,一种因与乳腺癌相关而闻名的基因。第2、3、4、6、12和15号染色体的拷贝数中性事件的总体频率最高,这些染色体以前未被报道为乳腺癌基因组畸变的关键区域,这表明拷贝数中性的事件可能代表了乳腺癌基因组异常的一个尚未探索的as-y图。

保存图片、插图等的外部文件。对象名为pnas.1009843107fig04.jpg

LOH和拷贝数中性事件的频率。(A类)基因组中LOH的频率。探针沿基因组顺序显示x个轴,从染色体1到染色体X,不同的染色体由灰色线分隔。(B类)基因组中拷贝数中性事件的频率。对于二倍体肿瘤,拷贝数中性事件对应于LOH的子集(拷贝数中性LOH),但对于四倍体肿瘤来说,拷贝数中立事件也可以是a的三个拷贝和B的一个拷贝(C类)按乳腺癌分子亚型分层的每例LOH比例(肿瘤中失去杂合性的生殖系杂合探针的百分比)。使用的分子亚型和方框图图例与图3与其他四种亚型相比,发光蛋白A亚型的LOH发生率显著降低(P(P)= 2.3 × 10−6,未成对t吨具有不等方差的测试)。更引人注目的是基底细胞样亚型的LOH水平升高(P(P)= 1.0 × 10−3). 事实上,三分之二的Basal-like肿瘤在40%以上的基因座杂合生殖系中显示LOH。()按乳腺癌分子亚型分层的每个病例拷贝数中性事件的比例。夜光A(P(P)= 4.7 × 10−3,未成对t吨用不相等的方差进行检验,检验鲁米纳A亚型和所有其他癌症之间的差异)和正常型(P(P)=0.95)子类型显示低水平的拷贝数中性事件,Luminal B子组显示中等水平(P(P)=0.99),以及类似巴萨的(P(P)=0.043)和ERBB2亚型(P(P)=0.064)显示拷贝数中性事件的最高频率。

乳腺癌亚型全基因组LOH和拷贝数中性事件谱的分层揭示了迄今为止未知的差异(图4C类). 在Basal-like亚型中,LOH的发生频率明显更高(P(P)= 1.0 × 10−3由一个未结婚的人t吨用不等方差检验,检验基底样癌和所有其他癌之间的差异)。这一观察,结合基底样乳腺癌的特殊倍性范围(图3B类),使我们假设Basal-like肿瘤的基因组最初从二倍体减少到部分单倍体状态(约1.5n),随后进行全基因组复制,导致约3n倍体(图S7).

等位基因在乳腺癌中优先获得或丢失。

我们的91例乳腺癌系列的ASCAT图谱允许我们创建优先获得或丢失的等位基因的全基因组图谱(图5). 如果对某一SNP来说,最常见的丢失等位基因是B等位基因,而a等位基因优先保留(或获得),那么a等位蛋白可能为乳腺癌提供相对优势。例如PPP2R5C型其中30例14q32.31基因为种系杂合基因。其中有15人失去了B等位基因。此外,有四个增益,全部为A等位基因和两个拷贝数中性事件,均显示A的增益和B的丢失。所有这些观察结果都表明两个备选等位基因的丢失/增益存在偏斜,并表明A等位蛋白的相对优势和B等位基因在乳腺癌发展过程中的劣势。统计评估(图S8)导致P(P)= 9.5 × 10−7因此,尽管我们的数据集规模相对有限(由于每个SNP只能评估杂合子病例来进行此分析,这一事实使情况更加复杂),但我们能够在全基因组统计评估中识别出具有高度显著等位基因偏斜度的探针。这证实了图5可能是由于选择,这表明受等位基因偏斜影响的位点是乳腺癌发生的潜在独特标记。

保存图片、插图等的外部文件。对象名为pnas.1009843107fig05.jpg

等位基因偏度的全基因组图。没有显示等位基因偏斜(没有等位基因优先获得或丢失)的SNP应该显示两个等位基因的丢失和获得频率大致相等。这里显示了最常见的获得/丢失等位基因的频率。无等位基因偏斜的等位基因频率应为50%(蓝色),而完全偏斜的等位基因频率为100%(红色)。对于每个SNP,我们从我们的系列中选择种系杂合子的病例。我们统计了有多少情况显示了增益(A与B之比)、损失(A与B之比)和拷贝数中性事件(增益为A,损失为B,增益为B,损失为A)。我们将A的增益、B的丢失和拷贝数中性事件计数与A的增益和B的丢失相结合,将B的增益、A的丢失和复制数中性事件的计数与B的增益和A的丢失相组合,并显示最常见的扭曲等位基因的频率。仅显示总计至少10个增益、损耗和拷贝数中性事件的探针。所示基因符号包含至少一个SNP,其最常获得/丢失的等位基因频率为95%或以上。

讨论

自1992年首次报告描述CGH以来(18)以及后来对阵列技术的适应(1921)CGH已将自己确立为检测肿瘤染色体畸变的事实标准。然而,十多年后,仍然很难从这些高通量阵列中确定准确的肿瘤全基因组拷贝数分布。复杂的因素是肿瘤细胞通常是非整倍体(9,10)肿瘤样本包含多种肿瘤和非肿瘤细胞(11,12). 尽管一些研究旨在将这些影响纳入方程式(22,23),这些困难至今仍然存在。除了这些限制之外,array-CGH没有提供关于两个替代等位基因中哪一个获得或丢失的信息,并且忽略了拷贝数中性畸变。

SNP阵列技术介绍(24,25)有望解决这些问题,因为等位基因特异性测量可以估计样本中异常和非阳性细胞的数量,并清楚地显示出与二倍体的偏差。最近,已经发展了许多计算方法,旨在考虑肿瘤非整倍体或非肿瘤细胞浸润(2631). 然而,为了从非显微解剖肿瘤样本的SNP阵列数据中计算正确的全基因组等位基因特异性拷贝数,需要同时对这两种影响进行建模。

我们开发了一种独特的算法ASCAT,用于从SNP阵列数据推断ASCAT谱(精确的全基因组等位基因特异性拷贝数谱),估计和校正肿瘤细胞非整倍体和非倍体细胞混合。我们通过FISH验证了ASCAT的拷贝数预测,通过将其应用于肿瘤样本的稀释系列,验证了其对增加非增殖细胞参与的敏感性,并通过实验倍性测量验证了其倍性预测。

癌症基因组测序的最新引入使癌症基因组的解剖进入了下一步(58). 我们认为ASCAT图谱可能是解释这些数据的有用工具,有助于数据的组装和识别从点突变到复杂重排的大小不等的变化。

我们早期乳腺癌系列中倍性和异常细胞分数的分布(图3)这表明,不考虑倍性和非倍性细胞浸润的分析方法将误解至少50%的病例。这可能会导致对非正常细胞混合率高的肿瘤(如在ERBB2和正常乳腺癌中观察到的)的畸变数量估计不足,或对非整倍体肿瘤中几乎所有的畸变进行曲解。

ASCAT曲线允许识别LOH和拷贝数中性事件,对阵列CGH是不可见的(SNP阵列方法无法纠正非整倍体和非遗传细胞浸润)。LOH的基因组分布(图4A类)与损失非常吻合(图S6A类). 这在很大程度上是因为许多缺失也会导致杂合性的丧失。然而,出乎意料的是,丢失与拷贝数中性事件(两类完全不同的畸变)之间也存在对应关系,这表明一个等位基因的丢失频率(可能与其他等位基因获得的频率相结合)远高于以前的报道。

我们确定了五种分子定义的乳腺癌亚型(其中许多以前未知)在肿瘤倍性、非固有细胞混合、获得、丢失、LOH和拷贝数中性事件频率方面的特征性差异。这些发现证实了我们方法的附加价值,同时也支持了这样的假设,即这些分子亚型是不同的生物实体。例如,我们发现ERBB2和正常型亚型中有高比例的非增殖细胞(图3A类),两种肿瘤亚型,之前的报告仅描述了有限数量的畸变(1517). 对非固有细胞浸润的校正表明,这些肿瘤实际上并不比其他亚型具有更少的畸变(图S6B类)但是,这些畸变被早期的方法忽略了,这些方法没有针对非遗传细胞的参与进行调整。这个ERBB2号机组基因是诱导CD8的重要肿瘤抗原+-乳腺癌中介导的T细胞反应,以及过度表达该生长因子受体的肿瘤患者通常对ERBB2衍生肽产生免疫反应(32). 因此,T细胞的吸引可能至少部分解释了ERBB2亚型肿瘤中非伯细胞比例较高的原因。

我们的发现也使我们能够深入了解肿瘤的发展。内腔A型乳腺癌是典型的二倍体,仅显示有限数量的畸变(主要影响整个染色体臂)。其中一小部分通过内复制变成四倍体,几乎没有额外的畸变。相比之下,Basal-like亚型乳腺癌表现出许多畸变,大多数染色体受到影响。损失远大于收益,导致倍数为16亿至20亿。在后期,其中一些肿瘤会经历全基因组复制。我们假设这些部分单倍体基因组变得不稳定(约1.5n),从而选择更稳定的三倍体基因组。这些三倍体基底样癌的ASCAT图谱显示了广泛的LOH,证实了这种全基因组重复发生在肿瘤发展的后期,即肿瘤基因组获得大量畸变之后(图S7).

最后,我们构建了一个全基因组的等位基因偏度图,显示了一个等位基因优先丢失而另一个等位点优先获得的位点。我们假设这些替代等位基因对乳腺癌的发展有不同的影响,与等位基因优先丢失相比,优先获得的等位基因显示出对乳腺癌有益的影响。有趣的是,含有SNP的基因显示出最极端的等位基因偏斜(21个畸变,都指向A的优先获得和B的优先损失),PPP2R5C型(PP2A,B亚基,B56γ亚型)已被证明可介导DNA损伤诱导的p53去磷酸化(33)作为异三聚体复合体PP2A的一部分,PP2A可能在多种癌症中发挥重要的抑癌作用,包括乳腺癌(34,35).

材料和方法

乳腺癌系列。

早期乳腺癌的研究人群已在前面描述过(16,36). 它由112对血癌组成。每个手术切除的肿瘤标本的一部分直接在−80°C下冷冻并保存。然后由病理学家对冷冻肿瘤进行宏观解剖。在提取DNA之前,用显微镜检查每个标本的两个冰冻切片,以确保有代表性的肿瘤组织。从外周血淋巴细胞部分分离血液DNA。使用Human-1 109K BeadChip SNP阵列平台(Illumina)对两者进行分析。更详细的描述可以在我们早期的研究中找到(16). 因为这些都是女性患者的乳腺癌,所以没有使用Y染色体的SNP阵列数据,总共留下109302个SNP。

虽然已经开发了多种方法来进行乳腺癌分子分型(37,38),在本研究中,我们选择使用与之前研究相同的te亚型(16,36),以便比较。

ASCAT算法。

Illumina SNP阵列提供两个输出轨迹:Log R(测量总信号强度)和B等位基因频率(BAF)(测量等位基因对比度)(25). Log R轨迹类似于通用阵列CGH平台的输出,并量化了每个基因组位点的(总)拷贝数。BAF轨迹显示了两个可选核苷酸(称为“A”和“B”)中的每一个在所描述的每个SNP位点上的相对存在。

两种复发现象使癌症样本的基因型分析复杂化,在我们的研究中也经常发生:非遗传细胞浸润和肿瘤细胞非整倍体(图S1). 我们表示Log R和BAF数据(第页b)作为等位基因特异性拷贝数的函数(n个A、 我n个B、 我),解释非增殖细胞浸润和肿瘤非整倍体(SI材料和方法详细信息):

方程式图像
方程式图像

等式。12,代表基因组位置,γ是一个常数,取决于所使用的SNP阵列技术。样本的平均倍性由ψ=2(1)建模ρ)+ρψt吨,带ψt吨肿瘤倍性(范围为1.6~4.8,对应的肿瘤倍性范围为1.6n~4.8n)。样本的畸变细胞分数由ρ(介于0和1之间的值)建模。参数γ可从文献中获得(25)(100%纯样品中缺失时,为Log R的下降),而ρ和ψt吨需要根据每个肿瘤样本的数据分别进行估计。基于这些方程,我们可以将等位基因特异性拷贝数估计值表示为数据和参数的函数(SI材料和方法).

为了使我们的方法对输入数据中的噪声不太敏感,Log R和BAF都通过一种专门设计的分割和滤波算法——Allele-Specific Piecewise Constant Fitting(ASPCF)进行了预处理(SI材料和方法详细信息)。首先,将种系DNA纯合子的探针(即高度为0和1的BAF带中的探针)从BAF轨道中移除,因为它们对于确定总拷贝数没有信息。因为我们的乳腺癌系列由血液和肿瘤对组成,所以我们使用血样中产生的基因型来消除种系中的纯合探针(图S2A类). 然后,ASPCF将分段常数函数同时拟合到Log R和BAF数据,要求变化点出现在两个拟合函数中的相同基因组位置(图S2B类). 因此,获得了基因组的分段,每个分段对应于两个相邻变化点之间(或变化点和染色体臂的起点/终点之间)的基因组区域。对于Log R,为每个段获得一个拟合值,而对于BAF,ASPCF的输出可能由每个段的一个或两个值组成。这些值在0.5左右对称。如果发现异常细胞处于平衡状态(As和B的数量相等),则只返回一个值0.5。如果异常细胞表现出等位基因偏倚,它将出现在两个方向上(例如,ABB和AAB基因型的SNP都会出现),导致ASPCF输出两个对称值,约为0.5(图S2B类).

这些ASPCF平滑数据随后用作ASCAT算法(在R中实现)的输入,以估计参数ρ(畸变细胞分数)和ψt吨(肿瘤倍性),以及绝对等位基因特异性拷贝数调用(保存图片、插图等的外部文件。对象名为pnas.1009843107i1.jpg保存图片、插图等的外部文件。对象名为pnas.1009843107i2.jpg). 利用真拷贝数是非负整数的事实,我们寻找ρ和ψ的值t吨因此,等位基因特异性拷贝数估计值尽可能接近种系杂合SNP的非负整数。ρ和ψ的最佳值t吨估计如下:

  • ()计算ρ(0.10,0.11,…,1.05)和ψ网格下的基因组等位基因特异性拷贝数分布t吨值(1.00、1.05…、5.40)
  • (ii(ii))对于每个参数-值组合,计算所有SNP的全基因组等位基因特异性拷贝数谱到非负整数解的总距离并求和(等式。).
  • 方程式图像
  • 这里圆形()函数四舍五入到最近的非负整数。重量w个对于具有等位基因偏倚(BAF≠0.5)的片段中的探针,=1,以及w个无等位基因偏倚片段中的探针=0.05(BAF=0.5),因为前者被认为更可能是异常片段。
  • ()确定了所有局部最小值,并将其视为数据的可能解释。对于每一种可能的解释,都会计算一个良好的分数。这是菲特的优点计算为总距离与非负整数之间的线性比例缩放到百分比:=100%,当d日=0和=0时d日=当每个SNP的等位基因特异性拷贝数与非负整数相差0.25时获得的距离(保存图片、插图等的外部文件。对象名称为pnas.1009843107i3.jpg). 值0.25被选为一个合理的最大距离(所有探针的平均值),考虑到此良好距离仅针对局部最小值进行计算。
  • (iv(四))ASCAT自动排除与不太可能的解释相对应的局部最小值:(1)倍性(计算为平均总拷贝数)超出用户定义范围(1.6n–4.8n)的解决方案(2)异常肿瘤细胞百分比过低的溶液(ρ<0.20)()“浮动”解决方案——显示基因组畸变但不显示任何等位基因拷贝数为0的SNP的解决方案(根据此标准,ASCAT避免在没有证据显示较高倍性时以较高倍性进行解释),以及(4)质量分数低于80%的解决方案。
  • (v(v))如果仍有一个候选解决方案,则报告此解决方案。如果仍然存在多个解决方案,则根据其拟合优度对这些解决方案进行排序,并报告排名最高的解决方案。对于报告的解决方案,ASCAT返回异常肿瘤细胞的百分比、肿瘤倍性(计算为平均总拷贝数)、拟合优度和肿瘤的全基因组等位基因特异性拷贝数分布(ASCAT分布),以及每个发现的异常的畸变可靠性得分(SI材料和方法详细信息)。

软件和数据可用性。

ASCAT和ASPCF软件、SNP阵列数据和等位基因偏度数据可在http://www.ifi.uio.no/bioinf/Projects/ASCAT.

补充材料

支持信息:

致谢

我们感谢Elmar Bucher和Tuuli Lappalainen提供的生物信息援助;Therese Sörlie分享与乳腺癌分子亚型的相关值;Grethe I.G.Alnaes和Fredrik E.Johansen执行部分Illumina基因分型;和Trond Stokke进行了有价值的讨论。基因分型的运营成本由挪威研究委员会拨款155218/V40和175240/S10(发给A.-L.B.-D.)、功能基因组学-Norsk ForskningsróD(挪威研究委员会)(FUGE-NFR)FUGE/NFR 181600/V11(发给V.N.K.)和Swizz Bridge Award(A.-L.B--D.)提供。实验室援助由挪威癌症协会拨款D99061(给A.-L.B.-D.)和D03067(给V.N.K.)资助。P.V.L.是佛兰德斯研究基金会(FWO)的博士后研究员,也是癌症研究所的访问科学家,由FWO和欧洲癌症研究协会的旅费资助。S.H.N.是挪威癌症协会(PK01-2007-0356)的博士后研究员,由Lillemor Grobstoks Legacy for Cancer Research提供旅费资助。C.M.P.得到了国家癌症研究所乳腺专业卓越研究计划拨款P50-CA58223-09A1、乳腺癌研究基金会和V癌症研究基金会的支持。

脚注

*这篇直接提交的文章有一个预先安排的编辑。

作者声明没有利益冲突。

本文包含在线支持信息,网址为www.pnas.org/lookup/supp/doi:10.1073/pnas.1009843107/-/DC补充.

工具书类

1Stratton MR,Campbell PJ,Futreal PA。癌症基因组。自然。2009;458:719–724. [PMC免费文章][公共医学][谷歌学者]
2Balmain A、Gray J、Ponder B。癌症的遗传学和基因组学。自然遗传学。2003;33(补充):238–244。[公共医学][谷歌学者]
三。Mullighan CG等。急性淋巴细胞白血病遗传改变的全基因组分析。自然。2007;446:758–764.[公共医学][谷歌学者]
4癌症基因组图谱研究网络综合基因组特征定义了人类胶质母细胞瘤基因和核心通路。自然。2008;455:1061–1068. [PMC免费文章][公共医学][谷歌学者]
5Mardis ER等。通过对急性髓细胞白血病基因组进行测序发现的复发突变。N英格兰医学杂志。2009;361:1058–1066. [PMC免费文章][公共医学][谷歌学者]
6Stephens PJ等人。人类乳腺癌基因组中体细胞重排的复杂景观。自然。2009;462:1005–1010。 [PMC免费文章][公共医学][谷歌学者]
7Pleasance ED等人。一种具有烟草暴露复杂特征的小细胞肺癌基因组。自然。2010;463:184–190. [PMC免费文章][公共医学][谷歌学者]
8Pleasance ED等人。人类癌症基因组体细胞突变的综合目录。自然。2010;463:191–196. [PMC免费文章][公共医学][谷歌学者]
9Holland AJ,克利夫兰DW。Boveri重访:染色体不稳定性、非整倍体和肿瘤发生。Nat Rev Mol细胞生物学。2009;10:478–487. [PMC免费文章][公共医学][谷歌学者]
10Rajagopalan H,Lengauer C.非整倍体与癌症。自然。2004;432:338–341.[公共医学][谷歌学者]
11Campbell LL,Polyak K。乳腺肿瘤异质性:肿瘤干细胞还是克隆进化?细胞周期。2007;6:2332–2338.[公共医学][谷歌学者]
12Witz IP,Levy-Nissenbaum O。后PAGET时代的肿瘤微环境。癌症快报。2006;242:1–10.[公共医学][谷歌学者]
13Perou CM等人。人类乳腺肿瘤的分子肖像。自然。2000;406:747–752.[公共医学][谷歌学者]
14Sörlie T等。乳腺癌的基因表达模式区分具有临床意义的肿瘤亚类。美国国家科学院程序。2001;98:10869–10874. [PMC免费文章][公共医学][谷歌学者]
15Bergamaschi A等。DNA拷贝数改变的不同模式与乳腺癌的不同临床病理特征和基因表达亚型相关。基因染色体癌。2006;45:1033–1040.[公共医学][谷歌学者]
16Nordgard SH等。全基因组分析确定与乳腺癌患者生存率、分子亚型、mRNA表达和生殖系单倍型相关的16q缺失。基因染色体癌。2008;47:680–696.[公共医学][谷歌学者]
17Chin K等。与乳腺癌病理生理相关的基因组和转录异常。癌细胞。2006;10:529–541.[公共医学][谷歌学者]
18Kallioniemi A等。用于实体肿瘤分子细胞遗传学分析的比较基因组杂交。科学。1992;258:818–821.[公共医学][谷歌学者]
19Solinas-Toldo S等人。基于Matrix的比较基因组杂交:筛选基因组失衡的生物芯片。基因染色体癌。1997;20:399–407.[公共医学][谷歌学者]
20Pinkel D等人,使用微阵列的比较基因组杂交对DNA拷贝数变化进行高分辨率分析。自然遗传学。1998;20:207–211。[公共医学][谷歌学者]
21Pollack JR等。使用cDNA微阵列对DNA拷贝数变化进行全基因组分析。自然遗传学。1999年;23:41–46.[公共医学][谷歌学者]
22Lyng H,et al.GeneCount:从阵列比较基因组杂交数据中计算肿瘤DNA绝对拷贝数的基因组范围。基因组生物学。2008;9:R86。 [PMC免费文章][公共医学][谷歌学者]
23Wang K,Li J,Li S,Bolund L,Wiuf C.使用CGH阵列数据评估肿瘤异质性。BMC生物信息学。2009;10:12. [PMC免费文章][公共医学][谷歌学者]
24McCarroll SA等。SNP和拷贝数变异的综合检测和群体遗传学分析。自然遗传学。2008;40:1166–1174.[公共医学][谷歌学者]
25Peiffer DA等人。使用Infinium全基因组基因分型对染色体畸变进行高分辨率基因组分析。基因组研究。2006;16:1136–1148. [PMC免费文章][公共医学][谷歌学者]
26Attiyeh EF等。基于非整倍体校正的定量基因分型,从单核苷酸多态性微阵列中确定癌细胞的基因组拷贝数。基因组研究。2009;19:276–283。 [PMC免费文章][公共医学][谷歌学者]
27Staaf J等人。使用全基因组SNP阵列对癌细胞中的等位基因失衡和异基因丢失进行基于分段的检测。基因组生物学。2008;9:R136。 [PMC免费文章][公共医学][谷歌学者]
28Gardina PJ、Lo KC、Lee W、Cowell JK、Turpaz Y.通过使用500K SNP映射阵列对等位基因比率、信号比率和杂合性丢失进行综合分析,确定原发性胶质母细胞瘤的倍性状态和拷贝数畸变。BMC基因组学。2008;9:489. [PMC免费文章][公共医学][谷歌学者]
29Pounds S等。肿瘤拷贝数分析中SNP微阵列信号的参考比对。生物信息学。2009;25:315–321. [PMC免费文章][公共医学][谷歌学者]
30Greenman CD等。PICNIC:用微阵列癌症数据预测绝对等位基因拷贝数变化的算法。生物统计学。2010;11:164–175. [PMC免费文章][公共医学][谷歌学者]
31Sun W等。使用高密度SNP阵列对拷贝数状态和基因型调用的综合研究。核酸研究。2009;37:5365–5377. [PMC免费文章][公共医学][谷歌学者]
32Pupa SM、Tagliabue E、Ménard S、Anichini A.HER-2:乳腺癌免疫治疗和分子医学交叉点的生物标志物。细胞生理学杂志。2005;205:10–18.[公共医学][谷歌学者]
33Li HH,Cai X,Shouse GP,Piluso LG,Liu X.一种特殊的PP2A调节亚单位B56gamma在Thr55介导DNA损伤诱导的p53去磷酸化。EMBO J。2007;26:402–411. [PMC免费文章][公共医学][谷歌学者]
34Sablina AA等。肿瘤抑制因子PP2A Abeta调节RalA GTPase。单元格。2007;129:969–982. [PMC免费文章][公共医学][谷歌学者]
35Esplin ED等。PP2A(PPP2R1B)的Abeta亚单位中甘氨酸90转天冬氨酸的改变与乳腺癌相关,并导致蛋白质功能缺陷。基因染色体癌。2006;45:182–190.[公共医学][谷歌学者]
36Naume B等。骨髓微转移的存在与乳腺癌分子亚型的不同复发风险相关。Mol Oncol公司。2007;1:160–171. [PMC免费文章][公共医学][谷歌学者]
37Sörlie T等。在独立基因表达数据集中重复观察乳腺肿瘤亚型。美国国家科学院程序。2003;100:8418–8423. [PMC免费文章][公共医学][谷歌学者]
38Parker JS等。基于固有亚型的乳腺癌风险预测因子监测。临床肿瘤学杂志。2009;27:1160–1167。 [PMC免费文章][公共医学][谷歌学者]

文章来自美国国家科学院院刊由以下人员提供美国国家科学院