背景
染色体拷贝数的变化是肿瘤发生中的常见事件,包括纯合子或半合子缺失、染色体部分或完全复制、一般多倍体和特定区域的高拷贝数扩增。此外,杂合性丢失(LOH)可能通过染色体丢失或重组发生,经常暴露有害的隐性基因型[1]. LOH事件也可以以拷贝数中性的方式发生,并且不会仅通过拷贝数分析检测到。总之,这些变化可能与癌基因表达增加或抑癌基因失活有关[2,三]. 虽然许多染色体改变可能是肿瘤样本中一般核型不稳定的结果,但反复发现的受染色体拷贝数畸变(CNAs)和LOH影响的特定区域表明,这些区域可能是癌症病因中的致病因素。
开发了比较基因组杂交阵列来探测癌症中的基因组CNA[4,5]以及其他遗传疾病。BAC阵列携带一个基因组文库作为细菌人工染色体(BAC)的插入物,BAC被发现在阵列上[6]. 然后用来自参考(正常)和测试(肿瘤)样本的差异标记DNA探测阵列,这两个DNA的相对荧光提供了肿瘤基因组内拷贝数变化的定量估计[7]. 阵列上BAC密度的增加通常为基因组改变提供了更高的分辨率。
基因组绘图阵列最初用于关联研究的全基因组基因分型[8]后来用于估计拷贝数[9-11]. 映射阵列包含短寡聚体,用于探测整个基因组中单核苷酸多态性(SNP)的替代等位基因。与检测来自相对较大的连续DNA片段的总信号的大型插入克隆阵列不同,映射阵列提供了由所选SNPs的数量和分布确定的间隔的信号强度的“点”估计。特定SNP探针的CN值估计为对数2两个等位基因的总信号与“正常”参考群体产生的信号的比率(LR)。预期是,在参考人口的任何特定地区,CN平均等于2。因此,与二倍体参考水平相比,LR的增加或减少将分别反映基因组内的增加或损失。此外,来自替代等位基因的信号可以分离出来,并在绘图阵列上转化为特定的基因型。这允许通过检测纯合子等位基因的连续延伸来识别LOH,与该区域相对于参考样本的杂合频率相比,这些等位基因在统计上不太可能出现。
阵列的分辨率与探头的尺寸、数量和分布有关。例如,RPCI 6 K BAC阵列的最大分辨率约为500 kb[2]尽管在实践中它更接近1Mbp。Affymetrix 100 K Mapping阵列的平均标记距离为24 kb,中位数约为8.5 kb。在一项涉及精神发育迟滞的CNA研究中,使用100K平台检测到178kb的缺失。使用常规细胞遗传学方法无法检测到这些缺失[12]. 在一项针对胶质瘤的平行研究中,100K平台能够更好地解决染色体断点,并可以检测到小到50kb的新的纯合子缺失[13]与6K BAC阵列相比。由于当前研究中使用的Affymetrix 500 K Mapping阵列的平均SNP间距为5.8 kb,因此预计其分辨率将几乎成比例增加。
绘图阵列用于分析主要是二倍体样本的基因型,CN分析检测假定二倍体背景下总信号普遍增加或减少的区域。肿瘤样本可能违反了这一假设,由于有丝分裂机制中的大规模畸变,例如内复制,经常显示出大量多倍体的基因组。在这种情况下,精确的倍性分析的主要限制可能是实验方案,它要求检测标准数量的DNA。无论原始细胞是二倍体还是四倍体,这些程序都将使总信号大致相等。此外,分析程序倾向于将总体信号标准化,使其近似于参考人群中的信号,而参考人群几乎完全是二倍体。因此,依赖总DNA信号的计算方法往往会严重低估四倍体样本的实际拷贝数,因为假定的基线信号设置为2而不是4。
映射阵列检测单个等位基因信号的能力还允许计算等位基因比率(AR),即给定等位基因对总信号的相对贡献[14]. AR产生具有特定类CNA特征的模式,这些模式可以与杂合二倍体模式区分开来。以前的工作[13]报告了使用多形性胶质母细胞瘤(GBM)肿瘤的100K映射阵列分析的CN估计值和LOH预测值之间的差异。这一观察结果表明,许多被分析的染色体的基线CN可能大于2。在此,我们利用对数比(LR)、LOH预测和等位基因比(AR)对GBM肿瘤进行综合分析,以证明事实上,染色体CN通常比信号比预期的高很多,并且在特定样本中,许多或所有染色体都是非整倍体。
方法
基因芯片样品的处理®500 K映射阵列
本研究中使用的胶质瘤样本是在知情同意的情况下收集的,用于研究目的,DNA是使用标准程序从速冻组织中制备的。在该队列中,通过组织病理学分析,所有24个样本均被证实为GBM。HapMap参考样本取自Coriell(美国新泽西州卡姆登),广泛用于遗传变异研究。
根据Affymetrix Mapping 500 K协议制备标记DNA靶。用NSP I或STY I(NEB,Ipswich,MA)在37℃下消化2小时,然后在65℃下消化20分钟,两个单独的反应,每个反应都含有250 ng基因组DNA。对应的NSP I和STY I适配器(Affymetrix Inc.,加州圣克拉拉)由通用PCR引物序列组成,在37°C下使用T4 DNA连接酶(NEB)连接酶连接3小时,然后在65°C下连接20分钟。使用TITANIUM Taq(Clontech,Mountain View,CA)和PCR引物002(Affymetrix)对反应进行PCR扩增,一式三份。
使用Applied Biosystems 9700仪器,循环参数如下:一个3分钟94°C的聚合酶激活步骤,然后30个三步PCR循环(94°C变性15 s,60°C退火45 s,68°C延伸15 s),最后68°C,延伸7分钟。将8uL 0.1M EDTA添加到每个PCR产物中,并将一式三份的扩增反应合并到清洁板(Clontech)中,用水洗涤3次,并用50uL回收缓冲液(Clontech)洗脱。
使用分子器件SpectraMax Plus 384平板阅读器对纯化的PCR产物进行定量。用片段化试剂(Affymetrix)以0.005 U/μL的最终反应浓度对90μg PCR产物进行片段化。使用9700仪器在37°C下破碎35分钟,然后在95°C下裂解15分钟。使用30 mM DNA标记试剂、30 U/μL末端脱氧核苷酸转移酶和5×TdT缓冲液(Affymetrix)标记靶点。在37°C下贴标签4小时,然后在95°C下15分钟。
按照Mapping 500 K方案的规定,向每个样品中添加190μL杂交混合物。在向对应的Mapping 250 K NSP或STY阵列中添加200μl靶之前,将标记靶在95°C下热变性10分钟,然后在49°C下至少热变性5分钟。允许阵列在49°C、60 RPM的旋转杂交炉中培养16小时。目标物从阵列中取出,然后使用清洗协议Mapping500Kv1_450在Affymetrix Fluidics 450工作站上进行染色和清洗。使用Affymetrix 7G基因芯片扫描仪和GCOS 1.4版软件对阵列进行扫描。
500K基因分型芯片分析
等位基因信号摘要和基因型是通过命令行程序apt-probeset-generation(v.1.0;Affymetrix Power Tool[apt]软件包从CEL文件生成的[15]). 文件使用APT中实现的贝叶斯稳健线性模型和马氏距离(BRLMM)算法进行处理[16]分位数草图标准化为50000点,无背景校正。来自国际Hap Map项目51个女性样本的500K阵列用于归一化,并作为CN估计的基准参考信号。使用apt-copynumber-pipeline程序估计拷贝数和LOH[17]高斯平滑为0.1 Mb。Nsp和Sty阵列由apt-probested基因型单独处理,但由copynumber-pipeline程序集成。这些基本功能也可在CNAT4软件中使用[18]. 拷贝数估计为归一化样本等位基因信号(S)与参考集(R)的对数和:
其中a和b表示替代SNP等位基因。
通过隐马尔可夫模型,利用参考群体的SNP-wise杂合率和0.02(默认值)的基因分型误差估计先验值,从样本基因型估计LOH。跃迁衰减参数(描述相邻SNPs的LOH状态的影响)被设置为10Mb。HMM对“杂合性保留”(1或0)和“LOH”的状态预测用于绘制经验LOH区域。CN和LOH算法如所述[19].
等位基因比率表示B等位基因强度与总A等位基因加上B等位蛋白强度的比值。该方法基于Peiffer等人[14]其中,每个特定SNP的比率通过一组参考样本的线性插值进行标准化,以解释单个SNP聚类特征的变化。利用Partek Genomics Suite 6.3版计算等位基因比率(版权所有©2008年,Partek Inc.,St.Louis,MO,USA)使用270个HapMap样本进行归一化,并使用专有的降噪算法。二倍体纯合子的比率预计接近0或1,二倍体杂合子的比例预计接近0.5(即两个等位基因的贡献相等)。对数比率、等位基因比率和LOH预测在Partek的基因组背景下可视化®基因组学套件。
对于映射阵列的CN估计,使用四分位范围(IQR)作为基本质量控制度量。IQR是对单个样本基因组中信号可变性的测量,在相对正常的样本中,它将反映样本的总体噪声。然而,考虑到肿瘤样本中CN畸变的频率和程度,标准IQR指标只是样本噪声的粗略指南。
结果
肿瘤样本中的染色体补体可以深刻影响核型中损失和增益的解释,而使用肿瘤和正常样本之间的比较杂交的传统CGH无法评估这一变量。然而,SNP图谱阵列可以确定每个等位基因的杂交强度,对染色体长度上的相对强度模式的解释揭示了关于肿瘤样本倍性的有价值信息。为了进一步研究这种方法,我们使用500K SNP映射阵列分析了24个胶质瘤样本。在支持这项研究的所有图表中,我们采用了将染色体短臂置于左侧、长臂置于右侧的惯例。为了帮助解释这些数字,我们加入了一条红线,追踪等位基因比率等效片段的一般中点。
等位基因比率模式
除了日志之外2基因型信号强度和LOH估计值的比值(LR),等位基因比值(AR)是解释肿瘤样本拷贝数(CN)的有用补充。AR测量每个SNP中两个可能的等位基因(A或B)的“B”等位基因对总信号强度的贡献。由于等位基因的标记是任意的,这些比率形成了一个约为0.5的对称模式。等位基因比率模式在概念图中描述(图。)并通过特定肿瘤样本生成的模式进行了说明(图。,,,). 对于杂合的二体染色体,等位基因比率应近似于1.0(BB)、0.5(AB)或0(AA),从而产生图中所示的模式。和图。由于单个SNP特征和背景噪声的变化,以及肿瘤异质性和肿瘤样本中存在正常细胞,这些值与预期比率略有偏差。
(a)二倍体或(B)四倍体背景下染色体变化的预期信号模式该漫画总结了二倍体背景中二体染色体(a组)或四倍体背景下四体染色体(B组)的四个假设片段中伴随事件(单拷贝增益、单拷贝丢失或拷贝中性LOH)的对数比率、等位基因比率和LOH的模式。对数比(红线)为0表示拷贝数(CN)相对于基线没有变化,对于正常二倍体样本来说等于2。等位基因比率是B等位基因探针产生的总信号的比例(例如,AAB基因型在特定SNP产生的等位基因比为0.33[B/a+a+B])。来自许多连续SNP的类似比率显示为带有红色字母(A和B的各种组合)的银盒,指示导致AR值的推断基因型。预计产生LOH的细分市场用蓝色方框表示。注意,对于四倍体样本中平衡的四体染色体(图B),背景状态与二倍体无法区分(图a);0的LR反映了样本的基线拷贝数,等于4。这两种情况只有在损失或收益时才能区分,损失或收益以不同的方式改变了模式。
等位基因比率模式(AR)每个点(蓝点)代表一个SNP的AR,该SNP沿着染色体长度从p端(左)到q端(右)映射到其相对物理位置。垂直的白色矩形指示着没有SNP探针的着丝粒的位置。(A) 在样本C92的Chr:5中,二体染色体上有三条明显的“带”;AR为0和1表示纯合信号(AA或BB),AR为~0.5表示两个等位基因(AB)的贡献相等。(B) C79中二联体Chr:1的p臂上的两个小缺失产生了缺乏杂合子信号的特征模式,并显示单拷贝纯合子信号(一个A或B等位基因)向中间出血。(C) 在C156中的Chr:8长臂上看到的拷贝数中性LOH也缺乏杂合信号,但没有显示向内出血。(D) C82中Chr:10的三体模式的特征是杂合比率接近0.33(AAB)和0.67(ABB),而不是0.5。(E) 在短臂上可以看到C72中Chr:10的不平衡四体模式,反映了0.25(AAAB)和0.75(ABBB)的杂合子比率,但AR在长臂中点附近转变为不平衡五体模式(ABBBB),然后转变为三体模式(ABB)。
二倍体背景中的拷贝数变化每个面板都显示了对数比(LR)、等位基因比(AR)和LOH的综合视图。(A) 通过对数比增加0.25和AR向三体模式转变(即从0.5到0.33和0.67),检测到C82中二体Chr:1的q组中的单拷贝增益。(B) C156中Chr:5的p臂中的单拷贝丢失是通过对数比-0.4的下降和AR向单体模式的移位检测到的。损失伴随着LOH的共线区域(由LOH条上的蓝色长矩形表示)。(C) C92中Chr:7上的一系列复杂CNA与AR中的变化并行。请注意,整个q臂是三体的,靠近着丝粒的p臂上的强放大事件(由箭头指示)将AR移动到极值,并生成LOH的共线段。
明显四倍体背景中拷贝数的变化(A)C72中Chr:10的等位基因比为0.25和0.75,表明该染色体p臂的四体不平衡(标记为“4n”),即使对数比为0,假定拷贝数为2。LR的减少表明q-arm(“3n”)中的染色体物质丢失,但该区域产生无共线LOH三体的AR模式特征。q-arm的中心还显示一小段不平衡五体(“5n”),伴随着与ABBBB和AAAAB等位基因模式一致的LR和等位基因比率的小幅度增加。(B) C82的第2号染色体显示LR,明显的CN为2,AR与正常二分体一致。然而,q-末端的小缺失产生三体模式,没有LOH,这表明大多数染色体实际上是平衡的四体(AABB)。对于这两个例子,总的迹象是染色体的基线CN是4个拷贝,而不是2个,并且两个样本大多是四倍体。
染色体CNA显示高度多体(A)对于C72中的第7号染色体,LR和AR模式从左到右与CN=5(AAABB)、6(AAABBB)和7(AAAABBB)片段一致(按垂直线划分)。相应的对数比分别为0.15、0.25和0.35。(B) 对于C72中的Chr:15,AR模式从左到右与CN=3(AAB)、5(AAABB)、4(AABB)和3(AAB。相应的对数比分别为-0.2、+0.2、0和-0.2。因此,0的“拷贝中性”LR实际上代表4的CN。
二体染色体上的杂合缺失应该缺少AB信号(即接近0.5的信号),因为只有一个纯合信号是可能的。在这种情况下,AR可能为~1或~0,因为它来自a或B等位基因的单个拷贝(图。). CN为1时产生的AR倾向于向AR曲线的中间出血,因为信号背景对单个等位基因产生的整体信号有更大的影响。此外,二体染色体中的缺失应该伴随着LOH的相称区域。当杂合缺失发生在CN>1时,等位基因比率受信号背景的影响较小,更接近0/1值,如图所示的拷贝数中性杂合缺失事件所示。.
相反,单拷贝增益区域(CN=3)产生明显不同的AR模式,这是由AAA(0)、AAB(0.33)、ABB(0.67)或BBB(1.0)的潜在等位基因组合引起的,如图所示。(除非所有3个拷贝都是通过丢失和三倍体的某种组合从单个亲本染色体上获得的)。双拷贝增益(CN=4)可能产生两种AR模式中的任何一种,这取决于增益是由于双亲染色体的复制还是由于其中一条染色体的三倍体。后一种(不平衡)的四体体情况表现出由四种可能的等位基因比率产生的模式:AAAA(0)、AAAB(0.25)、ABBB(0.75)或BBBB(1.0),如图中的p臂所示。另一方面,平衡四体产生AR模式,该模式类似于具有AAAA(0)、AABB(0.5)或BBBB(1.0)的可能等位基因组合的正常杂合子二态的AR模式。
使用LR、AR和LOH综合解释CN变化
在大多数二倍体细胞中,对信号比率和等位基因比率变化的解释相对简单,如图所示。; 单拷贝增益应增加对数比并产生三体AR模式,而单拷贝丢失应降低对数比并生成LOH单倍体模式。图。描述了这样一种情况,即相对于基线对数比0的增益实际上代表了染色体q-arm的CN从2移到3,同时AR也从2n移到3n。图。说明了相反的情况,即二体染色体p臂内的缺失产生负LR和缺乏杂合性典型信号的AR(即0.5时无AR)。正如杂合子缺失区域所预期的那样,这种缺失伴随着LOH。
由于AR显示了反映AAB和ABB剖面的特征模式,因此对导致三体性的整个染色体增益的识别通常是明确的(图。)这偏离了平衡比率0.5。还应注意,平衡五倍体(AAABB)的AR应开始接近三倍体的比率(即3/5对2/3)。
另一方面,四倍体状态可能更难分配;而不平衡四体(AAAB)产生特征0.25/0.75 AR(如图所示的p臂)。)平衡的四体和二体均产生0、0.5和1的AR。对数比率可能无法区分后两种情况,因为在四倍体样品中,基线LR也将为0(如图。和). 幸运的是,平衡四体可以在增益或损耗分区产生AR模式的情况下被识别,而AR模式与基线双相状态不一致。例如,图中所示的染色体的q末端。图示了一种情况,其中对数比率表示拷贝数丢失,但实际上这是从CN为4到CN为3的转变,而不是二体染色体上的杂合缺失。有三项证据表明,这一总体模式代表着平衡的四体而非二体:a)包含缺失的亚区反映出与三体一致的AR模式,b)没有LOH区域与缺失共线,如果CN从2减少到1,就会发生这种情况,以及c)LR的减小幅度小于预期。
通过结合LR和AR的信息,可以表征更复杂的模式,如图所示。图A显示了一个推导出的背景状态(LR=0)是四倍体的情况,因为LR增益为0.15、0.25和0.35时产生的AR分别与5(AAABB)、6(AAABBB)和7(AAAABBB)的平衡CN状态一致。在同一样本的另一条染色体中(面板B),LR缺失-0.15产生三体模式(在p端和q端),增益0.15产生五体模式。此外,LR损失区域不伴有LOH。在这种情况下,“拷贝中性”信号的小段(LR=0)必须代表平衡四体的一个区域。
二倍体和多倍体背景下LR变化的幅度
在以二倍体染色体数为主的正常样本中,预期CN为2对应LR为0,因为每个SNP的总信号应几乎等于Hap Map样本参考集产生的信号(即对数2(2/2) = 0). 在理想环境中,CN为1将产生LR为-1(log2(1/2)),如果CN为3,则LR为+0.58(log2(3/2)). 经验上,这些值在一定程度上受到非特定信号背景的影响而压缩,损失和增益分别为-0.4和+0.3。然而,在以四倍体为主的样本中,LR为0对应于CN为4,与损失和增益相关的比率通常小于二倍体背景中的比率。预期的理想对数2比率为-0.41(对数2(3/4)和+0.32(对数2(5/4))分别用于单副本损失和收益。从经验上看,在四倍体背景下,这些值似乎被压缩到大约-0.15和+0.1(图。). 因此,相对较小幅度的LR持续变化表明基线CN较高。
二倍体和四倍体背景中LR变化的相对大小。较浅的信号轨迹表示C172中整个10号染色体丢失,其中LR为0对应CN为2。在这种情况下,CN损失1会产生-0.4的LR。在背景大多为四倍体(暗信号迹)的C72中,10号染色体q臂的单个拷贝丢失(即从4的CN到3的CN)导致LR下降到仅-0.15。
GBM样本拷贝数变化调查
对24个GBM样本的LR和AR模式的联合分析表明,大多数染色体可能是多体的(图。). 528个常染色体组中203个(即24个样本×22条染色体)的基线CN(即LR=0)可通过该分析进行估计,约占染色体的38%。在许多情况下,由于AR的一般不平衡模式,基线CN很明显(如图。)但在其他情况下,需要损失或增益的子区域来推断背景CN状态(如图。). 其余染色体(没有增益或丢失区域的染色体)的拷贝数实际上是未知的,因为它们可能是平衡二体(AB)、平衡四体(AABB)甚至更高的平衡状态。在203个分配中,有11个有点模糊,主要是因为不平衡的高倍体(即AAAB或AAAAB)的等位基因比率开始接近受背景效应影响的单个拷贝数的比率。在AR模式指定为CN>2的105个染色体组中,仅LR值就低估了76个。
24个肿瘤样本指定染色体的优势基线CN.代码:黄色=二倍体;红色=CN增益;蓝色=CN损失;粉色=损益参半;u=不平衡;*=检测到LOH损失;^=未检测到LOH损失;下划线=LR低估的CN;?=AR模式不明确。
图还指示出现明显单拷贝丢失(根据对数比率)的染色体的LOH状态。LOH的发生强化了基线CN状态为2n的结论,而未观察到LOH的情况往往支持基线CN的状态为3n或更多的结论。
24个样本的多体模式显示了染色体,其中可以通过LR、AR和LOH进行假定分配。图根据指定染色体数目的总变化将其分为5类,其基本目的是估计总体倍性(即推断未指定染色体的CN),并了解单个样本染色体增减的病因。分类还考虑了推导的CN是否会被对数比低估。该因素的基本原理是,含有大量多体染色体的样本倾向于将全基因组对数比基线重置为更高的CN,这意味着,对于这些样本中的未分配染色体,LR为0可能表示CN>2。
五个类别(每组样本的数量用括号表示)是:
I.(1)总染色体CN无明显变化。该组包括一个样本(C182),其AR与平衡二倍体一致,并且没有影响AR的增益或损失亚区。虽然推测为二倍体,但不能排除该样本的完全平衡四倍体。
二、。(7) 可能的二倍体背景:大多数指定染色体的CN为2或更少;LR倾向于正确地指示染色体增益(例如,指示三倍体的AR与LR的+0.3增益平行);负LR值往往产生相应的LOH片段。因此,总的迹象是样品大多是二倍体;仅仅基于信号比率的解释可能是正确的。样本C133是II组的典型样本,其中22个常染色体中的10个可明确归属于基线CN;五条染色体是二体的,在假定的杂合子缺失时表现为LOH,另外两条染色体表现为完全LOH的全染色体缺失。C133还显示了两条全染色体增益,以及另一条染色体的大量重复。C133的增长主要反映在该样本的总体CN接近2的预期范围内(~+0.3)的对数比率。第二组中的样本似乎具有大致相同的总增益或总损耗倾向,尽管C47显示出三个全染色体丢失,另外三个染色体大量丢失,以及所有9号染色体的拷贝数中性杂合缺失。
三、 (7)可能的四倍体背景:大多数可分配染色体的CN>2,包括广泛的平衡四体;假定损失不会产生相应的LOH段;LR通常低估了CN,这意味着大多数未分配染色体的实际CN为4或更多。例如,在C73中,6条染色体表现出完全或实质性的平衡四体,总体证据表明未分配的染色体也是四体的。这些观察结果表明,内复制事件可能是C73染色体状态的基本决定因素,尽管至少有5条染色体会经历额外的大规模事件。在第三组中,AR模式指定为“增益”的58条染色体中的45条染色体的CN仅被LR低估,并被解释为拷贝中性或丢失。
四、 (4)一种异质混合物,有许多完整染色体获得和丢失的病例,表明染色体畸变的年表很复杂。尤其是C87,表现出显著的和不同的染色体变化;22家汽车公司中有16家经历了毛收益或亏损。在CN的2个或更多区域中,有10条染色体表现出实质性的增加,4条染色体表现为实质性的减少,还有5条染色体具有完全的LOH。C156说明了另一种复杂的情况,许多完整染色体或大的亚区域显示1、2、3、4(平衡和不平衡)和5的CN。
V.(5)模棱两可:LR倾向于正确预测CN(暗示二倍体背景),尽管假定的缺失不会产生相应的LOH区域。这种现象可能代表一组大多数是二倍体的肿瘤样本,其中一些样本受到正常组织的污染,这可能会用虚假的杂合基因型误导LOH算法。
我们不能排除在某些情况下,观察到的模式是由于肿瘤人群的异质性造成的可能性。一些AR和LR模式可以通过携带不同染色体补体的两个亚群的实质比例混合来模拟。例如,样本C47的第5和第6染色体都给出了三体模式,但对数比率为负。由于样本似乎主要是二倍体背景,LR信号的丢失表明这两条染色体实际上经历了染色体物质的净丢失。对于特定的染色体片段,CN为1和CN为2的细胞的等量混合将产生三体AR模式;平均而言,杂合SNP的等位基因比率为1:2或2:1(一个亚群的AB加上另一个亚群体的A或B)。在这种情况下,总信号将减少25%,因为在二倍体样本中,每个细胞平均有1.5个染色体片段拷贝,而不是正常的每个细胞2个。在这种情况下,样本C47的第5和第6染色体的亚群丢失可能发生在第1、9、10、14、15、18和19染色体的丢失以及第7和21染色体的增加之后,因为这些事件在整个样本中似乎是一致的。
基于AR的染色体改变再解释
Lo等人[13]注意到这些GBM基因组的许多染色体区域显示出一致的丢失区域,并且定义了受影响样本之间重叠的最小区域。在某些情况下,常见的损失区域发生在2/3的样本中。从BAC阵列CGH或100 K映射阵列获得的LR降低表明这些CNA,尽管作者指出,受影响的区域不一定伴随LOH,正如二体染色体所预期的那样。根据AR和LOH模式对染色体状态的重新解释表明,在许多情况下,假定的全染色体损失实际上是三体的,并且许多明显的损失实际上发生在多倍体背景下,产生的区域至少为2n,没有伴随的LOH。
下面的例子表明,仅仅基于对数比率来解释CN丢失可能会产生误导,特别是在明显的全染色体丢失的情况下。然而,在特定区域重复出现的相对损失表明了潜在的有趣区域,即使特定相对损失不会导致单拷贝或零拷贝区域和LOH。在下面的一些例子中,多倍体背景下发生了多拷贝缺失,这意味着缺失发生在整个染色体复制甚至三倍体之后。
对多染色体的解释对10号染色体尤其重要,该染色体经常显示GBM中的整个染色体丢失。10号染色体携带PTEN抑癌基因(.chr10:89287772–89390708),该基因与GBM的病因有关。严格按照信号比率[13]24个样本中,18个样本显示10号染色体全染色体缺失,C72在q臂上显示出大的缺失,C156在p臂上显示了大幅度的增加。然而,当根据AR重新解释时,只有7个样本(见图。)明显是单体的,LOH很强。C65A、C143和C82的第10号染色体不是全染色体缺失,而是三倍体,C148明显具有不平衡的四体性。C72中q-arm的假定缺失实际上是CN从4转移到3,三体区携带PTEN基因(见图。). C156中p臂的增益与平衡二体背景下的三体区域一致。八个样本显示出不明确的AR模式,与不平衡多体或全染色体缺失一致,但没有显示LOH。总的来说,AR的明确分配表明,5个样本的10号染色体有增益,包括PTEN区域,还有4个样本的PTEN至少为二联型,只有7个样本清楚地表示伴有LOH的全染色体丢失。
其中8个样本在染色体14q中表现出明显的缺失,其中5个样本表现出全染色体缺失,另外3个样本表现为明显的纯合缺失,重叠区域最小,为58–78 Mb。AR模式的推断是,两个全染色体缺失实际上是二体的,另一个是三体的,而两个亚染色体缺失是四体背景下的单拷贝缺失(即三体)。剩下的三个样本确实是58–78 Mbp的单体,表明该区域存在LOH。在12号和15号染色体上常见的假定缺失区域也有类似的模式。
11p区域似乎显示7个样本的LR有大量损失。然而,根据AR模式,三种推测的全染色体缺失中有两种表现为三体性。四分之三的部分染色体丢失发生在三体或四体背景下。有趣的是,在这三种情况中的两种情况下,在整个p臂上,三体背景(C1)和四体背景(C156)分别丢失了2个拷贝和2个拷贝,都会产生LOH。因此,在7个明显的损失中,三个代表无LOH的三体,四个代表伴有LOH的损失。一个3.57–5.15Mbp的一致最小区域来自二倍体背景上的杂合缺失,另一个29.49–33.84Mbp的一致最小区域由拷贝数中性LOH定义(均在样品C88中)。
即使在多倍体背景下,6号染色体的q臂也显示出特定区域损失的模式。10个样本显示6号染色体的CN发生大规模变化,其中6个样本的基线CN为3,另一个样本的基准CN为4。六条染色体在q臂上显示出较大的相对LR丢失区域,共同区域从159 Mbp到q端(170 Mbp)。两个样本(C88,C175)显示了155.90–165.26 Mbp区域三体背景的2拷贝丢失(和LOH)。另一个样本(C182)显示在二倍体背景下162.50–162.90处有一个小杂合子缺失,这就定义了最小区域。
9号染色体上的CDKN2A位点是频繁丢失的位点,BAC分析确定了一个最小区域[2]参见chr9:21698049–22584980。在这项分析中,第9号染色体是第二常见的(仅次于第10号染色体),显示了染色体材料的严重损失,其中6例显示了CN或LOH在大量区域的损失(图). 五个样本在CDKN2A中有纯合缺失,七个样本在二元背景下有杂合缺失。然而,另外5个样本显示9号染色体的全染色体扩增,包括4个四体或更大的染色体。有趣的是,这些多组染色体中有3条在CDKN2A基因座上表现出多拷贝丢失,包括在6n背景下的4拷贝丢失。即使有多拷贝丢失,这些样本在CDKN2A中仍保持至少2n的状态,五个样本中没有一个显示出LOH。这种情况意味着CDKN2A的缺失发生在9号染色体的重复或三倍之后。尽管至少有两个染色体拷贝留在该位点,但其他机制可能是导致该基因失活的原因[20]. 一般的含义是,多体背景下的多拷贝丢失区域可能会突出特别有趣的区域,类似于去除抑癌基因的纯合缺失,即使它们没有消除该基因或甚至产生LOH。
500K和BAC CGH阵列的比较
本研究中的样本之前已经用6 K或19 K BAC探针的CGH阵列进行了分析[13]分辨率主要由平均探测距离分别约500 Kb和200 Kb决定。带有500 K探针的Affymetrix基因分型阵列有望具有更高的分辨率,探针之间的平均距离仅为5.8 kb。一般来说,500K阵列增加的探针密度显示了复杂CN变化的许多区域的清晰图像(见图。).
样品C111的Chr:16的q-arm中的复合损耗和增益图中显示了来自500K(顶部)和19K BAC(底部)阵列的LR,基因组尺度(x轴)表示SNP位置或BAC克隆的中心点。与BAC阵列相比,500K阵列可以更清楚地解决CN变化的状态,特别是对于两个较大的损失区域(45 Mb-54 Mb和59 Mb-63 Mb之间)。此外,CGH没有明确检测到20.88–23.36 Mb的丢失,以及77.14–77.54 Mb的删除中的拷贝中性区(箭头)。
在对500 K阵列上分析的相同24个样本进行的详细调查中,定义了422个染色体亚区,这些亚区偏离了两个CN。在CNA中发现129个差异,涉及CGH分析中未发现的收益/损失,或改变区域边界的巨大差异(>2 Mb)。在这些差异中,38个代表小于1Mb的增益或损耗,这些增益或损耗仅通过500K阵列识别,包括50Kb范围内的许多阵列。较小的CNA要么未被任何单个BAC克隆检测到(即,它们小于CGH的分辨率),要么在CNA的小区域内太不一致而无法进行调用,如图所示。和.
样品C79的Chr:9的p臂中的复合损耗与来自6 K BAC阵列的grosser图像相比,500 K阵列生成了该区域的详细精细映射。特别是,BAC阵列在10.32–11.83 Mb和14.94–21.07 Mb以及22.90–23.76 Mb的复制中性区域(垂直箭头)中未命中丢失。此外,500K映射清楚地描绘了21.07–22.90的纯合子缺失区域,这在BAC阵列上不明显(水平箭头)。
样本C111的Chr:9的500K和19K BAC阵列之间的差异在500 K定位图中,明显存在5 Mb缺失(33.65–38.70 Mb)和两个小纯合缺失(21.86–22.21 Mb和103.42–103.85 Mb),但CGH没有明确检测到。
另外55个差异的CNA存在于以三体或四体为主的染色体中。在这种较高的CN背景下,LR的变化相对较小(±0.1–0.2),CGH算法无法检测到CNA。最大的差异是46.29 Mb的丢失,影响了样本C13中约一半的12号染色体p臂。否则,该染色体为四体染色体,500K信号中的LR变化仅为-0.1,表明丢失,但改变的区域仍然一致且明确,并且伴随着500K平台上AR三体模式的转变。
大多数差异较大(>2 Mbp)的情况涉及复杂变异的广泛区域,CGH无法很好地解决,但精细结构可以通过500K阵列的更高分辨率很好地映射(如样本C111的9号染色体的p臂,图。). 最后,一些差异是由该区域BAC克隆的高度可变信号引起的,从而在CGH中产生了模糊的分类(如图。和). 在500K分析中,仅由CGH识别的17个区域全部被拒绝,因为它们是来自少数肿瘤的样本DNA中固有的噪声。
讨论
CGH和基因型图谱阵列先前已被用于以高分辨率检测肿瘤样本中染色体CN的变化。然而,这些分析实际上是在检测背景CN状态(可能是二倍体,也可能不是二倍体)的相对变化。四倍体细胞倾向于产生0的“拷贝中性”LR,尽管天真的预期可能是总信号强度是LR为+1的参考(二倍体)集的两倍(log2(4/2))。有两个主要因素将LR调整到接近零的值,一个是实验因素,另一个是分析因素。首先,根据实验方案,只分析固定数量的DNA,而不考虑提取DNA的细胞的精确数量。此外,总信号强度在计算上归一化为参考集,以调整实验过程中的变化,这往往会重新调整总样本信号,以匹配参考的二倍体状态。大多数计算CN比率的算法都假设样本没有明显偏离二倍体,这一假设在肿瘤中可能经常被违背。
Lo等人[13]之前曾注意到,在使用100K映射阵列对GBM肿瘤样本进行的一项研究中,一些明显CN丢失的染色体区域(根据对数比的降低)缺少LOH的共线区域。这种差异表明,这些染色体的基线CN可能大于2,因为二倍体背景下的杂合子丢失通常会产生由单个等位基因组成的纯合子基因型。
从AR和LOH模式可以明显看出,尽管对数比计算假定基线染色体CN为2,但事实上,许多样本中的大多数染色体代表三体或四体。在大多数情况下,实际的(更高的)CN状态仅仅是从显示平衡四体(AABB)背景的小缺失或增益区域产生的AR模式推导出来的。基于AR的CN分配在很大程度上解释了早期分析中明显缺失没有产生相应LOH区域的情况。
染色体多倍体的存在迫使人们重新解释基于肿瘤DNA与参考样本相对信号的肿瘤CN估计值。例如,根据对数比率,在这些肿瘤中,10号染色体似乎经常发生全染色体丢失。然而,基于AR和LOH的解释迫使我们得出这样的结论:10号染色体的染色体获得可能比丢失更频繁。这并不是说10号染色体上的CNA,特别是PTEN位点的CNA与GBM肿瘤发生无关。事实上,24个样本中有7个确实显示了染色体10的全染色体缺失伴随LOH,其中两个样本(C34B和C54A)在PTEN位点携带纯合子缺失。有趣的是,24个样本中有20个在10号染色体上显示出不平衡的等位基因型(图。)这表明PTEN的基因剂量效应在肿瘤发生中可能很重要。
几个例子,特别是9号染色体的CDKN2A位点,表明即使是明显的纯合缺失,实际上也可能代表多体背景下的部分缺失。在这些病例中,丢失仅发生在整个染色体重复或三倍体后,并且在该位点没有发现一般的LOH。尽管如此,在先前被认为可能是肿瘤抑制因子的特定区域,仍可以看到2拷贝甚至4拷贝的丢失。这意味着受影响基因的其余拷贝被另一种机制灭活。
500K和CGH-BAC阵列在确定二倍体背景下CN状态发生变化的区域方面取得了压倒性的一致,并且在断点上大体上达成了一致。然而,500K阵列能够检测到CGH阵列遗漏的假定亚兆碱基CNA。在某些情况下,信号变化是由单个BAC克隆检测到的,但在基因组相邻克隆中没有检测到,因此被CGH调用算法忽略。平台之间的许多较大差异都是在多倍体染色体的背景下发生的,CGH算法未能调用该背景,因为它没有调整以检测在此背景下出现的相对较小的LR变化。500K阵列在复杂CN像差区域的分辨率方面也很高。
最后,基因型映射阵列检测单个等位基因信号的能力允许计算AR和LOH,因此与CGH阵列相比具有优势,CGH阵列只检测总信号,而不考虑基因型。等位基因比率在“基因型空间”中运作,由特定于单个等位基因的信号衍生而来;AR是基因分型算法(在本例中为BRLMM)看到的模式的转换。AR反映了基因型中包含的额外信息,可以可视化LOH的影响和因等位基因的多个拷贝而引起的模式转移。在这里,利用这一优势可以推断出大多数GBM肿瘤样本的总CN状态高于之前通过杂交阵列所证明的。
结论
由于实验和计算归一化为虚拟二倍体状态,通过杂交阵列上的总信号很难识别肿瘤组织中的普遍多倍体;通常只检测到相对于基线拷贝数的相对变化。在综合分析中利用等位基因特异性信号,我们可以将GBM肿瘤中近40%的染色体分配到绝对CN状态,并确定24个样本中大约有一半的样本具有一般多倍体。大约20%的明确分配的染色体的CN>2,但仅凭对数信号比就低估了其中四分之三。
由于AR状态不平衡(即三倍体),一些异常的CN状态很明显,但在其他情况下,基线染色体CN只能通过对数比、等位基因比和LOH的组合来推断。由于这种推断可能基于相对较小的染色体区域中的异常模式,因此高探针密度和500K阵列跟踪单个等位基因信号的能力对于识别多染色体区域至关重要。
频繁出现的多倍体可能会对肿瘤中CNA的解释产生强烈影响,尤其是对表达/基因剂量研究,因为明显的损失实际上可能只是高CN背景下的相对损失。仅基于对数比率估计CN损失可能会产生误导,尤其是在明显的全染色体损失的情况下。在重新解释的背景下,我们已经确定了几个例子,在这些例子中,含有候选抑癌基因的区域显示出持续不平衡的等位基因状态,而不是丢失(PTEN),或者在不产生单拷贝或零拷贝区域或LOH的多组分背景下表现出丢失,但显然是针对特定基因座(CDKN2A)。