跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
公共科学图书馆计算生物学。2005年11月;1(6):e65。
2005年11月25日在线发布。2005年10月28日在线预发布。 doi(操作界面):10.1371/日记.pcbi.0010065
预防性维修识别码:项目经理1289392
采购管理信息:16322765

SNP阵列分析揭示癌症中的等位基因特异性扩增

芭芭拉·布莱恩特,编辑器

摘要

基因组DNA的扩增、缺失和杂合性丢失是癌症的标志。近年来,出现了多种以越来越高的分辨率测量总染色体拷贝数的研究。类似地,利用高通量基因分型技术对异卵性丧失事件进行了精细的绘制。我们开发了一种探针级等位基因特异性定量程序,该程序从单核苷酸多态性(SNP)阵列数据中提取拷贝数和等位基因型信息,以得出基因组中的等位基因特异性拷贝数。我们的方法将期望最大化算法应用于从SNP阵列探针的新分类中导出的模型。该方法是我们所知的第一种能够(a)确定每个SNP位点异常样本的广义基因型(例如,扩增位点的CCCCT),以及(b)推断基因组中每个亲本染色体的拷贝数的方法。通过这种方法,我们不仅能够确定扩增和缺失发生的位置,还能够确定被扩增或缺失区域的单倍型。我们的模型和一般方法的优点通过对正常样本进行非常精确的基因分型来证明,我们的等位基因特异性拷贝数推断也通过PCR实验得到了验证。将我们的方法应用于肺癌样本的收集,我们可以得出结论,扩增基本上是单等位的,正如目前认为负责基因扩增的机制所预期的那样。这表明,无论是由于生殖系还是体细胞变异,特定的亲本染色体都可能成为扩增的目标。包含本文所述方法的R软件包可在http://genome.dfci.harvard.edu/~tlaframb/血浆.

简介

人类癌症是由获得基因组改变所驱动的。这些改变包括细胞中一条或两条染色体部分的扩增和缺失。这种拷贝数变化的定位是癌症基因组学研究的一个重要方向,因为扩增经常包含致癌基因,而缺失区域通常包含抑癌基因。在本文中,作者提出了一种基于期望最大化的程序,当应用于单核苷酸多态性阵列的数据时,该程序不仅可以高分辨率地估计整个基因组的总拷贝数,还可以估计每个亲本染色体对拷贝数的贡献。将这种方法应用于100多个肺癌样本的数据,作者发现,基本上在所有情况下,扩增都是单等位的。也就是说,两条亲本染色体中只有一条对每个扩增区域的拷贝数升高有贡献。这种现象使得鉴定单倍型或单核苷酸多态性等位基因的模式成为可能,这可能是靶向肿瘤诱导遗传变异的标记。

介绍

基因组改变被认为是癌症的主要潜在原因[1]. 这些改变包括各种类型的突变、易位和拷贝数改变。最后一类涉及细胞中具有两个以上拷贝(扩增)、一个拷贝(杂合缺失)或零拷贝(纯合缺失)的染色体区域。扩增区中包含的基因是致癌基因的自然候选基因[4]而那些位于缺失区域的基因是潜在的肿瘤抑制基因[5]. 因此,在细胞系和肿瘤样本中定位这些变化是癌症研究的中心目标。

近年来,开发了多种基于阵列的技术来识别和分类基因组改变[68]. 使用这些技术的研究通常会分析原始数据,以估计整个基因组的总拷贝数[911]. 然而,这些研究忽略了每个染色体拷贝数的个体贡献。因此,例如,如果一个包含杂合位点的区域发生扩增,那么哪个等位基因被扩增的问题通常仍然没有答案。扩增的等位基因很有趣,因为它可能因其致癌作用而被选择扩增。来自基于阵列平台的数据也被用于识别失速(LOH)事件[12,13]. 在这些研究中,LOH通常被推断为发生在匹配的正常样本杂合的同一部位的肿瘤样本中的等位基因不平衡。一个复杂的问题(尤其是在癌症中)是,这种失衡可能是由于一个等位基因的扩增而不是另一个的缺失造成的,因此实际上可能不存在LOH。

将拷贝数测量与等位基因型数据相结合,可以改进拷贝数分析和LOH检测。在本文中,我们提出了一种探针水平的等位基因特异性定量(PLASQ)程序,该程序可以从100K单核苷酸多态性(SNP)阵列推断等位基因特异性拷贝数(ASCN)[7]数据。我们的算法在超过100000个SNP位点上产生了高度准确的基因型。我们还可以利用PSCN在每个染色体上局部恒定的事实,推断整个基因组中的亲本特异性拷贝数(PSCN)。(PSCN在这里指的是两条亲本染色体中每一条的拷贝数。)我们的结果还允许区分真正的LOH和(错误的)明显的LOH,因为只有一条染色体的一部分扩增。

我们最初分析的12个肺癌样本的PSCN显示几乎完全是基因组DNA的单等位基因扩增,我们随后在89个其他肺细胞系和肿瘤中证实了这一结果。单等位基因扩增以前在单基因水平的文献中已经被注意到[1416],其中已知癌基因的突变形式被扩增,而它们的野生型对应物保持不变。据我们所知,尽管提出了诸如姐妹染色单体交换不相等等扩增机制,但这种现象以前还没有在全基因组范围内被描述过[17]将建议单等位基因扩增作为预期结果。

此外,我们的ASCN确定了正在扩增的SNP单倍型。这些单倍型可以通过连锁不平衡作为有害生殖系突变的标记。事实上,单等位基因扩增的存在使得这种连锁研究在统计上易于处理(参见讨论).

结果

型号规格和理由

100K SNP阵列集[7]是一对阵列,对应于HindIII和XbaI限制性内切酶,它们一起能够检测超过100000个人类SNP。在这里,我们将把这对简单地称为100K SNP阵列。它最初的预期用途是查询特定SNP位点的正常人类DNA,使用一组40个25聚体寡核苷酸探针来查询每个SNP。目的是确定任意标记的等位基因A和等位基因B中的哪一个出现在每个SNP位点的每条染色体上。(注意,尽管最近有报道称正常细胞的拷贝数发生变化,但二倍体正常基因组是隐含的假设[18,19].) 因此,个体可以在每个SNP处被基因分型为纯合子AA、纯合子BB或杂合子AB。

阵列的设计是这样的,每个探针可以分为完美匹配(PM;与目标等位基因之一完全互补)或不匹配(MM;与完美匹配探针相同,除了改变中心基以便与两个等位基因都完全互补之外)。此外,根据探针与等位基因A或等位基因B是否互补,探针可分为四类:PM一个,毫米一个,下午B类、和MMB类第三个亚类是相关的。探针可以精确地位于SNP位点的中心,也可以在任意方向上偏移一到四个碱基。这会产生八种类型的探针:保存图片、插图等的外部文件。对象名称为pcbi.0010065.ex001.jpg这里,上标c和o分别表示“居中”和“偏移”。假设SNP的每种探针类型及其基错配属性的示例如所示图1我们的模型将探针的强度与不匹配两个等位基因靶点的碱基数联系起来(见下文)。注意,八种探针类型根据每个等位基因的亲和力分解为五种类型,因此探针集中的40个探针中的每一个都可以分为保存图片、插图等的外部文件。对象名称为pcbi.0010065.ex002.jpg.

保存图片、插图等的外部文件。对象名称为pcbi.0010065.g001.jpg
100K SNP阵列中八种探针类型的假设示例[7]

每个探针是一个25-mer探针,设计为至少与目标片段的一部分互补。在该图中,靶点包含A(A等位基因)/C(B等位基因”SNP,如括号中所示。每个探针的中间(第13个)底部下划线,对应SNP位点的底部用粗体表示。这里的偏移探头偏移了两个底座。从序列中,我们可以计算出每个探针与每个目标等位基因不匹配的碱基数量(右栏)。

作为第一步,我们对不变量集进行了规范化[20]使用dChip软件将所有阵列连接到同一对基线阵列(一对用于HindIII阵列,另一对用于XbaI阵列)(http://www.dchip.org). (归一化是微阵列数据分析中的标准第一步,旨在消除不需要的伪影,例如总阵列亮度的差异。)我们后续的分析都基于一个模型,该模型将探针强度指定为两个等位基因拷贝数的线性函数。该模型的基础由经验证据证明,寡核苷酸探针发出的信号与目标量成比例,直到探针饱和为止[21].

已经建立了一个类似的线性模型,用于表达式数组数据[22]. 然而,在我们的模型中,比例参数取决于探针与每个目标等位基因不匹配的碱基数。因此,我们指定了(归一化)探针强度的模型Y(Y)kk固定SNP探针中的第个探针设置为

方程式图像

在这里C 一个C B类分别是被询问样本中A和B等位基因的拷贝数,以及一个kB类k表示基数(0、1或2)k第个探针分别与A和B目标并不完全互补。例如,它遵循图1模型指定PM一个探针强度为α+β0 C 一个+ β1 C B类+e(电子)第一项α表示背景信号,它可能由光学噪声和非特异性结合引起[23],以及错误e(电子)是一个正态分布的平均零项,用于捕获额外的变化源。因此,模型参数为α、β0, β1、和β2这些参数对于正向和反向股是不同的,并且在SNP和SNP之间也是不同的,但在研究中假设在探针组的相同品牌部分和不同样品之间是恒定的。它们有效地编码每个SNP的探针和目标之间的结合亲和力。最后,我们的经验表明,双基失配信号基本上无法与背景噪声区分,因此我们设置β2= 0.

根据模型方程式1和图1根据插入表,可以直接得出以下结论:正常样本中背景下的平均强度应取决于正常样本中SNP的基因型图2我们将该模型与作为国际HapMap项目一部分收集的九个样本-NA6985、NA6991、NA6993、NA12707、NA12716、NA12717、NA12801、NA12812和NA12813的数据进行拟合(http://www.hapmap.org). 对特定SNP(rs 2273762)的模型拟合示例进行了说明图2.我们估计了价值α̂,β̂、和β̂1对于参数α,β0、和β1以及使用期望最大化算法对每个样本进行基因分型[24](请参见材料和方法). 从图中可以看出,每个探针分类的平均强度与模型假设的强度非常一致(插入表)。这表明该模型对数据提供了相当准确的描述。

保存图片、插图等的外部文件。对象名称为pcbi.0010065.g002.jpg
单个SNP下各探针类型的平均强度(rs 2273762)

插入表给出了我们的模型预测的平均背景吸收强度。每个样本中的实际背景提取平均强度值(条形图)与预测值(插入表)非常吻合。

正常样本的基因分型

我们将我们的方法应用于九个样本(见上文),这九个样本由国际HapMap项目联盟的中心独立进行基因分型。九个不同的中心参与了这些样本的基因分型。他们使用了多种平台,包括质谱、酶反应、杂交和基于聚合酶链反应(PCR)的技术。100K SNP阵列和HapMap工作中都有大约22000个SNP。在我们研究的9个样本中,共有1198个SNP由两个或多个不同的HapMap中心进行基因分型,导致10782个样本SNP调用。这些多重基因型样本SNP之间的一致性调用可以被视为非常接近“金标准”结果,我们将其用作评估调用准确性的基准。表1总结了比较。HapMap结果的呼叫率为98.7%。在这些呼叫中,中心之间的一致率超过99%。我们的基因分型算法表现很好,实现了99.27%的调用率,不符合1%的调用的共识HapMap基因分型。结果表明,我们的方法具有很高的准确率,并且很好地说明了模型的适用性。

表1

我们模型的呼吁与国际HapMap项目中多个中心的呼吁之间的一致性

保存图片、插图等的外部文件。对象名称为pcbi.0010065.t001.jpg

的一个功能表1值得进一步评论的是,我们的算法将16个样本SNP称为AA,HapMap联盟将其称为BB。所有16个差异均出现在两个SNP中的其中一个,即rs1323113或rs2284867。对这些SNP中的每一个处的40个探针的原始强度的仔细检查(数据未显示)揭示了所讨论的样品的强AA信号。一个可能的解释是,当Affymetrix将其标记与HapMap工作的等位基因匹配时,A和B标签无意间被这两个SNP转换。

癌症DNA样本中的ASCN和PSCN

通过考虑一个基因组区域中总拷贝数为5的四个连续SNP的假设示例,可以更好地理解ASCN和PSCN之间的区别。假设SNP的等位基因A拷贝数分别为4、0、5和1,而等位基因B拷贝数为1、5、0和4。这就是我们所说的ASCN。单独来看,第二和第三SNP的ASCN与PSCN无关,因为母染色体和父染色体都有相同的等位基因。然而,第一和第四个SNP都表明亲本染色体中的一条被扩增到拷贝数为4,而另一条没有改变。因此,我们推断包含四个SNP的整个基因组区域的PSCN为四个和一个。SNP位点的ASCN可被视为样本的广义基因型。

我们最初在一组12个肺癌样本上测试了我们的PLASQ算法,我们最近报告了这些样本的总拷贝数分析[25]在对12个正常样本进行了模型标定后。这些癌症样本包括一个小细胞原发肿瘤、两个非小细胞原代肿瘤和九个细胞系。请参阅[25]以及材料和方法,以了解更多详细信息。所有推断的纯合子缺失都在表2,而总拷贝数至少为5的所有推断扩增都在表3。推测的PSCN的全基因组视图显示为H2122和HCC95细胞系图3图中没有高水平的小染色体拷贝数(红条)表明扩增基本上是单等位基因。

表2

12份肺癌样本的所有血浆推断纯合子缺失

保存图片、插图等的外部文件。对象名称为pcbi.0010065.t002.jpg

表3

12份肺癌样本中至少5份总拷贝数的所有PLASQ推断扩增

保存图片、插图等的外部文件。对象名称为pcbi.0010065.t0301.jpg
保存图片、插图等的外部文件。对象名称为pcbi.0010065.g003.jpg
H2122和HCC95细胞基因组中PSCN的描述

在这两个图中,绿色表示较高拷贝数的亲本染色体,红色表示较低拷贝数的父本染色体。每个红色/绿色条的总高度表示相应SNP的总拷贝数。黑色条表示纯合缺失,总拷贝数为零。

在所有12个样本中,总推断拷贝数至少为5的所有放大器如所示图4该图最显著的特点是,绝大多数扩增只涉及两条亲本染色体中的一条。也就是说,这里的扩增是单等位基因。从图中还可以清楚地看出,真实LOH(没有红色部分的条)和虚假LOH(部分为红色的条)之间的区别。我们对其他89个样本重复了我们的分析(数据未显示),在这些样本上我们同样得到了这样的结果:扩增子几乎完全由两条亲本染色体中的一条组成。

保存图片、插图等的外部文件。对象名称为pcbi.0010065.g004.jpg
PLASQ推断总拷贝数至少为5的所有已发现扩增子的PSCN

每个条的高度表示该放大器的总拷贝数。亲本染色体的拷贝数由每个条的红色和绿色部分表示。如图所示,当没有红色部分时,会发生LOH。

为了使用一种独立的方法对我们的PLASQ方法进行实验验证,我们应用了等位基因特异性实时PCR。ASCN分析要求通过实时PCR对标准拷贝数分析进行更改。使用Taq聚合酶的标准条件导致目标等位基因扩增,以及其他SNP等位基因的延迟扩增。Taq聚合酶的Stoffel片段缺乏该酶正常的5′至3′核酸外切酶活性,增加了该酶对正确靶点的特异性[26,27]. 因此,这增加了扩增延迟,足以区分两个等位基因并计算准确的拷贝数。

在[25],我们使用标准实时PCR来验证“重复”扩增和缺失的总拷贝数。如果一个事件发生在至少两个样本中,包含至少四个SNP,并且长度至少为5kb,我们将其定义为复发。我们的PLASQ分析与等位基因特异性和标准实时PCR的比较如下表4和55对于我们最初12个样本中发生的这些复发事件。PLASQ与纯合缺失的PCR测量结果基本一致(表4). 用于放大(表5),我们的估计与等位基因特异性PCR结果之间有很强的一致性。四舍五入的次要等位基因估计值在除一个病例外的所有病例中最多相差一个拷贝。关于主要等位基因拷贝数推断表5,我们的估计值往往偏低,尽管PCR结果总是处于较高水平。这些差异可能是寡核苷酸阵列中众所周知的饱和效应的结果[28]. 只有一种情况下,总PCR估计值来自[25]低于血浆总量。这里,等位基因特异性PCR结果与我们推断的ASCN更为一致,表明这是标准实时PCR中的实验错误。

表4

推测ASCN与PCR缺失结果的比较

保存图片、插图等的外部文件。对象名称为pcbi.0010065.t004.jpg

表5

推断的ASCNs与扩增的PCR结果的比较

保存图片、插图等的外部文件。对象名称为pcbi.0010065.t005.jpg

一种类型的差异表5脱颖而出。在两种情况下,PLASQ推断ASCN为1,而实验确定的拷贝数基本上为零。一种可能的解释是,我们的推断是正确的,低PCR估计值归因于实验错误,如次优引物序列。另一方面,在基于杂交的强度测量中,我们的ASCN调用在一定程度上容易受到固有噪声的影响。在单个SNP级别上,由于这种噪声,一个拷贝号在两个方向上的偏差可能很难检测到,从而导致ASCN调用稍有不准确。然而,由于PSCN的局部常数特性,我们可以从相邻SNP的原始ASCN“借用强度”,因此PSCN调用中的这些不准确度得到了改善。因此,例如,即使单个ASCN调用稍有错误,区域的LOH调用也会非常精确。

值得注意的是,在所有情况下,我们的方法都可以清楚地检测到感兴趣的性质,即每个染色体中是否存在扩增或缺失,因为所有方法在这方面都是一致的。最后,为了评估我们确定扩增子和缺失边界的准确性,我们比较了在[25]使用dChipSNP计算平台中实现的算法[9]我们的结果。比较如所示表6对于中的事件表4和5。5在大多数情况下,我们估计的蚀变边界与dChipSNP推断的边界完全一致。两种方法推论不同的事件可能是由于程序上的差异,例如用于确定增益是否应称为放大的不同拷贝数阈值。

表6

血浆推断的病变边界与来自[25]

保存图片、插图等的外部文件。对象名称为pcbi.0010065.t006.jpg

放大表皮生长因子受体突变体

为了确定扩增是否可以以单等位基因的方式靶向我们其中一个样本中的激活突变,我们检查了表皮生长因子受体基因。它显示在[25]HCC827细胞系含有E746 A750del缺失突变。这是一个已知的激活突变[29,30],以及我们的结果表5预测该位点的ASCN为11和2。因此,很有意思的是,要确定这条大大扩增的染色体是否是携带突变的染色体。为了回答这个问题,我们进行了定量PCR实验,能够区分野生型拷贝和突变拷贝(参见材料和方法). 野生型等位基因未扩增(PCR估计为0.80),而PCR总拷贝数为39.78。因此,我们的方法揭示了激活突变等位基因相对于野生型对应物的靶向扩增。

讨论

许多感兴趣的基因组事件很容易放在ASCN和PSCN的背景下。SNP站点的LOH发生在其中一个PSCN为零的位置。单等位基因扩增发生在一条亲本染色体拷贝数小于两条,另一条染色体拷贝数大于一条的位点。我们已经证明,除其他外,这些事件可以通过ASCN和PSCN从100K SNP阵列数据中识别出来。通过检查100多个肺癌样本的阵列数据,我们发现扩增绝大多数是单等位基因。目前对肿瘤发生中扩增机制的理解表明这是一个预期结果。例如,Herrick等人[17]描述所有导致基因单等位基因扩增的机制。然而,据我们所知,这一现象在文献中尚未在全基因组范围内得到证实。

以前的研究已经证明特定基因的单等位基因扩增。细川和阿诺德[14]发现了两个肿瘤细胞系,其中一个突变的等位基因细胞周期蛋白D1放大了,但野生型副本没有放大。庄等人[16]在16例肾癌肿瘤中发现了类似的趋势遇见突变,以及对26个小鼠皮肤肿瘤的研究,发现16个具有突变人力资源管理系统同源等位基因扩增,但与野生型等位基因无扩增[15]. 使用我们的程序,我们发现(并验证)了表皮生长因子受体我们的一个示例中的示例。这些病例强调了一种基因变体在杂合位点进行扩增的靶向性,可能是为了给细胞生长带来优势。然而,有必要对更大范围的肿瘤进行进一步研究,以揭示转化变异体作为扩增靶点的多个实例。大量此类病例将为基因的等位基因特异性扩增的生物学意义提供令人信服的证据。在一些研究中,由于等位基因不平衡,这些单等位基因扩增可能被错误地称为LOH。我们的方法能够确定,在大多数情况下,次要等位基因实际上并没有被删除,因此LOH没有发生。

ASCN信息可用于识别癌细胞扩增子中的SNP单倍型。这种单倍型结构测定对于发现候选癌基因和抑癌基因具有重要应用。在最近的研究中可以理解这些应用[31]这表明基因组由单倍型区块组成,在人类群体中很少观察到不同的单倍型区域,由重组“热点”分隔。事实上,考虑一种遗传变异,它使细胞倾向于肿瘤生长并被选择扩增。位于同一单倍型区的许多SNP位点会随着变异而扩增。人们可以通过ASCN确定扩增子的单倍型。因此,与基因位于同一区块的SNP单倍型可以通过遗传关联研究作为变异的标记[32]. 我们指出,如果不是单等位基因扩增,这项工作将更加困难,因为如果双亲染色体都被扩增,那么两个单倍型都将是有害变异的候选标记。从统计数据来看,检测关联的能力将受到严重损害。

此外,我们的方法可以在正常细胞中产生高度准确的基因型调用。通过分析至少由两个独立组进行基因分型的样本SNP,我们对其一致性呼叫的一致性超过99%。考虑到我们结果的强度,我们现在正在将该模型应用于寡核苷酸重测序阵列的数据[33].

请注意,我们的程序并没有考虑所有类型的基因组改变。例如,它会被易位事件搞糊涂。易位会导致总拷贝数的“局部恒常性”特性的丧失。同样,我们的方法无法检测到点突变,事实上,如果发生在100K SNP位点附近,可能会对拷贝数测量产生不利影响。尽管如此,我们认为这些限制不会严重影响该方法的适用性。

我们模型的结构表明了一个非常有用的扩展。分析肿瘤细胞基因组含量的一个常见问题是基质污染——样本中存在正常细胞。基质污染使准确测定拷贝数变得困难,因为测量的数量实际上是正常细胞和癌细胞拷贝数的加权平均数。数学上,固定SNP位点的样本ASCN可以表示为

方程式图像

哪里第页 S公司是基质的(未知)比例,C AS公司C 英国标准是基质细胞的ASCN,以及C 自动变速箱C 英国电信是肿瘤中的(未知)ASCN。我们可以请客C AS公司C 英国标准众所周知,因为匹配的正常样本可能在SNP进行基因分型。因此,替换C 一个C B类在我们的模型中,使用上面方程式2中的表达式,给出了每个探针的强度,作为真实癌细胞ASCN和基质含量比例的函数。虽然这超出了本文的范围,但这是一种有趣的生物信息学方法,可以解决一个普遍存在的实验问题。

总之,我们提出了一种称为PLASQ的程序,该程序不仅能够定位癌细胞中的拷贝数变化,还可以确定每个染色体对这些变化的贡献以及每个事件中的SNP单倍型。我们的方法已经通过各种独立的实验技术进行了验证。我们还描述了我们的方法的几个应用和扩展,我们已经证明人类肺癌中的染色体扩增是单等位基因的。最后,我们注意到,在审查这项工作时,有两篇论文[34,35]发表了从100K SNP阵列数据推断PSCN的描述方法。这些方法与我们的不同,似乎需要匹配的正常样本。

安R[36]软件包,可从下载http://genome.dfci.harvard.edu/~tlaframb/血浆,包含本工作中描述的程序和数据。

材料和方法

从SNP array.cel文件开始,对正常和异常样本进行基因分型(从而获得ASCN和PSCN)的PLASQ程序概述于图5。下面和结果中给出了每个步骤的详细信息。

保存图片、插图等的外部文件。对象名称为pcbi.0010065.g005.jpg
从.cel文件确定ASCN和PSCN的PLASQ程序

在对所有样本的信号强度进行归一化后,该模型首先适合于正常样本的数据,以在每个SNP位点生成基因型调用和参数估计。后者在模型中用于癌症样本的数据。普通最小二乘法拟合产生每个SNP的原始ASCN估计值。使用循环二进制分割平滑相应的原始总拷贝数估计。最后,进一步处理会产生最终的ASCN和PSCN推断(请参见材料和方法). EM算法、期望最大化算法。

DNA样本。

我们从分析的所有肺癌肿瘤和细胞系中获得了Affymetrix.cel文件[25]. 在我们的分析中,我们使用了与该研究中的实验产生的相同的原始Probelevel数据。为了进行初步分析,我们选择了细胞系H157、H2087、H2122、H2126、H2882、HCC95、HCC827、HCC1359和HCC1171,以及肿瘤S0177T、S0465T和S0515T。选择这12个样本是因为每个样本都被发现了[25]藏匿至少两个被认为是经常性的拷贝号变更。随后,我们将我们的方法应用于该研究中剩下的89个肿瘤和细胞系。此外,研究中使用了该论文中的12个正常样本。有关所有样品的制备、杂交和图像采集的详细信息,请参阅[25],所有.cel文件都位于http://research2.dfci.harvard.edu/dfci/snp/。我们从Affymetrix网站获得了HapMap样本的.cel文件(http://www.affmetrix.com).

正常样本基因分型。

在这种情况下,对于每个样本C 一个SNP为零、一或二。的价值C B类完全取决于C 一个,作为C 一个+C B类= 2. 因此,我们可以认为每个样本SNP处于三种状态之一,对应于AA、AB和BB基因型。这些状态不是先验已知的,α,β的值也不是先验已知的0、和β1。我们使用期望最大化算法[24]在每个SNP中推断基因型并估计参数。简单地说,我们首先使用粗品初始化每个样本的三种基因型的概率t吨-测试方法。基于这些初始“猜测”,我们应用普通最小二乘法[37]对于我们的模型,求参数α,β的最大似然估计0、和β1(M步骤)。接下来,基于这些估计,我们使用三种可能基因型中每一种的指示变量的预期值重新传递每个样本的基因型概率(E步)。将最大化和期望这两个步骤迭代,直到所有未知值的近似值收敛。此过程的结果是每个基因型的估计概率以及参数估计。算法对每个样本SNP的调用是最终估计概率最大的基因型,除非最大值低于用户定义的阈值(默认值为99%),在这种情况下,会给出“No call”。我们随后使用最终参数估计α̂,β̂、和β̂1α,β0、和β1分别将模型应用于来自癌细胞的数据(见下文)。

癌症DNA样本中的总拷贝数。

在异常样本中,A和B等位基因的拷贝数不再局限于每个SNP的总和为2。如上所述在正常样本上校准模型后,我们替换参数α、β0、和β1在我们的模型中,他们对每个SNP的估计。我们直接应用最小二乘估计找到每个SNP的A和B拷贝数的原始推断(“原始”,因为我们尚未利用总拷贝数的局部恒常性)。这些粗略的度量称为原始ASCN。虽然ASCN在样本中不是局部常数,但它们的两两总和C 一个+C B类是。因此,我们将每个SNP处原始ASCN的成对和输入到循环二进制分割算法中[38]推断总拷贝数。这种平滑算法利用了这样一个事实,即染色体改变通常发生在包含多个SNP的片段中。简单地说,循环二进制分割通过递归地将染色体分裂成候选子段并计算最大值来搜索局部恒定截面t吨-反映子段之间平均总原始拷贝数差异的统计信息。此统计的参考分布通过排列估计,用于决定是否在每个阶段永久拆分。结果是对样本中的每条染色体进行分割,其中总拷贝数在每个片段中被认为是恒定的。一个片段的原始总拷贝数是该片段中所有SNP的原始ASCN的成对和的平均值。

PSCN和ASCN。

循环二进制分割算法将每个样本的基因组划分为多个片段,每个片段假设具有相同的总拷贝数。考虑一个带有n个SNP和原始总拷贝数T型 未经加工的。我们推断该段的PSCN如下。如果n个<4,我们认为T型 未经加工的由于观测次数较少,噪声过大,并推断PSCN(1,1)。对于n≥4,如果T型 未经加工的≤0.35,该片段被称为纯合缺失,给出PSCNs(小染色体,大染色体)=(0,0)。如果为0.35<T型 未经加工的≤1.35,我们称之为PSCNs杂合缺失(0,1)。如果T型 未经加工的>1.35,我们推断的总拷贝数T型很简单T型 未经加工的四舍五入为最接近的整数(如果为1.35,则为二<T型 未经加工的≤2.5),我们按以下步骤进行。

一个 1,一个 2,…,一个n个B类 1,B类 2,…,B类n个表示原始ASCNn个细分市场中的SNP。我们认为SNP如果最小,则为纯合子(一个,B) ≤ 0.5. 我们必须首先考虑亲本染色体中的一条被删除而另一条被扩增的可能性,即SNP可能是纯合的,因为它在正常细胞中是纯合子,或者因为LOH。由于阵列上SNP的平均杂合度为0.3[39],随机选择的SNP纯合子的概率为0.7。因此,我们将没有染色体缺失的片段中纯合子SNP的数量建模为二项式(编号:,0.7)随机变量X(X).如果出现以下情况,则由此产生的假设检验将拒绝α水平无LOH的无效假设

方程式图像

针对分段总数的多次测试进行保守的Bonferroni修正第页,如果无效假设在α=0.05处被拒绝,我们假设一条染色体缺失/级别。在这种情况下,我们推断的PSCN为(0,T型). 否则,请注意(如结果所述)纯合SNP位点与PSCN无关。因此,我们暂时忽略了这些SNP苏格兰民族党(m≤n)我们重新标记其原始ASCN一个 1,一个 2,…,一个B类 1,B类 2,…,B类我们推断的小染色体PSCN是

方程式图像

四舍五入到最接近的整数。为了确保总拷贝数T、,推断的主要染色体PSCN是T型−(推断的小染色体PSCN)。

一旦确定了PSCN,ASCN将立即从这些和原始ASCN中得出。纯合子SNP(如上文所述确定)被分配给具有较大原始ASCN的等位基因。杂合SNP被分配给ASCN,因此具有较大原始ASCN的等位基因具有主要亲本染色体的拷贝数。

基于PCR的拷贝号验证。

SNP位点的两个等位基因的相对拷贝数通过定量实时PCR测定,使用PRISM 7500序列检测系统(96孔)和PRISM 7900HT序列检测系统,384孔(美国加利福尼亚州福斯特市应用生物系统公司)。实时PCR分别在25μl(96孔)或12.5μl(384孔)反应中与2 ng或1 ng模板DNA进行。SYBR Green I(分子探针;美国俄勒冈州尤金)和Taq聚合酶Stoffel片段(应用生物系统)[27]用于PCR反应。使用的反应混合物如前所述[27],除以下例外:每个反应使用3U Stoffel聚合酶、100μM dUTP和0.5μM ROX(美国加利福尼亚州卡尔斯巴德市Invitrogen)。底漆是在底漆3的帮助下设计的(http://frodo.wi.mit.edu/cgi-bin/primer3/primer3_www.cgi)由Invitrogen合成。对于每个SNP位点,设计了三个引物,一个通用于该区域,两个引物设计为每个SNP等位基因特异的引物的3′碱基。每个PCR反应使用普通引物和一个SNP特异引物(每个0.3μM)。可根据要求提供引物序列。PCR条件如下:50°C下2 min,95°C下15 min,然后是47个三步循环(95°C时20 s,60°C时20s,72°C时30 s)。使用标准曲线法计算肿瘤DNA样本中靶SNP位点的每个等位基因相对于参考物的拷贝数,参考物为Line-1重复元件,其拷贝数在正常细胞和癌细胞之间相似。量化基于人类正常基因组DNA系列稀释的标准曲线。将SNP靶位点每个等位基因的相对靶拷贝数水平归一化为正常人类基因组DNA,该特定SNP位点的杂合子作为校准物。与Line-1和校准品相关的目标等位基因拷贝数的变化使用以下公式确定(T型 目标/T型 线路-1)/(C 目标/C 线路-1),其中T型 目标T型 线路-1是使用目标等位基因和Line-1从肿瘤中提取的DNA数量,以及C 目标C 线路-1是通过使用靶等位基因和Line-1来自校准器的DNA量。用这种方法测定每个SNP位点的两个等位基因的拷贝数。

实时PCR也用于确定两种基因的相对拷贝数表皮生长因子受体HCC827细胞系中的等位基因,其中包含E746 A750del突变和表皮生长因子受体区域。使用上述反应混合物和条件对Taq聚合酶的Stoffel片段进行实时PCR。标准曲线法用于计算表皮生长因子受体基因和HCC827 DNA样本中野生型等位基因的拷贝数归一化为Line-1和正常参考DNA。引物对由一个普通的反向引物组成,一个正向引物将两者结合表皮生长因子受体等位基因(野生型和突变型)和一个针对野生型等位基因的正向引物。野生型特异性引物表皮生长因子受体设计等位基因,使3′端位于E746 A750del突变缺失的DNA内。进行了两个PCR反应:一个反应给出了总数表皮生长因子受体拷贝数(使用结合两个等位基因的引物)和只给出野生型的拷贝数表皮生长因子受体拷贝数(使用野生型特异性引物表皮生长因子受体).

支持信息

接入号码

NCBI Entrez基因(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene网站)本文中讨论的基因的登录号为细胞周期蛋白D1(595),表皮生长因子受体(1956),人力资源管理系统(3265),以及遇见(4233).

致谢

本项目得到了以下拨款的支持:国防部拨款PC040638(RB)、Claudia Adams Barr癌症研究计划(CL)、美国国家变态反应和传染病研究所拨款2R01 AI052817(DH)、国家癌症研究所拨款R01CA109038(WRS)、Damon Runyon癌症研究基金会,美国癌症协会授予RSG-03–240–01-MGO(MM)和空乘研究所(MM)。作者们感谢埃里克·兰德(Eric Lander)的有益评论,也感谢裁判,他们的仔细阅读和评论使手稿得到了很大的改进。

缩写

ASCN公司等位基因特异性拷贝数
LOH公司杂合性缺失
MM(毫米)不匹配
聚合酶链反应聚合酶链反应
血浆探针水平等位基因特异性定量
颗粒物完美匹配
PSCN公司父母特定的拷贝号
SNP公司单核苷酸多态性

脚注

相互竞争的利益。提交人声明,不存在相互竞争的利益。

作者贡献。TL和BAW构思并设计了实验。BAW和XZ进行了实验。TL开发了统计程序并分析了数据。RB提供的试剂/材料/分析工具。CL、DH和WRS为该项目提供建议。MM监督了该项目。TL和BAW撰写了这篇论文。

本文的前一版本于2005年10月28日作为早期在线发布(DOI:10.1371/journal.pcbi.0010065.或).

工具书类

  • 温伯格RA。癌症是如何发生的。《科学与Am》。1996;275:62–70.[公共医学][谷歌学者]
  • Futreal PA、Coin L、Marshall M、Down T、Hubbard T等。人类癌症基因普查。Nat Rev癌症。2004;4:177–183。 [PMC免费文章][公共医学][谷歌学者]
  • Weir B,Zhao X,Meyerson M.人类癌症基因组中的体细胞变化。癌细胞。2004;6:433–438。[公共医学][谷歌学者]
  • Little CD、Nau MM、Carney DN、Gazdar AF、Minna JD。人肺癌细胞系中c-myc癌基因的扩增和表达。自然。1983;306:194–196.[公共医学][谷歌学者]
  • 克努森股份公司。突变与癌症:视网膜母细胞瘤的统计研究。美国国家科学院院刊。1971;68:820–823. [PMC免费文章][公共医学][谷歌学者]
  • Pollack JR、Perou CM、Alizadeh AA、Eisen MB。使用cDNA微阵列对DNA拷贝数变化进行全基因组分析。自然遗传学。1999;23:41–46.[公共医学][谷歌学者]
  • Matsuzaki H,Dong S,Loi H,Di X,Liu G,等。一对寡核苷酸阵列上超过100000个SNP的基因分型。自然方法。2004;1:109–111.[公共医学][谷歌学者]
  • Lucito R、Healy J、Alexander J、Reiner A、Esposito D等。代表性寡核苷酸微阵列分析:检测基因组拷贝数变异的高分辨率方法。基因组研究。2003;13:2291–2305. [PMC免费文章][公共医学][谷歌学者]
  • Zhao X,Li C,Paez JG,Chin K,Jänne PA,et al.使用单核苷酸多态性阵列对癌症基因组中拷贝数和等位基因改变的综合观点。癌症研究。2004;64:3060–3071.[公共医学][谷歌学者]
  • 黄J,魏伟,张杰,刘G,Bignell GR,等。高密度寡核苷酸阵列鉴定的全基因组DNA拷贝数变化。人类基因组学。2004;1:287–299. [PMC免费文章][公共医学][谷歌学者]
  • Brennan C,Zhang Y,Leo C,Feng B,Cauwels C等。用长寡核苷酸微阵列对基因组变化进行高分辨率全球分析。癌症研究。2004);64:4744–4748.[公共医学][谷歌学者]
  • Lindblad-Toh K,Tannenbaum DM,Daly MJ,Winchester E,Lui WO,et al.使用单核苷酸多态性阵列对小细胞肺癌的异质性缺失分析。国家生物技术。(2000;18:1001–1005.[公共医学][谷歌学者]
  • 王振聪,林M,魏丽杰,李C,米隆A,等。侵袭性乳腺癌亚类杂合性缺失及其与表达谱的相关性。癌症研究。2004;64:64–71.[公共医学][谷歌学者]
  • Hosokawa Y,Arnold A.细胞周期蛋白D1(CCND1,PRAD1)在人类癌细胞中过度表达的机制:等位基因特异性表达分析。基因染色体癌。1998;22:66–71.[公共医学][谷歌学者]
  • Bianchi AB、Aldaz CM、Conti CJ。小鼠皮肤肿瘤中含有突变Ha-ras-1等位基因的染色体的非随机复制。美国国家科学院院刊。1990;87:6902–6906. [PMC免费文章][公共医学][谷歌学者]
  • Zhuang Z,Park W,Pack S,Schmidt L,Vortmeyer AO等。遗传性乳头状肾癌中携带突变MET等位基因非随机重复的7号染色体三体。自然遗传学。1998;19:66–69.[公共医学][谷歌学者]
  • Herrick J、Conti C、Teissier T、Thierry F、Couturier J等。扩增的MYC基因的基因组组织表明了肿瘤发生中不同的扩增机制。癌症研究。2005;65:1174–1179.[公共医学][谷歌学者]
  • Sebat J、Lakshmi B、Troge J、Alexander J、Young J等。人类基因组中的大规模拷贝数多态性。科学。2004;305:525–528.[公共医学][谷歌学者]
  • Iafrate AJ、Feuk L、Rivera MN、Listewnik ML、Donahoe PK等。人类基因组大规模变异的检测。自然遗传学。2004;36:949–951.[公共医学][谷歌学者]
  • Li C,Wong W.寡核苷酸阵列的基于模型的分析:模型验证、设计问题和标准误差应用。基因组生物学。2001;2:RESEARCH0032。 [PMC免费文章][公共医学][谷歌学者]
  • Bignell GR,Huang J,Greshock J,Watt S,Butler A等。使用寡核苷酸微阵列对DNA拷贝数进行高分辨率分析。基因组研究。2004;14:287–295. [PMC免费文章][公共医学][谷歌学者]
  • Li C、Wong WH。寡核苷酸阵列的基于模型的分析:表达指数计算和异常值检测。美国国家科学院院刊。2001;98:31–36. [PMC免费文章][公共医学][谷歌学者]
  • Irizarry RA、Hobbs B、Collin F、Beaxer-Barclay Y、Antonellis K等。高密度寡核苷酸阵列探针水平数据的探索、归一化和总结。生物统计学。2003;4:249–264。[公共医学][谷歌学者]
  • Dempster AP、Laird NM、Rubin DB。通过EM算法从不完整数据中获得最大似然。J R Stat Soc Ser B公司。1977;39:1–38. [谷歌学者]
  • Zhao X,Weir BA,LaFramboise T,Lin M,Beroukhim R,等。单核苷酸多态性(SNP)阵列分析揭示的人类肺癌基因组改变。癌症研究。2005;65:5561–5570.[公共医学][谷歌学者]
  • 律师FC、Stoffel S、Saiki RK、Chang SY、Landre PA等。全长的高级表达、纯化和酶特性水热Thermus aquaticusDNA聚合酶和缺失5′至3′核酸外切酶活性的截短型。PCR方法应用。1993;2:275–287.[公共医学][谷歌学者]
  • Germer S,Holland M,Higuchi R.通过动力学PCR测定混合DNA样品中的高通量SNP等位基因频率。基因组研究。2000年;10:258–266. [PMC免费文章][公共医学][谷歌学者]
  • Naef F,Socci ND,Magnaso M.寡核苷酸阵列准确性和精密度研究:在大浓度下提取更多信号。生物信息学。2003;19:178–184.[公共医学][谷歌学者]
  • Paez JG、Janne PA、Lee JC、Tracy S、Greulich H等。肺癌中EGFR突变:与吉非替尼治疗临床反应的相关性。科学。2004;304:1497–1500.[公共医学][谷歌学者]
  • Lynch TJ、Bell DW、Sordella R、Gurubhagavatula S、Okimoto RA等。非小细胞肺癌对吉非替尼反应性的表皮生长因子受体激活突变。N英格兰医学杂志。2004;350:2129–2139.[公共医学][谷歌学者]
  • Gabriel SB、Schaffner SF、Nguyen H、Moore JM、Roy J等。人类基因组中单倍型块的结构。科学。2002年;296:2225–2229.[公共医学][谷歌学者]
  • 兰格·K。遗传分析的数学和统计方法,第2版。纽约:Springer-Verlag;2002年。384。第页。[谷歌学者]
  • Affymetrix公司。GeneChip CustomSeq重新排序阵列数据表。圣克拉拉(加利福尼亚):Affymetrix。2003年推出:http://www.affmetrix.com/support/technical/datasheets/customseq_datasheet.pdf。2005年10月31日查阅。
  • Ishikawa S、Komura D、Tsuji S、Nishimura K、Yamamoto S等。基因分型阵列的等位基因剂量分析。生物化学与生物物理研究委员会。2005;333:1309–1314.[公共医学][谷歌学者]
  • Nannaya Y,Sanada M,Nakazaki K,Hosoya N,Wang L等。使用高密度寡核苷酸单核苷酸多态性基因分型阵列进行拷贝数检测的稳健算法。癌症研究。2005;65:6071–6079.[公共医学][谷歌学者]
  • R开发核心团队。R: 统计计算的语言和环境[计算机程序]维也纳:R统计计算基金会;2004[谷歌学者]
  • 斯台普顿JH。线性统计模型。纽约:Wiley;1995. 472. 第页。[谷歌学者]
  • Olshen AB,Venkatraman ES,Lucito R,Wigler M.用于分析基于阵列的DNA拷贝数数据的循环二进制分割。生物统计学。2004;5:557–572.[公共医学][谷歌学者]
  • Affymetrix公司。基因芯片人体定位100K组数据表。圣克拉拉(加利福尼亚):Affymetrix。2004年推出:http://www.affmetrix.com/support/technical/datasheets/100k_datasheet.pdf。2005年10月31日查阅。

文章来自PLOS计算生物学由以下人员提供多环芳烃