摘要

人类癌症在很大程度上是由突变获得驱动的。这种突变的一类是拷贝数多态性,由每个细胞的每个常染色体的两个拷贝与正常二倍体的差异组成。我们描述了一种探针水平的等位基因特异性定量(PLASQ)程序,用于根据单核苷酸多态性(SNP)微阵列数据确定癌细胞中每个亲本染色体的拷贝数贡献。我们的方法基于一个广义线性模型,该模型利用阵列上探针的新分类。由于这种分类,我们能够使用为此目的设计的期望最大化算法将模型与数据拟合。我们证明了一个强大的模型适合于来自各种单元格类型的数据。在正常的二倍体样本中,PLASQ能够以非常高的准确度进行基因分型。此外,我们能够在癌症样本中提供广义基因型(例如扩增SNP的CCCCT)。我们的方法在多种肺癌细胞系和肿瘤上进行了说明,并且通过独立的计算和实验手段验证了一些事件。包含这些方法的R软件包是免费提供的。

1.我简介

在过去的十年中,高通量基于探针的微阵列技术已成为基因组研究的重要工具。这些微阵列包含数千个独特的核苷酸探针序列,每个序列都设计用于与“靶”核酸分子杂交。当DNA或RNA样品正确制备并应用于阵列时,专用设备可以测量每个探针与其样本中目标之间的杂交强度。其基本原理是,杂交强度取决于样本中靶DNA或RNA的数量,以及靶与探针之间的亲和力。对这些原始强度测量值的广泛处理和分析可以估计样本中目标序列的某些特征。本文的主题是分析来自特定阵列类型的数据,即单核苷酸多态性(SNP)阵列。

基因芯片映射100K集(Affymetrix,2004年)是一对能够询问10多万人类SNP的阵列。在这里,我们将此对简单地称为SNP阵列。SNP阵列的最初目的是识别两个SNP等位基因中的哪一个是任意标记的等位基因A类和等位基因B-发生于个体基因组中每个SNP的每个染色体拷贝(母体和父体)。因此,个体可以在SNP处作为纯合子进行基因分型AA公司,纯合子BB公司,或杂合子AB公司最近,有人证明,这些阵列可以用于识别非均匀性损失(LOH)(Lindblad Toh公司和其他, 2000;和其他, 2004)以及对每个SNP的基因组拷贝数进行测量(比格内尔和其他, 2004;和其他, 2005),在癌症样本中。LOH区域是指一条染色体的两个亲本中的一个被删除的位点。通常,可以使用SNP阵列数据检测SNP处的LOH,其中癌细胞是纯合的,但其匹配的正常(同一个体)对应物是杂合的。在拷贝数推断中,目标是确定拷贝数偏离正常二倍体2的染色体区域。这些病变包括扩增(拷贝数大于2)、杂合缺失(拷贝数为1)和纯合缺失(副本数为0)。

SNP阵列的设计使每个探针都是一个长度为25个碱基的序列,并且是由40个唯一序列组成的探针集的成员。在一组探针中,一半的探针是“完美匹配”(PM)探针。该组中的所有PM探针与同一靶DNA片段的一些25碱基亚段完全互补。此外,每个PM探针都有一个对应的“失配”(MM)探针,该探针与其对应的PM探针相同,只是改变了中心(第13个)基座,以避免与目标序列完全互补。PM探针是对A类或者BSNP的等位基因,因此SNP阵列探针通常被归类为PMA类,下午B,毫米A类,或MMB事实上,阵列上的探针可以分组为由这四类中的每一类组成的四元组,每四元组询问目标基因组DNA片段的相同的25个碱基的子序列。

本文对SNP阵列的基因分型、LOH检测和拷贝数推断这三种应用进行了概括。具体而言,我们提出了一种探针水平的等位基因特异性定量(PLASQ)程序,以推断等位基因特定拷贝数(ASCN)和亲本特异性拷贝数(PSCN)。ASCN是SNP基因型和拷贝数的概括,因为所有样本SNP都被分配了一个基因型,而不管拷贝数如何。因此,正常(二倍体)区域的ASCN只是常见的AA公司AB公司,或BB公司然而,扩增区的SNP可能具有ASCNAAAAB公司; 杂合缺失区域的SNP可能具有ASCNB另一方面,PSCN指的是两条亲本染色体中每一条的拷贝数。例如,在这个框架内,我们可以更准确地将LOH确定为PSCN所在的区域(c(c),0)对于某些正整数c(c).

我们的PLASQ程序基于探针强度行为的广义线性模型,利用SNP阵列探针的新分类,该分类与通常的PM有根本不同A类,毫米A类,下午B,毫米B分类。程序的早期版本(LaFramboise公司和其他, 2005)-也被称为PLASQ使用了一个更简单的通用线性模型,其在基因分型和拷贝数测定方面的性能不如我们这里介绍的版本。在目前的工作中,我们分析了此更新模型的统计特性(在我们之前的文章中没有讨论),证明了拟合和性能方面的改进。鉴于这些改进,我们的目的是用当前的PLASQ取代我们之前工作中描述的版本。

在第2节中指定模型后,通过期望最大化(EM)进行拟合(登普斯特和其他, 1977)第3节详细介绍了利用被测量固有的离散特性的算法。在第4节中,我们将我们的方法应用于多种细胞类型,证明了以下能力:(a)在正常样本中非常准确地对超过10万个SNP进行基因分型AA公司AB公司,或BB公司; (b) 以非常高的分辨率测定癌症样本中全基因组的拷贝数;(c) 揭示两条亲本染色体中每一条对这些异常样本中扩增和缺失的贡献;和(d)在阵列上的每个SNP处推断ASCN。我们为模型的适用性提供了统计依据生物信息学使用各种独立的生物信息学在体外方法。在第5节中,我们对我们的结果在癌症基因组学研究中的相关性进行了讨论。

2.答RRAY设计和型号规格

使用SNP阵列的研究几乎只关注PMA类,毫米A类,下午B、和MMB探头分类。然而,另一种分类是相关的。PM/MM对可以精确居中,以便PM探针的中间(13)基座与SNP位置互补,也可以偏移(在任一方向上偏移1到4个基座)。因此,探针集的三种二分法给我们留下了八种探针类型:PMA类c(c),毫米A类c(c),下午Bc(c),毫米Bc(c),下午A类o(o),毫米A类o(o),下午Bo(o)、和MMBo(o),其中上标表示居中(c)或偏移(o)。我们的方法侧重于每个探针和两个目标DNA序列(对应于两个SNP等位基因)之间的核苷酸级亲和力。我们可以计算每个探针与每个目标等位基因不匹配的碱基数量;实际上,此信息是在中编码的。制造商提供的CDF(芯片定义文件)。每个探针通过0、1或2个碱基匹配两个目标等位基因中的每一个,这八个探针类别完全决定了这些计数。参见补充图1,网址为生物统计学联机,以获取探测集的特定示例。

我们的模型是由以下一组原则驱动的。首先,在对数尺度上,靶量和探针强度之间的关系近似为线性(带有加法项),这在涉及已知数量RNA的研究中得到了证明(爱尔兰语和其他2003年)和基因组DNA(和其他, 2004). 第二,作者爱尔兰语和其他(2003)通过研究中的尖峰证明,标准(非对数)尺度上的乘法随机误差项是合理的,正如在更高强度水平下更大的探针方差所证明的那样。第三,在一个探针组中,每个探针与目标DNA片段中正向或反向链的一个子段互补。这种“正向”或“反向”的区别被称为探针的取向,经验证据表明取向之间的杂交强度存在差异。最后,除了方向之外,决定同一探针组内探针/靶杂交亲和力的主要因素是探针与靶不匹配的碱基数量,这是合理的。更具体地说,我们合理地假设,探针与目标的杂交亲和力是探针与目标不互补的碱基数量的递减函数。这种假设的例外情况是A类B目标碎片。自从A类B差异代表了一组探针中鸟嘌呤/胞嘧啶含量的唯一潜在显著差异,我们在我们的模型中调节了杂交亲和力的靶向-等位基因特异性差异。

在具有的数组中J型探针组/SNP(因此J型>100000),让C类A类(j个)C类B(j个)表示等位基因的拷贝数A类B分别位于第个样本j个第个SNP站点(j个= 1,⋯,J型). 我们提出的归一化对数变换强度模型Y(Y)(j个k个)探针的k个在SNP的探针组中j个在数组中询问样本
图解的
(2.1)
在这里O(运行)j个k个=F(正向)或R(反向)表示探针的方向,A类j个k个Bj个k个=0、1或2表示探针与A类B等位基因靶点,以及γF类(j个)γR(右)(j个)分别表示光学噪声和非特异性结合对正向和反向探头强度的不需要的背景贡献。人们可能会认为最后这些术语代表的是目标完全缺失的探针发出的信号。独立、正态分布、平均零误差项e(电子)(j个k个)旨在捕获其他变化源。假设它们具有标准偏差σF类(j个)什么时候O(运行)j个k个=F和σR(右)(j个)什么时候O(运行)j个k个=R。对于以下任何固定值,这些误差项的分布是相同的j个O(运行)j个k个,但允许根据不同的探针集和同一探针集中的不同方向而变化。最后,我们在实践中发现,在两个碱基上不匹配的探针和目标之间的杂交强度与背景噪声无法区分,因此我们修复了
图解的
因此,每个探头组/SNP的相关参数j个γF类(j个)γR(右)(j个)α0华氏度(j个)α0R(右)(j个)α1楼(j个)α1升(j个)β0华氏度(j个)β0R(右)(j个)β1楼(j个)、和β1升(j个).

3.米模型拟合和副本编号推断

方程式(2.1)模型将对数变换的探针强度平均为拷贝数的对数线性函数。拟合模型有一些复杂性。首先,等式右侧的对数变换排除了普通最小二乘法的使用。然而,该模型是一个广义线性模型(McCullagh和Nedler,1989年)使用指数链接,因此我们使用迭代加权最小二乘法(IRLS)拟合模型。模型拟合的一个更严重的障碍是我们通常既不知道参数也不知道协变量值C类A类(j个)C类B(j个)先验的我们确实知道,在正常样本中,每个SNP都处于三种状态之一-AA公司AB公司,或BB公司这意味着三种不同的协变量组合,因此,EM算法是将模型拟合到二倍体数据的自然方法。第一步是分位数规范化(博尔斯塔德和其他2003年)来自这些正常参考的原始探针强度数据,以及来自我们希望分析的测试癌症样本的数据。这一步通过消除与基础分子生物学无关的差异(如整体亮度),确保了阵列之间的结果具有可比性。在使用EM程序估计正常参考值的模型参数后,我们拟合来自癌症样本的数据(再次使用IRLS),该数据在每个SNP位点产生原始ASCN。进一步处理产生我们的最终ASCN和PSCN调用。在本节中,我们将描述每个步骤。

3.1正常样品的模型校准

对于SNP阵列,正态样本为模型拟合和测试提供了方便的基础,如成对ASCN求和C类A类(j个)+C类B(j个)已知是两个。我们利用这一事实进行估算γ^F类(j个)γ^R(右)(j个)α^0F类(j个)α^0R(右)(j个)α^1F类(j个)α^1R(右)(j个)β^0F类(j个)β^0R(右)(j个)β^1F类(j个)、和β^1R(右)(j个)属于γF类(j个)γR(右)(j个)α0华氏度(j个)α0R(右)(j个)α1楼(j个)α1升(j个)β0华氏度(j个)β0R(右)(j个)β1楼(j个)、和β1升(j个)分别是。模型(2.1)可以使用EM算法拟合(归一化)探针强度,并自动产生基因分型推断。附录中给出了该程序的详细信息。

3.2肿瘤样本中的PSCN和ASCNs

补充图2,网址:生物统计学在线,给出了从肿瘤样本的(标准化)probe-level数据中获取ASCN和PSCN的程序的图解概述0。我们假设参数是从一组正常样本中如上所述进行估计的,并且我们用每个SNP的这些估计值替换模型中的参数。我们的模型变成
图解的
(3.1)
我们现在可以获得原始ASCN推断(C类A类未经加工的(0j个)C类B未经加工的(0j个))通过IRLS应用于模型(3.1)。实际上,我们正在处理协变量C类A类(0j个)C类B(0j个)作为待估计的参数。ASCN在这个阶段的推论是“原始的”,因为我们还没有利用总拷贝数是局部恒定的这一事实;也就是说,染色体拷贝数畸变发生在离散的片段中,通常跨越许多连续的SNP位点。因此,我们可以对映射到其基因组位置的原始ASCN的成对和应用平滑或断点程序。在我们的研究中,我们使用了GLAD算法(Hupé和其他, 2004)由于其敏感性、特异性和计算效率。GLAD尝试使用自适应加权平滑来检测总拷贝数恒定的染色体片段(Polzehl和Spokoiny,2000年)断点检测算法。我们推断的总拷贝数T型(0)对于GLAD确定的段是段中成对原始ASCN总和的四舍五入中值。
接下来,我们推断每个段中的PSCN根据推断的总拷贝数T型(0)和原始ASCN如下。首先,如果推断的总拷贝数为0或1,那么我们的PSCN调用明显分别为(主染色体、次染色体)=(0,0)或(1,0)。如果没有,我们接下来决定是否发生了LOH。当匹配的正常样本可用时,这很容易通过查询匹配正常中杂合的纯合子SNP来确定。在缺少匹配的正常样本的情况下,我们利用了这样一个事实,即阵列上SNP的平均杂合率约为30%(Affymetrix,2004年). 因此,我们可以考虑在具有作为近似二项式的SNP(,0.7)可变。对数字进行Bonferroni校正S公司在片段中,我们将纯合子SNP数量大于1−0.05的片段称为LOH/S公司二项式中的分位数(,0.7)分布(此处为SNPj个当四舍五入的最小值为(C类A类未经加工的(0j个)C类B未经加工的(0j个))小于1)。如果LOH被认为已经发生,我们针对该段的PSCN为(T型(0),0). 否则,我们忽略纯合SNP,因为它们对PSCN没有信息,我们的PSCN调用是(T型(0)νν),其中
图解的
四舍五入到最接近的整数。此表达式中的两个总和均取所有杂合SNPj个分段.

最后,我们从每个SNP的PSCN和原始ASCN中确定ASCNj个如果SNP是杂合的,则ASCN与PSCN相同,主要SNP等位基因的拷贝数(由原始ASCN确定)与主要亲本染色体片段的拷贝数相同。如果SNP是纯合的,则具有较高原始ASCN的等位基因被指定为ASCNT型(0)和其他0。

4.答正常和癌症数据的应用

4.1数据集

SNP阵列数据被编码在每个样本的一对.cel文件中(每个芯片类型一个)。我们在研究中使用了21个正常样本的数据。这些数据包括来自和其他(2005)对应于该研究中所有正常样本以及作为国际HapMap项目一部分生成的18.cel文件(对应于样本NA6985、NA6991、NA6993、NA12707、NA12716、NA12717、NA12801、NA12812和NA12813)(http://www.hapmap.org). 后一个样本,我们称之为HapMap数据集,可从Affymetrix网站下载(http://www.affmetrix.com). 对于癌症样本,我们使用了12个肺癌和细胞系的.cel文件(参见表2)生成于和其他(2005).

4.2正常样品的应用

为了验证我们模型的假设,我们首先将其拟合到HapMap数据集。我们检查了模型的残差,以检查正态分布误差项的假设。注意,尽管假设误差项在探测集的相同方向子集中分布相同,但允许它们的方差在探测集和方向之间存在差异。因此,我们构建了一个正常的分位数-分位数(q–q)图(图1a)对于标准化残差,了解到该模型意味着这些残差在所有探测集上的标准正态分布。为了清楚起见,我们随机选择了10000个这样的残差来绘制。为了证明对数-对数转换的必要性,我们还绘制了拟合线性模型产生的标准化残差
图解的
(4.1)
哪里Y(Y)˜(j个k个)现在表示标准化但未转换的探针强度。我们注意到LaFramboise公司和其他(2005)类似于(4.1),但更简单——它不允许不同的系数C类A类C类B条款,因此被迫αA类j个k个O(运行)j个k个(j个)=βBj个k个O(运行)j个k个(j个)对于每个j个= 1,⋯,J型k个= 1,⋯,40. 我们使用EM算法与模型(2.1)进行拟合(4.1),除了M步涉及普通最小二乘法而非IRLS。得到的q–q图(图1b)明显地显示出严重偏离常态。这表明我们新的基于广义线性模型的方法比以前的工作有了改进。
图1。

正态q–q图将标准化残差与标准高斯分布进行比较。a) 从广义线性模型(2.1)中随机选择的10000个残差与HapMap样本中的SNP阵列数据相匹配。b) 线性模型(4.1)中随机选择的10000个残差与HapMap样本中的SNP阵列数据相匹配。

如上所述,SNP阵列上的探针传统上被归类为PM/MM或A类等位基因/B等位基因术语。我们通过基本MM计数对探针进行分类的方法的优点可以从中看出图2第一个散点图显示平均MMA类o(o)强度与平均MMA类c(c)10 782个HapMap样本单核苷酸多态性的强度。每个点代表一个样本的一个SNP的一个方向(F或R)。这些方法覆盖了所有MMA类c(c)(x个-轴)或MMA类o(o)(-轴)给定方向/SNP/样品的探针强度。每个点根据HapMap基因型着色。尽管传统分类将这两种探针类型视为等效的测量方法,但在图中明显可以看出这三种基因型的分离。正如预期的那样,居中的探针通常与B而这两种类型对A类目标。当背景γ减去项,如所示图2b这些数字表明,像某些方法一样,忽略MM探针的做法实际上会丢弃相关信息。此外,如果我们为MM构建一个类似的图A类c(c)与MM相比Bc(c)(图2c)尽管传统分类将这两种强度视为单独数量的度量,但基因型之间没有明显的分离。

图2。

10 782个样本SNP中探针类型平均强度的散点图。a) MM(毫米)A类o(o)探针与MMA类c(c)探针。尽管传统上认为这些探针属于同一类型,但对于不同的基因型,这些探针的表现明显不同。b) 减去背景后,与(a)的差异更加明显。c) MM中没有明显的差异Bc(c)与MM相比A类c(c)尽管这些传统上被认为是测量不同的等位基因。

HapMap数据集中的许多SNP已经使用多种基因分型平台进行了独立的基因分型。其中,1198个由至少两个不同的HapMap中心进行基因分型。至少两个不同中心同时进行的呼叫可能被视为非常接近实际情况,我们将其作为“金标准”数据集,与我们的PLASQ方法进行比较。如所示表1,我们的方法执行得很好。PLASQ与HapMap一致性调用之间的一致性比率与HapMap项目的一致性率相似,我们的无调用率要低得多。我们应该注意到,表中有16个样本SNPs,PLASQ称AA公司HapMap的研究称BB公司都来自相同的两个SNP位点。对这些SNP的原始阵列数据的仔细检查显示AA公司信号(未显示数据)。因此,我们怀疑这只是Affymetrix在“A类“和”B“将标签分配给核苷酸残基。无论如何,表中的结果清楚地表明,该模型捕获了数据的相关方面,并强调了EM拟合方法的有效性。

表1。

我们程序的调用与国际HapMap项目中多个中心的调用之间的一致性。如果任何两个中心都没有对SNP发出“不呼吁”的不同呼吁,则认为HapMap呼吁不一致。如果除一个中心外,所有中心都发出No Call,则SNP被列入表中的“HapMap No Call”类别

血浆AA公司血浆AB公司血浆BB公司PLASQ无呼叫总计
人类基因组单体型图37874123794
AA公司(35.12%)(0.04%)(0.01%)(0.02%)(35.19%)
人类基因组单体型图153158463183
AB公司(0.14%)(29.29%)(0.04%)(0.05%)(29.52%)
人类基因组单体型图16*43595113626
BB公司(0.15%)(0.04%)(33.34%)(0.10%)(33.63%)
人类基因组单体型图4449462141
无电话(0.41%)(0.45%)(0.43%)(0.02%)(1.31%)
人类基因组单体型图5249038
不一致(0.05%)(0.22%)(0.08%)(0%)(0.35%)
总计3867323936552110 782
(35.87%)(30.04%)(33.90%)(0.19%)(100%)
血浆AA公司血浆AB公司血浆BB公司PLASQ无呼叫总计
人类基因组单体型图37874123794
AA公司(35.12%)(0.04%)(0.01%)(0.02%)(35.19%)
人类基因组单体型图153158463183
AB公司(0.14%)(29.29%)(0.04%)(0.05%)(29.52%)
人类基因组单体型图16*43595113626
BB公司(0.15%)(0.04%)(33.34%)(0.10%)(33.63%)
人类基因组单体型图4449462141
无电话(0.41%)(0.45%)(0.43%)(0.02%)(1.31%)
人类基因组单体型图5249038
不一致(0.05%)(0.22%)(0.08%)(0%)(0.35%)
总计3867323936552110 782
(35.87%)(30.04%)(33.90%)(0.19%)(100%)
*

可能是标签错误的结果A类B等位基因(见正文)。

表1。

我们程序的调用与国际HapMap项目中多个中心的调用之间的一致性。如果任何两个中心都没有对SNP发出“不呼吁”的不同呼吁,则认为HapMap呼吁不一致。如果除一个中心外,所有中心都发出No Call,则SNP被列入表中的“HapMap No Call”类别

血浆AA公司血浆AB公司血浆BB公司PLASQ无呼叫总计
人类基因组单体型图37874123794
AA公司(35.12%)(0.04%)(0.01%)(0.02%)(35.19%)
人类基因组单体型图153158463183
AB公司(0.14%)(29.29%)(0.04%)(0.05%)(29.52%)
人类基因组单体型图16*43595113626
BB公司(0.15%)(0.04%)(33.34%)(0.10%)(33.63%)
人类基因组单体型图4449462141
无电话(0.41%)(0.45%)(0.43%)(0.02%)(1.31%)
人类基因组单体型图5249038
不一致(0.05%)(0.22%)(0.08%)(0%)(0.35%)
总计3867323936552110 782
(35.87%)(30.04%)(33.90%)(0.19%)(100%)
血浆AA公司血浆AB公司血浆BB公司PLASQ无呼叫总计
人类基因组单体型图37874123794
AA公司(35.12%)(0.04%)(0.01%)(0.02%)(35.19%)
人类基因组单体型图153158463183
AB公司(0.14%)(29.29%)(0.04%)(0.05%)(29.52%)
人类基因组单体型图16*43595113626
BB公司(0.15%)(0.04%)(33.34%)(0.10%)(33.63%)
人类基因组单体型图4449462141
无电话(0.41%)(0.45%)(0.43%)(0.02%)(1.31%)
人类基因组单体型图5249038
不一致(0.05%)(0.22%)(0.08%)(0%)(0.35%)
总计3867323936552110 782
(35.87%)(30.04%)(33.90%)(0.19%)(100%)
*

可能是标签错误的结果A类B等位基因(见正文)。

4.3肺癌的应用

我们将我们的PLASQ方法应用于12个肺癌样本的SNP阵列数据,使用来自同一研究的12个二倍体样本作为正常参考来训练模型。图3显示了其中一个样本(细胞系H2087)的PSCN全基因组视图的示例。请注意,LOH可以清楚地识别为仅由主要染色体(全绿色)组成的区域。例如,13号染色体的一个拷贝全部丢失,但总拷贝数仍为两个。这种现象被称为拷贝中性LOH。

图3。

H2087细胞系的PSCN,由PLASQ程序测定。在这一观点中,各种类型的基因组损伤是显而易见的。例如,12号染色体有高水平扩增,13号染色体有拷贝中性杂合缺失,3号染色体p臂杂合缺失和4号染色体有局部纯合缺失(细黑条)。

为了评估我们方法的准确性,我们将我们的结果与基于聚合酶链反应(PCR)的拷贝数估计值进行了比较。在我们的12个肺癌样本中,共有16个缺失和10个扩增,之前在等。(2005)这些PCR测量仅量化了总拷贝数(非等位基因特异性),因此我们开发了一种实验方法,在等位基因特定的基础上测量拷贝数。基于定量PCR的方法在LaFramboise公司等。(2005).表2将PLASQ结果与PCR结果进行比较。由于定量实时PCR是一种非常敏感的技术,推测的纯合子缺失表2很可能是有效的。我们的PLASQ程序能够识别每个缺失,事实上,它们在原始ASCN水平上几乎总是很明显的。然而,对放大的估计并不一致。虽然PLASQ检测到每个扩增,但结果往往低于基于PCR的高拷贝数等位基因估计值。由于寡核苷酸阵列中众所周知的饱和效应,这是很可能的(Naef公司和其他2003年),并且很难缓解。另一方面,我们的等位基因特异性定量PCR技术可能不是一种精确的测量方法。在任何情况下,都可以提出这样的论点,即这些错误没有什么影响,因为这些研究的目的是确定扩增、缺失和涉及的单倍型,所有这些都可以被PLASQ清楚地揭示出来。

表2。

原始和推断ASCN与PCR缺失结果的比较

SNP ID(rs)染色体位置(Mb)样品原始等位基因A ASCN原始等位基因B ASCN血浆等位基因A ASCNPLASQ等位基因B ASCN实时PCR拷贝数
41333022142.07H2126型– 0.05–0.03000
41333022142.07H2122型– 0.04– 0.07000.01
41333022142.07H157型0.63– 0.06000.06
104968762142.29肝癌95– 0.020.01000
268716760.32肝癌95– 0.01– 0.05000
930589152.87H2882型0.09–0.03000
930589152.87S0177T型0.130.01000.02
203355498.73S0177T型– 0.120.15000.01
65512599.59HCC1171型0.220.04000.08
4074785921.97HCC1359型– 0.04– 0.08000
4074785921.97氢126– 0.040000
4074785921.97H2122型0.05– 0.04000.01
4074785921.97H2882型0.05– 0.05000
4074785921.97HCC1171型– 0.050.10000
4074785921.97肝癌9500.12000
1162609924.58H157型0.03– 0.03000.03
SNP ID(rs)染色体位置(Mb)样品原始等位基因A ASCN原始等位基因B ASCN血浆等位基因A ASCNPLASQ等位基因B ASCN实时PCR拷贝数
41333022142.07H2126型– 0.05– 0.03000
41333022142.07H2122型– 0.04–0.07000.01
41333022142.07H157型0.63– 0.06000.06
104968762142.29肝癌95– 0.020.01000
268716760.32肝癌95– 0.01– 0.05000
930589152.87H2882型0.09– 0.03000
930589152.87S0177T型0.130.01000.02
203355498.73s0177吨– 0.120.15000.01
65512599.59HCC1171型0.220.04000.08
4074785921.97HCC1359型– 0.04– 0.08000
4074785921.97H2126型– 0.040000
4074785921.97H2122型0.05–0.04000.01
4074785921.97H2882型0.05– 0.05000
4074785921.97HCC1171型– 0.050.10000
4074785921.97肝癌9500.12000
1162609924.58H157型0.03– 0.03000.03

发件人和其他(2005).

表2。

原始和推断ASCN与PCR缺失结果的比较

SNP ID(rs)染色体位置(Mb)样品原始等位基因A ASCN原始等位基因B ASCNPLASQ等位基因A ASCNPLASQ等位基因B ASCN实时PCR拷贝数
41333022142.07H2126型– 0.05– 0.03000
41333022142.07H2122型– 0.04– 0.07000.01
41333022142.07第157页0.63– 0.06000.06
104968762142.29肝癌95– 0.020.01000
268716760.32肝癌95– 0.01– 0.05000
930589152.87H2882型0.09– 0.03000
930589152.87S0177T型0.130.01000.02
203355498.73S0177T型– 0.120.15000.01
65512599.59HCC1171型0.220.04000.08
4074785921.97HCC1359型– 0.04– 0.08000
4074785921.97H2126型– 0.040000
4074785921.97H2122型0.05– 0.04000.01
4074785921.97氢8820.05– 0.05000
4074785921.97HCC1171型– 0.050.10000
4074785921.97肝癌9500.12000
1162609924.58H157型0.03– 0.03000.03
SNP ID(rs)染色体位置(Mb)样品原始等位基因A ASCN原始等位基因B ASCN血浆等位基因A ASCNPLASQ等位基因B ASCN实时PCR拷贝数
41333022142.07氢126– 0.05– 0.03000
41333022142.07H2122型– 0.04– 0.07000.01
41333022142.07H157型0.63– 0.06000.06
104968762142.29肝癌95–0.020.01000
268716760.32肝癌95– 0.01– 0.05000
930589152.87H2882型0.09– 0.03000
930589152.87S0177T型0.130.01000.02
203355498.73S0177T型– 0.120.15000.01
65512599.59HCC1171型0.220.04000.08
4074785921.97HCC1359型–0.04– 0.08000
4074785921.97H2126型– 0.040000
4074785921.97H2122型0.05– 0.04000.01
4074785921.97H2882型0.05– 0.05000
4074785921.97HCC1171型–0.050.10000
4074785921.97肝癌9500.12000
1162609924.58H157型0.03– 0.03000.03

发件人和其他(2005).

表3。

原始和推断ASCN与PCR扩增结果的比较

SNP ID(rs)染色体位置(Mb)样品原始等位基因A ASCN原始等位基因B ASCN血浆等位基因A ASCNPLASQ等位基因B ASCNPCR等位基因A拷贝数PCR等位基因B拷贝数
4859257183.98S0465T型6.890.706125.181.68
2049284183.49S0515T型– 0.3822.900142.4238.37
1569265754.61HCC827公司10.720.99111135.921.97
28936038128.04H2122型6.61– 0.117058.463.39
92839548128.33HCC827公司0.286.69060.067.58
23928278128.91H2087型5.630.87516.031.23
105061011232.60S0515T型– 0.1310.940100.067.12
14868831233.80H2087型7.550.109017.320.03
39130941257.202008年2月7日9.190.211004.860.17
4480412219.77HCC1359型0.936.32141.038.36
SNP ID(rs)染色体位置(Mb)样品原始等位基因A ASCN原始等位基因B ASCN血浆等位基因A ASCNPLASQ等位基因B ASCNPCR等位基因A拷贝数PCR等位基因B拷贝数
4859257183.98s0465吨6.890.706125.181.68
2049284183.49S0515T型– 0.3822.900142.4238.37
1569265754.61HCC827公司10.720.99111135.921.97
28936038128.04H2122型6.61– 0.117058.463.39
92839548128.33HCC827公司0.286.69060.067.58
23928278128.91H2087型5.630.87516.031.23
105061011232.60S0515T型– 0.1310.940100.067.12
14868831233.80H2087型7.550.109017.320.03
39130941257.20H2087型9.190.211004.860.17
4480412219.77HCC1359型0.936.32141.038.36
表3。

原始和推断ASCN与PCR扩增结果的比较

SNP ID(rs)染色体位置(Mb)样品原始等位基因A ASCN原始等位基因B ASCN血浆等位基因A ASCNPLASQ等位基因B ASCNPCR等位基因A拷贝数PCR等位基因B拷贝数
4859257183.98S0465T型6.890.706125.181.68
2049284183.49S0515T型– 0.3822.900142.4238.37
1569265754.61HCC827公司10.720.99111135.921.97
28936038128.04H2122型6.61–0.117058.463.39
92839548128.33HCC827公司0.286.69060.067.58
23928278128.91H2087型5.630.87516.031.23
105061011232.60S0515T型– 0.1310.940100.067.12
14868831233.80H2087型7.550.109017.320.03
39130941257.20H2087型9.190.211004.860.17
4480412219.77HCC1359型0.936.32141.038.36
SNP ID(rs)染色体位置(Mb)样品原始等位基因A ASCN原始等位基因B ASCN血浆等位基因A ASCNPLASQ等位基因B ASCNPCR等位基因A拷贝数PCR等位基因B拷贝数
4859257183.98S0465T型6.890.706125.181.68
2049284183.49S0515T型– 0.3822.900142.4238.37
1569265754.61HCC827公司10.720.99111135.921.97
28936038128.04H2122型6.61– 0.117058.463.39
92839548128.33HCC827型0.286.69060.067.58
23928278128.91H2087型5.630.87516.031.23
105061011232.60S0515T型– 0.1310.940100.067.12
14868831233.802008年2月7日7.550.109017.320.03
39130941257.20H2087型9.190.211004.860.17
4480412219.77HCC1359型0.936.32141.038.36

5.设计讨论

人类癌症是由细胞中基因组变化的获取驱动的。其中一类极为重要的变化是细胞中每个染色体的正常两个拷贝的扩增和缺失偏差。扩增区可能含有致癌基因,而缺失区通常含有抑癌基因。因此,这种改变的定位是癌症研究的中心目标。我们提出了一种程序,即PLASQ,用于从SNP阵列数据中确定癌症细胞中SNP等位基因和亲本染色体的拷贝数。我们的SNP等位基因拷贝数结果在LOH测定中特别令人感兴趣,因为现有方法经常错误地称为LOH,实际上,LOH发生了等位基因平衡(由于一个等位基因的扩增),导致了明显的纯合子(尽管是错误的)。我们通过考虑两个等位基因对拷贝数的贡献来避免这些错误的LOH调用。最近的两篇论文(石川和其他, 2005;南雅和其他, 2005)已发表,旨在确定PSCN。然而,他们的方法需要来自匹配正常细胞的额外SNP阵列数据,而这些数据通常是不可用的。此外,这两种方法都忽略了MM探测,从而丢弃了SNP阵列中一半的可用信息。如我们所示,MM探针实际上提供了信息。

最后,我们应该提到我们的方法的两个潜在弱点。首先,我们假设在正常细胞的常染色体中存在二倍体拷贝2。最近的研究(Iafrate公司和其他, 2004;塞巴特和其他, 2004)在正常细胞中发现了拷贝数多态性。考虑到我们的方法(以及我们知道的所有其他方法)将信号强度与正常参考值进行了比较,这在理论上可能会出现问题。然而,在实践中,我们认为这个问题得到了缓解,因为我们使用了大量的正常参考样品,大多数正常参考样品常见的多态性基因组区域可能罕见、长度较小或两者兼而有之。第二个关注点是我们将模型拟合到正常样本,然后将结果应用于肿瘤数据的实践。我们隐含地假设模型参数在估计它们的协变量范围之外是适当的。虽然这确实是一个问题(并且可能是对高水平扩增的拷贝数低估的部分原因),但我们认为表2演示模型的价值,即使是异常拷贝数。

本文所述的所有程序都可在R(R Development Core Team,2006)软件包中获得,可在http://genome.dfci.harvard.edu/~tlaframb/PLASQ.

附录A

我们详细描述了EM方法,用于将模型(2.1)拟合为正常样本的探测级SNP阵列数据。

A.1、。符号

修复任意选择的SNPj个0假设我们有N个正常样品。对于= 1,⋯,N个=0,1,2,让Z轴j个0表示(未观察到的)指示符变量(C类A类(j个0)=). 模型(2.1)可以使用此符号重写为
图解的
(A.1)
我们认为Z轴j个0作为缺失数据,其值提供了我们样本的基因型。φ(x个|μτ)用平均数表示正态分布的密度函数μ和方差τ2,并让Y(Y)(j个0)表示数据向量(Y(Y)(j个0k个))k个= 1,…,40来自探针组j个0用于样品。对于=0,1,2,让j个0表示样本的(未知)比例C类A类(j个0)在SNPj个0。我们认为j个0作为参数组Ψ的一部分(也包括αβγ、和σ模型参数)。根据(A.1)Y(Y)(j个0)
图解的
哪里
图解的
我们指的是向量(Y(Y)(j个0)Z轴j个0) = (Y(Y)(j个0k个)Z轴j个0)k个= 1,⋯,40;= 0,1,2作为完整的数据向量。完整的数据密度为
图解的
(A.2)
哪里
图解的
z(z)= (z(z)1z(z)2z(z)).

A.2、。初始化

我们发现我们的过程对缺失数据的起始值有点敏感。因此,我们不是随机分配这些值作为第一步,而是使用合理但粗略的t吨-提供初始值的测试方法z(z)j个0(0)Z轴j个0.对于每个,单边t吨-对零假设进行测试,即(归一化,对数变换)PM的平均值A类探针强度大于PM强度B探针。P(P)表示结果P(P)-值。如果P(P)≤0.5,我们指定初始概率图解的,我们分配图解的

答3。M阶跃

对于第M步,我们考虑完整的数据对数似然,假设当前预期z(z)j个00(− 1)z(z)j个01(− 1)、和z(z)j个02(− 1)缺失数据的值以及观测数据Y(Y)(j个0)=(j个0)通过表达式(A.2)中的因式分解,这个对数似然可以写成
图解的
在这个等式的右侧j个0只出现在第一个术语中,而αβγ、和σ参数只出现在第二学期。因此,我们可以分别最大化每个项。很容易看出,受约束的第一个表达式j个00+j个01+j个02=1,在值处最大化
图解的
模型参数的最大似然估计值可使用IRLS计算,适用于模型(A.1)Z轴j个0替换为z(z)j个0(− 1)Y(Y)(j个0)通过(j个0).

A.4、。求期望

我们找到了期望值z(z)j个0()Z轴j个0基于第M步参数估计Ψ^()考虑到Z轴j个0是0或1,我们有
图解的
根据贝叶斯定理和(A.2),我们得到
图解的
密度函数使用的位置Ψ^()参数值。
E步和M步重复交替,直到估计值的变化很小,比如在0步骤。通过这种方法,我们得到了两个重要的结果。首先,产生模型参数估计,可在(2.1)中使用,以拟合任何样本的SNP数据,在SNP处产生原始ASCN估计,如第3.2节所示。其次z(z)j个0(0)可用于推断正常样本的基因型。如果需要调用样本,一个简单的规则是
图解的
该方案自动提供了一种测量基因型调用不确定性的方法。研究人员可以设置max值的阈值(z(z)j个0()),在此情况下,呼叫被视为不确定,并给出“不呼叫”决定。实际上,我们发现99%是一个合适的阈值。

我们要感谢审稿人和编辑的贡献,他们富有洞察力的评论使论文得到了很大的改进。我们还感谢Matthew Meyerson在这项工作的早期发展过程中提供的支持和指导。David Harrington得到了国家过敏和传染病研究所2R01 AI052817赠款的支持。利益冲突:未申报。

参考文献

昂飞
基因芯片人体定位100K装置数据表
2004
加利福尼亚州圣克拉拉
Affymetrix公司
比格内尔
希腊
J型
格雷肖克
J型
瓦特
S公司
巴特勒
A类
西部
S公司
格里戈洛娃
M(M)
琼斯
千瓦
世界环境学会
W公司
斯特拉顿
先生
其他
寡核苷酸微阵列对DNA拷贝数的高分辨率分析
基因组研究
2004
,卷。 
14
(第
287
-
95
)
博尔斯塔德
BM公司
爱尔兰语
无线电高度表
阿斯特拉德
M(M)
速度
TP(转移定价)
基于方差和偏差的高密度寡核苷酸阵列数据归一化方法比较
生物信息学
2003
,卷。 
19
(第
185
-
93
)
登普斯特
AP公司
莱尔德
NM公司
鲁宾
数据库
通过EM算法从不完整数据中获得最大似然
英国皇家统计学会期刊,B辑
1977
,卷。 
39
(第
1
-
38
)
J型
世界环境学会
W公司
J型
线路接口单元
G公司
比格内尔
希腊
斯特拉顿
先生
未来
PA公司
伍斯特
R(右)
琼斯
千瓦
沙佩罗
MH公司
高密度寡核苷酸阵列鉴定的全基因组DNA拷贝数变化
人类基因组学
2004
,卷。 
1
(第
287
-
99
)
Hupé
P(P)
斯特兰斯基
N个
蒂里
日本
拉德万尼
F类
巴里约
E类
阵列CGH数据分析:从信号比到DNA区域的增益和损耗
生物信息学
2004
,卷。 
20
(第
3413
-
22
)
Iafrate公司
AJ公司
费克
里维拉
李斯特尼克
毫升
多纳霍
PK(主键)
Y(Y)
谢勒
软件
C类
人类基因组大规模变异的检测
自然遗传学
2004
,卷。 
36
(第
949
-
51
)
爱尔兰语
无线电高度表
霍布斯
B
科林
F类
巴克莱Beaxer
YD公司
安东内利斯
KJ
谢尔夫
单位
速度
TP(转移定价)
高密度寡核苷酸阵列探针水平数据的探索、规范化和总结
生物统计学
2003
,卷。 
4
(第
249
-
64
)
石川
S公司
三协光机
S公司
西村
K(K)
山本
S公司
熊猫
B
J型
深山
M(M)
琼斯
千瓦
油谷
H(H)
基因分型芯片等位基因剂量分析
生物化学和生物物理研究通讯
2005
,卷。 
333
(第
1309
-
14
)
LaFramboise公司
TL公司
文学士
X(X)
贝鲁金
R(右)
C类
哈灵顿
卖方
WR(额定功率)
迈耶森
M(M)
SNP阵列分析揭示癌症中的等位基因特异性扩增
计算生物学
2005
 
1,e65
M(M)
世界环境学会
LJ公司
卖方
WR(额定功率)
利伯法布
M(M)
Wong(王)
白色
C类
dChipSNP:基于SNP阵列的异方差损失数据的显著性曲线和聚类
生物信息学
2004
,卷。 
20
(第
1233
-
40
)
Lindblad Toh公司
K(K)
坦尼鲍姆
DM公司
戴利
美赞臣
温彻斯特
E类
路易斯
工单
维拉帕卡姆
A类
斯坦顿
东南方
拉松
C类
哈德逊
TJ公司
约翰逊
比利时
其他
应用单核苷酸多态性阵列分析小细胞肺癌的异质性缺失
自然生物技术
2000
,卷。 
18
(第
1001
-
5
)
麦库拉
P(P)
奈德勒
青年成就组织
广义线性模型
1989
第2版
佛罗里达州博卡拉顿
出版社
Naef公司
F类
索奇
ND(无损检测)
马格纳索
M(M)
寡核苷酸阵列准确性和精密度的研究:在大浓度下提取更多信号
生物信息学
2003
,卷。 
19
(第
178
-
84
)
南雅
Y(Y)
萨纳达
M(M)
中崎
K(K)
细谷
N个
汉加西
A类
Kurokawa村
M(M)
千叶县
S公司
贝利
丹麦
肯尼迪
GC公司
其他
基于高密度寡核苷酸单核苷酸多态性基因分型阵列的稳健拷贝数检测算法
癌症研究
2005
,卷。 
65
(第
6071
-
9
)
波尔泽尔
J型
斯波科尼
S公司
自适应权重平滑及其在图像恢复中的应用
英国皇家统计学会期刊,B辑
2000
,卷。 
62
(第
335
-
54
)
研发开发C类矿石T型EAM公司
R: 统计计算语言和环境
2006
奥地利维也纳
R统计计算基础
 
塞巴特
J型
拉克希米
B
Troge公司
J型
亚力山大
J型
年轻
J型
伦丁
P(P)
马内尔
S公司
马萨
H(H)
散步的人
M(M)
芝加哥
M(M)
其他
人类基因组中的大尺度拷贝数多态性
科学类
2004
,卷。 
305
(第
525
-
8
)
X(X)
文学士
LaFramboise公司
T型
M(M)
贝鲁金
R(右)
加拉维
贝赫什提
J型
JC公司
直树
K(K)
理查兹
工作组
其他
单核苷酸多态性阵列分析揭示人肺癌的纯合子缺失和染色体扩增
癌症研究
2005
,卷。 
65
(第
5561
-
70
)