摘要

人类癌症在很大程度上是由基因突变引起的。这种突变的一类是拷贝数多态性,由每个细胞每个常染色体的两个拷贝与正常二倍体的偏差组成。我们描述了一种探针级等位基因特异性定量(PLASQ)程序,从单核苷酸多态性(SNP)微阵列数据确定癌细胞中每个亲本染色体的拷贝数贡献。我们的方法基于一个广义线性模型,它利用了阵列上探针的新分类。作为这种分类的结果,我们能够使用为此目的而设计的期望最大化算法将模型拟合到数据中。我们展示了一个适用于各种单元类型的数据的强大模型。在正常的二倍体样本中,PLASQ可以很高的准确率进行基因分型。此外,我们还可以提供癌症样本的广义基因型(例如CCCCT扩增SNP)。我们的方法在多种肺癌细胞系和肿瘤上得到了说明,并且通过独立的计算和实验手段验证了一些事件。包含这些方法的R软件包是免费提供的。

1简介

在过去的十年中,基于探针的高通量微阵列技术已经成为基因组研究的重要工具。这些微阵列包含数千个独特的核苷酸探针序列,每一个都被设计成杂交一个“目标”核酸分子。当一个DNA或RNA样本被正确地制备并应用到阵列中时,专用设备可以测量出样本中每个探针与其目标之间的杂交强度。其基本原理是杂交强度取决于样本中靶DNA或RNA的数量,以及靶与探针之间的亲和力。对这些原始强度度量的广泛处理和分析给出了样本中目标序列的某些特征的估计。本文的主题是分析来自一个特定的阵列类型,单核苷酸多态性(SNP)阵列的数据。

基因芯片映射100K集(Affymetrix,2004年)是一对阵列能够询问超过10万个人类snp。在这里,我们将这对简单地称为SNP数组。SNP阵列的最初目的是识别两个SNP等位基因中哪一个是任意标记的等位基因A等位基因B-发生于个体基因组中每个单核苷酸多态性的染色体拷贝(母系和父系)。因此,个体可以在SNP上被分型为纯合型AA,纯合子BB公司或者杂合子AB型. 最近,有研究表明,这些阵列可用于识别杂合性缺失(LOH)(林布拉德·托赫以及其他2000年;以及其他2004年)以及在每个SNP上产生基因组拷贝数(比涅尔以及其他2004年;以及其他2005年),在癌症样本中。杂合性缺失区域是染色体两个亲本中的一个被删除的位点。通常情况下,人们可以使用SNP阵列数据来检测SNP上的杂合性杂合性,而其匹配的正常(同一个体)对应物是杂合的。在拷贝数推断中,目标是识别拷贝数偏离正常二倍体2的染色体区域。这些病变包括扩增(拷贝数大于2)、杂合缺失(拷贝数1)和纯合缺失(拷贝数0)。

SNP阵列的设计使得每个探针都是一个长度为25碱基的序列,并且是由40个独特序列组成的探针组的一个成员。在一个探针组中,一半的探针是“完美匹配”(PM)探针。所有的PM探针都与同一靶DNA片段的25碱基片段完全互补。此外,每个PM探针都有一个与其对应的PM对应的“不匹配”(MM)探针,除了中央(第13)基座被改变,以使其不能与目标序列完全互补。PM探针与A或者BSNP的等位基因,因此SNP阵列探针通常被归类为PMA,下午B,毫米A,或MMB. 事实上,阵列上的探针可以分为四个四分之一,每四个四分之一对目标基因组DNA片段的相同的25碱基子序列进行询问。

在这篇文章中,我们提供了三个应用的概括基因分型,LOH检测和拷贝数推断的SNP阵列。特别地,我们提出了一种探针级等位基因特异性定量(PLASQ)方法来推断等位基因特异性拷贝数(ASCN)和亲本特异性拷贝数(PSCN)。ASCN是基因型和拷贝数在一个单核苷酸多态性(SNP)中的推广,因为所有样本SNP都被分配了一个基因型,而不考虑拷贝数。因此,正常(二倍体)区域的ASCNs只是普通的AA,AB型,或BB公司. 然而,在扩增区的SNP可能有ASCNAAAAB公司; 杂合子缺失区的SNP可能具有ASCNB. 另一方面,PSCN指的是双亲染色体中每一条对拷贝数的贡献。例如,在这个框架内,我们可以更精确地将LOH确定为PSCN所在的区域(c,0)对于某个正整数c.

我们的PLASQ程序基于探针强度行为的广义线性模型,利用SNP阵列探针的一种新分类,它与通常的PM有根本不同A,毫米A,下午B,毫米B分类。程序的早期版本(拉芬姆博伊斯以及其他2005年)-也被称为PLASQ使用了一个更简单的一般线性模型,它在基因分型和拷贝数确定方面的性能不如我们这里所提出的版本。在目前的工作中,我们分析了这一更新模型的统计特性(在我们之前的论文中没有讨论),证明了在拟合和性能方面的改进。鉴于这些改进,我们的目的是用目前的PLASQ取代我们先前工作中描述的版本。

在第2节中详细说明了我们的模型之后,通过期望最大化(EM)对其进行了拟合(登普斯特以及其他1977年)第3节详细介绍了利用被测量固有的离散性的算法。在第4节中,我们将我们的方法应用于各种细胞类型,展示了(a)在正常样本中非常精确地对超过10万个snp进行基因分型的能力AA,AB型,或BB公司; (b) 在癌症样本中以非常高的分辨率测定基因组范围内的拷贝数;(c) 揭示两个亲本染色体对这些异常样本扩增和缺失的贡献;以及(d)在阵列上的每个snp处推断ASCNs。我们为我们的模型的适用性提供了统计上的理由生物信息学使用各种独立的生物信息学体外方法。在第5节中,我们将讨论我们的结果在癌症基因组学研究中的相关性。

2A阵列设计和型号说明

使用SNP阵列的研究几乎完全集中在PM上A,毫米A,下午B,和MMB探头分类。然而,另一个分类是相关的。PM/MM对可以精确居中,以使PM探针的中间(第13)基部与SNP位点互补,或者偏移(在任一方向上偏移1到4个碱基)。因此,探针组的三个二分法给我们留下了八种探针类型:PMAc,毫米Ac,下午Bc,毫米Bc,下午Ao,毫米Ao,下午Bo,和MMBo,其中上标表示居中(c)或偏移(o)。我们的方法侧重于每个探针和两个靶DNA序列(对应于两个SNP等位基因)之间的核苷酸水平亲和力。我们可以计算出每个探针与每个目标等位基因不匹配的碱基数量;实际上,这些信息是在制造商提供的.CDF(芯片定义文件)中编码的。每一个探针与两个目标等位基因分别以0、1或2个碱基不匹配,八个探针类别完全决定了这些计数。参见补充图1,网址生物统计学在线,用于探测集的特定示例。

我们的模型是由以下原则驱动的。首先,目标数量和探针强度之间的关系在对数-对数尺度上近似为线性(加性项),这在涉及已知数量RNA的研究中得到了证明(虹彩以及其他2003年)以及基因组DNA(以及其他2004年)第二,作者虹彩以及其他(2003年)在更高的随机性水平上,通过更高的随机性,在非乘性误差水平上证明了这一点。第三,在一个探针组中,每个探针都与靶DNA片段中正向或反向链的一个子片段互补。这种“正向”或“反向”的区别被称为探针的取向,经验证据表明取向之间杂交强度的差异。最后,除了定位之外,决定同一探针组内探针/靶杂交亲和力的主要因素是探针与靶不匹配的碱基数量。更具体地说,我们合理地假设目标对探针的杂交亲和力是探针与靶不互补的碱基数量的递减函数。这一假设的例外是由于杂交亲和力的不同而引起的AB目标碎片。自从AB差异代表了一组探针间鸟嘌呤/胞嘧啶含量的唯一潜在显著差异,我们在我们的模型中适应了目标等位基因特异性的杂交亲和力差异。

在一个数组中J探针组/SNP(soJ>100000美元),让CA(j)CB(j)表示等位基因的拷贝数AB,分别在样品在jth SNP站点(j=1,⋯,J).我们提出的归一化对数变换强度模型是的(jk)探头的k在SNP的探针组里j在阵列询问样本中
图解的
(2.1)
在这里Ojk=F(向前)或R(反向)表示探头的方向,Ajk,Bjk=0、1或2表示探针与AB等位基因靶点,以及γF(j),γR(j)分别表示光学噪声和非特异性结合对正向和反向探针强度的不必要背景贡献。人们可能会认为最后这些术语代表了目标完全不存在的探测器发出的信号。独立的,正态分布的,平均零误差项e(jk)是为了捕捉更多的变异源。假设它们具有标准差σF(j)什么时候Ojk=F和σR(j)什么时候Ojk=R。这些误差项的分布对于任何固定值都是相同的jOjk,但允许同一探头组内不同探头组和不同方位而变化。最后,我们在实践中发现,在两个碱基上不匹配的探针和靶之间的杂交强度与背景噪声无法区分,因此我们进行了修正
图解的
因此,每个探针组/SNP的相关参数jγF(j),γR(j),α0英尺(j),α0小时(j),α一楼(j),α1个(j),β0英尺(j),β0小时(j),β一楼(j),和β1个(j).

三。模型拟合与拷贝数推断

方程式(2.1)模型将对数变换后的探针强度表示为拷贝数的对数线性函数。拟合这个模型有一些复杂的问题。首先,方程右侧的对数变换排除了普通最小二乘法的使用。然而,该模型是一个广义线性模型(McCullagh和Nedler,1989年)因此,我们使用迭代加权最小二乘法(IRLS)拟合模型。模型拟合的一个更严重的障碍是我们通常既不知道参数也不知道协变量值CA(j)CB(j)先验的. 我们知道,在正常样本中,每个SNP都处于三种状态之一-AA,AB型,或BB公司. 这意味着三种不同的协变量组合,因此,EM算法是一种自然的方法来拟合模型的二倍体数据。第一步是分位数归一化(博尔斯塔德以及其他2003年)这些正常参考文献中的原始探针强度数据以及我们希望分析的癌症样本的原始探针强度数据。这一步通过消除与底层分子生物学无关的差异(如整体亮度),确保了结果在不同阵列之间具有可比性。在使用EM程序从正常参考文献中估计模型参数后,我们对来自癌症样本的数据进行拟合(同样使用IRLS),在每个SNP位点产生原始ASCNs。进一步的处理产生我们最后的ASCN和PSCN呼叫。在本节中,我们将描述这些步骤中的每一个。

3.1正常样品的模型校准

对于SNP阵列,正态样本作为两两ASCN和,为模型拟合和测试提供了方便的依据CA(j)+CB(j)已知是两个。我们利用这个事实来寻找估计值γ^F(j),γ^R(j),α^0F(j),α^0R(j),α^1F(j),α^1R(j),β^0F(j),β^0R(j),β^1F(j),和β^1R(j)属于γF(j),γR(j),α0英尺(j),α0小时(j),α一楼(j),α1个(j),β0英尺(j),β0小时(j),β一楼(j),和β1号(j)分别是。模型(2.1)可以使用EM算法拟合(标准化)探针强度,并自动得出基因分型推断。附录中给出了该程序的详细信息。

3.2肿瘤标本中的PSCNs和ASCNs

补充图2,可在生物统计学在线,给出了从肿瘤样本(标准化)探针水平数据获取ASCNs和PSCNs的程序图0. 我们假设在上述的模型中,我们用一个正常的参数代替了这些参数。我们的模型变成
图解的
(3.1)
我们现在可以得到原始的ASCN推断(CA未经加工的(0j),CB未经加工的(0j))通过适用于模型(3.1)的IRLS。实际上,我们是在处理协变量CA(0j)CB(0j)作为待估计的参数。这个阶段的ASCN推断是“原始”的,因为我们还没有利用总拷贝数是局部不变的这一事实;也就是说,染色体拷贝数畸变发生在离散片段中,通常跨越许多连续的SNP位点。因此,我们可以对原始ASCNs的成对和应用平滑或断点程序,映射到它们的基因组位置。在我们的研究中,我们采用了GLAD算法(哈佩以及其他2004年)因为它的敏感性、特异性和计算效率。GLAD尝试使用自适应加权平滑法检测总拷贝数恒定的染色体片段(Polzehl和Spokoiny,2000年)断点检测算法。我们推断的总拷贝数T(0s)为了一段愉快而坚定的片段s段中成对原始ASCN和的四舍五入中值。
接下来,我们推断每个片段的PSCNss根据推断的总拷贝数T(0s)原始ASCNs如下。首先,如果推断出的总拷贝数是0或1,那么我们的PSCN调用显然是(主染色体,次要染色体)=(0,0)或(1,0)。如果没有,我们下一步决定是否发生了LOH。当匹配的正常样本可用时,这很容易通过查询匹配正常值中杂合子的纯合性snp来确定。在没有匹配的正常样本的情况下,我们利用了这样一个事实,即阵列上SNPs的平均杂合度约为30%(Affymetrix,2004年)因此,我们可以考虑在SNPs作为一个近似的二项式(,0.7)变量。对数字进行Bonferroni修正S对于片段,我们称之为杂合子snp数目大于1的片段0.05/S二项式分位数(,0.7)分布(这里是SNPj当四舍五入最小值时假定为纯合(CA未经加工的(0j),CB未经加工的(0j))小于1)。如果LOH被视为已经发生,我们针对该部分的PSCN为(T(0s),0)。否则,我们忽略纯合子snp,因为它们对PSCN是非信息性的,我们的PSCN调用是(T(0s)ν,ν),其中
图解的
四舍五入到最接近的整数。这个表达式中的两个和都被占去了所有杂合子snpj分段s.

最后,我们从PSCNs和每个SNP的原始ASCNs中确定ASCNsj. 如果SNP是杂合子,则ASCNs与PSCNs相同,主要SNP等位基因的拷贝数(由原始ASCNs确定)与主要亲本染色体片段的拷贝数相同。如果SNP是纯合的,那么具有较高原始ASCN的等位基因被指定为ASCNT(0s),另一个0。

4A正常和癌症数据的应用

4.1数据集

对于每个样本,SNP数组数据编码在一对.cel文件中(每种芯片类型对应一个)。我们在研究中使用了21个正常样本的数据。这些数据包括来自以及其他(2005年)这与该研究中的所有正常样本以及作为国际HapMap项目一部分生成的18个.cel文件(对应于样本NA6985、NA6991、NA6993、NA12707、NA12716、NA12717、NA12801、NA12812和NA12813)(http://www.hapmap.org)。后一个示例,我们称之为HapMap数据集,可从Affymetrix网站下载(http://www.affymetrix.com)。对于癌症样本,我们使用了来自12个肺癌和细胞系的.cel文件(参见表2)产生于以及其他(2005年).

4.2正常样品的应用

为了验证我们模型的假设,我们首先将其拟合到HapMap数据集。我们检查了模型的残差,以检验正态分布误差项的假设。注意,尽管假设误差项在探测集的相同方向子集内分布相同,但允许它们的方差在探测集和方向上不同。因此,我们构建了一个正态分位数-分位数(q-q)图(图1a)对于标准化残差,理解模型意味着所有探测集的标准正态分布。为了清晰起见,我们随机选取了10000个残差。为了证明对数-对数转换的必要性,我们还绘制了拟合线性模型的标准化残差
图解的
(4.1)
哪里是的˜(jk)现在表示标准化但未转换的探针强度。我们注意到拉芬姆博伊斯以及其他(2005年)对于不同的系数(1.4)不允许相同CACB条款,因此被迫αAjkOjk(j)=βBjkOjk(j)为每一个j=1,⋯,Jk=1,⋯,40我们使用EM算法拟合(4.1)和模型(2.1)一样,除了M步涉及普通最小二乘而不是IRLS。结果q–q图(图1b)很明显,这与正常情况严重背离。这证明了我们新的基于广义线性模型的方法比以前的工作有了改进。
图1。

正态q-q图比较标准残差和标准高斯分布。a) 从广义线性模型(2.1)中随机选取的10000个残差与来自HapMap样本的SNP阵列数据相吻合。b) 从线性模型(4.1)中随机选择的10000个残差与来自HapMap样本的SNP阵列数据相吻合。

图1。

正态q-q图比较标准残差和标准高斯分布。a) 从广义线性模型(2.1)中随机选取的10000个残差与来自HapMap样本的SNP阵列数据相吻合。b) 从线性模型(4.1)中随机选择的10000个残差与来自HapMap样本的SNP阵列数据相吻合。

如上所述,SNP阵列上的探针传统上按PM/MM或A等位基因/B等位基因术语。我们的方法的优势在于根据基本MM计数对探针进行分类,具体如下所示图2. 第一个散射图显示了平均毫米Ao强度与平均MMAc通过10782个单链图样本snp的强度。每个点代表一个样本的一个SNP方向(F或R)。所有的人都有办法Ac(-轴)或MMAo(是的-轴)给定方向/SNP/样品的探针强度。每个点都是根据HapMap基因型着色的。虽然传统的分类方法将这两种探针类型视为等效的测量方法,但在图中可以明显看出三种基因型的分离。正如预期的那样,中心探针通常对B而这两种类型对于A目标。当背景γ项被减去,如中所示图2b. 这些图表明,忽略MM探测的做法,如某些方法所做的那样,实际上会丢弃相关信息。此外,如果我们为MM构造一个相似的图Ac对MMBc(图2c),即使传统的分类将这两种强度视为单独数量的度量,也无法区分基因型的分离。

图2。

10782个样本snp上探针类型平均强度的散点图。a) 毫米Ao探头与毫米Ac探头。尽管传统上被认为是同一类型,但这些探针在不同基因型下表现出明显的不同。b) 减去背景后,与(a)的区别更加明显。c) 这种差别在MM中并不明显Bc对MMAc,尽管这些传统上被认为是测量不同的等位基因。

图2。

10782个样本snp上探针类型平均强度的散点图。a) 毫米Ao探头与毫米Ac探头。尽管传统上被认为是同一类型,但这些探针在不同基因型下表现出明显的不同。b) 当从背景中减去更多的差异时。c) 这种差别在MM中并不明显Bc对MMAc,尽管这些传统上被认为是测量不同的等位基因。

HapMap数据集中的许多snp已经独立地进行了基因分型,使用了各种基因分型平台。其中,1198个基因型由至少两个不同的HapMap中心进行了基因分型。在至少两个不同的中心之间并发的调用可能被认为是非常接近实际情况的,我们将这些作为“黄金标准”数据集,我们将其与我们的PLASQ方法进行了比较。如所示表1,我们的方法性能很好。PLASQ和HapMap一致性调用之间的一致性比率与HapMap项目的一致性比率相似,并且我们的未调用率要低得多。我们应该注意到表中16个snp样本PLASQ调用了AA而HapMap的努力被称为BB公司都来自同一个SNP基因座。仔细检查这些snp的原始阵列数据可以发现AA信号(数据未显示)。因此,我们怀疑这只是Affymetrix在A“和”B标记被分配到核苷酸残基。在任何情况下,表中的结果都清楚地表明模型捕获了数据的相关方面,并强调了我们的EM拟合方法的有效性。

表1。

我们程序的调用与国际HapMap项目中不止一个中心的调用一致。如果任何两个中心都没有对SNP产生No调用,那么HapMap调用被认为是不一致的。如果除一个中心以外的所有中心都产生一个No Call,则SNP被放入表的“HapMap No Call”类别中

 普拉斯克AA 普拉斯克AB型 普拉斯克BB公司 请不要打电话总计
单倍体图3787个13794个
AA (35.12%)(0.04%)(0.01%)(0.02%)(35.19%)
单倍体图十五3158个3183个
AB型 (0.14%)(29.29%)(0.04%)(0.05%)(29.52%)
单倍体图16* 3595个十一3626个
BB公司 (0.15%)(0.04%)(33.34%)(0.10%)(33.63%)
单倍体图44岁49个46141个
不打电话(0.41%)(0.45%)(0.43%)(0.02%)(1.31%)
单倍体图24038
不和谐(0.05%)(0.22%)(0.08%)(0%)(0.35%)
总计3867个3239个3655个2110782年
 (35.87%)(30.04%)(33.90%)(0.19%)(100%)
 普拉斯克AA 普拉斯克AB型 普拉斯克BB公司 请不要打电话总计
单倍体图3787个13794个
AA (35.12%)(0.04%)(0.01%)(0.02%)(35.19%)
单倍体图十五3158个3183个
AB型 (0.14%)(29.29%)(0.04%)(0.05%)(29.52%)
单倍体图16* 3595个十一3626个
BB公司 (0.15%)(0.04%)(33.34%)(0.10%)(33.63%)
单倍体图44岁49个46141个
不打电话(0.41%)(0.45%)(0.43%)(0.02%)(1.31%)
单倍体图24038
不和谐(0.05%)(0.22%)(0.08%)(0%)(0.35%)
总计3867个3239个3655个2110782年
 (35.87%)(30.04%)(33.90%)(0.19%)(100%)
*

很可能是标签贴错了AB等位基因(见正文)。

表1。

我们程序的调用与国际HapMap项目中不止一个中心的调用一致。如果任何两个中心都没有对SNP产生No调用,那么HapMap调用被认为是不一致的。如果除一个中心以外的所有中心都产生一个No Call,则SNP被放入表的“HapMap No Call”类别中

 普拉斯克AA 普拉斯克AB型 普拉斯克BB公司 请不要打电话总计
单倍体图3787个13794个
AA (35.12%)(0.04%)(0.01%)0.02%(百分之二)(35.19%)
单倍体图十五3158个3183个
AB型 (0.14%)(29.29%)(0.04%)(0.05%)(29.52%)
单倍体图16* 3595个十一3626个
BB公司 (0.15%)(0.04%)(33.34%)(0.10%)(33.63%)
单倍体图44岁49个46141个
不打电话(0.41%)(0.45%)(0.43%)(0.02%)(1.31%)
单倍体图24038
不和谐(0.05%)(0.22%)(0.08%)(0%)(0.35%)
总计3867个3239个3655个2110782年
 (35.87%)(30.04%)(33.90%)(0.19%)(100%)
 普拉斯克AA 普拉斯克AB型 普拉斯克BB公司 请不要打电话总计
单倍体图3787个13794个
AA (35.12%)(0.04%)(0.01%)(0.02%)(35.19%)
单倍体图十五3158个3183个
AB型 (0.14%)(29.29%)(0.04%)(0.05%)(29.52%)
单倍体图16* 3595个十一3626个
BB公司 (0.15%)(0.04%)(33.34%)(0.10%)(33.63%)
单倍体图44岁49个46141个
不打电话(0.41%)(0.45%)(0.43%)(0.02%)(1.31%)
单倍体图24038
不和谐(0.05%)(0.22%)(0.08%)(0%)(0.35%)
总计3867个3239个3655个2110782年
 (35.87%)(30.04%)(33.90%)(0.19%)(100%)
*

很可能是标签贴错了AB等位基因(见正文)。

4.3肺癌的应用

我们将我们的PLASQ方法应用于来自12个肺癌样本的SNP阵列数据,使用来自同一研究的12个二倍体样本作为正常参考来训练模型。图3显示了其中一个样本,细胞系H2087的PSCN全基因组视图。注意,LOH是一个只由主要染色体组成的区域(全部为绿色)。例如,13号染色体的一个拷贝似乎全部丢失,尽管总拷贝数仍为2个。这种现象被称为拷贝中性LOH。

图3。

用PLASQ法测定H2087细胞株的PSCN。各种类型的基因组损伤在这个观点中是显而易见的。例如,12号染色体上有高水平扩增,13号染色体上有拷贝中性杂合缺失,3号染色体p臂杂合缺失,4号染色体上有一个局部纯合缺失(黑色细条)。

图3。

用PLASQ法测定H2087细胞株的PSCN。各种类型的基因组损伤在这个观点中是显而易见的。例如,12号染色体上有高水平扩增,13号染色体上有拷贝中性杂合缺失,3号染色体p臂杂合缺失,4号染色体上有一个局部纯合缺失(黑色细条)。

为了评估我们方法的准确性,我们将我们的结果与基于聚合酶链反应(PCR)的拷贝数估计值进行了比较。在我们的12个肺癌样本中,共有16个缺失和10个扩增等等。(2005年). 这些PCR测量只量化了总拷贝数(而不是等位基因特异性拷贝数),因此我们开发了一种在等位基因特异性基础上测量拷贝数的实验方法。这种基于定量PCR的方法如中所述拉芬姆博伊斯等等。(2005年).表2比较PLASQ结果和PCR结果。由于定量实时PCR是一种非常敏感的技术,假定的纯合缺失表2很可能是有效的。我们的PLASQ程序能够识别每一个缺失,事实上,它们几乎总是在原始ASCN级别上明显可见。然而,对扩增的估计并不一致。尽管PLASQ检测到每个扩增,但在较高拷贝数的等位基因中,结果往往低于基于PCR的估计。这是很可能的,因为众所周知的饱和效应在寡核苷酸阵列(纳夫以及其他2003年),且难以缓解。另一方面,我们的等位基因特异性定量PCR技术可能不是一种精确的测量方法。在任何情况下,都可以认为这些错误没有什么后果,因为这些研究的目的是确定扩增、缺失和涉及的单倍型,而PLASQ可以清楚地发现所有这些。

表2。

原始和推断的ASCNs与PCR结果在缺失方面的比较

SNP ID(卢比)染色体位置(Mb)样品原始等位基因A ASCN原始等位基因B ASCNPLASQ等位基因A ASCNPLASQ等位基因B ASCN实时PCR拷贝数 
4133302号142.07秒126公顷–0.05–0.03000.00
4133302号142.07秒H2122型0.04年–0.07秒000.01
4133302号142.07秒H1570.63–0.06000.06秒
10496876号142.29秒HCC95型–0.02秒0.01000.00
268716760.32美元HCC95型–0.01–0.05000.00
930589号152.87美元H28820.09分–0.03000.00
930589号152.87美元S0177吨0.130.01000.02秒
2033554个8.73美元S0177吨–0.120.15000.01
655125号9.59秒HCC1171型0.22个0.04分000.08分
4074785个21.97美元HCC1359型–0.04–0.08秒000.00
4074785个21.97美元H2126–0.040.00000.00
4074785个21.97美元H2122型0.05–0.04000.01
4074785个21.97美元H28820.05–0.05000.00
4074785个21.97美元HCC1171型0.05至0.050.10000.00
4074785个21.97美元HCC95型0.000.12个000.00
1162609个24.58秒H1570.03–0.03000.03
SNP ID(卢比)染色体位置(Mb)样品原始等位基因A ASCN原始等位基因B ASCNPLASQ等位基因A ASCNPLASQ等位基因B ASCN实时PCR拷贝数 
4133302号142.07秒H2126–0.05–0.03000.00
4133302号142.07秒H2122型–0.04–0.07秒000.01
4133302号142.07秒H1570.63–0.06000.06秒
10496876号142.29秒HCC95型–0.02秒0.01000.00
268716760.32美元HCC95型–0.01–0.05000.00
930589号152.87美元H28820.09分–0.03000.00
930589号152.87美元S0177吨0.130.01000.02秒
2033554个8.73美元S0177吨–0.120.15000.01
655125号9.59秒HCC1171型0.22个0.04分000.08分
40785个21.97美元HCC1359型–0.04–0.08秒000.00
4074785个21.97秒H2126–0.040.00000.00
4074785个21.97美元H2122型0.05–0.04000.01
4074785个21.97美元H28820.05–0.05000.00
4074785个21.97美元HCC1171型–0.050.10000.00
4074785个21.97美元HCC95型0.000.12个000.00
1162609个24.58秒H1570.03–0.03000.03
表2。

原始和推断的ASCNs与PCR结果在缺失方面的比较

SNP ID(卢比)染色体位置(Mb)样品原始等位基因A ASCN原始等位基因B ASCNPLASQ等位基因A ASCNPLASQ等位基因B ASCN实时PCR拷贝数 
4133302号142.07秒H2126–0.05–0.03000.00
4133302号142.07秒H2122型–0.04–0.07秒000.01
4133302号142.07秒H1570.63–0.06000.06秒
10496876号142.29秒HCC95型–0.02秒0.01000.00
268716760.32美元HCC95型–0.010.05至0.05000.00
930589号152.87美元H28820.09分–0.03000.00
059389号152.87美元S0177吨0.130.01000.02秒
2033554个8.73美元S0177吨–0.120.15000.01
655125号9.59秒HCC1171型0.22个0.04分000.08分
4074785个21.97美元HCC1359型–0.04–0.08秒000.00
4074785个21.97美元H2126–0.040.00000.00
4074785个21.97美元H2122型0.05–0.04000.01
4074785个21.97美元H28820.05–0.05000.00
4074785个21.97美元HCC1171型–0.050.10000.00
4074785个21.97美元HCC95型0.000.12个000.00
1162609个24.58秒H1570.03–0.03000.03
SNP ID(卢比)染色体位置(Mb)样品原始等位基因A ASCN原始等位基因B ASCNPLASQ等位基因A ASCNPLASQ等位基因B ASCN实时PCR拷贝数 
4133302号142.07秒H21260.05至0.05–0.03000.00
4133302号142.07秒H2122型–0.040.07秒000.01
4133302号142.07秒H1570.63–0.06000.06秒
10496876号142.29秒HCC95型–0.02秒0.01000.00
268716760.32美元HCC95型–0.01–0.05000.00
930589号152.87美元H28820.09分–0.03000.00
930589号152.87美元S0177吨0.130.01000.02秒
2033554个8.73美元S0177吨–0.120.15000.01
655125号9.59秒HCC1171型0.22个0.04分000.08分
4074785个21.97美元HCC1359型–0.04–0.08秒000.00
4074785个21.97美元H2126–0.040.00000.00
4074785个21.97美元H2122型0.05–0.04000.01
4074785个21.97美元H28820.05–0.05000.00
4074785个21.97美元HCC1171型–0.0510.0万000.00
4074785个21.97美元HCC95型0.000.12个000.00
1162609个24.58秒H1570.03–0.03000.03
表3。

原始和推断的ASCNs与PCR扩增结果的比较

SNP ID(卢比)染色体位置(Mb)样品原始等位基因A ASCN原始等位基因B ASCNPLASQ等位基因A ASCNPLASQ等位基因B ASCNPCR等位基因A拷贝数PCR等位基因B拷贝数
4859257个183.98美元S0465吨6.89美元0.70125.18日1.68个
2049284号183.49分S0515吨–0.3822.90美元0142.42秒38.37分
1569265个754.61美元HCC827型10.72美元0.99十一1135.92美元1.97美元
2893603128.04秒H2122型6.61美元–0.117058.46分3.39分
9283954号128.33分HCC827型0.286.69分00.06秒7.58秒
2392827个128.91美元H2087年5.63美元0.8716.03款1.23条
10506101号十二32.60英镑S0515吨–0.1310.94美元010个0.06秒7.12款
6814883个十二33.80分H2087年7.55秒0.10017.32美元0.03秒
3913094号十二57.20美元H2087年9.19日0.2110个04.86美元0.17
448041个22个19.77美元HCC1359型0.936.32美元11.03款8.36节
SNP ID(卢比)染色体位置(Mb)样品原始等位基因A ASCN原始等位基因B ASCNPLASQ等位基因A ASCNPLASQ等位基因B ASCNPCR等位基因A拷贝数PCR等位基因B拷贝数
4859257个183.98美元S0465吨6.89美元0.70125.18日1.68个
2049284号183.49分S0515吨–0.3822.90美元0142.42秒38.37分
1569265个754.61美元HCC827型10.72美元0.99十一1135.92美元1.97美元
2893603128.04秒H2122型6.61美元–0.117058.46分3.39分
9283954号128.33分HCC827型0.286.69分00.06秒7.58秒
2392827个128.91美元H2087年5.63美元0.87秒16.03款1.23条
10506101号十二32.60英镑S0515吨13.0至1310.94美元010个0.06秒7.12款
1486883个十二33.80分H2087年7.55秒0.10017.32美元0.03
3913094号十二57.20美元H2087年9.19日0.2110个04.86美元0.17
448041个22个19.77美元HCC1359型0.936.32美元11.03款8.36节
表3。

原始和推断的ASCNs与PCR扩增结果的比较

SNP ID(卢比)染色体位置(Mb)样品原始等位基因A ASCN原始等位基因B ASCNPLASQ等位基因A ASCNPLASQ等位基因B ASCNPCR等位基因A拷贝数PCR等位基因B拷贝数
4859257个183.98美元S0465吨6.89美元0.70125.18日1.68个
2049284号183.49分S0515吨–0.3822.90美元0142.42秒38.37分
1569265个754.61美元HCC827型10.72美元0.99十一1135.92美元1.97美元
2893603128.04秒H2122型6.61美元–0.117058.46分3.39分
92834 954号128.33分HCC827型0.286.69分00.06秒7.58条
2392827个128.91美元H2087年5.63美元0.8716.03款1.23条
10506101号十二32.60英镑S0515吨–0.1310.94美元010个0.06秒7.12款
1486883个十二33.80分H2087年7.55秒0.10017.32美元0.03
3913094号十二57.20美元H2087年9.19日0.2110个04.86美元0.17
448041个22个19.77美元HCC1359型0.936.32美元11.03款8.36节
SNP ID(卢比)染色体位置(Mb)样品原始等位基因A ASCN原始等位基因B ASCNPLASQ等位基因A ASCNPLASQ等位基因B ASCNPCR等位基因A拷贝数PCR等位基因B拷贝数
4859257个183.98美元S0465吨6.89美元0.70125.18日1.68个
2049284号183.49分S0515吨–0.3822.90美元0142.42秒38.37分
1569265个754.61美元HCC827型10.72美元0.99美元十一1135.92美元1.97美元
2893603128.04秒H2122型6.61条–0.117058.46分3.39分
9283954号128.33分HCC827型0.286.69分00.06秒7.58秒
2392827个128.91美元H2087年5.63美元0.8716.03款1.23条
10506101号十二32.60英镑S0515吨–0.1310.94美元010个0.06秒7.12款
1486883个十二33.80分H2087年7.55秒0.10017.32美元0.03
3913094号十二57.20美元H2087年9.19日0.2110个04.86美元0.17
448041个22个19.77美元HCC1359型0.936.32美元11.03款8.36节

5D讨论

人类癌症是由细胞中基因组变化的获得所驱动的。这种变化的一个极其重要的类别是细胞中每个染色体的正常两个拷贝的扩增和缺失。扩增区域可能含有致癌基因,而缺失通常包含抑癌基因。因此,这些改变的定位是癌症研究的中心目标。我们提出了一种从SNP阵列数据中确定癌细胞中SNP等位基因和亲代染色体拷贝数的方法。我们的SNP等位基因拷贝数的结果对LOH的测定特别有意义,因为现有的方法常常错误地称为LOH,实际上发生了等位基因平衡(由于一个等位基因的扩增),导致了明显的(尽管是错误的)纯合性。我们通过考虑两个等位基因对拷贝数的贡献来避免这些错误的LOH调用。最近的两篇论文(石川以及其他2005年;南雅以及其他2005年)已经出版,目的是确定PSCN。然而,他们的方法需要来自匹配正常细胞的额外SNP阵列数据,而这些数据通常是不可用的。此外,这两种方法都忽略了MM探针,从而丢弃了SNP阵列中可用信息的一半。正如我们所展示的,MM探针实际上是信息丰富的。

最后,我们应该提到我们方法的两个潜在弱点。首先,我们假设正常细胞的常染色体上有一个2号二倍体拷贝。近期研究(亚弗拉特以及其他2004年;塞巴特以及其他2004年)在正常细胞中发现拷贝数多态性。考虑到我们的方法(以及我们所知道的所有其他方法)将信号强度与正常参考信号进行比较,这在理论上可能会出现问题。然而,在实践中,我们认为这个问题是因为我们使用了大量的正常参考样本,而大多数正常参考样本所共有的多态基因组区域很可能很罕见,长度很小,或者两者兼而有之。第二个是将我们的模型应用到实际中的结果。我们隐含地假设模型参数在估计它们的协变量范围之外是合适的。尽管这确实是一个问题(可能部分是由于高水平扩增的拷贝数低估引起的),但我们认为表2证明模型的价值,即使是对于异常的拷贝数。

本文描述的所有过程都可以在R(R Development Core Team,2006)软件包中获得,可在http://genome.dfci.harvard.edu/特拉弗拉姆/普拉斯克.

附录A

我们详细描述了用EM方法拟合模型(2.1)从正常样本中探测水平SNP阵列数据。

A、 1。符号

修复任意选择的SNPj0. 假设我们有N正常样品。=1,⋯,N=0,1,2,设Zj0表示(未观察到)指示符变量(CA(j0)=).Model(2.1)可以使用此符号重写,如下所示
图解的
(A.1)
我们想到Zj0作为缺失数据,其值提供了样本的基因型。φ(|μ,τ)用平均值表示正态分布的密度函数μ和方差τ2,让是的(j0)表示数据向量(是的(j0k))k=1,…,40从探头组j0作为样品. =0,1,2,设pj0表示样本的(未知)比例CA(j0)在苏格兰民族党j0. 我们考虑pj0作为参数组Ψ的一部分(也包括α,β,γ,和σ模型参数)。根据(A.1),密度函数是的(j0)
图解的
哪里
图解的
我们指的是矢量(是的(j0),Zj0) = (是的(j0k),Zj0)k=1,⋯,40个;=0,1,2作为完整的数据向量。完整的数据密度是
图解的
(A.2)
哪里
图解的
z= (z1,z2,z).

A、 2。初始化

我们发现我们的程序对缺失数据的起始值有些敏感。因此,我们没有将这些值随机分配作为第一步,而是使用合理但粗糙的t-提供初始值的测试方法zj0(0)的期望值Zj0. 为每一个,一个片面的t-对(标准化,对数变换)PM的平均值的零假设进行检验A探针强度大于PMB探头。P表示结果P-价值观。如果P0.5,我们指定初始概率图解的,我们分配图解的

A、 3。M步进

对于第M步,我们考虑完整的数据日志可能性,假设当前的预期zj00((一),zj01((一),和zj02((一)对于缺失数据和观测数据的值是的(j0)=是的(j0). 通过表达式(A.2)中的因式分解,这个对数似然可以写成
图解的
在这个等式的右边pj0只出现在第一学期,而α,β,γ,和σ参数只出现在第二项中。因此,我们可以分别最大化每一项。不难看出,第一个表达式,受约束pj00+pj01+pj02=1,在值处最大化
图解的
模型参数的最大似然估计值可使用IRLS计算,如应用于模型(A.1)的Zj0替换为zj0((一)以及是的(j0)通过是的(j0).

A、 4。求期望

我们找到期望值zj0()Zj0基于第M步参数估计Ψ^(). 鉴于Zj0要么是0,要么是1
图解的
根据Bayes定理和(A.2),我们得到
图解的
密度函数使用的地方Ψ^()它们的参数值。
E步和M步反复交替,直到估计值的变化很小,比如之后0台阶。这样,我们得到了两个重要的结果。首先,生成模型参数估计值,可在(2.1)中使用,以拟合来自任何样本的SNP数据,生成SNP的原始ASCN估计值,如第3.2节所示。其次是zj0(0)可用于推断正常样本的基因型。如果需要调用样本,一个简单的规则是
图解的
该方案自动提供了一种测量基因型调用不确定性的方法。研究者可以为max值设置一个阈值(zj0()),低于此值时,呼叫被视为不确定,并给出“不呼叫”的判定。在实践中,我们发现99%是一个合适的阈值。

我们要感谢裁判员和编辑所作的贡献,他们富有见地的评论使论文有了很大的改进。我们也感谢马修·梅耶森在这项工作的早期发展过程中给予的支持和指导。David Harrington得到了美国国家过敏和传染病研究所的资助2R01 AI052817。利益冲突:没有声明。

工具书类

昂飞
基因芯片人体测绘100K套数据表
2004
加利福尼亚州圣克拉拉
Affymetrix公司
比涅尔
GR公司
J
格雷肖克
J
瓦特
S
管家
A
西部
S
格里戈洛娃
琼斯
千瓦
世界环境学会
W
斯特拉顿
先生
其他
利用寡核苷酸微阵列进行DNA拷贝数的高分辨率分析
基因组研究
2004
,卷
14
(第
287
-
95
)
博尔斯塔德
BM公司
虹彩
阿斯特兰
速度
总磷
基于方差和偏差的高密度寡核苷酸阵列数据归一化方法比较
生物信息学
2003
,卷
19
(第
185
-
93
)
登普斯特
美联社
莱尔德
海里
鲁宾
分贝
基于EM算法的不完全数据最大似然估计
英国皇家统计学会杂志,B辑
1977
,卷
39
(第
1
-
38
)
J
世界环境学会
W
J
线路接口单元
G
比涅尔
GR公司
斯特拉顿
先生
未来世界
宾夕法尼亚州
伍斯特
R
琼斯
千瓦
沙佩罗
MH公司
高密度寡核苷酸阵列鉴定全基因组DNA拷贝数变化
人类基因组学
2004
,卷
1
(第
287
-
99
)
哈佩
P
斯特兰斯基
N
蒂里
日本
拉德瓦尼
F
巴里约
E
阵列CGH数据分析:从信号比到DNA区域的增减
生物信息学
2004
,卷
20
(第
3413
-
22
)
亚弗拉特
阿杰
费克
里维拉
李斯特维克
毫升
多纳霍
PK键
是的
舍勒
西南
C
人类基因组大规模变异的检测
自然遗传学
2004
,卷
36
(第
949
-
51
)
虹彩
霍布斯
B
科林
F
巴克莱银行
安东内利斯
千焦
舍夫
美国
速度
总磷
高密度寡核苷酸阵列探针级数据的探索、规范化和总结
生物统计学
2003
,卷
4
(第
249
-
64
)
石川
S
三协光机
D
S
西村
K
山本
S
熊猫
B
J
深山
琼斯
千瓦
油谷
H
基因分型芯片等位基因剂量分析
生物化学和生物物理研究交流
2005
,卷
333
(第
1309
-
14
)
拉芬姆博伊斯
TL公司
文学士
贝鲁希姆
R
C
哈林顿
D
卖方
WR
梅耶森
SNP阵列分析显示肿瘤等位基因特异性扩增
计算生物学
2005
 
1,e65
世界环境学会
LJ公司
卖方
WR
利伯法布
白色
C
dChipSNP:基于SNP阵列的杂合度丢失数据的显著性曲线和聚类分析
生物信息学
2004
,卷
20
(第
1233
-
40
)
林布拉德·托赫
K
坦南鲍姆
DM公司
伤残调整生命年
乔丹
温彻斯特
E
维拉帕卡姆
A
斯坦顿
东南方
拉松
C
哈德逊
TJ公司
约翰逊
其他
应用单核苷酸多态性阵列分析小细胞肺癌的杂合子丢失
自然生物技术
2000
,卷
18
(第
1001
-
5
)
麦克拉格
P
奈德勒
青年成就组织
广义线性模型
1989
第二版
佛罗里达州博卡拉顿
出版社
纳夫
F
索奇
ND公司
麦格纳索
寡核苷酸阵列的准确度和精密度研究:在大浓度下提取更多的信号
生物信息学
2003
,卷
19
(第
178
-
84
)
南雅
是的
三田
中崎
K
细谷
N
汉盖什
A
黑川
千叶
S
贝利
丹麦克朗
肯尼迪
气相色谱仪
其他
基于高密度寡核苷酸单核苷酸多态性基因型阵列的拷贝数检测算法
癌症研究
2005
,卷
65
(第
6071
-
9
)
波尔泽
J
斯波科尼
S
自适应加权平滑及其在图像恢复中的应用
英国皇家统计学会杂志,B辑
2000
,卷
62
第页
335
-
54
)
研发开发C矿石TEAM公司
R: 统计计算语言和环境
2006
奥地利维也纳
统计计算基础
 
塞巴特
J
拉克希米
B
践踏
J
亚力山大
J
年轻
J
伦丁
P
马内尔
S
马萨
H
散步的人
芝加哥
其他
人类基因组中的大规模拷贝数多态性
科学类
2004
,卷
305
(第
525
-
8
)
文学士
拉芬姆博伊斯
T
贝鲁希姆
R
加拉维
贝赫什提
J
JC公司
直树
K
理查兹
工作组
其他
单核苷酸多态性阵列分析显示肺癌纯合子缺失和染色体扩增
癌症研究
2005
,卷
65
(第
5561
-
70
)