跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2011年7月;39(12): 4928–4941.
2011年3月11日在线发布。 数字对象标识:10.1093/nar/gkr014
预防性维修识别码:PMC3130254型
PMID:21398628

GPHMM:一种使用全基因组SNP阵列识别复杂肿瘤样本拷贝数变化和杂合性损失的集成隐马尔可夫模型

关联数据

补充资料

摘要

使用单核苷酸多态性(SNP)基因分型阵列来分析肿瘤中的染色体重排越来越受到关注,因为它们可以同时检测拷贝数和杂合性丢失,并具有高分辨率。据报道,非整倍体引起的信号基线偏移、正常细胞污染和GC含量偏差等关键问题会显著改变SNP阵列信号,并使癌症基因组畸变的准确识别变得复杂。为了解决这些问题,我们提出了一种新的全局参数隐马尔可夫模型(GPHMM)来解开肿瘤样本产生的复杂基因分型数据。与其他HMM方法相比,GPHMM的一个显著特点是,上述问题通过全局参数进行定量建模,并集成在统计框架中。我们开发了一种有效的EM算法用于参数估计。我们对三个数据集的性能进行了评估,结果表明GPHMM能够正确识别含有10%癌细胞的肿瘤样本中的染色体畸变。此外,我们还证明了GPHMM中全局参数的估计提供了肿瘤样本的生物学特性和SNP阵列实验中基因分型信号质量的信息,这有助于队列研究中的数据质量控制和离群值检测。

简介

癌症基因组的一个关键特征是染色体畸变(1). 重复出现的基因组畸变,如拷贝数增加或减少以及杂合性丢失(LOH),通常与癌基因、抑癌基因和参与癌症发展的基因的不当表达有关(2). 根据HER2(ERBB2)扩增和MYCN等个体基因组异常的关联,已经建立了临床结果和染色体畸变之间的关系(1)或染色体异常的不同模式().

关于乳腺癌基因构成的最新数据表明,基因组的特定区域通常被扩增,这些区域包含推动癌症进展的基因。一个重要扩增区的最好例子是含有HER2癌基因的17q12扩增子。该扩增子可导致更具侵袭性的肿瘤,目前已成为高度成功的抗体治疗曲妥珠单抗(Herceptin®)的靶点。基于共表达和与HER2基因的接近性,一些基因已被定位到HER2扩增子(4–7). 已经观察到,RNAi敲低17q12扩增子内的共扩增基因导致细胞增殖减少和凋亡增加(8). 因此,17q12扩增子编码有助于肿瘤表型的协同遗传程序。

临床上,荧光等细胞遗传学技术就地杂交(FISH)已成功用于检测癌细胞的染色体畸变(1). 细胞遗传学技术不允许进行高分辨率全基因组分析,因此,首先使用质粒探针开发了阵列比较基因组杂交(aCGH)(9)然后使用寡核苷酸探针(10). 引入单核苷酸多态性(SNP)基因分型阵列进行拷贝数分析是一项重大进步,因为它们可以同时检测拷贝数和等位基因不平衡(包括LOH),并具有高分辨率。来自两个平台Affymetrix的SNP阵列(11)和Illumina(12),因其高质量和探针数量而被广泛采用。尽管这两个平台之间存在技术差异,但如果Affymetrix SNP阵列中的原始数据可以转换为Illumina平台中使用的对数比(LRR)和B等位基因频率(BAF)信号,并且伴随适当的归一化和转换,则可以应用类似的算法(13,14).

虽然已经提出了各种计算方法来从SNP阵列数据中自动检测拷贝数变化或LOH(13–25),其中许多方法并不是专门为研究癌症基因组中的染色体畸变而设计的,也没有解决以前对肿瘤样本的研究中遇到的一些关键问题(13,15,22,24,25). 具体来说,最近的研究(24,25)已经表明,在SNP阵列实验中,样本DNA被视为具有近似正常(近二倍体)基因组,因此标准化强度信号可能无法正确指示癌细胞中潜在的非整倍体。仅从LRR信号来看,具有完整三倍体基因组的癌细胞无法与具有正常二倍体基因的癌细胞区分开来。为了解决这个问题,新的算法如OverUnder(24)和间隙(25)提出了修正误移LRR信号基线的方法。这些算法不仅可以从总信号强度推断拷贝数,还可以从等位基因不平衡信息推断拷贝数。OverUnder检验从BAF信号中观察到的具有不同模式的区域中的LRR分布;例如,以0.5为中心的BAF拉伸表示偶数副本编号(24). 对于Affymetrix平台,Greenman等。(26)针对非整倍体癌症样本,介绍了一种预处理变换和隐马尔可夫模型算法。这些方法提高了我们对复杂肿瘤样本SNP阵列数据中系统偏差的理解。

鉴定癌细胞染色体畸变的另一个问题是,从肿瘤中提取的活检通常包含正常的非肿瘤细胞(如基质和淋巴细胞),这可能导致SNP阵列实验产生的LRR和BAF信号发生显著变化。据报道,少量正常细胞与肿瘤细胞混合有助于识别体细胞缺失(15,22). 另一方面,肿瘤样本中正常基质细胞比例的增加将使LRR和BAF信号收敛到二倍体基因组的典型模式(23). 换言之,正常细胞污染降低了SNP阵列实验中的信噪比,当活检中正常细胞占主导地位时,染色体畸变最终可能无法检测到。一些研究试图通过建模受污染肿瘤样本中LRR和BAF信号的动态模式来解决这个问题(13,15,22,23,25). 例如,SiDCoN提供了正常细胞污染情况下LRR/BAF信号的经验公式(23). 用于BAF信号的公式后来被证明与BAF分段方法(15)该技术仅使用BAF信号检测癌细胞中的LOH和等位基因失衡。最近,Sun等。(13)提出了一种不同的方法来解决这个问题。他们认为,PennCNV中使用的具有固定拷贝数变化参数的HMM(14),不适合分析肿瘤样本。相反,由于肿瘤样本中正常细胞污染的比例不同,因此需要样本特异性HMM。因此,他们引入了一种名为genoCNA的HMM,该HMM基于传统的连续HMM,具有用于参数估计的训练程序。

在SNP阵列数据的评估中还有另一个重要问题。磁盘in等。(27)在Illumina和Affymetrix平台上都发现了基因组波,这可能会妨碍准确推断拷贝数变化。他们进一步证明LRR信号中的波浪效应与GC含量的相关性最好,并提出了一个线性回归模型来校正GC含量偏差。然而,该模型的一个基本假设是,用于回归的SNP应该具有相同的拷贝数,因为拷贝数是确定LRR信号的最有影响的因素。因此,该模型适用于具有稀疏拷贝数改变事件的正常基因组,但可能不适用于具有广泛染色体异常的肿瘤样本。

至关重要的是,上述所有问题都会相互影响,如果发生在同一样本中,则会使拷贝数和LOH的确定变得极为复杂。例如,非整倍体肿瘤中LRR信号移位的OverUnder方法可能因正常细胞污染导致BAF信号模式改变而失败。同样,从改变的BAF信号中确定正常细胞比例或调整GC含量偏差的方法也可能失败,因为如果非整倍体导致基线偏移错误,则无法从LRR信号直接推断拷贝数。最后,由于非整倍体、正常细胞污染和GC含量偏差,无法定量测量LRR信号转移的影响,这将阻碍癌症基因组中拷贝数变化和LOH的正确识别。因此,最好可以根据中建议的经验模型将所有这些问题整合在一起(15,17,22,23,25,27)然后在检测方法中同时寻址。例如,使用参考文献中验证过的LRR/BAF信号的动态模型。(15,25),波波娃等。(25)开创了一种模式识别方法,首先用LRR基线偏移和正常细胞比例参数化的基因组改变打印(GAP)模板建模,然后对所有参数配置进行彻底搜索,识别所有可行的GAP模板,根据预定义的标准从中选择最佳解释。通过同时建模和解决这两个问题,该方法在不同数据集上表现出比OverUnder更好的性能(25).

我们之前已经开发了一种HMM方法,用于使用SNP阵列数据检测肿瘤染色体畸变,该方法解决了其中一些问题,但需要手动注释LRR偏移和正常细胞比例(28). 在本研究中,我们引入了一种新的方法,称为全局参数隐马尔可夫模型(GPHMM),它可以自动从肿瘤样本DNA中分离SNP阵列数据中的拷贝数变化和LOH。我们提出了新的观测概率密度函数(pdf),以允许对所有这些问题进行定量建模,而不是试图分别解决上述每个复杂问题。与GAP的意图类似,GPHMM提供了对肿瘤样本基因分型信号统计分布的全面描述,并通过将其纳入HMM统计框架来解决这些问题的新方法。GPHMM不仅为这些问题提供了改进的解决方案,而且能够自动准确地识别分析中每个SNP的拷贝数和LOH状态。

方法

隐藏状态的定义

GPHMM中使用的隐藏状态的定义如所示表1这里,我们用“A”和“B”来表示从父母那里继承的两个SNP等位基因。本研究模拟了不同类型的染色体异常,如拷贝数增加/丢失和LOH。此外,我们使用肿瘤和正常细胞基因型对来说明肿瘤基因型与混合在肿瘤样本中的正常细胞的基因型之间的内在关系。例如(AAB公司,AB)表示肿瘤基因型为“AAB”,而正常细胞基因型是“AB”。假设了这两种基因型的某些限制,这与genoCNA使用的隐藏状态定义所涉及的假设类似(13). 我们假设肿瘤基因型来源于正常细胞的基因型;例如,当正常基因型为纯合子时,肿瘤基因型只能是纯合子;当正常基因型为杂合型时,肿瘤基因型可以是杂合型或纯合型。鉴于阵列杂交中的饱和效应,基因分型信号可能无法提供足够的分辨力来检测拷贝数大于或等于5的隐藏状态之间的差异,因此本研究中建模的最大拷贝数状态设置为5。此外,还使用一个表示为0的特殊隐藏状态来表示偶然的信号波动。信号波动的影响是唯一的公式(详见下一节),与其他隐藏状态无关。相反,它是在PennCNV其他状态的观测pdf中建模的(14)和genoCNA(13). 最后,为了避免实践中可能出现的溢出问题,将删除两个副本的副本数设置为0.01的小正数。

表1。

GPHMM中隐藏状态的定义

副本编号等位基因信息拷贝号更改状态(肿瘤基因型、正常细胞基因型)
0不适用不适用波动效应(不适用,AA)(不适用,BB)(不适用,AB)
10删除删除两份副本(不适用,AA)(不适用,BB)(不适用,AB)
21LOH公司删除一份副本(A类,AA)(B类,BB)(A类,AB)(B类,AB)
2杂合的正常(AA公司,AA)(BB公司,BB)(AB公司,AB)
42LOH公司使用LOH复制中性点(AA公司,AA)(AA公司,AB)(BB公司,BB)(BB公司,AB)
5杂合的三个拷贝,一个等位基因重复(美国汽车协会,AA)(英国广播公司,BB)(AAB公司,AB)(ABB公司,AB)
6LOH公司LOH三份(美国汽车协会,AA)(美国汽车协会,AB)(英国广播公司,BB)(英国广播公司,AB)
74杂合的四个拷贝,一个等位基因重复(美国汽车协会,AA)(BBBB公司,BB)(阿拉伯联合酋长国,AB)(ABBB公司,AB)
84杂合的四个拷贝,两个等位基因重复(美国汽车协会,AA)(BBBB公司,BB)(阿拉伯联合酋长国,AB)
94LOH公司LOH四份(美国汽车协会,AA)(BBBB公司,BB)(美国汽车协会,AB)(BBBB公司,AB)
105杂合的五个拷贝,一个等位基因重复(美国汽车协会,AA)(BBBBB公司,BB)(AAAAB公司,AB)(ABBBB公司,AB)
115杂合的五个拷贝,两个等位基因重复(美国汽车协会,AA)(BBBBB公司,BB)(AAABB公司,AB)(AABBB公司,AB)
125LOH公司LOH五份(美国汽车协会,AA)(BBBBB公司,BB)(美国汽车协会,AB)(BBBBB公司,AB)

观测概率密度函数

在本研究中,我们提出了GPHMM中新的观察pdf,其中包括肿瘤基因分型数据分析中问题的不同定量模型。我们将观测pdf中使用的参数称为全局参数。它们是所提出统计框架的关键参数,本质上控制GPHMM中所有隐藏状态的LRR和BAF信号的分布。总共使用了五个不同的全局参数:正常细胞的比例(表示为保存图片、插图等的外部文件。对象名称为gkr014i1.jpg),LRR基线偏移(表示为o(o)),所调查SNP的GC含量系数(表示为小时)以及LRR和BAF信号的标准偏差(表示为保存图片、插图等的外部文件。对象名为gkr014i2.jpg保存图片、插图等的外部文件。对象名为gkr014i3.jpg)。这些全局参数可能受肿瘤样本的遗传组成、染色体畸变特征、DNA质量、SNP阵列平台特征以及实验期间的其他技术细节的影响。

假设LRR信号(代表全部等位基因强度)数组中的第个SNP是保存图片、插图等的外部文件。对象名为gkr014i4.jpg,然后是隐藏状态的观察pdfc(c)(状态0除外,见下文)可以公式化为(这里我们简单假设GPHMM中的所有隐藏状态具有相同的信号方差):

方程式图像
(1)

在这里保存图片、插图等的外部文件。对象名为gkr014i5.jpg是标准正态分布的pdf。保存图片、插图等的外部文件。对象名为gkr014i6.jpg是与关联的GC内容第th个SNP(27)对数部分采用参考文献中介绍的公式(23)其中,每个隐藏状态的LRR信号的预期平均值与相应的平均拷贝数之间存在对数线性关系。平均拷贝数保存图片、插图等的外部文件。对象名为gkr014i7.jpg,定义为:

方程式图像
(2)

在这里保存图片、插图等的外部文件。对象名为gkr014i8.jpg保存图片、插图等的外部文件。对象名为gkr014i9.jpg是正常细胞的拷贝数和处于状态的肿瘤的拷贝数c(c)分别是。例如,在无正常污染的情况下,状态0的平均拷贝数按方程式计算(2)为0.01,预期的理论LRR平均值(假设GC含量偏差和LRR基线偏移均未发生)为-4.6,这与参考文献中报告的结果一致(23). 利用上述公式,同时模拟了非整倍体、正常细胞污染和GC含量偏差对LRR信号偏移的影响。由于两个不同等位基因的强度比,BAF信号不受非整倍体或GC含量偏差的直接影响。然而,它们对正常的细胞污染极为敏感。基于参考文献中描述的现有模型(15)和(23),我们推导了BAF信号的pdf第个SNP处于状态c(c)(c(c)>1) 作为:

方程式图像
(3)

在这里保存图片、插图等的外部文件。对象名为gkr014i10.jpg是状态中包含的基因型对数c(c).保存图片、插图等的外部文件。对象名为gkr014i11.jpg是观察基因型对的先验概率k个,根据正常人群的BAF估算(14)相对于基因型对中正常细胞的基因型。保存图片、插图等的外部文件。对象名为gkr014i12.jpg保存图片、插图等的外部文件。对象名为gkr014i13.jpg是基因型对中正常和纯肿瘤细胞BAF信号的理论平均值k个。例如保存图片、插图等的外部文件。对象名称为gkr014i14.jpg保存图片、插图等的外部文件。对象名称为gkr014i15.jpg表示状态5下第四个基因型对的肿瘤BAF信号的平均值[即(ABB,AB),参见表1],在本研究中定义为0.667。GPHMM的实现,方程式(),通过使用镜像BAF信号(等于或大于0.5)进一步简化,这需要更少的基因型配置(15). 例如,在状态3中,只有两个基因型对:(BB公司,BB)和(AB公司,AB)。最后,应该指出,由于考虑到模型简单性和计算成本,参考文献中研究了BAF信号截断的影响(13)方程式中未考虑().

对于状态为0的SNP,从SNP阵列实验中无法获得有关肿瘤基因型的信息。因此,采用均匀分布来近似LRR和BAF信号的pdf:

方程式图像
(4)

方程式图像
(5)

在本研究中,,b条LRR设置为−5,5,a′,b′BAF设置为0,1。

GPHMM的EM算法

针对标准HMM,提出了参数估计算法,并成功应用于语音识别等领域(29). 在本研究中,我们提出了一种EM算法(30)专门为GPHMM设计,用于更新算法中的全局参数。如参考文献所建议(30)对于有限混合,我们只能使用部分log-likelihood函数来估计全局参数。具体来说,在n个EM算法的第次迭代,给定LRR数据,我们可以将部分对数似然表示为:

方程式图像
(6)

在这里,保存图片、插图等的外部文件。对象名称为gkr014i16.jpg是观察到的LRR值第个SNP和保存图片、插图等的外部文件。对象名称为gkr014i17.jpg是一个指示函数,值为1,如果第个SNP处于状态c(c)在肿瘤细胞中,否则为0。C类是隐藏状态的总数。在EM算法的期望步骤中,LRR数据的部分对数似然期望公式如下:

方程式图像
(7)

在这里保存图片、插图等的外部文件。对象名为gkr014i18.jpg苏格兰民族党执政c(c),可以通过前向-后向算法计算(29). 同样,我们可以得出BAF数据的部分对数似然函数的期望值为:

方程式图像
(8)

在这里保存图片、插图等的外部文件。对象名称为gkr014i19.jpg是观察到的BAF信号第个SNP。在EM算法的最大化步骤中,我们采用了坐标上升算法,以增加总部分对数似然的期望值,即方程右侧的和(7)和(8),针对不同的全局参数。首先,我们选择保存图片、插图等的外部文件。对象名为gkr014i20.jpg并用上一次迭代获得的相应值替换其他全局参数。通过对保存图片、插图等的外部文件。对象名称为gkr014i21.jpg并将其设置为0,我们导出以下公式来更新全局参数保存图片、插图等的外部文件。对象名为gkr014i22.jpg对于下一个迭代:

方程式图像
(9)

具有

方程式图像
(10)

同样,我们更新保存图片、插图等的外部文件。对象名为gkr014i23.jpg保存图片、插图等的外部文件。对象名称为gkr014i24.jpg通过

方程式图像
(11)

方程式图像
(12)

方程式图像
(13)

最后,我们关注方程式中的预期可能性(13)用于更新全局参数w个,因为它已经显示(15,23)BAF信号对正常细胞污染非常敏感。因此,如果有关拷贝数状态的信息可用(在此设置中,拷贝数信息从保存图片、插图等的外部文件。对象名称为gkr014i25.jpg). 使用上述策略,我们得到以下公式来更新w个通过替换保存图片、插图等的外部文件。对象名称为gkr014i26.jpg具有保存图片、插图等的外部文件。对象名称为gkr014i27.jpg在此过程中:

方程式图像
(14)

该算法被限制为识别w个区间[0 0.9],因此如果保存图片、插图等的外部文件。对象名称为gkr014i28.jpg小于0或大于0.9,则分别设置为0或0.9。我们注意到方程中的闭合形式(14)即使在实践中效果很好,也只能提供近似的解决方案。或者,一些数值方法,例如牛顿-拉夫森方法(31),也可以在GPHMM中用于估算w个

用于状态转移矩阵的估计A类和初始状态分布保存图片、插图等的外部文件。对象名称为gkr014i29.jpg我们使用参考文献中讨论的标准方法(29)因为它与全局参数无关。实际上,GPHMM的EM算法实现如下:(i)从初始参数开始(保存图片、插图等的外部文件。对象名称为gkr014i30.jpg)并计算中间参数保存图片、插图等的外部文件。对象名称为gkr014i31.jpg使用标准的前向后退算法,(ii)更新保存图片、插图等的外部文件。对象名为gkr014i32.jpg使用上述方法,(iii)重复步骤1和2,直到算法收敛。一旦完成此训练过程,最后一次迭代中的全局参数将作为最优估计量输出。同时,SNP阵列中每个探针的基因型、拷贝数和LOH状态都可以从与最大后验概率相关的隐藏状态中推断出来。

参数初始化

在本研究中,使用以下公式预定义GPHMM中的初始状态概率:

方程式图像
(15)

在这里N个是GPHMM中定义的隐藏状态数。波动概率的初始值保存图片、插图等的外部文件。对象名为gkr014i33.jpg设置为较小的值10−4。对于其他状态,初始值被设置为相同,即没有事先信息。对于状态转移概率,初始值确定如下:

方程式图像
(16)

保存图片、插图等的外部文件。对象名称为gkr014i34.jpg是两个不同非涨落状态之间的初始跃迁概率,设置为10−5在本研究中。全局参数的初始值小时,保存图片、插图等的外部文件。对象名为gkr014i35.jpg保存图片、插图等的外部文件。对象名为gkr014i36.jpg根据我们对各种SNP阵列数据集(数据未显示)的数据质量控制分析,将设置为0、0.2和0.03,这是具有良好基因分型信号质量的正常SNP阵列的期望值。此外,我们的分析表明,全局参数的适当初始值o(o)保存图片、插图等的外部文件。对象名称为gkr014i37.jpg是建模训练所必需的,因此需要进行简单的网格搜索(31)在GPHMM中采用这两个参数中的一个,以找到最佳初始参数。

GPHMM的实施

使用Matlab/C高效实现GPHMM的方法可从以下网址获得:http://genecube.med.yale.edu:8080/GPHMM网站有关每个SNP探针的GC含量和BAF的信息可从PennCNV包中获得(14). 使用2.33GHz CPU和2G RAM的标准台式PC运行人类610-Quad(~610000 SNP探针)样本通常不到10分钟。此实用程序不仅可以准确预测每个SNP探针的基因型、拷贝数和LOH状态,而且还可以估计全局参数以及其他信息,例如癌症基因组中异常染色体区域的比例和肿瘤细胞DNA指数。它还包括一个可用于可视化LRR/BAF信号和复制编号/LOH结果的功能。

SNP阵列

在单剂量曲妥珠单抗(T)(8mg/m2)对80名HER2过度表达的早期乳腺癌患者进行曲妥珠单抗和化疗的临床试验。使用Qiagen AllPrep试剂盒(美国加利福尼亚州巴伦西亚市Qiangen)从109份核心活检中提取核酸。在W.M.Keck基金会微阵列资源(美国康涅狄格州纽黑文)的协助下,使用人类610-四(v1.0)DNA分析珠芯片试剂盒(Illumina Inc.,加利福尼亚州圣地亚哥)对DNA进行分析。从Illumina BeadStudio实用程序生成归一化强度信号,然后由tQN处理(32)为了消除BAF信号中可能存在的不对称性。

鱼类

组织制备和FISH是按照制造商的指南进行的(美国伊利诺伊州唐纳斯·格罗夫,雅培分子公司,Vysi®)。用二甲苯脱蜡切片,并用Vysi®预处理试剂盒II进行预处理。LSI TOP2A光谱橙/HER2/neu光谱绿/CEP 17光谱水探针;ProVysion™多色探头;LSI Cyclin D1 Spectrum Orange/CEP 11 Spectrum Green Probe用于杂交。探针和组织在75°C的ThermoBrite®(Abbott Molecular)上共变性6分钟,在39°C下杂交17–19小时。使用快速清洗方案。至少列举了20个肿瘤细胞(范围为20-80个细胞)。

结果

稀释系列数据

我们首先测试了GPHMM在与已知比例的癌细胞DNA混合的乳腺癌/正常细胞系稀释系列中的性能(15). 将非整倍体癌细胞系(ATCC:CRL-2324D)的基因组DNA与正常细胞系的DNA(ATCC:CRL-2325D)以0-0.9的比例混合,然后与Illumina Human370K BeadChips杂交。测试前检查了每个样本的基因分型数据,并确定了正常细胞系第6和16号染色体上的大面积杂合缺失(补充图S1)并从进一步分析中移除。所有混合物样本以及癌细胞株都是针对GPHMM进行的,估计的全局参数如所示表2LRR/BAF信号的标准偏差(保存图片、插图等的外部文件。对象名称为gkr014i40.jpg保存图片、插图等的外部文件。对象名称为gkr014i41.jpg)对于不同稀释度的样品,其初始值接近0.2和0.03,表明所有这些样品都具有良好的信号质量。GC含量系数(小时)对于不同稀释度的样品,显示出较小的绝对值,这表明在该数据集中没有显著的GC含量偏差。这些结果与我们在人工检测BAF和LRR基因组图中的发现相一致。另一方面,我们发现LRR信号偏移与正常细胞DNA比例之间存在很强的相关性(相关系数>0.98)(图1). 最显著的LRR信号转移发生在纯癌细胞系DNA中。随着正常细胞DNA百分比的增加,混合样品中的整体非整倍体减少,LRR位移也相应减少。当正常细胞比例达到0.9时,GPHMM识别的LRR基线偏移几乎变为零以上。这些结果进一步支持了癌症非整倍体导致SNP阵列实验中LRR基线偏移(24). 此外,我们检查了估计的w个并将其与SNP阵列上使用的实际比例进行比较。如所示表2,全局参数w个经GPHMM估计,在不同稀释度下,接近正常细胞DNA的真实比例。例如,在以正常细胞为主,仅含10%癌细胞DNA的混合样本“CRL2324_10pc_Tum”中,GPHMM仍然可以从极微弱的染色体畸变信号中准确地确定正常细胞DNA的比例。对全局参数的分析提供了有关SNP阵列实验的有用信息,例如基因分型信号的质量和混合样本的遗传组成。相比之下,GAP还可以正确估计混合样本中正常细胞DNA的低比例和中等比例,但由于错误地将样本“CRL2324_10pc_Tum”和“CRL234_14pc_Tum)视为纯二倍体样本,因此无法识别样本中的高正常污染。

保存图片、插图等的外部文件。对象名为gkr014f1.jpg

在稀释系列数据中,正常细胞比例和LRR信号偏移之间观察到了很强的相关性。经验回归函数也如图所示。

表2。

稀释序列数据中不同方法估算正常DNA比例的比较

样品GPHMM公司
间隙第页正常DNA比例
o(o)小时保存图片、插图等的外部文件。对象名称为gkr014i38.jpg保存图片、插图等的外部文件。对象名称为gkr014i39.jpgw个
CRL2324_10个_总计0.0110.0270.200.020.900.010.90
CRL2324_14pc_总计−0.0090.0190.190.020.880.010.86
CRL2324_21个_总和−0.0160.0230.200.030.810.840.79
CRL2324_23pc_总计−0.0670.0230.230.030.690.730.77
CRL2324_30pc_总计−0.0460.0220.180.030.720.750.70
CRL2324_34pc_总计−0.0580.0260.230.030.680.720.66
CRL2324_45个_总和−0.0690.0160.220.030.630.660.55
CRL2324_47个_总和−0.1020.0420.220.030.550.580.53
CRL2324_50个_总计−0.1020.0310.250.030.570.590.50
CRL2324_79个百分点_总和−0.1890.0320.240.030.190.200.21
CRL2324型−0.2830.0240.240.020.0200

接下来,我们研究了拷贝数和LOH区域,以进一步评估GPHMM的效率。两种最先进的方法,genoCNA(版本:1.0.8,默认参数,未使用正常组织基因型)和GAP也用于比较。使用稀释系列样本评估不同方法预测性能的一个简单而有效的测量方法是,不同稀释样本的结果相对于纯癌细胞系DNA的预测结果的自我一致性。我们根据LOH状态、拷贝数、拷贝数和LOH状态的预测结果计算了自我一致性百分比(图2). 为了进行公平比较,我们将拷贝数≥4的结果分组,因为genoCNA只识别最大拷贝数为4的基因型。当混合样本中有50%或更多的正常细胞时,GPHMM始终表现出最佳性能,并且相对于genoCNA和GAP具有显著优势。例如,即使只有10%的癌细胞DNA,GPHMM的LOH分配>80%与纯癌细胞系的结果一致,这比基因CNA和GAP获得的自我一致性高约40%。GPHMM对拷贝数状态预测的自我一致性为57%,比genoCNA和GAP的得分高出15%以上。当同时考虑拷贝数和LOH状态时,观察到基因CNA和GAP的自我一致性显著降低,这表明只有一小部分完整的癌症基因组得到了鉴定,而GPHMM保持了相同的良好性能。

保存图片、插图等的外部文件。对象名为gkr014f2.jpg

比较不同方法的自我一致性百分比。()基于LOH状态的自我一致性百分比。(b条)基于拷贝数状态的自我一致性百分比。(c(c))基于拷贝数和LOH状态的自一致性百分比。

中所示的示例图3进一步验证了GPHMM的有效性。它显示了17号染色体上两个相邻LOH区域的基因分型信号和GPHMM分配。随着正常细胞比例的增加,代表不同基因型对的BAF信号显著改变。同时,两个拷贝和三个拷贝之间的LRR信号差异逐渐减小。然而,所有四个样品以及稀释系列数据中的其他样品的拷贝数和LOH分配都非常一致(补充图S2). 为了进行比较,我们还绘制了genoCNA和GAP的结果,并将它们显示在补充图S3和S4GenoCNA不是专为非整倍体样本设计的,因此未能在大多数稀释系列样本中正确识别这些染色体畸变,不同样本的结果差异很大。这表明非整倍体癌症样本产生的SNP阵列数据与二倍体癌症样本显著不同,在任何癌症SNP阵列数据分析方法中都应仔细解决非整倍体引起的问题。此外,应该指出的是,为了比较这三种方法并说明非整倍体引起的LRR信号基线偏移的影响,我们没有包括可用于genoCNA的匹配正常组织的基因分型信息。另一方面,GAP的结果与GPHMM在纯癌细胞系数据中获得的结果有很好的一致性。当正常细胞比例不超过0.66时,GAP也可以检测到大部分LOH区域。然而,GAP对拷贝数状态的分配似乎对实验噪声很敏感。例如,在含有45%癌细胞DNA的样本“CRL2324_45pc_Tum”中,GAP为这两个区域的大多数区域提供了正确的拷贝号分配。然而,对于癌细胞DNA百分比大致相同的样本“CRL2324_47pc_Tum”,GAP结果变得不一致。在正常细胞比例>0.66的样本中,在补充图S4.

保存图片、插图等的外部文件。对象名为gkr014f3.jpg

17号染色体上的LOH区域图和稀释系列数据的GPHMM结果。()样本“CRL2324”的绘图(100%癌细胞DNA)。在这个纯癌细胞系中观察到典型的LOH模式,两个LOH区域的LRR信号存在显著差异。(b条)样本“CRL2324-50pc-Tum”的绘图(50%癌细胞DNA)。由于正常的细胞污染,观察到两个额外的BAF带和LRR信号差异的减少,而GPHMM的结果保持不变。(c(c))样本“CRL2324-14pc-Tum”的绘图(14%癌细胞DNA)。随着正常细胞比例的增加,GPHMM的结果保持不变。(d日)样本“CRL2324-10pc-Tum”的绘图(10%癌细胞DNA)。对于90%的正常细胞,BAF和LRR信号的模式几乎无法识别。然而,GPHMM仍然可以准确地识别这两个LOH区域。

GAP数据

在最近对波波娃的研究中等。(25)使用300K Illumina SNP阵列(人类Hap300-Duo)对40例乳腺癌样本进行了分析。此外,流式细胞术(FCM)获得的18个样本的DNA指数与GAP估计的DNA指数非常接近。为了测试其他方法是否也能提供准确的估计,我们下载了这18个样本的SNP阵列数据,并使用GPHMM和genoCNA进行了分析。首先,绘制每个样本的全基因组数据并进行手动检查,结果表明大多数样本具有良好的数据质量。例如,样本“BLC_B1_T19”的绘图(补充图S5)在整个基因组中表现出非常清晰的LRR/BAF模式,表明高质量的基因分型信号。GPHMM估计的LRR/BAF标准偏差也支持这一结论(表3). 然而,样本“BLC_B1_T14”、“BLC_M1_T17”和“BLC_F1_T22”在LRR和BAF信号中都显著增加了噪声(补充图S5),以及相应的保存图片、插图等的外部文件。对象名称为gkr014i44.jpg保存图片、插图等的外部文件。对象名称为gkr014i45.jpgGPHMM估计值分别为0.42、0.65、0.46和0.06、0.06、0.05(表3). 这些噪声样本可以很容易地从这两个全局参数的直方图中识别出来(补充图S6),为SNP阵列数据的批量分析中的异常值检测和质量控制提供了一种有效的方法。

表3。

GAP数据中不同方法估算肿瘤DNA指数的比较

样品GPHMM公司
间隙
FCM公司
o(o)小时保存图片、插图等的外部文件。对象名称为gkr014i42.jpg保存图片、插图等的外部文件。对象名称为gkr014i43.jpgw个DNA指数第页DNA指数DNA指数
BLC_B1_T14−0.380.0050.420.060.151.610.150.851.14
BLC_B1_T170.040.0800.650.060.300.840.230.820.84
BLC_B1_T19−0.18−0.0130.180.030.551.560.601.631.60
BLC_B1_T20−0.110.0030.180.030.591.390.601.481.41
BLC_B1_T220.070.0470.460.050.090.940.130.941.98
BLC_T07公司−0.150.0120.180.030.561.450.561.491.68
BLC_T09型−0.400.0060.220.030.021.700.081.852.02
BLC_T10公司−0.450.0080.180.030.041.810.051.901.88
BLC_T12公司−0.20−0.0030.190.030.351.480.351.541.51
BLC_T15公司−0.26−0.0190.190.030.421.680.260.891.11
BLC_T23公司−0.090.0290.210.030.571.340.591.391.32
BLC_T31公司−0.38−0.0110.230.040.071.720.161.841.91
BLC_T34公司0.080.0030.240.030.090.980.130.991.55
BLC_T37公司−0.23−0.0510.260.040.081.440.111.531.51
L_B1_T24B−0.18−0.0280.210.030.421.500.411.641.84
L_B1_T25A0−0.0320.170.030.5810.611.041
L_B1_T30−0.39−0.0050.220.040.171.760.221.831.84
L_B1_T470.01−0.0220.190.030.5410.551.031

接下来,我们根据GPHMM和GAP的结果估计DNA指数,方法如下(25)并与FCM分析的实验结果进行了比较(表3). 除了少数不一致的情况外,这两种方法都能很好地预测DNA指数,并对该数据集中的样本的正常细胞比例进行类似的估计。例如,与GAP之前讨论的结果类似(25)GPHMM预测的“BLC_B1_T22”和“BLC_34”的DNA指数约为1,表明基因组近似二倍体。然而,FCM测定的DNA指数表明这些样本中的癌染色体接近四倍体。另一个案例是肿瘤样本“BLC_T15”,其中GPHMM和GAP具有不同的估计值,具有不同的趋势。GPHMM预测的DNA指数为1.68,表明癌症基因组被大量扩增,而实验结果(FCM预测为1.11)表明其只有适度重复。同时,GAP估计的DNA指数仅为0.89,结果中报告了许多染色体缺失区域。

FCM分析结果与这两种计算方法之间的差异实际上可能是由于在这些样本中错误地指定为三个拷贝的肿瘤亚克隆丢失所致。因此,需要进一步的实验研究来验证前面建议的预测结果(25).

HER2阳性乳腺癌数据

除了上面讨论的两个公共数据集外,我们将GPHMM应用于SNP阵列数据集,这些数据来自于80例HER2过度加压(DAKO Herceptest或HER2定义为IHC3+:CEP17比值>2.0)全身治疗前后109例新鲜肿瘤核心活检早期乳腺癌患者参加了一项术前治疗的临床试验。与之前的观察结果类似,约10%的乳腺癌具有基因组特征,但没有明显异常(),一些样本(109个样本中的13个)在所有染色体上都没有明显的基因组畸变,因此不包括在本研究中进行进一步分析。我们首先检查了中所示的全局参数的分布图4在该数据集的一些样本中,观察到非平凡GC系数,这表明GC含量偏差可能是这些样本中的一个问题。例如,绝对GC系数最大的肿瘤样本(小时 = −0.108)显示出明显的GC含量偏差(如补充图S7a). 使用方程式中描述的线性模型消除GC含量偏差后(1)通过估计系数,LRR信号变得更加平滑,这进一步导致拷贝数和LOH状态的平滑一致分配(补充图S7b). 然而,基于全局参数的分布,大多数样本具有良好的信号质量保存图片、插图等的外部文件。对象名称为gkr014i49.jpg保存图片、插图等的外部文件。对象名称为gkr014i50.jpg(如所示图4). 我们还识别了LRR和BAF信号中噪声显著增加的两个离群样本。约91%的肿瘤样本(96例中的87例)与>50%的正常细胞混合,其中60例正常细胞比例大于0.7,12例正常细胞比大于0.85。

保存图片、插图等的外部文件。对象名为gkr014f4.jpg

HER2阳性乳腺癌数据的估计全局参数直方图。左上:()GC系数直方图小时。右上角:(b条)正常细胞比例直方图保存图片、插图等的外部文件。对象名称为gkr014i46.jpg左下角:(c(c))LRR信号的标准偏差保存图片、插图等的外部文件。对象名称为gkr014i47.jpg右下角:(d日)BAF信号的标准偏差保存图片、插图等的外部文件。对象名称为gkr014i48.jpg.

由于该队列中的所有肿瘤活检均取自HER2阳性乳腺癌,因此使用SNP阵列数据对这些样本中的HER2扩增进行有效识别非常重要。基于GPHMM的结果,HER2区域的最大拷贝数分布(根据本研究中使用的HER2 FISH探针推断)如下图所示图5a.约95%的肿瘤样本(96个样本中的91个)被鉴定为HER2扩增,拷贝数大于2。大多数已识别样本(78%)分配了最大拷贝数增益(五个或更多拷贝)。有趣的是,我们发现大多数HER2阳性癌症中17号染色体的基因组模式可以根据GPHMM提供的拷贝数分配分为三类(如图5b) ●●●●。一种常见的基因组模式是HER2基因座中的一个孤立的窄峰,具有高水平的拷贝数扩增(顶部图5b) ●●●●。在其他肿瘤中,HER2扩增跨越更广泛的染色体区域(图5b) ●●●●。最后,在少数情况下,扩增覆盖了染色体的整个q臂(底部图5b) ●●●●。值得注意的是,LRR信号的大幅度变化如图5b,表明如果不进行LRR信号偏移校正,这些样本将不能正确归类为HER2阳性癌。

保存图片、插图等的外部文件。对象名为gkr014f5.jpg

HER2阳性乳腺癌数据中HER2扩增的鉴定。()GPHMM估计的HER2区域最大拷贝数的饼图。CN<2:最大拷贝数<2;CN=2:最大拷贝数等于2;CN=3:最大拷贝数等于3;CN=4:最大拷贝数等于4;CN≥5:最大拷贝数大于或等于5。(b条)HER2阳性乳腺癌数据中确定的HER2扩增的不同基因组模式,箭头指示17号染色体上的HER2位点。

此外,我们还进行了FISH,以进一步评估GPHMM的结果。制备1例患者乳腺癌组织(YBCID:184),并与HER2(17q11.2-q12)、TOP2A(17q21-22)、CCND1(11q13)、ZNF217(20q13.2)、MYC(8q24)和LPL(8p22)6个基因座的特异性FISH探针杂交。此外,还用染色体计数探针(CEP)鉴定了8号、11号和17号染色体着丝粒区的α卫星DNA序列。图6显示了FISH实验的结果,例如图6a多色FISH探针检测到HER2基因座(平均拷贝数23.1)的高水平扩增,TOP2A基因座和17号染色体着丝粒DNA的正常拷贝数与GPHMM估计的最大拷贝数一致(图6d) ●●●●。此外,图6b表明该肿瘤实际上由两个不同的克隆亚群组成:一个以CCND1位点的三个拷贝和11号染色体着丝粒DNA的两个拷贝为特征(用黄色箭头表示),另一个显示有CCND1基因座的四个拷贝和着丝粒DNA的三个复本(用绿色箭头表示)。在这种情况下,基因分型信号极其复杂,因为它们是由三种基因型(两种不同的肿瘤亚群和正常细胞)的混合物产生的。但是,如所示图6d、 GPHMM仍能正确识别第一个肿瘤亚群的拷贝数,结果与FISH估计的拷贝数接近,近似于所有肿瘤亚群拷贝数的平均值。8号染色体上的FISH分析非常相似:在图6c、 GPHMM对一个子群中的拷贝数提供了正确的估计,结果也接近FISH确定的平均拷贝数。基于这些结果以及肿瘤样本中正常细胞的估计比例接近0.8的事实,我们得出结论,GPHMM对于分析肿瘤SNP阵列数据是有效的。

保存图片、插图等的外部文件。对象名称为gkr014f6.jpg

对HER2阳性乳腺癌样本进行GPHMM验证。()肿瘤样本细胞核中HER2(绿色)、TOP2A(红色)和CEP 17(水溶液)探针信号的FISH图像。HER2基因座高度扩增(平均拷贝数23.1)。(b条)肿瘤细胞核中CCND1(红色)和CEP11(绿色)探针信号的FISH图像。黄色和绿色箭头表示两个不同的肿瘤亚群。(c(c))肿瘤样本细胞核中MYC(绿色)、LPL(红色)和CEP 8(水溶液)探针信号的FISH图像。黄色和绿色箭头表示两个不同的肿瘤亚群。(d日)比较FISH探针估计的拷贝数和使用SNP阵列数据的GPHMM结果。

讨论

在本研究中,我们引入了一种新的隐马尔可夫模型,用于利用全基因组SNP基因分型数据检测肿瘤样本中的染色体畸变。与其他方法相比,我们提出的方法具有一些优点。GPHMM是一种新方法,专门用于解码肿瘤样本产生的极其复杂的SNP阵列信号,其中的分析已被证明对肿瘤活检的正常细胞污染非常敏感(13,15,22,23),不同类型的染色体畸变(24,25)以及其他因素,如实验中的DNA数量(27). GPHMM与以往HMM方法的一个显著区别是,在考虑所有这些影响的情况下,GPHMM中采用了新的定量模型作为观察密度函数,从而更准确、全面地描述了肿瘤样本产生的基因分型信号的统计行为。其次,在EM训练算法执行期间,这些模型在GPHMM中自动优化。通过拟合这些定量模型估计全局参数,同时更新GPHMM模型的状态转移矩阵和马尔可夫链中的初始状态分布。这两个参数估计程序协同工作,以最大化观测SNP阵列数据的可能性。基于HMM和EM算法的成熟理论,GPHMM在识别癌症基因组中的染色体畸变方面取得了卓越的性能。当SNP阵列数据被正常细胞严重污染或因非整倍体而发生显著偏移时,其优势最为明显。第三,不像传统的连续HMM那样更新每个隐藏状态的单个平均值和标准偏差,而是直接针对每个样本估计所有隐藏状态共享的全局参数,从而提供有关肿瘤样本和SNP阵列实验的有用信息。全局参数保存图片、插图等的外部文件。对象名称为gkr014i51.jpg保存图片、插图等的外部文件。对象名为gkr014i52.jpg估计与基因分型数据质量相关的LRR和BAF信号的标准偏差。另一个全局参数w个提供了混合正常细胞比例的准确估计,并可以更好地了解肿瘤活检的基因组成。此外,LRR基线偏移o(o)与肿瘤样本中的整体非整倍体和GC系数相关小时是LRR信号中可能存在的GC含量偏差的指示符。从这些全局参数获得的信息可以用于队列研究的预处理过程,尤其有助于数据质量控制和异常值检测。最后,作为HMM方法,我们提出的方法不需要对参考文献中使用的基因分型数据进行初步分割(25)作为整个拟合过程的一部分,因此在拟合极度污染和噪声的样本时非常有利。综上所述,这些独特的建模和优化策略赋予GPHMM优越的性能。

在本研究中,我们还对GPHMM的统计建模进行了以下假设和简化:(i)LRR信号的平均拷贝数与期望平均值之间存在对数线性关系;(ii)GPHMM中定义的所有隐藏状态具有相同的信号方差;(iii)BAF信号的可能截断(13)未考虑在内。这些方法可以大大提高我们提出的模型的稳健性和计算效率,并且有利于挑战具有严重正常细胞污染的癌症样本以及具有非整倍体和GC含量偏差引起的噪声基因分型信号的样本。这些假设和简化也可能降低检测算法的灵敏度,甚至成为仅具有轻微正常细胞污染和良好基因分型信号的不太具有挑战性的癌症样本的缺点。然而,对于我们分析的癌症样本,即使在上述假设被严重违背的情况下,例如在某些状态下具有不同信号方差的数据或受信号截断影响的数据,GPHMM仍然可以提供准确的预测结果。例如,在补充图S8,我们在GAP数据中显示了样本“BLC_T10”的1号染色体的基因分型数据,这两种影响使其复杂化。左侧两个LOH区域的BAF信号的方差小于右侧杂合区域的方差,并且非常接近边界,这表明其中一些信号可能分别被截断为0或1。虽然估计的全局参数保存图片、插图等的外部文件。对象名称为gkr014i53.jpg在这种情况下,可能会变得不准确,包括其他全局参数估计在内的整个统计框架几乎没有受到影响。基因分型信号的估计平均值,由方程式中的经验公式计算(1)和(),由底部两个面板中的红线表示,这清楚地表明GPHMM仍然可以准确地掌握基因分型数据的统计特征,并为每个染色体区域提供关于拷贝数和LOH状态的准确信息。GAP和FCM对该样本分析的总结结果也支持这一结论(参见表3).

定量SNP阵列产生高分辨率的基因分型数据,包括总信号强度以及有关单个等位基因的信息。因此,它们可以通过使用LRR和BAF信号准确识别癌症基因组中的拷贝数变化和LOH。尽管本文和以前的研究都取得了成功,但对于解释肿瘤样本的SNP阵列基因分型数据仍存在一些担忧。一个担忧是,如果不能唯一地确定全局参数和拷贝数/LOH状态,染色体畸变将无法正确识别。正如我们之前提到的,在HER2阳性乳腺癌数据中,有超过10%的肿瘤样本没有明显的染色体畸变。正如Attiyeh指出的那样. (24),由于SNP阵列的技术限制,我们无法确定这些肿瘤中正常细胞的比例。因此,有必要通过组织病理学检查和其他生物技术(如FISH)进行额外的调查。

SNP阵列在癌症研究中应用的另一个障碍是肿瘤的异质性。最近Navin等。(33)研究了乳腺肿瘤的基因组异质性,发现一半以上的肿瘤(20个中的11个)是具有多克隆亚群的多基因肿瘤。这一发现表明,在解释肿瘤SNP阵列数据时,不应忽视肿瘤的异质性。然而,迄今为止,使用SNP阵列识别多基因肿瘤的有效方法很少,因为基因分型信号将代表亚群基因型及其在肿瘤中的比例的变化。正如我们在HER2阳性乳腺癌数据集的分析中所示,尽管该模型不是专门为多基因肿瘤设计的,但GPHMM提供了对拷贝数偏差最大的肿瘤亚群的合理估计。如果有另一个肿瘤亚群与正常细胞非常相似,但有稀疏的局部异常,这个结论仍然成立,但在这种情况下,正常细胞比例的估计可能不准确,因为几乎没有基因组信息可以帮助区分这些“正常样”肿瘤细胞。对GPHMM在肿瘤异质性影响下的性能进行综合评估超出了当前工作的范围。事实上,肿瘤亚群在同一区域可能存在明显的畸变,例如:,一个肿瘤克隆在染色体区域具有扩增,而另一个肿瘤克隆在同一区域具有缺失。在这种情况下,单独使用SNP阵列来阐明所有肿瘤亚群的基因型几乎是无法解决的。因此,需要额外的实验,如FISH,特别是要估计小比例克隆种群(33). 然而,结果表明,GPHMM可以为多基因型比例较低的肿瘤提供合理的拷贝数估计。

补充数据

补充数据可从NAR Online获取。

基金

开放存取费用资金:国防部(拨款W81XWH-04-1-0549型至L.H.);耶鲁大学分子血液学卓越中心第30页DK072442-03NIDDK(致D.T.和V.S.);Susan G.Komen基金会(赠款编号FAS0703853标准提交给D.L.)。

利益冲突声明。未声明。

补充材料

补充数据:

致谢

作者感谢陈敏博士和何云霄博士对这篇文章的批判性阅读。

参考文献

1Albertson DG、Collins C、McCormick F、Gray JW。实体瘤中的染色体畸变。自然遗传学。2003;34:369–376.[公共医学][谷歌学者]
2Bentires-Alj M、Gil SG、Chan R、Wang ZC、Wang Y、Imanaka N、Harris LN、Richardson A、Neel BG、Gu H。支架适配器GAB2在乳腺癌中的作用。自然医学。2006;12:114–121.[公共医学][谷歌学者]
3Hicks J、Krasnitz A、Lakshmi B、Navin NE、Riggs M、Leibu E、Esposito D、Alexander J、Troge J、Grubor V等。基因组重排的新模式及其与乳腺癌生存率的关系。基因组研究。2006;16:1465–1479. [PMC免费文章][公共医学][谷歌学者]
4Jarvinen TA,Liu ET.HER-2/neu和拓扑异构酶IIalpha在乳腺癌中的作用。乳腺癌研究治疗。2003;78:299–311.[公共医学][谷歌学者]
5Keith WN、Douglas F、Wishart GC、McCallum HM、George WD、Kaye SB、Brown R.乳腺癌中erbB2、拓扑异构酶IIα和维甲酸受体α基因的共扩增以及20号染色体上拓扑异构酶I的等位基因缺失。《欧洲癌症杂志》。1993;29安:1469–1475.[公共医学][谷歌学者]
6Smith K,Houlbrook S,Greenall M,Carmichael J,Harris AL.人类原发性乳腺癌和乳腺癌细胞系中拓扑异构酶IIα与erbB2共扩增:与M-AMSA和米托蒽醌敏感性的关系。致癌物。1993;8:933–938.[公共医学][谷歌学者]
7Tanner M,Isola J,Wiklund T,Erikstein B,Kellokumpu-Lehtinen P,Malmstrom P,Wilking N,Nilsson J,Bergh J.拓扑异构酶Ⅱα基因扩增预测HER-2/neu扩增乳腺癌中基于蒽环类的定制和剂量递增辅助化疗的良好治疗反应:斯堪的纳维亚乳腺组试验9401。临床杂志。昂科尔。2006;24:2428–2436.[公共医学][谷歌学者]
8Kao J,Pollack JR。基于RNA干扰的乳腺癌17q12扩增子功能解剖揭示了共扩增基因的贡献。基因染色体癌。2006;45:761–769.[公共医学][谷歌学者]
9Solinas Toldo S、Lampel S、Stilgenbauer S、Nickolenko J、Benner A、Dohner H、Cremer T、Lichter P。基于矩阵的比较基因组杂交:筛选基因组失衡的生物芯片。基因染色体癌症。1997;20:399–407。[公共医学][谷歌学者]
10驻车PJ。阵列比较基因组杂交的实验设计和数据分析。癌症投资。2008;26:923–928.[公共医学][谷歌学者]
11McCarroll SA、Kuruvilla FG、Korn JM、Cawley S、Nemesh J、Wysoker A、Shapero MH、de Bakker PI、Maller JB、Kirby A等。SNP和拷贝数变异的综合检测和群体遗传学分析。自然遗传学。2008;40:1166–1174.[公共医学][谷歌学者]
12Peiffer DA、Le JM、Steemers FJ、Chang W、Jennies T、Garcia F、Haden K、Li J、Shaw CA、Belmont J等。使用Infinium全基因组基因分型对染色体畸变进行高分辨率基因组剖析。基因组研究。2006;16:1136–1148. [PMC免费文章][公共医学][谷歌学者]
13Sun W、Wright FA、Tang Z、Nordgard SH、Van Loo P、Yu T、Kristensen VN、Perou CM。使用高密度SNP阵列对拷贝数状态和基因型调用进行综合研究。核酸研究。2009;37:5365–5377。 [PMC免费文章][公共医学][谷歌学者]
14Wang K,Li M,Hadley D,Liu R,Glessner J,Grant SF,Hakonarson H,Bucan M.PennCNV:一种用于全基因组SNP基因分型数据中高分辨率拷贝数变异检测的集成隐马尔可夫模型。基因组研究。2007;17:1665–1674. [PMC免费文章][公共医学][谷歌学者]
15Staaf J、Lindgren D、Vallon-Christerson J、Isaksson A、Goransson H、Juliusson G、Rosenquist R、Hoglund M、Borg A、Ringner M。使用全基因组SNP阵列基于分段检测癌细胞中的等位基因不平衡和失稳。基因组生物学。2008;9:R136。 [PMC免费文章][公共医学][谷歌学者]
16Huang J,Wei W,Chen J,Zhang J,Liu G,Di X,Mei R,Ishikawa S,Aburatani H,Jones KW,et al.CARAT:使用高密度寡核苷酸阵列检测DNA拷贝数变化的新方法。BMC生物信息学。2006;7:83. [PMC免费文章][公共医学][谷歌学者]
17Laframboise T,Harrington D,Weir BA。PLASQ:一种基于广义线性模型的程序,用于根据SNP阵列数据确定癌细胞中的等位基因剂量。生物统计学。2007;8:323–336.[公共医学][谷歌学者]
18Yamamoto G、Nannya Y、Kato M、Sanada M、Levine RL、Kawamata N、Hangaishi A、Kurokawa M、Chiba S、Gilliland DG等。利用affymetrix单核苷酸多态性基因分型微阵列对未受孕原发性肿瘤标本等位基因组成进行全基因组检测的高灵敏度方法。Am.J.Hum.遗传学。2007;81:114–126. [PMC免费文章][公共医学][谷歌学者]
19Scharpf RB,Parmigiani G,Pevsner J,Ruczinski I.使用高通量SNP阵列评估染色体改变的隐马尔可夫模型。附录申请。斯达。2008;2:687–713. [PMC免费文章][公共医学][谷歌学者]
20Korn JM、Kuruvilla FG、McCarroll SA、Wysoker A、Nemesh J、Cawley S、Hubbell E、Veitch J、Collins PJ、Darvishi K等。SNP、常见拷贝数多态性和罕见CNV的综合基因型调用和关联分析。自然遗传学。2008;40:1253–1260. [PMC免费文章][公共医学][谷歌学者]
21Colella S、Yau C、Taylor JM、Mirza G、Butler H、Clouston P、Bassett AS、Seller A、Holmes CC、Ragoussis J.QuantiSNP:一种客观的Bayes Hidden-Markov模型,用于使用SNP基因分型数据检测和准确绘制拷贝数变化。核酸研究。2007;35:2013–2025. [PMC免费文章][公共医学][谷歌学者]
22Assie G、LaFramboise T、Platzer P、Bertherat J、Stratakis CA、Eng C.异质组织中的SNP阵列:从未配对的单个肿瘤样本中高度准确地收集生殖系和体细胞遗传信息。Am.J.Hum.遗传学。2008;82:903–915. [PMC免费文章][公共医学][谷歌学者]
23Nancarrow DJ、Handoko HY、Stark MS、Whiteman DC、Hayward NK。SiDCoN:一种帮助对SNP芯片数据中DNA拷贝数变化进行评分的工具。公共科学图书馆一号。2007;2:e1093。 [PMC免费文章][公共医学][谷歌学者]
24Attiyeh EF、Diskin SJ、Attiyeh MA、Mosse YP、Hou C、Jackson EM、Kim C、Glessner J、Hakonson H、Biegel JA等。基于非整倍体校正的定量基因分型,从单核苷酸多态性微阵列中确定癌细胞的基因组拷贝数。基因组研究。2009;19:276–283. [PMC免费文章][公共医学][谷歌学者]
25Popova T,Manie E,Stoppa-Lyonnet D,Rigaill G,Barillot E,Stern MH.基因组改变打印(GAP):一种通过SNP阵列获得的复杂癌症基因组图谱的可视化和挖掘工具。基因组生物学。2009;10:R128。 [PMC免费文章][公共医学][谷歌学者]
26Greenman CD、Bignell G、Butler A、Edkins S、Hinton J、Beare D、Swamy S、Santarius T、Chen L、Widaa S等。PICNIC:用微阵列癌症数据预测绝对等位基因拷贝数变化的算法。生物统计学。2010;11:164–175. [PMC免费文章][公共医学][谷歌学者]
27Diskin SJ,Li M,Hou C,Yang S,Glessner J,Hakonarson H,Bucan M,Maris JM,Wang K.全基因组SNP基因分型平台信号强度的基因组波调整。核酸研究。2008;36:e126。 [PMC免费文章][公共医学][谷歌学者]
28Liu Z,Li A,Schulz V,Chen M,Tuck D.MixHMM:使用SNP阵列和与基质细胞混合的肿瘤样本推断拷贝数变化和等位基因不平衡。《公共科学图书馆·综合》。2010;5:e10909。 [PMC免费文章][公共医学][谷歌学者]
29Rabiner LR。语音识别中隐藏马尔可夫模型和选定应用的教程。程序。电气与电子工程师协会。1989;77:257–286. [谷歌学者]
30Dempster AP、Laird NM、Rubin DB。通过em算法从不完整数据中获得最大似然。J.罗伊。Stat.Soc.B-方法。1977;39:1–38. [谷歌学者]
31RAO SS公司。工程优化:理论与实践。纽约州纽约市:Wiley-Interscience;2009[谷歌学者]
32Staaf J、Vallon-Christerson J、Lindgren D、Juliusson G、Rosenquist R、Hoglund M、Borg A、Ringner M。无限光照明全基因组SNP数据的归一化提高了拷贝数估计值和等位基因强度比。BMC生物信息学。2008;9:409. [PMC免费文章][公共医学][谷歌学者]
33Navin N、Krasnitz A、Rodgers L、Cook K、Meth J、Kendall J、Riggs M、Eberling Y、Troge J、Grubor V等。从基因组异质性推断肿瘤进展。基因组研究。2010;20:68–80. [PMC免费文章][公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社