跳到主要内容

利用Affymetrix SNP阵列估计癌症人群混合和等位基因拷贝数的隐马尔可夫模型

摘要

背景

Affymetrix SNP阵列可以同时查询数千个SNP。这使我们能够查看癌细胞的基因组内容,并研究导致癌症的潜在事件。如今,基因组拷贝数通常来源于SNP阵列数据,但针对这项任务提出的算法往往忽略了从配对种系肿瘤样本中的种系细胞中获得的基因型型信息。包括这些信息可以加深我们对“真实”生物情况的理解,例如通过分析等位基因特定的拷贝数。在这里,我们依赖于匹配的生殖系肿瘤样本,并开发了一个隐马尔可夫模型(HMM)来估计肿瘤细胞中的等位基因拷贝数变化。通过这种方法,我们能够估计肿瘤中正常细胞的比例(混合比例)。

结果

我们表明,我们的方法能够高精度地恢复模拟数据集中潜在的拷贝数变化(高于97.71%)。此外,虽然已知的拷贝数可以在含有70%以上癌细胞(和30%以下正常细胞)的模拟癌症样本中很好地恢复,但我们证明,在HMM中包含混合物比例可以提高方法的准确性。最后,该方法在HapMap样本以及膀胱癌和前列腺癌样本上进行了测试。

结论

这里开发的HMM方法使用种系DNA的基因型调用和来自肿瘤DNA的等位基因SNP强度来估计肿瘤中的等位基因拷贝数(包括变化)。它区分了不同的事件,如单亲二异症和等位基因失衡。此外,HMM可以估计混合物比例,从而告知肿瘤样本的纯度。

背景

肿瘤细胞中常见染色体异常,如异常性丢失(LOH)或基因组拷贝数改变。当个体生殖系DNA中的杂合标记在同一个体的癌症DNA中变成纯合标记时,就会发生LOH。这一事件是由于染色体区域的一个等位基因丢失,而另一等位基因被保留、复制(单亲二异)或倍增(单亲多体)。以同样的方式,染色体扩增可以是不平衡的(如果一个染色体区域中只有一个等位基因被倍增),也可以是均衡的(如果两个等位蛋白都被倍增了)。检测染色体异常在癌症研究中非常重要,因为它可以发现可能包含癌症相关基因的染色体区域,例如肿瘤抑制基因或癌基因。它还可用于识别基因组标记(即染色体异常),以区分疾病过程中的临床重要阶段,如转移标记或治疗反应标记。

单核苷酸多态性(SNPs)是人类基因组中大多数遗传变异的原因。它们沿着30亿碱基的人类基因组每100到300个碱基出现一次[1]. 不同的技术(例如Illumina[2],Affymetrix公司[],佩莱根[4])为了同时对分布在整个基因组上的数千个SNP进行基因分型,已经开发了。在本文中,我们主要关注Affymetrix SNP阵列,但注意到我们开发的方法也可以应用于从其他实验平台获得的数据。

Affymetrix技术基于合成高密度寡核苷酸微阵列的基因组杂交。SNP的两个等位基因中的每一个都由10个寡核苷酸(统称为探针)表示,并测量探针中所有探针的杂交(探针)强度[]. 不同的算法[58],已开发用于根据Affymetrix强度正确地对SNP进行基因分型。对于正常样本,由于倍性总是两倍,因此观察到基因型调用的准确性和一致性非常高。然而,由于可能改变倍性数的基因组改变,对癌症样本进行基因分型要困难得多。

隐马尔可夫模型(HMM)被广泛用于恢复产生观测数据序列的未观测潜在状态。与LOH分析相关,HMM被用于从基因型数据推断一个等位基因是丢失还是保留(即两种隐藏状态)[911]. Lin等人[10]和Koed等人[9]开发了HMM方法,主要基于转换的SNP(当癌症样本中AB呼叫变成AA或BB时)对等位基因失衡的存在进行评分。在[11]Beroukhim等人描述了一种基于HMM的方法,用于从未配对的肿瘤样本中识别LOH。他们使用基因型调用来确定SNP标记是处于保留状态还是LOH状态。通过将拷贝数分析整合到分析中,他们可以区分LOH和等位基因不平衡。然而,LOH分析和拷贝数分析是分开进行的。此外,即使考虑到基因分型错误的可能性,LOH分析也高度依赖于基因型调用。

HMM也用于拷贝数分析。在[12]Fridlyand等人开发了一种HMM来分析基于微阵列的比较基因组杂交(阵列CGH)数据。在[13],Zhao等人开发了一种使用Affymetrix SNP阵列推断DNA拷贝数的方法。他们将每个SNP的潜在强度组合成一个单一值,并将这些值用作HMM中的观察数据序列。这些方法不是等位基因特异性的,因此无法区分保留(保留两个等位基因)和单亲二体性(丢失一个等位位基因并复制另一个),在某些癌症中似乎非常重要且广泛传播[14].

最近,已经发表了推断等位基因特异性拷贝数的方法[15,16]. Laframboise等人[15]使用了最初用于阵列CGH的循环二进制分割(CBS)算法[17]. Huang等人[16]采用核平滑方法估计等位基因拷贝数的变化。在[18],Nannya等人描述了一种HMM,以根据观察到的SNP强度比序列推断等位基因拷贝数,相应的正常SNP标记是杂合的。

在本研究中,我们开发了一种HMM方法,使用Affymetrix SNP阵列推断等位基因特异性拷贝数。在某种意义上,该方法适用于配对的正常肿瘤样本。它将正常样本的基因型调用、肿瘤样本的等位基因特异性强度作为输入,并输出每个SNP的每个等位基因的估计拷贝数状态。为了限制潜在马尔可夫链的状态空间,我们将每个等位基因的可能拷贝数限制为0、1、2和>2。许多肿瘤样本含有大部分正常细胞,这可能会影响该方法的性能。因此,我们纳入了从数据中估计群体混合(癌细胞比例;以下称为混合比例)的可能性,并将其用于分析。我们这样做的方式与Fridland等人的阵列CGH方法类似[12]. 我们在模拟数据集、HapMap项目的正常样本以及膀胱和前列腺肿瘤样本上测试了HMM模型。

结果和讨论

我们首先对90个HapMap阵列和134个癌症阵列进行标准化,并按照方法中的描述转换等位基因强度。然后,我们为三组阵列中的每一组选择SNP:HapMap组、膀胱组和前列腺组。按照方法所述,仅使用每组的正常样本进行选择。选择后,我们为HapMap组选择了17198个SNP,为膀胱组选择了15237个SNP和为前列腺组选择了17541个SNP。

将归一化等位基因强度和生殖系DNA的基因型作为HMM的输入。HMM输出每个选定SNP的等位基因拷贝数。为了限制HMM的状态数,我们定义了与不同事件相对应的六种类别:生殖系状态或正常状态、杂合缺失状态、纯合缺失状态,单亲二体或单亲多体状态、不平衡扩增状态和平衡扩增状态(图1安培1B年). 转移概率(考虑两个连续SNP时从一个状态转移到另一个状态的概率)使用三个参数定义:两个可变参数,第页第页和一个固定参数,ε(见方法和图1摄氏度一维). 这个第页参数对应于从正常状态跳到异常状态第页参数对应于在两个异常状态和ε参数对应于涉及双事件的两个状态之间的跳跃。在这里ε固定为0.00001。

图1
图1

HMM的状态和过渡矩阵.A类此图显示HMM中状态的定义。生殖系DNA的基因型调用由字母N=AB、AA或BB给出。对于每个状态,给出了总DNA拷贝数和等位基因拷贝数。状态0是种系状态,也称为正常状态;状态1对应于杂合缺失(丢失一个等位基因);状态2对应于纯合缺失(两个等位基因丢失);状态3对应于单亲双/多体(一个等位基因的丢失和其他等位基因重复或增殖);状态4对应于不平衡扩增(仅一个等位基因的复制或增殖);状态5对应于平衡扩增(两个等位基因的复制或增殖)。请注意,当生殖系DNA中的SNP标记为纯合子时,状态3、4和5非常相似,在单亲二体性的情况下,状态0和3无法区分。B类.状态的视觉解释。C类转移矩阵。转移概率是SNP从一个状态转移到下一个SNP的另一个状态的概率。矩阵的其余部分由详细的平衡方程和对称性给出。D类.过渡参数的目视解释。该图表示样本中的两个连续SNP。

估计参数

我们模拟了具有已知过渡参数的数据集,并研究了如何恢复真实参数和真实状态。为每个过渡参数组合创建了六个样本。参数在0.001到0.1之间变化。值0.001表示平均每1000个SNP发生一次状态变化。我们观察到,我们的方法能够很好地恢复过渡参数的真实值。然而,当参数较高时,往往会略微低估这些参数。此外,该方法能够很好地恢复隐藏状态(从97.71%到99.97%)。最坏的情况是当两个转换参数都很高时,即当有许多拷贝数更改时(表1).

表1过渡参数和状态估计

接下来,我们将该方法应用于18个HapMap样本以及膀胱和前列腺样本(图2). 假设样本中所有染色体的转移参数都相同,则对每个样本进行估计。结果表明,估计的过渡参数在该方法在模拟数据集中获得很好精度的范围内。估计值的中位数第页正常样品为0.00036,肿瘤样品为0.02188。同样,估计值的中位数为0.00956第页在正常样品中,肿瘤样品中为0.02764。此外,HapMap样本处于正常状态(状态0)的SNP平均百分比为99.44,膀胱正常样本为96.93,前列腺正常样本为96.57。此外,在状态0下SNP百分比最低的正常样本是被dChip软件标记为不良阵列(离群值百分比高)的样本。膀胱组的三个正常样本被标记为不良阵列。显示了我们的方法在一个膀胱癌样本上的结果。

图2
图2

实际数据中状态0的过渡参数和SNP百分比的估计.A类.Boxplots for the第页-参数。B类.的方框图第页-参数。C类状态0(正常状态)下估计SNP百分比的方框图。BN:膀胱正常样本;HN:Hapmap正常样本;PN:前列腺正常标本;BT:膀胱肿瘤样本;PT:前列腺肿瘤样本。

图3
图3

膀胱肿瘤样本中的2号染色体在这条染色体中,我们可以区分两种情况:橙色的不平衡扩增(只有一个等位基因重复)和蓝色的q臂杂合缺失。A类对于生殖系DNA中的每个SNP杂合子,归一化强度(如方法方程式中所定义4)绘制了每个等位基因的。颜色代表SNP的估计状态:黑色代表状态0(种系状态),蓝色代表状态1(杂合缺失:一个等位基因丢失),绿色代表状态2(纯合缺失:两个等位蛋白丢失),紫色代表状态3(单亲双/多体:一个等位基因丢失,另一个的增殖),橙色表示状态4(非平衡扩增:一个等位基因的增殖),红色表示状态5(平衡扩增:两个等位细胞的增殖)。B类所示为LOH区域。C类对于种系DNA中的每个纯合SNP,标准化强度(如方法方程中所定义4)绘制了每个等位基因的。缺失的等位基因呈灰色。D类。显示的是隐藏状态的估计序列。颜色表示状态的后验概率:蓝色>0.99,绿色>0.95,橙色>0.9,红色<0.9。

样本为总体混合物时方法的准确性

使用不同的过渡参数值,我们模拟了样本为正常细胞和癌细胞混合物的数据集。癌细胞的百分比在55%和100%之间选择。假设样品不是混合物,则估计该方法的准确性(图4). 可以观察到,如果混合水平超过70%,则真实隐藏状态的恢复精度很高(高于94%)。

图4
图4

我们方法对模拟数据的准确性。模拟数据集中恢复状态和原始状态之间的一致性百分比绘制为人口混合(样本中肿瘤细胞的百分比)的函数。使用不同的过渡参数组合进行模拟。

在模拟数据中,等位基因的扩增总是意味着拷贝数增加一;例如,如果SNP是杂合的,那么A等位基因的扩增会产生两个A等位。在实际数据中,这并不总是正确的:扩增可能会使等位基因拷贝数增加一个以上。因此,与实际数据相比,该方法更容易恢复模拟数据中的真实隐藏状态。

估计人口混合

我们根据膀胱和前列腺肿瘤的分析结果模拟了数据集。使用估计的隐藏状态,通过添加正常细胞的百分比来创建具有已知人口混合的数据集。随后估算了混合比例。这是在29个不同混合水平(60、70、80和90%)的膀胱样品上进行的(表2).

表2混合比估算

只有当样品含有具有不同拷贝数变化的SNPs时,才能获得关于混合物的可靠信息。例如,如果观察到的SNP拷贝数为4.7,则无法区分1)90%的肿瘤细胞具有5个拷贝和10%的正常细胞(2个拷贝)的混合物,以及2)54%的肿瘤细胞带有7个拷贝和46%的正常细胞的混合物。然而,如果SNP存在于几种不同的状态,那么就有可能区分不同的混合物。在情况1)中,处于状态1的SNP的观察拷贝数为1.1,在情况2)中,观察拷贝数将为1.46。

了解混合水平有助于更准确地恢复隐藏状态。当混合料液位约为60%时,准确度从约90%提高到95%(表2). 我们还估计了真实膀胱和前列腺数据集的混合比例。由于所有前列腺样本都是显微解剖的,所有膀胱样本都是宏观解剖的,我们预计样本几乎是纯癌细胞(表). 我们观察到,我们的大多数样品都没有显示出混合物的迹象。然而,6份膀胱样本(18份中)和4份前列腺样本(25份中)呈现出一定的混合水平。由于所有样本都是显微解剖或宏观解剖的,因此估计的混合水平可能无法反映癌症/正常细胞的真实混合。相反,它可能反映了癌细胞的异质性,这得到了文献中的发现的支持。在膀胱癌中,在同一肿瘤中发现了具有不同基因组改变的细胞[19]. 在前列腺癌中,基因组异质性已在多篇论文中报道;例如[20,21]. 然而,要修改HMM以对混合癌细胞进行操作并不容易。

表3配合比估算表()膀胱组和前列腺组

改变染色体上的过渡参数

到目前为止,对每个样本的过渡参数进行了估计,并且这些参数与染色体无关。然而,众所周知,对于特定的癌症类型,某些染色体比其他染色体更容易发生异常。为了考虑到这一点,我们模拟了40个样本,其中每个染色体的过渡参数不同,但每个样本的过渡参数相似(参见方法)。过渡参数在0.001到0.05之间随机选择。然后,我们分析了样品并估计了方法的准确性(表4). 模拟样本分为两类:一类是种系基因型调用仅为杂合的,另一类是种系基因型呼叫与正常样本的分布相同的(30%的SNP标记为杂合)。样本的这种分割表明,纯合子SNP标记的添加略微降低了方法的准确性(从99.50%降至98.55%)。

表4两种估计方法对40个模拟样本的比较

为了说明同一癌症类型的不同样本之间的相似性,我们还估计了一组所有样本中每个染色体的转换参数。这个修改后的版本允许根据估计的转换参数中反映的变化频率对染色体进行排序。我们在相同的40个模拟样本上运行了修改后的版本(表4). 正如预期的那样,我们在恢复隐藏状态方面取得了稍好的精确度。当我们对基因型没有限制时,这两种方法的恢复状态一致性为99.70%,当假设所有SNP都是杂合的时,这两者的恢复状态相同性为99.86%。

我们将我们的全阵列方法应用于膀胱和前列腺肿瘤组,并比较每次分析一个样本的结果。两种方法对膀胱组的状态一致性为95.71%,对前列腺组一致性为96.24%。根据全阵列方法的结果,我们还能够根据拷贝数变化的频率对染色体进行分类。对于膀胱组,拷贝数变化最常见于第8和第9染色体。已知这两条染色体在膀胱肿瘤中经常异常[22,23]. 对于前列腺组,拷贝数变化最常见于第3、7、8和16号染色体。已发表CGH研究的综合分析[24]以及基于SNP阵列的研究[25]显示这些染色体在前列腺肿瘤中经常异常。

单亲二异症

当一个染色体区域的一个等位基因丢失,而其余的等位基因重复时,就会发生单亲二体性。在样本中,这意味着这样一个区域的SNP将失去杂合性,而拷贝数将保持正常(2个拷贝)或更高。Andersen等人[14]和Raghavan等人[26]研究表明,单亲二配偶分别在结直肠癌和急性髓系白血病中常见。在膀胱癌和前列腺癌中,我们也发现了一些单亲双生子的例子。5显示了膀胱样本13号染色体上的单亲二体症示例,表明HMM可以成功地发现单亲二体征病例。

图5
图5

膀胱肿瘤样本中13号染色体单亲二体性的一例在这条染色体中,我们可以分辨出约20 Mb区域中紫色的单亲二体和橙色和红色的q臂其余部分的不平衡扩增。A类对于生殖系DNA中的每个SNP杂合子,归一化强度(如方法方程式中所定义4)绘制了每个等位基因的。颜色代表SNP的估计状态:黑色表示状态0,蓝色表示状态1,绿色表示状态2,紫色表示状态3,橙色表示状态4,红色表示状态5。B类所示为LOH区域。C类对于生殖系DNA中的每个SNP纯合子,归一化强度(如方法方程式中所定义4)绘制了每个等位基因的。缺失的等位基因呈灰色。D类。显示的是隐藏状态的估计序列。颜色表示状态的后验概率:蓝色>0.99,绿色>0.95,橙色>0.9,红色<0.9。

利用纯合子SNP估计等位基因拷贝数的变化

在我们的HMM方法中,有两种方法可以估计等位基因拷贝数的变化。可以选择只使用生殖系样本中杂合的SNP,也可以选择使用包括纯合SNP在内的所有SNP。这两种方法都在这里进行了测试。仅使用种系样本中杂合的SNP是获得潜在状态良好估计的最佳方法,因为HMM的所有状态都是可微的。在本文中,我们获得了较高的回收率(高于99.40%,表4)当模拟样本只有杂合子呼叫时。然而,Affymetrix基因芯片100 k SNP阵列的平均杂合度仅为0.3左右[27]. 这意味着在正常样本中,不到三分之一的SNP是杂合的。因此,在生殖系样本中加入具有纯合子调用的SNP可以提高等位基因拷贝数变化图的分辨率。当我们在分析中包括所有基因型调用时,我们仍然获得了较高的恢复率(高于98.50%,表4). 种系样本中具有纯合基因型的SNP也可以根据其不同的拷贝数来区分不同的状态。然而,有些状态非常相似:状态0和3或状态3、4和5。杂合SNP的存在有助于区分这些状态。相反,纯合SNP的存在可能有助于区分杂合状态(例如状态0和4;见图1); 例如,如果噪声正在破坏来自具有纯合子邻域的杂合SNP的信号,那么邻域的拷贝数可以指示杂合子SNP是处于状态0还是4。

与PLASQ的比较

血浆[15]对10份真实样本(6份前列腺和4份膀胱样本)进行了检测。将PLASQ估计的状态转换为我们模型中的相应状态,并对结果进行比较。两种方法的一致性平均为90.47%(77.05%至98.11%)。一般来说,我们的方法检测到的异常比血浆检测到的更多。这与先前关于血浆质控的观察结果相一致,其中发现血浆质控是保守的[28]; 即,PLASQ倾向于选择正常状态。为了更加保守,我们在正常状态下以较高的发射密度标准偏差运行HMM。正如预期的那样,两种方法之间的一致性增加到平均95.02%(从88.86%到99.38%)。此外,我们计算了两种方法一致或不一致时状态的平均后验概率。正如所料,当两种方法一致时,平均值高于不一致时的平均值(0.983比0.909)。

结论

在本研究中,我们描述了一种基于HMM的方法,使用Affymetrix GeneChip SNP阵列估计等位基因SNP拷贝数变化、LOH和等位基因不平衡。该方法将生殖系样本的基因型调用和肿瘤样本的等位SNP强度作为输入,并输出每个SNP的估计拷贝数状态。HMM估计的不同隐藏状态对应于癌细胞中发生的不同事件。癌细胞中的染色体区域可能保持不变,可能会丢失一个等位基因(LOH事件)或两个等位蛋白(纯合子缺失),可能丢失一个等位基因并使另一个等位基因倍增(LOH+单亲二分体),可能会使一个等位子倍增(等位基因不平衡)或两种等位基因都倍增(见图1). 我们的方法能够可靠地区分这些事件。

当从肿瘤组织中提取样本时,通常含有正常细胞和癌细胞的混合物。不同的技术,如显微切割,可以帮助保持正常细胞的低百分比,但这是一个无法自动完成的过程,也不总是这样。在本研究中,我们表明可以估计样本的真实混合比例。我们还表明,了解混合物比例可以提高等位基因拷贝数的估计。事实上,SNP强度反映了样本中不同细胞中特定SNP的平均拷贝数。然而,正常细胞和癌细胞的混合可能与肿瘤的异质性相混淆。研究表明,膀胱癌和前列腺癌都存在多克隆性,这也可能导致非完整的拷贝数,即所有细胞的平均值不是整数。在未来的工作中处理这个问题将是很有意思的。

最后,我们讨论了在估计等位基因拷贝数变化时使用种系样本中纯合子SNP的实用性。我们的研究表明,尽管它们不能真正区分事件本身,例如正常状态和单双亲双分裂,但它们有助于获得更精细的癌症拷贝数变化图。

方法

材料

我们使用了38名前列腺癌患者和29名膀胱癌患者的肿瘤和血液样本。对所有膀胱肿瘤标本进行宏观解剖。这意味着在显微镜下观察肿瘤切片时,用手术刀刮去了所有结缔组织和肌肉组织[29]. 所有前列腺样本均进行了激光显微解剖[30]. 将GeneChipMapping 100K阵列应用于所有样品。只使用了Xba I裂解DNA的阵列探针。我们还从国际Hapmap项目中使用的30个CEPH三人组(90个样本)中下载了100 K Affymetrix SNP阵列[31]. 只使用了Xba阵列。

SNP的归一化和等位基因拷贝数

使用dChip软件(不变集规范化)对所有阵列的探针集强度进行规范化[10]. 随后,通过取所有完美匹配(PM)探针的平均值的对数,将强度合并为两个值(A和B等位基因的强度)α等位基因,α=A或B,即。

( α ) = 日志 ( 1 第页 j个 = 1 第页 P(P) M(M) j个 ( α ) ) , 数学类型@MTEF@5@5@+=feaafiart1evi1aaatCvAUfKttLearnWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrffHhDYfgasaacPC6xNi=xI8qi8qVfKYPFjHhDYfgasaac-PC6xNi=xI8qqFr bdMgaPbqabaGccqGGOaakiiGacqWFXoqycqGGPaqkcqGH9aqcyGGSbaBcqGGVbWBcqGGNbWzdaqaqaaKqbaGaeGymaedabaGaemiCaahaamaqahabaGaemiuaaLaemyta00aaSbaaeaacqWGPbqAcqWGQbGAaeqaaabcIcaOiab公司=f7aHjabc-McaPaqaaibdQgaQjabg2da9iabigda XaqaaibdchaWbGaeyyeIuoaaoOGaayjkaiaaw-MaaiabcYcaSaaa@4C0A@
(1)

哪里颗粒物 ij公司 (α)是j个-等位基因的th探针α对于SNP.在这里j个跑过j个=1,。。。,第页,其中第页= 10,= 1,..., 57290第页是质询一个等位基因的探针数量是SNP的总数。

根据中描述的观察结果和模型[8],每个SNP都有:

日志 ( M(M) 2 ( α ) ) = c 1 + c 2 日志 ( M(M) 1 ( α ) ) 数学类型@MTEF@5@5@+=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xI8qiVKYPFjYdHaVhbbf9v8qaqFr0xc9vqFj0dXdba91qpei8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaaeGacaaiaabeqaqaqabiwaaabiWaaaGcb aGagiiBaWMaei4Ba8Maei4zaCMaeiikaGIaemyta00aa0baaSqaaabdMgaPbqaaiabikdaYaaakiabcIcaOGGaciab公司=f7aHjabc-McaPiabcMcaPiabcMacaPiabg2da9iabdogaJnaaBaaaleaacqaXaqmaeqaaOGaey4kaSIaem4yam2aasbaasqaaiabikdaYaqabaGccyGGSbacqGGVbWBcqGNbWzcqGGOaakcqWGnbqtqhaaWcbaGaemyAaKgabaGaeGymaedaaOGaeiikaGIae8xSdeMaeiykaKIaeiykaKcaaa@4C85@
(2)

哪里α是等位基因A或B, M(M) 2 ( α ) 数学类型@MTEF@5@5@+=feaafart1ev1aatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGacagaaiaabeqaaqaqabibiWaaaGcbaGa emyta00aa0baaSqaaibdMgaPbqaaibikdaYaaakiabcIcaOGGaciab公司=f7aHjabcMcaPaaa@32D2时@ 是等位基因的平均强度α样品中有两份α, M(M) 1 ( α ) 数学类型@MTEF@5@5@+=feaafart1ev1aatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGacagaaiaabeqaaqaqabibiWaaaGcbaGa emyta00aa0baaSqaaabdMgaPbqaaiabigdaXaaakiabcIcaOGGaciab公司=32D0处的f7aHjabcMcaPaaa@ 是等位基因的平均强度α样品中有一份αc1c2是与SNP无关的参数。(参见附加文件1如图所示)。注意,平均值取决于SNP。假设SNP等位基因拷贝数的对数与其强度的对数成正比,参见例如[32],我们有C类 (α) > 0:

日志 2 ( C类 ( α ) ) = + b条 日志 2 ( M(M) c ( α ) ) , 数学类型@MTEF@5@5@+=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xI8qiVKYPFjYdHaVhbbf9v8qaqFr0xc9vqFj0dXdba91qpei8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaaeGacaaiaabeqaqaqabiwaaabiWaaaGcb aGagiiBaWMaei4Ba8Maei4zaC2aaSbaaSqaaiabikdaYaqabaGccqGGOaakcqWGdbWqdaWgaaWcbaGaemyAaKgabeaakiabcIcaOGGaciab公司=f7aHjabc-McaPiabcMcaPiabc2da9iabdggaHnaaBaaaleaacqWGPbqAaeqaaOGaey4kaSIaemOyai2aasbaasqaaaiabdMgaPbqabaGccyGGSbaBcqGGGVbWBcqGGNbWzdaWgaaWcbaGaeGOmaidabeaakiabIcaOiabd2eanaaDaaaacqWGPb2aaeacqWGJbWyaaqGGgoaakcqWFXoqycqGGPaqkcqGGPakcqgGGlaaa@4FDB@
(3)

哪里C类 (α)和 M(M) c ( α ) 数学类型@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrp9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9specI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaGcbaGaemta00aa0aa0abaaSqaaiabdMgPbqa阿富汗=332楼f7aHjabc McaPaaa@ 是等位基因的拷贝数和强度α在SNP中分别是。参数α b条 特定于SNP。这里我们允许C类 (α)为任意数,以允许混合样本。

根据方程式2,我们推导C类 (α),等位基因拷贝数,给定 M(M) 1 ( α ) 数学类型@MTEF@5@5@+=feaafart1ev1aatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGacagaaiaabeqaaqaqabibiWaaaGcbaGa emyta00aa0baaSqaaabdMgaPbqaaiabigdaXaaakiabcIcaOGGaciab公司=32D0处的f7aHjabcMcaPaaa@ M(M) c ( α ) 数学类型@MTEF@5@5@+=feaafart1ev1aatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGacagaaiaabeqaaqaqabibiWaaaGcbaGa emyta00aa0baaSqaaabdMgaPbqaaabdogaJbaakiabcIcaOGGaciab公司=332楼f7aHjabc McaPaaa@ :

日志 2 ( C类 ( α ) ) = 日志 ( M(M) c ( α ) ) 日志 ( M(M) 1 ( α ) ) c 1 + ( c 2 1 ) 日志 ( M(M) 1 ( α ) ) , 数学类型@MTEF@5@5@+=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xI8qiVKYPFjYdHaVhbbf9v8qaqFr0xc9vqFj0dXdba91qpei8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaaeGacaaiaabeqaqaqabiwaaabiWaaaGcb aGagiiBaWMaei4Ba8Maei4zaC2aaSbaaSqaaiabikdaYaqabaGccqGGOaakcqWGdbWqdaWgaaWcbaGaemyAaKgabeaakiabcIcaOGGaciab公司=f7aHjabc-McaPiabcMcaPiabcMacaPiabg2da9KqbaoaalaaaabaGagiiBaWMaei4Ba8Maei4zaCMaeiikaGIaemyta00aa0baaeaacqWGPbqAaeacqWGJbWyaaGaeiikaGIaae8xSdeMaeiikaKIaeiykaKIaeyOeIagiBaWMaii4Ba9Maei4ZaCMaeiicaGIaemyta 00aa0BaaeaaczWGPbq AaeacaqaIXaqaGaeikaGIae8xSde Maeiika KIaiykaKcaba Gaem4yam2aasbaaaacqaXaqmaeqaaiabbgUcaRiabcCaOiabsodogaJnaaBaaabaGaeGOmaidabeaacqGHsislcqaIXmcqGGPaqkcyGGSbaBcqGGVbWBcqGGNbWzcqGGOaakcqWGnbqtqhaaqaaiabMgaPbqaaiabigdaXaaaqaqacqGGoaakcq WFFXoqcqqqgGGPaq卡aGaeiilaWcaaa@6C18@
(4)

C类 (α) > 0. 如果C类 (α)不是整数。

因为我们只有 (α),估计 M(M) c ( α ) 数学类型@MTEF@5@5@+=feaafart1ev1aatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGacagaaiaabeqaaqaqabibiWaaaGcbaGa emyta00aa0baaSqaaabdMgaPbqaaabdogaJbaakiabcIcaOGGaciab公司=332楼f7aHjabc McaPaaa@ ,我们只能获得 X(X) c ( α ) 数学类型@MTEF@5@5@+=feaafart1ev1aatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGacagaaiaabeqaaqaqabibiWaaaGcbaGa emiwaG1aa0baaSqaaabdMgaPbqaaabdogaJbaakiabcIcaOGGaciab公司=f7aHjabcMcaPaaa@3345@ ,对数的估计2(C类 (α)). 我们假设 X(X) c ( α ) 数学类型@MTEF@5@5@+=feaafart1ev1aatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGacagaaiaabeqaaqaqabibiWaaaGcbaGa emiwaG1aa0baaSqaaabdMgaPbqaaabdogaJbaakiabcIcaOGGaciab公司=f7aHjabcMcaPaaa@3345@ 正态分布在原木周围2(C类 (α))标准偏差σ c .

参数 M(M) 1 ( α ) 数学类型@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrp9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9specI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaGcbaGaemta00aa0aa0abaaSqaaiabdMgPbqa加纳加纳加纳=32D0处的f7aHjabcMcaPaaa@ ,c1,c2,σ1,σ2根据每个SNP的等位基因拷贝数的知识,使用HapMap数据集进行估计;即0、1或2,取决于SNP是杂合的还是纯合的。在这里c1= -0.38,c2= 1.08,σ1=0.3和σ2= 0.35. 我们假设σ c =σ2对于c> 2. 当拷贝数为0时,我们仍然可以使用等式4具有 X(X) 0 ( α ) 数学类型@MTEF@5@5@+=feaafart1ev1aatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGacagaaiaabeqaaqaqabibiWaaaGcbaGa emiwaG1aa0baaSqaaabdMgaPbqaaiabicdaWaaakiabcIcaOGGaciab公司=f7aHjabcMcaPaaa@32E4@ 作为平均数为-2的正态分布σ0=0.55(经验观察;见附加文件2). 级别-2对应0.25个副本,而不是0个副本。这种略微升高的水平可以用交叉杂交和背景噪声来解释。这些值也是使用HapMap数据集获得的。

SNP的选择

我们只选择了符合模型的SNP。那些不符合模型的数据不太可能用于拷贝数分析[8]. 选择基于每组的正常样本:90个HapMap样本、38个前列腺组的正常样本和29个膀胱组的正常样品。如果SNP具有较高的调用率(高于90%)(Affymetrix基因型调用),并且方程给出的推断等位基因拷贝数之间存在高度对应,则选择SNP4以及基因型给出的真正等位基因拷贝数(参见[8]更多详细信息)。

估计等位基因拷贝数的隐马尔可夫模型

模型

我们使用HMM估计所选SNP的等位基因拷贝数。我们的HMM有六个州(图1安培,1B年)对应于种系状态(状态0)和五种染色体异常:杂合缺失(状态1)、纯合子缺失(状态2)、单亲双/多体(状态3)、不平衡扩增(状态4)和平衡扩增(位置5)。

我们使用3个参数定义了转换矩阵(图1c个). 转移概率是指从一个SNP移动到其相邻SNP时,从一个状态移动到另一个状态的概率。这个第页-参数是从生殖线状态(状态0)移动到异常状态(状态1到5)的概率。这个第页-参数是从一个异常状态移动到另一个不同异常状态的概率ε-参数是被认为是不可能的转变的概率(图1天). 我们认为,如果过渡意味着两个连续SNP之间存在两个断点,那么过渡是不可能的。例如,生殖系状态(状态0)和单亲双/多体状态(状态3)之间的转换是不可能的,因为这意味着一个断点会丢失一个等位基因,而另一个断口则会使另一等位基因倍增。

对于每个状态,发射密度定义为一个双变量正态分布,其中平均值是等位基因拷贝数和协方差矩阵(包括σ c )是根据正常样本估计的。对于拷贝数为2+、3+或4+的状态,我们取平均值分别为2、3或4个拷贝的对数。查看HapMap数据集,我们可以估计 X(X) 0 数学类型@MTEF@5@5@+=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGacaGaaiaabeqaaeqabiWaaaGcbaGaemiwaG1aa0baaSqaaabdMgaPbqaaiabicdaWaaaaa@2F82@ 当SNP标记在生殖系DNA中纯合时,我们将放射密度定义为正常密度,因为癌细胞中只能存在一个等位基因。

Viterbi算法用于恢复隐藏状态,Baum-Welch算法的修改版本用于估计第页第页-参数。这个ε-参数设置为任意但较小的值。在这里ε= 0.00001.

数据集模拟

为了测试该方法是否能够恢复已知的过渡参数和已知的状态,我们模拟了具有不同过渡参数的数据集。为了进行模拟,我们使用了国际HapMap项目中的18个阵列来估计对应于0、1或2个等位基因拷贝的噪声。噪声被定义为观察到的对数拷贝数之间的差异 X(X) c ( α ) 数学类型@MTEF@5@5@+=feaafart1ev1aatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGacagaaiaabeqaaqaqabibiWaaaGcbaGa emiwaG1aa0baaSqaaabdMgaPbqaaabdogaJbaakiabcIcaOGGaciab公司=f7aHjabcMcaPaaa@3345@ 和真实的日志副本编号,log2(C类 (α)). 为了估计0拷贝对应的噪声,我们使用了一个等于-2的对数拷贝数;如前所述。然后,我们使用一个HapMap样本,将每个SNP和等位基因的归一化强度替换为一个与已知状态对应的模拟值,并使用HapMaps样本估计的噪声。使用HMM模型随机确定状态。在这里,所有的SNP都被给予了一个杂合子调用。

此外,我们模拟了癌细胞和正常细胞的混合物。在这里,我们通过将从Hapmap数据集获得的噪声添加到定义如下的等位基因拷贝数来确定观察值:

C类 O(运行) = (1 -)C类 N个 +百万立方厘米 T型

哪里C类 O(运行) 是等位基因拷贝数(即混合群体中的平均拷贝数),C类 N个 C类 T型 正常细胞和癌细胞中的等位基因拷贝数是混合物中癌细胞的百分比。

包括配合比

混合物模型

我们修改了上面定义的HMM,以解释正常细胞和癌细胞的混合物。这是在发射概率中完成的,其中等位基因拷贝数被视为正常细胞和异常细胞拷贝数的加权和(见等式5)。然后我们使用迭代程序来估计混合物比例,,在示例中(是癌细胞的比例)。

  • 初始化:考虑到没有混合物,我们对样品运行了该方法(=100%),并获得与样本对应的隐藏状态序列。

  • 更新1:假设隐藏状态序列,我们使用最小二乘法拟合最佳混合值.

  • 更新2:假设,我们使用等式5中给出的平均强度应用该方法。得到了一个新的隐态序列。

  • 迭代步骤:我们重复更新1和更新2,直到混合没有改变。

由于只有处于异常状态的单核苷酸多态性(或等位基因)才有助于获得混合物水平的估计值,因此我们需要将发生的拷贝数变化降到最低,以便获得合理的估计值。迭代程序仅适用于初始化后异常状态超过5%的样本。

数据集模拟

为了在更真实的模拟样本上测试迭代过程,我们以不同的方式设计了模拟。我们首先对真实的膀胱和前列腺肿瘤样本运行HMM,然后使用恢复的隐藏状态序列生成具有已知人群混合物的新模拟样本。观察到的等位基因拷贝数如方程5所示进行测定。

全阵列方法

到目前为止,对每个样本的过渡参数进行了估计,但所有染色体的过渡参数都是相同的。在这里,我们修改了该方法,允许每个染色体使用不同的过渡参数。

数据集模拟

我们模拟了20个样本的两个数据集,其中在对数标度上随机选择了0.001到0.05之间的过渡参数。对于40个样本中的每一个,根据HMM确定一个隐藏状态序列。每个染色体在所有样本中都有自己的过渡参数。在第一组20个样本的数据中,只模拟了杂合SNP强度。每个样本与HapMap样本具有相同数量的SNP和相同的基因组位置。在第二个由20个样本组成的数据集中,每个样本与随机选择的一个HapMap样本具有相同数量的SNP、相同的基因组位置和相同的基因型调用。根据基因型调用和先前确定的该SNP的隐藏状态模拟SNP强度。

工具书类

  1. NCBI dbSNP数据库。[http://www.ncbi.nlm.nih.gov/projects/SNP/index.html]

  2. Shen R、Fan JB、Campbell D、Chang W、Chen J、Doucet D、Yeakley J、Bibikova M、Wickham Garcia E、McBride C、Steemers F、Garcia F、Kermani BG、Gunderson K、Oliphant A:通用珠阵列上的高通量SNP基因分型。《突变研究》2005,573:70-82。

    第条 中国科学院 公共医学 谷歌学者 

  3. Matsuzaki H、Dong S、Loi H、Di X、Liu H、Hubbell E、Law J、Berntsen T、Chadha M、Hui H、Yang G、C KG、Webster TA、Cawley S、Walsh PS、Jones KW、Fodor SPA、Mei R:在一对寡核苷酸阵列上对超过100000个SNPs进行基因分型。自然方法。2004, 1: 109-111. 10.1038/nmeth718。

    第条 中国科学院 公共医学 谷歌学者 

  4. Hinds DA、Stuve LL、Nilsen GB、Halperin E、Eskin E、Ballinger DG、Frazer KA、Cox DR:三个人群常见DNA变异的全基因组模式。科学。2005, 307: 1072-1079. 10.1126/科学1105436。

    第条 中国科学院 公共医学 谷歌学者 

  5. Kennedy GC、Matsuzaki H、Dong S、Liu WM、Huang J、Liu G、Su X、Cao M、Chen W、Zhang J、Liw W、Yang G、Di X、Ryder T、He Z、Surti U、Phillips MS、Boyce-Jacino MT、Fodor SP、Jones KW:复杂DNA的大规模基因分型。国家生物技术。2003, 21: 1233-1237. 10.1038/nbt869。

    第条 中国科学院 公共医学 谷歌学者 

  6. Di X、Matsuzaki H、Webster TA、Hubbell E、Liu G、Dong S、Bartell D、Huang J、Chiles R、Yang G、Shen MM、Kulp D、Kennedy GC、Mei R、Jones KW、Cawley S:基于动态模型的算法,用于在寡核苷酸微阵列上筛选和基因分型超过100 K SNP。生物信息学。2005, 21: 1958-1963. 10.1093/bioinformatics/bti275。

    第条 中国科学院 公共医学 谷歌学者 

  7. Rabbee N,Speed TP:非对称性SNP阵列的基因型调用算法。生物信息学。2006, 22: 7-12. 10.1093/bioinformatics/bti741。

    第条 中国科学院 公共医学 谷歌学者 

  8. Lamy P、Andersen CL、Wikman FP、Wiuf C:Affymetrix SNP阵列的基因分型和注释。《核酸研究》2006,34:e100-10.1093/nar/gkl475。

    第条 公共医学中心 公共医学 谷歌学者 

  9. Koed K、Wiuf C、Christensen LL、Wikman FP、Zieger K、Moller K、von der Maase H、Orntoft TF:高密度单核苷酸多态性阵列定义了人类膀胱肿瘤中新的阶段和位置依赖性等位基因失衡。《癌症研究》2005,65:34-45。

    中国科学院 公共医学 谷歌学者 

  10. Lin M,Wei LJ,Sellers WR,Lieberfarb M,Wong WH,Li C:dChipSNP:基于SNP阵列的失稳数据的显著性曲线和聚类。生物信息学。2004, 20: 1233-1240. 10.1093/bioinformatics/bth069。

    第条 中国科学院 公共医学 谷歌学者 

  11. Beroukhim R、Lin M、Park Y、Hao K、Zhao X、Garraway LA、Fox EA、Hochberg EP、Mellinghoff IK、Hofer MD、Descazeaud A、Rubin MA、Meyerson M、Wong WH、Sellers WR、Li C:使用高密度寡核苷酸SNP阵列推断未配对肿瘤的恒久性丢失。PLoS计算机生物学。2006年,2:e41-10.1371/journal.pcbi.0020041。

    第条 公共医学中心 公共医学 谷歌学者 

  12. Fridlyand J、Snijders AM、Pinkel D、Albertson DG、Jain AN:用于阵列CGH数据分析的隐马尔可夫模型。多元分析杂志。2004, 90: 132-153. 2016年10月10日/j.jmva.2004.02.008。

    第条 谷歌学者 

  13. Zhao X,Li C,Paez JG,Chin K,Janne PA,Chen TH,Girard L,Minna J,Christiani D,Leo C,Gray JW,Sellers WR,Meyerson M:使用单核苷酸多态性阵列对癌症基因组中的拷贝数和等位基因改变进行综合观察。癌症研究,2004,64:3060-3071。10.1158/0008-5472.CAN-03-3308。

    第条 中国科学院 公共医学 谷歌学者 

  14. Andersen CL、Wiuf C、Kruhoffer M、Korsgaard M、Laurberg S、Orntoft TF:结直肠癌中单亲二体症的频繁发生。致癌。2007, 28: 38-48. 10.1093/carcin/bgl086。

    第条 中国科学院 公共医学 谷歌学者 

  15. LaFramboise T、Weir BA、Zhao X、Beroukhim R、Li C、Harrington D、Sellers WR、Meyerson M:SNP阵列分析揭示的癌症中的等位基因特异性扩增。公共科学图书馆计算生物学。2005年,1:e65-10.1371/journal.pcbi.0010065。

    第条 公共医学中心 公共医学 谷歌学者 

  16. Huang J,Wei W,Chen J,Zhang J,Liu G,Di X,Mei R,Ishikawa S,Aburatani H,Jones KW,Shapero MH:CARAT:使用高密度寡核苷酸阵列检测DNA拷贝数变化的新方法。BMC生物信息学。2006, 7: 83-10.1186/1471-2105-7-83.

    第条 公共医学中心 公共医学 谷歌学者 

  17. Olshen AB,Venkatraman ES,Lucito R,Wigler M:用于分析基于阵列的DNA拷贝数数据的循环二进制分割。生物统计学。2004, 5: 557-572. 10.1093/生物统计学/kxh008。

    第条 公共医学 谷歌学者 

  18. Nannya Y、Sanada M、Nakazaki K、Hosoya N、Wang L、Hangaishi A、Kurokawa M、Chiba S、Bailey DK、Kennedy GC、Ogawa S:使用高密度寡核苷酸单核苷酸多态性基因分型阵列检测拷贝数的稳健算法。《癌症研究》2005,65:6071-6079。10.1158/0008-5472.CAN-05-0465。

    第条 中国科学院 公共医学 谷歌学者 

  19. Hartmann A、Rosner U、Schlake G、Dietmaier W、Zaak D、Hofstaedter F、Knuechel R:通过9号染色体和p53缺失分析确定的多发性浅表性尿路上皮癌的克隆性和遗传分化。实验室投资。2000, 80: 709-718.

    第条 中国科学院 公共医学 谷歌学者 

  20. Haggarth L,Auer G,Busch C,Norberg M,Haggman M,Egevad L:肿瘤异质性对前列腺癌DNA倍体预测的意义。尿路肾扫描。2005, 39: 387-392. 10.1080/00365590500239883.

    第条 谷歌学者 

  21. van der Poel HG、Oosterhof GO、Schaafsma HE、Debruyne FM、Schalken JA:前列腺癌的瘤内核形态异质性。泌尿学。1997, 49: 652-657. 10.1016/S0090-4295(96)00557-2。

    第条 中国科学院 公共医学 谷歌学者 

  22. Blaveri E、Brewer JL、Roydasgupta R、Fridlyand J、DeVries S、Koppie T、Pejavar S、Mehta K、Carroll P、Simko JP、Waldman FM:基于阵列的比较基因组杂交的膀胱癌分期和结果。《临床癌症研究》,2005,11:7012-7022。10.1158/1078-0432.CCR-05-0177。

    第条 中国科学院 公共医学 谷歌学者 

  23. Koo SH、Kwon KC、Ihm CH、Jeon YM、Park JW、Sul CK:通过比较基因组杂交和细胞遗传学分析检测膀胱肿瘤的遗传改变。癌症基因细胞基因。1999, 110: 87-93. 10.1016/S0165-4608(98)00193-9。

    第条 中国科学院 公共医学 谷歌学者 

  24. Sun J,Liu W,Adams TS,Sun J,李X,Turner AR,Chang B,Kim JW,Zheng SL,Isaacs WB,Xu J:前列腺癌DNA拷贝数变化:已发表CGH研究的综合分析。前列腺。2007, 67 (7): 692-700. 10.1002/pros.20543。

    第条 中国科学院 公共医学 谷歌学者 

  25. Lieberfarb ME、Lin M、Lechpammer M、Li C、Tanenbaum DM、Febbo PG、Wright RL、Shim J、Kantoff PW、Loda M、Meyerson M、Sellers WR:利用单核苷酸多态性等位基因(SNP)阵列和新的生物信息学平台dChipSNP对激光捕获显微切割前列腺癌进行全基因组杂合性丢失分析。癌症研究,2003,63:4781-4785。

    中国科学院 公共医学 谷歌学者 

  26. Raghavan M、Lillington DM、Skoulakis S、Debernardi S、Chaplin T、Foot NJ、Lister TA、Young BD:全基因组单核苷酸多态性分析揭示了急性髓性白血病中由于体细胞重组导致的频繁的部分单亲二体分裂。《癌症研究》2005,65:375-378。

    中国科学院 公共医学 谷歌学者 

  27. Affymetrix基因芯片人类图谱100 k集。[网址:http://www.affymetrix.com/products/arrays/specific/100k.affx]

  28. PLASQ 10 k指令。[http://genome.dfci.harvard.edu/~tlaframb/PLASQ/PLASQ10K.pdf]

  29. Zieger K、Dyrskjot L、Wiuf C、Jensen JL、Andersen CL、Jensen-KM、Orntoft TF:激活成纤维细胞生长因子受体3突变在膀胱肿瘤发展中的作用。《临床癌症研究》,2005年,11:7709-7719。10.1158/1078-0432.CCR-05-1130。

    第条 中国科学院 公共医学 谷歌学者 

  30. Torring N,Borre M,Sorensen KD,Andersen CL,Wiuf C,Orntoft TF:使用Affymetrix 50 K SNP映射阵列对前列腺癌等位基因失衡进行全基因组分析。英国癌症杂志。2007, 96: 499-506. 10.1038/sj.bjc.6603476。

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  31. Affymetrix Hapmap三组数据。[http://www.affmetrix.com/support/technical/sample_data/hapmap_trio_data.affx]

  32. Bignell GR、Huang J、Greshock J、Watt S、Butler A、West S、Grigorova M、Jones KW、Wei W、Stratton MR、Futreal PA、Weber B、Shapero MH、Wooster R:使用寡核苷酸微阵列对DNA拷贝数进行高分辨率分析。《基因组研究》2004,14:287-295。10.1101/gr.2012304。

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

下载参考资料

致谢

PL和CW得到丹麦癌症协会的支持。CLA和LD得到了丹麦研究委员会和约翰·梅耶基金会的支持。NT得到了丹麦癌症协会和约翰与比尔特·迈耶基金会的支持。感谢Karsten Zieger的有益讨论。

作者信息

作者和附属机构

作者

通讯作者

与的通信卡斯滕·沃夫.

其他信息

作者的贡献

PL、CLA和CW设计了研究;PL撰写了论文,实现了该方法并进行了分析。CLA和CW对手稿进行了评论。LD提供膀胱数据,NT提供前列腺数据。所有作者阅读并批准了最终手稿。

电子辅助材料

12859_2007_1806_MOESM1_ESM.pdf

附加文件1:平均强度之间的线性关系。该图显示了一个等位基因1拷贝的平均强度(蓝色),以及一个等位基因2拷贝的平均密度(蓝色)与1拷贝的估计平均强度的对比图,使用的是[8]. 参数c1是顶线的截距c2是斜率,见方程式2底线的斜率为1,截距为0。(PDF 1 MB)

12859_2007_1806_MOESM2_ESM.pdf

附加文件2:HapMap数据的等位基因强度直方图。该图显示了对应于0、1或2个副本的归一化强度直方图。(PDF 25 KB)

作者提交的原始图像文件

权利和权限

开放式访问本文经BioMed Central Ltd.许可发布。这是一篇开放存取文章,根据知识共享署名许可条款分发(https://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

重印和许可

关于这篇文章

引用本文

Lamy,P.、Andersen,C.L.、Dyrskjot,L。等。使用Affymetrix SNP阵列估计癌症人群混合和等位基因拷贝数的隐马尔可夫模型。BMC生物信息学 8, 434 (2007). https://doi.org/10.1186/1471-2105-8-434

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1471-2105-8-434

关键词