跳到主要内容

在没有对照样本的情况下获取DNA拷贝数

摘要

背景

在拷贝数分析中选择基准来衡量数据对于实现准确估计至关重要。通常,该参考是使用研究中包含的对照样品生成的。然而,这些控制样本并不总是可用的,在这种情况下,必须创建人工参考。就噪声和偏置而言,该信号的正确生成是至关重要的。

我们提出了NSA(Normality Search Algorithm,正态搜索算法),这是一种使用和不使用控制样本的缩放方法。这是基于这样的假设,即在两个等位基因中拷贝数相同的SNP丰富的基因组区域可能是正常的。分别为每个样本预测这些正常区域,并用于计算最终参考信号。无论微阵列技术和预处理方法如何,NSA都可以应用于任何CN数据。它还找到了样本的最佳权重,以最小化可能的批量效应。

结果

分析了五个人类数据集(HapMap样本子集、多形性胶质母细胞瘤(GBM)、卵巢、前列腺和肺癌实验)。结果表明,仅使用肿瘤样本,NSA能够消除拷贝数估计中的偏差,以减少噪声,从而提高检测拷贝数畸变(CNA)的能力。这些改进使得NSA也能够比其他最先进的方法更准确地检测复发性畸变。

结论

NSA为将探针信号数据换算为CN值提供了可靠和准确的参考,而无需控制样本。它最大限度地减少了CNs估计中的偏差、噪声和批量效应问题。因此,与现有方法相比,NSA缩放方法有助于更好地检测复发性CNA。自动选择参考使其能够对许多GEO或ArrayExpress实验进行批量分析,而无需开发解析器来查找数据中的正常样本或可能的批次。该方法在开源R包NSA中可用,该包是aroma.cn框架的一个附加组件。http://www.aroma-project.org/addons.

背景

DNA拷贝数畸变(CNA)是与癌症发展有关的基因组部分(染色体、染色体的一条臂或一段)的病理性扩增或缺失。在CNA中,DNA拷贝数(CNs)可能比正常状态(CN=2)大(增益和扩增)或小(缺失和纯合缺失)。

CNA可以使用单核苷酸多态性(SNP)阵列进行测量。尽管这些阵列的最初应用是基因分型,但它们也可以用于计算CN估计值。此外,使用这些阵列可以找到LOH(杂合性丢失)区域,这些区域是基因组中没有杂合SNP的区域。

阵列中的SNP数量从最初的大约10000个SNP到最新的数百万个SNP。Affymetrix的GWS阵列除SNP探针外,还包括用于分析拷贝数变化(CNV)的非多态探针(称为CN探针)。为了处理Affymetrix SNP阵列,需要应用几个低级别过程,即背景移除、校准、归一化和汇总[1]. 这些步骤的最终结果是两个值(θA类θB)对于与每个等位基因的拷贝数近似成比例的每个SNP问题集。另一方面,最新阵列的CN探测只有一个值(θT型)与总份数成比例。比例常数是未知的,并且对于每个SNP探针和CN探针是不同的。

如前所述,CNA发生在基因组片段中。为了找到这些畸变区域,有必要计算与汇总SNP信号相关的比例因子(θA类θB)和CN值(C类 N个A类C类 N个B)针对每个SNP。如果研究中有对照样本,则比例因子的计算是正向的:两个超出稳健平均值(θA类+θB)在对照样品中[26] .

在这项工作中,假设对照样品具有中性拷贝数,其整个基因组中没有LOH。当然,在对照样品中可以有CNV,但为了清楚起见,这里不考虑它们。

不幸的是,由于难以找到对照样品或只是为了降低实验成本,有许多实验不包括对照样品。在这些情况下,研究人员选择使用来自公共数据集的对照样本,或使用实验中可用的肿瘤样本计算稳健参考(隐含地假设对于每个SNP,大多数肿瘤样本具有中性CN)。然而,正如将要显示的那样,使用来自不同实验室的样本可能会增加CN估计中的噪声,并且假设SNP在大多数样本中具有中性CN,尽管通常是可行的,但可能会在拷贝数估计中引入偏差,从而隐藏真实CNA,甚至产生虚假CNA,这主要是在存在反复畸变的情况下。

我们提出了一种称为NSA(Normality Search algorithm)的算法,该算法为每个样本生成相应的参考,而无需控制样本。在每个样本(对照或肿瘤)中,NSA检测到具有中性CN(CN=2)且无LOH的区域。利用这些正常区域,计算参考值,并通过SNP和样本对数据进行缩放。我们将证明,即使在实验中没有对照样本,国家统计局也能够正确地衡量CN估计值。此外,NSA能够在实验中推断批次,并找到适当的权重(每个样品的权重不同)来计算参考值。

NSA算法的核心是检测基因组中的正常区域。所开发的方法基于每个SNP中两个等位基因的信号比较。杂合中性拷贝数SNPs(HNCNs)对这两个等位基因具有相似的信号( θ j个 A类 θ j个 B )他们的总拷贝数是2。对于大多数畸变(扩增、缺失或LOH),其中一个等位基因的信号比另一个大,因为它们的拷贝数不同。AABB(或AAABBB)基因型不太可能出现(除了在多倍体细胞中),因为它意味着两条染色体都扩增,而且这种情况发生的频率远低于只涉及一条染色体的畸变[7]. NSA的核心假设是在两个等位基因中具有相似信号的SNP( θ j个 A类 θ j个 B )可能是HNCN。NSA假设两个等位基因信号相似的SNP富集区域具有中性总CNs,没有LOH。

一旦NSA推断出正常区域,它也会计算最佳权重,以使用加权中值计算参考值。每个样品的重量不同,并且与样品杂交的批次(具有某些特征的一组样品,如杂交日、实验室、人员等)密切相关。最后,计算参考值,并对SNPs和样本的数据进行缩放。

NSA已在aroma.cn框架中实现,即使对于大量样本,内存需求也不大。此外,它独立于预处理方法或微阵列技术。

实施

NSA是一种基于人群的多阵列方法,用于扩展任何SNP和CN阵列技术,例如Affymetrix和Illumina。它识别样本中的正常区域,找到最佳权重来解释杂交批次,计算相应的参考值,最后执行二维缩放。

数据

我们将NSA应用于五个不同的数据集。第一个是多形性胶质瘤(GBM)实验的子集,该实验包括64个肿瘤样本[8]与Affymetrix Mapping 50K_Xba阵列杂交。第二个是对20个肿瘤样本和20个对照样本的前列腺癌分析[9]第三个样本与Affymetrix Mapping 250K_Nsp阵列杂交,是50个肺癌样本和20个对照样本的子集[10]与Affymetrix GWS 6.0阵列混合。第四个是卵巢癌实验的子集,包括72个肿瘤样本和57个对照样本[11]最后,第五个是HapMap样本的子集[12]. 这里显示,对于这些数据集,NSA提供了比其他最先进的缩放方法更准确和精确的CN估计。

NSA的输入数据是汇总的探针信号(θA类θB)使用任何摘要方法(如dChip)计算[13]、军事革命[14],CRMA v2[1],痤疮[15],CalMaTe公司[16]对于Affymetrix阵列或由[17]用于Illumina技术。从这些等位基因特异性探针信号中,B等位基因的部分(β=θB/(θA类+θB))获得。CRMA v2预处理方法已应用于所有数据集。在总结步骤中,选择了ACNE(用于Affymetrix Mapping 50和250K阵列)和CalMaTe(用于GWS6.0阵列),因为它们提供了更准确的等位基因特定CN。

中性DNA拷贝数区域的检测

NSA的主要假设是肿瘤样本中的两条染色体都不太可能获得。如所示[7]对于GBM,只有3%的畸变发生在两条染色体上。因此,我们认为如果θA类θB大约相等,SNP可能是杂合的,CN等于2(即是HNCN)。由于CNA出现在基因组片段中,因此HNCN富集区域内的纯合子SNP也可能具有中性CN。为了量化两个等位基因的信号有多相似,我们使用了这个术语杂合水平(左心室)代表SNP杂合性的连续近似值(注意杂合水平与群体遗传学中的同一术语无关)。

杂合性水平

根据定义左心室对于给定SNPj个(j=1…j)在样品中(i=1…i)计算为

左心室 j个 =2最小值( θ j个 A类 θ j个 B )/( θ j个 A类 + θ j个 B )
(1)

哪里 θ j个 A类 θ j个 B 是SNP的A和B等位基因的对应信号j个在样品中并且它们被期望与它们的CN值成比例(C类 N个 j个 A类 C类 N个 j个 B ). 如果左心室j个接近1( θ j个 A类 θ j个 B )、SNPj个预计样本中为杂合子另一方面,如果接近0,则表示其中一个信号 θ j个 A类 θ j个 B 接近零,因此SNPj个样本中为纯合子或者一个等位基因的拷贝数多于另一个(发生在扩增区)。的值左心室矩阵(尺寸JxI)在0和1之间。或者,左心室可以定义为

左心室 j个 =2最小值( β j个 1负极 β j个 )
(2)

哪里 β j个 = θ j个 B /( θ j个 A类 + θ j个 B )是B等位基因的分数。

1显示CNs,B等位基因的分数(β)以及左心室前列腺癌实验样本GSM318736中的8号染色体。顶部面板显示了此样本中的三个不同区域:染色体开始处的正常区域(CN=2,从0到20 Mb)臂靠近着丝粒(CN=1,从20 Mb到45 Mb)q个染色体臂(CN=3,从45到147Mb)。这些区域可以从CN图中推断,也可以从β绘图(中间面板)。另一方面,在底部面板中左心室图中显示了法线区域中的两个云:一个以0为中心,另一个以1为中心。3份副本的分布也是双峰的,但在这种情况下,分布的峰值约为0和0.7。密度函数左心室在缺失中,低值(接近0)呈现一个平台,如果没有正常污染,则为单峰。

图1
图1

这些数字显示了前列腺癌数据集杂交到Affymetrix Mapping250K_Nsp的样本GSM318736中的DNA拷贝数、B等位基因的分数和8号染色体的LH值。杂合SNP的LH值(接近1)往往大于纯合SNP(LH值接近0)。LH图上的粗灰色线是从CBS获得的分段LH值。它有两个区域。一个对应正常区域(CN=2),另一个对应删除和放大区域。该算法不区分删除区和放大区。这一事实并不令人担忧,因为它区分了正常区域和畸变区域,这是本文的目标。

HNCN的分布峰值为左心室=1(此处θ A类 =θ B ). 密度函数左心室纯合子SNP的峰值接近0(表中第二行1). 峰的具体位置取决于总结方法,特别是该方法如何处理测量不同等位基因的探针之间的交叉杂交。的预期值左心室对于CN不同于2的SNPs,如表所示1(最后一个用星号标记的基因型意味着两条染色体同时发生改变,这种改变不大可能发生)。

表1杂合性水平

选择具有中性CNs(HNCNs)的杂合SNPs

使用表格1,阈值 H(H)已选择用于识别相应SNP是否为HNCN。区分正常区域的最关键情况(使用左心室值)是具有3个副本的区域。预期的左心室对于具有纯肿瘤样本的完美摘要模型,该值约为2/3。如果周围正常组织受到污染,该值将更大。因此,合适的阈值是5/6(正常杂合呼叫的预期值和3个拷贝的值之间的中点)。

一旦设置了阈值左心室上面的值标记为HNCN(左心室=1)和其他非HNCN(左心室= 0). 将分割算法应用于这些二进制数据,以找到富含HNCN的区域。我们使用了一种CBS变体,其中的输入是二进制数据[1819],尽管可以应用其他方法(例如使用隐马尔可夫模型[20]).

在上图中1,底部面板中的粗灰色线表示CBS预测的不同段轴表示HNCN SNP在细分市场中的比例。可以观察到,CBS检测到2个不同的片段,对应于两种状态(正常和畸变)。在其他样本中,由于SNP的比例左心室高于阈值可以不同,但这一事实并不影响方法。

标记法线线段

平均而言,HapMap样本中27%的SNP是杂合的。因此,理想情况下,正常地区的高净值国家比例应为27%左右。另一方面,理想情况下,在畸变区域,HNCN的比例应接近0%。我们在中间点选择了一个阈值(13.5%)。阈值越大,所选线段具有中性CN的可能性越大。然而,一些正常区域可能会因为噪声而被遗漏,或者仅仅因为这些区域包括许多具有一种罕见变体的SNP。

例如,考虑图中的手臂1,这是正常的,并且q个手臂,它被放大了。正常区的密度函数比放大区具有更多的SNP,LH接近1。在这种特殊情况下,18.3%的SNP高于上一节中设定的阈值。对于3拷贝区域,只有8.6%的SNP的LH高于阈值。两个区域之间的差异足够大,使得算法对阈值的特定选择不敏感。

如果实验阵列包括SNP和CN探针(GWS 5.0或GWS 6.0),则CN探针的相应状态(中性拷贝数或非中性拷贝数)将根据其所在段的状态推断出来(这是使用SNP探针计算的)。

拷贝数数据缩放

NSA的最终处理包括两个缩放步骤,一个通过SNP,另一个通过样本。

按SNP缩放

NSA实现了两种方法(用户可选择)来计算引用:第一种方法使用标准中位数,第二种方法使用加权中位数来最小化批处理影响。在第二种方法中,每个样本都有一个不同的计算参考。

对于第一种方法,通过使用每个SNP标记为正常的样本信号的中位数来计算参考值。在第二种情况下,一种不同的算法(在下一节中描述)估计了一些权重,这些权重用于使用加权中值计算每个SNP和样本的参考值[21]. 它还仅使用每个SNP标记为正常的样本来计算参考值。

按样本缩放

该算法为每个样本计算假定为正常的SNP的CN中值,并重新缩放所有数据,以便每个样本的正常区域中值为2。

提出的归一化的两个缩放步骤类似于中值抛光,其中只包括标记为法线的SNP。

算法

涉及两个缩放步骤的步骤如下:

  1. 1

    获取每个SNP计算的参考信号:

    裁判 j个 SNP公司 = 中值的 ( SLH公司 j个 ) ( θ j个 ( 1 ) )
    (3)

哪里 θ j个 ( 1 ) = θ j个 A类 + θ j个 B 是两个等位基因的信号和(SL公司 H(H)j个)是样本的指示矩阵(对于SNPj个)在那个位置被标记为正常。重新 (f) j个 SNP公司是SNP的计算参考j个以SNP为中间值。如果使用批量效应消除(BER)方法,此步骤将转换为

裁判 j个 SNP公司 = W媒体 k个 ( SLH公司 j个 k个 ) ( θ j个 k个 ( 1 ) γ k个 ).
(4)

哪里W媒体表示使用权重的加权中值γk个请注意,每个SNP的参考不同j个但也适用于不同样本中的相同SNP,因为中位数的权重(γk个)每个样品都不同。这些权重由下一节中描述的算法计算。

  1. 2

    跨SNP的信号归一化。对于每个样本中的每个SNP

    θ j个 ( 2 ) = 2 θ j个 ( 1 ) 裁判 j个 ( ) SNP公司
    (5)

的值 θ j个 ( 2 ) 将接近真正的CN。如果使用批量效应去除方法,每个样品的参考值将不同。

  1. 三。

    获取每个样本的参考信号:

    裁判 样品 = 中值的 j个 ( SLH公司 j个 ) ( θ j个 ( 2 ) )
    (6)

重新 (f) 样品是基因组正常片段的平均值(使用中值)。该值预计接近2。为了确保这一点,以下(和最后)步骤相应地缩放样本。

  1. 4

    样本中信号的归一化。对于每个样本,在每个SNP中

    θ j个 ( ) = 2 θ j个 ( 2 ) 裁判 样品
    (7)

的值 θ j个 ( ) 是NSA对总CN值的最终估计。

应重复这些步骤,直到收敛,但在第一次迭代后,改进可以忽略不计(示例中的平均拷贝数变化了约0.001个拷贝)。

批量效应消除权重的计算

批处理效应在SNP阵列的分析中已被证明至关重要[2223]. NSA算法的特殊特性有助于开发一种最小化它们的算法。总体思路是,由于国家安全局确定了预期具有中性CN的正常区域,因此可以选择参考,以便这些正常区域的估计拷贝数接近2。

程序如下。首先,一套“S公司选择了SNP中的“。该集合必须包含足够数量的正常SNP,以捕获阵列之间的关系。这些SNP是从大多数样本的正常区域中选择的。虽然在一些研究中,所有样本都没有正常的SNP,但“S公司”,以便它们在尽可能多的样本中显示为正常。

对于“S公司“在任何样本中都不位于正常区域,它们的值被使用标准中值的参考所取代,标准中值是算法使用的信号 θ ̂

θ ̂ j个 S公司 = θ j个 S公司 ( 1 ) 如果 j个 ( SL公司 H(H) j个 ) 裁判 j个 S公司 SNP公司 否则
(8)

使用这些值,权重γk个计算每个样本的参考值通过解决以下优化问题进行估计

最小值 γ k个 ||日志( θ ̂ j个 S公司 )负极 k个 = 1 k个 γ k个 日志( θ ̂ j个 S公司 k个 )||
(9)

从属于

γ k个 >0 γ =0
(10)

隐式假设日志( θ ̂ ) γ k个 日志( θ ̂ j个 S公司 k个 )即每个样本的信号对数的线性组合。限制规定1)样品不用于计算其自身参考值,并且2)只允许正权重,即如果样本k个差异很大,相应的系数γk个为负值,示例k个不用于构建样本的引用而不是给它一个反直觉的负值。

此优化是一个二次规划(QP)问题。我们没有使用标准的QP算法(相当耗时),而是迭代地解决了最小平方问题。在每一步中,算法都会删除解决方案中权重为负的样本。

任何线性组合,例如 γ k个 日志( θ ̂ j个 S公司 k个 ),可以解释为加权平均值乘以附加系数(权重之和)。在这种特殊情况下,由于数据是通过样本进一步规范化的,因此在“按样本缩放”步骤中计算并考虑了这个额外的因素。此外,我们没有使用加权平均值,而是使用了加权中值来提高稳健性并抵御异常值的存在。由于中值和对数是可互换的运算符,建议参考如下

裁判 j个 SNP公司 = W媒体 k个 ( SLH公司 j个 k个 ) ( θ j个 k个 ( 1 ) γ k个 ).
(11)

使用此公式,每个γk个是样本正常区域的重量k个计算样本的参考值使用加权中值。对于每个SNPj个,在使用相应权重计算中值时,只包括预期正常的样本。

结果

在这一部分中,显示出使用NSA的结果优于使用来自不同实验室的对照样本或使用肿瘤样本的稳健中位数(这是最常用的方法)。这种性能的改进表现在噪声和偏置方面。由于没有可供比较的基本事实,我们使用了三个间接方面来说明性能:沿基因组发现CNA的能力,已知正常区域中估计CN的质量,以及发现反复畸变区域的能力。

埃克尔·帕索等。[24]显示了不同摘要算法之间的比较。它描述了四种摘要方法[25]. 在这些方法中,只有两种不同的缩放算法:使用(一些样本的)中值和线性模型。这里使用的汇总方法(ACNE和CalMaTe)在内部实现了一个校准,实际上是一个线性模型。除上述方法外[24],数字芯片[6]如果没有提供参考,则实现样本的修剪平均值,LaFramboise[25]利用来自控制样本的信息拟合非线性模型,Nannya[26]建议使用与研究样本最相似的m个对照样本。最后,建议的样本缩放方法(除了[26])只是计算一些样本的稳健平均值(即中值或修剪平均值)。如后文所示,我们去除批量效应的方法类似于Nannya的方法,但只关注肿瘤样本中的正常区域。

我们比较了四种不同的可能性来选择样本来构建参考。这些定标方法取决于对照样品是否可用,以及对照样品(如果有)杂交的实验室。研究中的第一种算法可以应用于包含来自同一实验室的控制样本的数据集。在这种情况下,对于每个SNP,控制样本值的中位数用作参考,即( θ C类 A类 + θ C类 B )其中C类是实验中控制样本的子集。我们将此算法命名为MCS(控制样本的中值)。如果有对照样品,这是所有参考方法建议的选择方法。

当没有可用的控制样本时,使用以下三种算法。第二种方法(MHS:HapMap样本的中值)使用外部控制样本的中值计算参考值(在本例中,它们来自HapMap.)。这是建议的方法[6]. 第三种方法(MTS:肿瘤样本中位数)使用所有肿瘤样本的中位数构建参考值(隐含假设大多数样本在给定位置具有中性拷贝数)。在aroma.afmetrix包的一些小插曲中建议使用[2]. 最后,NSA根据肿瘤样本中预测的正常区域计算参考值。

发现复发异常区域的能力

因为这是许多CN分析的目的,所以我们将本节重点放在检测复发性改变上。

分析的实验是GBM数据集(64肿瘤的样品[8]与Affymetrix Mapping50K_240Xba杂交)。使用CRMAv2预处理和ACNE摘要方法对数据进行分析。一旦θ获得值,使用MTS和NSA对数据进行缩放。此外,我们以HapMap样本作为参考(MHS)进行了相同的分析。

在应用了三种缩放方法后,使用CBS对CN估计进行了分割[18]然后,使用GISTIC计算复发异常区域[27]。

不同团体对GBM进行了深入研究[828]众所周知,它表现出强烈的反复畸变。例如,在GBM中,7q个和几乎整个10号染色体的缺失[28]. 2显示了使用肿瘤样本中值(MTS)发现的复发性畸变,以粗红色和灰色显示,从NSA(红色和黑色线条)和MHS(绿色和深绿色)获得的畸变。使用MTS,畸变区域7q个不仅看起来被放大了,而且被删除了。这种重复性缺失是一种人为的畸变,由参考值的估计偏差引起。自7年反复扩增以来q个发生在超过一半的样本中,这些基因座的参考MTS估计值大于实际值。反过来,缩放过程为这些位点提供的拷贝数值小于预期值。这是一个普遍趋势:在重复扩增中,中性拷贝数基因座的MTS估计值大于预期。这种偏见使得放大作用不那么显著,统计数据也不那么显著。相反的效果也可以在10号染色体上看到,已知该染色体会反复删除。使用MTS,10号染色体上出现重复扩增和重复缺失。

图2
图2

该图显示了使用MTS、MHS和NSA缩放方法后获得的复发像差。MTS用粗红色和灰色表示,MHS用绿色和深绿色线条表示,最后,NSA用红色和黑色线条表示。MHS和NSA在识别复发像差方面的表现相似。NSA和MHS提供了更显著的复发像差值,没有出现人工像差。相反,MTS引入了人工像差。

另一方面,在两条7号染色体上q个和10,NSA和MHS提供了更显著的像差值(放大和删除区域具有更高的q值),没有出现人为像差。两种算法在识别周期性畸变方面的性能相似。然而,我们必须使用MHS微调低水平分析,因为CN估计中出现了非常强的偏差(由于算法的第二阶段-按样本缩放,NSA不存在)。

沿着基因组找到CNA的能力

我们对前列腺癌和肺癌这两个癌症数据集进行了比较。此外,我们分析了一些HapMap样本中的X染色体,以检查NSA是否能够发现哪些样本有两个拷贝(女性样本),并使用该染色体的第一个常染色体区域,比较发现拷贝数变化的能力。

前列腺癌分析

前列腺癌数据集与Affymetrix Mapping250K_Nsp杂交[9]. 我们将NSA结果与MTS、MCS和MHS进行了比较。需要提醒的是,MCS比其他方法需要更多的杂交。该分析侧重于发现异常区域,以显示哪种方法检测CNA更准确。

展示了使用不同缩放方法获得的样本GSM318766的8号染色体DNA CNs。除了MHS方法明显比本例中的其他方法噪声更大之外,不可能从这些数字中找出明显的差异。

图3
图3

使用MCS(第一组,使用样品实验室的对照样品生成的参考,总共40个样品)、MHS(第二组,使用Hapmap样品生成的参照,总共40份样品)、MTS(第三组,使用所有肿瘤样品生成的参考(20个样品))和NSA(第四组,使用“正常”参考前列腺癌数据集样本GSM318766中8号染色体肿瘤样本(20个样本)内的区域与Mapping250K_Nsp杂交。MHS方法的噪声尤其大。

为了量化发现CNA的能力,我们生成了ROC曲线(图4)对于从1个副本更改为2个副本的区域,在32Mb左右(图). 位于变化点下游的SNP的总CN(具有中性CN)大于变化点上游的SNP(删除区域)。对于CN中的任何阈值,都有真阳性TP(正常区域中高于阈值的SNP)、假阳性FP(删除区域中高于该阈值的SNPs)、真阴性TN(删除区中低于该阈值的SNPs)和假阴性FN(正常区域中低于阈值的SNPs)。FPR=FP/(FP+TN)和TPR=TP/(TP+FN)可以在不同的阈值下进行评估。ROC曲线是不同阈值下TPR与FPR的曲线图。一种完美的分类方法为低FPR提供了较大的TPR。最差分类方法(随机选择)是从(0,0)到(1,1)的一条直线。Bengtsson等人在[1]并在相应的补充说明中进行了深入的解释。

图4
图4

ROC与缩放数据的比较(前列腺癌数据集,样本GSM318766,与Mapping250K_Nsp杂交)。我们重点关注的是在图中所示的32Mb位置附近从1个拷贝更改为2个拷贝的区域为了进行分析,我们包括了拷贝数变化(特别是从20到45 Mb)周围的SNP。分析中未考虑30Mb至34Mb安全区内的SNP,因为很难识别变化的确切位置。位于变化点上游的SNP的总CN等于1(删除区域),而位于变化点下游的SNP具有正常CN(CN=2)。对于这个特定的样本(在研究跳跃中),使用NSA的结果几乎与使用MCS的结果一样好。MTS的结果较差,MHS远远落后。这是一种普遍趋势,不利于对来自不同实验室的样品进行联合分析。

在本分析中,我们包括了围绕CN变化的SNP(特别是从20 Mb到45Mb)。由于很难确定变化的确切位置,因此不考虑30Mb至34Mb安全区内的SNP。该图包括一些灰色区域,以说明研究区域。如图所示4MCS和NSA是最能识别CN变化的机构(相同FPR的TPR更好)。MTS给出了中间结果,MHS的表现比其他的差。我们选择了这个位点,因为它是这个数据集中最显著的复发性畸变,并且之前已经证明它是前列腺癌中的常见畸变[2930]。

肺癌分析

我们还利用肺癌研究的数据集验证了NSA[10],与Affymetrix GenomeWideSnp 6.0杂交。值得注意的是,在这项研究中有291个样本,其中59个是来自不同实验室的对照样本(其中一位作者在个人通信中告诉我们,它们来自HapMap)。

5显示了使用MHS(超过291个样本)和NSA(使用232个肿瘤样本)的样本GSM63858中5号染色体的CN。从图中可以看出,使用MHS的噪声再次大于使用NSA的噪声。此处用于计算ROC的区域范围为0到45 Mb,安全区域为25到35 Mb,其中拷贝数从2跳到3[3132]. 图中的ROC曲线6表明NSA的性能优于MHS。数字78在不同的示例和位置中显示了类似的行为。

图5
图5

使用MHS(291个样本,其中59个是来自HapMap的对照样本,用于计算参考值)和NSA(参考使用肿瘤样本中的“正常”区域(232个样本))对肺癌数据集杂交到GenomeWideSNP 6.0的样本GSM638958中的5号染色体进行DNA拷贝数。

图6
图6

ROC与缩放数据的比较(肺癌数据集,样本GSM638958,与GenomeWideSNP 6.0阵列杂交)。我们使用了一个区域,其中副本从2个更改为3个,大约在30Mb的位置,如图所示5为了进行分析,我们包括了拷贝数变化(特别是从0到45 Mb)周围的SNP。分析中未考虑25Mb至35Mb安全区内的SNP,因为很难识别变化的确切位置。位于变化点上游的SNPs被认为具有比变化点下游的SNPs小的总CN。对于这个特定的样本(在研究跳跃中),NSA比MHS更好地区分这两个区域。

图7
图7

使用MHS(291个样本,其中59个是来自HapMap的对照样本,用于计算参考值)和NSA(参考使用肿瘤样本中的“正常”区域(232个样本))对肺癌数据集杂交到GenomeWideSNP 6.0的样本GSM639066中的14号染色体进行DNA拷贝数。

图8
图8

ROC与缩放数据的比较(肺癌数据集,样本GSM639066,与GenomeWideSNP 6.0阵列杂交)。我们使用了一个区域,其中副本从3个更改为2个,位置65Mb左右,如图所示7为了进行分析,我们包括了拷贝数变化(特别是从0到100 Mb)周围的SNP。分析中不考虑60 Mb至75 Mb安全区内的SNP,因为其中包括删除的区域。位于变化点上游的SNP的总CN大于变化点下游的SNP。对于这个特定的样本(在所研究的跳跃中),NSA比MHS在两个区域之间的区分更好。

染色体X分析

虽然NSA不被认为用于性染色体,但我们在一组HapMap样本中包括了对X染色体的分析,其中包括32个男性和38个女性样本。这组样本相当于一个实验,其中一些样本中有一条染色体缺失。9描述了哪些区域被NSA识别为正常区域(在这种情况下应与女性样本相对应)。前32个样本为男性,后38个样本为女性。在男性样本中,X染色体PAR1的起始部分,即其常染色体区域之一,被正确鉴定为有两个拷贝。第二个常染色体区域(PAR2)(X染色体末端的一些SNP)也出现了两个拷贝。XTR(X转座区,位于q臂中部)显示出极少的HNCN,并且几乎所有样本都没有超过阈值。在女性样本中,我们发现其中一组样本(从样本33到样本48)呈现出多个具有单亲双分裂的区域,即具有LOH的区域。所有这些样本均来自亚洲女性(和一名白种人)。第二组均为白种人和约鲁班人,该组未显示LOH区域,预计整个染色体正常。

图9
图9

该图显示了NSA从GIGAS HapMap数据集中检测到的X染色体内的正常区域(白色)。这些数据(70个样本与GenomeWideSNP 6.0阵列杂交)用ACNE进行了预处理。请注意,SNP指数是按基因组位置排序的,样本指数是按“正常”含量排序的。根据这个顺序,前32个样本是男性,接下来的38个是女性。此外,女性样本可分为两组。第一组是亚洲女性(除一名高加索人外),代表许多单亲地区,第二组是高加索人和约鲁班女性。

使用此信息,我们将ACNE、ACNE+NSA与CN5进行了比较(见图10). CN5使用性染色体信息(即哪些样本是男性和女性)来执行缩放。在这一特定分析中,ACNE和NSA没有此信息。普通ACNE可通过使用MTS方法(所有样本均用作参考,不考虑性别)和CN5通过使用MCS(使用女性样本的预期拷贝数)进行缩放。我们分析了一个男性样本中位于X染色体PAR1区域末端的CN跳跃。这个假常染色体区的长度从0.6Mb到2.699Mb。图中的ROC曲线11表明,ACNE在这一特定分析中的表现比CN5差。然而,在用NSA修正ACNE后,其ROC表现优于CN5。

图10
图10

这些图显示了使用ACNE、ACNE+NSA和CN5的DNA拷贝数,以及与GenomeWideSNP 6.0杂交的GIGAS_g_GAINmixHapMapAffy2_GenomeWide Ex_6_A04_31266样本中X染色体的B等位基因分数。B等位基因的拷贝数和分数表明该样本为男性。常染色体区域的总拷贝数(p臂的开始和q臂的中间)接近两个拷贝。

图11
图11

ROC与缩放数据的比较(GIGAS HapMap数据集,样本GIGAS_g_GAINmixHapMapAffy2_GenomeWideEx_6_A04_31266,与GenomeWide SNP 6.0阵列杂交)。我们使用了X染色体的初始区域,其中拷贝数从2变为1,如图所示10为了进行分析,我们包括了拷贝数变化周围的SNP(特别是前1000个SNP,按基因组位置排序)。分析中没有安全区。位于变化点上游的SNP的总CN大于变化点下游的SNP。同样,对于这个特定的样本(在所研究的跳跃中),NSA比ACNE(在本例中为“MTS”)和CN5(在本示例中为“MCS”)区分得更好。

正常区域的CN估计

在前面的段落中,我们已经表明,使用来自不同实验室的样本会增加估计的噪音。然而,这里将显示,这一事实不仅增加了噪声,而且也增加了偏差。我们再次使用与Affymetrix GenomeWideSNP 6.0阵列杂交的肺癌数据集,并在肿瘤样本中选择了一条似乎正常的染色体(因为fracB图显示了贯穿整个染色体的三个云,图12). 这三个云对应于AA、BB和AB基因型的SNP。12显示了使用MHS(中间面板)和NSA(底部面板)的CN估计值。使用MHS时,整个染色体上出现波浪效应,而使用NSA时则不会出现这种情况。这种沿着基因组变化的偏见是由错误的参考计算引起的。

图12
图12

这些数字显示了使用MHS(291个样本,其中59个是HapMap中的对照样本,用于计算参考值)和NSA(使用肿瘤样本中“正常”区域的参考值(232个样本)的B等位基因分数和DNA拷贝数)肺癌数据集样本GSM638955中的5号染色体与GenomeWideSNP 6.0杂交。FracB图显示样本具有中性拷贝数。MHS预测显示了一种波浪效应,而在NSA情况下不存在这种波浪效应。

此外,还有另一种偏差,即使使用来自同一实验室的对照样品也存在这种偏差。这种偏差是在样品归一化的预处理步骤中产生的。此步骤对探针级别的数据进行转换,使其在不同样本中具有可比性。这种转换可以是分位数缩放,也可以只是数据与常数的乘积。然而,如果样本中的大部分基因组被删除(扩增),则归一化过程往往会补偿这种影响,基因组的正常区域(理想情况下CN=2)会转移到更大(更小)的值来补偿畸变。这一事实导致了CN估计的偏差。因此,如果存在具有许多缺失(或扩增)的样本,则这些样本的正常区域的值略高于(低于)2。

存在批量效应时的行为

我们还分析了使用NSA消除批量效应的能力。为此,我们使用了卵巢癌数据集[11]. 该数据集包括129个样本(72个肿瘤和57个参考文献,其中一些匹配),这些样本分13批进行杂交。每个批次的样本数量非常不同,从一个批次的2个样本到另一个批次的20多个样本不等。在小批量的情况下,分批计算参考值或将实验作为一个整体的优点尚不清楚。

我们在该数据集上应用了带有批处理效应消除的NSA。NSA估算重量的程序是完全盲目的,即它不需要用户提供任何信息,即每个批次中的样品是关于哪些方面的。

13显示样本GSM492511_ICT318T中的染色体1,使用CRMAv2加CalMaTe摘要方法和NSA缩放结果。第一个面板显示CalMaTe使用对照样本作为参考(将所有样本作为一个整体),第二个和第三个面板显示在运行NSA(不带和带批量效应消除(BER))后的缩放。可以看出,使用带误码率的NSA,整体噪声略小。为了量化这种影响,我们还包括ROC曲线(图14)CN在位置70 Mb左右变化。该ROC证实了肉眼所见:噪声较小,因此检测拷贝数变化的能力提高。我们还在一个不同的样本(GSM492507_IC288T)中分析了从1个副本到2个副本的变化(图15). 这一总体趋势是相似的。如ROC曲线的上部位置所示,这种拷贝数变化更容易精确定位(图16). NSA(无BER)和MCS的行为相似。因此,NSA可以安全使用,无需向定标法提供对照样品。

图13
图13

这些图显示了使用CalMaTe、CalMaTe+NSA(无BER)和CalMaTe+NSA(有BER)的DNA拷贝数,以及与GenomeWideSNP 6.0杂交的卵巢数据集样本GSM492511_IC318T中染色体1的B等位基因分数。可以观察到,与其他方法相比,NSA使用BER获得的合成信号的噪声较小。

图14
图14

ROC与缩放数据的比较(卵巢数据集,样本GSM492511_IC318T,与GenomeWideSNP 6.0阵列杂交)。我们使用了图中所示的1号染色体开始时从3个拷贝变为2个拷贝的区域13为了进行分析,我们包括了拷贝数变化周围的SNP(特别是从60 Mb到85 Mb)。分析中未考虑70 Mb至75 Mb安全区内的SNP。位于变化点上游的SNP的总CN大于变化点下游的SNP。对于这个特定的样本(在所研究的跳跃中),NSA(有BER)比NSA(无BER)和CalMaTe使用对照样本作为参考(MCS)更好地区分。

图15
图15

这些图显示了使用CalMaTe、CalMaTe+NSA(无BER)和CalMaTe+NSA(有BER)的DNA拷贝数,以及与GenomeWideSNP 6.0杂交的卵巢数据集样本GSM492507_IC288T中染色体1的B等位基因分数。与使用其他方法相比,NSA(使用BER)获得的合成信号的噪声更小。

图16
图16

ROC与缩放数据的比较(卵巢数据集,样本GSM492511_IC318T,与GenomeWideSNP 6.0阵列杂交)。我们使用了1号染色体开始时从1个拷贝变为2个拷贝的区域,如图所示15为了进行分析,我们包括了拷贝数变化(特别是从15到45 Mb)周围的SNP。分析中未考虑27.5 Mb至32.5 Mb安全区内的SNP。位于变化点上游的SNPs被认为具有比变化点下游的SNPs小的总CN。NSA(有BER)优于NSA(无BER)和CalMaTe。

17显示了权重矩阵相关性的层次聚类γk个可以看出,同一批杂交样品的重量相似。每个批次都有不同的颜色(灰度)。灰色的深浅是按杂交日排序的。

图17
图17

基于权重矩阵相关性的层次聚类( γk个)为Ovarian数据集计算。该数据集已分13批运行。每个批次都有不同的颜色(灰度)。指定的灰度是根据杂交日期进行的。图的顶部添加了一个灰度带。可以观察到,在类似批次中杂交的样品的重量相似。

讨论和结论

本文介绍了NSA算法,该算法通过在肿瘤样本中找到正常区域,将汇总的SNP信号缩放到CN值。NSA独立于平台(Illumina或Affymetrix)和预处理方法(dChip、CRMAv2、ACNE、CalMaTe…)。NSA仅使用肿瘤样本生成的合成参考比使用不同实验室的对照样本或使用所有肿瘤样本得出的结果更准确。事实上,NSA结果与使用数据集中同一实验室的对照样品获得的结果相近。此外,NSA还包括一种处理批处理效应的算法。它会自动计算每个样品的最佳参考值(在我们的测试中与杂交批次密切相关)。运行NSA不需要批次信息;该算法只使用微阵列的信号自动识别合适的样本来计算参考值。NSA最大限度地减少了具有大量类似畸变(即大多数是增益或缺失)的样本的偏差问题。对于这些样本,正常区域的预测CN倾向于补偿包括偏差在内的像差。这是使用MCS(来自同一实验室的对照样品)时也会出现的一个潜在问题。NSA能够有效地发现正常区域,并使用它们来缩放数据,以减少归一化步骤中出现的任何偏差。

我们将NSA与其他缩放方法进行了比较。一方面,重要的是要指出,NSA、MTS和MHS所需的杂交样本数量远小于使用MCS,因为这些方法不需要将来自同一实验室的对照样本杂交以创建参考。MHS方法似乎噪音更大,这可能是阵列杂交实验室的协议或条件差异的影响。MTS提供了有偏差的估计值,尤其是在反复畸变的情况下。相反,国家统计局的估计值与MCS的估计值相似。此外,NSA提供了一种处理大型实验不可避免的批量效应的方法。

NSA也提出了一些局限性,在这里进行了总结。最终,正常区域的识别依赖于这样一个事实,即两条染色体都不太可能获得。如果情况并非如此,并且一些样本确实在两条染色体上都出现了扩增,那么NSA仍然是可靠的,因为参考值(如中位数)的稳健估计值可以承受小部分异常值的存在。

正常区域的预测可能会受到肿瘤纯度低的样本的影响,这些样本可能被错误地包含在正常区域中。同样,由于中位数能够承受存在的误差,因此只有在大多数样本的肿瘤纯度很低时才会产生影响,而通常情况并非如此。

NSA用于构建参考的样本数量对于每个基因座是不同的。因此,参考值的方差因位置而异。特别是,与很少出现畸变的区域相比,复发性畸变区域具有更大的方差参考。

由于NSA是基于寻找富含HNCN的区域,如果在没有SNPs的区域(仅包括CN探针)中发生畸变,NSA无法为该区域提供准确的参考。

同样,NSA对染色体的估计X(X)Y(Y)对于只包括男性样本的实验来说是不可靠的。它对包括多倍体样品的实验也没有用处。这些样品仍然对其分析构成挑战。

最后,NSA可能失败的一种潜在情况是:全部的样本在同一轨迹上出现畸变。这不太可能发生,但可能发生。即使在这种假定的情况下,也可以将在同一实验室杂交的一些样本纳入研究,以避免这些“紧急情况”。

尽管存在这些限制(大多数限制也存在于其他缩放方法中),但NSA能够解决在没有控制样本时查找重复区域和拷贝数变化的问题。

如果将NSA应用于包含肿瘤和对照样本的数据集,CN变化的检测可能比使用MCS更准确(尤其是如果NSA消除了批处理效应),因为有更多(更重要的)更合适的样本来计算参考值。这一事实使得NSA特别便于应用于许多实验(在GEO或ArrayExpress中),而无需明确说明数据集中哪些是对照样品或批次。

总之,NSA可以用于准确地将总结的SNP信号缩放到CN。与MTS或MHS相比,它具有更少的偏差和噪音,并且不需要控制样本杂交。

可用性和要求

拟议的NSA方法可在R中实施的NSA包中获得(R开发核心团队,2010年)。此软件包包括高级aroma.afmetrix框架的附加组件[33],这使得NSA可以应用于非常大的SNP数据集。它在CRAN存储库中以一个名为“NSA”的包公开提供。

作者的贡献

MO构思了这个想法,并与AA联合开发了aroma.cn框架的插件。AR开发了算法来解释批处理效应。MO、AA和AR编写了手稿,并开发了软件来比较NSA和其他算法。所有作者阅读并批准了最终手稿。

缩写

左侧:

杂合性水平

HNCN:

杂合中性拷贝数775 SNP

中国注册会计师:

拷贝号畸变

CN:

DNA拷贝数

SNP公司:

单个776核苷酸多态性

业务许可:

杂合性缺失

CNV:

副本编号777变更

国家安全局:

正态搜索算法

误码率:

批量效果删除

质量保证:

778二次规划

监控中心:

对照样品的中位数

MHS公司:

779个HapMap样本的中位数

MTS公司:

肿瘤样本的中位数。

参考文献

  1. Bengtsson H,Wirapati P,Speed T:一种单阵列预处理方法,用于从包括GenomeWideSNP 5和6在内的所有Affymetrix基因分型阵列中估计全分辨率原始拷贝数。生物信息学。2009, 25 (17): 2149-2156. 10.1093/生物信息学/btp371

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  2. Bengtsson H、Simpson K、Bullard J、Hansen K:aroma.affmetrix:R中用于分析有限内存中小到非常大的Affmetrix数据集的通用框架。加州大学伯克利分校统计系技术报告745。2008,

    谷歌学者 

  3. Affymetrix Inc:Affymotrix基因分型控制台3.0-用户手册。2008年,Affymetrix,

    谷歌学者 

  4. Wang K,Li M,Hadley D,Liu R,Glessner J,Grant S,Hakonarson H,Bucan M:PennCNV:一种用于全基因组SNP基因分型数据中高分辨率拷贝数变异检测的集成隐马尔可夫模型。《基因组研究》2007,17(11):1665-1674。10.1101/gr.6861907

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  5. Lin S、Carvalho B、Cutler D、Arking D、Chakravarti A:SNP调用Affymetrix微阵列的经验Bayes方法的验证和扩展。基因组生物学。2008,9(4):R63-10.1186/gb-2008-9-4-R63

    第条 公共医学 公共医学中心 谷歌学者 

  6. Lin M,Wei L,Sellers W,Lieberfarb M,Wong W,Li C:dChipSNP:基于SNP阵列的失速数据的显著性曲线和聚类。生物信息学。2004, 20 (8): 1233-1240. 10.1093/生物信息学/bth069

    第条 公共医学 中国科学院 谷歌学者 

  7. Chen H,Xing H,Zhang N:使用高密度基因分型阵列评估肿瘤中的亲本特异性DNA拷贝数。公共科学图书馆计算生物学。2011年7月7日:e1001060-10.1371/journal.pcbi.1001060

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  8. Kotliarov Y、Steed ME、Christopher N、Walling J、Su Q、Center A、Heiss J、Rosenblum M、Mikkelsen T、Zenklusen JC、Fine HA:178例胶质瘤的高分辨率全球基因组调查揭示了新的拷贝数改变和等位基因失衡区域。癌症研究,2006,66(19):9428-9436。10.1158/0008-5472.CAN-06-1691

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  9. Wolf M、Mousse S、Hautaniemi S、Karhu R、Huusko P、Allinen M、Elkahloun A、Monni O、Chen Y、Kallioniemi A、Kallioneimi OP:利用cDNA微阵列上的CGH对人类前列腺癌基因拷贝数变化进行高分辨率分析:拷贝数对基因表达的影响。肿瘤。2004, 6 (3): 240-247. 10.1593/新03439

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  10. Weiss J、Sos M、Seidel D、Peifer M、Zander T、Heuckmann J、Ullrich R、Menon R、Maier S、Soltermann A:鳞状细胞肺癌中频繁和局部的FGFR1扩增与治疗上可控制的FGFRl依赖性相关。《科学转化医学》,2010,2(62):62ra93-10.1126/scitranslmed.3001451。10.1126/scitranslmed.3001451

    第条 中国科学院 谷歌学者 

  11. Ramakrishna M、Williams L、Boyle S、Bearfoot J、Sridhar A、Speed T、Gorringe K、Campbell I:通过综合拷贝数和表达分析确定卵巢癌中的候选促生长基因。请给我一个。2010年,5(4):e9983-10.1371/journal.pone.0009983

    第条 公共医学 公共医学中心 谷歌学者 

  12. Frazer K、Ballinger D、Cox D、Hinds D、Stuve L、Gibbs R、Belmont J、Boudreau A、Hardenbol P:超过310万SNP的第二代人类单倍型图。自然。2007年,449(7164):851-861。10.1038/性质06258

    第条 公共医学 中国科学院 谷歌学者 

  13. Li C,Hung Wong W:寡核苷酸阵列的基于模型的分析:模型验证、设计问题和标准误差应用。基因组生物学。2001, 2 (8): 1-11.

    谷歌学者 

  14. Irizarry R、Hobbs B、Collin F、Beazer-Barclay Y、Antonellis K、Scherf U、Speed T:高密度寡核苷酸阵列探针水平数据的探索、归一化和总结。生物统计学。2003, 4 (2): 249-264. 10.1093/生物统计/4.2.249

    第条 公共医学 谷歌学者 

  15. Ortiz-Estevez M,Bengtsson H,Rubio A:ACNE:估算Affymetrix SNP阵列等位基因特异性拷贝数的总结方法。生物信息学。2010年,26(15):1827-1833。10.1093/生物信息学/btq300

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  16. Ortiz-Estevez M,Aramburu A,Bengtsson H,Neuvial P,Rubio A:CalMaTe:一种用于提高下游分割SNP阵列等位基因特异性拷贝数的方法和软件。生物信息学。2012, 28 (13): 1793-1794. 10.1093/生物信息学/bts248

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  17. Peiffer D,Le J,Steemers F,Chang W,Jennies T,Garcia F,Haden K,Li J,Shaw C,:使用Infinium全基因组基因分型对染色体畸变进行高分辨率基因组分析。基因组研究2006,16(9):1136-10.1101/gr.5402306

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  18. Olshen A,Venkatraman E,Lucito R,Wigler M:用于分析基于阵列的DNA拷贝数数据的循环二进制分割。生物统计学。2004, 5 (4): 557-572. 10.1093/生物统计/kxh008

    第条 公共医学 谷歌学者 

  19. Venkatraman E,Olshen A:用于分析阵列CGH数据的快速循环二进制分割算法。生物信息学。2007, 23 (6): 657-663. 10.1093/生物信息学/btl646

    第条 公共医学 中国科学院 谷歌学者 

  20. Li C、Beroukhim R、Weir B、Winckler W、Garraway L、Sellers W、Meyerson M:使用SNP阵列对肿瘤样本进行主拷贝比例分析。BMC生物信息学。2008, 9: 204-[http://dx.doi.org/10.1186/1471-2105-9-204], [] 10.1186/1471-2105-9-204

    第条 公共医学 公共医学中心 谷歌学者 

  21. 布朗里格D:加权中值滤波器。通用ACM。1984, 27 (8): 807-818. 10.1145/358198.358222

    第条 谷歌学者 

  22. Chierici M、Miclaus K、Vega S、Furlanello C:批次大小和组成的交互作用导致了使用CHIAMO基因分型算法在GWAS中的结果不一致。药物基因组学杂志2010,10(4):355-363。10.1038/tpj.2010.47

    第条 公共医学 中国科学院 谷歌学者 

  23. Scharpf R、Ruczinski I、Carvalho B、Doan B、Chakravarti A、Irizarry R:使用SNP阵列在拷贝数估计中解决批量效应的多级模型。生物统计学。2011, 12: 33-50. 10.1093/生物统计/kxq043

    第条 公共医学 公共医学中心 谷歌学者 

  24. Eckel-Passow J、Atkinson E、Maharjan S、Kardia S、de Andrade M:评估Affymetrix 6.0 SNP阵列平台基因组拷贝数变异的软件比较。BMC生物信息学。2011, 12: 220- 10.1186/1471-2105-12-220

    第条 公共医学 公共医学中心 谷歌学者 

  25. LaFramboise T,Harrington D,Weir B:PLASQ:一种基于广义线性模型的程序,用于根据SNP阵列数据确定癌细胞中的等位基因剂量。生物统计学。2007, 8 (2): 323-336.

    第条 公共医学 谷歌学者 

  26. Nannya Y、Sanada M、Nakazaki K、Hosoya N、Wang L、Hangaishi A、Kurokawa M、Chiba S、Bailey D、Kennedy G、Ogawa S:使用高密度寡核苷酸单核苷酸多态性基因分型阵列检测拷贝数的稳健算法。《癌症研究》2005,65(14):6071-6079。[http://dx.doi.org/10.1158/0008-5472.CAN-05-0465],[]10.1158/0008-5472.CAN-05-0465

    第条 公共医学 中国科学院 谷歌学者 

  27. Beroukhim R,Getz G,Nghiemphu L,Barretina J,Hsueh T,Linhart D,Vivanco I,Lee J,Huang J,Alexander S,Du J:评估染色体畸变在癌症中的意义:胶质瘤的方法学和应用。美国国家科学院院刊,2007,104:20007-2012。10.1073/pnas.0710052104

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  28. TCGA网络:全面的基因组特征定义了人类胶质母细胞瘤基因和核心通路。自然。2008, 455 (7216): 1061-1068. [http://dx.doi.org/10.1038/nature07385],[]10.1038/性质07385

    第条 谷歌学者 

  29. El Gammal A、Brüchmann M、Zustin J、Isbarn H、Hellwinkel O、Kollermann J、Sauter G、Simon R、Wilczak W、Schwarz J:染色体8p缺失和8q增加与前列腺癌的肿瘤进展和预后不良相关。《临床癌症研究》2010,16:56-10.1158/1078-0432.CCR-09-1423

    第条 公共医学 中国科学院 谷歌学者 

  30. Macoska J、Trybus T、Benson P、Sakr W、Grignon D、Wojno K、Pietruk T、Powell I:人类前列腺癌8p染色体上三个抑癌基因位点的证据。《癌症研究》1995,55(22):5390-

    公共医学 中国科学院 谷歌学者 

  31. Balsara B、Sonoda G、du Manoir S、Siegfried J、Gabrielson E、Testa J:比较基因组杂交分析检测人类非小细胞肺癌中3q、5p、7p和8q处DNA序列的频繁、通常是高水平的过度表达。癌症研究2116,57(11):1997-

    谷歌学者 

  32. Weir B,Woo M,Getz G,Perner S,Ding L,Beroukhim R,Lin W,Province M,Kraja A,Johnson L:描述肺腺癌中癌症基因组的特征。自然。2007, 450 (7168): 893-898.

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  33. Bengtsson H,Irizarry R,Carvalho B,Speed T:单基因座水平原始拷贝数的估计和评估。生物信息学。2008, 24 (6): 759-767. 10.1093/生物信息学/btn016

    第条 公共医学 中国科学院 谷歌学者 

下载参考资料

致谢

作者感谢路易斯·蒙图恩加和玛丽贝尔·祖代尔(“纳瓦拉大学CIMA医学研究中心”)在分析拷贝数改变的生物后果方面提供的支持和建议。

作者信息

作者和附属机构

作者

通讯作者

与的通信安吉尔·鲁比奥.

其他信息

竞争性利益

作者声明他们没有相互竞争的利益。

作者提交的原始图像文件

权利和权限

开放式访问本文经BioMed Central Ltd.许可发布。这是一篇开放存取文章,根据知识共享署名许可条款分发(https://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用本文

Ortiz-Estevez,M.、Aramburu,A.和Rubio,A.在没有对照样本的情况下获取DNA拷贝数。分子生物学算法 7, 19 (2012). https://doi.org/10.1186/1748-7188-7-19

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1748-7188-7-19

关键词