人类基因组学。2004; 1(4): 287–299.
高密度寡核苷酸阵列鉴定的全基因组DNA拷贝数变化
,1 ,1 ,1 ,1 ,2 ,2 ,2 ,2 ,1和1 Jing Huang(黄晶)
1Affymetrix,Inc.,美国加利福尼亚州圣克拉拉中央高速公路3380号,邮编:95051
文伟(Wen Wei)
1Affymetrix,Inc.,美国加利福尼亚州圣克拉拉中央高速公路3380号,邮编:95051
简·张
1Affymetrix,Inc.,美国加利福尼亚州圣克拉拉中央高速公路3380号,邮编:95051
刘国英
1Affymetrix,Inc.,美国加利福尼亚州圣克拉拉中央高速公路3380号,邮编:95051
格雷厄姆·比格内尔
2We llcome Trust Sanger Institute,We llcome Trust Genome Campus,剑桥欣克斯顿,CB10 1SA,英国
迈克尔·斯特拉顿
2We llcome Trust Sanger Institute,We llcom Trust Genome Campus,剑桥,CB10 1SA,英国
P安德鲁·福特雷尔
2We llcome Trust Sanger Institute,We llcome Trust Genome Campus,剑桥欣克斯顿,CB10 1SA,英国
理查德·伍斯特
2We llcome Trust Sanger Institute,We llcom Trust Genome Campus,剑桥,CB10 1SA,英国
基思·琼斯
1Affymetrix,Inc.,美国加利福尼亚州圣克拉拉中央高速公路3380号,邮编:95051
迈克尔·H·沙佩罗
1Affymetrix,Inc.,美国加利福尼亚州圣克拉拉中央高速公路3380号,邮编:95051
1Affymetrix,Inc.,美国加利福尼亚州圣克拉拉中央高速公路3380号,邮编:95051
2We llcome Trust Sanger Institute,We llcom Trust Genome Campus,剑桥,CB10 1SA,英国
通讯作者。 收到日期:2004年3月5日;2004年3月5日接受。
摘要
DNA拷贝数的变化是大多数人类癌症常见的遗传不稳定性的标志之一。以前的基于微阵列的方法被用于识别染色体的增益和损耗;然而,他们无法在单核苷酸多态性(SNP)水平上对等位基因进行基因分型。在这里,我们描述了一种新的算法,该算法使用最近开发的基于高密度寡核苷酸阵列的SNP基因分型方法,即全基因组取样分析(WGSA),以高分辨率识别全基因组染色体的得失。WGSA通过等位基因特异性杂交,在单个阵列上合成完全匹配(PM)和失配(MM)探针,同时对超过10000个SNPs进行基因型分型。拷贝数算法联合使用PM强度和配对PM和MM强度值之间的区分率来识别和估计遗传拷贝数变化。将来自实验样本的值与来自包含100多个正常个体的参考集的SNP特定分布进行比较,以获得统计能力。利用SNP强度的单点分析和邻接点分析,可以确定拷贝数发生统计显著变化的基因组区域。我们使用一组人类乳腺癌细胞系确定了多个扩增和缺失区域。我们使用基于定量聚合酶链反应的独立方法验证了这些结果,并发现我们的方法既敏感又特异,能够耐受肿瘤和正常DNA混合的样本。此外,通过使用参考集中已知的等位基因频率,可以确定包含连续纯合子标记的具有统计意义的基因组区间,从而可以在不需要匹配的正常对照样本的情况下检测杂合性缺失(LOH)的区域。通过SNP基因分型将LOH分析与使用单个阵列的拷贝数估计相结合,可以进一步了解基因组改变的结构。SNP间常染色质的平均距离和中位数分别为244千碱基(kb)和119千碱基(kb),该方法提供了非基于寡核苷酸的实验方法不容易实现的分辨率。
关键词:SNP、基因型、扩增、缺失、拷贝数、LOH
介绍
将正常细胞转化为癌细胞的遗传事件的潜在进展特征是从二倍体状态转变为非整倍体状态。[1,2]由于基因组不稳定,癌细胞在多个水平上积累了随机和因果变化,从点突变到全染色体畸变。DNA拷贝数的变化包括但不限于杂合性丢失(LOH)和纯合性缺失(可能导致肿瘤抑制基因丢失),以及基因扩增事件(可能导致细胞原癌基因激活)。解开肿瘤细胞复杂核型的持续挑战之一是改进分子方法的发展,该方法能够以高分辨率和准确性对LOH、得失进行全局编目。
已经描述了许多分子方法来识别肿瘤内全基因组LOH和拷贝数的变化。设计用于通过配对肿瘤和血液样本识别等位基因缺失的经典LOH研究使用了限制性片段长度多态性(RFLP),更常见的是高度多态性微卫星标记(短串联重复序列、可变串联重复序列数)。利用视网膜母细胞瘤基因的LOH分析证明Knudson的两次命中肿瘤发生模型,1卢比结果表明,由于多种二次命中机制,突变等位基因的拷贝数可以从一个拷贝到三个拷贝不等。[三]因此,发生LOH的区域不一定包含DNA拷贝数变化。测量全基因组DNA拷贝数增加或减少的方法包括比较基因组杂交(CGH)[4]光谱核型分析(SKY)[5]荧光就地杂交(FISH)[6]分子减法(例如表征差异分析)[7,8]和数字核型分析[9]。CGH可能是使用最广泛和最强大的方法,其分辨率有限[10-20兆碱基(Mb)用于中期扩散,1-2兆碱基用于基因组克隆],不适合识别发生LOH的基因组区域,因此存在单个等位基因,但拷贝数没有减少。最近,一种称为RO-MA的方法,使用二核苷酸探针(长度为70个核苷酸)评估拷贝数变化,在整个基因组中实现了30kb的分辨率。然而,与CGH一样,它不提供基因型信息,因此也不能在没有拷贝数变化的情况下识别LOH区域[10].
随着人类基因组的完成,单核苷酸多态性(SNPs)作为个体间最常见的序列变异,由于其丰富性、稳定性和相对容易评分,正逐渐成为大规模遗传研究中的首选标记。这些相同的特征使SNPs成为LOH研究的强大标记。高密度DNA阵列技术[11-13]已应用于鉴定肿瘤细胞的基因组改变,最显著的是LOH[14-17]。我们最近开发了一种称为“全基因组取样分析”(WGSA)的方法,用于复杂DNA的大规模SNP基因分型[18,19]。在这里,我们描述了与WGSA结合使用的算法的开发,该算法能够检测单个DNA样本的全基因组增益和损耗。标记之间的中位数距离为119千碱基(kb),为使用单个阵列进行DNA扩增和缺失的全球测量提供了高分辨率。使用由十个人类乳腺癌细胞系组成的小组,以及具有不同X染色体拷贝的DNA样本,我们表明该算法既特异、敏感又稳健,即使是含有正常和肿瘤DNA的混合样本,这表明它在真诚地肿瘤样本。因此,开发一种能够在单个实验中识别等位基因缺失区域和扩增区域的分子方法,将对癌症基因组的基本理解产生影响,并有可能改善诊断和治疗方案中的临床应用。
材料和方法
细胞系和核酸分离
九种人乳腺癌细胞系(BT-20、MCF-7、MCF-12A、MDA-MB-157、MDA-MB-436、MDA-MB-468、SK-BR-3、ZR-75-1和ZR-75-30)和两种同基因人乳腺癌癌细胞系[20]来自美国型培养物收藏(ATCC)。从克隆学中获得正常人乳腺上皮细胞系(HMEC)。所有细胞均在推荐的培养条件下生长。使用QIAGEN QIAamp DNA血液迷你试剂盒分离基因组DNA。来自包含3X(NA04626)、4X(NA01416)和5X(NA06061)染色体的细胞系的DNA,以及110名正常参考个体(48名男性和62名女性)的DNA,购自国家普通医学科学研究所(NIGMS)人类遗传细胞库科里尔医学研究所(新泽西州卡姆登)。
WGSA公司
按照Kenned等人的描述进行分析[18]除了修改目标扩增和DNA标记步骤。在以下条件下进行聚合酶链反应(PCR)DNA扩增:每100μl反应包含25 ng适配体标记的基因组DNA、0.7μM引物、250μM脱氧核苷酸三磷酸、2.5 mM氯化镁2和在1X PCR缓冲液II(ABI)中的10U AmpliTaq Gold(应用生物系统(ABI))。循环进行如下:95°C/三分钟,然后进行35次95°C/30秒、59°C/30秒钟、72°C/30秒内的循环,并在72°C下延长7分钟。用QIAGEN MinElute PCR纯化试剂盒对PCR产物进行纯化和浓缩,并通过在260 nm处测量吸光度来测定DNA浓度。在37°C下用105 U TdT(Promega)和0.15 mM DLR(Affymetrix的专用标记剂)在1X末端转移酶(TdT)缓冲液中标记片段DNA 2小时,然后在95°C下热灭活15分钟。所有实验样本都与Affymetrix基因芯片杂交®10K Mapping Xba_131阵列一式两份,按照制造商说明书中规定的方案进行清洗、染色和扫描。将组成正常参考集的样本与前代阵列杂交,前代阵列使用与商用阵列相同的探针序列和平铺策略生成基因型调用。所有样本的呼叫率都在88%以上,平均基因型一致性为99.97%。WGSA DNA混合实验如下所示:通过PicoGreen dsDNA定量分析(分子探针)测定Hs-578T和Hs-578 Bst的基因组DNA浓度,并以10%的增量将Hs-578Bst DNA添加到Hs-578 T DNA中。
定量聚合酶链反应
PCR使用ABI Prism 7700序列检测系统进行。PCR引物采用Primer Express 1.5软件(ABI)设计,QIAGEN合成。使用SYBR-Green PCR核心试剂盒(ABI)制备反应物(25μl含25 ng DNA)。扩增条件如下:一个50°C/两分钟的循环,一个95°C/十分钟的循环;然后是35个95°C/20秒的循环,56°C/30秒的循环和72°C/30秒钟的循环。使用Sequence Detector v1.7a软件获得阈值循环数(Ct)。人类基因组DNA(Roche)作为正常对照。所有反应均重复进行,取Ct数的平均值。用紫外分光光度计测量DNA数量,并将其归一化为LINE-1元素。[9]使用比较Ct法进行相对定量(ABI用户公告#2,1997)。如有要求,可提供所有99个SNP的引物对序列信息。定量PCR分析c-MYC公司和第16页除退火温度为60°C外,基因按所述进行。
特征提取
WGSA为每个SNP使用20个探针对(25个mers),在正反义链之间平均分配,其中10个探针对用于等位基因A,10个探针组用于等位蛋白B。探针对包括一个完美匹配细胞和一个单碱基错配细胞。日志[21]20个探针上PM强度的算术平均值()用作任何给定SNP的基本测量值。它在每个样本上具有近似高斯分布
哪里颗粒物我是探针对的完美匹配单元的强度。之后S公司经计算,所有常染色体SNP的平均值为零,方差为一,以增加样本间的可比性。
j个= 1,...,J型是芯片上的常染色体SNP。除对数平均强度外(S公司),识别率(博士)测量完全匹配和不匹配探针之间的差异,作为纯合子缺失区域的补充度量[22].
重要性计算
通过与正常参考集的比较来评估靶癌细胞系中拷贝数变化的重要性。在比较之前考虑目标细胞系的SNP基因型,这样,对于每个SNP,癌细胞系只与那些具有相同基因型的正常样本进行比较。这使得可以在均匀分布中进行比较,而不是在几种基因型的混合中进行比较[23]。基本假设是,对于任何给定的SNPj个有基因型克(克=AA公司,AB公司或BB公司),标准化的原木强度遵循高斯分布[24]。使用正常参考样本估计平均值和方差。
哪里k= 1,...,K(K)克代表具有相同基因型的正常样本克作为目标细胞系。虽然正常样本可能包含独立的收益和损失区域,但定义为偏离平均值的值超过三个标准偏差的异常数据点不包括在参考分布的估计中[25]。差异的重要性正态参考分布由第页-值:
其中Φ是标准高斯分布的分位数函数。
相邻点分析
对于每个SNPj个,具有基因型克,显著性计算的单个检验统计量为:
如前所述,ẑj个假设具有标准高斯分布,并且SNP假设是独立的。因此,对于基因组中从某一点开始的任何给定延伸米并在点处结束n个
这个分数,,可以使用Φ函数转换为概率,该函数称为邻接点分析(CPA)第页-值,并替换为单点分析(SPA)第页-适当时,每个SNP的值。当连续标记显示相同的变化方向时,CPA最适合。因此,从点开始定义候选拉伸米并在点处结束n个作为:
起点是从j个=1,即染色体的开始,并搜索延伸至染色体末端的候选。对于任何给定的SNP,如果SPA第页-价值低于CPA第页-值,前者被后者取代。
LOH公司
对于每个SNPj个,计算纯合子的概率:
如果单独处理每个SNP,则SNP延伸的概率(从位置米到位置n个)所有纯合子都是:
结果
拷贝数估计和重要性计算
使用三种主要方法验证拷贝数和显著性估计。它们是:1)X染色体剂量反应实验;2) 使用定量PCR进行独立拷贝数估计;以及3)使用癌细胞株面板确认已知的真阳性区域。使用具有不同X染色体拷贝数(1X至5X)的样本测试拷贝数和芯片强度之间的剂量反应。使用(我)为了指示芯片强度,剂量响应假设我一≅C类ab公司×我b条,其中我一是具有拷贝号的区域的强度一,我b条是具有拷贝号的同一区域上的强度b条和C类ab公司强度比由一和b条.上一节“特征提取”中定义的是对数强度的近似值。因此,日志转换导致。此外是强度比的对数,由一和b条。将具有1、3、4和5X染色体的DNA样本的结果与2X样本进行比较,如图所示样本对之间具有较高的线性相关性;对于任何给定的对,线性趋势与Y(Y)=X(X),确认方程式.使用2X作为基线,每个样本强度比的估计对数显示了与拷贝数日志的强线性关系(图). 这些X染色体结果被用来概括为常染色体。具体而言,图中强度比(C)的对数等于目标细胞系与使用对数强度的正常参考平均值之间的差。SNP上靶癌细胞系的对数强度值j个有基因型克表示为相应的参考平均值表示为二者的区别用于替代图中所示公式中强度比(C)的对数,给出拷贝数估计的最终形式:
1X、3X、4X和5X相对于2X的标准对数强度图信号强度基于302个单核苷酸多态性的两个重复的平均值,这些多态性使用国家生物技术信息中心构建33映射到X染色体。图1b将对数(拷贝数)绘制为估计对数(强度比)(C)的函数。黑点表示不同的样本(1X到5X)。红线是以对数(拷贝数)作为响应,以估计的对数强度比作为预测值的线性回归结果。蓝线表示响应的95%置信区间,即拷贝数的自然对数。
一种用于测量DNA拷贝数变化的独立定量PCR(qPCR)方法被用于验证染色体增益和损耗的观察区域。使用SK-BR-3和正常人的基因组DNA模板,对一组99个常染色体SNP进行PCR反应。这组SNP并不是完全随机的,它包含了癌症细胞系中已知的以及假定的新的增益和损耗。图显示了定量PCR得出的ΔCt(正常DNA样本和癌症样本之间的Ct差异)、计算的WGSA拷贝数和计算的WGSA显著性水平之间的关系(第页-值)。图表明使用WGSA估计的拷贝数近似为ΔCt的指数函数,并接近理论估计函数2ΔCt+1当ΔCt值较低时,趋势很紧,但随着ΔCt的增加,趋势变得更加分散。图显示了ΔCt与使用SPA算法计算的显著性水平之间的强正相关。除少数几个点外,大多数ΔCt差异较大的SNP显示出很强的显著性,而ΔCt差异较小的SNP则显示出中等至低的统计显著性。该图还说明了区分率作为PM强度补充指标的重要性。对于蓝色圈出的数据点,ΔCt值小于-5,表明为纯合缺失。基于PM强度的显著性仅为中等。然而,该SNP的显著性增加第页-值小于10-6当应用DR时(未显示数据),允许正确识别删除。图显示了估计拷贝数与统计显著性之间的关系。正如预期的那样,当拷贝数接近0(表示纯合缺失),或接近大量正数(表示高水平扩增)时,显著性变得非常强。使用qPCR作为独立测量的这些综合结果表明,WGSA可以定量检测染色体拷贝数的变化。这一结果也与SNP阵列与细菌人工染色体(BAC)阵列CGH相比检测到相似的拷贝数变化模式的报告相一致。[26,27]
SK-BR-3乳腺癌细胞系99个常染色体单核苷酸多态性的结果成对散射点基于三个测量:拷贝数、显著性和阈值周期变化(ΔCt)。显著性度量由日志表示10转化第页-从算法中导出的值。为了区分删除和放大,-log10(第页-值)在目标值高于参考平均值时使用,即表示放大率和对数10(第页-值)在目标值低于参考平均值时使用,即表示删除。副本数使用以下公式估算:ΔCt表示正常DNA样本与SK-BR-3之间的差异。Ct是报告荧光超过基线固定阈值的周期数。阳性ΔCt表示扩增,而阴性ΔCt表示缺失。
对乳腺癌细胞系小组进行了两个特征明确的区域拷贝数变化的调查,即染色体8q和染色体9p。对38个乳腺癌细胞系的CGH分析显示,75%的样本中增加了8q[28]乳腺癌中有9p染色体缺失的报道[29]。具体来说c(c)-染色体8q24上的MYC癌基因已被证明在乳腺癌中普遍扩增[30,31]而在第16页/INK4染色体9p21上的肿瘤抑制因子在多种肿瘤类型中被删除[32,33]。图显示了8号染色体50到140 Mb区域的四个样本之间的比较。基因组区域c-MYC公司在三种具有中等到非常强意义的癌细胞系中似乎扩增,在正常对照组(Hs-578Bst)中似乎没有扩增。这与公布的CGH结果一致,该结果显示所有三种细胞系都在8q23-q24中含有增益[34]。定量PCR是用c-MYC公司引物对并证实拷贝数增加。估计c-MYC公司经qPCR检测,SK-BR-3、MCF-7、ZR-75-30和Hs-578Bst的拷贝数分别为21.0、7.5、10.6和3.0。当阵列不包含来自c-MYC公司基因本身,最近的两个SNP是SNP55150,位于c-MYC公司和SNP 511315,位于c-MYC公司表中总结了这些SNPs的WGSA和qPCR结果并确认周围区域c-MYC公司在四种细胞系中的三种中扩增。
(见对页)第8号染色体(a组)和第9号染色体(b组)分析。面板(a)和(b)左侧的图形表示拷贝数估计和基因型信息。x轴是染色体位置(国家生物技术信息中心(NCBI)建筑33)。对于每个样本,基因型信息显示在每个面板的顶部。向下的红线表示纯合基因型,而向上的绿线表示杂合基因型。每个面板显示y轴上的拷贝数估计值。垂直的绿线和红线是单个单核苷酸多态性拷贝数估计值。向上的绿线表示大于基线值2的估计,而向下的红线表示小于2的估计。黑色虚线分别表示c-MYC和p-16基因在第8和第9染色体上的相对位置。右侧的面板表示显著性结果。x轴是染色体位置(NCBI Build 33),黑色垂直线代表c-MYC(面板a)和p-16(面板b)基因的位置。y轴是原木10每个给定SNP的转换p值。为了区分删除和放大,日志10当目标值高于参考平均值(放大)和对数时,使用(p值)(向上的绿线10当目标值低于参考平均值(删除)时,使用(p值)(向下的红线)。
表1
qPCR和WGSA结果c-MYC公司和第16页基因
c-Myc公司8号染色体上的区域 |
---|
标记/样本 | SNP 55150(远端300 kb) | SNP 511315(远端196 kb) |
---|
| | 12ΔCt+1 | 2WGSA公司 | 三Sig公司 | | 2ΔCt+1 | WGSA公司 | Sig公司 |
---|
Sk-BR-3型 | | 32 | 15.87 | < - 20 | | 22.63 | 21.12 | -11.89 |
MCF-7型 | | 9.19 | 4.54 | - 3.47 | | 7.46 | 6.25 | - 1.89 |
ZR-75-30型 | | 13 | 7.64 | -7.67 | | 11.31 | 16.31 | -9.95 |
Hs578 Bst(英制) | | 2.60 | 2.54 | -0.86 | | 2.64 | 3.21 | -0.77 |
第16页9号染色体上的区域 |
标记/样本 | SNP 827951(近端235 kb) | SNP 139369(内部p 16) | SNP 87445(远端21 kb) |
| 2ΔCt+1 | WGSA公司 | Sig公司 | 2ΔCt+1 | WGSA公司 | Sig公司 | 2ΔCt+1 | WGSA公司 | Sig公司 |
BT-20型 | 1.82 | 1.92 | -0.31 | 0.008 | 0.23 | -12.06 | 1.32 | 1.57 | -0.71 |
MCF-12A型 | 1.29 | 1.02 | -1.46 | 0.014 | 0.27 | -10.44 | 0.08 | 0.57 | -8.12 |
MCF-7型 | 1.33 | 1.82 | -0.37 | 0.002 | 0.25 | -10.83 | 1 | 0.95 | -2.68 |
Hs578 Bst(英制) | 2.28 | 1.87 | -0.35 | 1.073 | 1.61 | -0.60 | 1.23 | 1.75 | -0.56 |
图还显示了四个细胞系对9号染色体0到40 Mb区域的比较第16页WGSA结果显示,其中三个细胞系在第16页,由SNP 139369确定,位于第16页结构基因。通过定量PCR对该SNP以及两个侧翼SNP进行了进一步分析,结果汇总在表中PCR结果独立地证实了第16页删除。总之,PCR和拷贝数算法对两个已知改变的基因组区域显示出高度相关的结果,即c-MYC公司和第16页,并建议识别具有拷贝数变化的新区域应该是可行的。
SK-BR-3第8号染色体和BT-20第9号染色体也说明了WGSA算法的高分辨率能力。SK-BR-3显示两个相邻的扩增片段(119至125.4 Mb和127.5至127.7 Mb)c-MYC公司.用PCR分析了来自第一和第二片段的12个代表性SNP,证实WGSA拷贝数增加。有一个SNP(719292)破坏了这两个片段,使用定量PCR(ΔCt=-0.3)和拷贝数算法将其评分为未扩增(第页值=0.43)。BT-20包含一个单点纯合缺失(第16页)旁边是没有拷贝数变化的SNP(表). 这两个例子表明,该算法能够实现单点分辨率,从而可以改进增益和损耗的边界描述,并产生高度精细的基因组结构。
注册会计师
如前几节所述,该算法能够检测出拷贝数大幅增加的纯合子缺失和扩增;然而,拷贝数变化较小的区域的检测率相对较低。在1%的假阳性率下,使用1X、3X、[35]4X和5X样品分别为22.0%、12.4%、31.3%和54.9%,如图所示(面板a和c)。这种中等检出率是由于一些SNP中参考集分布的分散,而不是缺乏剂量反应[36]CPA假设显示相同类型变化(收益或损失)的连续SNP数量越多,对变化重要性的信心越大[37]因此,用于提高检测率。图总结了SPA和CPA之间的比较。CPA导致接收器工作特性(ROC)曲线向左上角大幅偏移,表明灵敏度和特异性大大提高。图中的面板c和d是a组和b组亚区的详细视图,假阳性率<1%。这些图表显示,在假阳性率<0.2%的情况下,1X、4X和5X样本的真阳性(检测)率分别为91.1%、91.4%和98.3%。通过使用<1%的假阳性率,3X样本的真阳性率提高到50%以上。在这些X染色体示例中,CPA显示出比SPA更强的威力,因为变化的跨度是连续的和巨大的,并且大多数SNP始终显示出相同的增加或减少趋势。
连续点分析和单点分析的接收器工作特性(ROC)曲线在每个小组中,假阳性率由62名正常女性(2X)的离开交叉验证的平均值估计。使用1X、3X、4X和5X样本来估计真阳性率。范围为第页-可以计算出值阈值、一系列假阳性率和真阳性率,它们构成ROC曲线的基础。小组(c)和(d)分别扩大了(a)和(b),假阳性率仅扩大到1%,而不是100%。
LOH和拷贝数分析
匹配的Hs578样本用于比较传统的LOH鉴定(匹配样本之间WGSA SNP基因型的比较)和LOH鉴定概率模型的应用。当没有可用于分析的匹配正常对照样品时,此应用程序可能特别有用。该模型使用参考集的等位基因频率信息,并计算由于随机机会可能出现任何给定纯合子基因型延伸的概率。这种显著性随着覆盖区域中纯合SNPs数量的增加而增加。因此,使用严格的显著性截止可能允许具有许多连续纯合子调用的基因组区域作为传统定义的LOH区域的替代物。
使用匹配的Hs578对,根据捕获传统定义的LOH标记的能力对该方法进行评估。表中总结了比较结果根据传统的LOH分析,共有1293个常染色体SNP。这些SNP在正常对照组中是杂合的,在肿瘤样本中是纯合的。在这些苏格兰民族党中,超过80%的人的显著性低于10-6使用概率模型。然而,大约10%的SNP没有显著影响第页-值(>0.01)。意义<10的延伸-6平均跨度为31.32 Mb,而显著性>0.01的拉伸平均跨度为1.11 Mb。这表明,大多数传统定义的LOH SNP位于纯合子呼叫的长延伸中,而约10%的SNP位于短延伸中。相比之下,对于正常对照样本中的11205个常染色体SNP,没有属于伸展性第页-值小于10-6因此,对于这个特定的样本对第页-阈值为10-6捕获了80%以上的传统定义的LOH,而正常样本不包含具有此显著性水平的区域。这一结果表明,概率模型可以识别配对细胞系中发生LOH的基因组区域,并且可以作为LOH识别的替代方法,特别是在没有正常匹配样本的情况下。
表2
第页-价值 | 正常匹配(%) | 肿瘤样本(%) |
---|
< 1 × 10-8 | 0 (0.00%) | 955 (73.78%) |
< 1 × 10-6 | 0 (0.00%) | 1,037 (80.12%) |
< 1 × 10-4 | 81 (0.72%) | 1086人(83.91%) |
< 1 × 10-2 | 1,179 (10.52%) | 1,158 (89.48%) |
总计 | 11,205 (100.00%) | 1,293 (100.00%) |
对该肿瘤细胞系中发生LOH的SNP的拷贝数分析显示,约32%有一个拷贝,51%有两个拷贝,17%显示中度扩增(拷贝数小于8),不足0.2%显示纯合子缺失或大倍扩增。有趣的是,匹配对识别了LOH中没有明显拷贝数变化的区域。通过比较肿瘤和正常基因型调用,12号染色体和17号染色体的全长,以及5号染色体上的~90到170 Mb,可以定义为LOH,但没有显著的拷贝数变化。在MCF-7中也观察到这种模式(图)其中,假设LOH延伸包含77个SNP,概率模型定义为57到77 Mb(第页-值7.2×10-16)显示副本数没有减少。此外,SK-BR-3和ZR-75-30都显示了一个假定的LOH区域,范围从110到125-135 Mb,分别为第页-值为3.8×10-18(80个SNPs)和1.8×10-24(120个SNP),但拷贝数显著增加。这些没有拷贝数减少或拷贝数增加的LOH例子,并没有被许多当前使用的单分子方法轻易识别,并且强调了将LOH测量与全基因组拷贝数分析相结合的能力。
混合实验
肿瘤样本通常会被基质或淋巴细胞来源的正常细胞污染。虽然激光捕获显微分离或流式细胞术等方法已成功用于肿瘤细胞的富集,但所得群体很少完全纯净,因此用于全基因组DNA拷贝数分析的分子方法必须足够稳健,以适应异质样本。匹配对Hs-578用于评估WGSA分析和拷贝数算法对混合DNA样本的耐受性,方法是测试增加正常DNA(Hs-578Bst)混入癌症样本(Hs-778T)的影响。对混合样品进行LOH变化和拷贝数变化检测变化分析。在WGSA分析之前,将来自癌细胞系的DNA与正常匹配的DNA混合,增加的百分比为0%(纯癌样品)、10%、20%、30%、40%、50%、60%、70%、80%、90%和100%(纯正常样品)。Hs-578Bst和Hs-578 T的模式染色体数分别为46(二倍体)和59(亚三倍体),因此DNA质量混合近似于细胞数量混合。图总结了在使用概率模型识别传统LOH SNP以及假定LOH区域时,混合所导致的变化。随着正常DNA的贡献增加,传统定义的LOH SNP(红线)数量减少。在相同的趋势下,概率模型定义的LOH区域的总长度(绿线)和总数量(蓝线)也有所减少。总的来说,当正常DNA的百分比小于或等于30%时,70%以上的LOH变化被保留。当混合正常DNA达到总DNA的30%至50%时,会发生显著变化,导致近60%的LOH检测丢失。当正常DNA出现在60%或以上时,大多数经历LOH的SNP(>98%)无法检测到。我们还研究了LOH检测的过渡点与这些SNP拷贝数之间的关系。这一比较涉及三组具有不同拷贝数的LOH SNP,占总数的99.8%:单拷贝(407个SNP)、双拷贝(663个SNPs)和中等拷贝数(三到八个)增加(221个SNPs。平均而言,随着混合样本中正常DNA百分比的增加,检测杂合子呼叫的能力首先出现在具有一个拷贝的SNP上,其次是具有两个拷贝的,最后是具有中等拷贝数的SNP。三组之间的差异具有统计学意义第页-值3.3×10-5使用Kruskal-Wallis测试。采用Wilcoxon秩和检验对每对进行比较。以下内容第页-组间差异值为0.00742(单拷贝和双拷贝)、0.00487(双拷贝和中拷贝)和1.35×10-5(一份副本和中等副本)。使用Bonferroni校正,所有比较在0.05水平上都是显著的,单拷贝组和中等拷贝数组之间的差异最为显著。
混合样本的杂合性缺失(LOH)分析x轴是正常DNA样品的混合百分比。y轴是使用三种测量方法得出的剩余LOH信号的比例:LOH单核苷酸多态性(红点和线)、LOH总长度(蓝点和线。LOH区域和长度的定义在方法部分中详细描述。
还研究了混合样品对检测增益和损耗的影响。在含有CPA的混合样本中检测到的拷贝数变化的相对百分比大于SPA。在10%、20%和30%正常DNA的混合水平下,原始总数中残留的可检测信号分别为89.0%、85.7%和57.6%(CPA)和50%、25%和21.43%(SPA)。一旦正常DNA的比例达到总样本的40%,这些扩增和缺失的SNPs的检测就会显著减少。这一趋势对CPA和SPA都适用。这些结果表明,使用WGSA分析和算法检测LOH和拷贝数变化可以容忍含有20%至30%正常DNA的混合样本。
讨论
我们开发了一种使用高密度DNA寡核苷酸阵列与使用WGSA的靶DNA制备相结合的全基因组拷贝数估计算法。将实验样本与由100多名正常人组成的参考集进行比较第页-要计算的值和要确定的统计显著收益和损失。特定于SNP的参考分布用于解释跨SNP归一化信号强度的固有变异性。尽管探针序列的特定选择受到通过等位基因特异性杂交进行SNP基因分型的要求的限制,因此在检测拷贝数变化的敏感性和特异性方面可能不一定优化,超过96%的X染色体SNP在log(信号强度)和log(拷贝数)之间的相关性大于0.85。该算法识别出的拷贝数变化与定量PCR结果有很好的相关性,也可以在含有正常和肿瘤DNA混合物的样本中检测到。最后,用具有统计意义的纯合子标记延伸来鉴定基因组区间,可以潜在地检测LOH区域,而无需匹配的正常对照样品。
我们使用SPA作为初始方法。另一种选择是CPA,在CPA中,表现出一致收益或损失趋势的连续SNP被赋予额外的权重和重要性。CPA提高了X染色体拷贝数改变的敏感性。然而,CPA可能需要谨慎,因为它偏向于拷贝数变化的长区域,并且可能低估了不跨越长距离的复杂结构。此外,CPA可能会对拷贝数变化边界附近的区域产生影响,在这些区域中检测到适度但一致的信号,因此可能会导致对变更绝对长度的过高估计。因此,给出的绝对假阳性率第页-对于X染色体SNP,SPA的阈值低于CPA的阈值。当需要识别所有假定的中度改变(高真阳性率)时,CPA可以作为一种筛查工具,而SPA由于其显示的高度特异性可能更适合作为一种诊断工具。由于基因扩增可以是相对简单的连续区域,范围从1 kb到数百kb不等,例如在神经母细胞瘤中[38]而不是乳腺癌中高达20Mb的复杂、不规则区域[39,40]当标记密度不高时,为了捕捉局部变化,SPA是必不可少的。对于SPA和CPA来说,有超过10000个标记,不可避免的问题是多重假设检验问题。作为部分解决方案第页-严格设置阈值,以确保高特异性(低假阳性率),同时在收益和损失方面具有低灵敏度(高假阴性率)。有几种可用于分析阵列数据的替代统计方法,例如对平均相邻点进行核平滑[41]变点法[42,43]和隐马尔可夫链模型[27,44]。这些方法的发展虽然超出了本文的范围,但将受益于一组包含长度和拷贝数方面的一系列定义变化的真阳性对照样本的训练集。
使用基于概率的模型来识别可能已经经历LOH的区域,而不是使用配对样本的传统方法,提供了对不匹配的癌症样本的分析。这种方法通过使用来自正常参考集的等位基因频率来计算纯合子基因型调用延伸的可能性。因此,在没有正常对照样本的情况下,这种基于模型的方法可以作为LOH区域的指南。由于连锁不平衡的区域在基因组中可能不同[45]概率模型可能会通过单独处理每个SNP而高估LOH区域的重要性。一旦确定了明显的纯合子延伸,由于人类基因组中存在纯合子片段,因此很难解释它是否真正代表LOH[46]利用8000个短串联重复序列多态性,几个CEPH家族显示纯合片段大于10个百分点[47].
总之,我们开发了一种使用Affymetrix基因芯片的算法®绘制10K分析(Xba_131阵列)以确定全基因组拷贝数的增加和减少。虽然基因组的拷贝数估计可以独立于SNP基因型调用(LOH分析),但将这两个数据集联系起来,可以深入了解很少有其他单一方法能够实现的复杂基因组结构。样本转录谱与拷贝数谱的整合应进一步揭示具有等位基因失衡的基因组区域的功能作用。由于高密度阵列上的信息内容随着特征尺寸的减小而增加,因此WGSA分析很容易扩展到100000个SNP以上。这将在整个基因组中产生前所未有的分辨率,并将被证明有助于阐明肿瘤细胞复杂染色体组成背后的基因组变化。
致谢
我们感谢刘伟伟、耐克·博比尔和朱莉娅·叶的技术支持,感谢凯尔·科尔对手稿的批判性阅读。
工具书类
- Albertson DG、Collins C、McCormick F.等人,《实体肿瘤中的染色体畸变》。自然遗传学。2003;34:369–376. doi:10.1038/ng1215。[公共医学] [交叉参考][谷歌学者]
- Lengauer C,Kinzler KW,Vogelstein B.“人类癌症的遗传不稳定性”。自然。1998;396:643–649. doi:10.1038/25292。[公共医学] [交叉参考][谷歌学者]
- Cavenee WK、Dryja TP、Phillips RA。等。“视网膜母细胞瘤中染色体机制隐性等位基因的表达”。自然。1983;305:779–784. doi:10.1038/305779a0。[公共医学] [交叉参考][谷歌学者]
- Kallioniemi A,Kallioniema OP,Sudar D.等人,“实体肿瘤分子细胞遗传学分析的比较基因组杂交”。科学。1992;258:818–821. doi:10.1126/science.1359641。[公共医学] [交叉参考][谷歌学者]
- Schrock E,du Manoir S,Veldman T.等人,“人类染色体的多色光谱核型分析”。科学。1996;273:494–497. doi:10.1126/science.273.5274.494。[公共医学] [交叉参考][谷歌学者]
- Pinkel D、Landegent J、Collins C.等人,“用人类染色体特异库进行荧光原位杂交:检测21三体和4号染色体易位”。美国国家科学院程序。1988;85:9138–9142. doi:10.1073/pnas.85.23.9138。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Lisitsyn NA、Lisitsina NM、Dalbagni G.等人,“肿瘤的比较基因组分析:DNA丢失和扩增的检测”。美国国家科学院程序。1995;92:151–155. doi:10.1073/pnas.92.1.151。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Lucito R,Nakimura M,西JA。等,“利用基因组表征进行遗传分析”。美国国家科学院程序。1998;95:4487–4492. doi:10.1073/pnas.95.8.4487。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Wang TL、Maierhofer C、Speicher MR等,“数字kar-yotyping”。美国国家科学院程序。2002年;99:16156–16161。doi:10.1073/pnas.202610899。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Lucito RJ、Healy J、Alexander A.等人,“代表性二核苷酸微阵列分析:检测基因组拷贝数变异的高分辨率方法”。基因组研究。2003;13:2291–2305. doi:10.1101/gr.1349003。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Fodor SP、Read JL、Pirrung MC等人,“光定向、空间寻址并行化学合成”。科学。1991;251:767–773. doi:10.1126/science.1990438。[公共医学] [交叉参考][谷歌学者]
- Fodor SP、Rava RP、Huang XC。等。“生物芯片的多重生化分析”。自然。1993;364:555–556. doi:10.1038/364555a0。[公共医学] [交叉参考][谷歌学者]
- Pease AC、Solas D、Sullivan EJ。等,“用于快速DNA序列分析的光生成寡核苷酸阵列”。美国国家科学院程序。1994;91:5022–5026. doi:10.1073/pnas.91.11.5022。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Lindblad-Toh K、Tanenbaum DM、Daly MJ。等,“利用单核多态性阵列对小细胞肺癌进行异基因缺失分析”。国家生物技术。2000年;18:1001–1005. doi:10.1038/79269。[公共医学] [交叉参考][谷歌学者]
- Mei R、Galipeau PC、Prass C.等人。“利用人类SNP和高密度DNA阵列对等位基因失衡进行全基因组检测”。基因组研究。2000年;10:1126–1137。doi:10.1101/gr.10.8.1126。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Schubert EL、Hsu L、Cousens LA等人,“乳腺癌等位基因缺失的全基因组分析中冷冻组织与固定组织中流动上皮细胞的单核苷酸多态性阵列分析”。《美国病理学杂志》。2002年;160:73–79. doi:10.1016/S0002-9440(10)64351-9。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Dumur CI、Dechsukhum C、Ware JL。等。“使用人类SNP微阵列技术在前列腺癌中进行全基因组LOH检测”。基因组学。2003;81:260–269. doi:10.1016/S0888-7543(03)00020-X。[公共医学] [交叉参考][谷歌学者]
- Kennedy GC、Matsuzaki H、Dong S.等人,“复杂DNA的大规模基因分型”。国家生物技术。2003;21:1233–1237. doi:10.1038/nbt869。[公共医学] [交叉参考][谷歌学者]
- Matsuzaki H、Loi H、Dong S.等人,“使用高密度寡核苷酸阵列上的单引物分析对10000多个SNP进行平行基因分型”。基因组研究。2004;14:414–425. doi:10.10101/gr.2014904。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Hackett AJ、Smith HS、Springer EL.等人,“人类乳腺组织的两种同基因细胞系:非整倍体乳腺上皮细胞(Hs578T)和二倍体肌上皮细胞(Hs578Bst)”。美国国家癌症研究所杂志。1977;58:1795–1806.[公共医学][谷歌学者]
- 对函数的所有引用日志默认为e(电子)作为基础(天然原木),除非另有说明(例如原木10)
- Liu WM,Di X,Yang G.等人。“大规模基因分型微阵列的算法”。生物信息学。2003;19:2397–2403. doi:10.1093/bioinformatics/btg332。[公共医学] [交叉参考][谷歌学者]
- 如果目标细胞系的基因型缺失(无呼叫),或具有该特定基因型的参考样本数量较少(少于10个),则使用所有110个参考样本来估计分布
- 根据Shapiro-Wilk的正态性W检验,只有3.3%的参考分布具有第页-值小于0.001,当使用更严格的截止值0.0001时,该值进一步降低至0.7%
- 剔除的离群值总数很低:90.38%的分布没有剔除离群值;9.23%的分布去除了一个离群值;0.38%的分布去除了两个离群值;0.01%的分布去除了三个离群值;并且在任何情况下都不会删除三个以上的异常值
- Bignell GR,Huang J,Greshock J.等人。“使用寡核苷酸微阵列对DNA拷贝数进行高分辨率分析”。基因组研究。2004;14:287–295. doi:10.1101/gr.2012304。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Zhao X,Li C,Paez JG,“使用单核苷酸多态性阵列对癌症基因组中拷贝数和等位基因改变的综合观察”。癌症研究。2004年出版。[公共医学]
- Forozan F、Mahlamaki EH、Monni O.等人,“38个乳腺癌细胞系的比较基因组杂交分析:解释互补DNA微阵列数据的基础”。癌症研究。2000年;60:4519–4525.[公共医学][谷歌学者]
- Struski S、Doco-Fenzy M、Cornillet-Lefebvre P.《已发表的比较基因组杂交研究汇编》。癌症基因细胞基因。2002年;135:63–90. doi:10.1016/S0165-4608(01)00624-0。[公共医学] [交叉参考][谷歌学者]
- Escot C,Theillet C,Lidereau R.等人,“人类原发性乳腺癌中C-myc原癌基因(myc)的遗传改变”。美国国家科学院程序。1986;83:4834–4838. doi:10.1073/pnas.83.13.4834。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Rummukainen J、Kytola S、Karhu R.等人。“通过比较基因组杂交、荧光原位杂交和光谱核型分析16种乳腺癌细胞系中8号染色体的畸变”。癌症基因-细胞基因。2001;126:1–7.网址:10.1016/S0165-4608(00)00387-3。[公共医学] [交叉参考][谷歌学者]
- Kamb A,Gruis NA,Weaver Feldhaus J.等人“一种可能参与多种肿瘤类型发生的细胞周期调节因子”。科学。1994;264:436–440. doi:10.1126/science.8153634。[公共医学] [交叉参考][谷歌学者]
- Cairns P、Polascik TJ、Eby Y.等人,“原发性人类肿瘤中p16/CDKN2纯合缺失的频率”。自然遗传学。1995;11:210–212. doi:10.1038/ng1095-210。[公共医学] [交叉参考][谷歌学者]
- Kallioniemi A,Kallioniema OP,Piper J.等人,“通过比较基因组杂交检测和定位乳腺癌中扩增的DNA序列”。美国国家科学院程序。1994;91:2156–2160. doi:10.1073/pnas.91.6.2156。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- 因为对数(强度)与对数(拷贝数)有很强的相关性,所以对数(强度
- 总剂量反应很强,所有302 X染色体SNP的对数(强度)和对数(拷贝数)之间的相关性大于0.72。此外,该组中292个SNP(96.7%)的相关性大于0.85
- Salamon H、Kato Maeda M、Small PM等人,“使用基因芯片数据的半自动计算分析检测缺失的基因组DNA”。基因组研究。2000年;10:2044–2054. doi:10.1101/gr.gr-1529R。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Amler LC,Schwab M.“人类神经母细胞瘤细胞中扩增的N-myc通常排列为不同重组DNA的串联重复序列”。分子细胞生物学。1989;9:4903–4913. [PMC免费文章][公共医学][谷歌学者]
- Guan XY,Meltzer PS,Dalton WS.等人,“通过染色体显微切割鉴定人类乳腺癌DNA序列扩增的隐秘位点”。自然遗传学。1994;8:155–161. doi:10.1038/ng1094-155。[公共医学] [交叉参考][谷歌学者]
- Szepetowski P,Perucca-Lostanlen D,Gaudray P.“根据肿瘤细胞中的扩增状态定位基因:对11q13图谱的贡献”。基因组学。1993;16:745–750。doi:10.1006/geno.1993.1257。[公共医学] [交叉参考][谷歌学者]
- Wand MC、Jones MC。“内核平滑”。查普曼和霍尔,英国伦敦;1995[谷歌学者]
- Sen A,Srivastava MS.“关于检测平均值变化的测试”。统计年鉴。1975;三:98–108. doi:10.1214/aos/117643001。[交叉参考][谷歌学者]
- Olshen AB,Venkatraman ES公司。“基于阵列的比较基因组杂交数据的变点分析”,载于《联合统计会议论文集》。弗吉尼亚州亚历山大美国统计协会;2002[谷歌学者]
- Rabiner LR,“语音识别中隐藏马尔可夫模型和选定应用的教程”。IEEE程序。1989;77:257–285。doi:10.1109/5.18626。[交叉参考][谷歌学者]
- Ardlie KG,Kruglyak L,Seielstad M.“人类基因组中的连锁不平衡模式”。Nat Rev基因。2002年;三:299–309. doi:10.1038/nrg777。[公共医学] [交叉参考][谷歌学者]
- Clark AG.“人类基因组中纯合子片段的大小分布”。美国人类遗传学杂志。1999;65:1489–1492. doi:10.1086/302668。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Broman KW,Weber JL.’来自“人类多态性练习曲”中心的参考家族中的长纯合子染色体片段。美国人类遗传学杂志。1999;65:1493–1500. doi:10.1086/302661。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]