High-Resolution Analysis of DNA Copy Number Using Oligonucleotide Microarrays

Graham R. Bignell; Jing Huang; Joel Greshock; Stephen Watt; Adam Butler; Sofie West; Mira Grigorova; Keith W. Jones; Wen Wei; Michael R. Stratton; P. Andrew Futreal; Barbara Weber; Michael H. Shapero; Richard Wooster

doi:10.1101/gr.2012304

基因组研究。2004年2月；14(2): 287–295.

数字对象标识：10.1101/gr.2012304

预防性维修识别码：PMC327104型

PMID：14762065

寡核苷酸微阵列对DNA拷贝数的高分辨分析

格雷厄姆·比格内尔，¹ Jing Huang（黄晶），² 乔尔·格雷肖克，^三斯蒂芬·瓦特，¹ 亚当·巴特勒，¹ 索菲·韦斯特，¹ 米拉·格里戈洛娃，⁴ 基思·琼斯，² 文伟（Wen Wei），² 迈克尔·斯特拉顿，¹ P.安德鲁·福特雷尔，^1,⁵ 芭芭拉·韦伯，^三迈克尔·H·沙佩罗，²和理查德·伍斯特¹

格雷厄姆·比格内尔

¹ Wellcome Trust Sanger Institute，英国剑桥郡Hinxton Wellcome-Trust Genome Cambridgeshire，CB10 1SA

查找文章依据格雷厄姆·比格内尔

Jing Huang（黄晶）

² Affymetrix公司，美国加利福尼亚州圣克拉拉市，邮编：95051

查找文章依据Jing Huang（黄晶）

乔尔·格雷肖克

^三 宾夕法尼亚大学癌症中心，美国宾夕法尼亚州费城艾布拉姆森家庭癌症研究所，19104

查找文章依据乔尔·格雷肖克

斯蒂芬·瓦特

¹ Wellcome Trust Sanger Institute，英国剑桥郡Hinxton Wellcome-Trust Genome Cambridgeshire，CB10 1SA

查找文章依据斯蒂芬·瓦特

亚当·巴特勒

¹ Wellcome Trust Sanger Institute，英国剑桥郡Hinxton Wellcome-Trust Genome Cambridgeshire，CB10 1SA

查找文章依据亚当·巴特勒

索菲·韦斯特

¹ Wellcome Trust Sanger Institute，英国剑桥郡Hinxton Wellcome-Trust Genome Cambridgeshire，CB10 1SA

查找文章依据索菲·韦斯特

米拉·格里戈洛娃

⁴ 剑桥大学病理学系，和记黄埔/MRC研究中心，Addenbrooke’s Hospital，Cambridge CB2 2XZ，UK

查找文章依据米拉·格里戈罗娃

基思·琼斯

² Affymetrix公司，美国加利福尼亚州圣克拉拉市，邮编：95051

查找文章依据基思·琼斯

文伟（Wen Wei）

² Affymetrix公司，美国加利福尼亚州圣克拉拉市，邮编：95051

查找文章依据文伟（Wen Wei）

迈克尔·斯特拉顿

¹ Wellcome Trust Sanger Institute，英国剑桥郡Hinxton Wellcome-Trust Genome Cambridgeshire，CB10 1SA

查找文章依据迈克尔·斯特拉顿

P.安德鲁·福特雷尔

¹ Wellcome Trust Sanger Institute，英国剑桥郡Hinxton Wellcome-Trust Genome Cambridgeshire，CB10 1SA

查找文章依据P.安德鲁·福特雷尔

芭芭拉·韦伯

^三 宾夕法尼亚大学癌症中心，美国宾夕法尼亚州费城艾布拉姆森家庭癌症研究所，19104

查找文章依据芭芭拉·韦伯

迈克尔·H·沙佩罗

² Affymetrix公司，美国加利福尼亚州圣克拉拉市，邮编：95051

查找文章依据迈克尔·H·沙佩罗

理查德·伍斯特

¹ Wellcome Trust Sanger Institute，英国剑桥郡Hinxton Wellcome-Trust Genome Cambridgeshire，CB10 1SA

查找文章依据理查德·伍斯特

作者信息文章注释版权和许可信息 PMC免责声明

摘要

基因组拷贝数改变是包括癌症在内的许多人类疾病的特征。我们已经评估了最初设计用于检测单核苷酸多态性的寡核苷酸阵列用于评估DNA拷贝数的有效性。我们首先表明，来自寡核苷酸阵列的荧光信号随着拷贝数的减少和增加而成比例变化。随后，我们将该系统应用于20个癌细胞系。所有假定的纯合子缺失（10）和高水平扩增（12；假定拷贝数>4）均通过PCR（qPCR或正常PCR）分析确认。用BAC阵列CGH比较分析中两个品系的低拷贝数变化；77% (n个=44）的常染色体在比较中显示出一致的LOH模式（杂合性丢失）和低水平扩增。在其余10个不一致的比较中，有8个是由低SNP密度引起的，在两个品系中都失败了。研究表明，将基因型和拷贝数分析相结合，可以更深入地了解癌细胞潜在的遗传变化，识别包括基因座缺失和重叠在内的复杂事件。

比较基因组杂交；Kallioniemi等人1992)已被广泛用于记录癌症等疾病中基因组DNA的得失(Albertson等人，2000年;Jain等人，2001年)和精神发育迟滞(Ghaffari等人，1998年;Veltman等人，2002年). 使用任一基因组阵列的CGH的最新发展(Pinkel等人，1998年)或cDNA克隆(Pollack等人，1999年)提高了这些分析的分辨率，可以更好地检测和绘制局部变化，如基因扩增或纯合子缺失。

通过这些方法，CGH只对DNA序列的拷贝数进行编目。例如，它无法区分每个亲本染色体的一个拷贝和一个亲本染色体上的两个拷贝，这两个拷贝都会产生相当于两个拷贝的信号。然而，在癌症和其他人类疾病中，经历拷贝数改变的染色体或基因组区域的起源通常很重要，例如在单亲双相障碍中(Nicholls等人，1989年). 因此，一个提供有关拷贝数和每个亲本等位基因状态信息的平台将是有益的。

Kennedy等人(2003)设计了一种通用样品制备方法，该方法使用少量寡核苷酸引物，结合合成DNA微阵列上的等位基因识别。该方法（全基因组取样分析，或WGSA）使用简单的限制性内切酶消化，然后将公共适配器序列连接到每个片段，允许使用与该适配器互补的单个引物扩增多个位点。然后，PCR将基因组DNA转化为可预测的、复杂度较低的样本，并与阵列杂交。人类基因组序列的完成使人们能够对总基因组DNA进行电子消化，并预测使用这种方法将扩增哪些片段。然后识别这些片段上的SNP，并在高密度微阵列上合成与这些SNP相对应的寡核苷酸。将芯片上的SNP内容与目标中产生的SNP进行匹配，可以最大限度地利用从每个阵列中获得的信息。

在本研究中，我们探讨了WGSA和高密度寡核苷酸阵列（最初设计用于检测单核苷酸多态性）在同一实验中生成基因型和拷贝数数据的有效性。

结果

SNP基因分型数据的验证

Affymetrix p501阵列被设计为WGSA的原型阵列，包含代表8473个SNP的寡核苷酸，预计XbaI片段上存在长度为400-800 bp的SNP。进一步的实验确定了一组符合以下选择标准的6587个SNP：当分析133个种族多样性个体的数据时，显示了三个基因型簇，在33个家族中显示了适当的孟德尔遗传，在12个重复中显示了高（>99.9%）的重复性，在300多个实验中显示呼叫率>90%，基因型分布处于Hardy-Weinberg平衡，并映射到基因组中的独特位置。这组6587个SNP与单碱基扩展方法生成的基因型调用的一致性为99.5%，133个种族多样性个体的平均杂合度为35.2%（±11%），基因组常染色区的平均间距为260kb(Kennedy等人，2003年; H.Matsuzaki，个人通讯）。

在86个实验中，使用WGSA p501阵列的呼叫率估计为82%（SD 6.9%）（数据未显示）。通过对18份相同DNA（NCI-BL2126）的等分样品进行成对分析来测试再现性，平均一致性为99.65%。我们将来自p501阵列的基因分型数据与来自ABI LMS-MD10微卫星标记集的数据进行了比较，该标记集位于受调查的20个品系的6个子集（COLO829、HCC38、NCI-H209、NCI-H1171、NCI-H2126和NCI-H1395）中。对于这两个平台，通过比较肿瘤细胞系和来自同一个体的淋巴母细胞系的基因型数据来确定杂合性缺失。在LMS-MD10集合中的400个微卫星标记中，我们能够将369个映射到人类基因组序列的NCBI-33构建上，并且这些标记是相对于来自阵列的SNP数据定位的。LMS-MD 10组共有1558个标记（70.4%）从六个细胞系中获得了丰富的结果，其中1477个标记（94.8%）的结果与一个或两个侧翼SNP一致。在81个与侧翼SNP不一致的微卫星基因型调用中，34个与其中一个侧翼微卫星基因型调用一致，因此可能代表人类基因组序列中的小规模映射错误。因此，在使用微卫星标记集的1558个信息基因型中，只有47个（3.0%）与p501 SNP阵列的数据有明显差异。这些差异可能是由于保留了跨越微卫星标记的小间隔，但没有延伸到侧面SNP、微卫星基因分型数据中的错误或SNP基因分型中的潜在错误造成的。

拷贝数分析的验证

只有当每个特征的荧光强度显示出对拷贝数变化的剂量反应时，才能应用WGSA阵列来确定基因组拷贝数。通过两种方法进行测试，即使用不同数量的X染色体样本，以及将一系列相同的DNA等分样品加入不同浓度的PCR产物，以将42个SNP的拷贝数从两倍（对照样本）增加到1000倍。

在X染色体拷贝数实验中，我们用男性的平均值代表1X的情况，用女性的平均值表示2X的情况；我们还收集了含有3X-、4X-和5X-的细胞系的数据。使用(我)为了指示芯片强度，可以编写剂量-反应假设我_一今年C类_ab公司×我_b条，其中我_一是具有拷贝号的区域的强度a、我_b条是具有拷贝号的同一区域上的强度b条、和C类_ab公司是一个常数，由一和b。 $\tilde{S公司}$ （见方法）可以视为对数强度的近似值（所有对对数函数的引用均指自然对数e（电子）除非另有说明）。因此，如果假设为真，则日志转换将导致 $\tilde{S公司}$ _一今年 $\tilde{S公司}$ _b条+ $\tilde{C类}$ _ab公司使用女性平均值作为基线（X染色体上的173个SNP）得出的估计强度比为0.584、1、1.484、1.822和2.243，相当于1.17、2、2.97、3.64和4.49的拷贝数，一倍、二倍、三倍、四倍和五倍实际拷贝数的相关系数为0.981、1、0.943、0.935和0.939，分别（以拷贝数为2的女性值为基线；因此，估计拷贝数等于2×估计强度比）。当绘制估计拷贝数与实际拷贝数的对比图时，可以看到直线响应(R（右）²= 0.9976). 关系斜率0.83与理想值1不同，但与斑点阵列CGH实验的数据相似(Pinkel等人，1998年;Pollack等人，1999年).

通过将相同DNA（NCI-BL2126）的等分样品与42个因其高调用率而选择的单核苷酸多态性PCR产物加标，模拟较高拷贝数值下拷贝数估计的响应。拷贝数从2（对照）增加了2、5、10、25、50、75、100、250、500、750和1000份。在测试的42个SNP中，40个SNP的荧光强度随着拷贝数的增加而增加，达到并包括1000倍的峰值，对数强度和对数拷贝数之间的相关性为0.92(图1). 其中两个SNP的荧光强度没有随着拷贝数的增加而增加；因此，该子集表明阵列上只有一小部分SNP无法报告拷贝数变化。

保存图片、插图等的外部文件。对象名称为73202-17f1_L4TT_rev1.jpg

在单独的窗口中打开

图1

加标实验的对数（拷贝数）与对数（强度）的曲线图，在该实验中，18份相同DNA的等分样品被加标不同浓度的42个SNP，从两倍到1000倍不等。黑点表示12个峰值浓度的单个SNP的结果（加上额外的0、2、5、10、25、50、75、100、250、500、750和1000个拷贝）；绿色的点和线表示所有42个SNP的平均值。两个SNP没有报告随着拷贝数的增加荧光增强，这些SNP以红色突出显示。

癌细胞系中拷贝数的变化

在证实了寡核苷酸阵列检测拷贝数增加的实用性之后，我们分析了一组20个癌细胞系。对肿瘤样本的荧光数据进行分析后，发现共有14个假定的高水平扩增，其中至少有三个连续SNP报告的比率>2.5（相当于5个拷贝数，在未处理的荧光数据中也可见）。在这些基因座中，检测了12个基因座，qPCR显示每个基因座的拷贝数超过5个(表1). COR-L96-CAR中c-MYC基因座的基因组扩增示例见图2A; 该扩增的图谱也通过qPCR（SYBR-Green）获得，该qPCR使用设计成来自阵列的SNPs的扩增子；与p501阵列中的数据的比较如所示图3还鉴定了总共10个推定的纯合缺失（再次由三个连续的SNPs报告，并在未处理的荧光数据中可见），所有这些都通过常规PCR进行了评估和确认(表1).图2B显示了LB1047-RCC中p16/INK4基因座纯合缺失的示例。

与BAC CGH数据相比，p501阵列产生的扩增和缺失示例以及基因分型数据。(顶部面板）p501阵列的荧光比率图，显示样品的平滑荧光强度数据除以参考样品的数字。（第二个面板）第页-通过与29个正常DNA的平均值和标准偏差进行比较，计算出单个SNP的值图，缺失用红线表示，扩增用绿色表示。（第三和第四组）分别为肿瘤和匹配正常样本的基因型；纯合子SNP由中心点下方的红线表示，而杂合标记由中心点上方的绿线表示。(底部中的面板C类和D类仅）基于BAC阵列的CGH的结果（如果可用）。(一个)前列腺细胞系COR-L96-CAR第8号染色体C-MYC位点（箭头）的基因组扩增。(B类)肾癌细胞株LB1047第9染色体上p16/INK4位点的纯合缺失（箭头）。(C类)乳腺癌细胞系HCC1937的18号染色体。（i）从pter到18q12.1，该染色体的拷贝数为2（强度比为1）。（ii）从18q12.1到18qter，拷贝数下降到1（强度比为0.5），尽管基因分型数据表明该系在18号染色体全长上是杂合的。(D类)小细胞肺癌细胞系NCI-H209的5号染色体。该染色体显示出一个复杂的模式，p臂部分扩增（i），随后荧光强度下降到0.5，相应的LOH由基因分型数据（ii）确定，直到5q23.2（iii），其中强度比恢复到1（拷贝数为2）；然而，该区域仍然代表由基因分型数据确定的LOH，因此代表单个亲本染色体的重复。5q14.3处也有纯合缺失（箭头）。BAC阵列没有检测到这一点，因为该阵列没有覆盖该区域的克隆。

保存图片、插图等的外部文件。对象名称为73202-17f3_L4TT_rev1.jpg

在单独的窗口中打开

图3

用p501阵列比较COR-L96-CAR中c-MYC原癌基因扩增的拷贝数估计(一个; 其中拷贝数等于强度比的两倍）和qPCR(B类).

表1。

含有大规模基因组改变、纯合缺失和基因组扩增的细胞系及其染色体位置、侧翼SNP和区域大小

			副本编号
细胞系	基因组改变	染色体位置	第501页	聚合酶链反应	侧翼SNP	大小（Mb）	状态
NCI-H1395标准	放大	第1季度21.3	14	11.6	TSC0602316-TSC0902438	4.7	已知
HCC38型	纯合子缺失	第12.2页	0	0	TSC0041186-TSC0261189	2.7	已知
COR-L96-CAR公司	放大	第13.1页	19	—	TSC0260201-TSC0066115	2.5	已知
NCI-H209标准	纯合子缺失	第5季度14.3	0	0	TSC0052315-TSC0061600	1	新颖
HCC1395公司	纯合子缺失	第6季度16.3	0	0	TSC0553269-TSC0152381	2.1	新颖
HCC1395公司	纯合子缺失	第6季度16.3	0	0	TSC0833631-TSC0050825号	3.7	新颖
NCI-H2171标准	放大	第8季度12.2	11	85.8	TSC0272325-TSC0681497	3.2	已知
HCC1395公司	纯合子缺失	2011年第8季度	0	0	TSC0048903-TSC0065447号	1.6	新颖
Cor-L96-CAR公司	放大	8季度24.21	27	74	TSC0719292-TSC0741747	1.9	已知
NCI-H2171标准	放大	8季度24.21	15	31	TSC0719292-TSC0741747	1.9	已知
BB132-MEL公司	纯合子缺失	第23页第9页	0	0	TSC0823256-TSC0048714	2.2	已知
HCC38型	纯合子缺失	9第21.3页	0	0	TSC0827951-TSC0544304型	10.2	已知
LB1047碾压混凝土	纯合子缺失	9第21.3页	0	0	TSC0055892-TSC0049516	2.3	已知
NCI-H2126标准	纯合子缺失	9第21.3页	0	0	TSC0056694-TSC0602274	2.2	已知
HCC1395公司	纯合子缺失	第11页，共13页	0	0	TSC0741958-TSC0345031	0.6	已知
NCI-H2171标准	放大	第11页，共13页	5	8.6	TSC0055572-TSC0059555	1	已知
NCI-H2171标准	放大	11问题14.1	7	27.6	TSC0050602-TSC1007318型	1.2	已知
1542T-P41A型	放大	11季度22.3	9	20	TSC0050600-TSC0308740	16.1	已知
1156-Q-E号	放大	12便士	9	—	TSC0046300-TSC0585919	36.6	已知
NCI-H2171标准	放大	第12页第11.23页	9	7.6	TSC0081620-TSC0055751	5.5	已知
833-韩国	放大	第12页13.31	6	6.6	TSC0052512-TSC0083456	25.5	已知
NCI-H2171型	放大	第12页13.31	10	9.2	TSC0556975-TSC0056780型	2.7	已知
NCI-H2171型	放大	第14季度11.2	7	22.6	TSC1031933-TSC0549368	1.6	新颖
1982年	放大	20季度13.13	7	7	TSC0615769-TSC0543744型	7	已知

在单独的窗口中打开

包括p501阵列和确认数据的拷贝数估计（-表示没有数据）；纯合子缺失由受影响区域的SNP PCR确认，而扩增则由使用TaqMan双标记探针的qPCR确认。扩增和纯合缺失的状态是（新的），以前文献中没有报道过或（已知的）以前鉴定过。

p501阵列还检测到具有更细微拷贝数变化的区域，即放大事件为3个拷贝或拷贝数从2减少到1。对于其中两条线（HCC1937和NCI-H209），我们能够将p501阵列结果与基于BAC阵列的CGH数据进行比较。在这两个品系的44条常染色体中，有34条在两种分析方案中表现出一致的拷贝数模式，与扩展区域的低拷贝数变化进行比较。在使用p501阵列的两个样本中，17、19、20和22号染色体的分辨率都很低，因此造成了80%的不一致。这些染色体的SNP密度最低，分别为0.71、1.25、0.77和1.25 Mb，而基因组其余部分的平均密度为0.44 Mb。对于剩下的18条常染色体，来自p501阵列的数据往往显示出更大的变异性；然而，潜在模式是可识别的，并且与基于BAC阵列的CGH的模式一致(图2C、D).

结合基因分型数据的拷贝数变化

对来自阵列的基因分型数据和20个癌细胞株的拷贝数估计进行了比较。该分析强调了染色体增益和损耗的复杂模式，这些模式无法单独通过CGH或微卫星分析检测到。

减少拷贝数而不丢失杂合性（LOH）

分析中的六个细胞系包含至少一个染色体区域（～10 Mb或更大），在拷贝数分析中观察到荧光强度降低50%（降至0.5），这对应于由至少三个信息SNP定义的杂合区域（总共八个区域）。对这一结果的一种解释是，该细胞系的核型平均倍性为4。如果某些染色体只存在两个拷贝（要么这些染色体没有与基因组的其余部分重复，要么两个拷贝，每个亲本一个，随后丢失），那么会观察到荧光强度下降50%，每个染色体将来自不同的亲本。天空核型（数据未显示）可用于显示此模式的两个品系，以便估计平均染色体数；这些品系分别含有68条（COLO829）和88条（HCC1937）染色体。图2C显示HCC1937中的18号染色体，其中q-arm显示无LOH的拷贝数减少模式。

未减少拷贝数的LOH

除一条外，所有正在分析的线都包含至少一个～10 Mb或更大的区域，其中LOH与拷贝数的减少不对应。在所分析的线中，至少发现了94个这样的区域，平均每线4.7个。在这种情况下，LOH可能是通过有丝分裂重组产生的，或者可能发生了两个单独的基因组事件，失去了一个亲本区域，随后复制了另一个亲代副本。在NCI-H209的第5qter染色体上可以看到这种无拷贝数减少的LOH模式(图2D，区域iii），并提供了癌症遗传变化复杂性的一般说明。除了没有拷贝数更改的LOH区域外，还有一个伴随拷贝数减少的丢失区域(图2D，区域ii），一个已确认的纯合缺失（箭头所示），以及一个拷贝数略有增加的区域(图2D，区域i）。

讨论

这项研究表明，Affymetrixp501寡核苷酸阵列与全基因组采样分析（WGSA）相结合，可以产生可重复的基于SNP的基因分型数据，可用于一系列基因组应用(舒伯特等人，2002年;Dumur等人，2003年). 我们已经证明SNP阵列也可以用于检测癌细胞系中的拷贝数变化。该平台可靠地报告了高水平扩增和纯合缺失，这些扩增和纯合子缺失延伸到<1 Mb的区域，延伸到数个兆碱基，如至少三个连续SNP报告的12个扩增和10个纯合缺失的确认所示。单个SNP报告高级拷贝数更改第页-值<0.0001被确定，并被证明报告了真实事件（J.Huang，pers.comm.）；然而，在本研究中，没有用其他方法进行检查。此外，可以检测到导致大基因组区域单个拷贝丢失或获得的细微变化。每个数据点的基因分型和拷贝数分析相结合，可以识别在阵列CGH或基因分型分析中无法检测到的基因组改变。对本研究中使用的20个细胞系的分析确定了8个无LOH的拷贝数减少区域和94个无拷贝数减少的LOH区域，表明基因型数据和拷贝数信息的整合比单独分析更深入地了解癌细胞内的基因组变化。

该方法不同于基于斑点阵列的CGH，因为正常和肿瘤DNA以类似于Affymetrix表达阵列实验的方式杂交到不同阵列(Lockhart等人，1996年). 这种方法的优点是能够为后续的肿瘤分析建立一个正常数据池，并降低杂交的复杂性。

为了评估微小拷贝数变化报告的可靠性，我们比较了p501阵列和BAC阵列的结果。总的来说，p501阵列的数据表现出比基于BAC阵列的CGH更多的变异性。这在一定程度上可能是因为在WGSA系统的基因组表示/简化中使用的基于PCR的方法具有内在的可变性。此外，与BAC克隆相比，寡核苷酸探针的杂交动力学可能解释了一些变异性，尽管每个SNP位点具有多重代表性（28倍），但这种变异似乎仍然存在。最后，尽管本研究中使用的SNP标准会删除那些在其侧翼XbaI限制位点内具有共同SNP的SNP，但XbaI位点内的罕见SNP不会被检测到，并且可能会导致PCR产物表现的变化，而不反映基因组拷贝数。然而，用p501阵列和基于BAC-阵列的CGH分析的两种癌细胞株中发现的细微拷贝数模式相似，44条常染色体中有34条显示相同的模式；在这10条呈现不一致模式的染色体中，有8条是由于低SNP密度导致的p501阵列上表现不佳所致（染色体17、19、20和22）。SNP在阵列上的分布取决于公开可用SNP的数量和基因组中“预测的”Xba I位点的出现，这是位点实际分布和阵列设计时基因组序列完成程度的函数。增加SNP识别/覆盖率、完成基因组序列以及添加替代限制性内切酶组分都将有助于增加可通过该方法进行检测的SNP密度。此外，选择性使用SNP密度与XbaI互补的替代限制性内切酶组分将弥补基因组某些区域XbaI位点的不足。预计随着SNP密度的增加，分辨率和评估细微拷贝数变化的能力将增加。

我们和其他人（J.Huang，pers.comm.）最近将我们的分析扩展到Affymetrix基因芯片映射10K分析（Xba_131阵列），该分析包含11555个SNP。此数组的性能优于p501，平均调用率为93%(n个=30），基于一式三份分析的五份DNA，平均一致性为99.5%（数据未显示）。新的Xba_131阵列也可用于拷贝数分析。尽管拷贝数数据仍然可变，但由于SNP密度更高，它比使用p501阵列获得的数据要好。在p501阵列上SNP密度较低的17、19、20和22号染色体，现在的SNP密度分别为287.7kb、666.7kb、297.7kb和620.3kb；其余染色体的平均密度为1/269.6kb。因此，17号和20号染色体上Xba_131阵列的SNP密度与基因组其余部分的平均值相似，而19号和22号染色体的SNP浓度仍然较低。

使用更高密度的SNP阵列可能会进一步改进SNP阵列的数据。也可以通过基于单个特征级别的分析而不是使用特征手段评估每个SNP的拷贝数变化来改进SNP阵列的数据。

在编写本文时，Lucito等人(2003)已发表的基于“代表性寡核苷酸微阵列分析”（ROMA）的工作，使用长度为70个碱基的寡核苷酸，整个基因组的分辨率为30kb。他们的方案类似于其他基于微阵列的技术，将正常对照样品与测试样品共混合，通过Cy3-和Cy5-标记的DNA比率的变化报告拷贝数的变化。该技术类似于基于BAC阵列的CGH，具有非常高密度探针的优点。然而，ROMA没有结合拷贝分析提供基因分型数据，因此，如果没有如本文所述的拷贝数变化，就无法识别LOH的区域。

方法

单元格行

使用供应商推荐的条件培养正常细胞和癌细胞系。使用QIAGEN“血液和细胞培养”DNA Maxi试剂盒（目录#13362）从细胞系中提取DNA。本研究中使用的细胞系为正常细胞系：1156-Q-LC、1542N-P63B、833-K-LC、BB132-EBV、BB65-EBV，COLO829BL、COR-L96-LCL、HA7-EBV、HCC1954BL、HCC2157BL、肝癌2218BL、肝细胞癌38BL、J82-EBV或LB1047-EBV或LB2518-EBV-BL2009、NCI-BL209、，NCI-BL2126和NCI-BL2171；肿瘤细胞系：1156-Q-E、1542T-P41B、833-KE、BB132-MEL、BB65-RCC、COLO829、COR-L96-CAR、HA7-RCC、HCC38、J82、LB1047-RCC，LB2518-MEL、LB373-MEL、LB996-RCC、NCI-H1395、NCI-H209、NCI-H2126、NCI-H2171、HCC1395和HCC1937。从Coriell细胞系NA04626（3X）、NA01416（4X）和NA06061（5X）中获得DNA。

阵列设计

p501阵列包含与8473个SNP互补的等位基因特异性杂交探针，这些SNP预计位于由400–800-bp XbaI消化基因组DNA片段代表的基因组部分。使用光刻方法合成了与这些SNP对应的寡核苷酸，每个SNP由56个不同的寡核苷酸探针表示。寡核苷酸是25聚体序列，用于询问正、反义链上的多态性位点，并包含完美匹配（PM）和错配（MM）序列，以便进行信噪比测量。合成从多态性位点偏移1-4nt的额外寡核苷酸，以允许数据冗余并最大限度地提高基因型准确性。

目标准备

WGSA依靠基因组表征将基因组复杂性降低约98%，从而改善杂交动力学(Lucito等人，1998年;Kennedy等人，2003年). 在连接适配器和使用适配器特异性引物扩增连接产物之前，使用Xba1将样本DNA消化完成。所用试剂和方案取自Kennedy等人(2003)除了使用400 ng样本DNA，而不是250 ng样本DNA。由于输入DNA的增加，参与消化、连接物连接和扩增阶段的所有反应体积增加了60%，从而保持了反应条件。PCR后，使用QIAGEN微型洗脱PCR纯化试剂盒（目录号28006）浓缩样品，并在30μL EB缓冲液中洗脱，每个PCR使用一个色谱柱，最终洗脱体积为180μL。使用Microcon YM-30过滤器（目录号42410）将其降到50μL。使用Hoeffer DyNA Quant毛细管试管试剂盒对最终浓缩的DNA进行定量；20μg PCR产物为片段，将平均产物大小降至50–150 bp。

杂交和扫描

如Kennedy等人所述，将探针与阵列杂交并染色，同时扫描芯片(2003). 基本上，在与杂交溶液混合并添加到p501阵列中进行杂交之前，使用末端转移酶用生物素N6-ddATP标记片段DNA。杂交后，使用Affymetrix Fluidics Station对阵列进行清洗和染色。染色程序旨在放大退火探针的信号。样品首先用straptavidin染色，然后用生物素化的抗链霉亲和素处理，最后用链霉菌亲和素R0-藻红蛋白结合物处理。使用安捷伦基因阵列扫描仪进行扫描。

特征提取

p501阵列设计为每个SNP使用28个探针对，14个探针对用于等位基因A和14个探针对等位基因B。每个等位基因的14个探针配对在正、反义链之间平均分配。探针对包括完全匹配单元和不匹配单元。我们使用

作为任何给定SNP的基本测量，其中颗粒物_我是探针对的完美匹配单元的强度我和MM（毫米）_我是探针对不匹配单元的强度我该值在对数尺度上测量完美匹配和不匹配之间的平均强度差。对数变换使分布更加高斯。之后S公司为给定芯片上的所有SNP计算，将其缩放为具有零的平均值。换句话说：

j个= 1,...,J型都是芯片上的常染色体SNP。

副本数量估计

在估计拷贝数时，对特征提取的输出进行平滑处理，通过取五个SNP的中位数（测试SNP和每个数据点的两个侧翼SNP）去除第一个离群值，然后取五个SNP的平均值。然后，通过计算荧光比率与一系列29个正常DNA的平均读数，将其转换为拷贝数。因此，如果SNP来自测试样品的二倍体区域，那么当被正常参考样品除以时，其读数将为1，表示拷贝数为2。

重要性计算

为了评估靶癌细胞系中拷贝数变化的重要性，我们将其与包含29个正常DNA样本的参考集进行比较。对于任何给定的SNPj个，我们假设 $\tilde{S公司}$ _j个遵循高斯分布；使用29个正常参考样本估计平均值和方差。

哪里k个= 1,...,K（K）表示正常参考集。假设目标癌细胞株有价值方程式M4 SNP上j个，差异的重要性方程式M5 正态参考分布由第页-值：

这个概率表明正常人群的值与癌细胞系的值一样极端的可能性有多大。它越小，癌细胞与正常细胞之间的差异越大。

BAC阵列CGH

BAC阵列CGH使用包含约4100个公开可用BAC的1-Mb阵列进行。阵列构造基于Hodgson等人对协议的修改(2001). 使用QIAGEN REAL试剂盒从15 h培养物中提取DNA，并使用简并寡核苷酸引物（5′-CCGACTCGAGNNNNATGTG-3′）进行扩增。在两个不同的退火温度（58°C和60°C）下放大每个BAC以提高覆盖率。将PCR产物混合、纯化（QiaQuick kits，QIAGEN）并冻干，然后再悬浮在50%二甲基亚砜/水中，最终浓度为～300 ng/μL。每张幻灯片上至少打印了每个克隆的两个副本。

标记DNA（随机素标记试剂盒，Invitrogen）并与Cot-1 DNA在37°C下杂交48–72小时。按照Hodgson等人的描述清洗载玻片(2001)并使用Affymetrix428微阵列扫描仪进行扫描。使用Genepix软件（Axon）进行分析，并根据标签效率的变化进行调整（基于打印时间的数据调整；Yang等人2001).

CA重复基因分型

使用ABI的10cM微卫星标记集（LMS-MD10）进行基因分型。使用ABI True Allele PCR预混料（目录号403061）从12 ng DNA中扩增标记，总体积为10μL。在Kbiosystems“Duncan”热循环机上进行循环，使用94°C变性、60°C退火和72°C延伸的40个循环程序，每个循环程序持续30秒，然后在94°C下浸泡10分钟以激活Amplitaq Gold，最后在72°C下浸渍10分钟以完成延伸。根据制造商的说明制备样品并将其装载到ABI 3700或ABI 3100 DNA分析仪上。使用ABI Genescan（V5.1）和Genotyper（V3.6）软件对数据进行分析。通过比较每个样本集中包含的对照DNA（CEPH 1347-02）的数据，在运行之间对片段大小进行标准化。

纯合子缺失的确认

PCR证实了纯合子缺失。引物设计用于报告缺失的SNP和侧翼SNP。如果可能，在SNP的两侧设计引物；否则，引物应尽可能靠近SNP。对测试DNA和正常对照进行了两次PCR。通过凝胶电泳观察PCR产物。

扩增的确认

使用ABI 7700和TaqMan双标记探针通过qPCR确认扩增。使用标准曲线法计算相对定量的拷贝数估计值，使用与两个参考基因座（分别为APP1和DCK，Ensemble基因ENSG0000090621和ENSG00000156136）相关的单独试管，并相对于正常对照DNA进行表达。按照ABI（用户公告#2）的描述进行了实验设计和计算。通过对报告扩增的p501阵列中设计为18个SNP的扩增子的qPCR，证实了COR-L96-CAR中的扩增情况。根据未扩增的侧翼SNP计算拷贝数，并相对于正常对照DNA进行表达。在本实验中，使用QuantiTect SYBR Green PCR试剂盒（QIAGEN目录#204143）进行qPCR。

致谢

癌症基因组项目的工作得到了威康信托基金的支持。其他资助包括英国癌症研究所（M.G.）和艾布拉姆森家族癌症研究院（B.L.W.）。我们感谢癌症基因组项目的工作人员对这项工作的贡献。

这篇文章的出版费用部分由页面费支付。因此，本文必须根据《美国法典》第18卷第1734节的规定标记为“广告”，仅用于表明这一事实。

笔记

文章和出版物位于http://www.genome.org/cgi/doi/10.1101/gr.2012304。

脚注

[补充材料可在www.genome.org和ftp.sanger.pub/p501上在线获取。本研究中使用的所有70个阵列（29个正常人、20个癌细胞株、3个X拷贝数和18个“尖峰”DNA）的数据最初也将在ftp.sanger.pub/p501上提供，直到安排提交给Array Express。]

工具书类

Albertson，D.G.、Ylstra，B.、Segraves，R.、Collins，C.、Dairkee，S.H.、Kowbel，D.、Kuo，W.L.、Gray，J.W.和Pinkel，D.2000。通过阵列CGH对扩增子结构进行定量绘图，确定CYP24为候选癌基因。自然遗传学。 25:144-146. [公共医学][谷歌学者]
Dumur，C.I.、Dechsukhum，C.、Ware，J.L.、Cofield，S.S.、Best，A.M.、Wilkinson，D.S.、Garrett，C.T.和Ferreira-Gonzalez，A.，2003年。使用人类SNP微阵列技术对前列腺癌中LOH的全基因组检测。基因组学 81:260-269. [公共医学][谷歌学者]
Ghaffari，S.R.、Boyd，E.、Tolmie，J.L.、Crow，Y.J.、Trainer，A.H.和Connor，J.M.1998年。特发性精神发育迟滞患者隐性端粒易位筛查的新策略。医学遗传学杂志。 35:225-233之间。[PMC免费文章][公共医学][谷歌学者]
Hodgson，G.、Hager，J.H.、Volik，S.、Hariono，S.，Wernick，M.、Moore，D.、Nowak，N.、Albertson，D.G.、Pinkel，D.、Collins，C.等人，2001年。用阵列CGH进行的基因组扫描描绘了小鼠胰岛癌的区域变化。自然遗传学。 29:459-464. [公共医学][谷歌学者]
Jain，A.N.、Chin，K.、Borresen-Dale，A.L.、Erikstein，B.K.、Eynstein Lonning，P.、Kaaresen，R.和Gray，J.W.，2001年。人类乳腺肿瘤染色体CGH的定量分析将拷贝数异常与p53状态和患者生存率联系起来。程序。国家。阿卡德。科学。 98:7952-7957.[PMC免费文章][公共医学][谷歌学者]
Kallioniemi，A.、Kallioniema，O.P.、Sudar，D.、Rutovitz，D.、Gray，J.W.、Waldman，F.和Pinkel，D.，1992年。用于实体肿瘤分子细胞遗传学分析的比较基因组杂交。科学类 258:818-821. [公共医学][谷歌学者]
Kennedy，G.C.、Matsuzaki，H.、Dong，S.、Liu，W.、Huang，J.、Liw，G.、Su，X.、Manqiu，C.、Chen，W.和Zhang，J.等人，2003年。复杂DNA的大规模基因分型。自然生物技术。 21:1233-1237. [公共医学][谷歌学者]
Lockhart，D.J.、Dong，H.、Byrne，M.C.、Follettie，M.T.、Gallo，M.V.、Chee，M.S.、Mittmann，M.、Wang，C.、Kobayashi，M.和Horton，H.等人，1996年。通过与高密度寡核苷酸阵列杂交来监测表达。自然生物技术。 14:1675-1680. [公共医学][谷歌学者]
Lucito，R.，Nakimura，M.，West，J.A.，Han，Y.，Chin，K.，Jensen，K.、McCombie，R.、Gray，J.W.和Wigler，M.1998年。利用基因组表征进行遗传分析。程序。国家。阿卡德。科学。 95:4487-4492.[PMC免费文章][公共医学][谷歌学者]
Lucito，R.、Healy，J.、Alexander，J.，Reiner，A.、Esposito，D.、Chi，M.、Rodgers，L.、Brady，A.、Sebat，J.和Troge，J.等人，2003年。代表性寡核苷酸微阵列分析：检测基因组拷贝数变异的高分辨率方法。基因组研究。 13:2291-2305.[PMC免费文章][公共医学][谷歌学者]
Nicholls，R.D.、Knoll，J.H.、Butler，M.G.、Karam，S.和Lalande，M.1989年。非缺失型Prader-Willi综合征中母体异基因决定的遗传印记。自然 342:281-285.[PMC免费文章][公共医学][谷歌学者]
Pinkel，D.，Segraves，R.，Sudar，D.，Clark，S.，Poole，I.，Kowbel，D.，Collins，C.，Kuo，W.L.，Chen，C.，Zhai，Y.等人，1998年。利用比较基因组杂交技术对微阵列进行DNA拷贝数变异的高分辨率分析。自然遗传学。 20:207-211. [公共医学][谷歌学者]
Pollack，J.R.、Perou，C.M.、Alizadeh，A.A.、Eisen，M.B.、Pergamenschikov，A.、Williams，C.F.、Jeffrey，S.S.、Botstein，D.和Brown，P.O.，1999年。使用cDNA微阵列对DNA拷贝数变化进行全基因组分析。自然遗传学。 23:41-46. [公共医学][谷歌学者]
Schubert，E.L.、Hsu，L.、Cousens，L.A.、Glogovac，J.、Self，S.、Reid，B.J.、Rabinovich，P.S.和Porter，P.L.，2002年。冷冻组织与固定组织中流动上皮细胞的单核苷酸多态性阵列分析，用于乳腺癌等位基因缺失的全基因组分析。美国病理学杂志。 160:73-79.[PMC免费文章][公共医学][谷歌学者]
Veltman，J.A.、Schoenmakers，E.F.、Eussen，B.H.、Janssen，I.、Merkx，G.、van Cleef，B.、van Ravenswaaij，C.M.、Brunner，H.G.、Smeets，D.和van Kessel，A.G.，2002年。利用基于阵列的比较基因组杂交对亚染色体重排进行高通量分析。Am.J.Hum.遗传学。 70:1269-1276.[PMC免费文章][公共医学][谷歌学者]
Yang，L.、Tran，D.K.和Wang，X.，2001年。BADGE，用于检测基因表达的珠阵列，一种高通量诊断生物测定。基因组研究。 11:1888-1898.[PMC免费文章][公共医学][谷歌学者]

文章来自基因组研究由以下人员提供冷泉港实验室出版社