跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
自然方法。作者手稿;可在PMC 2009年7月1日获得。
以最终编辑形式发布为:
在线发布2008年11月30日。 数字对象标识:10.1038/nmeth.1276
预防性维修识别码:PMC2630795型
美国国立卫生研究院:NIHMS77026
PMID:19043412

利用大规模平行测序对拷贝数变化进行高分辨率绘图

关联数据

补充资料

摘要

癌症是由关键基因的体细胞改变引起的,包括点突变、拷贝数改变和结构重排。发现致癌基因的一个有效方法是确定肿瘤基因组中经常出现拷贝数改变(得失)的基因组区域。测序技术的最新进展表明,大规模并行测序可能为检测拷贝数变化提供一种可行的DNA微阵列替代方案。在此,我们提出:(i)对检测给定大小的拷贝数变化的能力进行统计分析;(ii)SegSeq,一种使用大规模并行序列数据识别染色体断点的算法;以及(iii)分析来自三对匹配的肿瘤和正常细胞系的实验数据。我们表明,从人类细胞系中收集的约1400万条对齐序列读取数据与当前一代DNA微阵列相比,在检测事件方面具有相当的能力,并且在定位断点(通常在~1kb范围内)方面具有两倍以上的精度。

简介

拷贝数改变是一种重要的遗传变异。种系拷贝数变异可用于全基因组关联研究中的表型绘图,并与各种疾病相关1-在致癌过程中,肿瘤基因组通常会获得体细胞染色体改变,从而改变癌基因和抑癌基因的剂量或结构。发现癌症基因的一个有效方法是确定肿瘤基因组中具有重复拷贝数改变(增益和损耗)的基因组区域4理想情况下,这种特征应包括准确识别每个改变的染色体断点和准确估计每个染色体片段中的拷贝数。事实上,将基因组DNA与寡核苷酸微阵列杂交可以揭示全基因组拷贝数的变化5,6.

原则上,评估拷贝数变化的一种简单而有效的方法是进行“数字核型分析”。例如,对全基因组鸟枪测序数据的分析可以描绘出个体之间的种系拷贝数变异7-9人们可以使用类似的方法检测肿瘤基因组中出现的体细胞拷贝数变化。本质上,人们对肿瘤和正常DNA的短序列标签进行鸟枪测序。与每个基因组区域对齐的序列数量应与其拷贝数成比例10-13然而,在实践中,DNA测序的高成本极大地限制了这种方法的实际应用。最近,新一代DNA测序仪以极低的成本实现了数百万短序列读取的大规模并行测序8,14.

在本文中,我们详细分析了使用大规模并行测序识别癌症拷贝数改变所涉及的问题。首先,我们分析了检测拷贝数变化并准确绘制其边界的统计能力。其次,我们开发了SegSeq,这是一种计算算法,可以检测这些变化并绘制其边界,从而利用序列读取的高密度。第三,我们将这些结果应用于Illumina 1G基因组分析仪的实际测序数据,读取长度为32或36bp。我们发现,与基于微阵列杂交的类似估计相比,每个样本超过1000万个对齐序列读取,大规模并行测序的拷贝数估计在绘制断点时具有更高的灵敏度、更高的动态范围和更高的精度。

结果

统计能力:固定窗口中的拷贝数更改

我们首先研究了检测给定大小的拷贝数更改的能力。假设序列读取是从基因组中随机选择的,与区域对齐的读取数将遵循泊松分布,平均值与区域大小和拷贝数成正比。例如,在人类基因组的可比对部分中,有一个50 kb的区域有1000万个对齐读取(A类= 2.2 × 109)预计将有50000×107/A类=~230读2份,~115读1份或~345读3份(补充方法在线)。在实践中,一个人不能用唯一对齐的读取来命中重复序列。自始至终,这里我们指的是区域的“唯一对齐”部分。

对于任何基因组区域,其拷贝数比率等于肿瘤样本的对齐读取数除以相应匹配正常样本的数量。其中一个检测到拷贝数比率偏离1的区域中的拷贝数更改。为了计算在固定的全基因组假阳性率下检测重大变化的能力,我们人工将基因组划分为大小相等的非重叠窗口(图1a). 然后,我们使用对数正态近似值作为拷贝数比率差异的对数,以计算在整个基因组中以单个假阳性的严格程度区分不同大小区域的拷贝数1、2或3所需的校准读取总数。要检测单拷贝增益的50kb区域,在这种严格程度上,需要约1500万次对齐读取(图1b);对于单拷贝丢失,需要约600万次对齐读取(图1c).

保存图片、插图等的外部文件。对象名为nihms-77026-f0001.jpg
检测单个副本收益和损失所需的理论覆盖范围

()通过排序检测拷贝号更改的示意图概述。(b、 c(c))功率计算用于检测单个拷贝增益和丢失的拷贝数更改。我们考虑过固定窗户L(左)范围从L(左)=10 kb至L(左)=100 kb。线表示基于正态分布随机变量比率分布的近似功率。对于L(左)=30 kb,我们绘制了泊松分布随机变量(蓝点)比率的模拟结果。对于平均读取次数λ大于80(黑色虚线)的窗口,近似值精确到10%以内(青色虚线)。

算法:检测和定位拷贝号更改

我们开发了一种称为SegSeq的计算算法,用于检测和定位大规模并行序列数据中的拷贝数变化。一种简单的方法是将基因组划分为固定大小的窗口,估计每个窗口的肿瘤正常比率,并使用分割算法将基因组分解为拷贝数相等的区域15然而,这种方法的缺点是,无法比窗口边界更精细地定位断点。相反,我们开发了一种能够在任何读取位置识别断点的方法。因此,我们的方法不局限于预先指定大小的窗口,也不局限于固定的标记位置(如微阵列杂交)。

我们的算法是局部变化点分析与后续合并过程的混合,合并相邻染色体片段(图2a-c). 有三个用户定义的参数:w个,从定义用于断点初始化的本地窗口的常规样本中连续读取的次数;初始化,的-候选断点初始列表的值截止;合并,的-合并相邻线段的值截止。

保存图片、插图等的外部文件。对象名为nihms-77026-f0002.jpg
对齐顺序读取的分割算法

(a-c公司)分割算法的示意图概述。()候选断点(红点)对应于肿瘤读取位置(黑点),其局部对数比率统计,,通过了一个宽松的显著性阈值。(b)这些候选断点定义了初始copy-number段(蓝线)的边界。每个点表示100 kb窗口的估计拷贝数比率。(c(c))合并过程产生针对10个全基因组假阳性获得的拷贝数片段(绿线)的最终列表。(d-e公司)作为局部窗口大小参数的函数,检测拷贝数变化的灵敏度,w个一个特定大小的拷贝数改变被引入一个二倍体基因组中,该基因组由1200万个对齐的读操作进行采样。每条线代表模拟中1000个峰值的分数,其中(d日)拷贝数增加或(e(电子))该分割算法正确识别了拷贝数丢失。

在第一步中,我们通过基于本地窗口中的读取计数生成候选断点列表来超分段基因组。在每个肿瘤读取位置,我们向左侧和右侧扩展一个窗口,以包含固定数量的读取,w个,在正常样本中。然后,我们计算了显著性(-值)基于包含在两个窗口中的肿瘤读取的数量之间的对数比的拷贝数改变(补充图1在线)。超过宽松全基因组显著性阈值的位置(-价值<初始化)被声明为候选断点;这些位置划分了最初的段列表。在下一步中,我们通过消除片段之间的断点来迭代连接片段,从最不重要的开始,一直到-值高于合并。在此步骤中,第页-值是根据肿瘤和整个节段中正常的读取次数计算的。由于这些段通常比本地窗口大,因此对齐读取的数量增加可以更准确地估计统计显著性。

我们基于正常样本的重复测序通道优化了用户定义的参数。这些参数的首选值设置如下:(i)-价值截止,初始化合并,控制全基因组的假阳性率,并设置为生成约1000个假阳性初始断点和约10个假阳性最终片段(补充方法). (ii)局部窗户尺寸,w个通过使用从肿瘤细胞系及其匹配的正常细胞中获得的实际序列读取进行尖峰模拟来评估,设置为最大限度地提高检测变化的灵敏度(图2d,e). 我们测试了从10kb到500kb不等的单拷贝改变,假设在肿瘤和正常样本中都有约1200万个对齐读取。在这个测序深度,我们发现w个=400为大小至少为50 kb的单拷贝增益提供了最佳灵敏度(图2d)和w个=300为大小至少为75 kb的单拷贝丢失提供了最佳灵敏度(图2e).

应用:肿瘤细胞系中的拷贝数改变

为了测试该方法,我们在Illumina 1G基因组分析仪上生成并分析了三种肿瘤细胞系(HCC1954、HCC1143和NCIH2347)及其匹配的正常细胞系的大量平行序列数据(补充方法). 对于六个细胞系中的每一个,我们都获得了10-19百万个唯一对齐的读取(补充表1在线)。我们注意到,正常细胞系和肿瘤细胞系中观察到的计数数量取决于局部G+C含量(补充图。2,,补充表2在线),这可能反映了样品制备或测序程序中的固有偏差。我们通过分析肿瘤DNA和同时处理的成对正常DNA中的读取次数的比率,缓解了这些偏见。

我们使用这些优化参数的分割算法将基因组解析为恒定拷贝数的区间。筛选出拷贝数比率大于1.5或小于0.5的片段后,我们发现HCC1954细胞系中有194个拷贝数改变,HCC1143细胞系中126个拷贝号改变,NCI-H2347细胞系中15个拷贝数变化(表1,补充图。4-6,补充数据在线)。共有6个高水平扩增(拷贝数比大于8),所有这些都与之前报道的位点相匹配16,17我们还发现7个纯合子缺失区域,大小从~29 kb到~582 kb不等(补充表3,补充图7在线)。

表1

肿瘤细胞系拷贝数变化综述

大规模并行测序Affymetrix SNP 6.0阵列
HCC1954年HCC1143公司国家协调委员会-
H2347型
HCC1954年HCC1143公司NCI公司-
H2347型
具有预测增益的段数
拷贝数比1.5-2.0
6361557435
拷贝数比2.0-4.07838062291
拷贝数比4.0-8.02720200
拷贝数比率>8.0510100

预测损失的分段数
拷贝数比率<0.250024
拷贝数比0.25-
0.50
2121713168

预测总数
变更
194126151539318

然后,我们将大规模平行测序获得的结果与相同样本与寡核苷酸阵列杂交获得的结果进行了比较(Affymetrix SNP Array 6.0)。合并跨越不到8个连续探针集的片段后,我们发现HCC1954细胞系中有153个拷贝数改变,HCC1143细胞系中93个拷贝数变化,NCI-H2347细胞系中18个拷贝数更改。

总的来说,两种方法检测到的拷贝数片段在识别是否存在拷贝数改变方面高度一致,而大规模平行测序在定位断点方面具有更好的分辨率(补充图8在线)。值得注意的是,测序获得了更高的估计拷贝数变化的动态范围。例如,我们考虑了ERBB2号机组HCC1954细胞系中的基因座。我们通过微阵列估计拷贝数比率增加了16倍,而通过测序估计增加了55.6倍(补充图。89在线)。定量PCR测量证实扩增程度较高16(约70倍)。高拷贝数的微阵列杂交的饱和效应可以用Langmuir吸附模型解释18(补充图8,补充方法在线)。

应用:绘制肿瘤细胞系中的断点

接下来,我们研究了准确映射断点的能力。为此,我们考虑了间质纯合缺失,通过对缺失进行测序,可以将其边界映射到单核苷酸分辨率。我们在NCI-H2347细胞系中检测到3个纯合缺失:一个新的44-kb缺失位于UTRN公司基因座,以及先前报道的PTPRD公司HS3ST3A1型位点19,20(补充表3,补充图。10-12在线)。在确认配对正常细胞系中没有这些缺失后,我们通过对每个缺失的PCR产物进行常规测序,绘制了它们的断点。

我们的分割算法(使用~1400万次肿瘤读取)预测的断点非常接近实际断点(六个断点的差异为2、52、226、527、829和1007 bp,平均值为440 bp)(图3a-c,补充表3在线)。由于短序列读取无法与重复区域唯一对齐在六个断点中的三个断点两侧重复操作限制了映射的精度。从微阵列中分割数据的平均误差为1068 bp;它错过了实际的断点+2718个基点和-1262个基点UTRN公司基因座,-491 bp和-1242 bpPTPRD公司基因座和+608bp和-86bpHS3ST3A1型轨迹(图3d–f).

保存图片、插图等的外部文件。对象名为nihms-77026-f0003.jpg
绘制纯合子缺失的染色体断点

(a-c公司)对齐序列的断点映射读取位置:()的UTRN公司位点;(b)的PTPRD公司位点;或(c(c))的HS3T3A1型轨迹。每个点表示与NCI-H2347(蓝色)肿瘤细胞系或其匹配的正常NCI-BL2347(黑色)对齐的序列读取位置。垂直绿线表示通过对跨越每个纯合子缺失的PCR产物进行测序绘制的确切染色体断点。对于每个断点,我们报告预测断点位置和实际断点位置之间的差异。(d-f型)使用Affymetrix SNP 6.0阵列进行断点映射,其中每个点表示日志2数组probeset查询的copy-number比率:(d日)的UTRN公司位点;(e(电子))的PTPRD公司位点;或((f))的HS3T3A1型轨迹。日志的最小值2拷贝数比率设置为-7。水平蓝线表示由循环二进制分割算法推断的拷贝数段28.

讨论

随着强大的新技术的出现,大规模并行测序将为癌症基因组中的拷贝数变化提供越来越高的分辨率分析。我们发现,约1400万序列读取的集合比当前一代DNA微阵列(中位数间距~700 bp)的分辨率高出两倍以上,以定位断点。我们对三对肿瘤正常细胞系的序列数据进行了分析,为我们的统计分析提供了实验验证。尽管目前1400万个读数的测序比微阵列杂交更昂贵,但相对成本可能会随着测序吞吐量的增加而变化。

癌症基因组分析将从这些测量准确性的改进中受益匪浅。定位与癌症相关的关键基因的一种常见方法是在数百个样本的重叠增益或损失之间精确定位“共同重叠区域”4,21,22在单个样本中绘制染色体断点的精确度提高,将为聚集重叠区域确定更精确的坐标。更重要的是,测序的改进将能够检测到极小的基因内事件,尤其是纯合缺失。例如,我们确定了四个大小从44 kb到582 kb的基因内纯合缺失,影响了一个到15个编码外显子。因此,断点映射的更高精度可能有助于识别先前被其他基因组表征技术遗漏的肿瘤抑制基因的复发性改变。

大规模并行测序技术提供了与基于微阵列的杂交方法相关的其他三个关键优势。首先,只需增加测序深度即可检测到较小的拷贝数变化。其次,可以通过进行更深层次的测序来补偿肿瘤样本中的基质混合。第三,成对序列读取提供了结构重排的信息,而基于阵列的方法无法轻易检测到这些信息14。我们方法的未来改进将评估从配对读取中检测结构重排的统计意义。

随着测序和微阵列技术的不断改进,不断对其性能进行基准测试将非常重要。我们预计每个大规模并行测序平台可能会受到特定偏差的影响23,24(补充图。2在线)。我们认为,三种癌细胞株和此处报告的序列数据可能为此类评估提供有用的基础。

方法

样品制备、排序和校准

对于每个细胞系,我们准备了3微克基因组DNA,用于在Illumina 1G基因组分析仪上进行测序25(补充方法).

肿瘤正常拷贝数比的统计分析

我们描述了一个统计框架,用于观察从肿瘤和与基因组窗口对齐的匹配正常样本中获得的特定数量的读取(补充方法,补充图。113在线)。

识别拷贝数变化的分割算法

我们基于变化点检测来识别拷贝数的变化,然后对相邻片段进行聚合合并。该算法的输入是从肿瘤样本和正常样本中读取对齐序列的位置列表,而输出包括断点列表和每个推断染色体片段的拷贝数估计(补充方法).

单核苷酸多态性阵列拷贝数改变的比较

我们使用GenePattern管道计算了Affymetrix全基因组人类SNP阵列6.0的拷贝数26根据前面描述的方法27。我们优化了循环二进制分割算法的参数28从复制阵列的中位数推断拷贝数恒定的染色体片段(补充图14在线和补充方法). 我们从每种方法预测的断点列表中确定了一致的染色体片段,并评估了预测拷贝数之间的一致性(补充图8补充方法).

数据和软件可用性

国家生物技术信息中心(NCBI)简短阅读档案:SRP000246(序列阅读);NCBI基因表达总览:GSE13372标准(Affymetrix SNP 6.0阵列数据)。实现分割算法的MATLAB代码可以从以下位置获得:http://www.broad.mit.edu/cancer/pub/solexa_copy_numbers.

补充材料

供应商数据

单击此处查看。(120万,pdf)

鸣谢

我们感谢C.Mermel、M.Berger和E.Hom对手稿的评论。这项工作得到了美国国立卫生研究院的支持(将5U24CA126546授予M.M.,将5U54HG003-67授予E.S.L.)。

参考文献

1Freeman JL等。拷贝数变异:基因组多样性的新见解。基因组研究。2006;16:949–961.[公共医学][谷歌学者]
2McCarroll SA,Altshuler DM。人类疾病的拷贝数变异和关联研究。自然遗传学。2007;39:S37–S42。[公共医学][谷歌学者]
三。Beckmann JS,Estivill X,Antonarakis SE。拷贝数变异和遗传性状:更接近于表型到基因型变异的分辨率。Nat.Rev.基因。2007;8:639–646.[公共医学][谷歌学者]
4Beroukhim R等人。评估染色体畸变在癌症中的意义:方法学和在胶质瘤中的应用。程序。国家。阿卡德。科学。美国。2007;104:20007–20012. [PMC免费文章][公共医学][谷歌学者]
5Pinkel D,Albertson总经理。阵列比较基因组杂交及其在癌症中的应用。自然遗传学。2005;37:S11–S17。[公共医学][谷歌学者]
6Kallioniemi A.CGH微阵列与癌症。货币。操作。生物技术。2008;19:36–40.[公共医学][谷歌学者]
7Bailey JA等人。人类基因组中的最新片段复制。科学。2002;297:1003–1007.[公共医学][谷歌学者]
8Korbel JO等人。配对基因图谱揭示了人类基因组中广泛的结构变异。科学。2007;318:420–426. [PMC免费文章][公共医学][谷歌学者]
9Kidd JM等人。八个人类基因组结构变异的绘图和测序。自然。2008;453:56–64. [PMC免费文章][公共医学][谷歌学者]
10王天良,等。数字核型分析。程序。国家。阿卡德。科学。美国。2002;99:16156–16161. [PMC免费文章][公共医学][谷歌学者]
11Shih I等。卵巢癌中染色质重塑基因Rsf-1/HBXAP的扩增。程序。国家。阿卡德。科学。美国。2005;102:14004–14009. [PMC免费文章][公共医学][谷歌学者]
12Leary RJ、Cummins J、Wang TL、Velculescu VE。数字核型分析。《国家协议》。2007;2:1973–1986.[公共医学][谷歌学者]
13Morozova O,Marra MA。从细胞遗传学到下一代测序技术:肿瘤基因组重排检测的进展。生物化学。细胞生物学。2008;86:81–91.[公共医学][谷歌学者]
14Campbell PJ等人。使用全基因组大规模平行配对测序鉴定癌症中的体获得性重排。自然遗传学。2008;40:722–729. [PMC免费文章][公共医学][谷歌学者]
15Lai WR,Johnson MD,Kucherlapati R,Park PJ。阵列CGH数据中识别放大和删除的算法的比较分析。生物信息学。2005;21:3763–3770. [PMC免费文章][公共医学][谷歌学者]
16Bignell GR等人。人类癌症扩增子中序列级分辨率的体细胞基因组重排结构。基因组研究。2007;17:1296–1303. [PMC免费文章][公共医学][谷歌学者]
17Yamaguchi N等。NOTCH3信号通路在ErbB2阴性人类乳腺癌细胞的增殖中起着关键作用。癌症研究。2008;68:1881–1888.[公共医学][谷歌学者]
18Hekstra D、Taussig AR、Magnasco M、Naef F.寡核苷酸阵列序列特异性校准的绝对mRNA浓度。核酸研究。2003;31:1962年至1968年。 [PMC免费文章][公共医学][谷歌学者]
19Zhao X,等。单核苷酸多态性阵列分析揭示的人类肺癌中的纯合子缺失和染色体扩增。癌症研究。2005;65:5561–5570。[公共医学][谷歌学者]
20Nagayama K等人。以100-kb分辨率对肺癌基因组进行纯合子缺失扫描。基因染色体癌。2007;46:1000–10.[公共医学][谷歌学者]
21Guttman M等人,使用高分辨率基因组微阵列评估保守基因组畸变的意义。公共科学图书馆-遗传学。2007;:e143。 [PMC免费文章][公共医学][谷歌学者]
22Wiedemeyer R等。INK4抑癌基因之间的反馈电路限制人类胶质母细胞瘤的发展。癌细胞。2008;13:355–364. [PMC免费文章][公共医学][谷歌学者]
23Brockman W等人。顺序-旁路合成系统中的质量分数和SNP检测。基因组研究。2008;18:763–770. [PMC免费文章][公共医学][谷歌学者]
24Dohm JC、Lottaz C、Borodina T、Himmelbauer H。高通量DNA测序的超短读数据集中的重大偏差。核酸研究。2008;36:e105。 [PMC免费文章][公共医学][谷歌学者]
25Mikkelsen TS等人。多能干细胞和谱系提交细胞中染色质状态的全基因组图。自然。2007;448:553–560. [PMC免费文章][公共医学][谷歌学者]
26Reich M等人,《基因模式2.0》。自然遗传学。2006;38:500–501.[公共医学][谷歌学者]
27癌症基因组图谱研究网络综合基因组特征定义了人类胶质母细胞瘤基因和核心通路。自然。2008;455:1061–1068. [PMC免费文章][公共医学][谷歌学者]
28Venkatraman ES,Olshen AB。用于分析阵列CGH数据的快速循环二进制分割算法。生物信息学。2007;23:657–663.[公共医学][谷歌学者]