跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
基因组研究。2003年10月;13(10): 2291–2305.
数字对象标识:10.1101/克.1349003
预防性维修识别码:项目经理403708
PMID:12975311

代表性寡核苷酸微阵列分析:检测基因组拷贝数变异的高分辨率方法

摘要

我们开发了一种称为ROMA(代表性寡核苷酸微阵列分析)的方法,用于检测癌症和正常人的基因组畸变。通过排列根据人类基因组序列设计的寡核苷酸探针,并与来自癌症和正常细胞的“代表”杂交,我们检测到“拷贝数”发生改变的基因组区域。我们在整个基因组中实现了平均30kb的分辨率,每15kb一个探针的分辨率是可行的。我们说明了阵列上探头的特性以及使用ROMA获得的测量精度。利用这种方法,我们确定了癌症和正常基因组之间以及正常人类基因组之间的差异。在癌症基因组中,我们很容易检测到扩增以及大小纯合子和半合子缺失。在正常人类基因组中,我们经常检测到大的(100 kb到1 Mb)缺失或重复。其中许多变化都包含已知基因。ROMA将有助于发现癌症中重要的基因和标记,以及发现可能在遗传疾病易感性中重要的位点。

癌症是一种疾病,至少部分是由致癌基因和抑癌基因的体细胞和遗传突变引起的。我们可能只知道在主要癌症类型中通常发生突变的少数关键基因。这些基因的鉴定可以为化疗找到合理的靶点。此外,在许多情况下,了解哪些基因发生了突变,可以预测肿瘤的病程,包括它们的治疗脆弱性(如果有的话)。随着癌症或疑似癌症在早期和早期被检测到,这一知识可能变得越来越重要。

发现癌症基因的方法可以追溯到20世纪80年代初,但通用方法只是最近才开发出来的。这一问题正在通过各种不断发展的技术加以解决,其中一些技术能够分别检测通常伴随抑癌基因或癌基因突变的基因丢失和扩增。我们在这里描述了我们在ROMA(代表性寡核苷酸微阵列分析)方面的成功,这是一种从早期方法RDA(代表性差异分析;Lisitsyn等人,1993年). 与RDA一样,ROMA检测癌症基因组中的差异。ROMA还可用于识别由基因缺失或重复引起的个体遗传变异,其中一些可能与遗传病有关。

我们开发了RDA作为解决癌症问题的一种通用方法。RDA通过减法杂交比较两个基因组。为了应用RDA,必须首先降低两个基因组的复杂性,以便杂交能够接近完成。为了实现这一点,我们使用了低复杂度表示,这是一种基于PCR的方法(Lisitsyn等人,1993年;Lucito等人,1998年). 为了比较基因组,它们与限制性内切酶平行切割,连接到寡核苷酸适配器,并通过PCR扩增。经过多次PCR循环后,优先选择较短的限制性内切酶片段,从而降低核苷酸复杂性,这是表征的基本特征。

RDA已经成功地用于检测肿瘤中的缺失和扩增,并且它的使用导致了几个候选肿瘤抑制基因和癌基因的发现(Li等人,1997年;Hamaguchi等人,2002年;Mu等人,2003年). 然而,RDA不适合对数百到数千个癌症样本进行高通量基因组分析,然后可以并行分析。如果要确定癌症的大多数复杂遗传原因,则可能需要进行如此大规模的平行分析。

微阵列分析是一种高通量的方法,广泛用于分析癌症中的基因表达(DeRisi等人,1996年;Golub等人,1999年;Van t Veer等人,2002年),包括我们在内的三个小组已经采用微阵列来检测肿瘤中的基因组缺失和扩增。Pinkel等人(1998)使用BAC DNA阵列作为杂交探针;Pollack等人(1999)使用cDNA片段作为探针;在我们的第一个实现中,我们使用来自表征的片段微阵列作为探针来分析基因组表征(Lucito等人,2000年). 这三种方法都使用了比较的“双色”方案,即同时阵列杂交在一个荧光波长检测“正常”基因组,在另一个波长检测病理基因组。

我们之前证明,与其他微阵列杂交方法相比,通过表示降低样本的复杂性可以提高信噪比性能,并减少分析所需的样本量(Lucito等人,2000年). 然而,基因组阵列杂交数据的有用解释需要绘制阵列探针,当我们使用片段作为探针时,这是一项艰巨的任务。此外,在我们之前的实现中,我们使用了随机片段库,因此我们无法随意创建聚焦于基因组特定区域的阵列。

采用寡核苷酸探针芯片解决了这些问题。表达是基于短限制性内切酶片段的扩增,因此可以从基因组的核苷酸序列中预测。因此,随着人类基因组初稿的公布(Lander等人,2001年),我们现在可以设计寡核苷酸探针,将其与表示杂交,并通过计算对其进行映射。我们开发了算法,用于从每个预测的短片段中选择一个与基因组其余部分重叠程度最小的70-mer(“长”)寡核苷酸探针。通过对公布的人类序列进行计算,我们可以设计基因组内几乎任何分布的探针。

基于寡核苷酸的微阵列还有许多其他优点。根据我们早期使用片段阵列实施该方法的经验,打印的寡核苷酸阵列(“打印格式”)的质量和再现性都很好。尽管购买大量寡核苷酸需要大量的初始资本支出,但在摊销成本时,打印阵列的单位成本非常低廉,并且不需要费力且昂贵的基础集合复制。此外,“长”寡核苷酸探针可以直接在阵列表面(光刻阵列)上合成,我们在此证明了这两种格式的等效性。在照片打印格式中,根本没有底层物理集合(Singh-Gasson等人,1999年). 在任何一种情况下,无论是印刷还是影印,阵列的组成都可以绝对指定,因此其他人可以完全复制。

我们显示了两种数组格式的结果。打印阵列是一种容易实现的格式。可以更改阵列上表示的区域以适合用户。可以以所需的分辨率打印全基因组阵列。如果愿意的话,可以设计和打印较小的ROMA阵列,以专注于基因组的特定区域,其优点是较小的寡核苷酸组所需的资本支出较少。第二种格式的结果,即照片阵列,展示了高分辨率拷贝数分析的威力。

在本文中,我们展示了我们的系统,说明了结果和分析技术,提出了癌症基因组的高分辨率分析,并为人类广泛存在的拷贝数多态性提供了初步证据。我们讨论了我们的方法的应用,将我们的方法与全球基因组分析的其他方法进行了比较,并概述了可能的未来发展。

结果

概述

本文描述了一个复杂的程序、观察结果和高度交互的分析方法。因此,我们在这里概述了我们的研究结果,以指导读者明智地阅读这部分手稿。第一节回顾了表示技术,特别是“耗尽”表示。接下来,我们描述了选择的探针的设计和选择,以将其很好地与表示杂交。我们介绍了我们使用的两种数组格式。第三节说明了如何使用杂交到耗尽表示来验证阵列设计的组成,第四节说明了使用这种杂交数据来表征探针和建模整体阵列性能。接下来,我们使用两种非常不同的阵列格式查看肿瘤和正常基因组的基本原始数据,并显示两种格式的数据具有高度可比性。在下一节中,我们将展示一种基于分段分析的基因拷贝数分析的新统计方法,并将该方法应用于两个癌症基因组。这些癌症的克隆性和基因组重排的高度动荡性显而易见。重新检查拷贝数分析与我们的数学模型之间的一致性。然后,我们在统计处理后,更仔细地观察我们的阵列检测到的几个遗传损伤。图中显示了几种不同类型的病变,包括大的扩增区域和极窄的纯合和半合缺失区域。演示了该方法可以做出的不同类型的推断。在最后一节中,我们发现两个个体之间拷贝数的“正常”变异惊人地丰富,并说明需要将这种变异的数据与癌症数据的解释进行协调。

陈述

表示以可再现的方式降低了样本的复杂性,从而在与阵列探针杂交的过程中增加了信噪比。表示还提供了一种放大样本量的方法,并允许以非常方便的方式验证和模拟阵列性能。

在我们目前的研究中,我们仅限于使用Bgl公司二、 具有典型6-bp识别位点的酶。Bgl公司II是满足这些有用标准的许多限制性内切酶之一:它是一种强健的酶;其裂解位点不受CpG甲基化的影响;它留下一个四基悬垂;它的切割位点在人类基因组中分布相当均匀。切割后Bgl公司二、 我们连接适配器,并将所得产物用作PCR反应的模板。因为PCR选择小片段,Bgl公司II表示由缩写组成Bgl公司II片段,通常小于1.2 kb,我们估计其中约有200000个片段,占人类基因组的约2.5%,平均间距为17 kb。

对于阵列特征,我们使用“耗尽”Bgl公司II陈述。这些是根据常规方案进行的表示,但在PCR之前(为了选择性扩增小分子Bgl公司II碎片),适配器Bgl公司II片段被第二个限制性内切酶切割。断裂破坏了某些碎片以指数级放大的能力。例如Bgl公司II代表-完成人生态RI将包括所有小型Bgl公司II基因组中不包含的片段生态RI站点。耗尽表示用于探针验证和建模性能,因为我们可以从表示中删除已知片段子集,并观察杂交到与耗尽片段互补的探针时的结果。

在本文描述的所有实验中,我们使用了平行制备的表征的比较杂交。如果使用相同的协议、试剂和热循环器,从相同浓度的模板同时制备两个比较样本的DNA,则我们的方法效果最佳。这减少了PCR扩增时可变产量产生的“噪音”。

微阵列格式探头的设计、选择和组成

我们使用两种截然不同的阵列探针合成格式描述了探针的设计(长度和组成)和选择。

我们的探针来源于Bgl公司II限制性内切酶片段,我们从人类基因组序列分析中预测存在。我们最初使用下一节中描述的方法评估了长度为30到70的探针。对于长度为70 nt的探针,信噪比最大,我们选择该长度作为标准。

我们选择了在人类基因组中尽可能独特的探针,并尝试最小化与所有无关序列的短同源性。我们设计了算法,通过这些算法,我们可以用基因组中精确匹配的频率来注释基因组的任何序列(Healy等人,2003年). 这些算法用于选择预测范围内的区域Bgl公司II组分18-mer或21-mer唯一的片段,然后在这些区域内,选择70-mer,其组分15-mer精确匹配的最小算术平均值。然后使用BLAST进行低同源性搜索,测试70个mers的子集在人类基因组中的唯一性。

我们使用了两种格式来构建微阵列。在第一种“打印”格式中,我们购买了近10000个由固相化学制成的寡核苷酸,并用羽毛笔在玻璃表面打印出来。在第二种形式“光敏阵列”中,NimbleGen Systems Inc.使用激光定向光化学在二氧化硅表面直接合成了寡核苷酸。光敏阵列是NimbleGen Systems Inc的礼物,按照我们的设计制作。每个阵列可以用激光定向光化学合成更多的探针,在这些实验中,我们的阵列包含85000个寡核苷酸探针。

85K装置的探头组成由设计和选择组合确定,如下所述。与标准磷酰胺固相化学合成的寡核苷酸探针不同,某些通过激光定向光化学合成的核苷酸产量很低。然而,与固相化学合成然后打印的探针不同,测试一组直接在芯片上合成的探针的成本不超过芯片本身的成本。因此,我们测试了约700000个独特的70-nt探针(见方法),预计对小型探针具有补充作用Bgl公司II块碎片,排列在八块碎片上。这些是与标准杂交的Bgl公司II和生态RI已完成Bgl公司II表示,当我们与单个正常人类DNA“J.Doe”杂交时,我们选择了信号最强的85000个。然后将这些85000个排列在单个芯片上。

在我们的10K和85K格式中,探针以随机顺序排列,以最大限度地降低阵列杂交过程中几何伪影被错误解释为基因组损伤的可能性。

具有耗尽表示的印刷阵列的验证

当且仅当满足以下条件时,我们应该能够观察到与耗尽表示杂交的阵列的一个非常清晰和可预测的模式:可用的人类基因组序列组装是准确的;我们的探针设计和选择方法是有效的;我们的杂交条件足够稳健,可以为探针群体提供良好的信噪比;在数据处理过程中,我们正确地对阵列上的探测地址进行了反褶积。我们对所有阵列设计进行了此类测试。此外,我们收集的数据可以进一步用于探针校准,并创建模拟,预测阵列杂交检测各种基因组损伤的能力,如下一节所述。

为了用一个10K数组来说明这个过程,我们在图1使用获得的结果Bgl公司II表示因d三。图1A,我们沿着Y(Y)-轴。(有关如何处理原始扫描数据的描述,请参阅方法。我们不执行背景减法,因为这只会增加噪声。)每个实验都是在颜色反转中进行的,并绘制了各个实验中比率的几何平均值。根据公布的人类序列,我们预测将在完整和耗尽表示中检测片段的探针在左侧分组。预计将有约8000个探针出现在耗尽和未耗尽表示中。我们预测不会在耗尽表示中检测到碎片的探针在右侧分组。预计约有1800个探头耗尽。

保存图片、插图等的外部文件。对象名为68194-12f1_C4OT.jpg

信息学的可预测性和使用10K微阵列的阵列测量的准确性。(A类)杂交样本的结果为Bgl公司II代表和Bgl公司II表示用一个dIII解理位点。这个Y(Y)-axis(Mean Ratio)是以对数标度绘制的耗尽表示与正常表示的两种杂交的平均测量比率。这个X(X)-axis(Index)是一个经过排序的索引,因此那些从没有内部dIII限制性裂解位点优先排序dIII最后进行站点排序。这允许分离这两个子集,以可视化解理结果。(B类)用于生成平均比率的重复实验的再现性A类. TheY(Y)-axis(Ratio Exp1)是实验1测得的比率X(X)-axis(Ratio Exp2)是实验2的测量比率。两个轴均以对数比例绘制。(C类)上的标准化比率图Y(Y)-轴是未耗尽样品强度的函数X(X)-轴。比率和强度均以对数标度绘制。(D类)模拟生成的数据。这个X(X)-轴(索引)是错误索引。探针以600个为一组,从左边正确的; 600个侧翼探针检测正常拷贝数。这个Y(Y)-axis(Mean Ratio)是通过两个杂交计算得出的平均比率。

根据中所示的实验图1A我们可以推断,该方法的承诺基本实现了:正确预测了代表性片段的限制轮廓,正确排列了探针,并且探针以可接受的信号强度检测了预测片段。

计算中显示的数据图1A每种杂交都是在颜色反转的情况下进行的,并绘制了不同实验中比率的几何平均值。图1B,将颜色反转实验的比率之间的一致性绘制为对数对数散点图,显示出与标记选择无关的数据的良好相关性。

阵列杂交建模

强度比的变化很明显图1A。一些探针无法显示预测的升高比率。对此有几种可能的解释。例如,寡核苷酸探针可能没有正确或完全合成,或者Bgl公司II片段可能不像预测的那样出现在表示中。后者可能发生,例如,如果公共基因组序列出错,或者如果其中一个基因多态性Bgl公司样本基因组中的II个位点导致Bgl公司II片段。

当测量值发生重大变化时,需要使用统计方法对数据进行最准确的解释。构建能够模拟测量的数学模型也很有用。此外,一个好的模型可以帮助预测检测极限,并有助于实验设计。在本节中,我们描述了一个适合数据的数学模型,在后面的部分中,我们将描述数据分析的统计方法。该数学模型对于单个探针的特征描述、数据的更清晰解释以及统计工具的锐化都很有用。

数据建模总是有多种方法,可以添加各种增强功能,但对于我们的阵列,我们发现一个简单的方程和采样技术可以创建一个具有强大预测能力的模型。该模型将在随后的手稿中详细描述,但它是基于-给定通道中的探针,[]:

方程式M1

在这个方程式中,c(c)[]是的浓度Bgl公司II片段补充-先探测再表征;A类[]是探头的组合“性能特征”及其补充Bgl公司II碎片。方程的参数是分布元素。α是乘法系统噪声;β是包含背景杂化的加性系统噪声;γ是在并行表示和标记过程中产生的乘法噪声。根据定义,α和γ的平均值均为1,对于二倍体基因组,c(c)[] = 1.

A类[]可以被视为-是信噪比的主要决定因素。原则上,A类[]应取决于至少两个因素:在表达过程中与探针互补的片段的比例扩增;以及探针的纯度。例如,与扩增不良片段互补的探针将具有较低的A类值。相反,与放大良好的碎片互补的探针应该“明亮”,并且具有高信噪比。类似地,低产率合成的探针强度低,信噪比低。其他因素可能会影响A类例如探针的二级结构及其基底成分。

在实际数据中,从强度最高的探针上观察到的比率最高(参见图1C). 根据该模型,这可以用大多数探针相当恒定的非特异性信号来解释。也就是说,β与探针无关。因此,“最亮”的探针也具有最高的特异性到非特异性信号。这一观察结果是我们选择照片格式85K探头的基础(见上文)。

该模型进行了额外的预测:首先,实际比率与测量比率线性相关,其次,探针测量的标准偏差是比率的强函数,是单位比率的最小值。使用中显示的实验得出的参数图1,我们在中说明了这些关系图1D。我们假设15组600个探针具有不同的拷贝号n个/4,带n个=0-14,由两端的600个二倍体拷贝数(4/4)探针包围,对照二倍体基因组测量(c(c)[]=1),测量一式两份。注意,一组探针的平均测量比率是“真”拷贝数、每个细胞的基因拷贝数和平均测量比率的线性函数,R(右)M(M),反映其真实比率,R(右)T型,按下式计算:

方程式M2

这是线性方程的一种一般形式,其中R(右)M(M)=1,当R(右)T型= 1.S公司N个是一个实验性质,我们认为它是“特定到非特定”的噪声。我们可以解决S公司N个来自任何一对非均匀R(右)M(M)R(右)T型值。我们使用下面的工具分析两个癌症基因组,如下所示。

10K和85K分辨率下的肿瘤基因组视图

将探针反褶积到基因组序列中后,阵列杂交数据可以很容易地查看,而无需任何模型。尤其是基因组损伤,无论是缺失还是扩增,都是显而易见的。我们在面板矩阵中显示图2三个基因组比较的阵列杂交数据。图2,A1-A3,显示了乳腺癌(非整倍体)与“正常”(二倍体)患者同一活检的数据(CHTN159)。图2B1-B3显示了一个乳腺癌细胞系(SK-BR-3),该细胞系来源于一名未知种族的患者,与一名欧洲和非洲混血的无关正常男性(“J.Doe”)相比。图2图中,C1-C3显示了一只正常雄性(非洲侏儒)与同一只J.Doe的对比。在每种情况下,将样品杂交两次,并进行颜色反转,绘制几何平均比率(对数标度)与探针基因组顺序的关系图。

保存图片、插图等的外部文件。对象名为68194-12f2_C4OT.jpg

的基因组图谱(A类)原发性乳腺癌样本(CHTN159),与来自同一患者的二倍体细胞核相比具有非整倍体细胞核;(B类)乳腺癌细胞系与正常男性对照;和(C类)使用10K打印阵列,将正常男性与正常男性参考进行比较(A1、B1、C1)和85K照片阵列(A2、B2、C2). 在每种情况下(行12),的Y(Y)-轴是平均比率X(X)-axis(Gen Index)是基于2002年6月组装的探针基因组顺序索引,即NCBI Build 30。将探针放入连接染色体1至Y的基因组序列中(A3、B3、C3)10K和85K微阵列中“兄弟”探针(详见正文)测得的比值的对应性。这个Y(Y)-axis是从10K微阵列测得的比率X(X)-axis是85K微阵列测得的比率。

样品来自图2A通过将手术活检的细胞核流式分类为非整倍体和二倍体部分,并从15000个细胞核(~100 ng DNA)中进行表征,得出了这些DNA。我们估计非整倍体部分可能有10%来自二倍体细胞核的污染,而二倍体部分预计不会完全正常。然而,数据结果具有很高的可解释性。

这些数据有两种格式:10K打印格式(图2A1、B1、C1)和85K照片格式(图2A2、B2、C2). 与10K格式不同,还选择了85K格式的探针以提高性能,如前几节所述并证明了这一点。此选择程序产生轻微偏差,因为85K集合中的探针不会检测到Bgl公司II片段在J.Doe中纯合子缺失。这种偏差的后果可以从10K打印格式与85K打印格式的比较中看出。在10K打印格式的结果中,在拷贝数为1(最明显的是在图2C1). 与此相反,使用85K格式时,更极端的单峰数低于而不是高于拷贝数1(图2C2).

图2,A1、A2、B1、B2、C1、C2,增加的拷贝数由大于1的比率表示,减少的拷贝数则由小于1的比率指示。即使在这个全局视图中,显示所有探针,也可以进行一些有趣的观察。癌症基因组有明显的图谱,大的扩增区域,一些相当高,以及大的缺失区域(图2A、B). 癌症基因组的特征是多种多样的。相反,法线-法线的轮廓看起来是平坦的,尽管可以看到一些特征。下文将对这些问题进行更深入的研究。

在所有三个基因组中,都有许多独立的探针检测到微小的损失和增益,我们将其归因于杂合子Bgl公司II多态性。这些在正常与正常比较中都很明显(图2C2)作为探针的“外壳”,整个基因组的比率接近0.5和2.0。

相反,在正常与肿瘤的比较中,只有一个独立探针检测主要增益,而检测主要损耗的独立探针或多或少局限于显示轻微损耗的广泛区域。这种模式符合等位基因多态性和杂合性丢失(LOH)的假设。对于杂合性为Bgl公司II片段,带有一个大片段和一个小片段,小等位基因的丢失将导致特定信号的虚拟丢失,因为大等位基因在表现中并不丰富。这将是一个明显的重大损失。另一方面,大等位基因的丢失,例如通过基因转换,至多会导致比率增加两倍,表现为微小的增加。

很明显,从10K打印和85K打印格式的结果来看图2,A1、A2、B1、B2、C1、C2这两个系统捕获了更大基因组特征的相似视图。可以定量地看到这两种格式之间的对应关系。如果探针具有互补性,我们称其为“兄弟”Bgl公司II碎片。兄弟不一定有重叠的序列,也可能在整个长度上是互补的。图2,A3、B3、C3,我们绘制了一种格式的兄弟比率与另一种格式兄弟比率的关系。共有7000多个兄弟探测器。对于所有三个实验,尽管不同格式的探针序列不同,排列顺序不同,杂交条件不同,阵列表面不同,但兄弟探针的比率无论格式如何,都有显著的一致性。

自动分割和全基因组分析

由于数据的范围及其统计性质,基于统计的自动特征识别工具非常有用。我们小组的一部分开发了一种称为循环二进制分割(CBS)的统计分割算法,该算法在考虑方差后,将探测比率数据解析为相似平均值的分段(Olshen等人,2002年)。该算法的工作原理是一次分析一条染色体,并在该染色体内递归地确定最佳分割。根据平均值差异可能偶然出现的概率,接受或拒绝每个提议的分割。该概率是使用随机化方法确定的。该算法是对二进制分割的一种新改进(Sen和Srivastava 1975年). 由于其非参数性质,该算法无法识别少于三个探针的畸变。下面我们讨论检测较小的病变。

图3图示了用于以85K分辨率分析癌细胞系SK-BR-3的一些输出。我们展示了四条染色体,高度动荡的第8号染色体,稍微不太活跃的第17号染色体,第5号染色体和X染色体。10K和85K集合的分段轮廓和分段平均值非常相似(数据未显示),但显然不相同。85K套装具有更多功能。在下一节中,我们将更仔细地检查一些数据。完整的数据以及其他两个基因组的数据可以在我们的网站上查看(http://roma.cshl.org/).

保存图片、插图等的外部文件。对象名为68194-12f3_C4OT.jpg

与正常参考相比,对肿瘤细胞系SK-BR-3进行分析,发现一些染色体具有不同的拷贝数波动。这个Y(Y)-axis(Mean Ratio)表示对数标度中两个杂交的平均比率。这个X(X)-轴(Gen Index)是如上所述的基因组坐标索引。(A类)5号染色体拷贝数波动(B类)对于8号染色体(C类)17号染色体,以及(D类)对于X染色体。

分割后,我们可以为每个探针分配它所属分段的平均比率,然后按排序顺序查看分配的平均比率。我们这样做是为了图4,A(CHTN159)和C(SK-BR-3)从图中可以明显看出,每个基因组内的片段平均比率是量化的,主要和次要的平台值相似。事实上,我们很可能可以通过计数来推断拷贝数。根据流式分析确定,肿瘤为亚三倍体,细胞系为四倍体。假设每个样本大致是单克隆的,那么肿瘤中的两个主要平台将是每个细胞两个和三个拷贝,而细胞系中的主要平台可能是每个细胞三个和四个拷贝。

保存图片、插图等的外部文件。对象名为68194-12f4_C4OT.jpg

通过SK-BR-3分析计算的平均分割与(A、 B类)正常参考和(C、 D类)CHTN159号。在所有面板中Y(Y)-轴是对数刻度中每个探头的平均段值。A类C类,的X(X)-轴(平均分段指数)为指定平均分段的升序值。B类D类,的X(X)-axis(Gen Index)是如上所述的基因组指数。在平均段数据顶部绘制的是一个拷贝数格,它是使用文本中的公式(水平线)从数组数据中推断出来的。每个水平线的计算副本数为正确的晶格的。

然后,我们可以使用主要高原的拷贝数假设来求解倍性和S公司N个每个实验。我们的方法是对每个高原使用方程式2的一个版本。我们选择R(右)M(M)平均测量比率,作为平台段探针的平均值。我们第一组R(右)T型C类N个/P(P),其中C类N个是“真实”的拷贝号。C类N个是每个细胞的基因拷贝数,假设在平台中已知且相等。P(P)是肿瘤基因组的倍性。结果是两个方程和两个未知数,其中未知数为P(P)S公司N个.用于肿瘤活检实验(图4A),我们计算倍性P(P)为2.60,以及S公司N个为1.13。用于细胞系实验(图4C),我们计算得出P(P)为3.93,并且S公司N个为1.21。然后,我们可以再次使用方程式2计算较高和较低拷贝数的平均比率。这些期望值标记在各自的图上,从零到拷贝数为12,水平线形成“拷贝数格”。探针的指定平均分段值以基因组顺序显示,嵌入预期拷贝数格(图4B,D).

拷贝数格非常适合数据的小平台,特别是对于较高拷贝数。然而,探针检测损失的预期比率似乎有误。检测损失的探针的指定平均段比率围绕略低于预测值的值聚集。换句话说,数组在删除方面的表现似乎比基于主要平台和我们当前模型的预测要好。如果我们重新检查我们的克隆性假设,这种偏差可能会得到解释,并将进行进一步的研究。

具体示例

印刷纸上显然有太多的数据需要描述,我们邀请读者访问我们的网页(http://roma.cshl.org/). 在本节中,我们讨论了几个从SK-BR-3的阵列数据中提取的示例,这些示例说明了我们系统的几个方面。

第一个例子是对X染色体断裂区域进行更仔细的检查,如图3D.SK-BR-3来源于一只雌性,已与一只无关的雄性进行了比较。预期X染色体上的探针比率会升高。染色体X的长臂大部分都是这样的。在Xq13.3的中间,在一个跨越27kb的区域,拷贝数有一个急剧的突变,而对于染色体的其余部分,比率接近1(图5A). 此示例演示了可以通过分段从阵列数据中绘制的边界。在我们的数据中,还有其他一些必须破坏基因的急剧拷贝数转换的例子。

保存图片、插图等的外部文件。对象名为68194-12f5_C4OT.jpg

在所有面板中Y(Y)-axis(Mean Ratio SK-BR-3)是SK-BR-2的两个杂交与对数标度中正常参考值的平均比值。这个X(X)-axis(Gen Index)是如前所述的基因组指数。(A类)X染色体上有缺失区域的区域。在测量的阵列比率上绘制的是计算的分段值。(B类)第8(c)号染色体的一个区域-myc公司位于正确的与正常参考值相比,SK-BR-3的结果。绘制在数据顶部的是SK-BR-3与正常参考相比的分割值(红色)和原发性肿瘤CHTN159的分割值(绿色)。(C类)5号染色体上的一个病变表明,与10K阵列相比,85K阵列具有分辨率。结果来自SK-BR-3,与正常参考值进行比较。红色斑点来自10K打印的微阵列,蓝色斑点来自85K打印的阵列。水平线是基于平均分段值建模的副本数估计值。(D类)将SK-BR-3与正常参考进行比较,显示19号染色体上的纯合缺失区域。平均值绘制为红线,水平线表示拷贝数估计值,如前所述。

SK-BR-3中有三到四个狭窄的扩增,每个扩增包含两个或更少的基因,其中包括跨膜受体。但广泛的放大也可以提供信息。第二个例子来自高度动荡的8号染色体(参见图3B). 尽管有大量的畸变,但我们可以清楚地分辨出不同的放大区域。其中一个区域如所示图5B最右边的峰约为1-Mb延伸,由37个探针组成(探针坐标45099-45138,2002年6月组装,或NCBI构建30个基因组坐标126815070-128207342)。然而它包含一个Ref-Seq基因,c-myc公司.

SK-BR-3中有第二个非常宽的峰值,上升到c的左侧-myc公司峰值,并且不在图表中。这个宽峰右侧有一个宽肩(探针坐标44994-45051,2002年6月组装,或NCBI构建30基因组坐标123976563-125564705),中间有一个非常窄的峰。我们可以将来自肿瘤基因组CHTN159的分割数据叠加在上面,该基因组CHTN 159具有更广的峰值,包括c-myc公司(探针坐标44996-45131,2002年6月组装,或NCBI构建30基因组坐标124073565-127828283)。CHTN159中的峰值还包括第二个SK-BR-3峰值的肩部(图5B). 因此,肩部可能含有值得注意的候选致癌基因。在这个区域内,在狭窄的山峰上,我们发现TRC8号机组与遗传性肾癌相关的易位靶点(Gemmill等人,1998年). 这个例子说明了协调来自多个基因组的数据的价值,以及分析多个数据集的自动化方法的需要。

接下来,我们将展示一个窄范围删除的示例,该示例强调了对高分辨率阵列的需求,并提出了其他问题。病变发生在5号染色体上。图5C,我们显示了10K(红色)和85K(蓝色)的组合视图。我们不显示分割,但显示拷贝数格。在10K和85K分辨率下都有明显的缺失(探针坐标26496-26540,2002年6月组装,或NCBI构建30基因组坐标14231414-15591226),我们判断为半合子缺失,但这可能代表四倍体基因组中存在一个拷贝。在85K时,边界清晰得多。此区域包含三人组,一种具有GEF、SH3和丝氨酸苏氨酸激酶结构域的蛋白质(Lin等人,2000年);安赫,一种跨膜蛋白(Nurnberg等人,2001年); FBXL系列泛素连接酶介导的蛋白质降解途径的组成部分(伊利因等人,2000年).

从数据中也可以清楚地看出,病变并不“整齐”。在缺失的中间是四个或五个探针,报告比率接近1。我们可以考虑对此结果的几种解释。首先,与这些探针的杂交可能因多种原因而失败。例如,探针可能没有完全合成,或者它们的互补Bgl公司II片段可能扩增不好。然而,这些探针的强度在所有探针强度的中间范围内,这降低了该假设的可能性。第二,人体装配可能出错,异常探测被错误地张贴在这个位置。第三,缺失事件可能确实很复杂,这是局部基因组不稳定的结果。

最后一个例子是纯合子缺失区域(图5D). 在此示例中,19号染色体上的锌指蛋白簇受到影响(探针坐标77142-77198,2002年6月组装,或NCBI构建30基因组坐标21893948-24955961)。这些具有锌指结构域的基因可能编码转录因子,其缺失可能在肿瘤发生中起作用。

有大量狭窄的半合子和纯合子病变。这些都可以在癌细胞系分析和癌症活检中看到。然而,如下文所述,我们在解释它们时必须谨慎。我们接下来的例子都是关于正态-正态变化的。

检查正常基因组变异

在本节中,我们展示了将癌症基因组分析与正常基因组变异知识库相协调的必要性。

当肿瘤DNA不能与正常DNA相匹配,并且使用不相关的正常DNA作为参考时,观察到的差异可能是多态性变异的结果。这种变化可以分为两种,一种是逐点序列变化,另一种是创建或破坏Bgl公司II片段,例如SNP,或人类基因库中存在的实际拷贝数波动。前者相对无害,因为它会产生分散的噪音,这些噪音可以通过统计方法进行过滤。

我们演示了一种非常温和的过滤算法的应用:如果一个比率是周围四个比率中偏差最大的一个,我们将其替换为其两个邻居的更接近的比率。图2C2,我们显示了正常与正常的比较。数据看起来很平淡,有很多分散的多态性。图6A(10K和85K组合),我们应用了过滤。数据看起来不再那么平淡,散乱的多态性云被消除了,揭示了偏离探针比率的非随机簇。这些簇反映了正常个体之间的大规模基因组差异,我们现在将对此进行更多讨论。

保存图片、插图等的外部文件。对象名为68194-12f6_C4OT.jpg

(A类)正常基因组图谱与正常基因组图谱的比较结果,与中显示的结果相同图2C2例外的是,单线探针已经按照文本中的描述进行了过滤。(B类)对4号染色体的一个小区域进行的系列实验比较。这个Y(Y)-轴是对数刻度中的平均比率。这个X(X)-axis是如前所述的基因组指数。蓝色(85K)和红色(10K)斑点来自SK-BR-3与正常值的比较。绿色是侏儒与正常参照物的比较。(C类)6号染色体正常人群中发现的病变。蓝点以平均比率绘制,用于分析俾格米人与正常参考物的关系。红线是侏儒与正常参考比较的平均值。绿线是SK-BR-3与正常参考值比较的平均值。蓝线是原发性肿瘤(CHTN159非整倍体到二倍体)比较的片段值。(D类)2号染色体的一个区域。蓝色圆圈中显示的数据来自SK-BR-3与正常参考值的比较。此比较的平均分段线以绿色显示。侏儒与正常参考值比较的平均分段线显示为红色,原发肿瘤CHTN159显示为蓝色。对于C类D类,水平线的计算副本数将被找到正确的面板的。

分散品种的多态性变化也可以通过实验的系列比较进行过滤。我们在中说明了这样一个过程图6B在这张图中,我们显示了SK-BR-3与正常捐赠者J.Doe的比较数据,85K的比率显示在蓝色圆圈中,10K的比率则显示在红色圆圈中。在同一张图上,我们以绿色三角形显示了J.Doo与另一个正常人非洲侏儒DNA的比率。这是一个相当典型的视角。我们在SK-BR-3正常杂交中看到了三个极端比率的探针,通过比较两个正常个体之间的杂交可以确定为多态性。最简单的解释是,J.Doe是+/+、pygmy+/-和SK-BR-3-/-,其中+表示Bgl公司II片段并指定缺失片段(很可能是Bgl公司II站点)。一般来说,三个基因组的成对比较允许解释等位基因状态。因此,我们建议,当恶性基因组无法与匹配的正常人配对时,或者甚至在可能的情况下,应将此类基因组与单个参考正常供体进行比较,后者的等位基因状态可以通过与其他正常人的广泛比较来确定。

然而,拷贝数的多态性提出了一种不同的问题。在这种情况下,一个区域内的许多探针将显示出与单位比的偏差,并且图案将显示为连贯的,而不是分散的。统计方法不会抑制此信号。但是,这种差异是否普遍存在,如果被忽视,它们是否可能成为误解的来源?也许令人惊讶的答案是肯定的。

图6A表明正态与正态比较存在明显的区域差异。事实上,在分割分析中揭示了两个正常个体之间显示改变拷贝数的许多区域。对两个此类区域的密切检查显示在图6、C和D,比率为连接的蓝色圆点,复制数字晶格值为橙色。图6C,异常区域位于6p21号染色体上135 kb(探针坐标32518-32524,2002年6月组装,或NCBI构建30个基因组坐标35669083-35804705),包含三个已知基因。图6D,该区域是来自染色体2p11的620-kb区域(探针坐标9927-9952,2002年6月组装,或NCBI构建30基因组坐标88787694-89385815),包含许多重链可变区域。

在任何正常-正常比较中,我们观察到十几个这样的区域。它们的长度从100kb到>1Mb不等,更常见于端粒和着丝粒附近,但明显可以出现在任何地方。它们通常包含已知的基因。我们目前正在更全面地调查这一现象,并将在随后进行报告。目前,我们展示了它们如何影响癌症正常数据的解释。

图6、C和D,我们已经将来自SK-BR-3的分析的分割值覆盖在绿色中。SK-BR-3的拷贝数晶格绘制为橙色线。图6C显示了SK-BR-3中的一个区域,与正常区域相比,该区域被称为删除。与正常情况相比,在SK-BR-3中,侧翼区域出现在我们判断为每个细胞两个拷贝的拷贝数处,并且在该区域内,拷贝数减少到一个。但在侏儒DNA与同一正常人的比较中,出现了相同的区域。图6D,我们在染色体2p11上观察到类似的情况。在这个面板中,我们还绘制了肿瘤的分割数据。该区域在那里也明显异常。因此,我们倾向于将这种“病变”视为患者正常细胞中预先存在的。

讨论

全球基因组分析方法的比较

我们描述了一种方法,即代表性寡核苷酸微阵列分析(ROMA),它有助于检测癌症和正常基因组中的扩增、缺失和断裂位点。原则上,检测这些事件可用于发现与癌症和其他遗传性疾病有关的基因,并作为此类疾病诊断和治疗的标记或指南。由于我们的方法对限制性内切酶位点的单核苷酸多态性也很敏感,因此原则上也可以用作检测SNP的高密度阵列。

还有其他方法可用于癌症的全球分析。最著名的是基因表达微阵列(Chee等人,1996年;DeRisi等人,1996年). 这种方法并没有发现癌症的原发性病变,而是发现突变的后遗症。基因表达微阵列基于从肿瘤中提取的RNA,而RNA是一种非常不稳定的分子,很难以可靠的方式提取。此外,表达阵列分析的结果将极度依赖于样本处理等难以控制的因素,以及其他复杂的生理变量,如正常基质和炎症细胞对肿瘤的浸润。我们的方法基于DNA,这是一种非常稳定的分子,即使是从处理不当的组织中也很容易提取出来。DNA是致病分子事件的储存库,正常浸润基质和炎症细胞的存在会稀释信号,但不会改变信号。我们不打算用我们的方法排除RNA分析,事实上,两者结合起来比单独使用更有价值。

还有其他基于DNA的方法可以测量癌症中拷贝数的变化。其中最古老的是荧光原位杂交(FISH),临床上用于评估错误B-2例如,乳腺癌基因座(Tkachuk等人1990;Bartlett和Mallon 2003). 在正在进行的工作中,我们已经表明,我们的方法基本上等同于评估错误B-2当然,我们的方法评估的是整个基因组,而不仅仅是一个在选择癌症治疗中可能很重要的基因座。FISH的主要优点是,它本质上是一种单细胞检测,因此可以在很少的细胞上进行,例如可能在针活检时进行。我们的方法可能需要~2000个细胞,并且是质量测量,而不是单细胞分析。然而,我们的方法指向可以转换为基于FISH的分析的位点,这是一个主要优势。

另一种基于DNA的方法是BAC阵列,这是一种比我们的方法更常见、更广泛的方法(Pinkel等人,1998年;Snijders等人,2003年). 目前BAC阵列的分辨率低得多,大约有3000个探头。在最多30000个成员阵列的情况下,进入基因组的探针仍然较少,而BAC的大小(150至200 kb)最终会掩盖高分辨率。例如,我们可以观察到非常小的缺失和扩增,即使是高密度BAC阵列也会完全错过。此外,由于我们的方法是基于表示的,因此我们的样本大小可以小于标准BAC阵列协议所需的样本大小。(然而,BAC阵列的用户可能会使用我们的代表性方法来减少他们对大样本大小的需求。)此外,BAC数组不能按照工业标准制造,我们的数组也不能。我们的阵列的组成是精确规定的,核苷酸代表核苷酸,一种高度重复性的标准产品可以广泛使用。同样,我们的每一个探针都可以很容易地进行性能校准,这是BAC探针无法做到的。最后,我们的阵列基于从人类序列集合(人类遗传学的通用语言)中衍生的寡核苷酸,因此可以精确、自动地映射到所有已映射基因和遗传疾病的所有数据库中。BAC无法做到这一点,因为BAC在传播过程中可能不稳定,也可能是嵌合体。BAC阵列的一个优点是它们目前比较便宜,但这可能是一个短暂的优势。

cDNA阵列也被用于测量拷贝数突变(Pollack等人,1999年;Hyman等人,2002年)从而将整个基因组DNA杂交到cDNA表达阵列。这些目前是不敏感的。测量探针比率的移动平均用于降低系统噪声,这会导致分辨率降低。因此,这种方法对于检测较大的扩增和缺失是有用的。然而,由于单个片段或寡核苷酸探针的整体信噪比问题,检测缺失是有问题的。ROMA通过降低基因组的复杂性克服了这个问题,从而提高了每个探针的信噪比。

我们对癌症的了解完整吗?

科学已经确定了癌症中许多常见的突变基因,我们知道它们作用的许多细胞途径。一些人认为癌症的基本理论仅由几个基本原理组成,足以解释疾病的性质。然而,假装我们的理论是正确的,或者我们对具体事实的了解几乎是完整的,这是一场可怜的、不必要的赌博。癌症检测、预后和治疗的未来进展将取决于我们对其特定分子病因的理解的准确性和完整性。

有一些简单的测试可以测试我们对癌症如何在宿主体内存活并杀死宿主的理解和知识的完整性。如果我们对这些基因的了解是完整的,我们将看到在所有癌症中发现的常见突变基因的数量趋于稳定。如果我们对这些原理的理解是完整的,即使是具有大量累积遗传损伤的晚期癌症,也只会显示少数常见的受影响途径。由此可见,如果单个基因的突变足以影响特定的通路,即使是晚期癌症也只会显示少数常见的受影响基因,其余的病变都是高度散发的。

我们刚才描述的基于微阵列的方法可以部分解决这些问题。我们可以很容易地识别基因组中经历扩增、缺失和不平衡断裂的基因座。尽管还有许多其他可能的机制可以改变关键基因,如点突变、平衡易位和可能稳定的表观遗传变化,但最终会在我们可以容易检测到的病变类型中发现许多(如果不是大多数的话)致癌基因和抑癌基因。此外,如果在癌症中发现一个区域发生改变,则该区域包含一个良好的候选癌症基因。因此,将我们的方法应用于一系列癌症,并对这些数据进行综合比较分析,应该能够揭示癌症中候选癌症基因的存在和数量。

癌症基因组的来源

我们已经将我们的方法应用于两种类型的样本:肿瘤和癌细胞系。每种类型都有优点和问题。癌细胞系是“通用”试剂。它们是自我完善的,可以在调查人员之间传递。分析材料总是充足的,而且往往是单克隆的。它们适用于进一步的功能分析,无论是通过基因表达谱分析、基因操作来恢复或阻断可疑的抑癌基因或癌基因,还是通过致瘤性研究。对于分散的多态性变异,几乎总是没有匹配的正常值可供控制,但正如我们上文所述,只要可以表征出不匹配的正常,这并不是一个严重的限制。细胞系的显著缺点是它们可以在基因上漂移,并且由于它们在组织培养中的存活而经过了筛选。这种细胞系的储备有限,临床表现和拷贝数之间没有相关性。

直接分析肿瘤材料提供了许多机会。不同样本的来源几乎是无限的,它们通常可以与同一个正常值相匹配,这在一定程度上减轻了解释的分析负担。原则上,可以确定是否存在与特定基因扩增、缺失和断裂或基因组不稳定总体模式相关的临床参数,如生存率和药物反应性。这些相关性可能在患者治疗中有用。肿瘤材料的缺点也很明显。肿瘤总是被基质污染,可以是寡克隆的,保存较差,并且数量有限。幸运的是,我们的方法似乎非常敏感,不需要大量的起始材料。我们通常从50 ng样品开始,相当于约10000个原子核,该方法可用于2000个或更少的原子核。流动分选或显微切割都可以提高肿瘤纯度,但即使是只有50%肿瘤的材料也可以观察到扩增和许多缺失(重建实验;数据未显示)。

技术评论

我们的方法基于三大支柱:通过表示降低复杂性、人类基因组组装和寡核苷酸微阵列。

由于人类基因组测序项目的成功以及表征的可重复性,我们能够设计出与给定表征互补的寡核苷酸探针,例如Bgl公司II我们在这里使用的表示。因为人类基因组序列是非常可靠的,至少在局部是如此,我们能够通过利用片段中已知的限制性内切酶位点来实验验证我们的计算推导设计(参见图1). 原则上,我们可以校准每个探针的性能。对这些~1800个预测探针的检测验证了该方法检测和识别拷贝数波动的能力。约有10%的探针在针印格式中表现不佳。通过校准探针,可以在进一步分析过程中考虑性能。由于寡核苷酸的经验选择,打印格式的性能有所提高。

预计8000个探针会与未被切割的碎片杂交dIII(参见图1),~16似乎与Bgl公司事实上已被切割的II片段。我们估计这16个检测到纯合子和杂合子dIII位点,比例相等。我们将这归因于我们的样本和已公布的人类序列之间大约每300个核苷酸中就有一个核苷酸的差异,这可能是多态性或测序错误造成的。如果这个数字主要是由多态性引起的,那么大约有1/30Bgl公司II片段也具有多态性。根据其他实验,我们估计Bgl公司无关个体之间的II多态性更接近于1/60,与公布的1/600人类序列相背离。因为公共人类序列被合理地组装好了,我们自动为每个探针提供了与基因组组装一样精确的相关地图位置。我们用于设计这些探针的算法在这里有部分描述,在Healy等人中也有部分描述(2003). 我们的方法使我们能够设计出对基因组剩余部分具有最小交叉反应的探针。一旦一个可靠的完整和组装的基因组序列公开可用,任何物种(例如小鼠)的微阵列都可以在短时间内构建。

寡核苷酸微阵列格式有许多优点。微阵列的组成是精确制定的,因此其他人完全可以复制。这里介绍的工作证明了打印和光定向微阵列格式实现的测量等效性。使用印刷阵列,我们可以实现每张幻灯片30000个探针的密度,并且使用原位光定向合成,我们已经实现了190000个密度,尽管这里只显示了85K个数据。后一种技术与印刷阵列相比有许多优点。除了实现更高的密度外,探头的布局和探头的选择也很灵活。尽管印刷阵列的单位成本目前低于光定向微阵列的成本,但后者不需要大量的初始资本支出来购买寡核苷酸。

我们的方法依赖于表示。如果没有复杂性降低,即增加探针互补DNA的浓度,来自特定杂交的信号强度就太弱,无法测量背景以上的信号强度。对表述的依赖是喜忧参半。表示法使用PCR来扩增样本和降低复杂性。因此,只需要很少的样本。然而,PCR确实会引入噪音,这需要将测试样品与精确平行制备的对照样品进行比较。我们发现,如果检测和对照的起始DNA具有可比的数量和质量,那么从PCR到标记的后续平行样品制备通常足以提供本报告所示类型的数据。

基因组中有有限数量的无重复的70-mer-long寡核苷酸探针可用于测量Bgl公司II陈述。我们估计大约有120000个这样的探针以泊松分布散布在基因组中,探针的分布并不反映基因的分布。目前,我们仅排列了约85000个探针。尽管这85000个探针之间的平均距离为~30 kb,但基因组中有些区域的代表性很差。因此,我们正在设计其他类型的表示和其他形式的探针,这将使我们对基因组的覆盖范围更大。原则上,任何所需的覆盖密度都是可能的。

数据解释

所有基于阵列的数据都需要使用各种复杂度的统计工具进行解释。我们的系统也不例外,但我们的系统相对来说是独一无二的。首先,与cDNA表达谱不同,对拷贝数测量有明确的理论预期。当将测试样本与正常基因组进行比较时,除了多态性外,对正常基因组的行为有着明确的预期。此外,如果测试样本是克隆的,我们期望探针比率是聚集的,反映每个细胞的离散整数拷贝数。其次,由于片段的限制性内切酶谱是已知的,几乎所有探针都可以校准,阵列性能可以非常准确地建模。第三,由于探针在基因组中是有序的,并且损伤预计是区域性的,有明确的开始和停止,因此预期这些区域内的连续探针比率将共享一个分布。因此,我们开发了“分割”算法,旨在将数据解析为具有类似分布的区域。

我们目前的分割算法需要至少三个探针来定义病变,但显然这是保守的。例如,当我们的肿瘤样本与匹配的正常人进行比较时,多态性得到了控制,甚至肿瘤中拷贝数增加的单个探针也可能有意义。应该采用其他方法进行数据分析,我们正在尝试将多态性数据、探针校准数据和探针强度数据整合到一个更全面的模型中。我们目前的方法尚未完成,但它们显然已经很有用了。我们预计区域边界可以非常清晰地绘制,通常在单个探针内,这在建模实验中得到了证实(数据未显示)。

我们将在随后的出版物中报告我们在统计方法方面的进展。然而,最终,对单个实验的统计解释是不确定的,只有积累更大的数据集和分子验证才能提高结论的可信度。

正常多态性变化

分散的多态性在正常个体的比较中很明显,甚至在“耗竭”实验中单个个体的比较(参见图1). 其中大多数可能来自人类中的单核苷酸多态性。例如,丢失Bgl公司II位点可能导致片段在Bgl公司II代表。此类事件可能以多种方式干扰数据解释。除了匹配的正常肿瘤中拷贝数增加的情况外,来自单探针异常值的比率不能被视为躯体病变,因为它可能代表遗传多态性,有或没有杂合性丢失。类似地,如果边界探针是多态片段的补充,则可能无法准确地调用片段的边界。最后,一系列偶然与多态性片段互补的探针可能会导致一致性病变的出现。幸运的是,这些多态性的频率很低,不到30个片段中的一个,因此大多数边界并不模糊,很少出现出现病变的多态性。多态性引起的许多信息“损害”可以通过过滤掉分散的异常值或通过积累用于比较的正常基因组数据来控制。

还有另一种类型的“多态性”,我们现在称之为“拷贝数”多态性。与分散的多态性相比,这种类型更有趣,也更有害,在图6在一个正常样本与另一个样本的比较中,一系列区域聚集探针可能显示出持续变化的比率。在我们做的每一个正常与正常的比较中,我们都能看到这些区域,其中许多病变出现在癌症与正常的对比中。事实上,其中一些区域可能容易发生基因组不稳定(参见图6D). 它们的大小从<100 kb到超过1 Mb不等,在大多数情况下包含基因。建立一个大型的正常与正常对照数据库可能会减少对这些病变作为癌症中发生的躯体事件的误解,这是我们打算做的事情。

我们目前的假设是,这些正常-正常变异实际上是拷贝数多态性,起源于遗传,但这在这里并没有被证明,也不是唯一可信的假设。例如,这些变异区域可能是由局部高序列差异引起的,或者是染色质结构高度改变的结果,从而影响了细胞核纯化过程中DNA的产量。需要额外的实验来解决这些问题,正在进行的工作有力地表明,这些正常变异中的大多数实际上是基因库的改变。事实上,如果人类中存在广泛的拷贝数变异,这种变异很可能有助于人类的特征,包括疾病易感性和耐药性。

方法

试剂

寡核苷酸由Illumina Inc.合成。人类Cot-1 DNA(15279-011)和酵母tRNA(15401-029)由Invitrogen Inc.提供。限制性内切酶、连接酶和Klenow片段(M0212M)由新英格兰生物实验室提供。Megaprime标记试剂盒、Cy3-共轭dCTP和Cy5-共轭dCTP由Amersham-Pharmacia提供。Taq聚合酶由Eppendorf提供。Centricon YM-30过滤器由Amicon提供(42410),甲酰胺由Amresco提供(0606-500)。苯酚:氯仿由Sigma提供(P2069)。NimbleGen照片阵列是NimbleGen Systems Inc.赠送的礼物。

代表

Bgl公司一般来说,第二类陈述是按照之前的描述准备的(Lucito等人,2003b)。一个重大变化是,在MJ Research Tetrad中进行了扩增。16个250μL试管用于放大表征。循环条件为95°C持续1分钟,72°C持续3分钟,持续25个循环,然后在72°C下延长10分钟。试管中的内容物在完成时被合并。用苯酚清洗代表物:氯仿萃取、沉淀、再悬浮和测定浓度。以相同的方式制备限制性内切酶去除特定片段的表达物,并进行以下修饰。连接适配器后,用苯酚:氯仿萃取清洗混合物,沉淀并重新悬浮。然后用第二种选择的酶消化连接的片段。在文本中,使用dIII。然后将该材料用作PCR反应的模板。

探头选择

我们在硅片上表演了Bgl公司II通过定位所有基因来消化人类基因组Bgl公司II当前草案组件内的限制位置和存储所有序列Bgl公司长度在200到1200 bp之间的II片段。使用由同一草图组装而成的“mer-engine”,用取代基、重叠的15-mers和21-mers的数量对片段进行注释(参见随附的手稿Healy等人,2003年). 对于每个片段,确定每个重叠70-mer的取代基的以下属性:最大21-mer计数、15-mer计数的算术平均值、GC含量百分比、每个碱基的数量以及任何单个碱基的最长序列。所有具有以下特征的70-mer探针均被剔除:最大21-mer计数>1,GC含量<30%或>70%,a/Ts>6个碱基,G/Cs>4个碱基。从剩下的70-mer组中,选择GC/AT比例最接近基因组整体比例以及最小平均15-mer数的一个(或多个)。作为总体唯一性的最终检查,使用BLAST将每个片段的最佳探针与整个基因组进行比较(使用默认参数,但未执行低复杂度序列的过滤除外)。任何被发现在其长度的50%或以上与其他序列有任何程度的同源性的探针都被剔除。

打印的阵列

我们使用笛卡尔PixSys 5500(Genetic Microsystems)将我们的探针集合排列到幻灯片上。我们目前使用的是4×4引脚配置。每个印刷阵列的尺寸约为2厘米2将我们的阵列印刷在商业制备的硅烷化载玻片(Corning ultraGAPS#40015)上。阵列使用的引脚来自Majer Precision。

标记

DNA标记如所述(Lucito等人2003a)。简单地说,将DNA模板(溶解在pH值为8的TE中)置于0.2 mL PCR管中。从Amersham-Pharmacia Megaprime标签试剂盒中添加10μL底漆,并上下吸管数次。用dH使体积达到100μL2O、 并进行混合。将试管在100°C的四联体中放置5分钟,然后在冰上放置5分钟并添加来自Amersham-Pharmacia Megaprime标记试剂盒的20μL标记缓冲液、10μL标签(Cy3-CTP或Cy5-dCTP)和1μL NEB-Klenow片段。将试管置于四分体中,并在37°C下培养2小时。将标记的样品(Cy3和Cy5)合并到一个Eppendorf试管中,并添加50μL的1μg/μL人类Cot 1 DNA、10μL的10 mg/mL储备酵母tRNA和80μL的低TE(3 mM Tris,pH 7.4,0.2 mM EDTA)。将所有材料装入Centricon过滤器,在12600 rcf的条件下离心10分钟。丢弃流出物,并用450μL低TE冲洗。以12600 rcf离心,重复两次。通过将离心柱倒置到新管中并在12600 rcf下离心2个单位来收集标记样品。将标记的样品转移到200μL PCR管中,并将体积调节为10μL低TE。

幻灯片准备

按照Lucito等人(2003a)的要求制备了幻灯片,并进行了以下更改。打印微阵列的预杂交缓冲液由以下成分组成:25%去离子甲酰胺、5×SSC和0.1%十二烷基硫酸钠。倒入铜罐或其他滑片处理室,预热至61°C。紫外线交联DNA至载玻片(使用Strategene Statalinker,将能量设置为300 mJ,将载玻片旋转180°,使载玻片保持在交联剂中的同一位置,然后重复)。NimbleGen光刻阵列不需要紫外线交联。在以下溶液中清洗载玻片:在0.1%十二烷基硫酸钠中2分钟,在毫升H中2分钟2O、 5分钟,单位:毫Q H2O即煮沸,最后在冰凉的95%无苯乙醇中。将玻片放在金属架中干燥,并在75 rcf下旋转5分钟。将打印好的微阵列玻片在61°C预混合溶液中培养。2小时后,冲洗载玻片(单位:毫Ωh)2O运行10秒。将滑梯放在金属滑梯架上晾干,并以75 rcf的速度旋转5分钟。NimbleGen光刻阵列不需要预混合。

杂交

印刷载玻片的杂交溶液由25%甲酰胺、5×SSC和0.1%十二烷基硫酸钠组成。NimbleGen光刻阵列的杂交溶液由50%甲酰胺、5×SSC和0.1%十二烷基硫酸钠组成。对于每个样品,将25μL杂交溶液添加到10μL标记样品中并混合。样品在95°C下在MJ Research Tetrad中变性5分钟,然后在37°C下培养30分钟。样品旋转并用移液管移到用升降滑片制备的载玻片上,然后在杂交烤箱中培养14至16小时,例如设置为58°C的Boekel InSlide Out烤箱(用于印刷阵列)或42°C的NimbleGen印刷阵列)。杂交后,将载玻片清洗如下:在0.2%SDS/0.2×SSC中短暂清洗以去除盖片,在0.2%DSS/0.2×SSC中清洗1分钟,在0.2×SSC中清洗30秒,在0.05×SSC内清洗30秒。如前所述,将载玻片置于机架中,在75 rcf下旋转5分钟,然后立即扫描。使用Axon GenePix 4000B扫描仪将印刷阵列的像素大小设置为10μm,将NimbleGen光刻阵列的像素尺寸设置为5μm。使用GenePix Pro 4.0软件定量阵列的强度。将阵列数据导入S-PLUS进行进一步分析。使用未减去背景的测量强度来计算比率。使用基于强度的最低曲线拟合算法对数据进行归一化,该算法类似于Yang等人(2002). 对从颜色反转实验中获得的数据进行平均,并如图所示进行显示。

致谢

我们感谢NimbleGen Systems Inc.的Emile Nuwaysir和Todd Richmond提供幻灯片和支持,感谢Masaaki Hamaguchi对手稿的批判性评论。我们还感谢Joe Derisi和Michael Eisen对寡核苷酸印刷的技术评论。肿瘤样本由国家癌症研究所资助的合作人类组织网络提供。其他研究人员可能收到了来自这些组织的样本。这项工作得到了美国国立卫生研究院和NCI对M.W.的资助(5R01-CA78544;1R21-CA81674;5R33-CA811674-04);Tularik公司。;九分之一:长岛乳腺癌行动联盟;莉莲·戈德曼和乳腺癌研究基金会;奇迹基金会;马克斯家族基金会;巴比伦乳腺癌联盟;伊丽莎白·麦克法兰集团;和长岛居民抗击乳腺癌。国家卫生研究院和NCI向R.L.提供了支持(K01 CA93634-01)。M.W.是美国癌症协会研究教授。

这篇文章的出版费用部分由页面费支付。因此,本文必须根据《美国法典》第18卷第1734节的规定标记为“广告”,仅用于表明这一事实。

脚注

[照片阵列是NimbleGen Systems Inc.的一份礼物,是根据我们的设计制作的。]

文章和出版物位于http://www.genome.org/cgi/doi/10.1101/gr.1349003。文章于2003年9月在网上发表,然后印刷。

工具书类

  • Bartlett,J.和Mallon,E.C.T.2003。HER-2状态的临床评估:使用哪种测试?J.病理学 199:418-423. [公共医学][谷歌学者]
  • Chee,M.、Yang,R.、Hubbell,E.、Berno,A.、Huang,X.C.、Stern,D.、Winkler,J.、Lockhard,D.J.、Morris,M.S.和Fodor,S.P.,1996年。使用高密度DNA阵列访问遗传信息。科学类 274:610-614. [公共医学][谷歌学者]
  • DeRisi,J.、Penland,L.、Brown,P.O.、Bittner,M.L.、Meltzer,P.S.、Ray,M.、Chen,Y.、Su,Y.A.和Trent,J.M.,1996年。使用cDNA微阵列分析人类癌症中的基因表达模式。自然遗传学。 14:457-460. [公共医学][谷歌学者]
  • Gemmill,R.M.,West,J.D.,Boldog,F.,Tanaka,N.,Robinson,L.J.,Smith,D.I.,Li,F..,and Drabkin,H.A.1998年。遗传性肾细胞癌3例;8易位将FHIT融合到一个补丁相关基因TRC8。程序。国家。阿卡德。科学。 95:9572-9577.[PMC免费文章][公共医学][谷歌学者]
  • Golub,T.R.、Slonim,D.K.、Tamayo,P.、Huard,C.、Gaasenbeek,M.、Mesirov,J.P.、Coller,H.、Loh,M.L.、Downing,J.R.、Caligiuri,M.A.等人,1999年。癌症的分子分类:通过基因表达监测进行分类发现和分类预测。科学类 286:531-537. [公共医学][谷歌学者]
  • Hamaguchi,M.、Meth,J.L.、von Klitzing,C.、Wei,W.、Esposito,D.、Rodgers,L.、Walsh,T.、Welsh,P.、King,M.-C和Wigler,M.H.2002年。数据库2,乳腺癌相关抑癌基因的候选基因。程序。国家。阿卡德。科学。 99:13647-13652.[PMC免费文章][公共医学][谷歌学者]
  • Healy,J.、Thomas,E.E.、Schwartz,J.T.和Wigler,M.H.,2003年。用精确的单词匹配注释大型基因组。基因组研究。(本期)。[PMC免费文章][公共医学]
  • Hyman,E.,Kauraniemi,P.,Hautaniemi,S.,Wolf,M.,Mousses,S.、Rozenblum,E.、Ringner,M.、Sauter,G.、Monni,O.、Elkahloun,A.等人,2002年。DNA扩增对乳腺癌基因表达模式的影响。癌症研究。 62:6240-6245. [公共医学][谷歌学者]
  • 伊利因,G.P.,里兰德,M.,鸽子,C.和古根·吉隆佐,C.2000。哺乳动物F-box蛋白家族新成员的cDNA克隆和表达分析。基因组学 67:40-47之间。[公共医学][谷歌学者]
  • Lander,E.S.、Linton,L.M.、Birren,B.、Nusbaum,C.、Zody,M.C.、Baldwin,J.、Devon,K.、Dewar,K.,Doyle,M.、FitzHugh,W.等人,2001年。人类基因组的初步测序和分析。自然 409:860-921. [公共医学][谷歌学者]
  • Li,J.、Yen,C.、Liaw,D.、Podsypanina,K.、Bose,S.、Wang,S.I.、Puc,J.,Miliaresis,C.、Rodgers,L.、McCombie,R.等人,1997年。PTEN是一种假定的蛋白质酪氨酸磷酸酶基因,在人脑、乳腺和前列腺癌中发生突变。科学类 275:1943-1947. [公共医学][谷歌学者]
  • Lin,M.Z.和Greenberg,M.E.2000。轴突中的管弦动作:三重奏和轴突引导的控制。单元格 101:230-242. [公共医学][谷歌学者]
  • 1993年,Lisitsyn,N.,和Wigler,M。克隆两个复杂基因组之间的差异。科学类 258:946-951. [公共医学][谷歌学者]
  • Lucito,R.,Nakimura,M.,West,J.A.,Han,Y.,Chin,K.,Jensen,K.、McCombie,R.、Gray,J.W.和Wigler,M.1998年。利用基因组表征进行遗传分析。程序。国家。阿卡德。科学。 95:4487-4492.[PMC免费文章][公共医学][谷歌学者]
  • Lucito,R.、West,J.、Reiner,A.、Alexander,J.,Esposito,D.、Mishra,B.、Powers,S.、Norton,L.和Wigler,M.,2000年。通过与基因组表现的微阵列杂交检测癌症的遗传改变。基因组研究。 10:1726-1736.[PMC免费文章][公共医学][谷歌学者]
  • Lucito,R.和Wigler,M.2003a。载玻片的制备和杂交。基于微阵列的DNA拷贝数表征分析(编辑D.Bowtell和J.Sambrook),第394-399页。纽约州冷泉港,冷泉港出版社。
  • Lucito,R.和Wigler,M.2003b。靶DNA的制备。基于微阵列的DNA拷贝数表征分析(编辑D.Bowtell和J.Sambrook),第386-393页。纽约州冷泉港,冷泉港出版社。
  • Mu,D.、Chen,L.、Zhang,X.、See,L.-H.、Koch,C.M.、Yen,C.、Tong,J.J.、Spiegel,L.,Nguyen,K.C.Q.、Servoss,A.等,2003年。基因组扩增和致癌特性KCNK9型钾通道基因。癌细胞 :297-302. [公共医学][谷歌学者]
  • Nurnberg,P.、Thiele,H.、Chandler,D.、Hohne,W.、Cunningham,M.L.、Ritter,H.,Leschik,G.、Uhlmann,K.、Mischung,C.、Harroop,K.等人,2001年。ANKH是小鼠进行性强直基因的人类同源基因,其杂合突变会导致颅干骺端发育不良。自然遗传学。 28:37-41. [公共医学][谷歌学者]
  • Olshen,A.B.和Venkatraman,E.S.,2002年。基于阵列的比较基因组杂交数据的变点分析。弗吉尼亚州亚历山大美国统计协会。
  • Pinkel,D.,Segraves,R.,Sudar,D.,Clark,S.,Poole,I.,Kowbel,D.,Collins,C.,Kuo,W.L.,Chen,C.,Zhai,Y.等人,1998年。利用比较基因组杂交技术对微阵列进行DNA拷贝数变异的高分辨率分析。自然遗传学。 20:207-211. [公共医学][谷歌学者]
  • Pollack,J.R.、Perou,C.M.、Alizadeh,A.A.、Eisen,M.B.、Pergamenschikov,A.、Williams,C.F.、Jeffrey,S.S.、Botstein,D.和Brown,P.O.,1999年。使用cDNA微阵列对DNA拷贝数变化进行全基因组分析。自然遗传学。 23:41-46. [公共医学][谷歌学者]
  • Sen,A.和Srivastava,M.S.1975。关于检测平均值变化的测试。Ann.统计。 :98-108.[谷歌学者]
  • Singh-Gasson,S.、Green,R.D.、Yue,Y.、Nelson,C.、Blattner,F.、Sussman,M.R.和Cerrina,F.1999。使用数字微镜阵列无掩模制造光定向寡核苷酸微阵列。自然生物技术。 17:974-978. [公共医学][谷歌学者]
  • 斯尼杰德斯·A.M.、诺威·M.E.、弗里德利扬·J.、皮克·J.M.、多斯曼·J.C.、杰恩·A.N.、平克尔·D.、范·迪斯特·P.J.、维尔海扬·R.H.和艾伯特森·D.G.,2003年。基于基因组阵列的比较基因组杂交揭示了输卵管癌中CCNE1的遗传同质性和频繁拷贝数增加。癌基因 22:4281-4286. [公共医学][谷歌学者]
  • Tkachuk,D.C.、Westbrook,C.A.、Andreeff,M.、Donlon,T.A.、Cleary,M.L.、Suryanarayan,K.、Homge,M.,Redner,A.、Gray,J.和Pinkel,D.1990年。原位杂交检测慢性粒细胞白血病中的bvr-abl融合。科学类 250:559-562. [公共医学][谷歌学者]
  • Van t Veer,L.J.,Dai,H.,Van de Vijver,M.J.,He,Y.D.,Hart,A.A.M.,Mao,M.,Peterse,H.L.,Van der Kooy,K.,Marton,M.J..,Witteveen,A.t.等人,2002年。基因表达谱预测乳腺癌的临床结局。自然 415:530-536. [公共医学][谷歌学者]
  • Yang,Y.H.,Dudoit,S.,Luu,P.,Lin,D.M.,Peng,V.,Ngai,J.和Speed,T.P.,2002年。cDNA微阵列数据的标准化:一种解决单玻片和多玻片系统变异的稳健复合方法。核酸研究。 30:e15-15。[PMC免费文章][公共医学][谷歌学者]

网站参考


文章来自基因组研究由以下人员提供冷泉港实验室出版社