跳到主要内容

寡核苷酸微阵列数据中基因组拷贝数变异高通量检测算法的评估

摘要

背景

基因组缺失和重复在癌症和精神发育迟滞等疾病的发病机制中非常重要,最近研究表明,在未受影响的个体中经常发生多态性。Affymetrix基因芯片全基因组采样分析(WGSA)与100K单核苷酸多态性(SNP)基因分型阵列相结合是目前用于检测此类结构基因组变化的几种基于微阵列的方法之一。这项技术及其相关开源数据格式的普及导致了越来越多的软件包的开发,这些软件包用于分析使用SNP阵列的拷贝数变化。

结果

我们使用合成和经验的100K SNP阵列数据集评估了四个用于高通量拷贝数分析的公开软件包,后者来自107名精神发育迟滞(MR)患者及其未受影响的父母和兄弟姐妹。我们评估了该软件对高通量100K SNP阵列数据分析的总体适用性,以及归一化、不同参考集缩放和特征提取的有效性,以及基因组拷贝数变异(CNV)检测的真阳性率和假阳性率。

结论

我们观察到不同分析方法检测到的候选CNV的数量和类型之间存在很大差异,并发现需要多个程序才能找到测试集中的所有真实畸变。假阳性缺失的频率是相当高的,但可以通过使用SNP基因型信息来确认杂合性的丧失来大大降低。

背景

染色体异常经常导致人类疾病,包括癌症[13]和精神发育迟滞(MR)[46]这些DNA改变的特征对于诊断和了解疾病机制都很重要。最近一项令人惊讶的发现是,正常人群中也存在基因组拷贝数变异(CNV)的程度[713]. 这种变异可能代表易患疾病的一类重要突变。

常规细胞遗传学研究(如核型分析)通常用于检测基因组缺失和重复,涉及5-10 Mb以上,但亚显微畸变的检测需要更高的分辨率。寡核苷酸微阵列技术为全基因组筛查提供了高分辨率、可扩展的方法,并可以检测以前未识别的CNV[6,1417]. 在这些方法中,Affymetrix基因芯片®绘图分析[18,19]越来越多地用于检测人类DNA中的CNV。该方法包括全基因组取样分析(WGSA)和高密度SNP基因分型寡核苷酸阵列。第一个这样的阵列包含1494个SNP,随后的10K阵列包含11555个SNP[14]. 进一步的开发产生了带有116204 SNP探针的100K阵列集[16],现在是包含500568个SNP的500K阵列集[18]可用。所有这些阵列都可用于根据探针强度估计拷贝数变化,通过等位基因特异性杂交确定SNP基因型,确认杂合性丢失,检测单亲二体性,确定非亲缘性,并确定CNV的单倍型和亲本起源。

有许多软件包可用于分析寡核苷酸阵列[14,2023]. 表中列出了三个软件包1,目前常用于Affymetrix 100 K SNP WGSA数据的拷贝数分析:基因芯片拷贝数分析器®阵列(CNAG)[22,24],DNA芯片分析仪(dChip)[23,25]和Affymetrix基因芯片®染色体拷贝数分析工具(CNAT)[14,18]. 所有这些软件包都执行信号强度的归一化、缩放和特征提取,并能够检测拷贝数变化,但每个软件包对这些功能使用不同的算法。简言之,CNAG根据用户定义的“最佳拟合”参考集对测试样本进行标准化和缩放,并针对PCR产物长度和GC含量的差异校正信号强度比。特征提取后,应用隐马尔可夫模型(HMM)算法推断每个染色体上的拷贝数[22]. dChip使用为Affymetrix GeneChip建立的程序对芯片内部和芯片之间的数据进行标准化和缩放®阵列[23],然后将测试样本与用户定义的样本参考集进行比较,以估计测试样本中的副本数。然后HMM使用该输出推断拷贝数[23]. CNAT将测试样本与Affymetrix提供的106个样本的参考集进行比较[18]或者对用户定义的参考集估计每个SNP位点的拷贝数,然后应用核平滑算法识别拷贝数变化的区域[14]. 这些方法在进行高通量寡核苷酸阵列归一化、定标和特征提取方面的相对性能,以及它们在CNV检测的敏感性或特异性方面的性能,以前没有报道过,不同参考集对CNV发现的影响也没有报道。因此,在本研究中,我们比较了CNAG、dChip和CNAT软件的性能(表1)使用合成数据和包含主要通过荧光验证的CNV的经验数据集就地杂交(FISH)。我们报告了对这些包的归一化、缩放和特征提取算法的评估,以及对用于识别CNV及其边界的方法的评估。此外,我们使用每个软件包测试了参考集大小和组成对CNV检测的影响。最后,我们估计了用于鉴定基因组得失的各种方法的真阳性和假阳性检测率。

表1评估的拷贝数分析软件包列表

结果和讨论

本研究的目的是比较不同软件包的性能以及不同参考集对Affymetrix 100 K SNP阵列数据中CNV识别的影响。我们使用合成数据集和从331个人中生成的经验数据集进行了此处描述的评估(附加文件1). 样本集来自107名精神发育迟滞(MR)患者及其未受影响的母亲和父亲,以及10名未受影响患者的兄弟姐妹。一些被研究的个体有使用独立方法验证的CNV[6].

我们使用662个阵列进行了100K SNP WGSA实验,其中331个阵列是Xba 50K芯片,331个是Hind 50K芯片(附加文件1). 根据单个寡核苷酸探针的强度,我们确定了SNP基因型(图1; 方法),并使用表中列出的每个软件包进行初始拷贝数分析1在我们分析的软件包中,只有为Affymetrix GeneChip Mapping 100 K阵列开发的软件包能够规范化、缩放和提取Affymetix数据的特征(表1). 因此,我们使用CNAG、dChip或CNAT对阵列数据执行此过程。

图1
图1

数据分析过程概述。A)方法显示为蓝色,数据显示为黄色。B)每种分析方法使用的参考集如下。”2“:在每个MR三人组(孩子、母亲和父亲)中,进行了三种比较——孩子对父亲作为参照,孩子对母亲作为参照,父亲对母亲作为参考。”50“:每个样本都与一个由50名患有MR儿童的未受影响母亲组成的参考集进行了比较。与其他母亲相比,这50名母亲在这个参考集中检测到的CNV数量最低。”214“:每个样本都与一个参考集进行了比较,该参考集包括MR儿童的所有214位未受影响的父母(107位母亲和107位父亲)。”106':Affymetrix提供的106个人的默认参考集,用于与CNAT进行拷贝数分析[18]。

CNAG和dChip使用基于HMM的算法检测基因组得失区域并估计其边界(表1). CNAT提供了沿着每条染色体的拷贝数和相关p值图,但不报告CNV或其边界。为了估计CNV及其断点,我们评估了CNAG、dChip和GLAD的效用[26]后者最初用于阵列CGH数据分析(表1).

从合成数据中检测候选拷贝数变体

作为对软件包的初步评估,我们构建了一个合成数据集,其中我们有意引入人工CNV,然后测量软件方法的CNV检测性能,包括真阳性和假阳性检测率。

我们的数据集包含30个来自正常个体基因组的人工标准化阵列结果,以及随后与50个参考个体的比较(方法)。使用CNAG、dChip和CNAT对这些合成阵列结果进行归一化(每个软件10个)。然后,我们将100个模拟CNV引入30个合成样本中,每个样本的探针集宽度为5到23,拷贝数为0.3到3.0(方法)。然后使用dChip和GLAD(方法)检测这些标准化数据中的CNV。无法使用CNAG执行CNV检测,因为该软件不接受中间阶段标准化数据作为输入。

从合成阵列中检测到的假定CNV总数以及假阳性和假阴性率的评估如表所示2。由于真阳性率在0.23之间,没有一个软件检测到所有真的CNV(CNAT-GLAD,Hind数据,表2)和0.58(CNAG-GLAD,Xba数据,表2). 所有方法的错误发现率都在0之间(CNAG-GLAD,Hind数据,表2)和0.44(dChip,Xba数据,表2). 与检测重复相比,我们观察到在检测缺失方面通常具有更高的性能。我们发现,对合成数据进行dChip分析可以识别出数量最多的假定CNV,但真实阳性率较低(Xba和Hind数据分别为0.32和0.26),错误发现率最高(Xba数据和Hind数据库分别为0.44和0.42)(表2). 在该分析中,CNAG-GLAD方法显示了最佳的总体真阳性率(Xba和Hind数据分别为0.58和0.42)和最低的错误发现率(Xpa和Hind的数据分别为0.009和0)。

表2合成数据的候选拷贝数变体

从经验数据中检测候选拷贝数变体

为了评估软件方法对经验数据的性能,我们接下来分析了662个Affymetrix SNP阵列,采用了五种方法,总共使用了四个软件包(图1,表3). 为了检测通过CNAG、dChip或CNAT进行归一化、缩放和特征提取后的基因组得失区域,我们应用了CNAG和dChip的HMM算法,以及GLAD的自适应权重平滑(AWS)算法(图1,表3). 由于男性和女性之间正常X染色体拷贝数的差异,X染色体CNV的检测需要比常染色体CNV更复杂的方法,并且并非这里测试的所有软件包都能够沿着性染色体计算基因组拷贝数。因此,我们专注于常染色体区域的拷贝数评估。为了识别候选CNV,我们任意要求至少四个相邻SNP的拷贝数具有相似的明显增益或丢失。

表3来自经验数据的候选拷贝数变量

为了确定参考集大小和组成对CNV检测的影响,我们在分析中使用了四个参考集(图1,表3). CNAT、dChip和CNAG之间的算法差异对所用参考集的大小范围提出了不同的要求。然而,默认情况下,我们使用的所有软件包都假设参考集在所有常染色体位置的平均拷贝数为2.0。一个大的参考集通常会满足这个假设,因为在这样的一个集合中,罕见的多态性CNV的影响可以忽略不计。一个大的参考集还提供了减少比较产生的噪声的优势。然而,参考集中常见的多态性CNV仍然会影响结果。

只能使用CNAG对一个样本与另一个样本进行成对比较[22]. 这在进行父母-子女“三人组”分析时可能有用,如[6]. 直接比较来自孩子和父母的数组数据是最直接的区分方法从头开始遗传性CNV的突变,以及遗传性畸变的边界在父母和孩子中通常应该是相同的。因此,我们测试了CNAG,以及CNAG归一化、缩放和特征提取,并结合GLAD CNV检测(CNAG-GLAD),在每个三人组中使用三个配对比较-孩子对父亲、孩子对母亲和父亲对母亲(图1,表3,方法)。我们将这种分析称为“参考集2”。

dChip和CNAT要求使用更大的参考集:dChip所需的最小尺寸为10[23]CNAT为50[18]. 为了使用一个一致的参考集来比较所有三个软件包的性能,我们选择了一个参考集,其中包括50名患有MR的未受影响的母亲(图1,表3,方法)。与我们数据集中的其他母亲相比,这50位母亲是dChip确定的候选CNV最少的母亲(使用214位父母的参考集)。使用dChip和CNAT,可以进一步增加参考集的大小,因此我们测试了这是否有利。为此,我们收集了一个参考集,由214名患有MR的儿童的未受影响的父母组成(图1,表3,方法)。对于CNAT,Affymetrix提供了106个人的默认参考集,也对其进行了评估(图1,表3,方法)。

CNAG使用2人和50人的参考集在331份样本中确定的候选CNV列表及其边界见附加文件23分别是。附加文件中列出了使用CNAG-GLAD方法检测到的CNV4(参考集2)和附加文件5(参考集50)。附加文件中显示了使用dChip发现的推测CNV67(参考集50)和附加文件8(参考集214)。GLAD从dChip(dChip-GLAD)提取的特征数据中检测到的CNV显示在附加文件中9(参考集50)和附加文件10(参考集214)。使用SNP拷贝号日志中的GLAD识别候选CNV2-附加文件中列出了由CNAT(CNAT-GLAD)计算的比率11(参考集50),附加文件12(Affymetrix默认参考集106)和附加文件13(参考集214)。

3总结了使用这些方法和参考集的每一种组合在所研究的331名个体上识别出的候选基因组缺失和重复的数量。Xba和Hind阵列的数据分别显示,因此两种阵列类型在特定样本中识别的CNV都列在这两种类型下(表3). 使用不同的分析方法从同一样本集中检测到的CNV的数量和类型存在很大差异。使用CNAG-GLAD和CNAG检测到的候选CNV最少,Xba和Hind数据的参考集分别为50–340和324(表3). 最可能的CNV由dChip识别,参考集为50–31354(来自Xba)和21124(来自Hind数据)(表3).

在11种方法中检测到的候选CNV的类型也有很大差异。重复占所有CNV的2%至89%(表3). dChip-GLAD鉴定出重复比例最低,因此缺失比例最高。参考集为50和214的dChip和50的CNAG分别检测到三种最高的重复比例和最低的删除比例(表3).

对于来自不同样本的三个Hind和两个Xba阵列,任何方法都无法检测到候选CNV。来自97个Hind和90个Xba芯片的数据通过至少一种方法预测了30个或更多假定的CNV。然而,所有11种方法都没有检测到30个或更多的畸变。

假阳性率

确定每个拷贝数分析方法的假阳性率的最终方法是尝试使用独立的方法验证每个候选CNV。利用FISH(表4) [6],但对本研究中检测到的数千个候选CNV中的所有CNV进行此操作是不可行的(表3).

表4已验证CNV的检测

为了获得对大量候选缺失中假阳性率的估计,我们使用了SNP基因型数据,假设缺失(拷贝数为1或0)不应包含杂合基因型调用(图1,方法)。SNP杂合性鉴定的假阳性缺失的平均比例为40%,在Xba数据中为23%至67%,在Hind数据中为25%至66%(表3). 在这两种阵列类型中,参考集为50的CNAG-GLAD组合显示出最低的假阳性删除率,而参考集为2的CNAG产生的假阳性丢失率最高。我们注意到,这些假阳性率可能被低估了,特别是对于短CNV,因为纯合子SNP的延伸也可能在拷贝数正常的区域偶然发生。

这里测试的软件包应用不同的算法和统计数据进行CNV检测。我们检查了SNP拷贝数的分布,发现它们显示出高斯分布的特征。因此,为了评估和比较这些不同方法检测到的CNV的重要性,我们进行了如下t检验。首先,我们计算了日志2-每个SNP的测试样本拷贝数与参考拷贝数的比率。接下来,我们计算了这些对数的平均值和标准偏差(SD)2-每个候选CNV内的比率,以及同一染色体的其余部分(不包括受CNV影响的区域)的比率。然后,我们使用t检验比较了这些值,并获得了相应的p值(附加文件2,3,4,5,6,7,8,9,10,11,12,13). 然后,我们使用未修正的p<0.05截止值以及任意拷贝数阈值(删除<1.25,重复>2.75)筛选候选CNV。表中总结了通过这些阈值的候选CNV3正如预期的那样,应用这些截止值会减少CNV,并在大多数情况下降低假阳性删除率。然而,误报删除率仍然很高,平均为32%。如预期(未显示),较低的p值阈值进一步减少了候选CNV的数量。然而,即使以p<0.00001为界点,假阳性缺失的实质性比率仍然保持不变,平均假阳性缺失率为28%。

为了评估候选CNV中包含的SNP数量对检测率和假阳性率的影响,我们统计了至少包含4个、11个、21个、41个或101个SNP的候选数量(图2). 我们还根据每个水平的SNP杂合度计算了假阳性缺失率,并应用了如上所述的p值和拷贝数阈值(图2). 我们注意到,在我们的分析中,最小大小类(4–10个SNP)中的假阳性缺失调用率可能低得不切实际,因为纯合子更可能在几个相邻SNP上偶然发生,而不是在多个相邻SNP中。然而,有大量CNV超过了我们的p值(p<0.05)和拷贝数(<1.25或>2.75)阈值,并且由<=10个SNP预测,这表明在这个小范围内的许多假定CNV可能是真实的。有趣的是,与其他类别相比,最大CNV大小类别(>=101 SNP)的假阳性呼叫率通常相对较高,并且通过p值和拷贝数阈值的CNV百分比通常相对较低(图2). 在这个大小范围内,大多数假阳性CNVs的拷贝数平均仅略高于或低于2.0,但由于涉及大量SNPs,这种变化可能看起来很显著。

图2
图2

检测到候选CNV的大小分布。这五个图显示了使用Xba和Hind阵列识别的候选拷贝数增益和损耗的数量,根据像差内的SNP数量排列:A)所有CNV(>=4个SNP);B)CNVs>=11个SNP;C)CNVs>=21个SNP;D)CNVs>=41个SNP和E)CNVs>=101 SNPs。每条水平线的y轴值表示通过给定方法检测到的CNV总数:1–CNAG参考2;2–CNAG参考50;3–CNAG-GLAD参考2;4–CNAG-GLAD参考50;5–dChip参考50;6–dChip参考214;7–dChip-GLAD参考50;8–dChip-GLAD参考214;9–CNAT-GLAD参考50;10–CNAT-GLAD参考106;11–CNAT-GLAD参考214(参考集如图1和方法所述。)每个面板的左侧和右侧分别对应于缺失和重复的部分。黑线内的橙色条表示通过以下置信阈值的CNV比例:p<0.05(t检验),删除的拷贝数<1.25(左);或p<0.05(t检验),复制数>2.75(右)。根据SNP杂合度计算的假阳性缺失调用的分数由每个面板左侧的红色竖线表示。例如,图“A”中顶行(5)的y轴值表示候选CNV(52478)的总数,包括由dChip Ref50(来自Xba和Hind数据)识别的至少4个连续SNP。52478个假定的CNV中,30%是缺失(左),70%是重复(右)。99%的删除(左边的行的橙色部分)和22%的重复(右边的行的黄色部分)通过了上述p值<0.05和拷贝数(<1.25或>2.75)阈值。34%的候选缺失被认为是假阳性,用红色条表示(左)。

多种方法预测候选CNV

由来自Xba或Hind数据的至少两个软件/参考集组合或来自同一样本的这两个数据确定的假定CNV区域显示在附加文件中14。这些区域是由软件平台预测的,没有基于p值或拷贝数阈值应用额外的过滤器。由于不同的方法和100K集合中的两个不同芯片通常检测到特定CNV的略微不同的边界,因此我们在该分析中将相互预测的CNV定义为那些在由缺失或重复中包含的SNP定义的基因组片段中共享至少50%碱基对的CNV。

由少于50个连续SNP组成的相互预测候选CNV列在附加文件中14安在这个大小范围内,我们使用两种或两种以上的方法在331个个体的样本集中检测到8649个假定的CNV,包括5418个重复(63%)和3231个缺失(37%)。这些假定的8649个CNV中,7497个(86%)(<50个SNP)通过2种不同的软件/参考集组合检测到,919个(11%)通过3或4种方法检测到,233个(3%)通过5种或更多方法检测到。根据SNP杂合性(方法,图1).

附加文件中列出了50个或更多连续SNP的相互预测推测CNV14亿通过至少两种方法共鉴定出1084个这样的候选CNV,包括926个重复(85%)和158个缺失(15%)。在这些较大的CNV中,963(89%)通过2种不同的软件/参考集组合识别,106(10%)通过3或4种方法识别,15(1%)通过5种或更多方法识别。根据SNP杂合性,多个方法预测的154个缺失(158个中的97%)被认为是假阳性呼叫(方法)。我们使用FISH(附加文件14,表4); 第四个没有测试。

确诊CNV的检出率

为了确定每个软件/参考集组合的真实CNV检测率,我们评估了38个CNV(30个缺失和8个重复),这些CNV通过独立的实验方法得到了证实(表4,其他文件15) [6]. 其中一些是遗传性CNV,在一个MR家族的孩子和父母身上都已证实。发生其他已确认的CNV从头开始在一个患有MR的孩子身上发现,他们的父母都没有出现。SNP基因型用于确认所有病例的亲子关系。

该组中已确认的缺失在所涉及的基因组区域中的拷贝数均为1,而已确认的重复均为3。所使用的11个软件/参考集组合中的大多数或全部(9至11之间)可识别出约200 kb或更大的缺失。正如预期的那样,对于较小的缺失,检测率较低(表4). 总的来说,成功检测到重复的比率较低(表4). 令人惊讶的是,11个软件/参考集组合中只有5个检测到相当大的3.3 Mb重复(表4,其他文件15). 在这个基因组片段中,SNPs之间的平均距离约为280 kb(附加文件15),大大大于100 K阵列集合中整个基因组SNP之间的平均距离23.6 kb[16].

没有一种方法能识别出所有38种已确认的CNV。参考集为2的CNAG-GLAD和参考集为214的CNAT-GLAD的检出率最高,分别鉴定出38株确诊CNV中的33株和32株(表4). dChip和CNAG-GLAD组合方法将两个较大的删除分为多个较小的删除(每个删除2-4个),而不是其他方法预测的单个CNV(附加文件15).

每个人的候选CNV

为了估计样本集中每个基因组的平均CNV数,我们选择了三种拷贝数分析方法的组合,这三种方法产生了最佳的真阳性检测率:参考集为2的CNAG-GLAD、参考集为50的dChip和参考集为214的CNAT-GLAD。在本研究中,这三种方法共同检测到38种确诊的CNV(表4,其他文件15). 我们从至少一个数组(Xba或Hind)中生成了一个候选CNV列表,这些CNV至少由这三种方法中的一种方法识别。为了降低假阳性检出率,我们消除了所有不符合以下标准的假定畸变:p<0.05(t检验);拷贝数<=1.25(删除)或>=2.75(复制)。基于SNP杂合性被认为是假阳性的缺失也被消除。然后,我们计算了107名MR儿童和224名未受影响儿童的父母和兄弟姐妹中每个个体剩余候选CNV的平均数量。

在224名未受影响的个体中,我们发现每个基因组平均有39个候选CNV,包括20个缺失和19个重复。缺失的平均大小为157 kb(介于190 bp和5.5 Mb之间),重复的平均大小是244 kb(位于115 bp和16.7 Mb之间。在受影响的儿童中,候选CNV的平均数量为45个,包括26个缺失和19个重复。缺失的平均大小为191 kb(介于220 bp和11.3 Mb之间),重复的平均大小是208 kb,介于220 bp到23.8 Mb之间。

理论分辨率

估算基因组得失并确定其边界的能力取决于原始强度数据的归一化、缩放和特征提取。更有效的归一化和特征提取会产生更高的信噪比,从而能够更好地检测拷贝数改变的区域。使用表中列出的30个有效删除和8个确认重复的SNP拷贝数数据4,我们使用上述各种参考集计算了CNAG、dChip和CNAT使用的归一化、缩放和特征提取算法的理论分辨率(图1B年,方法)。我们将分辨率定义为在给定置信水平下可以检测到的最小单拷贝删除或复制的平均大小。平均测试与参考SNP拷贝数日志2-比率是从特征提取后的数据中计算出来的,它们显示出高斯分布的特征。然后计算Welch t检验,将给定CNV内的平均SNP拷贝数比率与染色体的其余部分进行比较(方法)。在这个计算中,我们假设SNP在整个基因组中均匀分布。然后,我们使用从30个已确认缺失和8个已确认重复中获得的平均值和标准偏差,估计了包含越来越多相邻SNP的半合子缺失(拷贝数1)和单拷贝重复(拷贝数3)的p值。在SNP密度高于或低于平均值的基因组区域,相应的p值将低于或高于图中所示的值3,但SNP密度的变化同样会影响所有方法的p值。因此,即使绝对p值随着SNP密度而变化,这里给出的相对p值也提供了有效的比较。

图3
图3

参考集为2、50、106和214的CNAG、dChip和CNAT的理论分辨率(参见方法和图1图例)。分辨率定义为在给定置信水平下,使用给定方法可以检测到的最小单拷贝删除或重复的平均大小。理论p值(对数10比例)显示为删除的函数(A)或重复(B)从Affymetrix GeneChip 100 K Xba和Hind数据中检测到的大小。对于给定的p值,例如10-5,显示了每种方法的可检测删除或复制的理论最小大小。对于给定大小的删除或复制,例如400000 bp,显示了每种方法的理论p值。

根据30个有效删除的加权平均值计算的分辨率(表4)如图所示3A级.根据8个确认重复的加权平均值计算的分辨率(表4)如图所示3B公司我们观察到Affymetrix映射50 KXba公司我和后面的III分析具有类似的分辨率,因此我们结合Xba和Hind数据进行这些分析。

dChip归一化、缩放和特征提取为删除提供了最高的分辨率,参考集50和214之间的差异可以忽略不计(图3A级). 这一结果表明,对于任何给定的p值截止值,平均而言,人们可以通过dChip特征提取和我们的参考集50或214检测到最小的单拷贝删除。大多数其他方法仅显示出略微降低的分辨率。尽管Affymetrix默认参考集为106的CNAT排名最低(图3A级).

参考集的选择对复制的分辨率有更大的影响,从我们自己的数据集中选择的参考集比Affymetrix默认的106个人集的分辨率更高(图3B公司). 我们注意到,我们对重复分辨率的估计可能不如缺失准确,因为我们可用于分析的已确认像差数量较少。尽管如此,删除的分辨率明显优于复制,因此可以比相同大小的复制更可靠地检测到给定大小的删除。

结论

我们发现,CNAG、dChip、CNAT和GLAD适用于Affymetrix 100 K SNP阵列数据的高通量处理,用于拷贝数分析。与Affymetrix提供的外部默认参考集相比,从我们的研究团队生成的数据中选择的各种参考集具有更好的特征提取、更高的信噪比和更高的确认CNV检测率。这种差异可能是由于不同实验室之间的实验差异,SNP基因型和拷贝数多态性(CNP)在不同种族人群中的频率差异,或其他未知因素。因此,我们建议使用在同一实验室中处理的参考集,最好是从种族组成与样本集相似的样本中提取。

我们发现各种软件/参考集组合检测到的假定CNV数量有很大差异,并且dChip调用的CNV比任何其他测试的软件都多。通过SNP杂合性确定的假阳性缺失呼叫率在所有测试方法中都很高,并且假阳性呼叫率与通过给定方法确定的候选CNV总数无关。CNAG使用2个参考集(三个内)生成的假阳性候选删除调用率最高,但这很可能,至少部分是由于参考集的大小非常小,加上噪声数据。在这样一个小的参考集中,基因组某些区域的平均拷贝数可能与2.0完全不同。例如,对于父系遗传缺失(分别在孩子、父亲和母亲中的拷贝数为1、1和2)和非遗传母亲中的重复(分别在拷贝数为2、2和3)(附加文件16). 在这种情况下,我们接受了所有可能的CNV作为最佳灵敏度的候选(方法,附加文件16),但我们预计这些CNV的一个子集将为假阳性。

在一个大的参考集内,所有位点的平均拷贝数更有可能接近2.0,这提高了给定样本中CNV检测的置信度。然而,在一个大的参考集中频繁的多态性可能会歪曲结果。例如,在10%的群体中发生的影响单个基因组区域的缺失可能会将该区域的平均拷贝数降低到大型随机参考集中的1.9,而频率为50%的缺失可能会将基线推至1.5,导致在缺少畸变的测试样本中出现假阳性重复调用,或在具有删除的测试样本上出现假阴性删除调用。来自富含多态位点的染色体区域的数据可能看起来很杂乱,即使CNV很常见,也可能无法产生可区分的CNV。进一步了解CNV及其在普通人群中的频率将有助于解决这个问题,并提高这些地区CNV检测的特异性。

软件包在检测单拷贝删除方面的性能优于单拷贝复制。这可能是因为删除会产生2倍的拷贝数变化(从2到1),而重复只会产生1.5倍的变化(从2到3)。

确诊CNV的检出率(表4)与报告的CNV总数无关(表3)通过特定的软件/参考集组合。正如预期的那样,较大的CNV比较小的CNV更容易被检测到,并且给定染色体片段内的SNP覆盖越密集,可以高置信度检测到的CNV(单位:bp)越小。我们发现,CNAG-GLAD使用三人组(参考组2)中的成对比较检测到38个经验证的像差中的最大比例(87%),紧随其后的是CNAT-GLAD,参考组为214(84%)(表4). 不幸的是,这两种方法的假阳性删除率也最高,分别为66%和51%(表3). 没有一种方法检测到所有已确认的CNV,而且每种方法都漏掉了不同的变异子集。因此,我们测试的任何软件/参考集组合似乎都不足以检测所有真实的CNV,可能需要结合使用几种方法来高效可靠地分析GeneChip SNP数据的拷贝数。例如,为了最大限度地提高真阳性CNV的检出率,我们建议将CNAG-GLAD与测试和参考样品的成对比较相结合,并将dChip和CNAT-GLAD用于大参考集(>50)。这种方法的组合成功地检测到了我们研究中所有经验证的CNV。为了降低假阳性率,我们建议对假定缺失进行SNP基因型分析(见方法),并设置假定CNV的统计显著性和拷贝数值阈值。

与大多数用户一样,我们在本研究评估的每个软件包中使用默认参数设置进行拷贝数分析。由于数据集的大小和测试软件包所用的其他变量的数量很大,我们没有尝试进行彻底的参数优化。尽管应注意,更改某些软件包的参数可能会导致检测到不同数量的假定CNV,检测特定CNV的最佳参数也可能取决于每个芯片的噪声水平以及CNV的位置和大小。在我们评估的包中,没有适用于CNAT的参数设置[14,18],我们仅将CNAT用于归一化和特征提取,而不用于CNV检测。dChip根据原始数据自动确定每个芯片的最佳HMM参数[23],因此用户无法访问这些参数。GLAD为AWS提供了一些可调整的参数,例如断点数量的lambda值和聚类参数lambda[26]. 我们在一小部分样本上检查了CNV检测对AWS参数默认变化的敏感性,发现结果没有变化,即使检测到最小的验证畸变。软件开发人员对CNAG的默认HMM参数进行了优化,以检测大多数二倍体样本中的完整拷贝数变化(例如1或3)[22,24]. 这些参数可由用户调整,特别建议对非二倍体染色体区域或镶嵌型CNV检测进行调整(平均拷贝数变化小于1.0)(CNAG用户手册[24]). 在某些情况下,人们可能希望改变这些参数以检测尽可能多的真实CNV,即使这也可能产生高得多的假阳性呼叫率。在其他情况下,将误报率降至最低可能更为重要,即使这意味着会错过一些真实的CNV。我们的研究只使用了以二倍体为主的样本,因此默认参数看起来最合适。

除了662个阵列的经验数据集的结果外,我们还用较小的合成数据集和较多的模拟CNV测试了该软件。尽管由于方法之间的差异,检测到的候选CNV数量与从经验数据中发现的CNV数量没有直接可比性,但以下结论在经验数据和模拟数据之间是一致的。软件在检测删除方面的性能通常优于重复。dChip从经验和合成数据中确定了最具推测性的CNV。然而,它的真阳性CNV检出率并不是最好的,在两种情况下都有显著的假阳性率。在合成数据上,CNAG-GLAD方法获得了最佳的真阳性CNV检测率。

来自相同数据的SNP基因型和基因组拷贝数信息的可用性是Affymetrix基因芯片映射阵列的一个特别有用的特征。本文评估的拷贝数分析算法都有大量的假阳性候选CNV呼叫率;然而,许多假定的缺失可以被确认,并且可以在不使用基因型信息进行进一步实验的情况下消除大部分假阳性。这里测试的拷贝数分析程序都没有考虑基因型信息来识别候选缺失,这将是一个有用的功能,用于未来的实现。杂合基因型中的等位基因不平衡也可用于调用重复,正如最近描述的CARAT算法中所述[27].

我们测试的软件包的另一个改进建议是为每个CNV调用分配统计显著性,然后使用此信息对候选CNV进行排名。我们测试的软件包都没有准确地描述其CNV预测的相对质量。独立的统计检验,如我们使用的t检验,对于通过各种方法确定的CNV提供置信度是必要的。此外,通过拷贝数与2.0的偏差对候选CNV进行排序也很有用。然后,研究人员可以通过适当设置相应的p值和拷贝数阈值,确定大约要容忍多少假阳性呼叫,以达到真正CNV检测的期望速度。

使用上述方法组合优化真阳性检测率和最小化假阳性率,我们估计了样本集中每个基因组的CNV平均数量。未受影响个体中39个候选CNV的平均值(20个缺失和19个重复)可能被高估了,因为其中一部分可能仍然是假阳性。这些数字;然而,其范围与其他人使用不同技术和分析方法在普通人群中估计的范围相似,由[12]. 我们在224名未受影响个体的样本集中发现的许多CNV可能代表正常多态性,未来的研究将更详细地描述这些候选变异。

总之,从100 K SNP WGSA阵列获得的杂交数据可用于识别小于200 kb的单拷贝组成CNV。我们发现,从这些数据中检测所有真实的CNV需要多种计算方法。使用这些阵列分析的所有样本可用的SNP基因型信息有助于识别许多假阳性呼叫,并应用于提高CNV检测的特异性。通过更好地利用与基因芯片阵列上每个SNP相关联的单个25聚体寡核苷酸探针提供的信息,利用500 K基因芯片阵列的分辨率增加,可以在不损失灵敏度的情况下进一步提高识别真正CNV的特异性,以及通过进一步改进阵列设计以提供更均匀的基因组覆盖。

方法

Affymetrix基因芯片®100 K映射阵列数据

为了进行此分析,我们使用了先前研究中生成的数据集[6]有精神发育迟滞(MR)儿童的家庭。该研究组由107名儿童及其未受影响的父母组成,外加10个家庭中受影响儿童的10名未受影响兄弟姐妹。如前所述,从331份全血样本中分离出DNA[6]. Affymetrix基因芯片的杂交®根据制造商的建议(Affymetrix基因芯片®映射100 K分析手册;[18])如前所述[6].

拷贝数分析的参考集

下面描述的参考集用于Affymetrix基因芯片的拷贝数分析®映射100 K阵列数据:

  • '2':在每个MR三人组中进行三组配对比较(儿童对父亲为参照,儿童对母亲为参照,父亲对母亲为参考)。家庭成员中的删除和重复被称为“附加文件”中所述16安.

  • '50':每个样本都与一个参考集进行了比较,该参考集包含50名患有MR儿童的未受影响母亲。与我们数据集中的其他母亲相比,这50名母亲通过dChip识别的候选CNV数量最少(使用214名父母的参考集)。

  • '214':每个样本都与一个由MR儿童的所有214名正常父母(107名母亲和107名父亲)组成的参考集进行了比较。

  • '106':Affymetrix提供的106个人的默认参考集,用于与CNAT进行拷贝数分析[18].

合成100K阵列数据

我们通过使用“50”个人的参考集,从变异性接近中位数的正常样本中随机洗牌归一化100K SNP阵列数据,生成了30个人工数据集。混洗的输入是来自CNAG、dChip和CNAT的标准化拷贝数数据,并且为这些软件包中的每一个产生10个合成样本。然后我们在每个合成样品中引入100个模拟CNV,SNP宽度从5到23,拷贝数从0.3到3.0。然后由dChip和GLAD对这些标准化数据进行CNV检测(这对于CNAG HMM是不可能的,因为该软件不接受中间阶段的标准化数据)。

使用CNAG和CNAG/GLAD进行拷贝数分析

使用基因芯片拷贝数分析仪检测拷贝数变体®阵列(CNAG)1.1版软件[22],使用默认参数。每个样本都与一个由2或50个人组成的参考集进行比较。使用CNAG的隐马尔可夫模型(HMM)输出检测拷贝数增益或丢失区域。使用附加文件中描述的规则识别个人中的删除和重复16安A(参考集2)和B(参考集50)。

除了CNAG HMM实施之外,我们还使用DNA增益和损耗分析(GLAD)R包确定了拷贝数的变化[26]使用默认设置。样本与参考SNP拷贝数日志2-CNAG计算的比率用作CNAG/GLAD分析的输入。

使用dChip和dChip/GLAD进行拷贝数分析

使用DNA-Chip Analyzer(dChip)Version Release(2005年11月17日)软件,对50或214名个体的参考集进行基因组得失评估[23]使用默认参数。使用dChip的隐马尔可夫模型(HMM)输出检测每次比较中的拷贝数增益或丢失区域。

我们还使用GLAD R包检测到拷贝号更改[26]使用默认设置而不是dChip HMM.SNP拷贝号日志2-由dChip计算的样本与参考的比率用作dChip/GLAD分析的输入。根据附加文件中所述的规则识别个人中的删除和重复16亿.

使用CNAT和GLAD进行拷贝数分析

使用Affymetrix基因芯片确定SNP拷贝数®染色体拷贝数分析工具(CNAT)3.0版[14,18]使用默认参数和50、214或106个人的参考集。我们使用GLAD R软件包(Hupe等人,2004)从SNP拷贝数日志中识别CNV边界2-由CNAT计算的样本与参考样本集的比率。使用附加数据文件中描述的规则识别个人中的删除和重复16亿.

缺失的基因型分析

使用基因芯片从探针信号强度数据生成SNP基因型调用®DNA分析软件3.0版(GDAS)[18]基因型准确性的置信度阈值为0.05。我们计算了上述每个拷贝数分析方法确定的假定缺失中杂合SNP的数量。如果候选缺失中杂合SNP的比率超过总SNP计数的10%,则该缺失被视为假阳性。如果杂合子SNP不超过10%,则可以接受该缺失。在缺失中允许高达10%杂合SNP调用率(而不是0%)的一个原因是基因型调用中偶尔出现错误。此外,尽管可以通过软件包在染色体片段中正确识别缺失的存在,但断点可能无法准确定义,导致包含来自缺失边界两侧正常区域的杂合SNP。在我们所有验证的缺失中,杂合SNP的百分比低于10%。我们试图验证的所有SNP杂合度超过10%的候选缺失结果都是假阳性。

假定拷贝数变体(CNV)的验证

大多数推定CNVs的验证是通过荧光法进行的就地根据标准细胞遗传学协议制备的间期和中期染色体扩散杂交(FISH)[6]. 使用细菌人工染色体(BAC)或磷插入物作为探针,通过加州大学圣克鲁斯分校(UCSC)基因组浏览器选择[28,29]2004年5月,人类基因组组装。使用标准核型分析确认了CNV的一个子集,如前所述,使用定量PCR验证了一个遗传缺失[30].

检测半合子缺失和重复的理论分辨率

我们将分辨率定义为在给定置信水平下可以检测到的最小单拷贝删除或复制的平均大小。发现含有的半合子缺失(1个拷贝)或重复(3个拷贝)的置信水平n个使用Welch t检验,从不同方法提取的特征拷贝数数据中估计SNP的数量,如下所示。SNP拷贝号日志2-使用CNAT、CNAG或dChip根据探针强度值计算样本与参考值的比值。这些比率的平均值和标准偏差在每个验证的CNV内计算,在我们用作控制区域的CNV外的同一染色体的其余部分中计算。假设从CNV或控制区域内选择的任何2个或更多SNP的平均值和标准偏差相等(符合高斯分布),我们比较了平均对数2-比率介于n个来自CNV的SNP(c-n)来自控制区的SNP,其中“c”表示数组中该染色体的SNP总数。使用Welch t检验计算p值。根据Xba和Hind的组合数据,分别使用已确认的缺失和重复的平均值,然后通过外推计算检测广泛潜在CNV大小所需的p值,来计算缺失和复制的分辨率。

其他文件

原始阵列数据在NCBI基因表达综合数据库(GEO)中公开提供[31]注册号为GSE 7226。原始数据也可以从以下位置下载ftp://mr@ftp2.bcgsc.ca文件/使用登录名:mr和密码:omn1w0rld。

缩写

阵列CGH:

阵列比较基因组杂交

美国焊接学会:

自适应权重平滑

CNP公司:

拷贝数多态性

CNV公司:

副本编号变量

鱼类:

荧光就地杂交

隐马尔可夫模型:

隐马尔可夫模型

先生:

智力迟钝

标准偏差:

标准偏差

SNP公司:

单核苷酸多态性

世界黄金协会:

全基因组抽样分析

工具书类

  1. Kops GJ、Weaver BA、Cleveland DW:癌症之路:非整倍体和有丝分裂检查点。《国家癌症评论》2005,5(10):773-785。10.1038/编号1714

    第条 中国科学院 公共医学 谷歌学者 

  2. Fukasawa K:中心体扩增、染色体不稳定性和癌症发展。《癌症快报》2005,230(1):6–19。10.1016/j.canlet.2004.12.028

    第条 中国科学院 公共医学 谷歌学者 

  3. Duesberg P,Li R,Fabarius A,Hehlmann R:癌症的染色体基础。Cell Oncol 2005,27(5–6):293–318。

    中国科学院 公共医学 谷歌学者 

  4. Leonard H,Wen X:精神发育迟滞的流行病学:新千年的挑战和机遇。智障发展障碍研究修订版2002,8(3):117–134。10.1002/mrdd.10031

    第条 公共医学 谷歌学者 

  5. van Karnebeek CD、Jansweijer MC、Leenders AG、Offringa M、Hennekam RC:精神发育迟滞个体的诊断研究:对其有用性的系统文献综述。《欧洲人类遗传学杂志》2005,13(1):6–25。10.1038/sj.ejhg.5201279

    第条 公共医学 谷歌学者 

  6. Friedman JM、Baross A、Delaney AD、Ally A、Arbour L、Asano J、Bailey DK、Barber S、Birch P、Brown-John M、Cao M、Chan S、Charest DL、Farnoud N、Fernandes N、Flibotte S、Go A、Gibson WT、Holt RA、Jones SJ、Kennedy GC、Krzywinski M、Langlois S、Li HI、McGillivray BC、Nayar T、Pugh TJ、Rajan-Separovic E、Schein JE、Schnerch A、Siddiqui A、,Van Allen MI、Wilson G、Yong SL、Zahir F、Eydoux P、Marra MA:弱智儿童基因组失衡的寡核苷酸微阵列分析。《美国人类遗传学杂志》2006,79(3):500–513。10.1086/507471

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  7. Tuzun E、Sharp AJ、Bailey JA、Kaul R、Morrison VA、Pertz LM、Haugen E、Hayden H、Albertson D、Pinkel D、Olson MV、Eichler EE:人类基因组的精细结构变异。《自然遗传学》2005,37(7):727-732。10.1038/ng1562

    第条 中国科学院 公共医学 谷歌学者 

  8. Sebat J、Lakshmi B、Troge J、Alexander J、Young J、Lundin P、Maner S、Massa H、Walker M、Chi M、Navin N、Lucito R、Healy J、Hicks J、Ye K、Reiner A、Gilliam TC、Trask B、Patterson N、Zetterberg A、Wigler M:人类基因组中的大规模拷贝数多态性。《科学》2004,305(5683):525–528。10.1126/科学.1098918

    第条 中国科学院 公共医学 谷歌学者 

  9. McCarroll SA、Hadnott TN、Perry GH、Sabeti PC、Zody MC、Barrett JC、Dallaire S、Gabriel SB、Lee C、Daly MJ、Altshuler DM:人类基因组中的常见缺失多态性。《自然遗传学》2006,38(1):86–92。10.1038/ng1696年

    第条 中国科学院 公共医学 谷歌学者 

  10. Hinds DA、Kloek AP、Jen M、Chen X、Frazer KA:人类基因组中常见的缺失和SNP处于连锁不平衡状态。《自然遗传学》2006,38(1):82–85。10.1038/ng1695年

    第条 中国科学院 公共医学 谷歌学者 

  11. Conrad DF、Andrews TD、Carter NP、Hurles ME、Pritchard JK:人类基因组中缺失多态性的高分辨率调查。《自然遗传学》2006,38(1):75–81。10.1038/ng1697年10月10日

    第条 中国科学院 公共医学 谷歌学者 

  12. Feuk L、Carson AR、Scherer SW:人类基因组的结构变异。Nat Rev Genet 2006,7(2):85–97。10.1038/nrg1767

    第条 中国科学院 公共医学 谷歌学者 

  13. Redon R、Ishikawa S、Fitch KR、Feuk L、Perry GH、Andrews TD、Fiegler H、Shapero MH、Carson AR、Chen W、Cho EK、Dallaire S、Freeman JL、Gonzalez JR、Gratacos M、Huang J、Kalaitzopoulos D、Komura D、MacDonald JR、Marshall CR、Mei R、Montgomery L、Nishimura K、Okamura K,Shen F、Somerville MJ、Tchinda J、Valsesia A、Woodwark C、Yang F、Zhang J、,Zerjal T、Zhang J、Armengol L、Conrad DF、Estivil X、Tyler Smith C、Carter NP、Aburatani H、Lee C、Jones KW、Scherer SW、Hurles ME:人类基因组拷贝数的全球变化。《自然》2006,444(7118):444–454。10.1038/性质05329

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  14. Huang J,Wei W,Zhang J,Liu G,Bignell GR,Stratton MR,Futreal PA,Wooster R,Jones KW,Shapero MH:通过高密度寡核苷酸阵列确定的全基因组DNA拷贝数变化。人类基因组学2004,1(4):287–299。

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  15. Lucito R、Healy J、Alexander J、Reiner A、Esposito D、Chi M、Rodgers L、Brady A、Sebat J、Troge J、West JA、Rostan S、Nguyen KC、Powers S、Ye KQ、Olshen A、Venkatraman E、Norton L、Wigler M:代表性寡核苷酸微阵列分析:检测基因组拷贝数变异的高分辨率方法。《基因组研究》2003,13(10):2291–2305。10.1101/克.1349003

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  16. Slater HR、Bailey DK、Ren H、Cao M、Bell K、Nasioulas S、Henke R、Choo KH、Kennedy GC:使用含有116204个SNP的寡核苷酸阵列进行染色体异常的高分辨率鉴定。《美国人类遗传学杂志》2005,77(5):709–726。10.1086/497343

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  17. Bignell GR、Huang J、Greshock J、Watt S、Butler A、West S、Grigorova M、Jones KW、Wei W、Stratton MR、Futreal PA、Weber B、Shapero MH、Wooster R:使用寡核苷酸微阵列对DNA拷贝数进行高分辨率分析。《基因组研究》2004,14(2):287–295。10.1101/gr.2012304

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  18. Affymetrix公司,加利福尼亚州圣克拉拉[http://www.affmetrix.com/]

  19. Kennedy GC、Matsuzaki H、Dong S、Liu WM、Huang J、Liu G、Su X、Cao M、Chen W、Zhang J、Liw W、Yang G、Di X、Ryder T、He Z、Surti U、Phillips MS、Boyce-Jacino MT、Fodor SP、Jones KW:复杂DNA的大规模基因分型。《国家生物技术》2003,21(10):1233-1237。10.1038/nbt869

    第条 中国科学院 公共医学 谷歌学者 

  20. Ishikawa S、Komura D、Tsuji S、Nishimura K、Yamamoto S、Panda B、Huang J、Fukayama M、Jones KW、Aburatani H:基因分型微阵列的等位基因剂量分析。生物化学-生物物理研究通讯2005333(4):1309-1314。10.1016/j.bbrc.2005.06.040

    第条 中国科学院 公共医学 谷歌学者 

  21. LaFramboise T、Weir BA、Zhao X、Beroukhim R、Li C、Harrington D、Sellers WR、Meyerson M:SNP阵列分析揭示的癌症中的等位基因特异性扩增。《公共科学图书馆·计算生物学》2005,1(6):e65。10.1371/日记.pcbi.0010065

    第条 公共医学中心 公共医学 谷歌学者 

  22. Nannya Y、Sanada M、Nakazaki K、Hosoya N、Wang L、Hangaishi A、Kurokawa M、Chiba S、Bailey DK、Kennedy GC、Ogawa S:使用高密度寡核苷酸单核苷酸多态性基因分型阵列检测拷贝数的稳健算法。《癌症研究》2005,65(14):6071–6079。10.1158/0008-5472.CAN-05-0465

    第条 中国科学院 公共医学 谷歌学者 

  23. Zhao X,Li C,Paez JG,Chin K,Janne PA,Chen TH,Girard L,Minna J,Christiani D,Leo C,Gray JW,Sellers WR,Meyerson M:使用单核苷酸多态性阵列对癌症基因组中的拷贝数和等位基因改变进行综合观察。癌症研究2004,64(9):3060–3071。10.1158/0008-5472.CAN-03-3308

    第条 中国科学院 公共医学 谷歌学者 

  24. CNAG公司。[http://www.genome.umin.jp/]

  25. d芯片。[http://biosun1.harvard.edu/compab/dchip/]

  26. Hupe P、Stransky N、Thiery JP、Radvanyi F、Barillot E:阵列CGH数据分析:从信号比率到DNA区域的增益和损失。生物信息学2004,20(18):3413–3422。10.1093/生物信息学/bth418

    第条 中国科学院 公共医学 谷歌学者 

  27. Huang J,Wei W,Chen J,Zhang J,Liu G,Di X,Mei R,Ishikawa S,Aburatani H,Jones KW,Shapero MH:CARAT:使用高密度寡核苷酸阵列检测DNA拷贝数变化的新方法。BMC生物信息学2006,7:83。10.1186/1471-2105-7-83

    第条 公共医学中心 公共医学 谷歌学者 

  28. UCSC基因组浏览器。[http://genome.ucsc.edu/]

  29. Kent WJ、Sugnet CW、Furey TS、Roskin KM、Pringle TH、Zahler AM、Haussler D:UCSC的人类基因组浏览器。基因组研究2002,12(6):996–1006。10.1101/gr.229102。2002年5月在线出版的文章

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  30. Wilson GM、Flibotte S、Chopra V、Melnyk BL、Honer WG、Holt RA:双相情感障碍和精神分裂症的DNA拷贝数分析揭示了谷氨酸信号相关基因的异常。《人类分子遗传学》2006,15(5):743–749。10.1093/hmg/ddi489

    第条 中国科学院 公共医学 谷歌学者 

  31. NCBI基因表达总览。[网址:http://www.ncbi.nlm.nih.gov/geo/]

下载参考资料

致谢

我们感谢Martin Krzywinski和不列颠哥伦比亚省癌症局基因组科学中心的绘图小组、测序小组、生物信息学小组和项目管理小组在本项目中提供的协助。我们感谢沙罗尼·雅各布斯对这份手稿进行了批判性评估,并提出了有益的建议。本研究由加拿大基因组公司、不列颠哥伦比亚基因组公司和加拿大创新基金会资助,Affymetrix Inc.提供了额外支持。不列颠颠哥伦比亚省癌症机构的研究也得到了不列哥伦比亚省癌症基金会的支持。Marco A.Marra是迈克尔·史密斯健康研究学者基金会的成员。我们非常感谢捐赠本研究所用样本的家庭。

作者信息

作者和附属机构

作者

通讯作者

与的通信马可·阿马拉.

其他信息

竞争性利益

作者声明不存在相互竞争的利益。

作者的贡献

AB参与了研究设计、100K SNP阵列数据的生成、100K SNP阵列数据分析,并编写和编辑了手稿。ADD参与了研究设计、100K SNP阵列数据分析和手稿编辑。HIL、TN、SF和HQ进行了100K SNP阵列数据分析和手稿编辑。SYC参和了100K SNP阵列数据的生成和手稿编辑。JA、AA、MC、MB-J、AG和GK生成了100K SNP阵列数据。PB、NF和SL参与收集患者样本。PE对假定的CNV进行了验证。JMF参与了患者样本收集和手稿编辑。MAM参与了研究设计,监督了研究并编辑了手稿。所有作者阅读并批准了最终手稿。

电子辅助材料

12859_2006_1740_MOESM1_ESM.xls

附加文件1:样品和寡核苷酸阵列列表。列出331个样本和662个阵列(Xba 50 K和Hind 50 K)以及相应的阵列质量度量。(XLS 84 KB)

12859_2006_1740_MOESM2_ESM.xls

附加文件2:CNAG Ref2候选CNV。CNAG使用参考集“2”识别的候选拷贝号变体列表。(XLS 1 MB)

12859_2006_1740_MOESM3_ESM.xls

附加文件3:CNAG Ref50的候选CNV。CNAG使用参考集“50”识别的候选拷贝号变体列表。(XLS 309 KB)

12859_2006_1740_MOESM4_ESM.xls

附加文件4:CNAG-GLAD Ref2候选CNV。CNAG和GLAD使用参考集“2”识别的候选拷贝号变体列表。(XLS 715 KB)

12859_2006_1740_MOESM5_ESM.xls

附加文件5:CNAG-GLAD Ref50的候选CNV。CNAG和GLAD使用参考集“50”识别的候选拷贝号变体列表。>(XLS 180 KB)

12859_2006_1740_MOESM6_ESM.xls

附加文件6:dChip Ref50候选CNV。dChip使用参考集“50”识别的候选拷贝号变体列表。(XLS 7 MB)

12859_2006_1740_MOESM7_ESM.xls

附加文件7:dChip Ref50候选CNV(续)。dChip使用参考集“50”识别的候选拷贝号变体列表(续)。(XLS 5 MB)

12859_2006_1740_MOESM8_ESM.xls

附加文件8:dChip Ref214候选CNV。dChip使用参考集“214”识别的候选拷贝号变体列表。(XLS 3 MB)

12859_2006_1740_MOESM9_ESM.xls

附加文件9:dChip-GLAD Ref50候选CNV。使用参考集“50”由dChip和GLAD识别的候选拷贝号变体列表。(XLS 496 KB)

12859_2006_1740_MOESM10_ESM.xls

附加文件10:dChip-GLAD Ref214候选CNV。使用参考集“214”由dChip和GLAD识别的候选拷贝号变体列表。(XLS 482 KB)

12859_2006_1740_MOESM11_ESM.xls

附加文件11:CNAT-GLAD Ref50的候选CNV。CNAT和GLAD使用参考集“50”确定的候选拷贝数变体列表。(XLS 328 KB)

12859_2006_1740_MOESM12_ESM.xls

附加文件12:CNAT-GLAD Ref106候选CNV。CNAT和GLAD使用参考集“106”确定的候选拷贝号变体列表。(XLS 206 KB)

12859_2006_1740_MOESM13_ESM.xls

附加文件13:CNAT-GLAD Ref214候选CNV。CNAT和GLAD使用参考集“214”确定的候选拷贝号变体列表。(XLS 329 KB)

12859_2006_1740_MOESM14_ESM.xls

附加文件14:通过多种方法预测候选CNV。由来自同一样本的至少两个软件/参考集组合确定的假定CNV区域。(XLS 5 MB)

12859_2006_1740_MOESM15_ESM.xls

附加文件15:已确认CNV的检测。通过独立实验方法确认的38种CNV的列表,以及通过各种软件/参考集组合检测到的CNV。(XLS 116 KB)

12859_2006_1740_MOESM16_ESM.xls

附加文件16:候选CNV检测规则。用于检测具有各种参考集的假定拷贝数变体的规则。(XLS 18 KB)

作者提交的原始图像文件

下面是作者提交的原始图像文件的链接。

图1的作者原始文件

图2的作者原始文件

图3的作者原始文件

权利和权限

开放式访问本文经BioMed Central Ltd.许可发布。这是一篇开放存取文章,根据知识共享署名许可条款分发(https://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

阿拉巴马州男爵夫人。,德莱尼,A.D.,李,H.I。等。寡核苷酸微阵列数据中基因组拷贝数变异高通量检测算法的评估。BMC生物信息学 8, 368 (2007). https://doi.org/10.1186/1471-2105-8-368

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1471-2105-8-368

关键词