背景
癌症是通过逐步获得体细胞遗传改变而形成的,包括点突变、拷贝数变化和融合事件,这些改变会影响调节细胞生长和生存的关键基因的功能[1]。这些改变的靶向癌基因和抑癌基因的识别大大加快了对癌症发病机制的理解和新的治疗弱点的识别[2]。特别是由体细胞拷贝数改变(SCNA)靶向的基因在肿瘤发生和癌症治疗中起着核心作用[三]。阵列和测序平台的显著改进使得对数千个癌症基因组中的SCNA进行越来越高分辨率的表征成为可能[4-6].
然而,SCNA靶向的新癌症基因的发现由于两个基本挑战而变得复杂。首先,在每一次细胞分裂过程中,都会随机获得体细胞的改变,只有其中一些(“驱动”改变)会促进癌症的发展[7]。然而,当携带这种改变的亚克隆获得促进克隆优势的选择性有益突变时,选择性中性或弱有害的“乘客”改变可能会变得固定[8]。其次,SCNA可能同时影响多达数千个基因,但驾驶员改变的选择性益处可能仅由其中一个或几个基因介导。出于这些原因,需要进行额外的分析和实验,以区分驾驶员和乘客,并确定他们可能针对的基因。
识别驾驶人的一种常见方法是研究大量癌症样本,其理念是包含驾驶人事件的区域应比仅包含乘客的区域更频繁地发生改变[4,6,7,9-14]。例如,我们开发了一种算法GISTIC(癌症重要靶点的基因组识别)[15],通过评估观察事件的频率和幅度,确定可能的驱动因素SCNA。GISTIC已应用于多种癌症类型,包括胶质母细胞瘤[10,15],肺腺癌[16]、黑色素瘤[17],结直肠癌[18],肝细胞癌[19],卵巢癌[20],髓母细胞瘤[21]以及肺和食管鳞癌[22],并帮助确定了几个新的放大目标(包括NKX2-1型[16],川东北K8[18],VEGFA(血管内皮生长因子)[19],SOX2标准[22]、和MCL1公司和BCL2L1型[4])和删除(EHMT1型[21]). 还描述了几个用于识别可能的驾驶员SCNA的附加算法[23-25](在中审查[26]).
然而,现有的拷贝数分析工具尚未充分解决几个关键挑战。例如,我们和其他人已经证明,人类癌症中SCNA的丰度因其大小而异,染色体臂长度的SCNA比稍大或稍小的SCNA发生的频率更高[4,27]。因此,分析方法需要对复杂的癌症基因组进行建模,这些基因组包含以不同背景速率发生的SCNA类型的混合物。现有的copy-number方法也使用了特别的启发法来定义可能含有真正癌症基因靶点的基因组区域。这些方法无法提供先验的统计置信度一直是解释copy-number分析的主要限制,这是一个重要问题,因为最终用户通常使用这些结果来为耗时的验证实验确定候选基因的优先级。
在这里,我们描述了解决这些挑战的几种方法改进,并在实际和模拟数据集中验证了改进算法的性能。我们已将这些更改合并到修订后的GISTIC管道中,称为GISTIC 2.0。
结果和讨论
拷贝数分析管道概述
癌症拷贝数分析可分为五个离散步骤(图):1)准确定义每个癌症样本的拷贝数分布;2) 确定最有可能产生这些总体特征的SCNA,并估计其背景形成率;3) 根据偶然发生的可能性对每个区域的SCNA进行评分;4) 定义SCNA水平具有统计学意义的独立基因组区域;以及5)确定每个显著改变区域的可能基因靶点。图描述了这一过程的示意性概述,强调了我们将在本手稿中解决的具体方法改进。
文号分析框架示意图概述.对我们的癌症拷贝数分析框架的高级概述,强调了原始GISTIC算法之间的具体差异[15]以及本手稿中描述的GISTIC 2.0管道。第一步是准确识别每个样本中的拷贝数剖面,这对于GISTIC和GISTIC2.0来说是常见的。
第一步是准确定义每个癌症样本的拷贝数,之前的多项研究已经解决了这一问题[28-35]这里不详细讨论。我们假设已获得所有样本的分段拷贝数剖面图,并且已删除所有种系拷贝数变异(CNV),从而生成体细胞事件剖面图。以下部分描述了对步骤2到5的改进。作为癌症基因组图谱(TCGA)项目的一部分,我们在178个多形性胶质母细胞瘤(GBM)癌症DNA与Affymetrix单核苷酸多态性(SNP)6.0阵列杂交的测试集上评估了这些改进[10](“TCGA GBM集合”)和模拟数据。补充方法(附加文件)中描述了每个步骤的完整技术细节1).
将分段拷贝数配置文件分解为基础SCNA
分段拷贝数剖面表示癌症发展过程中发生的所有SCNA的总结果。准确建模拷贝数变化的背景速率需要对单个SCNA进行分析。然而,由于SCNA可能重叠,因此不可能仅从最终分段拷贝数配置文件直接推断潜在事件。然而,鉴于对SCNA背景比率的某些假设,可以估计任何给定候选SCNA集合的可能性,以便选择最可能的一个。
我们开发了一种算法(“Ziggurat Deconstruction”(ZD)),将每个分段的拷贝号配置文件分解为最可能的底层SCNA集(参见附加文件中的补充方法1和附加文件中的补充图S12). ZD是一种迭代优化算法,它交替估计SCNA形成的背景模型,然后利用该模型确定每个拷贝数剖面的最可能解构。它的输出是每个癌症样本中单个SCNA的目录,每个SCNA都具有指定的长度和振幅,其总和生成原始分段拷贝轮廓。我们假设这些SCNA中的大多数是乘客,因此其分布大致反映了“背景”突变过程的操作(参见附加文件中的补充图S2三).
基于长度的焦点和陆军级SCNA分离
ZD方法的一个主要优点是它能够根据长度明确地分离出陆军级和焦点SCNA。先前的研究试图通过设置高振幅阈值来排除手臂水平的SCNA[10,16]因为,与局灶性SCNA相比,很少有陆军级SCNA达到高振幅(图). 然而,这种方法至少有两个不良后果:第一,从分析中消除了低振幅到中等振幅的焦点拷贝数事件,降低了识别阳性区域的敏感性;其次,振幅阈值保留为自由参数,允许分析可能过度拟合到期望结果。
陆军和焦点SCNA的计算分离.(a)箱线图显示了TCGA中178 GBM剖面上放大焦点(长度<染色体臂的98%)和臂水平(长度>染色体臂的98%)SCNA的拷贝数变化分布。黑色虚线表示用于消除伪SCNA的典型低电平幅度阈值,而绿色虚线表示GISTIC前一版本中用于消除臂级SCNA的标准高电平幅度阈值。(b)直方图显示了在178 GBM样本中观察给定长度SCNA的频率。仅占据一条染色体臂的高频率事件导致我们区分了局灶性SCNA和臂级SCNA。(c)热图显示TCGA GBM集合的总分段拷贝数剖面(最左侧面板),以及通过计算将这些样本分为臂级剖面(中间面板)和焦点剖面(最右侧面板)的结果,方法是将臂级和焦点SCNA相加。在每个热图中,染色体从上到下垂直排列,样本从左到右排列。红色和蓝色分别代表收益和损失。
我们之前已经证明,SCNA在不同组织来源的癌症中的频率与SCNA长度成反比,但SCNA的例外情况是,SCNA正好是染色体臂或整个染色体的长度(这种情况非常常见)[4]。TCGA GBM样本中保留了这一趋势(图). 这种可复制的分布为纯粹根据长度将事件分为“武装”和“焦点”提供了自然基础。这种基于长度的事件过滤允许计算重建癌症基因组的“武装”和“焦点”表示(图)并且能够在最终分析中包含低振幅到中等振幅的焦点拷贝数事件。
为了确定这种方法的优点,我们使用三种不同的阈值方法在TCGA GBM集合上运行了原始的“GISTIC 1.0”算法(图; 附加文件中的补充表S14):1)低振幅阈值(log2比值±0.1),仅消除低水平的人工片段;2) 以前使用的高振幅阈值(放大/删除的log2比为0.848和-0.737)[16]消除武装事件;和3)低振幅阈值,但也去除了占染色体臂98%以上的所有SCNA,只留下焦点事件。
基于幅度或基于长度的陆军级事件过滤对GISTIC结果的影响.(a-c)GISTIC放大(顶部)和删除(底部)图使用所有数据和低振幅阈值(a)、所有数据和高振幅阈值(b)以及焦点数据和低幅度阈值(c)。基因组从上到下垂直定向,每个位点的GISTIC q值在对数标度上从左到右绘制。绿线表示显著性阈值(q值=0.25)。对于每个图,当通过所有三个分析确定时,已知或感兴趣的候选基因以黑色突出显示,当通过高振幅或焦距分析确定时以红色突出显示,在通过低振幅或焦长分析确定时则以紫色突出显示,而当仅在焦距分析中确定时以绿色突出显示。
通过使用振幅或长度阈值过滤出臂级事件大大提高了GISTIC检测焦点放大和删除的灵敏度(图; 附加文件中的补充表S14). 而仅使用低振幅阈值,包括7号染色体的增加和10号染色体的丢失,整个染色体都被评分为显著(图),一些复发性病灶改变被遗漏,包括周围的放大川东北6,CCND2型、和HMGA2型使用高振幅检测到这些变化(图)或焦距滤波器(图).
基于长度的滤波的好处是包含了低振幅到中等振幅的震源事件。放大PIK3CA公司和AKT1型和删除WWOX公司使用基于长度的滤波检测,但在高振幅滤波器下不显著(比较图和). 此外,基于长度的分析确定了在两种基于振幅的分析中检测到的显著SCNA,包括MLLT10公司和删除CDKN1B型和NF1型.
在两种基于振幅的分析中均未检测到已知的GBM靶基因,而基于长度的分析也未检测到该基因。这些结果表明,基于长度的陆军级事件过滤大大提高了GISTIC识别震源SCNA相关区域的灵敏度。
SCNA的概率评分
我们开始为SCNA定义一个评分框架,该框架更准确地反映了背景变化率。理想情况下,我们的目标是根据观察到的一组SCNA偶然发生的概率对基因组的每个区域进行评分。使用该框架得出的分数有一个明确的解释:分配给某一地区的分数越高,该地区的SCNA完全偶然被观察到的可能性越小,并且越有可能被正面选择。
观察给定长度和振幅的单个SCNA的概率可以通过整个数据集中类似长度和振幅事件的发生频率来近似计算(如附加文件中的补充图S2所示三). 然而,由于癌症基因组确实包含驱动因素,该程序可能会高估在零模型下观察SCNA的概率。具体而言,驾驶员事件往往比乘客事件的长度更短,振幅更高,因此构成了其长度/振幅邻域中的大多数事件(附加文件中的补充图S35).
为了避免使我们的背景模型产生偏差,我们开始将SCNA的对数概率分布拟合为对数据中驾驶员事件的存在不敏感的函数形式(附加文件中的补充方法1). 我们利用了Affymetrix 250K StyI SNP阵列上运行的3131个癌症样本的大量收集[4]再加上Affymetrix SNP6.0阵列上运行的数百个额外样本(数据未显示)。在这些阵列提供的分辨率水平上,在背景模型下在给定轨迹上观察到焦点SCNA的概率大致与长度无关。因此,对数概率分布的函数形式类似于原始GISTIC G-score定义(G=频率×幅度),但值得注意的例外是,新的分数与拷贝数空间中的幅度而不是对数拷贝数空间的幅度成正比。
尽管这种函数形式是从两个不同阵列平台上运行的大量样本中经验推导出来的,但它确实提高了对平台间动态范围差异以及同一阵列平台内探针差异饱和特性的敏感性。为了避免这个问题,我们通常将分段的拷贝数数据限制在一个代表信号强度的水平,在这个水平上大多数探针开始饱和(附加文件中的补充方法1). 这确保了我们使用的数据来源于探针响应曲线的线性区域,因此跨平台的可比性更强。
与GISTIC 1.0一样,我们获得P(P)-通过将每个位点的得分与由每个样本中标记位置的随机排列产生的背景得分分布进行比较来获得每个标记的值(附加文件中的补充方法1). 此程序控制拷贝号更改率中的样本特定变化。我们更正了结果P(P)-使用Benjamini-Hochberg假发现率方法进行多假设测试的值[36].
非重叠缺失抑癌基因的替代性基因水平评分
一些基因受到非重叠缺失的影响,无论是在一个样本中的不同等位基因上,还是在多个样本中。对于这些基因,基于标记的评分并不衡量影响该基因的所有缺失的存在,尽管这些事件可能对基因功能有类似的有害影响。我们开发了一种改进的评分和排列程序,称为GeneGISTIC,它对基因而不是标记进行评分(附加文件中的补充方法1). 在每个样本中,我们为每个基因指定该基因中包含的任何标记的最小拷贝数,然后对所有样本求和以计算基因得分。由于覆盖更多标记的基因更有可能偶然达到更高的极值,因此对排列过程进行了调整,以考虑基因大小;基因覆盖的得分n个将标记与计算最小总体运行窗口大小生成的特定大小的空分布进行比较n个在每个样本中,然后在基因组中随机排列这些最小值。
为了确定基于基因的缺失评分的效果,我们比较了基于基因和基于标记的评分在TCGA GBM集合上的结果(保持所有其他参数相等)。正如预期的那样,GeneGISTIC将已知抑癌基因排名更高,并且对非重叠缺失的基因更敏感(附加文件中的补充表S26). 例如,RB1型在39个基于基因的评分中排名第5(q值=2.6e-10),但在38个基于标记的评分中仅排名第13(q值=0.0013),以及CDKN1B型根据基因评分法(q值=0.08)排名第26位,而根据标记评分法排名第38位(q值0.19)。NF1型在178个GBM样本中有12个(6.7%)被局部删除,这些删除通常不重叠(附加文件中的补充图S4a7). 其结果是,NF1型根据使用的参数,使用基于标记的分数,得分略高于或略低于显著性阈值。相比之下,NF1型使用基于基因的评分对所有参数组合进行稳健识别(附加文件中的补充表S26和数据未显示)。
然而,由于这种评分方法并没有对注释基因以外的基因组区域进行评分,它可能会低估或完全忽略非基因区域中发生的缺失。例如,在我们的GBM样本中,基于基因的评分并不能识别第9页在chr13q21.3上,使用基于标记的标准分数(附加文件中的补充图S4b),得分为高度显著(q值=4.4e-9)7). 虽然许多非基因缺失事实上可能代表技术伪影或罕见的种系事件,但有些可能与功能相关。
识别独立的显著改变区域
单个SCNA,甚至基因组中显著扩增或缺失的区域,可能延伸到多个癌基因或抑癌基因。其他重要区域可能不包含致癌基因或抑癌基因,但由于靠近目标基因,因此具有明显的意义。因此,在全基因组评分后需要额外的步骤来识别独立的重要区域。
GISTIC 1.0通过使用迭代“剥离”算法解决了这个问题,该算法贪婪地将所有SCNA分配给每条染色体上的最大峰值,将其从数据中删除,并重新搜索,直到没有剩余区域超过显著性阈值。这种方法降低了识别接近先前确定的重要区域的二次峰值的能力(图). 然而,由于单个SCNA可能会影响多个驱动区域,因此不太贪婪的方法可能会识别额外的峰值,而不会显著增加错误发现率。
剥离对检测次要驱动因素事件的敏感性GISTIC使用标准剥离法(蓝线)或仲裁剥离法(红线)对两个模拟数据集显示了在独立(不包含主要驱动因素)峰值中恢复的次要驱动因素事件的平均分数。(a)数据来源于300个样本中的1000条模拟染色体,其中10%的样本中存在主要驱动事件,5%的样本中存在固定距离外的次要驱动事件。(b)数据来自300个样本中的10000条模拟染色体,其中10%的样本中存在一个主驱动事件,5%的样本中有一个次驱动事件,其中与主驱动事件重叠的次驱动事件的比例在100%之间变化(完全相关;最左端)0%(完全独立;极右翼)。误差条表示平均值的平均值±标准误差(有些太小,无法看到)。
因此,我们修改了该方法,以允许SCNA产生多个峰(“平均剥离”)。我们首先贪婪地将SCNA的全部分数分配给它所覆盖的最显著的峰值。然而,在随后的步骤中,我们允许重新分配之前分配的段的分数,然后再决定假定区域是否重要(附加文件中的补充方法1). 与原始算法一样,当没有任何区域的调整分数超过显著性阈值时,该过程将终止。最近提出了对GISTIC的类似修改[37].
仲裁剥离比原始算法更敏感(图; 附加文件中的补充表S38). 我们生成了10000个模拟数据集,每个数据集包含300个样本,每个染色体在10%的样本中包含一个主要驱动事件,在5%的样本中含有一个次要驱动事件。我们分析了标准剥离和仲裁剥离的灵敏度,以检测二次峰值,因为我们将二次驱动事件与一次驱动事件峰值重叠的百分比改变为0%至100%(附加文件中的补充方法1). 当重叠度为0%时,这两种方法在识别二次峰方面几乎同样敏感。然而,仲裁剥离比标准剥离敏感得多,因为我们将主峰和副峰之间的重叠率从5%增加到50%(图)平均回收2.4倍(范围1.2至3.8)的二次峰值。通过仲裁剥离确定的80%以上的新峰与实际模拟的驱动峰相对应,表明灵敏度的增加伴随着高特异性。
当重叠超过50%时,主次峰趋于合并,模糊了两种方法之间的任何明显差异(附加文件中的补充图S59). 事实上,一旦重叠百分比上升到80%以上,这两种方法都无法独立识别二次峰。这些仿真结果既证明了仲裁剥离的优越敏感性,也证明了识别相邻驾驶员的挑战性。
定位每个显著改变区域的靶基因
GISTIC管道中的最后一步是确定最有可能包含SCNA每个独立重要区域的一个或多个靶基因的区域(“峰值区域”)。标准方法是关注重叠的最小公共区域(MCR)(图),该区域在数量最多的样本中发生改变,因此预计最有可能包含目标基因。然而,一个或多个与目标基因相邻但不重叠的乘客SCNA可能导致不包括真正目标的MCR。这种情况经常发生,尤其是当驾驶员事件的频率较低时(<5%;图). 另一种方法(GISTIC 1.0使用)是应用启发式“leave-k-out”程序来定义每个峰值区域的边界(图) [15]。该程序假设多达k名乘客的SCNA(通常为k=1)可能会异常定义峰值区域的每个边界。而“leave-k-out”程序正确识别目标基因的频率高于MCR(图),它受到自由参数k引入的过拟合的潜在影响。此外,“leave-k-out”的准确性取决于样本数量和所讨论事件的频率。对于固定k,“leave-k-out”的灵敏度随着驱动器频率的增加而增加(图)并且随着样本量的增加而减少(图).
寻峰算法的灵敏度.(a)演示各种峰值查找方法的示意图。左侧面板显示了一条模拟染色体的GISTIC评分曲线,该模拟染色体包含涵盖指定目标基因的驾驶员事件和随机散布在染色体上的乘客事件的混合。右侧插图以更高的细节显示了最大G-score周围的区域(左侧面板中的灰色框)。MCR(红色虚线)被定义为线段重叠最大的区域,或G得分最高的区域。在依次删除每个样本并将MCR的最小和最大范围作为左边界和右边界后,通过重复计算MCR来获得删除k-out过程(此处显示的蓝色虚线表示k=1)。RegBounder的工作原理是试图找到一个区域(绿色虚线),在该区域上,边界和最大峰值得分之间的变化在局部范围分布的第gth个百分位内(附加文件中的补充方法1). 在这里,RegBounder生成的区域比MCR或leave-k-out过程更宽,但它是唯一一种边界包含真正驱动程序基因的方法。(b、c)峰值区域内包含的驾驶员事件的平均分数(条件是在10 Mb内找到GISTIC峰值)绘制为MCR(红色)、leave-1-out(蓝色)和RegBounder算法(后者在不同置信水平下:50%,洋红色;75%,绿色;95%,黑色)的驾驶员频率(b)或样本大小(c)的函数。在(b)中,数据来自500个样本中的10000条模拟染色体,其中驱动频率从1%到10%不等。在(c)中,数据来源于10000条模拟染色体,样本数量可变,其中驱动频率固定为5%。误差条表示平均值的平均值±标准误差(有些太小,无法看到)。
我们开发了一种新的方法(称为“RegBounder”)来定义峰值区域边界,以使目标基因在预先确定的置信水平上包括在内,而不管所研究的事件频率或样本数量如何(图; 附加文件中的补充方法1). RegBounder对任何给定窗口大小内G分数的预期随机波动进行建模,并使用此分布定义一个置信区域,该置信区域可能包含至少γ%时间内的真实驱动因素,其中γ是期望的置信水平。与MCR和“退出-退出”程序不同,后者高度依赖于一个或几个区段边界来定义每个区域,RegBounder被设计为对边界分配中的随机误差(由于技术人工制品或乘客区段)具有相对鲁棒性。当应用于实际数据时,RegBounder在局部噪声增加的区域(图)但在噪音较小的区域,它能够产生比“leave-1-out”更窄的边界(图).
RegBounder to MCR和leave-1-out程序应用于原发性肺腺癌的比较。RegBounder相对于以前的峰值发现程序的优势体现在GISTIC分析371例肺腺癌样本中确定的两个明确描述的癌基因峰,Affymetrix 250K StyI SNP阵列(发表于[16]).(a)染色体12p12.1上有一个清晰的扩增峰,MCR(红色虚线)靠近但不包含已知肺癌癌基因KRAS公司。由于该地区有两个以上明显的乘客事件,离开尖峰(蓝色虚线)也不包含KRAS公司然而,RegBounder(绿色虚线)产生一个更宽的峰值,捕获KRAS公司.(b)染色体5p15.33上的一个扩增峰包含hTERT基因人端粒酶全酶的催化亚单位,位于MCR(红色虚线)内。在这种情况下,RegBounder(绿色虚线)产生的峰区域比相应的leave-1-out峰(蓝色虚线)窄,这表明RegBounder's能够在峰区域大小和准确性之间实现更大的平衡。在(a)和(b)中,y轴表示扩增G得分,x轴表示相应染色体的位置。
在模拟数据集中,RegBounder的性能在广泛的驱动器SCNA频率范围内保持一致(图)和样品尺寸(图),并且确实控制了包含驱动程序的概率。当以期望的置信水平(γ)分别为50、75和95%运行时,RegBounder在72%、85%和95%的不同频率的驱动区域中捕获了真正的驱动基因。如果没有样本大小、驱动频率和γ的组合,RegBounder的平均精度会降至γ以下。
与MCR或“leave-k-out”方法相比,RegBounder还证明了峰区敏感性(包括目标基因的可能性)和特异性(包括额外基因的数量)之间的最佳权衡。峰值区域的平均大小随着驱动频率的增加而减小(图)和样本大小(图)对于所有三种方法。然而,与其他方法相比,RegBounder对这些变量更为敏感,因此RegBounderpeak区域(75%置信度)的平均范围可能比“leave-k-out”峰值区域大90倍(对于几乎没有总驱动事件的数据集,其中目标基因的位置确实不确定)比“leave-k-out”程序小37%(对于包含许多总驾驶员事件的数据集)。因此,在生成比“leave-k-out”过程更窄的区域时,甚至可以提高RegBounder的信心。
寻峰算法的特殊性.(a、b)MCR(红色)、leave-out(蓝色)和RegBounder(绿色,75%置信度)产生的峰值区域的中值大小显示为驱动器频率(a)和样本大小(b)的函数。在(a)中,数据来自500个样本中的10000条模拟染色体,其中驱动频率从1%到10%不等。在(b)中,数据来源于10000条模拟染色体,样本数量可变,其中驱动频率固定为5%。(c)比较RegBounder(绿线)获得的峰区大小与理论上最小的峰区尺寸(黑线),理论上最小峰区尺寸可以通过具有类似置信水平的任何峰值查找算法获得(附加文件中的补充方法1). 误差条表示平均值的平均值±标准误差(有些太小,无法看到)。
RegBounder在数据集上也比MCR和“leave-k-out”方法更一致。我们将TCGA GBM集合随机分为两组,并比较RegBounder和MCR产生的峰值区域以及每一组的“leave-k-out”过程。仅考虑GISTIC在两个数据集中确定的峰值,两个数据集之间只有23%的MCR和31%的“leave-k-out”峰值区域重叠,反映出这些区域分配的置信度较低。相比之下,大多数(53%)RegBounder峰区(75%置信度)重叠,如预期(0.752= 56%). 与leave-k-out(163kb)或MCR(115kb)峰区相比,RegBounder峰区(370kb)的中位数仅略有增加,重叠增加。
对于宽范围的驱动频率,RegBounder区域平均只比理论上的最小峰值区域大19%(图)和置信水平(附加文件中的补充图S610). 这些理论上最小的峰区大小是根据我们模拟中靶基因和MCR之间的距离分布得出的(附加文件中的补充方法1). 我们的模拟表明,RegBounder能够产生比“leave-k-out”方法更小的峰值区域,同时实现更大的目标基因召回(比较图和; 'RegBounder 75%”与“leave-1-out”,对于驾驶员频率>5%)。因此,RegBounder是一种用于峰值区域边界确定的稳健算法,与以前的启发式方法相比,它在统计置信度和峰值分辨率之间实现了更优的折衷。
源代码和模块可用性
GISTIC2.0管道的MATLAB源代码以及预编译的unix可执行文件将在以下网址下载:[38]。此外,可以通过GenePattern分析门户访问整个管道[39].
除了包含本手稿中描述的所有方法改进外,GISTIC2.0源代码还设计为在存储分段拷贝号数据时有效利用内存(附加文件中的补充方法1). 这种提高的内存效率应该允许计算资源有限的用户在典型大小的数据集上运行GISTIC2.0,并且随着拷贝数测量平台的密度继续快速增长,对所有用户来说都将变得越来越重要。
结论
我们描述了对标准拷贝数分析工作流程的一些分析改进,这些改进提高了驱动基因定位的敏感性和特异性。我们还使用模拟和真实的癌症拷贝数数据集证明了每个变化的效用。虽然这些变化已在GISTIC 2.0中具体实施,但我们描述的挑战广泛适用于确定癌症中SCNA显著异常区域的一般任务,我们预计我们描述的方法可以适用于其他拷贝数分析工作流。
我们概述的程序能够对SCNA的背景速率进行数据驱动估计,以及这些速率如何随SCNA的特征(例如长度或振幅)而变化。我们观察到的具体趋势可能取决于用于生成数据集的测量平台的分辨率和特性(Affymetrix 250K StyI和SNP6.0阵列)。随着更多癌症样本使用高分辨率阵列和测序平台进行表征,可能会出现新的趋势。进一步的改进将考虑到这些趋势,可能会考虑到可能决定SCNA背景率的其他特征,例如基因组或周围序列背景中已知易碎位点的存在。事实上,我们和其他人最近已经证明,体细胞缺失经常发生在基因组足迹较大的基因中[4,6]这表明在我们的背景突变模型中目前尚未解释的体细胞缺失率中存在背景偏差。我们的概率评分框架允许在指定背景模型后对此类趋势进行说明。
对于重要的SCNA,背景速率估计也能够以预定的置信度描绘可能包含靶基因的区域。RegBounder是我们设计用于分配这些边界的算法,它比基于MCR或“leave-k-out”的方法更健壮。当驾驶员轨迹上的信息段数量较少时,RegBounder通过产生更宽的峰值区域来实现更高的灵敏度,但我们发现,与理论上的最佳性能相比,RegBonder表现良好。然而,RegBounder的基本假设可能并不总是满足,包括每个峰值区域包含一个显性靶基因的假设,以及拷贝数断点独立分布在驱动基因座周围的期望。在违反这些假设的情况下,RegBounder的性能可能比我们的模拟显示的还要差。
虽然本手稿中描述的仲裁剥离方法反映了一种比我们之前的方法更敏感的识别扩增和删除的独立靶区的方法,但它仍然是一种不完善的尝试,无法破译癌症拷贝数改变的复杂性。一个主要的限制源于这样一个事实,即基于阵列的测量将SCNA映射到线性参考基因组上。然而,许多SCNA之前都会发生重排事件,这些重排事件将生殖系中相距很远的基因组区域(甚至不同的染色体)并列在一起[40,41]。这种详细的结构信息不可能从探针级拷贝数估计中推断出来,但可以通过对配对文库进行排序来获得[13]。事实上,我们预计,随着测序成本持续下降,从癌症样本的鸟枪测序中获得的拷贝数信息将变得更加普遍[42]。已经存在从测序覆盖率数据中估计和分割拷贝数值的工具[5]这些分段的copy-number配置文件只需稍加修改即可在GISTIC 2.0工作流中运行。然而,充分利用这些技术提供的详细信息将需要对背景突变模型进行重大扩展,以包括随机基因组重排的概率,以及执行显著性分析、片段剥离、,以及参考基因组非相邻区域的峰值发现。这些测序工作提供的数据将为不同癌症类型中SCNA生成的细胞和分子过程提供新的见解,并将为肿瘤发展过程中此类事件背景突变率的更详细和准确模型的开发提供支持。
补充材料
附加文件1:补充方法补充方法包含了GISTIC2.0方法的完整描述以及本手稿中提出的具体分析的细节。
附加文件2:补充图S1:Ziggurat解构.(a)用Ziggurat解构(ZD)用于初始化背景SCNA速率的简化程序解构假设的分段染色体(绿线)。红色和蓝色虚线分别表示放大和删除的SCNA的长度和振幅,而红色和蓝色实线表示将SCNA与最近的相邻片段合并的结果。(b)相同的假想分段染色体(绿线)使用更灵活的后续ZD轮程序进行解构。这里,ZD是针对最多两个适合数据的基础水平(品红色虚线)执行的,允许叠加放大和删除的SCNA。
附加文件3:补充图S2:SCNA长度和振幅的分布二维直方图,显示拷贝数事件的频率(z轴)作为长度(x轴)和幅度(y轴)的函数。频率以对数标度绘制,以便于可视化极低频拷贝数事件。
附加文件4:补充表S1:SCNA基于幅度和长度的滤波比较补充表1比较了使用低振幅和高振幅阈值获得的GISTIC结果与使用焦距阈值获得的178 GBM样本的GISTICI结果。
附加文件5:补充图S3:驱动器长度和振幅分布驾驶员SCNA通常比随机乘客SCNA的长度短,振幅高。(a、b)在这里,我们显示了SCNA振幅(a)和长度(b)的累积频率分布,SCNA覆盖由GISTIC(“驱动SCNA”,红线)或由类似数量的随机选择的非驱动区域(“随机SCNAs”,蓝线)识别的显著放大区域。
附加文件6:补充表S2:GeneGISTIC和标准GISTIC缺失分析的比较。补充表2比较了使用标准GISTIC缺失分析获得的GISTIC结果与使用GeneGISTIC获得的178 GBM样本的结果。
附加文件7:补充图S4:GeneGISTIC与标准GISTIC.(a)GeneGISTIC有助于识别非重叠缺失的基因,例如NF1型。左侧面板显示了影响焦点删除的12个样本NF1型,其中许多没有重叠。因此,标准GISTIC标记分数(蓝色线,右面板)有多个局部最大值NF1型相比之下,GeneGISTIC评分将所有这些缺失视为对NF1型得分,为NF1型(红线,右面板)明显大于分配给覆盖NF1的任何单个标记的标记。(b)GeneGISTIC不会对发生在基因外的缺失进行评分。左侧面板显示的焦点删除区域正好发生在PCHD9系列13号染色体上的基因。这些缺失导致标记缺失得分达到GeneGISTIC未检测到的峰值(右侧面板的蓝线)。
附加文件8:补充表S3:仲裁剥离检测到的新峰值。补充表3比较了使用标准剥离算法获得的GISTIC结果和使用仲裁剥离获得的178 GBM样本的GISTICI结果。
附加文件9:补充图S5:二次驱动峰值的总恢复此图显示了300个样本的10000次模拟的结果,其中10%的样本中存在一个主驱动程序事件,5%的样本中有一个辅助驱动程序事件。在这些模拟中,我们改变了驾驶员事件之间重叠的比例,从100%(总相关性)到0%(总独立性)。在这里,我们使用仲裁剥离(左面板)或标准剥离(右面板),展示了GISTIC运行中二级驱动器峰值的总恢复。红色(左侧面板)或蓝色(右侧面板)线显示了独立GISTIC峰值中确定的次要驱动因素峰值的比例(即不包含主要驱动因素事件),如图所示黑线显示在相关峰值(即,包含主要和次要驾驶员事件的峰值)中识别的次要驾驶员峰值的分数,而绿线显示次要驾驶员峰值(在任何峰值中)的总召回率。绘制了表示平均值±标准误差的误差条,但可能小于用于表示平均值的点,因此不可见。
附加文件10:补充图S6:RegBounder与理论最佳峰值的比较比较RegBounder(绿线)获得的峰区大小与理论上最小的峰区尺寸(黑线),理论上最小峰区尺寸可以通过类似的自信峰值查找算法获得(附加文件中的补充方法1)50%(左)和95%(右)置信度。绘制了表示平均值的中位数±标准误差的误差条,但可能小于用于表示中位数的点,因此不可见。