Vonn Walter、Hyo Young Choi、Xiaobei Zhao、Yan Gao、Jeremiah Holt、D Neil Hayes、DiNAMIC。Duo:在没有正常参考的情况下检测体细胞DNA拷贝数差异,生物信息学,第38卷,第18期,2022年9月,第4415–4417页,https://doi.org/10.1093/bioinformatics/btac542
由于潜在的基因组不稳定性,肿瘤组织中出现体细胞DNA拷贝数改变(CNA)。在多个独立样本的同一基因组区域发生的复发性CNA引起了研究人员的兴趣,因为它们可能包含有助于癌症表型的基因。然而,癌症之间拷贝数状态的差异也很常见,例如在同一解剖位置比较不同形态的肿瘤时。当前的方法由于无法在肿瘤队列之间直接比较CNA而受到限制,因此无法正式评估观察到的拷贝数差异的统计意义,也无法确定出现这些差异的基因组区域。
我们介绍DiNAMIC。Duo R软件包,可用于识别单个队列中的复发CNA或两个队列之间的复发拷贝数差异,包括当两个队列都不是拷贝中性时。该包利用Python脚本提高计算效率,并提供生成图形和摘要输出文件的功能。
DiNAMIC。CRAN提供Duo R套装,网址为https://cran.r-project.org/web/packages/DiNAMIC.Duo/index.html本文使用了来自布罗德研究所TCGA基因组数据分析中心的公开可用数据,https://doi.org/10.7908/C11G0KM9.
补充数据可在生物信息学在线。
基因组不稳定是癌症的一个特征,它可以导致各种结构变异,包括DNA拷贝数改变(CNA)。在多个独立样本的同一基因组区域中观察到一些称为复发的CNA。据信,复发性CNA的出现是因为它们为癌症的发生、癌症的促进或治疗耐药性提供了选择性优势。例如,扩增可以导致癌基因的高表达,从而推动细胞增殖或侵袭性的增加;同样,肿瘤抑制基因的丢失可能导致细胞周期调节受损或DNA损伤修复。相反,随机散布在基因组中的零星CNA在生物学上的相关性较小。已经开发了几种生物信息学工具来识别单个肿瘤队列中复发的CNA,包括GISTIC(贝鲁金等。, 2007),RUBIC公司(范戴克等。, 2016)和DiNAMIC(沃尔特等。, 2011),所有这些都是在没有复发性CNA的无效假设下运行的。这些工具已用于多组学肿瘤轮廓分析,这一点可以从GISTIC在癌症基因组图谱(TCGA)研究网络进行的研究中得到证明。
值得注意的是,似乎没有现有的工具来识别两个队列之间的重复拷贝数差异,例如当比较组是两组肿瘤时。相反,对基因表达数据进行相应的分析,即识别两种条件下差异表达的基因,是许多基因表达谱研究的基本部分。相反,拷贝数差异通常是通过分别分析每个队列并比较结果来推断的。例如,在头颈部鳞状细胞癌的TCGA研究中(癌症基因组图谱网络,2015年)对有和无人乳头瘤病毒(HPV)感染的患者进行的单独GISTIC分析表明,癌基因的增加表皮生长因子受体在HPV阴性患者中很常见,但在HPV阳性受试者中基本上不存在。虽然这些信息很有用,但分析方法有局限性,因为没有直接比较各组。因此,不可能评估观察到的拷贝数差异的统计显著性,也无法准确地确定发生这些差异的基因组区域。这激发了我们开发DiNAMIC的兴趣。Duo通过利用循环移位测试的理论研究,在DiNAMIC的基础上进行了扩展(沃尔特等。, 2015). 迪纳米克。Duo提供了DiNAMIC中没有的附加功能,并通过使用Python脚本提高了计算效率。DiNAMIC。CRAN提供Duo R软件包。
DiNAMIC公司。拷贝数差异的双重分析从矩阵开始X(X)和Y(Y)其包含定量的基因水平拷贝数测量。单个队列中的收益或损失可以通过设置Y(Y)=空。的条目X(X)和Y(Y)假设为对数比例标度并进行标准化,以便零对应于复制中性;负值和正值分别对应于损耗和增益。第行,共行X(X)和Y(Y)由常染色体中以基因组顺序出现的一组常见基因索引;列,共列X(X)和Y(Y)对应于独立样本。迪纳米克。Duo包括查询biomeRt R包和重新格式化的功能X(X)和Y(Y),如有必要。
我们写作X(X)¯我和Y(Y)¯我基因的平均DNA拷贝数我在里面X(X)和Y(Y)分别是。简单地说,对于所有基因我,观察到基因水平均值的差异X(X)¯我-Y(Y)¯我已计算。正拷贝数和负拷贝数的差异是分开分析的,这里我们只关注正拷贝数的不同;负差异的处理方式类似。假设拷贝数差异最大,最大值我(X(X)¯我-Y(Y)¯我)在基因中观察到k个=argmax(最大值)(X(X)¯我-Y(Y)¯我).如果πX(X)j个(X(X))和πY(Y)j个(Y(Y))表示的循环移位X(X)和Y(Y)分别针对j个 = 1,…,n个,经验零分布{最大值我(πX(X)j个X(X)¯我-πY(Y)j个(Y(Y))¯我)}j个=1n个用于评估最大值我(X(X)¯我-Y(Y)¯我)DiNAMIC公司。然后应用Duo的剥离算法修改X(X)和Y(Y)所以拷贝数不同X(X)¯我-Y(Y)¯我在基因周围的基因组区域k个是中性的,而基因组其余部分的拷贝数差异保持不变。因此,通过迭代应用剥离算法,可以识别出基因组中正拷贝数差异对应的多个峰值。我们的方法可以使用相同的零分布来评估多个正峰值的显著性,同时控制家庭误差率。此外,因为最大值我(X(X)¯我-Y(Y)¯我)在恒定循环移位下是不变的,我们对循环移位测试的理论研究(沃尔特等。, 2015)暗示DiNAMIC。Duo的P(P)-值是渐近一致的。我们评估统计显著性的方法、剥离算法以及摘要输出文件和图的示例的详细信息,请参阅补充材料.
肺癌是癌症相关死亡的主要原因,而肺腺癌(LUAD)和肺鳞癌(LUSC)是最常见的非小细胞肺癌类型。最近的两项研究使用了来自TCGA LUAD和LUSC队列的基因表达数据(癌症基因组图谱研究网络,2014年,2012)识别预测性生物标志物(陈和达比,2021年)以及关键信号通路的差异(阿努塞维奇等。, 2020). 观察到许多差异表达基因,包括TP63型,PIK3CA公司和SOX2标准(所有chr3q),NKX2-1型(chr14q13)和E2F1系列(chr20q11)。图1显示了TCGA LUAD(实线)和LUSC(虚线)队列的全基因组平均基因级拷贝数值,以及差异LUAD−LUSC(点线)。LUAD−LUSC的显著阳性和阴性峰值表明存在许多基因组区域,其中包含统计上显著的差异。中的结果补充表S1证实了这些观察结果,事实上,上面提到的所有基因都位于DiNAMIC确定的区域。二人组。因此,潜在的拷贝数差异可能会导致观察到的表达差异。拷贝数增益MYC公司在LUAD和LUSC中都观察到导致表达增加的癌基因(chr8q24)。有趣的是,尽管阿努塞维奇等。(2020)发现MYC公司差异表达,我们在该区域没有观察到具有统计意义的拷贝数差异。
肺癌的DNA拷贝数差异。肺腺癌(LUAD,实线)和肺鳞癌(LUSC,虚线)TCGA研究的平均DNA拷贝数的基因组图。平均拷贝数差异LUAD−LUSC如虚线所示,其中许多差异非常显著。
LUAD和LUSC都表现出大量的重复拷贝数增加和减少,其中一些出现在同一基因组区域。通过直接比较两个肿瘤队列,DiNAMIC。Duo提供了单队列方法无法提供的见解。例如CDKN2A型在LUAD和LUSC中都观察到。以下方面的差异CDKN2A型LUAD−LUSC在统计上显著且为负值,因此表明LUSC的损失更为显著。相比之下,尽管表皮生长因子受体在这两种肿瘤类型中观察到表皮生长因子受体在LUAD−LUSC中不显著。单队列方法无法区分这一点。
我们使用了两种不同的方法来模拟DNA拷贝数矩阵X(X)和Y(Y)包括DiNAMIC原稿中的方法。我们的结果证明了DiNAMIC。Duo检测到重复出现的拷贝数差异,并且随着差异影响大小的增加,功率也会增加。已知肿瘤纯度和倍性的变化会使DNA拷贝数分析复杂化。我们发现X(X)和Y(Y)当同一位点的两个矩阵中都存在相同效应大小的增益时,增加识别统计显著差异的可能性。有关模拟研究的详细信息,请参阅补充材料.
我们介绍DiNAMIC。Duo是一种检测两个肿瘤队列之间复发DNA拷贝数差异的新工具。通过分析公开的TCGA肺癌数据,我们确定了潜在的拷贝数差异,这些差异可能会导致最近研究中发现的差异基因表达。
这项工作得到了美国国立卫生研究院的支持[R01CA211939、U24CA264021、UG1CA23333、U24CAP210988和R01DE025712至D.N.H.]。
利益冲突:未声明。
阿努塞维奇 D。等(
谷歌学者
书目数据库
贝鲁金 R。等(
陈 J.W.公司。,达赫比 J。(
范戴克 E.公司。等(
沃尔特 五、。等(
登录或创建帐户
此PDF仅供订阅用户使用
要完全访问此pdf,请登录现有帐户或购买年度订阅。