DiNAMIC.Duo: detecting somatic DNA copy number differences without a normal reference

Walter, Vonn; Choi, Hyo Young; Zhao, Xiaobei; Gao, Yan; Holt, Jeremiah; Hayes, D Neil

doi:10.1093/bioinformatics/btac542

摘要

动机

由于潜在的基因组不稳定性，肿瘤组织中出现体细胞DNA拷贝数改变（CNA）。在多个独立样本的同一基因组区域发生的复发性CNA引起了研究人员的兴趣，因为它们可能包含有助于癌症表型的基因。然而，癌症之间拷贝数状态的差异也很常见，例如在同一解剖位置比较不同形态的肿瘤时。当前的方法由于无法在肿瘤队列之间直接比较CNA而受到限制，因此无法正式评估观察到的拷贝数差异的统计意义，也无法确定出现这些差异的基因组区域。

结果

我们介绍DiNAMIC。Duo R软件包，可用于识别单个队列中的复发CNA或两个队列之间的复发拷贝数差异，包括当两个队列都不是拷贝中性时。该包利用Python脚本提高计算效率，并提供生成图形和摘要输出文件的功能。

可用性和实施

DiNAMIC。CRAN提供Duo R套装，网址为https://cran.r-project.org/web/packages/DiNAMIC.Duo/index.html本文使用了来自布罗德研究所TCGA基因组数据分析中心的公开可用数据，https://doi.org/10.7908/C11G0KM9.

补充信息

补充数据可在生物信息学在线。

1引言

基因组不稳定是癌症的一个特征，它可以导致各种结构变异，包括DNA拷贝数改变（CNA）。在多个独立样本的同一基因组区域中观察到一些称为复发的CNA。据信，复发性CNA的出现是因为它们为癌症的发生、癌症的促进或治疗耐药性提供了选择性优势。例如，扩增可以导致癌基因的高表达，从而推动细胞增殖或侵袭性的增加；同样，肿瘤抑制基因的丢失可能导致细胞周期调节受损或DNA损伤修复。相反，随机散布在基因组中的零星CNA在生物学上的相关性较小。已经开发了几种生物信息学工具来识别单个肿瘤队列中复发的CNA，包括GISTIC(贝鲁金等。, 2007)，RUBIC公司(范戴克等。, 2016)和DiNAMIC(沃尔特等。, 2011)，所有这些都是在没有复发性CNA的无效假设下运行的。这些工具已用于多组学肿瘤轮廓分析，这一点可以从GISTIC在癌症基因组图谱（TCGA）研究网络进行的研究中得到证明。

值得注意的是，似乎没有现有的工具来识别两个队列之间的重复拷贝数差异，例如当比较组是两组肿瘤时。相反，对基因表达数据进行相应的分析，即识别两种条件下差异表达的基因，是许多基因表达谱研究的基本部分。相反，拷贝数差异通常是通过分别分析每个队列并比较结果来推断的。例如，在头颈部鳞状细胞癌的TCGA研究中(癌症基因组图谱网络，2015年)对有和无人乳头瘤病毒（HPV）感染的患者进行的单独GISTIC分析表明，癌基因的增加表皮生长因子受体在HPV阴性患者中很常见，但在HPV阳性受试者中基本上不存在。虽然这些信息很有用，但分析方法有局限性，因为没有直接比较各组。因此，不可能评估观察到的拷贝数差异的统计显著性，也无法准确地确定发生这些差异的基因组区域。这激发了我们开发DiNAMIC的兴趣。Duo通过利用循环移位测试的理论研究，在DiNAMIC的基础上进行了扩展(沃尔特等。, 2015). 迪纳米克。Duo提供了DiNAMIC中没有的附加功能，并通过使用Python脚本提高了计算效率。DiNAMIC。CRAN提供Duo R软件包。

2 DiNAMIC公司。Duo工作流和输出

DiNAMIC公司。拷贝数差异的双重分析从矩阵开始 $X（X）$ 和 $Y（Y）$ 其包含定量的基因水平拷贝数测量。单个队列中的收益或损失可以通过设置 $Y（Y）$ =空。的条目 $X（X）$ 和 $Y（Y）$ 假设为对数比例标度并进行标准化，以便零对应于复制中性；负值和正值分别对应于损耗和增益。第行，共行 $X（X）$ 和 $Y（Y）$ 由常染色体中以基因组顺序出现的一组常见基因索引；列，共列X（X）和Y（Y）对应于独立样本。迪纳米克。Duo包括查询biomeRt R包和重新格式化的功能 $X（X）$ 和 $Y（Y）$ ⁠，如有必要。

我们写作 ${\bar{X（X）}}_{我}$ 和 ${\bar{Y（Y）}}_{我}$ 基因的平均DNA拷贝数 $我$ 在里面 $X（X）$ 和 $Y（Y）$ ⁠分别是。简单地说，对于所有基因 $我$ ⁠，观察到基因水平均值的差异 ${\bar{X（X）}}_{我} - {\bar{Y（Y）}}_{我}$ 已计算。正拷贝数和负拷贝数的差异是分开分析的，这里我们只关注正拷贝数的不同；负差异的处理方式类似。假设拷贝数差异最大， ${最大值}_{我} ({\bar{X（X）}}_{我} - {\bar{Y（Y）}}_{我})$ ⁠在基因中观察到 $k个 = argmax（最大值） ({\bar{X（X）}}_{我} - {\bar{Y（Y）}}_{我})$ ⁠.如果 $π_{X（X） j个} (X（X）)$ 和 $π_{Y（Y） j个} (Y（Y）)$ 表示的循环移位X（X）和Y（Y）分别针对j个 = 1,…,n个，经验零分布 ${{最大值}_{我} ({\bar{π_{X（X） j个} (X（X）)}}_{我} - {\bar{π_{Y（Y） j个} (Y（Y）)}}_{我})}_{j个 = 1}^{n个}$ 用于评估 ${最大值}_{我} ({\bar{X（X）}}_{我} - {\bar{Y（Y）}}_{我})$ ⁠DiNAMIC公司。然后应用Duo的剥离算法修改 $X（X）$ 和 $Y（Y）$ 所以拷贝数不同 ${\bar{X（X）}}_{我} - {\bar{Y（Y）}}_{我}$ 在基因周围的基因组区域 $k个$ 是中性的，而基因组其余部分的拷贝数差异保持不变。因此，通过迭代应用剥离算法，可以识别出基因组中正拷贝数差异对应的多个峰值。我们的方法可以使用相同的零分布来评估多个正峰值的显著性，同时控制家庭误差率。此外，因为 ${最大值}_{我} ({\bar{X（X）}}_{我} - {\bar{Y（Y）}}_{我})$ 在恒定循环移位下是不变的，我们对循环移位测试的理论研究(沃尔特等。, 2015)暗示DiNAMIC。Duo的P（P）-值是渐近一致的。我们评估统计显著性的方法、剥离算法以及摘要输出文件和图的示例的详细信息，请参阅补充材料.

3在肺癌中的应用

肺癌是癌症相关死亡的主要原因，而肺腺癌（LUAD）和肺鳞癌（LUSC）是最常见的非小细胞肺癌类型。最近的两项研究使用了来自TCGA LUAD和LUSC队列的基因表达数据(癌症基因组图谱研究网络，2014年,2012)识别预测性生物标志物(陈和达比，2021年)以及关键信号通路的差异(阿努塞维奇等。, 2020). 观察到许多差异表达基因，包括TP63型,PIK3CA公司和SOX2标准（所有chr3q），NKX2-1型（chr14q13）和E2F1系列（chr20q11）。图1显示了TCGA LUAD（实线）和LUSC（虚线）队列的全基因组平均基因级拷贝数值，以及差异LUAD−LUSC（点线）。LUAD−LUSC的显著阳性和阴性峰值表明存在许多基因组区域，其中包含统计上显著的差异。中的结果补充表S1证实了这些观察结果，事实上，上面提到的所有基因都位于DiNAMIC确定的区域。二人组。因此，潜在的拷贝数差异可能会导致观察到的表达差异。拷贝数增益MYC公司在LUAD和LUSC中都观察到导致表达增加的癌基因（chr8q24）。有趣的是，尽管阿努塞维奇等。(2020)发现MYC公司差异表达，我们在该区域没有观察到具有统计意义的拷贝数差异。

肺癌的DNA拷贝数差异。肺腺癌（LUAD，实线）和肺鳞癌（LUSC，虚线）TCGA研究的平均DNA拷贝数的基因组图。平均拷贝数差异LUAD−LUSC显示在虚线中，其中许多差异非常显著。

图1。

肺癌的DNA拷贝数差异。肺腺癌（LUAD，实线）和肺鳞癌（LUSC，虚线）TCGA研究的平均DNA拷贝数的基因组图。平均拷贝数差异LUAD−LUSC如虚线所示，其中许多差异非常显著。

新标签中打开下载幻灯片

LUAD和LUSC都表现出大量的重复拷贝数增加和减少，其中一些出现在同一基因组区域。通过直接比较两个肿瘤队列，DiNAMIC。Duo提供了单队列方法无法提供的见解。例如CDKN2A型在LUAD和LUSC中都观察到。以下方面的差异CDKN2A型LUAD−LUSC在统计上显著且为负值，因此表明LUSC的损失更为显著。相比之下，尽管表皮生长因子受体在这两种肿瘤类型中观察到表皮生长因子受体在LUAD−LUSC中不显著。单队列方法无法区分这一点。

4模拟研究

我们使用了两种不同的方法来模拟DNA拷贝数矩阵X（X）和Y（Y）包括DiNAMIC原稿中的方法。我们的结果证明了DiNAMIC。Duo检测到重复出现的拷贝数差异，并且随着差异影响大小的增加，功率也会增加。已知肿瘤纯度和倍性的变化会使DNA拷贝数分析复杂化。我们发现X（X）和Y（Y）当同一位点的两个矩阵中都存在相同效应大小的增益时，增加识别统计显著差异的可能性。有关模拟研究的详细信息，请参阅补充材料.

5结论

我们介绍DiNAMIC。Duo是一种检测两个肿瘤队列之间复发DNA拷贝数差异的新工具。通过分析公开的TCGA肺癌数据，我们确定了潜在的拷贝数差异，这些差异可能会导致最近研究中发现的差异基因表达。

基金

这项工作得到了美国国立卫生研究院的支持[R01CA211939、U24CA264021、UG1CA23333、U24CAP210988和R01DE025712至D.N.H.]。

利益冲突：未声明。

工具书类

阿努塞维奇

D。

等(

2020

)

通过Notch、Hedgehog、Wnt和ErbB信号通路调控肺鳞癌和肺腺癌差异基因表达

.

科学。代表

.,

10

,

21128

.

贝鲁金

R。

等(

2007

)

评估癌症染色体畸变的意义：方法学及其在胶质瘤中的应用

.

程序。国家。阿卡德。科学。美国

,

104

,

20007

–

20012

.

谷歌学者

交叉引用

书目数据库

陈

J.W.公司。

,

达赫比

J。

(

2021

)

使用重叠特征选择方法对肺腺癌和肺鳞癌进行癌症分类、生物标记物识别和基因表达分析

.

科学。代表

.,

11

,

13323

.

癌症基因组图谱网络

. (

2015

)

头颈部鳞状细胞癌的综合基因组特征

.

自然

,

517

,

576

–

582

.

交叉引用

公共医学

书目数据库

癌症基因组图谱研究网络

. (

2012

)

鳞状肺癌的综合基因组特征

.

自然

,

489

,

519

–

525

.

交叉引用

公共医学

书目数据库

癌症基因组图谱研究网络

. (

2014

)

肺腺癌的综合分子分析

.

自然

,

511

,

543

–

550

.

交叉引用

公共医学

书目数据库

范戴克

E.公司。

等(

2016

)

RUBIC通过检测重复出现的DNA拷贝数突变来识别驱动基因

.

国家公社

.,

7

,

12159

.

沃尔特

五、。

等(

2011

)

DiNAMIC：一种识别肿瘤中复发DNA拷贝数畸变的方法

.

生物信息学

,

27

,

678

–

685

.

沃尔特

五、。

等(

2015

)

反复基因组畸变的一致性检测

.

生物特征

,

102

,

783

–

796

.

这是一篇根据知识共享署名-非商业许可条款发布的开放存取文章(https://creativecommons.org/licenses/by-nc/4.0/)它允许在任何媒体上进行非商业性重复使用、分发和复制，前提是正确引用了原始作品。如需商业再使用，请联系日记.permissions@oup.com

副编辑：

下载所有幻灯片

月份：	总浏览次数：
2022年8月	160
2022年9月	213
2022年10月	90
2022年11月	41
2022年12月	52
2023年1月	32
2023年2月	26
2023年3月	33
2023年4月	38
2023年5月	26
2023年6月	31
2023年7月	22
2023年8月	19
2023年9月	7
2023年10月	12
2023年11月	14
2023年12月	14
2024年1月	37
2024年2月	24
2024年3月	27
2024年4月	14
2024年5月	8
2024年6月	17

文章内容

迪纳米克。Duo：在没有正常参考的情况下检测体细胞DNA拷贝数差异

摘要

1引言

2 DiNAMIC公司。Duo工作流和输出

3在肺癌中的应用

4模拟研究

5结论

基金

工具书类

补充数据

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读量最大

被引用次数最多

寻找你的下一个机会？

文章内容

迪纳米克。Duo：在没有正常参考的情况下检测体细胞DNA拷贝数差异

摘要

1引言

2 DiNAMIC公司。Duo工作流和输出

3在肺癌中的应用

4模拟研究

5结论

基金

工具书类

补充数据

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读量最大

被引用次数最多

寻找你的下一个机会？

此功能仅对订阅服务器可用