摘要

动机

肿瘤纯度是每个癌症样本的基本属性,并影响后续调查。目前的肿瘤纯度评估方法要么需要匹配的正常样本,要么即使在正常样本上也报告有较高的肿瘤纯度。开发一种新的计算方法来基于仅肿瘤样本以足够的精度估计肿瘤纯度是至关重要的。

结果

在本研究中,我们开发了MEpurity,这是一种基于beta混合模型的算法,用于根据仅含肿瘤的Illumina Infinium 450k甲基化微阵列数据估计肿瘤纯度。我们将MEpurity应用于癌症基因组图谱(TCGA)癌症数据和癌细胞系数据,证明MEpurize在正常样本上报告了较低的肿瘤纯度,而在肿瘤样本上报告的结果与其他最先进的方法具有可比性。

可用性和实施

MEpurity是一个C++程序,可在https://github.com/xjtu-omics/MEpurity网站.

补充信息

补充数据可在生物信息学在线。

1引言

肿瘤纯度是肿瘤数据分析的关键特征。对肿瘤纯度的不精确估计使下游分析复杂化,并经常导致对肿瘤发生的错误解释。例如,纯合子缺失加上50%的肿瘤纯度可能被视为杂合缺失加上100%的肿瘤纯度。

目前,像PurBayes这样的方法(Larson和Fridley,2013年)和绝对(卡特等。, 2012)需要匹配的正常和肿瘤样本来计算肿瘤纯度。然而,在临床实践中包括正常组织是不方便且昂贵的。LUMP公司(阿兰等。, 2015)和估算(葭原等。, 2013)检查免疫细胞和基质细胞以评估肿瘤纯度,但由于忽略了肿瘤样本中的其他细胞类型,它们的计算结果往往不准确。最近Infiniumpurify(等。, 2017)和PAMES(贝内利等。, 2018)输入仅肿瘤Illumina Infinium人类甲基化450K(450K)数据。然而,他们依赖于一组肿瘤样本,并报告正常样本的肿瘤纯度较高(补充图S1),这确实限制了它们的临床应用。

对于临床肿瘤纯度估计,需要开发一种算法来准确估计每个单个肿瘤样本的肿瘤纯度。这里,我们提出了MEpurity,一种基于beta混合模型(BMM)的算法(Ma和Leijon,2011年),利用单个肿瘤样本的450k数据估计肿瘤纯度。研究表明,肿瘤发生过程中DNA甲基化的改变反映了肿瘤的克隆结构(勃劳克斯等。, 2014). 基于此,类似于肿瘤发生过程中体细胞SNV的组织蓄积(等。, 2012),我们假设,与正常细胞相比,肿瘤建立克隆中的细胞获得了甲基化变化,并且当每个亚克隆与亲本克隆分离时,还会出现额外的甲基化变化(补充图S2). 在建立克隆中获得的甲基化变化表明肿瘤纯度。

2材料和方法

2.1方法

在MEpurity中,我们首先使用一组独立于肿瘤样本的正常样本来选择稳定的CpG位点。然后,我们检测每个肿瘤样本的差异甲基化CpG位点(DMC),并计算每个DMC的α值(详情见下文)。我们使用BMM对这些阿尔法值进行聚类,具有最大平均阿尔法值的聚类代表创始克隆。肿瘤纯度由建立克隆簇的平均α值估计。MEpurity的工作流程如所示图1A.

MEpurity工作流程和性能比较。(A) MEpurity的工作流程;(B) 肿瘤标本中MEpurity与ABSOLUTE、Infiniumpurify、PAMES和LUMP的比较;(C) 肿瘤细胞株样本中MEpurity与ABSOLUTE、Infiniumpurify、PAMES和LUMP的比较;(D) 不同方法对正常标本肿瘤纯度估计的比较,***表示P值<0.0001
图1。

MEpurity工作流程和性能比较。(A类)MEpurity的工作流程;(B类)肿瘤标本中MEpurity与ABSOLUTE、Infiniumpurify、PAMES和LUMP的比较;(C类)肿瘤细胞株样本中MEpurity与ABSOLUTE、Infiniumpurify、PAMES和LUMP的比较;(D类)不同方法对正常样本肿瘤纯度估计的比较,***平均值P(P)-值<0.0001

2.1.1选择最稳定的CpG位点

由于不同的细胞类型,正常样本中确实存在DNA甲基化异质性(管家等。, 2016). 为了减少正常样本中DNA甲基化的异质性,我们在研究中选择了正常样本中甲基化水平最稳定的CpG位点。对于450k数据,每个CpG位点的甲基化状态形成一个β分布,其中β值代表甲基化等位基因的比例。我们计算平均值μ和标准偏差σ每个CpG位点的β值在正常样本池中选择顶部n个最小的CpG位点σ作为最稳定的CpG站点(n个是用户定义的参数,默认值为70000)。

2.1.2肿瘤样本特异性DMC检测

我们将样本特异性DMC定义为在每个肿瘤样本中具有显著DNA甲基化变化的所选最稳定的CpG位点。我们认为,对于大多数稳定的CpG位点,β值在正常样本上基本遵循正态分布。尽管某些站点的β值分布可能偏离正态分布,但该假设在实践中非常接近,可以启发式使用。我们比较了β值β属于通过计算肿瘤样本中第th个稳定的CpG位点及其在正常样本池中的β值分布z(z)-分数(z(z)=|βμ|/σ). 我们将DMC检测为稳定的CpG位点z>k个,其中k个是用户定义的参数(默认值为20)。

2.1.3α值的计算

β0表示甲基化水平与正常细胞相同的细胞的β值第DMC次,β1表示甲基化水平改变的肿瘤细胞的β值第th个DMC,以及α表示甲基化状态发生改变的肿瘤细胞的百分比。因此,混合样本(肿瘤样本)中的β值第个DMC是β=β0(1-α)+β1α。对于第DMC,我们计算其α值α基于估计β0β1以及对β(补充资料). 这里我们强调一下α是DNA甲基化变化的测量具有在0和1之间的有界值的第th个DMC。我们证明α值是肿瘤纯度的可靠指标(补充图S3).

2.1.4α值聚类和计算肿瘤纯度

接下来,我们对α值进行聚类,以检测用于肿瘤纯度估计的最大平均α值。首先我们采用多元β分布来拟合α值,然后应用BMM模型(Ma和Leijon,2011年)检测群集。我们计算每个簇的平均α值,并使用最大的α值表示肿瘤纯度(详细信息请参见补充资料).

2.2数据集

我们下载了722份正常样本和3693份肿瘤样本的450k数据(补充表S1和S2)通过TCGA的ABSOLUTE评估肿瘤纯度(阿兰等。, 2015). 此外,我们下载了374个人类癌症细胞系的450k数据(Iorio公司等。, 2016)用于贝内利的研究(贝内利等。, 2018)通过基因表达综合(GEO)门户网站(GSE68379)验证ME纯度并与PAMES进行比较(贝内利等。, 2018),无限化(等。, 2017)和LUMP(阿兰等。, 2015).

3结果

3.1运行时间和内存

MEpurity是在C++中实现的。处理一个样本大约需要9秒和150 MB的单核内存。

3.2与其他工具的比较

3.2.1肿瘤样本和癌细胞株的肿瘤纯度评估

我们在3693个TCGA肿瘤样本上应用了MEpure,并将结果与Infiniumpure、ABSOLUTE、PAMES和LUMP进行了比较(图1B). 从先前的研究中获得了ABSOLUTE和LUMP的肿瘤纯度值(阿兰等。, 2015). 相关分析表明,MEpurity和最新方法之间的肿瘤纯度估计具有高度一致性。此外,我们使用374个已知肿瘤纯度等于1的人类肿瘤细胞系数据对上述工具进行了基准测试(图1C). 我们发现,与其他方法(Infinimpurify:0.902±0.150;LUMP:0.931±0.084;PAMES:0.921±0.052),表明MEpure在高肿瘤纯度样品中的性能。更详细的比较结果见补充表S1和S2.

3.2.2正常标本肿瘤纯度估计

我们比较了TCGA正常样本中MEpurity、Infiniumpurify、PAMES和LUMP的结果(图1D). 我们发现正常样品中由Infiniumpurify、PAMES和LUMP估计的纯度显著高于由MEpurity估计的纯度(P(P)-值<0.0001),表明MEpurity在低肿瘤纯度样品中的表现。更详细的比较结果见补充表S3.

基金

K.Y.和X.Y.得到了国家科学基金(31671372和61702406)、国家重点研发计划(2018YFC0910400和2017YFC0907500)和国家科技重大项目(编号2018ZX10302205)的资助,X.Y.获得了中国博士后科学基金一般财政资助(2017M623178)。

利益冲突:未声明。

工具书类

阿兰
 
D。
等(
2015
)
肿瘤纯度的系统泛癌分析
.
国家公社
.,
6
,
8971

贝内利
 
M。
等(
2018
)
克隆DNA甲基化特征用于肿瘤纯度定量
.
生物信息学
,
34
,
1642
1649
.

勃劳克斯
 
D。
等(
2014
)
肿瘤内DNA甲基化异质性反映了侵袭性前列腺癌的克隆进化
.
单元格代表
.,
8
,
798
806
.

卡特
 
S.L.公司。
等人(
2012
)
人类癌症中体细胞DNA变化的绝对定量
.
自然生物技术
.,
30
,
413
421
.

 
L。
等(
2012
)
全基因组测序揭示复发性急性髓细胞白血病的克隆进化
.
自然
,
481
,
506
510
.

管家
 
例如。
等(
2016
)
DNA甲基化数据的无参考反褶积和细胞组成效应的调节
.
BMC生物信息学
,
17
,
1

Iorio公司
 
F、。
等(
2016
)
癌症中药物基因组学相互作用的前景
.
单元格
,
166
,
740
754
.

拉尔森
 
注意:。
,
油炸食品
B.L.公司。
(
2013
)
PurBayes:估计下一代测序数据中的肿瘤细胞数和亚克隆数
.
生物信息学
,
29
,
1888
1889
.

妈妈
 
Z.公司。
,
莱永
答:。
(
2011
)
具有变分推理的贝塔混合模型的贝叶斯估计
.
IEEE传输。模式分析。机器。智能
.,
33
,
2160
.

葭原
 
英国。
等(
2013
)
从表达数据推断肿瘤纯度以及基质细胞和免疫细胞混合物
.
自然通信
.,
4
,
2612

 
十、。
等(
2017
)
癌症研究中DNA甲基化数据分析中肿瘤纯度的估算和核算
.
基因组生物学
.,
18
,
17

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)
副编辑: 拉塞尔·施瓦茨
拉塞尔·施瓦茨
助理编辑
搜索此作者的其他作品:

补充数据