跳到主要内容

DualGCN:一种用于预测癌症药物反应的双图卷积网络模型

摘要

背景

耐药性是癌症治疗的一个关键障碍。发现抗癌药物反应对于提高抗癌药物治疗水平和指导抗癌药物设计具有重要意义。丰富的肿瘤细胞基因组和药物反应资源为此类研究提供了前所未有的机遇。然而,肿瘤细胞系不能充分反映异质性肿瘤微环境。将体外细胞系研究的知识转移到单细胞和临床数据将是更好地了解耐药性的一个有希望的方向。目前大多数研究将单核苷酸变体(SNV)作为特征,并侧重于提高肿瘤药物对细胞株反应的预测能力。然而,从临床肿瘤样本和单细胞数据中获得准确的SNV并不可靠。这使得未来很难将这种基于SNV的模型推广到临床肿瘤数据或单细胞水平的研究中。

结果

我们提出了一种新的方法,DualGCN,一种统一的双图卷积网络模型来预测癌症药物反应。DualGCN使用图卷积网络对药物的化学结构和生物样品的组学数据进行编码。然后将这两个嵌入物送入多层感知器以预测药物反应。DualGCN融合了癌症相关基因和蛋白质相互作用的先验知识,在避免使用大规模SNV数据的同时,优于最先进的方法。

结论

在不使用大规模SNV数据的情况下,该方法在预测癌症药物疗效方面优于最先进的方法。这些良好的结果表明,它有潜力推广到临床和单细胞肿瘤样本以及精密医学的进展。

背景

近年来,抗肿瘤药物在癌症治疗中发挥了重要作用。然而,耐药性的出现限制了抗癌药物的有效性[1]. 必须充分探索综合生物系统下的癌症药物反应(CDR)。

癌症药物反应可以通过癌症细胞系模型进行研究。药物对这些模型的反应通过半最大抑制浓度(IC50)进行定量描述。IC50描述了将癌细胞生长抑制一半所需的药物量。较小的IC50表明该药物的药效相对更强。癌症细胞系模型的全面遗传和药理学特征由癌症细胞系百科全书(CCLE)等项目收集[2],癌症体细胞突变目录(COSMIC)[]和癌症药物敏感性基因组学(GDSC)[4]. 这些数据使研究人员能够开发抗癌药物敏感性的预测性机器学习模型[5,6,7,8,9]. 这些模型由两部分组成,分别负责对药物和细胞系进行编码。药物通过使用简化的分子输入线阵系统(SMILES)数据的单热编码表示[7,8]. 据报道,基因突变在不同细胞系中具有显著不同的模式[4]. 它们被广泛用作癌细胞系的特征,并由多层感知器(MLP)等模型编码[7]和卷积神经网络(CNN)[8,9]. 然而,使用这些体外肿瘤细胞系并不能完全发现耐药性。已经发现肿瘤具有高度异质性[10]肿瘤微环境对肿瘤进展有重要影响[11,12,13]. 这种异质性和相互作用不能仅用体外肿瘤细胞株来反映。新兴的单细胞数据和临床数据显示了破译复杂肿瘤微环境和解锁药物反应的潜力[14,15,16]. 将体外肿瘤细胞系研究的知识转移到单细胞和临床数据是一条有希望的途径[14].

目前的方法在推广到单细胞和临床数据方面存在一些局限性。首先,现有的大多数方法都将SNV作为特征来提高对癌细胞株的预测能力。然而,据透露,从癌症样本中可靠地调用SNV并不总是能够实现的。高频基因组畸变和非整倍体在癌症中很常见,这些变异降低了SNV检测效率[17]. 同样,从单小区数据中同时检测覆盖所有热点的可靠SNV是不可能的。单细胞数据中的测序覆盖率和测序深度都太低,无法从数据中完全检测SNV[18,19]. 其次,目前的方法将基因特征编码为单独的单元。然而,最近来自单细胞研究的证据表明,肿瘤微环境是一个复杂的系统[11]. 肿瘤细胞与周围细胞相互作用。这种相互作用形成了一个生物网络,整个生态系统同时对药物反应作出贡献[20,21,22]. 这些启发我们开发新的方法,而不使用SNV作为特征,并将癌症样本视为蛋白质间相互作用的系统。

在本文中,我们提出了一种新的深度学习模型DualGCN。它由对偶图卷积网络(GCN)组成[23]并将药物结构和组学数据作为输入来预测癌症药物反应。一个GCN模块学习药物的内在化学特征。该模块中的节点表示药物原子,边缘表示原子之间的连接。同时,另一个GCN模块包含蛋白质-蛋白质相互作用(PPI),并提取癌症样本的潜在生物学特征。该模块中的节点表示蛋白质,边缘表示蛋白质与蛋白质的相互作用。在本研究中,我们使用基因表达和拷贝数变化作为基因特征。在最近的单细胞研究中,这些特征被证明对描述癌细胞类型至关重要[24,25,26,27,28]. 我们进行了大量实验,证明了我们的方法优于最先进的方法,同时避免了SNV的使用。此外,我们对DualGCN的临床癌症患者进行了一项案例研究,并显示了其扩展到临床和单细胞癌症样本的潜力。

结果和讨论

DualGCN概述

DualGCN以药物的化学结构数据和癌症样本的基因特征作为输入和输出药物反应(IC50)。双GCN的概念如图所示1图的顶部面板1是用于编码药物化学结构的GCN模块(以下称为药物GCN)。该模块中的节点表示药物原子。节点之间的边缘表示药物原子之间的连接。原子的特征是从以前的算法中学习的[29]. 图的底部面板1是另一个GCN模块(以下称为bio-GCN),用于编码癌症样本的生物特征。它建立在PPI网络上,以癌症相关基因的特征作为输入。在本研究中,我们使用基因表达(Expr.)和拷贝数变异(CNV)作为基因特征。最近的研究表明,这些基因特征在解码癌细胞类型方面具有重要作用[26,27,28]. 两个GCN模块都使用ReLU作为激活函数,并采用批量规范化[30]和辍学[31]提高模型鲁棒性的策略。然后将来自药物GCN模块和bio-GCN模块的两个嵌入物连接在一起,送入多层感知器,以研究给定药物对给定癌症样本的反应。模型的详细设置可以在附加文件中找到1:表S1。

图1
图1

DualGCN概述。DualGCN将药物的化学结构信息和癌症样本的基因特征分别作为(1)药物GCN模块和(2)生物GCN模块的输入。它输出给定药物对给定癌症样本的反应(IC50)。(1) 在药物GCN模块中,首先使用前面的算法转换药物化学结构数据[29]. 变换后的特征被视为节点(原子)的特征。节点之间的边缘表示药物原子之间的连接。(2) bio-GCN模块基于PPI网络构建,其中节点表示癌症相关蛋白(基因),边缘表示蛋白质之间的相互作用。该模块以癌症相关基因的基因表达和拷贝数变化为输入。这些基因特征被视为相应节点的特征。然后将两个GCN模块中的嵌入物串联并送入MLP,以研究癌症药物反应

方法评估

我们评估了DualGCN的性能以及基线,包括支持向量机(SVM)、随机森林、拉索回归、岭回归、CDRscan[7]和DeepCDR[8]. 对86530对药物细胞系进行了评估。这些数据包括208种药物和525个细胞系,涵盖27种癌症。“方法”一节描述了基线的数据准备和配置。评估采用五倍交叉验证(CV)进行。我们使用的评估指标包括皮尔逊相关系数、斯皮尔曼相关系数和均方根误差(RMSE)。

DualGCN在不使用SNV的情况下实现了强大的预测性能。得出皮尔逊相关系数=0.925,斯皮尔曼相关系数=0.907,RMSE=1.079。它明显优于传统方法,包括SVM、随机森林、拉索回归和岭回归(表1). 这些方法的详细配置和结果可以在附加文件中找到1:表S5,附加文件1:表S6和附加文件1:表S7。此外,我们还将DualGCN与深度学习模型进行了比较。在所有评估指标中,DualGCN相对于CDR扫描有一致的改进。Pearson相关性、Spearman相关性和RMSE的改善分别为0.014、0.013和0.094。DeepCDR的预测性能高于DualGCN。Pearson相关性、Spearman相关性和RMSE的差异分别为0.003、0.003和0.013。这种差异需要巨大的SNV信息。DeepCDR包含几个编码多组学数据的子网络。我们通过删除相应的子网络来评估其在没有SNV的情况下的性能,并用DeepCDR(-)表示。Pearson相关性、Spearman相关性和DeepCDR(-)的RMSE分别降至0.900、0.877和1.265。DualGCN在没有数万SNV的情况下获得了巨大的利润。皮尔逊相关性、斯皮尔曼相关性和RMSE的改善分别为0.025、0.030和0.186。SNV数据应谨慎处理有两个主要原因。首先,不同的项目以不同的模式收集SNV,并在SNV调用算法中使用不同的参考(人类参考基因组或正常组织)。因此,SNV可能无法在不同来源的数据之间进行对齐。其次,仅仅研究体外肿瘤细胞的药物反应并不能完全揭示耐药机制。将体外肿瘤细胞系研究的知识转移到单细胞和临床数据往往是一个重要的方向[14]. 然而,从涵盖所有候选基因座的临床和单细胞肿瘤数据中调用SNV是不可靠的[17,18,19]. 此外,最近的证据表明,整个肿瘤共同作用于药物[12]. 这些研究逐渐积累了影响癌症进展和药物反应的蛋白质相互作用[13]. DeepCDR分别编码同一单位(基因)的不同特征。这种编码系统很难进一步包括不断发现的重要相互作用的蛋白质对。DualGCN将基因编码为基本单位。它在没有SNV数据的情况下实现了很强的预测性能。这些进展表明,它有潜力吸收新的生物学知识,并推广到临床数据和单细胞分辨率的研究中。

表1性能比较

DualGCN在不同类型的癌症中始终实现高性能。不同癌症的皮尔逊相关系数范围为0.942至0.893(图2a) ●●●●。肺鳞癌(LUSC)和神经母细胞瘤(NB)的系数最高,最低。这两种情况的散点图如图所示2b和图2c.我们还评估了各种药物的表现。不同药物的皮尔逊相关系数在0.861到0.132之间变化很大(图2d) ●●●●。CAY10603和西妥昔单抗分别获得了最高和最低的系数。这两种情况的散点图如图所示2e、 f.我们对药物的SMILE进行了主成分分析(PCA)。我们观察到CAY10603和西妥昔单抗在低维空间中的潜在表征很接近。这一结果表明,这两种药物的结构相似,但对这两种药的预测性能显著不同(附加文件1:图S2)。此外,我们发现西妥昔单抗的IC50远高于其他药物。这些发现表明,预测性能低的药物可能会受到IC50从总体分布中分离出来的影响。

图2
图2

DualGCN在癌症和药物中的表现。皮尔逊对每种癌症的相关性。我们计算了每种癌症样本的平均皮尔逊相关系数,并将系数从大到小排序(图中从左到右)。蓝色圆点表示各CV之间皮尔逊相关性的平均值,表示为\(\上划线{r}\)。垂直的蓝色条表示皮尔逊公司CV相关性的方差。\(\上划线{n}\)表示CV的平均样本大小。Pearson相关系数在肺鳞癌(LUSC)和神经母细胞瘤(NB)上分别为最大和最小。b条LUSC上真实和预测IC50之间的相关性散点图。c(c)NB上真实和预测IC50之间的相关性散点图。d日Pearson对每种药物的相关性。我们计算了每种药物样本的平均皮尔逊相关系数,并将系数从大到小排序。图中左边的十种药物是预测性能最好的药物,右边的十种是预测性能最差的药物。蓝色圆点表示各CV之间皮尔逊相关性的平均值,表示为\(\上划线{r}\)。垂直的蓝色条表示皮尔逊公司CV相关性的方差。\(\上划线{n}\)表示CV的平均样本大小。分别在CAY10603和西妥昔单抗上获得了最大和最小的皮尔逊相关系数。电子CAY10603上真实和预测IC50之间的相关性散点图。如果西妥昔单抗真IC50与预测IC50相关性散点图

烧蚀分析

我们进行了消融研究,以评估不同基因特征对DualGCN的影响。我们只将一种特征作为输入来研究这种效果。结果如表所示2.CNV数据为我们的模型贡献了比基因表达数据更多的数据。此外,同时提取基因表达和CNV数据比单一特征获得更高的预测性能。

表2基因特征消融研究

临床癌症患者个案研究

我们使用经过训练的DualGCN模型对临床BRCA患者进行了案例研究。患者的基因特征和药物反应注释来自癌症基因组图谱计划(TCGA)[32]. 在分析体外肿瘤细胞系的药物反应和临床癌症数据方面存在显著差异。临床癌症数据的药物反应注释定性描述为等级。相反,IC50定量描述了癌细胞株的反应。我们首先将患者的临床药物反应注释二元化为“敏感”和“耐药”。这种二进制标签被视为基本事实。然后,我们预测患者的药物反应并计算相应的药物敏感性得分(DSS)。高DSS表示灵敏度,低DSS表示电阻。“方法”一节中给出了注释转换和DSS定义的详细描述。我们将癌症样本的DSS设置为接收器工作特性(ROC)曲线的判别阈值。我们观察到预测的药物反应与临床注释之间存在适度的一致性。ROC曲线的曲线面积(AUC)为0.661(95%置信区间:0.558至0.765,如附加文件所示1:图S3。未来的研究可能需要结合单细胞癌症数据和细胞相互作用,进一步解码细胞类型组成和癌症耐药机制。

结论

抗肿瘤药物在癌症治疗中发挥了重要作用。然而,对抗癌药物的耐药性仍然是一个严峻的挑战。研究肿瘤的药物反应对于改善癌症治疗和指导抗癌药物设计至关重要。癌症细胞系模型已广泛用于此类研究。然而,肿瘤是异质的,由不同的细胞类型和复杂的相互作用组成。仅仅研究体外肿瘤细胞株并不能完全破译耐药机制。新兴的单细胞技术是探索肿瘤中细胞类型组成和细胞相互作用的强大工具。将从细胞系模型获得的药物反应知识转移到临床和单细胞数据是一个重要的方向。单核苷酸变异体在当前癌症药物反应研究中被广泛用作肿瘤细胞系的特征。然而,从临床肿瘤数据中检测覆盖所有候选基因组位点的SNV并不总是可靠的,更不用说从单细胞数据中检测了。这种基于SNV的模型很难扩展到临床数据和单细胞分辨率的研究。

在本研究中,我们开发了一个统一的双图卷积网络模型DualGCN,用于预测癌症药物反应。DualGCN使用嵌入蛋白质-蛋白质相互作用的图形卷积网络对药物和癌症样本进行编码。我们证明了DualGCN在不使用SNV数据的情况下获得了很高的预测能力。这些进展表明它有潜力进一步扩展到临床和单细胞数据。与此同时,最近的单细胞肿瘤研究不断发现肿瘤中的重要相互作用。DualGCN将基因设置为编码系统的单位,并在它们之间建立链接。这种结构使其易于吸收新发现的对肿瘤进展和耐药性至关重要的蛋白质相互作用。我们组织了一项案例研究,利用从细胞系模型中获得的知识分析临床癌症样本,并观察到预测的药物反应与临床注释之间的适度一致性。

此外,我们注意到该方法的局限性。编码癌症样本的模块的单位是基因。因此,输入特征处于基因水平。这种结构为结合癌症研究中不断发现的相互作用蛋白对提供了一个方便的界面。然而,其他非基因水平的信号,如组蛋白修饰,很难直接编码到模块中。

总之,我们介绍了一种方法,DualGCN,它可以在不使用SNV数据的情况下实现对癌症药物反应的高预测能力。该方法可以扩展到临床和单细胞数据,并有潜力促进精确医学的发展。

方法

药物和细胞系数据准备

药物数据从GDSC下载(版本:GDSC1)[4]. 我们只保存了PubChem中记录的药物[33]. 此外,还筛选出了共享相同PubChem标识符但具有不同GDSC标识符的药物。最后,我们收集了208种药物。这些药物的详细描述可以在附加文件中找到1:表S2。然后,我们使用前面的算法对药物化学结构数据进行变换,以获得药物原子的特征向量[29]. 这些特征向量的维数为\(l{d}=75)已经证明,这些特征向量反映了药物的固有属性,如原子类型、原子连接性和自由度。

癌症细胞系的基因特征从CCLE下载(版本:19Q2)[2]. 如果(1)基因表达或CNV数据不可用,或(2)癌症类型注释缺失,或(3)相应癌症类型的样本量小于10,我们将筛选出细胞株。最后,我们收集了525个细胞系,涵盖了27种癌症。这些细胞系的详细描述可以在附加文件中找到1:表S3。基因表达数据表示为\(log_{2}\左({TPM+1}\右)\)CNV数据表示为\(log_{2}\左({CN+1}\右)\),其中\(中国\)表示相对拷贝数。然后我们对这些基因特征使用z评分标准化。

癌症药物反应数据(IC50)从GDSC(版本:GDSC1)下载[4]. IC50描述了将癌细胞生长抑制一半所需的药物量。在GDSC中,IC50以微米为单位记录,并用自然对数进行转换。最后,我们收集了86530对药物细胞系。

药物GCN模块的构建

Drug-GCN模块以药物的特征和邻接矩阵为输入。它将每个药物视为一个图,其中节点表示药物的原子,边缘表示原子之间的连接。该模块使用图卷积网络算法提取内在化学属性[23]. 不同的药物有不同的原子数(本研究中从5到96),因此这些原料药图的刻度\(G_{d\text{-}原始}}\)变化。我们首先建立了一个固定比例的图\(G{d}\),然后嵌入原始药物图\(G_{d\text{-}原始}}\)这些操作确保药物GCN模块与所有药物统一。节点数\(N_{d}\)的图形\(G{d}\)是100。

数学上,原始药物图\(G_{d\text{-}原始\left(i\ right)}}=\ left({X_{d\text{-}原始\左(i\右)}},A_{{d\text{-}原始\左(i\右)}}}\右)是固定比例图的子图\(G_{d\左(i\右)}=\左({X_{d\\左(i\右)},A_{d\\左(i \右){}\右)。中的其他节点\(G_{d\左(i\右)}\)用零填充,

$$X_{d\left(i\right)}=\left({\begin{array}{*{20} 我}{X_{d\text{-}原始\左(i\right)}}\hfill\\{0_{c1\left(i\right)}{\hfill \\end{array}}\right{*{20} 我}{A_{d\text{-}原始\左(i\right)}}\hfill&{0{c2\left(i\right)}{\hfill \\{0{c3\left(i \right$$

哪里\(X_{d\左(i\右)}\在{\mathbb{R}}^{{N{d}\次l_{d}}\中)表示定标度图的特征矩阵\(G_{d\左(i\右)}\).\(A_{d\左(i\右)}\在{\mathbb{R}}^{{N_{d}\次N_{d\}}\中)表示的二进制邻接矩阵\(G_{d\左(i\右)}\)同样,\(X_{d\text{-}原始\左(i\右)}}\在{\mathbb{R}}^{{N_{i}\次l_{d}}\中\(A_{d\text{-}原始\left(i\right)}}\ in{\mathbb{R}}^({N_{i}\ times N_{i}}}\)表示的特征矩阵和邻接矩阵\(G_{d\text{-}原始\左(i\右)}}\)分别是。\(N_{i}\)表示药物的原子数\(i).\(0_{c1\left(i\right)}\),\(0_{c2\左(i\右)}\),\(0_{c3\左(i\右)}\)、和\(0_{c4\左(i\右)}\)是零矩阵。

根据GCN算法[23],我们有,

$$H_{d}^{{\左({l+1}\右)}}={\text{ReLU}}\左(}\波浪线{D}(D)_{d} ^{{-\frac{1}{2}}\波浪线{答}_{d} \波浪线{D}(D)_{d} ^{{-\frac{1}{2}}}H_{d}^{\左(l\右)}W_{d{^{左(l\右)}}\右)$$
(1)

哪里\(H_{d}^{\左(l\右)}\)是层的输出\(l)、和\(H_{d}^{\左(0\右)}\)是初始特征矩阵\(X_{d}\).\(\波浪号{答}_{d} =A{d}+I{d}\)是具有自连接的修改邻接矩阵。\(I_{d}\)是单位矩阵。对角线矩阵\(\波浪号{D}(D)_{d} \)是的度矩阵\(\波浪号{答}_{d} \)具有\(\波浪号{D}(D)_{d} \left[{k,k}\right]=\mathop\sum\limits_{m}\tilde{答}_{d} \左[{k,m}\右]\).\(W_{d}^{\左(l\右)}\)表示层的权重\(l).

药物GCN模块的详细配置可在附加文件中找到1:表S1。

生物GCN模块的构建

Bio-GCN模块以癌症样本的基因特征作为输入。本研究使用了基因表达和CNV数据。首先将这些基因特征输入到双层MLP中,并将这些潜在特征视为基因特征。该模块将每个癌症样本视为一个图,其中节点是蛋白质(基因),边缘表示蛋白质之间的相互作用。此类蛋白质-蛋白质相互作用信息来自STRING数据库(版本11.0,分类ID:9606)[34]. 与此同时,我们只保留了已知与癌症相关的蛋白质。这些癌症相关蛋白(基因)是从COSMIC收集的[]和TCGA[32]. 我们最终获得了697个癌症相关基因(附加文件中的表S41)其中55140个蛋白质-蛋白质相互作用对。

数学上,癌症样本的生物图\(j)表示为\(G_{b\left(j\ right)}=\ left({X_{b\ left.\(X_{b\左(j\右)}\在{\mathbb{R}}^{{N_{b}\次l_{b{}}\中)\(A_{b\左(j\右)}\在{\mathbb{R}}^{N_{b}\次N_{b2}}\中)分别表示特征矩阵和邻接矩阵。\(N_{b}\)表示节点的数量。\(l{b}\)表示基因特征的维度。\(A_{b\左(j\右)}\)是对称二进制矩阵。\(A_{b\左(j\右)}\左[{k,m}\右]=A_{b \左(j \右){左[{m,k}\右]=1\)if基因\(k\)和基因\(米\)在PPI网络中进行交互。否则,\(A_{b\左(j\右)}\左[{k,m}\右]=A_{b \左(j \右){\左[[{m,k}\右]=0\).

然后,bio-GCN模块使用图卷积网络算法提取癌症样本的固有生物学特征。公式与等式相同(1). bio-GCN模块的详细配置见附加文件1:表S1。

基线配置

我们将DualGCN与六个基线进行了比较,包括DeepCDR[8],CDR扫描[7]、SVM、随机森林、拉索回归和岭回归。我们还从CCLE收集了SNV数据,因为在使用一些基线时需要这些数据。我们最终在癌症相关基因中收集了27180个SNV。我们将SNV特征编码为二进制向量,其中一个表示发生突变。

深度CDR[8]使用CNN分别对多组分数据进行编码。使用基因组特征,包括SNV、基因表达和拷贝数变异。此外,它使用图卷积网络对药物数据进行编码。同时,我们还通过移除相应的CNN模块,在不使用SNV数据的情况下测试了DeepCDR的性能。此修改版本用DeepCDR(-)表示。CDR扫描[7]使用CNN对SNV进行编码。此外,药物通过SMILES数据上的一个热编码表示。SMILES是一个字符串,其中的字符表示原子和连接关系。我们通过解析PubChem的相关XML文件获得了药物的SMILES(异构体类型)。此外,我们还使用SNV作为细胞株的特征,测试了SVM、随机森林、拉索回归和岭回归,并通过SMILES的单热点编码表示药物。我们将包括径向基函数(RBF)核、多项式核和sigmoid核在内的核应用于SVM。我们对随机森林应用了多棵树(n=50100200)。我们将拉索回归的系数α设置为0.01、0.1、0.5。我们为岭回归设置了系数alpha=0.1、0.5、1.0、2.0。

临床癌症数据准备

我们使用DualGCN对临床癌症患者进行了一项案例研究。首先,我们整理了TCGA中有药物反应信息的患者的数据。乳腺浸润癌(BRCA)患者拥有最大规模(195个记录),并被纳入本案例研究。然后,我们通过Firehose Broad GDAC下载了这些癌症患者的基因特征(http://gdac.broadinstitute.org/). 患者的基因表达数据转换为\(log_{2}\左({TPM+1}\右)\).CNV数据最初为段级数据。我们进一步将这些片段级CNV数据转换为基因级。\(K\)与某个基因重叠的片段,每个重叠区域的长度表示为\(l_{s}{}\左({s=1,2,\ldots,K}\右)\).基因长度表示为\(L)。每个段的相对拷贝数比率表示为\(c_{s}\左({s=1,2,\ldots,K}\右)\)我们从Ensembl(GRCh37)中提取了基因的位置[35]. 我们将片段水平的CNV数据转换为基因水平,并使用以下公式采用对数转换,

$$log_{2}\left({\mathop\sum\limits_{{s=\left\{{1,2,\ldots,K}\right\}}}c{s}\frac{l{s}}}{l}+\left({1-\mathop\sum\limits_{s=\left\{1,2,\ldots,K}\right\}}}\frac{l{s}}}{l}}\right)+1}\right)$$

在分析体外肿瘤细胞系的药物反应和临床癌症数据方面存在显著差异。在临床癌症数据中,药物反应注释是定性的,而不是定量的。药物反应在TCGA中被标记为四种类型:(1)完全反应,(2)部分反应,(3)临床进展性疾病,(4)稳定性疾病。我们将这些标签二值化为“敏感”和“抗性”。如果TCGA中的注释是(1)完全反应或(2)部分反应,我们认为药物是敏感的。如果注释是(3)临床进展性疾病或(4)稳定性疾病,我们认为药物具有耐药性。另一方面,通过IC50对细胞系上的药物反应进行量化。然而,每种药物的IC50范围不同(附加文件中的图S11). 因此,我们引入了一种度量方法,即药物敏感性评分(DSS),以将药物反应转换为相同的量表,并使不同药物的反应具有可比性,

$$DSS=\左({-1}\右)^{I(IC50>MSC)}左({frac{{left|{IC50-MSC}\right|}}{MSC}+1}\right)$$

其中MSC表示药物的最大筛选浓度。我们从GDSC收集MSC。\(左边(右边))是指示器功能。如果\(IC50>MSC),\(I(IC50>MSC)=1)这表明给定的药物不足以杀死癌细胞,且DSS小于0。如果\(IC50<MSC),\(I(IC50>MSC)=0)这表明所给药物具有杀死癌细胞的潜力,且DSS大于0。DSS越大,药物越敏感。临床样本的基因特征和药物反应注释在附加文件中给出2:表S8。

我们预测了临床癌症患者的药物IC50,并计算了DSS。然后,我们采用ROC曲线来分析我们的预测与从TCGA获得的二进制临床注释之间的一致性。

数据和材料的可用性

源代码位于https://github.com/horsedayday/DualGCN网站.

缩写

SNV公司:

单核苷酸变体

指挥官:

癌症药物反应

IC50:

半数最大抑制浓度

CCLE公司:

癌细胞系百科全书

COSMIC公司:

癌症体细胞突变目录

GDSC公司:

癌症药物敏感性的基因组学

微笑:

简化的分子输入线注入系统

MLP公司:

多层感知器

美国有线电视新闻网:

卷积神经网络

全球通信号码:

图卷积网络

PPI(PPI):

蛋白质-蛋白质相互作用

有效期:

基因表达

CNV公司:

副本编号变化

支持向量机:

支持向量机

简历:

交叉验证

RMSE公司:

均方根误差

TCGA公司:

癌症基因组图谱计划

决策支持系统:

药物敏感性得分

大鹏:

接收机工作特性

资产负债表:

曲线下面积

径向基函数:

径向基函数

工具书类

  1. Vasan N,Baselga J,Hyman DM。癌症耐药性的观点。自然。2019;575:299–309.https://doi.org/10.1038/s41586-019-1730-1.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  2. Barretina J、Caponigro G、Stransky N、Venkatesan K、Margolin AA、Kim S等。《癌症细胞系百科全书》实现了抗癌药物敏感性的预测建模。自然。2012;483:603–7.https://doi.org/10.1038/nature11003.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  3. 福布斯SA、Beare D、Boutselakis H、Bamford S、Bindal N、Tate J等。COSMIC:高分辨率体细胞癌遗传学。2017年《核酸研究》;45:D777-83。https://doi.org/10.1093/nar/gkw1121.

    第条 中国科学院 公共医学 谷歌学者 

  4. Yang W,Soares J,Greninger P,Edelman EJ,Lightfoot H,Forbes S等。癌症药物敏感性基因组学(GDSC):癌细胞中治疗性生物标志物发现的资源。2013年《核酸研究》;41:D955–61。https://doi.org/10.1093/NAR/GKS1111.

    第条 中国科学院 公共医学 谷歌学者 

  5. Geeleher P,Cox NJ,Huang RS。可以使用细胞系中的基线基因表达水平和体外药物敏感性来预测临床药物反应。基因组生物学。2014;15:1–12.https://doi.org/10.1186/gb-2014-15-3-r47.

    第条 中国科学院 谷歌学者 

  6. Daemen A、Griffith OL、Heiser LM、Wang NJ、Enache OM、Sanborn Z等。乳腺癌精确治疗建模。基因组生物学。2013;14:1–14.https://doi.org/10.1186/gb-2013-14-10-r110.

    第条 谷歌学者 

  7. Chang Y,Park H,Yang HJ,Lee S,Lee KY,Kim TS等。癌症药物反应谱扫描(CDRscan):一种从癌症基因组特征预测药物疗效的深度学习模型。2018年科学报告;8:1–11.https://doi.org/10.1038/s41598-018-27214-6.

    第条 中国科学院 谷歌学者 

  8. Liu P、Li H、Li S、Leung KS。利用深度卷积网络改进对癌症细胞株表型药物反应的预测。BMC生物信息。2019;20:1–14.https://doi.org/10.1186/s12859-019-2910-6.

    第条 中国科学院 谷歌学者 

  9. Liu Q,Hu Z,Jiang R,Zhou M.DeepCDR:预测癌症药物反应的混合图卷积网络。生物信息学。2020;36(补充2):I911–8。https://doi.org/10.1093/bioinformatics/btaa822.

    第条 中国科学院 公共医学 谷歌学者 

  10. Dagogo-Jack I,Shaw AT。肿瘤异质性和癌症治疗耐药性。Nat Rev临床肿瘤学。2018;15:81–94.https://doi.org/10.1038/nrclinonc.2017.166.

    第条 中国科学院 公共医学 谷歌学者 

  11. Hinshaw DC,Shevde LA。肿瘤微环境天生调节癌症进展。2019年癌症研究;79:4557–67.https://doi.org/10.1158/0008-5472.CAN-18-3962.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  12. Tang T,Huang X,Zhang G,Hong Z,Bai X,Liang T。癌症免疫治疗中靶向肿瘤免疫微环境优于阻断免疫检查点的优势。信号传输目标热。2021;6:1–13.https://doi.org/10.1038/s41392-020-00449-4.

    第条 谷歌学者 

  13. 倪莹,周旭,杨杰,石华,李华,赵晓霞,等。肿瘤微环境中肿瘤-基质相互作用在耐药性中的作用。前细胞发育生物学。2021;9:1206.

    第条 谷歌学者 

  14. Wu Z,Lawrence PJ,Ma A,Zhu J,Xu D,Ma Q.预测药物反应的单细胞技术和深度学习。药物科学趋势。2020;41:1050–65.https://doi.org/10.1016/j.tips.2020.10.004.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  15. Prieto-Vila M、Usuba W、Takahashi RU、Shimomura I、Sasaki H、Ochiya T等。单细胞分析揭示了腔内乳腺癌亚型中预先存在的耐药亚群。癌症研究2019;79:4412–25.https://doi.org/10.1158/0008-5472.CAN-19-0122.

    第条 中国科学院 公共医学 谷歌学者 

  16. Ho YJ、Anaparthy N、Molik D、Mathew G、Aicher T、Patel A等。单细胞RNA-seq分析确定黑色素瘤细胞群中对靶向BRAF抑制剂的耐药性标记。2018年基因组研究;28:1353–63.https://doi.org/10.101/101/gr.234062.117.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  17. Adey A、Burton JN、Kitzman JO、Hiatt JB、Lewis AP、Martin BK等。非整倍体HeLa癌细胞系的单倍体解析基因组和表观基因组。自然。2013;500:207–11.https://doi.org/10.1038/nature12064.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  18. Gawad C,Koh W,Quake SR.单细胞基因组测序:科学现状。Nat Rev基因。2016;17:175–88.https://doi.org/10.1038/nrg.2015.16.

    第条 中国科学院 公共医学 谷歌学者 

  19. Ma T,Li H,Zhang X.仅从scRNA-seq数据中发现单细胞eQTL。生物Rxiv。2021https://doi.org/10.1101/2021.06.10.447906.

    第条 公共医学 公共医学中心 谷歌学者 

  20. Armingol E,A警官,Harismendy O,Lewis NE。从基因表达中解读细胞-细胞的相互作用和交流。Nat Rev基因。2021;22:71–88.https://doi.org/10.1038/s41576-020-00292-x网址.

    第条 中国科学院 公共医学 谷歌学者 

  21. Kumar MP、Du J、Lagoudas G、Jiao Y、Sawyer A、Drummond DC等。单细胞RNA-Seq分析确定与肿瘤特征相关的细胞间通信。Cell Rep.2018;25:1458-1468.e4。https://doi.org/10.1016/j.celrep.2018.10.047.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  22. 吴凤,樊杰,何毅,熊A,于杰,李毅,等。晚期非小细胞肺癌肿瘤异质性和微环境的单细胞分析。国家公社。2021;12:1–11.https://doi.org/10.1038/s41467-021-22801-0.

    第条 中国科学院 谷歌学者 

  23. Kipf TN,Welling M.图卷积网络半监督分类。arXiv公司。2017https://arxiv.org/abs/1609.02907v4.

  24. Patel AP、Tirosh I、Trombetta JJ、Shalek AK、Gillespie SM、Wakimoto H等。单细胞RNA-seq强调了原发性胶质母细胞瘤的瘤内异质性。科学。2014;344:1396–401.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  25. Tirosh I、Izar B、Prakadan SM、Wadsworth MH、Treacy D、Trombetta JJ等。通过单细胞RNA-seq解剖转移性黑色素瘤的多细胞生态系统。科学。2016;352:189–96.https://doi.org/10.1126/science.aad0501.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  26. Chen YP,Yin JH,Li WF,Li HJ,Chen DP,Zhang CJ,等。单细胞转录组学揭示了鼻咽癌中免疫细胞多样性和与预后相关的免疫亚型的调节因子。细胞研究2020;30:1024–42.https://doi.org/10.1038/s41422-020-0374-x.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  27. Kim N,Kim HK,Lee K,Hong Y,Cho JH,Choi JW等。单细胞RNA测序证明了转移性肺腺癌的分子和细胞重编程。国家公社。2020;11:1–15.https://doi.org/10.1038/s41467-020-16164-1.

    第条 中国科学院 谷歌学者 

  28. Lee HW、Chung W、Lee HO、Jeong DE、Jo A、Lim JE等。单细胞RNA测序揭示了肿瘤微环境,有助于战略选择,以避免化疗难治性膀胱癌患者的治疗失败。基因组医学2020;12:1–21.https://doi.org/10.1186/s13073-020-00741-6.

    第条 谷歌学者 

  29. Ramsudar B,Eastman P,Walters P,Pande V.生命科学的深度学习。2019

  30. Ioffe S,Szegedy C.批量规范化:通过减少内部协变量偏移来加速深层网络训练。参加:机器学习国际会议。PMLR;2015年,第448-56页。

  31. Srivastava N,Hinton G,Krizhevsky A,Sutskever I,Salakhutdinov R.辍学:防止神经网络过度拟合的简单方法。J Mach Learn Res.2014;15:1929–58.

    谷歌学者 

  32. Weinstein JN、Collisson EA、Mills GB、Shaw KRM、Ozenberger BA、Ellrott K等。癌症基因组图谱泛癌分析项目。自然遗传学。2013;45:1113–20.https://doi.org/10.1038/ng.2764.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  33. Kim S,Chen J,Cheng T,Gindulyte A,He J,He S,et al.2019年PubChem更新:改进对化学数据的访问。2019年《核酸研究》;47:D1102–9。https://doi.org/10.1093/NAR/GKY1033.

    第条 公共医学 谷歌学者 

  34. Szklarczyk D、Gable AL、Lyon D、Junge A、Wyder S、Huerta-Cepas J等。STRING v11:覆盖范围增加的蛋白质-蛋白质关联网络,支持全基因组实验数据集中的功能发现。2019年《核酸研究》;47:D607–13。https://doi.org/10.1093/NAR/GKY1131.

    第条 中国科学院 公共医学 谷歌学者 

  35. Yates AD、Achuthan P、Akanni W、Allen J、Allen J.、Alvarez-Jarrta J等,2020年合奏。核酸研究2020;48:D682–8。https://doi.org/10.1093/NAR/GKZ966.

    第条 中国科学院 公共医学 谷歌学者 

下载参考资料

致谢

不适用。

关于本补充

本文已作为BMC生物信息学第23卷增补4,2022:第20届国际生物信息学会议(InCoB 2021)的一部分出版。补遗的全部内容可以在网上找到https://bmcbioinformatics.biomedcentral.com/articles/supplements/volume-23-supplement-4.

基金

这项工作得到了国家自然科学基金(科学基金61721003和62050178)和清华福州数据技术研究所TFIDT2021005的部分支持。出版费用由科学基金61721003资助。资助机构不参与研究的设计、数据的收集、分析和解释,也不参与手稿的撰写。

作者信息

作者和附属机构

作者

贡献

T.M.、Q.L.和M.Z.构思并设计了该研究。T.M.、Q.L.进行了实验。T.M.、Q.L.和H.L.进行了分析并撰写了手稿。X.Z.和R.J.监督了这项研究。所有作者阅读并批准了最终手稿。

通讯作者

与的通信张学功.

道德声明

道德批准和参与同意

不适用。

出版同意书

不适用。

竞争性利益

作者声明,他们没有相互竞争的利益。

其他信息

出版说明

Springer Nature在公布的地图和机构关联中的管辖权主张方面保持中立。

补充信息

附加文件1:

补充数据和补充表S1–S7,以获取更多结果。图S1药物的IC50和MSC。图S2.药物结构PCA。图S3临床癌症患者的ROC曲线。表S1DualGCN的参数设置。表S2.药物说明。表S3。细胞系的描述。表S4。癌症相关基因列表。表S5不同核函数的SVM回归结果。表S6.具有不同数量树木的随机森林的结果。表S7不同α的拉索回归结果。

附加文件2:补充表S8

用于TCGA数据的基因特征和临床注释。

权利和权限

开放式访问本文是根据Creative Commons Attribution 4.0国际许可证授权的,该许可证允许以任何媒体或格式使用、共享、改编、分发和复制,只要您对原始作者和来源给予适当的信任,提供指向Creative Commons许可证的链接,并指出是否进行了更改。本文中的图像或其他第三方材料包含在文章的Creative Commons许可证中,除非材料的信用额度中另有说明。如果材料未包含在文章的知识共享许可证中,并且您的预期用途不受法定法规允许或超过了允许的用途,则您需要直接获得版权持有人的许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/知识共享公共领域专用豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非数据的信贷额度中另有规定。

转载和许可

关于本文

检查更新。通过CrossMark验证货币和真实性

引用这篇文章

Ma,T.,Liu,Q.,Li,H。等。DualGCN:预测癌症药物反应的双图卷积网络模型。BMC生物信息学 23(补充4),129(2022)。https://doi.org/10.1186/s12859-022-04664-4

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/s12859-022-04664-4

关键词