药物和细胞系数据准备
药物数据从GDSC下载(版本:GDSC1)[4]. 我们只保存了PubChem中记录的药物[33]. 此外,还筛选出了共享相同PubChem标识符但具有不同GDSC标识符的药物。最后,我们收集了208种药物。这些药物的详细描述可以在附加文件中找到1:表S2。然后,我们使用前面的算法对药物化学结构数据进行变换,以获得药物原子的特征向量[29]. 这些特征向量的维数为\(l{d}=75)已经证明,这些特征向量反映了药物的固有属性,如原子类型、原子连接性和自由度。
癌症细胞系的基因特征从CCLE下载(版本:19Q2)[2]. 如果(1)基因表达或CNV数据不可用,或(2)癌症类型注释缺失,或(3)相应癌症类型的样本量小于10,我们将筛选出细胞株。最后,我们收集了525个细胞系,涵盖了27种癌症。这些细胞系的详细描述可以在附加文件中找到1:表S3。基因表达数据表示为\(log_{2}\左({TPM+1}\右)\)CNV数据表示为\(log_{2}\左({CN+1}\右)\),其中\(中国\)表示相对拷贝数。然后我们对这些基因特征使用z评分标准化。
癌症药物反应数据(IC50)从GDSC(版本:GDSC1)下载[4]. IC50描述了将癌细胞生长抑制一半所需的药物量。在GDSC中,IC50以微米为单位记录,并用自然对数进行转换。最后,我们收集了86530对药物细胞系。
药物GCN模块的构建
Drug-GCN模块以药物的特征和邻接矩阵为输入。它将每个药物视为一个图,其中节点表示药物的原子,边缘表示原子之间的连接。该模块使用图卷积网络算法提取内在化学属性[23]. 不同的药物有不同的原子数(本研究中从5到96),因此这些原料药图的刻度\(G_{d\text{-}原始}}\)变化。我们首先建立了一个固定比例的图\(G{d}\),然后嵌入原始药物图\(G_{d\text{-}原始}}\)这些操作确保药物GCN模块与所有药物统一。节点数\(N_{d}\)的图形\(G{d}\)是100。
数学上,原始药物图\(G_{d\text{-}原始\left(i\ right)}}=\ left({X_{d\text{-}原始\左(i\右)}},A_{{d\text{-}原始\左(i\右)}}}\右)是固定比例图的子图\(G_{d\左(i\右)}=\左({X_{d\\左(i\右)},A_{d\\左(i \右){}\右)。中的其他节点\(G_{d\左(i\右)}\)用零填充,
$$X_{d\left(i\right)}=\left({\begin{array}{*{20} 我}{X_{d\text{-}原始\左(i\right)}}\hfill\\{0_{c1\left(i\right)}{\hfill \\end{array}}\right{*{20} 我}{A_{d\text{-}原始\左(i\right)}}\hfill&{0{c2\left(i\right)}{\hfill \\{0{c3\left(i \right$$
哪里\(X_{d\左(i\右)}\在{\mathbb{R}}^{{N{d}\次l_{d}}\中)表示定标度图的特征矩阵\(G_{d\左(i\右)}\).\(A_{d\左(i\右)}\在{\mathbb{R}}^{{N_{d}\次N_{d\}}\中)表示的二进制邻接矩阵\(G_{d\左(i\右)}\)同样,\(X_{d\text{-}原始\左(i\右)}}\在{\mathbb{R}}^{{N_{i}\次l_{d}}\中和\(A_{d\text{-}原始\left(i\right)}}\ in{\mathbb{R}}^({N_{i}\ times N_{i}}}\)表示的特征矩阵和邻接矩阵\(G_{d\text{-}原始\左(i\右)}}\)分别是。\(N_{i}\)表示药物的原子数\(i).\(0_{c1\left(i\right)}\),\(0_{c2\左(i\右)}\),\(0_{c3\左(i\右)}\)、和\(0_{c4\左(i\右)}\)是零矩阵。
根据GCN算法[23],我们有,
$$H_{d}^{{\左({l+1}\右)}}={\text{ReLU}}\左(}\波浪线{D}(D)_{d} ^{{-\frac{1}{2}}\波浪线{答}_{d} \波浪线{D}(D)_{d} ^{{-\frac{1}{2}}}H_{d}^{\左(l\右)}W_{d{^{左(l\右)}}\右)$$
(1)
哪里\(H_{d}^{\左(l\右)}\)是层的输出\(l)、和\(H_{d}^{\左(0\右)}\)是初始特征矩阵\(X_{d}\).\(\波浪号{答}_{d} =A{d}+I{d}\)是具有自连接的修改邻接矩阵。\(I_{d}\)是单位矩阵。对角线矩阵\(\波浪号{D}(D)_{d} \)是的度矩阵\(\波浪号{答}_{d} \)具有\(\波浪号{D}(D)_{d} \left[{k,k}\right]=\mathop\sum\limits_{m}\tilde{答}_{d} \左[{k,m}\右]\).\(W_{d}^{\左(l\右)}\)表示层的权重\(l).
药物GCN模块的详细配置可在附加文件中找到1:表S1。
生物GCN模块的构建
Bio-GCN模块以癌症样本的基因特征作为输入。本研究使用了基因表达和CNV数据。首先将这些基因特征输入到双层MLP中,并将这些潜在特征视为基因特征。该模块将每个癌症样本视为一个图,其中节点是蛋白质(基因),边缘表示蛋白质之间的相互作用。此类蛋白质-蛋白质相互作用信息来自STRING数据库(版本11.0,分类ID:9606)[34]. 与此同时,我们只保留了已知与癌症相关的蛋白质。这些癌症相关蛋白(基因)是从COSMIC收集的[三]和TCGA[32]. 我们最终获得了697个癌症相关基因(附加文件中的表S41)其中55140个蛋白质-蛋白质相互作用对。
数学上,癌症样本的生物图\(j)表示为\(G_{b\left(j\ right)}=\ left({X_{b\ left.\(X_{b\左(j\右)}\在{\mathbb{R}}^{{N_{b}\次l_{b{}}\中)和\(A_{b\左(j\右)}\在{\mathbb{R}}^{N_{b}\次N_{b2}}\中)分别表示特征矩阵和邻接矩阵。\(N_{b}\)表示节点的数量。\(l{b}\)表示基因特征的维度。\(A_{b\左(j\右)}\)是对称二进制矩阵。\(A_{b\左(j\右)}\左[{k,m}\右]=A_{b \左(j \右){左[{m,k}\右]=1\)if基因\(k\)和基因\(米\)在PPI网络中进行交互。否则,\(A_{b\左(j\右)}\左[{k,m}\右]=A_{b \左(j \右){\左[[{m,k}\右]=0\).
然后,bio-GCN模块使用图卷积网络算法提取癌症样本的固有生物学特征。公式与等式相同(1). bio-GCN模块的详细配置见附加文件1:表S1。
基线配置
我们将DualGCN与六个基线进行了比较,包括DeepCDR[8],CDR扫描[7]、SVM、随机森林、拉索回归和岭回归。我们还从CCLE收集了SNV数据,因为在使用一些基线时需要这些数据。我们最终在癌症相关基因中收集了27180个SNV。我们将SNV特征编码为二进制向量,其中一个表示发生突变。
深度CDR[8]使用CNN分别对多组分数据进行编码。使用基因组特征,包括SNV、基因表达和拷贝数变异。此外,它使用图卷积网络对药物数据进行编码。同时,我们还通过移除相应的CNN模块,在不使用SNV数据的情况下测试了DeepCDR的性能。此修改版本用DeepCDR(-)表示。CDR扫描[7]使用CNN对SNV进行编码。此外,药物通过SMILES数据上的一个热编码表示。SMILES是一个字符串,其中的字符表示原子和连接关系。我们通过解析PubChem的相关XML文件获得了药物的SMILES(异构体类型)。此外,我们还使用SNV作为细胞株的特征,测试了SVM、随机森林、拉索回归和岭回归,并通过SMILES的单热点编码表示药物。我们将包括径向基函数(RBF)核、多项式核和sigmoid核在内的核应用于SVM。我们对随机森林应用了多棵树(n=50100200)。我们将拉索回归的系数α设置为0.01、0.1、0.5。我们为岭回归设置了系数alpha=0.1、0.5、1.0、2.0。
临床癌症数据准备
我们使用DualGCN对临床癌症患者进行了一项案例研究。首先,我们整理了TCGA中有药物反应信息的患者的数据。乳腺浸润癌(BRCA)患者拥有最大规模(195个记录),并被纳入本案例研究。然后,我们通过Firehose Broad GDAC下载了这些癌症患者的基因特征(http://gdac.broadinstitute.org/). 患者的基因表达数据转换为\(log_{2}\左({TPM+1}\右)\).CNV数据最初为段级数据。我们进一步将这些片段级CNV数据转换为基因级。有\(K\)与某个基因重叠的片段,每个重叠区域的长度表示为\(l_{s}{}\左({s=1,2,\ldots,K}\右)\).基因长度表示为\(L)。每个段的相对拷贝数比率表示为\(c_{s}\左({s=1,2,\ldots,K}\右)\)我们从Ensembl(GRCh37)中提取了基因的位置[35]. 我们将片段水平的CNV数据转换为基因水平,并使用以下公式采用对数转换,
$$log_{2}\left({\mathop\sum\limits_{{s=\left\{{1,2,\ldots,K}\right\}}}c{s}\frac{l{s}}}{l}+\left({1-\mathop\sum\limits_{s=\left\{1,2,\ldots,K}\right\}}}\frac{l{s}}}{l}}\right)+1}\right)$$
在分析体外肿瘤细胞系的药物反应和临床癌症数据方面存在显著差异。在临床癌症数据中,药物反应注释是定性的,而不是定量的。药物反应在TCGA中被标记为四种类型:(1)完全反应,(2)部分反应,(3)临床进展性疾病,(4)稳定性疾病。我们将这些标签二值化为“敏感”和“抗性”。如果TCGA中的注释是(1)完全反应或(2)部分反应,我们认为药物是敏感的。如果注释是(3)临床进展性疾病或(4)稳定性疾病,我们认为药物具有耐药性。另一方面,通过IC50对细胞系上的药物反应进行量化。然而,每种药物的IC50范围不同(附加文件中的图S11). 因此,我们引入了一种度量方法,即药物敏感性评分(DSS),以将药物反应转换为相同的量表,并使不同药物的反应具有可比性,
$$DSS=\左({-1}\右)^{I(IC50>MSC)}左({frac{{left|{IC50-MSC}\right|}}{MSC}+1}\right)$$
其中MSC表示药物的最大筛选浓度。我们从GDSC收集MSC。\(左边(右边))是指示器功能。如果\(IC50>MSC),\(I(IC50>MSC)=1)这表明给定的药物不足以杀死癌细胞,且DSS小于0。如果\(IC50<MSC),\(I(IC50>MSC)=0)这表明所给药物具有杀死癌细胞的潜力,且DSS大于0。DSS越大,药物越敏感。临床样本的基因特征和药物反应注释在附加文件中给出2:表S8。
我们预测了临床癌症患者的药物IC50,并计算了DSS。然后,我们采用ROC曲线来分析我们的预测与从TCGA获得的二进制临床注释之间的一致性。