本文提出了一种新的方法(Auto-HMM-LMF),通过结合并有效地使用特征选择方法来有效预测细胞系药物关联。Auto-HMM-LMF算法的主要方案如图所示1在第一步中,使用了两种策略来选择输入数据的重要特征。基于自动编码网络的特征选择方法被应用于细胞系的基因表达谱,并且相似矩阵(Sim经验)使用选定的特征构造。类似地,相似矩阵(SimCNV公司)通过对拷贝号更改信息应用自动编码器特征选择方法,使用所选特征创建。在下一步中,相似矩阵(SimMUT公司)基于单核苷酸突变数据的隐马尔可夫模型和多项式混合模型,使用一种新的特征选择方法生成。两个相似矩阵(SimIC50型)和(Sim组织)分别使用跨药物的细胞系的IC50值和每个细胞系的组织类型信息来实现。最后,为了构建每个细胞株和药物的潜在载体,并预测细胞株是否对药物敏感,应用了逻辑矩阵分解方法。为了将IC50值分配给灵敏度和电阻这两个标签,我们使用了先前研究中介绍的策略[5,7,9],它使用单个药物IC50值的中位数作为分类模型的阈值。如果IC50值小于单个药物细胞系的中位数,则分配给敏感度或标签为1的类别的细胞系,否则分配给耐药性或标签为0的类别的电池系。在下一节中,我们首先描述了研究和数据预处理中使用的数据集,然后解释了上述每个步骤的细节。
数据集和预处理
在这项工作中,我们使用了由1001个癌细胞系和265种测试药物组成的GDSC数据集,以及分析了1457个癌细胞系及其对24种药物的基因组图谱的CCLE数据集。在这些数据集中,细胞系以基因表达谱、拷贝数改变和单核苷酸突变等基因组特征为特征。半最大抑制浓度(IC50)值用于跨药物细胞系的敏感性测量。我们重点关注了98种和24种药物,其中SDF格式(编码药物的化学结构)分别可从GDSC和CCLE的NCBI PubChem Repository获得。在这些数据集中,基因表达特征没有缺失值。然而,一些细胞系的响应值、单核苷酸突变特征和拷贝数改变特征缺失。在第一步中,删除了包含一半以上特征缺失值的细胞系。
k近邻的已知值对其余缺失值进行了插补。每对细胞系的欧氏距离c我和cj个基于他们的基因表达谱x我和xj个定义如下:
$${\text{Dis}}_{{text{E}}\左({{\text}}_}{{text}i}},{text{c}}__{text{j}}}\右)\,=\,\左|{left|{text{x}}_[{text{i}}}{-}{text{x}}{{{{x}{}}}|_{{2}}^{2}$$
(1)
然后使用细胞系c的k个最近细胞系的平均特征值来插补药物d的缺失药物反应值(IC50),如下所示:
$${\text{IC5}}0\左({{text{c}},{text{d}}\right)=\mathop\sum\limits_{{\text}i}}=1}}^{text{k}}\frac{Dis_{E}\left({{\text{c},}c{i}}\right)=1}}^{k}Dis_{E}\左({{\text{c}},{}c{i}}\右)$$
(2)
类似地,使用细胞系c的k最近细胞系的平均特征值来插补基因g的缺失拷贝数改变值(CNV),如下所示:
$${\text{CNV}}\left({{text{c}},{text{g}}\right)=\mathop\sum\limits_{{\text}i}}=1}}^{\text{k}}\frac{{Dis_{E}\left({{\text{c}{,{}c{i}}\right)=1}^{k}Dis_{E}\左({{\text{c}},{}c{i}}\右)$$
(3)
单核苷酸突变特征的值是二值的,即1表示突变,0表示野生型。细胞系c的k最近细胞系的平均特征值被认为是对基因g缺失的MUT(单核苷酸突变)值的插补,如下所示:
$${\text{MUT}}\left({{text{c}},{text{g}}\right)=\left\{{begin{array}{*{20} 我}1\h将&{if\,\,\left({\mathop\sum\limits_{{\text{i}}=1}}^{{\text{k}}{\text}MUT}}\left c{{text{i}},{\text{g}}\right)}\rift)}\hfill\\0\hfil&{otherwill\\end{array}}\right$$
(4)
最后,GDSC数据集考虑555个细胞株和98种药物,CCLE数据集考虑363个细胞系和24种药物。
使用自动编码器选择特征
特征选择方法旨在通过识别数据集中信息性和非冗余特征的子集来降低数据维度。自动编码器是一种用于无监督学习的非递归神经网络,它将数据集从初始特征空间减少到更重要的特征空间。它有一个输入层、一个输出层和一个或多个隐藏层。输出层中的节点数(神经元)与输入层中的相同。自动编码器通过假设输出层向量为输入层向量来学习权重向量。为了构建用于基因表达谱和拷贝数改变信息特征选择的自动编码网络,Xu等人引入了该策略[7]使用。为了筛选出基因表达特征和拷贝数变化数据,考虑了两个具有单个隐层(含100个神经元)和双曲正切函数的自动编码网络。在选择特征子集后,使用Boruta算法将另一组重要特征确定为逻辑矩阵分解模型的两类输入[6]. 为了确定基本基因,由自动编码网络选择的一组特征,以及对应于导入Boruta算法的细胞系和药物的敏感性和耐药性标签。Boruta算法是一种基于随机森林分类构建的包装器,它通过统计测试迭代删除不太重要的特征。该算法添加了使用自动编码器获得的所有特征的副本,并对复制的特征的值进行混洗以构建阴影特征,并试图找到基本特征。在扩展信息系统上运行随机森林分类器,Z值计算所有属性的重要性。Boruta算法重复查找过程(查找属性中的最大Z分数),直到为所有属性分配了重要性[6].
第一个单隐藏层自动编码器和Boruta算法分别用于GDSC和CCLE两个数据集的11、712和19、389个基因的基因表达谱。GDSC和CCLE选择的必需基因数量分别为798和1189。此外,对两个GDSC和CCLE数据集的24、959和24960个基因,应用类似的自动编码器和Boruta算法进行拷贝数改变。分别为GDSC和CCLE数据集选择了67和127个特征。
基于隐马尔可夫模型和多项式混合模型的特征选择
了解突变过程的活性对于癌症治疗和个性化治疗至关重要。由于突变过程在癌症基因组中留下了其活性的特征,因此从患者的单碱基替换模式中表征其活性突变过程的特征非常重要。在本研究中,我们使用了Wojtowicz等人提出的策略,将已知特征分配给相应的个体突变,以选择癌症类型中的基本突变基因[10]. 在这项工作中,我们只考虑了癌症体细胞突变目录(COSMIC)中经验证的突变特征[11],我们重点研究了以前在癌症类型中被确定为活性的特征[12]. 表1显示了与GDSC和CCLE数据集中的癌细胞系相对应的14种癌症类型的活性特征(仅考虑GDSC和CCLE数据集中具有至少15种细胞系的癌症类型)。
因为有六类碱基替换(C:G > A: T、C:G > T: A、C:G > G: C、A:T > C: G、A:T > T: A、A:T > G: C)和四种可能的5′,我们将癌症基因组中的突变分为96类,包括碱基替换和四种潜在的3′碱基[13,14]. 我们从国际癌症基因组联盟数据门户下载了癌症类型的单碱基替换[15]. 我们分析了几种癌症类型患者的单碱基替代,这些患者(患者组1)对应于每种癌症类型的数量如表所示2对于每种癌症类型,应用以下隐马尔可夫模型和多项式混合模型,并确定所考虑的癌症类型的重要基因。在这个模型中,每种癌症类型的状态数是根据表中所示的相应特征的数量来确定的1例如,BRCA癌症的状态数(t)为12。
详细的逐步特征选择程序如下所述:
识别紧密突变和孤立突变
我们使用2000 bp的距离阈值将突变分为两类,即近突变和孤立突变(孤立突变与任何其他突变都很遥远)。我们将每个突变序列的第一个突变设置为关闭。对于其他突变,如果与前一个突变的对应距离大于2000 bp,则该突变标记为孤立突变,否则接近。因此,从患者的一个突变序列中,我们可以得到几个子序列,一些对应于闭合突变,而另一些对应于孤立突变。例如,与BRCA癌症患者的孤立突变相对应的两个子序列和与BRCA癌患者的闭合突变对应的三个子序列如下:
$$\开始{aligned}和\下大括号{T>G,T>C,G>A,C>G,T>C,}_{close}\下大括弧{G>T,T>C$$
(5)
模拟闭合突变
由于与闭合突变相对应的子序列彼此接近,因此可以假设它们之间存在依赖性。因此,使用隐马尔可夫模型(HMM)对这些子序列进行建模。
具有t(突变特征数)隐藏状态的HMM M表示为
-
Σ = {抄送1,…,c秒}是所有序列的字母集。
-
问 = {问1,…,qt吨}是一组状态,每个状态都能够发出字母∑的符号。
-
π我,∀我 = 1,…,t是从第i个状态开始的概率。
-
A类 = 【a】i、 j个]i、 j=1,…。,t吨哪一个i、 j个是q的转移概率我到qj个.
-
E类 = [英]i、 j个]i=1…,t,j=1,…,s其中ei、 j个是状态q的概率我发射cj个.
该模型假设每个代表突变类别的观察值都是由t状态之一发出的。生成观察序列的状态序列是未知的,每个状态都取决于之前的状态。为了学习模型的参数π、A、E,在第一步中都获得了作为HMM参数估计训练集的闭子序列。在本研究中,AntMarkov算法(受蚁群优化启发的隐马尔可夫模型参数估计算法)[16]用于估计HMM参数。
孤立突变建模
由于孤立的子序列远离任何其他突变,因此它们之间的依赖性假设动机较小。因此,使用多项式混合模型(MMM)对孤立突变进行建模。MMM由t突变特征边缘概率向量g和t × s发射矩阵E,(s = 96). 第一步中获得的所有孤立子序列都被视为MMM参数估计的训练集。向量g和发射矩阵E是根据样本中观察到的孤立突变次数来估算的(实验分布)。我们考虑一个大小为96的向量T,其中T[i]是样本中观察到第i个突变类别的孤立突变的总次数。通过将向量T应用于初始化向量g和发射矩阵E,得到了它们的估计值。
计算突变序列发生率
在训练了上述两个模型后,序列发生的概率O1、…、OT型,它被分解为封闭和孤立的子序列,{C1,我1,C2,我2,…,Ck1型,我k2(平方公里)},公式如下:
$${\text{P}}=\左}2}}P{\text{(i}}_{text{j}}}{\text}|MMM}})}\right){}$$
(6)
维特比算法[17]应用于查找生成闭合子序列的最可能状态序列的路径。为了确定与孤立突变相对应的最可能路径,使用了g矢量和发射矩阵E的估计值。对于每个单独的突变类别(Ot吨),概率值最大的状态(Qt吨)由以下公式得出:
$${\text{max}}_{j=1\ldots.t}\左$$
(7)
最后,我们附加这两个最可能的状态路径,以构建与患者对应的最终路径。然后,将观察到的状态数(特征)计算为每个样本的特征频率或每个路径的特征活动。例如,BRCA癌症患者有一个大小为12的向量,对应于签名数,该向量的元素是根据在最终路径中观察到每个状态的次数来计算的。
识别重要基因
为了考虑每个患者的特征活动和基因表达谱之间的关系,我们从国际癌症基因组联盟数据门户下载了患者的基因表达文件[15]. 可获得基因表达信息的患者数量(患者组2)如表所示2此外,由于两个GDSC和CCLE数据集的54和1667个基因的单核苷酸突变信息是可获得的,我们分析了这些基因的表达,以计算Spearman相关系数。因此,计算了1721个基因的表达与样本间特征活性之间的Spearman相关系数。通过这种方法,我们在每种癌症类型的近距离和孤立区域中确定了具有高Spearman相关系数(大于0.2)的基本基因。附加文件中说明了具有高Spearman相关系数的14种癌症类型中某些基因与特征活性之间的相关性结果1:表S1。我们认为这些基因是GDSC和CCLE数据集中单核苷酸突变数据的基本特征。最后,分别基于GDSC和CCLE中的隐马尔可夫模型和多项式混合模型,采用上述策略选择22个和72个基因。这些基因的列表如附加文件所示1:表S1。
相似性定义
由于相似细胞系和相似药物可能具有相似的药物反应,因此细胞系和药物之间的相似性可以改进药物反应预测[5,18].
在logistic矩阵分解模型中,识别最近邻需要相似度矩阵。基因表达谱、拷贝数改变、单核苷酸突变和组织类型信息用于细胞系相似性,药物化学结构用于药物相似性。因此,每对细胞系之间的五个相似性和每对药物之间的相似性定义如下:
细胞系相似性
-
(模拟经验)是基于基因表达谱的选定特征的相似性,其中,对于GDSC和CCLE两个数据集,通过自动编码器识别的基因表达谱基本基因的数量分别为798和1189。模拟经验定义为每对n个细胞系的基因表达载体之间的皮尔逊相关性,排列成n个 × n矩阵。
-
(模拟CNV公司)是基于拷贝数改变数据的选定特征的相似度,其中67个和127个有用特征分别由GDSC和CCLE中的自动编码器选择。模拟CNV公司矩阵定义为n × n矩阵通过Pearson相关性分析每对细胞系的拷贝数变化矢量。
-
(模拟MUT公司)是基于隐马尔可夫模型和多项式混合模型选择的单核苷酸突变信息特征的相似度。通过该策略分别从GDSC和CCLE数据集中鉴定出22个和67个必需基因。然后,将Jaccard相似性应用于对应于n个细胞系的每对单核苷酸突变载体MUT公司构造为n × n矩阵。
-
(模拟IC50型)是基于细胞系的IC50值的细胞系之间的相似性。刘提出的细胞系间相似性的定义是基于细胞系响应IC50值之间的相关性[19]. 模拟IC50型定义为n个细胞系之间的皮尔逊相关性 × n矩阵。
-
(模拟组织)是基于组织类型的细胞系之间的相似性。全套样本由GDSC和CCLE数据集组成,癌细胞系起源于大约14个组织部位。模拟组织是一个n × n二值矩阵,如果两个单元格线c,则对应于第i行和第j列的条目为1我和cj个具有相同的组织类型,否则为零。模拟人生组织与GDSC和CCLE细胞系对应的矩阵在附加文件中表示2:表S2和附加文件三:表S3。
由于上述每对相似矩阵之间的相关系数很低,因此矩阵之间不存在共线性,可以线性组合。我们构建了一个集成的矩阵相似性Sim氯 = [SCij公司]n×n,使用Sim的组合经验,模拟CNV公司,模拟MUT公司,模拟IC50型和Sim组织通过以下公式:
$$\frac{{\uplambda{\text{Sim}}_{{\text}EXP}}}}+\upgamma{\text[Sim}}{{{CNV}}}+\upphi{\text]Sim}}{\text{TISSUE}}}}{{\uplambda+\upgamma+\upphi+\uppsi+\uprho}}$$
(8)
其中γ、λ、、ψ和ρ是控制每个矩阵重要性并在模型中调整的参数。我们定义了集合Nk个(c)我)表示与c最相似的k个细胞系我(c除外我)使用(Sim氯)矩阵。我们构造了邻接矩阵A = 【a】ij公司]n×n表示细胞系邻域信息如下:
$${\text{a}}_{{text{ij}}}=\left\{{\begin{array}{*{20} 我}{SC_{{\text{ij}}}}\hfill&{c_{{text{N}}}\在{\text}{{N}}_{text{k}}\left({c_}{i}}\right)}\hfirl\\0\hfil&{otherwill\\end{array}}\ right中$$
(9)
药物相似性
药物之间的相似性是基于化学亚结构(Sim药物). 对于每种药物,考虑881大小的零-一向量,其中881是药物已知化学亚结构的数量。在这个向量中,1表示药物的亚结构,否则为0。模拟药物 = [标准偏差ij公司]米×米构造为m × m矩阵与m药物对应的每个化学子结构向量之间的Jaccard相似性。对于药物d我,集合Nk个(d)我)表示与d最相似的k种药物我(d除外我)使用Sim药物矩阵。邻接矩阵,B = 【b】ij公司]米×米,描述药物邻域信息如下:
$${\text{b}}_{{text{ij}}}=\left\{{\begin{array}{*{20} 我}{SD_{{\text{ij}}}}\hfill&{d_{{text{N}}}\在{\text}{{N}}_{text{k}}\左({d_}{i}}\右)}\\hfill\\0\hfill&否则}\\end{array}}\right$$
(10)
Logistic矩阵分解
为了利用选定的特征从GDSC和CCLE数据集预测癌细胞株的药物反应,引入了基于logistic矩阵分解方法的DSPLMF方法[5]基于以下目标函数应用:
$$开始{对齐}和{\text{min}}_{{{text{U}},{text{V}}、\upbeta^{c},\upbeta ^{d}}\mathop\sum\limits_{{\text}}=1}}^{n}\matshop\sum\ limits_{{{\text{i}}=1{}}{}q{{\text{ij}}}\右)\log\左}}^{c} +\upbeta_{{text{j}}}^{d}}\右)}\右}}^{d}}\右)+\frac{1}{2}tr[{text{u}}^}(\uplambda_{{text{c}}i+\upalpha{\text{H}}^c}){text{u}}]+{}\frac}{1}}{2{tr[{\text}v}}^{T} (\uplambda_{{text{d}}}I+\uppeta{\text{H}}^{d}){text{V}}]\\end{aligned}$$
(11)
其中u我和vj个是与细胞系c相对应的L大小的潜在载体我和药物dj个所有细胞系和所有药物的潜在载体分别用U和V表示。阳性值\({\upbeta}_{{\text{i}}}^{c}\)和\({\upbeta}_{{\text{j}}}^{d}\)是符合细胞系c的偏差参数我和药物dj个和\({\upbeta}_{}^{c}{\text{和}}{\uppeta}_}^{d}\)分别是细胞系和药物的偏置载体[20]. 两个参数λc(c) = \(\frac{1}{{upsigma}_{\text{c}}}^{2}}}\), λd日 = \(\frac{1}{{{\upsigma}_{{\text{d}}}^{2}}\),其中\({\upsigma}_{{\text{c}}}^{2}\)和\({\upsigma}_{{\text{d}}}^{2}\)是控制细胞系和药物的先验分布方差的参数。参数α和β决定了DSPLMF方法中细胞系相似性和药物相似性的有效性。(r≥1)是控制观察到的相互作用的重要性水平的参数。由于敏感性和耐药性等级在药物反应预测问题中具有相同的重要性,我们将r设为1。此外,Hc(c) = (E)c(c) + \(\widetilde{{\text{E}}^{c}}}\)) − (A) + A类T型),Ec(c)和\(\widetilde{{\text{E}}^{c}}}\)是两个对角矩阵\({\text{E}}_{{text{ii}}}^{c}=\sum\nolimits_{{\text}}=1}}^}{{\text{n}}}{({\text}a}{{text}}}})}\)和\(\widetilde{{\text{E}}_{{text{jj}}}^{c}}=\sum\nolimits_{{{\text{i}}=1}}^{{text}}{({text{a}}_}{text{ij}})}\),小时d日 = (E)d日 + \(\widetilde{{{text{E}}^{d}}}\)) − (B) + B类T型)作为对角线元素(n是细胞系的数量)。E类d日和\(\widetilde{{{text{E}}^{d}}}\)是两个对角矩阵\({\text{E}}_{{text{ii}}}^{d}=\sum\nolimits_{{\text}}=1}}^}{{\text{m}}}{({\text}b}}{{text}ij}}})}\)和\(\widetilde{{\text{E}}_{{text{jj}}}^{d}}=\sum\nolimits_{{{\text{i}}=1}}^{{text}m}}{({text{b}}_}{text{ij}})}\),作为对角元素(m是药物的数量)。在训练所提出的模型后,使用以下公式确定细胞株和药物的潜在载体11然后,为了预测给定新细胞系在所有药物中的IC50值,选择新细胞系的k个最近邻,并根据其相邻潜伏载体的平均值估计该新细胞株的潜伏载体。由于(Sim)的元素IC50型)矩阵未知,(Sim氯)矩阵不能用于查找新细胞系的k近邻。我们使用DSPLMF方法中引入的策略进行估算(SimIC50型)DSPLMF方法设计了一个用于估计的决策树分类器模型(SimIC50型)利用新细胞系的基因表达谱、拷贝数改变和单核苷酸突变信息构建矩阵[5]. 然后,通过类似的方法,我们估计了与新细胞系相对应的潜在载体,以预测新细胞系对等式所示药物敏感的概率12对于一组细胞系和药物,细胞系c的概率我对药物d敏感j个可以建模为逻辑函数,如下所示:
$${\text{p}}_{{{text{ij}}}=\frac{{\exp\左{1+{\text{exp}}\左$$
(12)
最后,对概率应用阈值,为每个新的细胞系-药物对分配敏感或耐药类别。