定义
化合物的生物活性可以通过其亲和力(如下所示基/Kd(千克))和/或其效力(如下所示国际资本50/半数有效浓度). 亲和力和效力测量进一步被称为活动类型。在给定的生物体中,可以为每个不同的分子靶点测量一种或多种活性类型,由其唯一的Uniprot ID定义,每个生物体/靶点/活性类型组合称为检测。在整个手稿中,效力和亲和力值都包含在“亲和力指纹”这一总括术语中。
rv-QAFFP指纹构造
化合物的rv-QAFFP(rv代表实值)指纹是一种载体,包含化合物在相应的QSAR模型预测的分析范围内的生物活性。构建rv QAFFP指纹的工作流程如图所示1如下所述。
QSAR模型是使用从ChEMBL数据库(版本19)中提取的公共可用数据构建的[50,51]. ChEMBL数据已经得到广泛管理和标准化[58,59,60]使用管道[61]包括脱盐、中和和官能团归一化。QSAR模型是使用生物化学和细胞测定数据获得的,这一策略在以前的研究中被证明是成功的[22,45]. 为了进一步增加靶点数量和训练数据量,考虑了人类和非人类靶点的生物活性数据,并为单个生物体建立了单独的模型(附加文件1). 仅考虑满足以下标准的数据集:(i)活动类型EC50、IC50、Ki或Kd(千克); (ii)定义为“=”的活动关系;(iii)ChEMBL置信度得分等于7或9(即配体直接与目标复合物中的亚单位或单个蛋白质结合)。对于QSAR建模,仅考虑具有50个以上不同活性记录的配体集进行进一步分析。在对同一配体-靶向复合物的多个活性值进行注释的情况下,计算其平均值和标准偏差。只有当给定化合物目标系统的所有注释测量值的标准偏差小于0.5时,才使用平均值作为活度值,否则数据点被丢弃。每个分析都建立了一个单独的模型,总共有1360个模型。所有1360个模型的配体集由223438种不同的化合物组成,每个数据集平均有267种化合物。用于训练每个QSAR模型的配体数量在附加文件中给出1.
为了构建QSAR模型,使用1024位长的Morgan2指纹对化合物进行编码[62]是使用模块构造的合奏。随机ForestRegressor来自Python机器学习库scikit-learn[63]. 森林中的决策树数量设置为100[54,64,65]以及最大特征数与总特征数之比。还调查了更多的树木(500棵),但没有发现显著的改善(数据未显示)。使用活动值分层抽样,将每个数据集按80:20的比率分为训练集和测试集。使用交叉验证相关系数验证每个QSAR模型\({\text{q}}^{2}\),而模型在测试集上的预测能力(外部验证)是使用\({\text{R}}_{0}^{'2}\),被约束为通过原点的预测值与观测值的确定系数:
$$q^{2}=1-\frac{{\mathop\sum\nolimits_{i=1}^{N}\left({y_{i}-\widehat{y}(y)_{i} }\right)^{2}}{{\mathop\sum\nolimits_{i=1}^{N}\left({y_{i}-\overline{y}}\rift)^{2]}$$
$${R^{\prime}}_{0}^{2}=1-\frac{{\mathop\sum\nolimits_{i=1}^{N}\left({y_{i}-\widehat{y}(y)_{i} ^{r0}}\右)^{2}}{{\mathop\sum\nolimits_{i=1}^{N}\左({y_{i}-\上划线{y}}\左)^{2]}$$
哪里N个是验证集的大小(对于\(q^{2}\))或测试集的\({R^{\素数}}_{0}^{2}\)),\(y{i}\)被观察到,\(\widehat{y}(y)_{i} \)预测和\(\上划线{y}\)平均活动,以及\(\widehat{y}(y)_{i}^{r0}=k^{prime}\widehat{y}\)哪里\(k^{prime}=sum y_{i}\widehat{y}(y)_{i} /\sum\widehat{y}(y)_{i} ^{2}\)是通过原点的预测回归线与观测回归线的斜率[66,67,68].\({\text{q}}^{2}\)使用训练集的十倍交叉验证进行估计。使用活动值的分层抽样,将训练集划分为相同大小的十倍。因为RF算法包含随机抽样,所以十倍交叉验证重复了10次,最后\({\text{q}}^{2}\)被报告为所有10次跑步中所有10倍的平均值。使用整个训练集构建最终模型,并通过计算评估其预测能力\({{\text{R}^{prime}}}_{0}^{2}\)用于测试集。
遵循先前关于预测生物活性建模的建议[67,69],仅适用于具有\(q^{2}\ge 0.5)和\({R^{prime}}_{0}^{2}\ge0.6\)进一步考虑了QAFFP指纹的构建\({\text{q}}^{2}\)截止值保证了模型与训练数据的良好拟合\({{\text{R}^{prime}}}_{0}^{2}\)截止值保证了对新分子的强大预测能力(在给定数据集所表示的化学多样性的限制范围内)。尽管这些阈值可能因建模场景而异[70](例如,与潜在客户优化相比,在命中识别中可以容忍更高的错误),就我们的研究而言,它们足够严格,并提供足够高的预测能力。使用这些阈值,440种型号,进一步称为点预测模型在最初的1360个模型中,被认为是可靠的,并用于构建rv-QAFFP指纹(附加文件1). 1360和440模型之间目标类表示的比较(图2)显示1360个模型的分析空间在440个分析中均匀表示。
未知化合物的QAFFP指纹是通过应用于该化合物的点预测模型的预测获得的。然而,如果化合物位于点预测模型的适用域(AD)之外,则可能无法可靠地预测其生物活性[71,72]. 因此,估计模型AD很重要。在当前工作中,使用保角预测(CP)框架估计AD[54,57].
保角预测器是一种置信预测器,与单个值相比,它输出一个预测区间,该预测区间具有与用户定义的置信水平\(1-\varepsilon\),其中\(\varepsilon\)称为显著性水平例如,对于90%置信水平(即10%显著性水平)的保角回归模型,至少90%的所有生成的预测区间包含正确的值(即,不超过10%的实际值超出预测区间)。对于每个新化合物不符合项得分(度量)\(\字母\)已计算。不合格分数是衡量新化合物与训练集化合物相似程度的方法,定义为\(阿尔法=frac{{left|{y{i}-\widehat{y}(y)_{i} }\右|}}{{\lambda{i}}\)哪里\(y{i}\)是观察到的生物活性值,\(\widehat{y}(y)_{i} \)是预测的生物活性值\(\lambda{i}\)是预测间隔的比例因子。在当前工作中,一个单独的射频模型误差预测模型,受过预测残留物的训练\(\rho{i}\)(即测得的生物活性与点预测模型预测的生物活性之间的差异),该值用作比例因子\(\lambda{i}\)然后,共形预测因子将要预测的化合物的不符合分数与先前实验测试的化合物的分数相关联并进行排序。这是通过计算第页-值(不要与第页-统计分析中的值),是具有不合格分数的现有化合物的分数\(\字母\)比新化合物小。如果这个分数很小则新化合物是非常不合格的,即与模型中以前的化合物截然不同,因此它将具有更大的相关预测范围。
在这项工作中,归纳共形预测(ICP)[73]被雇佣。在ICP中,训练集被随机分为“适当”训练集和“校准”集。使用适当的训练集训练模型,并使用校准集生成不合格分数\(\字母\)ICP的缺点是它需要更多的数据,因为不能使用校准集实例来训练模型。因此,我们使用了交叉共形预测(CCP)[74]其中数据与交叉验证类似,分为k个褶皱(k个在本工作中等于10),因此所有训练数据都被用作训练以及校准集。
b-QAFFP指纹构造
相似性搜索中使用的标准分子表示是二进制指纹[75]. 比较rv-QAFFP和ECFP4二进制指纹的性能[2]在之前的几项研究中,该方法已被确定为性能良好的基准方法[76,77,78]使用活性截止值并考虑模型AD,将rv-QAFFP转换为二进制形式b-QAFFP。如果在给定的置信水平下,预测区间的宽度不超过阈值,则认为预测值位于模型AD内。在b-QAFFP中,所有位于活性截止点以上且同时在模型AD内的预测值都被编码为1。所有位于亲和性阈值以下但仍在模型AD内的值都编码为零。此外,如果预测不在模型AD范围内,则假设化合物更可能是非活性的而非活性的,该值被设置为零,这与之前几项研究中的报告类似[1,29,79].
QAFFP绩效评估
QAFFP指纹在三种常见的化学信息学应用中的价值得到了证明:相似性搜索、生物活性分类和支架跳跃。此外,随附文件[53]描述了QAFFP指纹图谱在回归设置中的应用,以预测化合物的体外效价。
-
1)
相似性搜索。在相似性搜索中,通过计算结构相似性来识别新的潜在活性化合物[80,81]到已知的活动。这种方法基于相似的性质关系,即结构相似的化合物具有相似的性质[82]. 如果只有一个活性化合物已知,则适合进行相似性搜索。在相似性搜索任务中,只评估了b-QAFFP指纹的性能。
-
2)
生物活性分类。在生物活性分类中,将已知活性和非活性物质作为输入,建立分类模型,用于对未知化合物进行分类。通常,机器学习方法被用作分类器[83,84]. 如果有多个活动可用,则机器学习分类方法适用。在生物活性分类中,评估了rv-QAFFP和b-QAFFP指纹的性能。
-
3)
脚手架跳跃。跳架的目的是发现含有全新化学类型的活性化合物[85,86,87]. 通过rv-QAFFP和b-QAFFP指纹评估支架跳跃电位。
通过两种质量测量来评估QAFFP指纹性能,AUC公司和EF5(EF5),两者的结合很好地说明了该方法分离真阳性和假阳性的能力[88].AUC公司是ROC曲线下的面积,它量化了方法区分活动和非活动的一般能力[89].AUC公司等于分类器将随机选择的阳性实例排序为高于随机选择的阴性实例的概率。然而,AUC公司对早期识别不够敏感[90]这意味着它不会优先考虑那些将活性物质放在化合物排名表前面的模型。因此,AUC公司被浓缩因子补充EF公司明确衡量早期识别[90,91].EF公司已定义[92]作为
$$EF\left({\chi\%}\right)=\frac{{\frac{{P_{\chi\\}}}{{N_{\ch\%}}}}{{\frac{{P_a{total}}{$$
哪里\(\chi\%\)是已排序数据集的分数EF公司为计算,\(P_{\chi\%}\)是此分数中的活动数\(N_{\chi\%}\)是该馏分中所有分子的数量,\(P_{合计}\)是数据集中的活动数\(N_{合计}\)数据集中所有分子的数量。一种优于随机选择化合物的方法返回EF公司 > 1.在本研究中,EF公司排名前5%(\(\池\)=0.05),缩写为EF5(EF5),已计算。
将QAFFP性能与1024位长的Morgan2指纹进行比较,该指纹相当于ECFP4指纹[2]. ECFP4指纹因其在各种基准研究中的高检索率而被选为比较基准[77,93]. QAFFP和Morgan2指纹之间的性能差异通过在R包硬币中实施的单侧精确Wilcoxon配对签名秩检验(配对t检验的非参数替代方法)进行评估[94,95]. 效应大小被评估为标准平均差的双边95%置信区间(AUC公司或EF5(EF5))在QAFFP和Morgan2之间通过双边精确Wilcoxon签名秩程序构造。
相似性搜索
使用Riniker等人开发的开源基准测试平台评估了b-QAFFP指纹在相似性搜索中的性能[91,96]. 该平台包含从三个不同的数据收集(DUD)中收集的活动和非活动列表[97],多用途车辆[98]和ChEMBL[50,51]Heikamp和Bajorath提出的子集[99])、预定义训练集列表、随机选择的查询分子列表以及执行评估所需的Python代码。预先定义的训练和测试(即查询)分子的可用性使虚拟筛选实验的复制和结果的比较变得容易。
两个不同的数据集(附加文件2)在当前版本的平台中提供了模拟以下两个用例的[96]:
-
1)
用例:可以使用高通量屏幕中的一小组不同活动。对于这个用例,异构数据集(在原始出版物中进一步称为HET数据集,“数据集I”[96])由69组数据集组成,来自以下三个来源:16个最大无偏验证(MUV)数据集[98],来自有用诱饵目录(DUD)的3个数据集[100],以及从ChEMBL中提取的50个数据集[99].
-
2)
用例:可以使用出版物或专利中的一小组相关活动,即共享一个或两个公共支架的化合物。对于这个用例,同质数据集(在原始出版物中进一步称为HOM数据集,“数据集II”[96])由37组数据组成,这些数据来自医药化学论文,通常包含一个或两个化学系列的数据。
HET和HOM数据集都包含同样存在于QAFFP指纹中的分析,因此,这些分析被从QAFFP手指中删除。即,在69个HET目标中,与56个QAFFP分析相对应的44个目标存在于QAFFP指纹中(附加文件2)当它们被移除时,其变为384比特长。类似地,在37个HOM靶标中,QAFFP指纹中存在27个对应于38个QAFFP测定的靶标(附加文件2)移除后,其变为402位长。
对于三个数据集集合(MUV、DUD、ChEMBL)的每个目标,在基准平台内提供了两个复合列表,一个用于主动项,一个用于非主动项。对于HET数据集,使用不同的随机选择训练集对每个目标重复50次VS实验。为了确保结果的再现性,预先计算的培训集作为基准平台的一部分提供。在我们的例子中,每个训练集由10个活动(进一步称为查询分子)和20%随机选择的非活动组成。其余的活动和非活动组成了测试集。对于测试集中的每个分子,计算其与查询分子的相似性,只考虑与MAX融合规则相对应的最高相似值[101]. 然后,根据相似度递减和AUC公司和EF5(EF5)是根据这个排名表计算出来的。
对于HOM数据集,VS实验在每篇论文中进行一次,使用论文中的所有活动项和10%的非活动项作为训练集。测试集由同一目标的基准测试数据集中的99个活动项和其余非活动项组成。
分子之间的相似性通过Rogot-Goldberg指数进行评估秒RG公司[102]
$$s_{\text{RG}}=\frac{a}{2a+b+c}+\frac{d}{2d+b+c}$$
哪里一是两个对象中设置为1的位数,d日是两个对象中设置为0的位数,b是第一个对象中的位设置为1,同时第二个对象中位设置为0的情况数,以及c(c)是第一个对象中的位设置为0,同时第二个对象中位设置为1的事件数。Rogot-Goldberg指数代表了一种有效的替代方法[103]然而,对于常用的Tanimoto索引,它不仅考虑设置为1的位,还考虑设置为0的位。对于b-QAFFP指纹,Rogot-Goldberg指数比Tanimoto指数更为现实,因为化合物活性靶点的信息与其非活性靶点信息同等重要。
为了比较b-QAFFP和Morgan2指纹的性能,计算了HET和HOM数据集的两种指纹。构建b-QAFFP指纹时使用了5(即10µM)、6(即1µM)、7(即100 nM)和8(即10 nM)的亲和力截止值。使用保角预测估计模型AD,但也考虑了不使用AD的情况。使用置信水平为90%的ICP,最大区间宽度(用于区分预测是否足够可靠)设置为4.0(即预测值±2.0)。对于每个数据集和每种类型的指纹,训练一个单独的模型,并通过计算AUC公司和EF5(EF5)测试集的值。
生物活性分类
HET和HOM集合都是高度不平衡的,非活动项的数量要高得多(例如,MUV数据集包含30个活动项和15000个非活动项,请参阅附加文件2),这限制了它们在分类模型训练中的实用性。因此,新的数据集,进一步称为CLASS数据集,是由920个未用于QAFFP构建的分析构建的。使用以下标准选择CLASS数据集:(1)效价≤5的化合物被视为非活性,效价≥6的化合物被认为是活性的,(2)对于每个CLASS数据库(化验),必须有60种以上的非活性和60多种活性(3)CLASS数据集中只包括与任何QAFFP分析共用不超过10%配体的分析。CLASS数据集包括23次分析(21次国际资本50和2半数有效浓度)覆盖23个目标(附加文件三).
为了构建rv-QAFFP指纹,通过ICP估计AD。如果给定数据点的预测区间宽度在90%的置信水平下大于±2.0,则该预测被认为不可靠,并被所有可靠预测亲和力的平均值所取代。考虑到或不考虑ICP使用90%的置信水平估计的AD,并将最大间隔宽度设置为4.0(即预测值±2.0),使用多个亲和力截止值(5(即10µM)、6(即1μM)、7(即100 nM)和8(即10 nM))构建b-QAFFP指纹。AD之外的所有化合物都被零取代。
在生物活性分类任务中,使用CLASS数据集训练RF模型,将配体分为活性配体和非活性配体。因为某些CLASS数据集不平衡(附加文件三),平衡射频模型[104]从不平衡的学习Python包[80]受过训练。每个RF模型由100棵树组成[54,64,65]用GINI指数作为分割淋巴结的纯度标准。配体由Morgan2(1024位长)、rv-QAFFP和b-QAFFP(都是440位长的)指纹编码。五次交叉验证用于评估模型性能。每个交叉验证重复10次,并对所有重复和所有分割的最终结果进行平均。
脚手架跳跃
使用CLASS数据集(附加文件4)其中一组被移除(ChEMBL ID:CHEMBL5313),因为其不包含足够的支架。配体由Morgan2(1024位长)、rv-QAFFP和b-QAFFP(都是440位长的)指纹编码。以下设置用于构建rv QAFFP和b-QAFFP指纹:
-
1)
rv-QAFFP-RF模型根据原始数据进行训练,考虑或不考虑ICP估算的模型AD。在90%的置信水平下,如果预测区间宽度大于±2.0,则该预测被认为不可靠,并被所有可靠预测亲和力的平均值所取代。
-
2)
b-QAFFP指纹图谱的构建使用了5(即10μM)、6(即1μM),7(即100 nM)和8(即10 nM)的亲和力截止值。模型AD由ICP估算,但也考虑了不使用AD的情况。ICP的置信水平为90%,最大间隔宽度为±2.0。模型AD外的配体被认为是非活性的(即,相应的位被设置为0)。
对于每个配体,其环骨架(CSK)[105]已生成。CSK,也称为图形框架[106]源自Bemis和Murcko(BM)脚手架[106]通过将所有杂原子转换为碳,并将所有键序设置为1。如果化合物效力的十位数负对数大于6,则认为该化合物具有活性。给定分析中所有活性化合物的CSK进一步称为活性CSK(ACSK)。此外,含有至少五种活性化合物的活性CSK进一步称为富活性CSK(RACSK)。对于给定的分析,训练集由一个RACSK中的化合物加上所有非活性化合物组成。测试集由所有剩余的活性化合物组成。因此,每个分析的训练集数量等于其RACSK的数量(附加文件4). 使用每个训练集,一个平衡的射频模型[80,104]构造并应用于测试集。使用0.5的概率阈值将测试集中的化合物分类为活性或非活性。对于每个分类的活性物质,检索其CSK,并计算每个分析的唯一CSK数(在所有训练数据集中求和)。评估Morgan2、rv-QAFFP和b-QAFFP指纹的支架跳跃电位。此外,使用rv-和b-QAFFP指纹检索的ACSK被合并并报告为rv+b-QAFFP。