QSAR-derived affinity fingerprints (part 1): fingerprint construction and modeling performance for similarity searching, bioactivity classification and scaffold hopping

Škuta, C.; Cortés-Ciriano, I.; Dehaen, W.; Kříž, P.; van Westen, G. J. P.; Tetko, I. V.; Bender, A.; Svozil, D.

doi:10.1186/s13321-020-00443-6

研究文章
开放式访问
出版：2020年5月29日

QSAR衍生亲和指纹（第1部分）：用于相似性搜索、生物活性分类和支架跳跃的指纹构建和建模性能

化学信息学杂志 体积 12，物品编号：39(2020)引用本文

6651访问
26引文
10海拔高度
韵律学细节

摘要

亲和指纹图谱是由化合物对蛋白质靶点参照物的亲和力或效价组成的载体。在这里，我们展示了QAFFP指纹，在基于QSAR的电子亲和指纹中有440个元素长，其成分由基于ChEMBL数据库生物活性数据训练的随机森林回归模型预测。实现了QAFFP指纹的实值（rv-QAFFP）和二进制（b-QAFFP”）版本，评估了它们在相似性搜索、生物活性分类和支架跳跃方面的性能，并与1024位长的Morgan2指纹（ECFP4指纹的RDKit实现）进行了比较。在相似性搜索和生物活性分类中，QAFFP指纹产生的检索率由AUC（依赖数据集的相似性搜索约为0.65和0.70，分类约为0.85）和EF5（依赖数据集中的相似性检索约为4.67和5.82，以及2.10用于分类），与Morgan2指纹相似（相似性搜索AUC约为0.57和0.66，EF5约为4.09和6.41，取决于数据集，分类AUC约0.87，EF5大约2.16）。然而，QAFFP指纹在脚手架跳跃方面优于Morgan2指纹，因为它能够从现有的1749个脚手架中检索1146个，而Morgan2的指纹只显示864个脚手架。

介绍

虚拟筛选（VS）是一组用于药物发现过程早期阶段的计算方法。VS的一个主要目标是将化学库减少到潜在活性化合物的可管理数量[1]. 在虚拟筛选中，分子通常由分子指纹表示[2]反映其化学结构的，或通过化学描述符[三]，这反映了它们的物理化学性质。然而，可以描述细胞对化合物的反应，而不考虑其化学结构。相反，所谓的生物活性图谱可用于定量描述化合物与蛋白质组的相互作用[4,5]. 研究表明，通过比较化合物的生物活性而非结构，可以发现结构不同的化合物，从而引发相同的生物反应[6]. 例如，在COMPARE方法中[7,8]使用60种不同人类癌症细胞株的GI50数据构建化合物图谱，这些数据能够发现结构不同的化合物，这些化合物通常由于共同的作用模式而具有可比的生物活性[9,10]. 虽然COMPARE图谱基于细胞反应，但生物活性图谱也使用分子靶属性构建。在所谓的“亲和指纹法”中，122个小分子是通过它们与8种蛋白质的对照组的结合能力编码的[11]并使用回归模型预测两个新靶点的化合物效力。类似地，“生物光谱”由在92种配体结合GPCR、蛋白酶、离子通道和激酶分析中以10µM浓度测量的抑制百分比值组成[12]. 生物光谱已成功应用于预测24种多巴胺类化合物的激动/拮抗作用[12]并调查药物的副作用[13]. 除了亲和指纹和生物光谱外，还提出了使用实验确定的生物活性谱描述分子的其他几个名称：化学基因组谱[14]，化学遗传指纹[15]或活性谱[16,17].

尽管生物活性分析是一种公认的方法，已成功应用于发现几种药物先导[18,19,20]，其缺点是必须收集所有使用靶点的剂量反应数据。另一种节约成本的方法是使用历史积累的生物活性数据构建生物活性曲线。在第一次此类研究中[21]利用131个不相关的细胞和酶筛选的生物活性数据，通过硅内化合物分析鉴定了6000个具有有效抗疟活性的小分子。2012年，Petrone等人[22]介绍了所谓的HTS指纹（HTSFP），该指纹是根据诺华公司历史上进行的195次生化和细胞分析的生物活性数据定义的。Petrone等人[22]证明了使用HTSFP指纹可以在虚拟筛选中获得最先进的性能，并且HTSFP的指纹在脚手架跳转方面尤其出色。进一步证明了HTSFP在模式作用分析中的潜力[23,24,25,26]以及活性和化学型富集筛选集的选择[24,27,28]. 尽管HTSFP指纹能够以前所未有的规模进行化合物比较，但它遇到了一个严重的困难：没有HTSFP手指的化合物不能包括在虚拟筛选中。该问题通过Bioturbo相似性搜索处理[24]，其中没有生物活性特征的化合物被结构相关化合物的生物活性特征所取代。

然而，诺华HTSFP数据等大型筛选数据集是专有的，这阻碍了学术实验室和小公司在其计算工作流中采用亲和指纹。为了克服这些问题，最近的研究使用公开的生物活性数据，利用亲和指纹对生物活性化合物进行分类。Riniker等人[29]使用PubChem BioAssay储存库中公开的95种分析构建了生物指纹[30]. 在分类任务中与ECFP4指纹相比，这种生物指纹在大多数分析中表现更好。同样，PubChem HTSFP[31]指纹由243个PubChem生化和基于细胞的分析的活性组成，这些分析跨越了多种目标类别。33个不同目标的命中扩展实验产生的平均命中次数是随机选择的27倍，平均AUC为0.82，超过29个目标的ECFP4指纹[31].

任何基于实验的亲和指纹的缺点是，必须在所有指纹分析中分析化合物。一种成本效益高的替代方法是评估硅片中的化合物活性。例如在DOCKSIM中[32]，使用DOCK生成亲和指纹[33]8个参考蛋白靶点的对接分数。该方法后来在Flexsim-X方法中得到了扩展[34]通过使用FlexX程序应用柔性对接[35]并将参考目标范围扩大到10个。其他基于停靠的电子分析方法包括药物配置文件匹配[36,37,38]和对接得分指数[39,40].

基于停靠的方法的主要缺点，即计算量大、需要解析蛋白质结构和相对较低的目标空间覆盖率，导致了贝叶斯亲和指纹（BAF）的发展[41]. 在BAF指纹中，对接分数被贝叶斯模型分数所取代，即被配体对给定目标集激活的概率所取代。与ECFP4指纹相比，基于BAF指纹的模型在所有活动类别的相似性搜索中平均提高了约24%的检索率[41].

为了预测化合物的生物活性，已经发展了各种定量结构-活性关系（QSAR）方法[42,43,44]. 最近，一些研究小组采用QSAR模型预测人类激肽组的化合物活性，并生成相应的亲和指纹[45,46,47,48]. 在Profile-QSAR（pQSAR）方法中[45]Naive Bayes模型接受了115次诺华专有激酶分析的训练。根据贝叶斯活性概率构建的亲和指纹被用于预测复合物对模型中未包括的激酶的活性，产生的活性富集通常为20到40倍[45]. 在pQSAR 2.0中[46]，来自朴素贝叶斯模型的概率被随机森林回归预测的IC50所取代。预测和实验测量的IC50之间的中位数相关性从R增加² = 0.24英寸pQSAR 1.0至R² = 在pQSAR 2.0中为0.55，使得pQSAR 2.0的活性预测与中等吞吐量的四浓度IC50测量相当。

除了回归，二元QSAR（即分类）也用于构建亲和指纹。例如，使用训练在200激酶配体上的Random Forest分类模型获得了二元亲和指纹[47]. 同样，Balfer等人[48]使用支持向量机（Support Vector Machines）构建二元亲和指纹，利用与多种人类癌症相关的24种不同激酶组成的面板[49].

利用ChEMBL数据库中的大量生物活性数据[50,51]，我们开发了一种基于电子QSAR的亲和指纹QAFFP。QAFFP指纹是使用高质量Random Forest模型的预测构建的，该模型是根据涵盖不同分子目标集的免费（即非专有）数据进行训练的。将其性能与Morgan2指纹（即半径为2的Morgan指纹，RDKit[52]广泛使用的ECFP4指纹的实现[2])用于相似性搜索，用于将化合物分类为活性或非活性，以及用于支架跳跃。除了相似性搜索、化合物分类和支架跳跃外，QAFFP指纹图谱还用于回归设置，以预测化合物的体外效力，如随附论文所述[53].

方法

定义

化合物的生物活性可以通过其亲和力（如下所示基/Kd（千克）)和/或其效力（如下所示国际资本50/半数有效浓度). 亲和力和效力测量进一步被称为活动类型。在给定的生物体中，可以为每个不同的分子靶点测量一种或多种活性类型，由其唯一的Uniprot ID定义，每个生物体/靶点/活性类型组合称为检测。在整个手稿中，效力和亲和力值都包含在“亲和力指纹”这一总括术语中。

rv-QAFFP指纹构造

化合物的rv-QAFFP（rv代表实值）指纹是一种载体，包含化合物在相应的QSAR模型预测的分析范围内的生物活性。构建rv QAFFP指纹的工作流程如图所示1如下所述。

QSAR模型是使用从ChEMBL数据库（版本19）中提取的公共可用数据构建的[50,51]. ChEMBL数据已经得到广泛管理和标准化[58,59,60]使用管道[61]包括脱盐、中和和官能团归一化。QSAR模型是使用生物化学和细胞测定数据获得的，这一策略在以前的研究中被证明是成功的[22,45]. 为了进一步增加靶点数量和训练数据量，考虑了人类和非人类靶点的生物活性数据，并为单个生物体建立了单独的模型（附加文件1). 仅考虑满足以下标准的数据集：（i）活动类型EC50、IC50、Ki或Kd（千克）; （ii）定义为“=”的活动关系；（iii）ChEMBL置信度得分等于7或9（即配体直接与目标复合物中的亚单位或单个蛋白质结合）。对于QSAR建模，仅考虑具有50个以上不同活性记录的配体集进行进一步分析。在对同一配体-靶向复合物的多个活性值进行注释的情况下，计算其平均值和标准偏差。只有当给定化合物目标系统的所有注释测量值的标准偏差小于0.5时，才使用平均值作为活度值，否则数据点被丢弃。每个分析都建立了一个单独的模型，总共有1360个模型。所有1360个模型的配体集由223438种不同的化合物组成，每个数据集平均有267种化合物。用于训练每个QSAR模型的配体数量在附加文件中给出1.

为了构建QSAR模型，使用1024位长的Morgan2指纹对化合物进行编码[62]是使用模块构造的合奏。随机ForestRegressor来自Python机器学习库scikit-learn[63]. 森林中的决策树数量设置为100[54,64,65]以及最大特征数与总特征数之比。还调查了更多的树木（500棵），但没有发现显著的改善（数据未显示）。使用活动值分层抽样，将每个数据集按80:20的比率分为训练集和测试集。使用交叉验证相关系数验证每个QSAR模型\（{\text{q}}^{2}\），而模型在测试集上的预测能力（外部验证）是使用\（{\text{R}}_{0}^{'2}\），被约束为通过原点的预测值与观测值的确定系数：

$$q^{2}=1-\frac{{\mathop\sum\nolimits_{i=1}^{N}\left（{y_{i}-\widehat{y}（y）_{i} }\right）^{2}}{{\mathop\sum\nolimits_{i=1}^{N}\left（{y_{i}-\overline{y}}\rift）^{2]}$$

$${R^{\prime}}_{0}^{2}=1-\frac{{\mathop\sum\nolimits_{i=1}^{N}\left（{y_{i}-\widehat{y}（y）_{i} ^{r0}}\右）^{2}}{{\mathop\sum\nolimits_{i=1}^{N}\左（{y_{i}-\上划线{y}}\左）^{2]}$$

哪里N个是验证集的大小（对于\（q^{2}\）)或测试集的\（{R^{\素数}}_{0}^{2}\）),\（y{i}\）被观察到，\（\widehat{y}（y）_{i} \）预测和\（\上划线{y}\）平均活动，以及\（\widehat{y}（y）_{i}^{r0}=k^{prime}\widehat{y}\）哪里\（k^{prime}=sum y_{i}\widehat{y}（y）_{i} /\sum\widehat{y}（y）_{i} ^{2}\）是通过原点的预测回归线与观测回归线的斜率[66,67,68].\（{\text{q}}^{2}\）使用训练集的十倍交叉验证进行估计。使用活动值的分层抽样，将训练集划分为相同大小的十倍。因为RF算法包含随机抽样，所以十倍交叉验证重复了10次，最后\（{\text{q}}^{2}\）被报告为所有10次跑步中所有10倍的平均值。使用整个训练集构建最终模型，并通过计算评估其预测能力\（{{\text{R}^{prime}}}_{0}^{2}\）用于测试集。

遵循先前关于预测生物活性建模的建议[67,69]，仅适用于具有\（q^{2}\ge 0.5）和\（{R^{prime}}_{0}^{2}\ge0.6\）进一步考虑了QAFFP指纹的构建\（{\text{q}}^{2}\）截止值保证了模型与训练数据的良好拟合\（{{\text{R}^{prime}}}_{0}^{2}\）截止值保证了对新分子的强大预测能力（在给定数据集所表示的化学多样性的限制范围内）。尽管这些阈值可能因建模场景而异[70]（例如，与潜在客户优化相比，在命中识别中可以容忍更高的错误），就我们的研究而言，它们足够严格，并提供足够高的预测能力。使用这些阈值，440种型号，进一步称为点预测模型在最初的1360个模型中，被认为是可靠的，并用于构建rv-QAFFP指纹（附加文件1). 1360和440模型之间目标类表示的比较（图2)显示1360个模型的分析空间在440个分析中均匀表示。

未知化合物的QAFFP指纹是通过应用于该化合物的点预测模型的预测获得的。然而，如果化合物位于点预测模型的适用域（AD）之外，则可能无法可靠地预测其生物活性[71,72]. 因此，估计模型AD很重要。在当前工作中，使用保角预测（CP）框架估计AD[54,57].

保角预测器是一种置信预测器，与单个值相比，它输出一个预测区间，该预测区间具有与用户定义的置信水平\（1-\varepsilon\），其中\（\varepsilon\）称为显著性水平例如，对于90%置信水平（即10%显著性水平）的保角回归模型，至少90%的所有生成的预测区间包含正确的值（即，不超过10%的实际值超出预测区间）。对于每个新化合物不符合项得分（度量）\（\字母\）已计算。不合格分数是衡量新化合物与训练集化合物相似程度的方法，定义为\（阿尔法=frac{{left|{y{i}-\widehat{y}（y）_{i} }\右|}}{{\lambda{i}}\）哪里\（y{i}\）是观察到的生物活性值，\（\widehat{y}（y）_{i} \）是预测的生物活性值\（\lambda{i}\）是预测间隔的比例因子。在当前工作中，一个单独的射频模型误差预测模型，受过预测残留物的训练\（\rho{i}\）（即测得的生物活性与点预测模型预测的生物活性之间的差异），该值用作比例因子\（\lambda{i}\）然后，共形预测因子将要预测的化合物的不符合分数与先前实验测试的化合物的分数相关联并进行排序。这是通过计算第页-值（不要与第页-统计分析中的值），是具有不合格分数的现有化合物的分数\（\字母\）比新化合物小。如果这个分数很小则新化合物是非常不合格的，即与模型中以前的化合物截然不同，因此它将具有更大的相关预测范围。

在这项工作中，归纳共形预测（ICP）[73]被雇佣。在ICP中，训练集被随机分为“适当”训练集和“校准”集。使用适当的训练集训练模型，并使用校准集生成不合格分数\（\字母\）ICP的缺点是它需要更多的数据，因为不能使用校准集实例来训练模型。因此，我们使用了交叉共形预测（CCP）[74]其中数据与交叉验证类似，分为k个褶皱(k个在本工作中等于10），因此所有训练数据都被用作训练以及校准集。

b-QAFFP指纹构造

相似性搜索中使用的标准分子表示是二进制指纹[75]. 比较rv-QAFFP和ECFP4二进制指纹的性能[2]在之前的几项研究中，该方法已被确定为性能良好的基准方法[76,77,78]使用活性截止值并考虑模型AD，将rv-QAFFP转换为二进制形式b-QAFFP。如果在给定的置信水平下，预测区间的宽度不超过阈值，则认为预测值位于模型AD内。在b-QAFFP中，所有位于活性截止点以上且同时在模型AD内的预测值都被编码为1。所有位于亲和性阈值以下但仍在模型AD内的值都编码为零。此外，如果预测不在模型AD范围内，则假设化合物更可能是非活性的而非活性的，该值被设置为零，这与之前几项研究中的报告类似[1,29,79].

QAFFP绩效评估

QAFFP指纹在三种常见的化学信息学应用中的价值得到了证明：相似性搜索、生物活性分类和支架跳跃。此外，随附文件[53]描述了QAFFP指纹图谱在回归设置中的应用，以预测化合物的体外效价。

1)
相似性搜索。在相似性搜索中，通过计算结构相似性来识别新的潜在活性化合物[80,81]到已知的活动。这种方法基于相似的性质关系，即结构相似的化合物具有相似的性质[82]. 如果只有一个活性化合物已知，则适合进行相似性搜索。在相似性搜索任务中，只评估了b-QAFFP指纹的性能。
2)
生物活性分类。在生物活性分类中，将已知活性和非活性物质作为输入，建立分类模型，用于对未知化合物进行分类。通常，机器学习方法被用作分类器[83,84]. 如果有多个活动可用，则机器学习分类方法适用。在生物活性分类中，评估了rv-QAFFP和b-QAFFP指纹的性能。
3)
脚手架跳跃。跳架的目的是发现含有全新化学类型的活性化合物[85,86,87]. 通过rv-QAFFP和b-QAFFP指纹评估支架跳跃电位。

通过两种质量测量来评估QAFFP指纹性能，AUC公司和EF5（EF5），两者的结合很好地说明了该方法分离真阳性和假阳性的能力[88].AUC公司是ROC曲线下的面积，它量化了方法区分活动和非活动的一般能力[89].AUC公司等于分类器将随机选择的阳性实例排序为高于随机选择的阴性实例的概率。然而，AUC公司对早期识别不够敏感[90]这意味着它不会优先考虑那些将活性物质放在化合物排名表前面的模型。因此，AUC公司被浓缩因子补充EF公司明确衡量早期识别[90,91].EF公司已定义[92]作为

$$EF\left（{\chi\%}\right）=\frac{{\frac{{P_{\chi\\}}}{{N_{\ch\%}}}}{{\frac{{P_a{total}}{$$

哪里\（\chi\%\）是已排序数据集的分数EF公司为计算，\（P_{\chi\%}\）是此分数中的活动数\（N_{\chi\%}\）是该馏分中所有分子的数量，\（P_｛合计｝\）是数据集中的活动数\（N_｛合计｝\）数据集中所有分子的数量。一种优于随机选择化合物的方法返回EF公司 > 1.在本研究中，EF公司排名前5%(\（\池\）=0.05），缩写为EF5（EF5），已计算。

将QAFFP性能与1024位长的Morgan2指纹进行比较，该指纹相当于ECFP4指纹[2]. ECFP4指纹因其在各种基准研究中的高检索率而被选为比较基准[77,93]. QAFFP和Morgan2指纹之间的性能差异通过在R包硬币中实施的单侧精确Wilcoxon配对签名秩检验（配对t检验的非参数替代方法）进行评估[94,95]. 效应大小被评估为标准平均差的双边95%置信区间(AUC公司或EF5（EF5）)在QAFFP和Morgan2之间通过双边精确Wilcoxon签名秩程序构造。

相似性搜索

使用Riniker等人开发的开源基准测试平台评估了b-QAFFP指纹在相似性搜索中的性能[91,96]. 该平台包含从三个不同的数据收集（DUD）中收集的活动和非活动列表[97]，多用途车辆[98]和ChEMBL[50,51]Heikamp和Bajorath提出的子集[99])、预定义训练集列表、随机选择的查询分子列表以及执行评估所需的Python代码。预先定义的训练和测试（即查询）分子的可用性使虚拟筛选实验的复制和结果的比较变得容易。

两个不同的数据集（附加文件2)在当前版本的平台中提供了模拟以下两个用例的[96]:

1)
用例：可以使用高通量屏幕中的一小组不同活动。对于这个用例，异构数据集（在原始出版物中进一步称为HET数据集，“数据集I”[96])由69组数据集组成，来自以下三个来源：16个最大无偏验证（MUV）数据集[98]，来自有用诱饵目录（DUD）的3个数据集[100]，以及从ChEMBL中提取的50个数据集[99].
2)
用例：可以使用出版物或专利中的一小组相关活动，即共享一个或两个公共支架的化合物。对于这个用例，同质数据集（在原始出版物中进一步称为HOM数据集，“数据集II”[96])由37组数据组成，这些数据来自医药化学论文，通常包含一个或两个化学系列的数据。

HET和HOM数据集都包含同样存在于QAFFP指纹中的分析，因此，这些分析被从QAFFP手指中删除。即，在69个HET目标中，与56个QAFFP分析相对应的44个目标存在于QAFFP指纹中（附加文件2)当它们被移除时，其变为384比特长。类似地，在37个HOM靶标中，QAFFP指纹中存在27个对应于38个QAFFP测定的靶标（附加文件2)移除后，其变为402位长。

对于三个数据集集合（MUV、DUD、ChEMBL）的每个目标，在基准平台内提供了两个复合列表，一个用于主动项，一个用于非主动项。对于HET数据集，使用不同的随机选择训练集对每个目标重复50次VS实验。为了确保结果的再现性，预先计算的培训集作为基准平台的一部分提供。在我们的例子中，每个训练集由10个活动（进一步称为查询分子）和20%随机选择的非活动组成。其余的活动和非活动组成了测试集。对于测试集中的每个分子，计算其与查询分子的相似性，只考虑与MAX融合规则相对应的最高相似值[101]. 然后，根据相似度递减和AUC公司和EF5（EF5）是根据这个排名表计算出来的。

对于HOM数据集，VS实验在每篇论文中进行一次，使用论文中的所有活动项和10%的非活动项作为训练集。测试集由同一目标的基准测试数据集中的99个活动项和其余非活动项组成。

分子之间的相似性通过Rogot-Goldberg指数进行评估秒_RG公司[102]

$$s_{\text{RG}}=\frac{a}{2a+b+c}+\frac{d}{2d+b+c}$$

哪里一是两个对象中设置为1的位数，d日是两个对象中设置为0的位数，b是第一个对象中的位设置为1，同时第二个对象中位设置为0的情况数，以及c（c）是第一个对象中的位设置为0，同时第二个对象中位设置为1的事件数。Rogot-Goldberg指数代表了一种有效的替代方法[103]然而，对于常用的Tanimoto索引，它不仅考虑设置为1的位，还考虑设置为0的位。对于b-QAFFP指纹，Rogot-Goldberg指数比Tanimoto指数更为现实，因为化合物活性靶点的信息与其非活性靶点信息同等重要。

为了比较b-QAFFP和Morgan2指纹的性能，计算了HET和HOM数据集的两种指纹。构建b-QAFFP指纹时使用了5（即10µM）、6（即1µM）、7（即100 nM）和8（即10 nM）的亲和力截止值。使用保角预测估计模型AD，但也考虑了不使用AD的情况。使用置信水平为90%的ICP，最大区间宽度（用于区分预测是否足够可靠）设置为4.0（即预测值±2.0）。对于每个数据集和每种类型的指纹，训练一个单独的模型，并通过计算AUC公司和EF5（EF5）测试集的值。

生物活性分类

HET和HOM集合都是高度不平衡的，非活动项的数量要高得多（例如，MUV数据集包含30个活动项和15000个非活动项，请参阅附加文件2)，这限制了它们在分类模型训练中的实用性。因此，新的数据集，进一步称为CLASS数据集，是由920个未用于QAFFP构建的分析构建的。使用以下标准选择CLASS数据集：（1）效价≤5的化合物被视为非活性，效价≥6的化合物被认为是活性的，（2）对于每个CLASS数据库（化验），必须有60种以上的非活性和60多种活性（3）CLASS数据集中只包括与任何QAFFP分析共用不超过10%配体的分析。CLASS数据集包括23次分析（21次国际资本50和2半数有效浓度)覆盖23个目标（附加文件三).

为了构建rv-QAFFP指纹，通过ICP估计AD。如果给定数据点的预测区间宽度在90%的置信水平下大于±2.0，则该预测被认为不可靠，并被所有可靠预测亲和力的平均值所取代。考虑到或不考虑ICP使用90%的置信水平估计的AD，并将最大间隔宽度设置为4.0（即预测值±2.0），使用多个亲和力截止值（5（即10µM）、6（即1μM）、7（即100 nM）和8（即10 nM））构建b-QAFFP指纹。AD之外的所有化合物都被零取代。

在生物活性分类任务中，使用CLASS数据集训练RF模型，将配体分为活性配体和非活性配体。因为某些CLASS数据集不平衡（附加文件三)，平衡射频模型[104]从不平衡的学习Python包[80]受过训练。每个RF模型由100棵树组成[54,64,65]用GINI指数作为分割淋巴结的纯度标准。配体由Morgan2（1024位长）、rv-QAFFP和b-QAFFP（都是440位长的）指纹编码。五次交叉验证用于评估模型性能。每个交叉验证重复10次，并对所有重复和所有分割的最终结果进行平均。

脚手架跳跃

使用CLASS数据集（附加文件4)其中一组被移除（ChEMBL ID:CHEMBL5313），因为其不包含足够的支架。配体由Morgan2（1024位长）、rv-QAFFP和b-QAFFP（都是440位长的）指纹编码。以下设置用于构建rv QAFFP和b-QAFFP指纹：

1)
rv-QAFFP-RF模型根据原始数据进行训练，考虑或不考虑ICP估算的模型AD。在90%的置信水平下，如果预测区间宽度大于±2.0，则该预测被认为不可靠，并被所有可靠预测亲和力的平均值所取代。
2)
b-QAFFP指纹图谱的构建使用了5（即10μM）、6（即1μM），7（即100 nM）和8（即10 nM）的亲和力截止值。模型AD由ICP估算，但也考虑了不使用AD的情况。ICP的置信水平为90%，最大间隔宽度为±2.0。模型AD外的配体被认为是非活性的（即，相应的位被设置为0）。

对于每个配体，其环骨架（CSK）[105]已生成。CSK，也称为图形框架[106]源自Bemis和Murcko（BM）脚手架[106]通过将所有杂原子转换为碳，并将所有键序设置为1。如果化合物效力的十位数负对数大于6，则认为该化合物具有活性。给定分析中所有活性化合物的CSK进一步称为活性CSK（ACSK）。此外，含有至少五种活性化合物的活性CSK进一步称为富活性CSK（RACSK）。对于给定的分析，训练集由一个RACSK中的化合物加上所有非活性化合物组成。测试集由所有剩余的活性化合物组成。因此，每个分析的训练集数量等于其RACSK的数量（附加文件4). 使用每个训练集，一个平衡的射频模型[80,104]构造并应用于测试集。使用0.5的概率阈值将测试集中的化合物分类为活性或非活性。对于每个分类的活性物质，检索其CSK，并计算每个分析的唯一CSK数（在所有训练数据集中求和）。评估Morgan2、rv-QAFFP和b-QAFFP指纹的支架跳跃电位。此外，使用rv-和b-QAFFP指纹检索的ACSK被合并并报告为rv+b-QAFFP。

结果和讨论

数据统计

用于QAFFP构建的440个QSAR模型使用256IC50，137Ki，37 EC50和10 Kd涵盖376个不同分子靶点的分析；即64个靶点通过多次分析建模。然而，这些“重复数据”并不多余，因为属于同一目标的两个分析之间的最大皮尔逊相关系数仅为0.53。376个靶点来自34种生物（附加文件1)大多数来自人类（254个目标），其次是大鼠（45个目标）和小鼠（18个目标）。

b-QAFFP指纹在相似性搜索中的性能

表中给出了构建b-QAFFP指纹的各种方法的评估结果1对于HET数据集，以及表中2用于HOM数据集。有关更多详细信息，请参阅附加文件5和6，图1和2.

表1 Morgan2（ECFP4）和b-QAFFP指纹在69个HET数据集相似性搜索中的性能比较

全尺寸桌子

表2 Morgan2（ECFP4）和b-QAFFP指纹在37个HOM数据集相似性搜索中的性能比较

全尺寸桌子

表格1和2表明构建b-QFFP指纹的最佳设置是使用ICP估计AD，并使用亲和力截止值5（即10µM）。在这种情况下，b-QAFFP指纹在统计上显著好于AUC公司对于HET和HOM数据集（通过单侧精确Wilcoxon符号秩检验验证，替代假设Morgan2的p值<QAFFP为HET的p值=7.50e−04，HOM的p值=5.79e−07），EF5（EF5）在HET数据集的情况下，Morgan2指纹明显更好（替代Morgan2>QAFFP的p值为6.70e−04），并且在EF5（EF5）HOM数据集的b-QAFFP和Morgan2指纹之间（对于双面替代Morgan2≠QAFFP，p值=0.21）。相应的非参数95%置信区间表明，b-QAFFP的平均超额AUC公司超过Morgan2AUC公司HET数据集预计在0.12到0.49之间，HOM数据集预计为0.58到0.12。另一方面，Morgan2平均超额的95%非参数置信区间EF5（EF5）超过b-QAFFPEF5（EF5）显示了HET集合的效果大小范围为0.28到0.69。对两个指纹之间差异的非参数95%置信区间的分析表明，尽管b-QAFFP在某些测量中产生的值明显好于Morgan2，反之亦然，但效应大小相对较小。因此，可以得出结论，b-QAFFP和Morgan2指纹在相似性搜索中提供了可比较的结果。

b-QAFFP和rv-QAFFP指纹在生物活性分类中的性能

对于23个CLASS数据集中的每一个和每种类型的指纹，都训练了一个单独的RF模型，并通过计算AUC公司和EF5（EF5）用于测试集。此外，rv-QAFFP模型使用原始数据和Z标准化数据进行训练（即，将所有数据点转换为其Z值），但这两种方法之间未发现显著差异。表中给出了每个质量测量的平均值及其平均值的标准误差三。更多详细信息可在附加文件中找到6和7，图三和4.

表3 23个CLASS数据集生物活性分类中Morgan2（ECFP4）、rv-QAFFP和b-QAFFP指纹的性能比较

全尺寸桌子

最高rv-QAFFPAUC公司如果rv-QAFFP指纹是根据根据原始数据训练的模型构建的，而不考虑其AD，则可以实现。考虑和不考虑AD的区别在于处理AD以外的数据点的方式。当考虑AD时，这些数据点通过所有可靠预测的亲和力的平均值进行插补。如果不考虑AD，这些数据点将由预测的亲缘关系填充，尽管估计的可信度较低。

b-QAFFP指纹构建的建议设置与为相似性搜索确定的设置相同，即使用ICP估计AD，并使用5（即10µM）的亲和力截止值。在这些设置下，b-QAFFP和rv-QAFFP指纹在以下方面都可以执行AUC公司，显著低于Morgan2指纹（对于b-QAFFP和rv-QAFFP，替代Morgan2>QAFFP的签名排序配对测试的p值为p值=3.58e−07）。b-QAFFP的平均赤字AUC公司与摩根相比2AUC公司预计范围为0.01–0.03（95%置信度），rv-QAFFP的平均赤字AUC公司到摩根2AUC公司在0.01–0.02范围内（95%置信度）。然而，与平均值相比，这些差异可视为较小AUC公司数值约为0.86。依据EF5（EF5），Morgan2、b-QAFFP和rv QAFFP指纹之间没有检测到统计学上的显著差异。因此，可以认为QAFFP指纹的性能与Morgan2指纹的性能相当，也可用于生物活性分类。

b-QAFFP和rv-QAFFP指纹在脚手架跳跃中的性能

对于22个CLASS数据集中的每一个数据集（其中一个不包含RACSK，因此未使用）以及每种类型的指纹，训练一个单独的RF模型，并通过计算每次分析的ACSK平均数来评估其性能（表4).

表4 Morgan2、rv-QAFFP和b-QAFFP指纹揭示的22个类别集合中每次分析的ACSK平均数（及其平均SEM的标准误差）

全尺寸桌子

表4结果表明，无论是否考虑AD，rv-QAFFP和b-QAFFP的性能都没有差异。与b-QFFP相比，rv-QAFFP恢复的ACSK的平均数量更低。对于b-QAFFP，阈值为5、6和7时，结果相当稳定。仅对于阈值8，可以观察到恢复的ACSK的平均数量显著增加。阈值8意味着只有非常强大的分子（<10 nM）被视为活性分子，在此阈值下，b-QAFFP比特密度急剧下降（表5)数据变得过于稀疏。对于稀疏数据，对于某些RF节点，引导样本和随机特征子集很可能会一起产生不变的特征空间。这将影响射频预测，因此阈值8可视为极端情况。

表5 HET集合复合计算的b-QAFFP中ON位的平均数

全尺寸桌子

对根据未考虑模型AD的原始数据构建的rv-QAFFP和使用亲和阈值5的b-QAFFP进行QAFFP支架跳跃电位评估，并使用ICP将缺失值（置信水平为90%时，区间大于±2.0的不可靠预测）替换为零来估计模型AD。这些设置虽然不太理想，但与相似性搜索的设置一致（表1和2)和生物活性分类（表三).

在22个CLASS数据集的1749个现有ACSK中，Morgan2指纹显示864个（49%），rv-QAFFP指纹显示911个ACSK（52%）（图三,4，其他文件4). Morgan2和rv-QAFFP之间的差异（表6)无统计学意义（双侧Wilcoxon符号秩配对检验的p值为0.11）。另一方面，揭示1065（61%）个ACSK的b-QAFFP指纹表现显著好于Morgan2指纹（使用Wilcoxon符号秩配对检验，替代b-QAFFP>Morgan2的p值=1.43e−04）。ACSK数量最多（1146）。即66%），当rv-QAFFP和b-QAFFP发现的ACSK结合在一起时（进一步表示为rv+b-QAFFP）。该组合在统计学上显著优于单独使用b-QAFFP指纹（对于替代b-QAFFP>rv+b-QAFFP，使用Wilcoxon符号秩配对检验，p值=1.43e−04）。

表6 22组类别中Morgan2、rv-QAFFP和b-QAFFP指纹显示的每次分析ACSK的平均数量

全尺寸桌子

因此，可以得出结论，虽然Morgan2和rv-QAFFP指纹显示出类似的低支架跳跃电位，但b-QAFFP的指纹更好，约为10%。当rv-QAFFP和b-QAFFP指纹中的ACSK结合在一起时，ACSK的数量最多；这种组合产生的ACSK比Morgan2指纹多17%。

结论

我们开发了一个基于QSAR的工作流，用于构建QSAR亲和指纹QAFFP。QAFFP有两个版本：rv-QAFFP（rv-表示实值）和b-QFFP（b-表示二进制）。rv-QAFFP指纹由从ChEMBL19数据库中选择的440个高质量分析中预测的生物活性组成，b-QAFFP的指纹是通过rv-QAFFP指纹的二值化构建的。建议对rv-QAFP和b-QAFFP指纹的构建进行以下设置：

rv-QAFFP使用预测的生物活性（即无需对其进行Z标准化），而不考虑模型AD。
b-QAFFP将rv-QAFFP值二值化，使用对数标度上的亲和阈值5，通过ICP估算模型AD，用零替换缺失值（置信度为90%时，区间大于±2.0的不可靠预测）。

我们想强调的是，尽管QAFFP构建管道中存在许多可调设置，但我们的目标并不是针对每个可能的应用程序优化每个设置。这将导致针对不同用例的许多不同设置，这对最终用户来说相当混乱。相反，我们决定提出这样的QAFFP设置，它足够稳健，并不断产生合理的结果。我们相信，我们发布的rv-和b-QAFFP指纹构建建议符合这些要求。

在三个化学信息学任务中评估了两种QAFFP指纹的性能：相似性搜索、生物活性分类和支架跳跃。在所有任务中，使用非参数Wilcoxon配对签名秩检验将QAFFP指纹与1024位长的Morgan2指纹（半径为2的Morgan指纹，相当于ECFP4指纹）进行比较。发现rv-QAFFP和b-QAFFP指纹在相似性搜索和生物活性分类方面的性能与Morgan2（ECFP4）指纹相似。然而，与Morgan2指纹相比，QAFFP指纹能够检索到更多的新支架。这些发现相当鼓舞人心，因为（i）QAFFP指纹更短，（ii）QAFFP指纹是以纯粹的数据驱动方式定义的，没有根据生物原因选择目标，以及（iii）由于其质量受到以下因素的影响，因此QAFFP指印的模型远未完善，例如，QSAR建模错误[107,108]，公开数据中的实验错误[109,110,111]，数据管理错误[69,112]或数据插补噪声。另一方面，QAFFP指纹实际上是一组经过转换的Morgan指纹，因此它隐含地考虑了化合物的结构。因此，两种结构相似的化合物将显示相似的QAFFP预测曲线和可能的“活动悬崖”[113,114]将无法识别。

总之，尽管QAFFP指纹是以纯粹的数据驱动方式定义的，并且基础QSAR模型仅依赖于公共数据，但我们已经证明大规模QSAR建模[115]是构建亲和指纹的一种很有前途的方法。虽然亲和指纹本身就有噪声，但信噪比足够高，可以基于生物相似性而不是化学相似性来发现生物活性分子。未来，我们计划优化QAFFP指纹的组成[116]并且使用更多的生物学信息标准（例如，癌症相关靶点的生物活性数据可能会提供很高的预测能力，以发现激发抗癌活性的点击）。未来的研究还需要调查二值和实值QAFFP指纹在配体和靶标聚类中的效用，或评估QAFFP指纹在常见计算药物设计任务中的效用，包括多样性选择、命中扩展、靶标识别、药物再利用，以及不良反应的预测。

数据和材料的可用性

支持本文结论的数据集作为附加文件包含在内。用于生成QAFFP的工作流的源代码可从GitHub存储库中获得：https://github.com/skutac/QAFFP网址.

缩写

ACSK公司：: 主动循环骨架
广告：: 适用范围
资产负债表：: ROC曲线下面积
BAF（曝气生物滤池）：: 贝叶斯亲和指纹
BM脚手架：: Bemis和Murcko脚手架
b-QAFFP：: 二元的
QAFFP中央对手方清算所：: 交叉符合预测
类别：: 生物活性分类数据集
内容提供商：: 保角预测
CSK公司：: 循环骨架
DUD公司：: 有用诱饵目录
ECFP公司：: 扩展连接指纹
EF公司：: 富集因子
财务总监：: 假阴性
外交政策：: 假阳性
赫特：: 异构数据集
高阶模：: 同质数据集
HTS（高温超导）：: 高通量筛选
高温SFP：: HTS指纹
国际比较项目：: 感应保角预测
摩根2：: 半径为2的摩根指纹
多用途车辆：: 最大无偏验证数据集
QAFFP公司：: QSAR亲和指纹
定量构效关系：: 定量构效关系
RACSK（机架）：: 丰富的活动循环骨架
大鹏：: 接收机工作特性
参议员：: 敏感
拼写：: 特异性
田纳西州：: 真阴性
交易对手：: 真阳性
VS公司：: 虚拟筛选

工具书类

Tanrikulu Y，Kruger B，Proschak E（2013）虚拟筛查在药物发现中的整体整合。今日药物发现18（7-8）：358-364
公共医学谷歌学者
罗杰斯·D、哈恩·M（2010）《扩展关联指纹》。化学信息杂志模型50（5）：742–754
中国科学院公共医学谷歌学者
Consonni V，Todeschini R（2000）分子描述符手册。Wiley-VCH，纽约
谷歌学者
Wassermann AM、Lounkine E、Davies JW、Glick M、Camargo LM（2015）《药物发现中挖掘历史和集体数据的机会》。今日药物发现20（4）：422-434
公共医学谷歌学者
Paricharak S、Mendez-Lucio O、Chavan Ravindranath A、Bender A、Ijzerman AP、van Westen GJ（2016）高通量筛选中用于化合物库设计、命中分类和生物活性建模的数据驱动方法。生物信息简报19（2）：277–285
公共医学中心谷歌学者
舒梅克RH（2006）NCI60人类肿瘤细胞系抗癌药物筛选。Nat Rev Cancer杂志6（10）：813–823
中国科学院公共医学谷歌学者
Paull KD，Shoemaker RH，Hodes L，Monks A，Scudiero DA，Rubinstein L，Plowman J，Boyd MR（1989）药物对人类肿瘤细胞系差异活性模式的显示和分析：均值图和COMPARE算法的开发。美国国家癌症研究所杂志81（14）：1088–1092
中国科学院公共医学谷歌学者
Zaharevitz DW、Holbeck SL、Bowerman C、Svetlik PA（2002）COMPARE：一种可通过网络访问的工具，用于研究细胞生长抑制机制。J摩尔图模型20（4）：297–303
中国科学院公共医学谷歌学者
Weinstein JN、Kohn KW、Grever MR、Viswanadan VN、Rubinstein LV、Monks AP、Scudiero DA、Welch L、Koutsoukos AD、Chiausa AJ等（1992）《癌症药物开发中的神经计算：作用机制预测》。科学258（5081）：447–451
中国科学院公共医学谷歌学者
Weinstein JN、Myers TG、O'Connor PM、Friend SH、Fornace AJ Jr、Kohn KW、Fojo T、Bates SE、Rubinstein LV、Anderson NL等人（1997）《癌症分子药理学的信息密集型方法》。《科学》275（5298）：343–349
中国科学院公共医学谷歌学者
Kauvar LM、Higgins DL、Villar HO、Sportsman JR、Engqvist-Goldstein A、Bukar R、Bauer KE、Dilley H、Roke DM（1995）通过亲和指纹预测配体与蛋白质的结合。化学生物2（2）：107–118
中国科学院公共医学谷歌学者
Fliri AF、Loging WT、Thadeio PF、Volkmann RA（2005）《生物光谱分析：将生物活性特征与分子结构联系起来》。美国国家科学院院刊102（2）：261–266
中国科学院公共医学谷歌学者
Fliri AF、Loging WT、Thadeio PF、Volkmann RA（2005）生物光谱分析：链接分子结构和生物反应的模型蛋白质组特征。医学化学杂志48（22）：6918–6925
中国科学院公共医学谷歌学者
Haggarty SJ、Clemons PA、Schreiber SL（2003）《利用图论和小分子扰动组合对生物网络进行化学基因组剖析》。美国化学学会杂志125（35）：10543–10545
中国科学院公共医学谷歌学者
Kim YK、Aray MA、Arai T、Lamenzo JO、Dean EF 3rd、Patterson N、Clemons PA、Schreiber SL（2004）小分子立体化学和骨架多样性与细胞测量空间的关系。《美国化学学会杂志》126（45）：14740–14745
中国科学院公共医学谷歌学者
Anzali S、Barnini G、Cezanne B、Krug M、Filinov D、Poroikov V（2001）《通过物质活性谱预测区分药物和非药物》（PASS）。医学化学杂志44（15）：2432–2437
中国科学院公共医学谷歌学者
Poroikov V、Filimonov D、Lagunin A、Gloriozova T、Zakharov A（2007）PASS：确定可能的靶点和毒性机制。SAR QSAR环境研究18（1–2）：101–110
中国科学院公共医学谷歌学者
Beroza P、Damodaran K、Lum RT（2005）《目标相关亲和力分析：Telik的领先发现技术》。当前顶级药物化学5（4）：371–381
中国科学院公共医学谷歌学者
Hsu N，Cai D，Damodaran K，Gomez RF，Keck JG，Laborde E，Lum RT，Macke TJ，Martin G，Schow SR等（2004）使用亲和指纹发现的新型环氧合酶-1抑制剂。医学化学杂志47（20）：4875–4880
中国科学院公共医学谷歌学者
Wadkins RM、Hyatt JL、Yoon KJ、Morton CL、Lee RE、Damodaran K、Beroza P、Danks MK、Potter PM（2004）《用于改善伊立替康诱导的腹泻的新型肠道羧酸酯酶选择性抑制剂的发现：合成、定量构效关系分析和生物活性》。摩尔药理学65（6）：1336–1343
中国科学院公共医学谷歌学者
Plouffe D、Brinker A、McNamara C、Henson K、Kato N、Kuhen K、Nagle A、Adrian F、Matzen JT、Anderson P等人（2008）。电子活性分析揭示了高通量屏幕中发现的抗疟药的作用机制。美国国家科学院院刊105（26）：9059–9064
中国科学院公共医学公共医学中心谷歌学者
Petrone PM、Simms B、Nigsch F、Lounkine E、Kutchuian P、Cornett A、Deng Z、Davies JW、Jenkins JL、Glick M（2012）《重新思考分子相似性：基于生物活性比较化合物》。ACS化学生物7（8）：1399–1409
中国科学院公共医学谷歌学者
Dancik V、Carrel H、Bodycombe NE、Seiler KP、Fomina-Yadlin D、Kubicek ST、Hartwell K、Shamji AF、Wagner BK、Clemons PA（2014）将具有类似分析性能的小分子连接起来，导致了新的生物学假设。生物素筛选杂志19（5）：771–781
公共医学公共医学中心谷歌学者
Petrone PM、Wassermann AM、Lounkine E、Kutchukian P、Simms B、Jenkins J、Selzer P、Glick M（2013）《小分子生物多样性——筛选集选择的新视角》。今日毒品发现。18(13–14):674–680
中国科学院公共医学谷歌学者
Wassermann AM、Lounkine E、Urban L、Whitebread S、Chen S、Hughes K、Guo H、Kutlina E、Fekete A、Klumpp M等人（2014）一种筛选模式识别方法发现了药物和天然产物的新的和不同的靶标。ACS化学生物9（7）：1622–1631
中国科学院公共医学谷歌学者
Cortes Cabrera A、Lucena Agell D、Redondo Horcajo M、Barasoain I、Diaz JF、Fasching B、Petrone PM（2016）聚集的化合物生物特征有助于表型药物发现和靶点阐明。ACS化学生物11（11）：3024–3034
中国科学院公共医学谷歌学者
Maciejewski M、Wassermann AM、Glick M、Lounkine E（2015）实验设计策略：弱强化导致命中率增加和化学多样性增强。化学信息杂志55（5）：956–962
中国科学院公共医学谷歌学者
Paricharak S、Ijzerman AP、Bender A、Nigsch F（2016）基于诺华公司内部HTS数据的逐步化合物选择迭代筛选分析。ACS化学生物11（5）：1255–1264
中国科学院公共医学谷歌学者
Riniker S，Wang Y，Jenkins JL，Landrum GA（2014）使用历史高通量筛选的信息预测活性化合物。化学信息杂志54（7）：1880–1891
中国科学院公共医学谷歌学者
Wang Y，Bryant SH，Cheng T，Wang J，Gindulyte A，Shoemaker BA，Thiessen PA，He S，Zhang J（2017）PubChem BioAssay:2017更新。核酸研究45（D1）：D955–D963
中国科学院公共医学谷歌学者
Helal KY、Maciejewski M、Gregori-Puigjane E、Glick M、Wassermann AM（2016）《公共领域高温超导指纹：设计和评估PubChem生物检测库中的化合物生物活性谱》。化学信息杂志56（2）：390–398
中国科学院公共医学谷歌学者
Briem H，Kuntz ID（1996）基于DOCK生成指纹的分子相似性。医学化学杂志39（17）：3401–3408
中国科学院公共医学谷歌学者
Coleman RG、Carchia M、Sterling T、Irwin JJ、Shoichet BK（2013）《分子对接中配体姿态和定向取样》。公共科学图书馆综合频道8（10）：e75992
中国科学院公共医学公共医学中心谷歌学者
Lessel UF，Briem H（2000）Flexsim-X：检测具有类似生物活性的分子的方法。化学信息与计算科学杂志40（2）：246–253
中国科学院公共医学谷歌学者
Rarey M，Kramer B，Lengauer T，Klebe G（1996）使用增量构建算法的快速灵活对接方法。分子生物学杂志261（3）：470-489
中国科学院公共医学谷歌学者
Simon Z、Vigh-Smeller M、Peragovics A、Csukly G、Zahoranszky-Kohalmi G、Rauscher AA、Jelinek B、Hari P、Bitter I、Malnasi-Csizmadia A等（2010）《蛋白质结合位点的形状与结合亲和力谱的关系：是否存在关联？BMC结构生物学10:32
公共医学公共医学中心谷歌学者
Vegner L、Peragovics A、Tombor L、Jelinek B、Czobor P、Bender A、Simon Z、Malnasi-Csizmadia A（2013）《药物特征匹配预测的新药物-靶点相互作用的实验确认》。医学化学杂志56（21）：8377–8388
中国科学院公共医学谷歌学者
Peragovics A、Simon Z、Malnasi-Csizmadia A、Bender A（2016）通过亲和指纹建立多臂医学轮廓模型。Curr Pharm Des 22（46）：6885–6894
中国科学院公共医学谷歌学者
Murali S，Hojo S，Tsujishita H，Nakamura H，Fukunishi Y（2007）基于蛋白复合亲和矩阵的硅酸药物筛选方法，使用因子选择技术。《欧洲药物化学杂志》42（7）：966–976
中国科学院公共医学谷歌学者
Fukunishi Y，Hojo S，Nakamura H（2006）基于蛋白质复合亲和矩阵的高效电子筛选方法及其在细胞色素P450（CYP）配体聚焦库设计中的应用。化学信息杂志模型46（6）：2610–2622
中国科学院公共医学谷歌学者
Bender A、Jenkins JL、Glick M、Deng Z、Nettles JH、Davies JW（2006）“贝叶斯亲和指纹”提高了虚拟筛选中的检索率，并定义了正交生物活性空间：多靶点药物何时是可行的概念？化学信息杂志46（6）：2445–2456
中国科学院公共医学谷歌学者
Cherkasov A、Muratov EN、Fourches D、Varnek A、Baskin II、Cronin M、Dearden J、Gramatica P、Martin YC、Todeschini R等人（2014）QSAR建模：你去过哪里？你要去哪里？医学化学杂志57（12）：4977–5010
中国科学院公共医学公共医学中心谷歌学者
Wang T，Wu MB，Lin JP，Yang LR（2015）定量构效关系：药物发现平台的有希望的进展。专家Opin药物迪斯科10（12）：1283-1300
中国科学院公共医学谷歌学者
Tetko IV、Maran U、Tropsha A（2017）《公共（Q）SAR服务、集成建模环境和网络模型库：最新技术和未来发展展望》。摩尔通知36（3）:1600082
谷歌学者
Lopez-Valejo F、Caulfield T、Martinez-Mayorga K、Giulianotti MA、Nefzi A、Houghten RA、Medina-Franco JL（2011）《整合虚拟筛选和组合化学以加速药物发现》。梳化学高通量筛14（6）：475–487
中国科学院公共医学谷歌学者
Martin EJ、Polyakov VR、Tian L、Perez RC（2017）Profile-QSAR 2.0：与四浓度IC50相比，激酶虚拟筛选准确度可用于实际新型化合物。化学信息杂志57（8）：2077–2088
中国科学院公共医学谷歌学者
Merget B、Turk S、Eid S、Rippmann F、Fulle S（2017）《激酶抑制剂的轮廓预测：走向虚拟分析》。医学化学杂志60（1）：474–485
中国科学院公共医学谷歌学者
Balfer J、Heikamp K、Laufer S、Bajorath J（2014）使用支持向量机对复合剖面实验进行建模。化学生物药物设计准则84（1）：75–85
中国科学院公共医学谷歌学者
Dimova D、Iyer P、Vogt M、Totzke F、Kubbutat MH、Schachtele C、Laufer S、Bajorath J（2012）《评估咪唑类蛋白激酶抑制剂的靶向分化潜力》。医学化学杂志55（24）：11067–11071
中国科学院公共医学谷歌学者
Gaulton A、Bellis LJ、Bento AP、Chambers J、Davies M、Hersey A、Light Y、McGlinchey S、Michalovich D、Al-Lazikani B等人（2012年）《中国生物医学杂志：药物发现的大规模生物活性数据库》。核酸研究40（数据库问题）：D1100–D1107
中国科学院公共医学谷歌学者
Bento AP、Gaulton A、Hersey A、Bellis LJ、Chambers J、Davies M、Kruger FA、Light Y、Mak L、McGlinchey S等人（2014）《ChEMBL生物活性数据库：更新》。核酸研究42（数据库问题）：D1083–D1090
中国科学院公共医学谷歌学者
Landrum GA（2006）RDKit：开源化学信息学软件。在
Cortés-Ciriano I，Škuta C，Bender A，Svozil D（2020）QSAR衍生亲和指纹（第2部分）：效价预测的建模性能。化学信息杂志。https://doi.org/10.1186/s13321-020-00444-5
第条公共医学中心公共医学谷歌学者
Norinder U、Carlsson L、Boyer S、Eklund M（2014）《在预测建模中引入保角预测》。适用性领域确定的透明灵活替代方案。化学信息杂志54（6）：1596–1603
中国科学院公共医学谷歌学者
Shafer G，Vovk V（2008）保角预测教程。J Mach学习研究9:371–421
谷歌学者
Cortes-Ciriano I，Bender A，Malliavin T（2015）《利用蛋白质化学建模和保形预测预测PARP抑制》。摩尔通知34（6-7）：357-366
中国科学院公共医学谷歌学者
Svensson F、Aniceto N、Norinder U、Cortes-Ciriano I、Spjuth O、Carlsson L、Bender A（2018）定量结构-活性关系建模的保角回归——量化预测不确定性。化学信息杂志58（5）：1132–1140
中国科学院公共医学谷歌学者
Gaulton A、Kale N、van Westen GJ、Bellis LJ、Bento AP、Davies M、Hersey A、Papadatos G、Forster M、Wege P等人（2015）大型作物保护生物测定数据集。科学数据2:150032
公共医学公共医学中心谷歌学者
Papadatos G、Gaulton A、Hersey A、Overington JP（2015）《ChEMBL数据库中的活动、分析和目标数据管理和质量》。计算机辅助分子设计杂志29（9）：885–896
中国科学院公共医学公共医学中心谷歌学者
Mendez D、Gaulton A、Bento AP、Chambers J、De Veij M、Felix E、Magarinos MP、Mosquera JF、Mutowo P、Nowotka M等人（2019年）《中国生物测定法》：直接沉积生物测定数据。核酸研究47（D1）：D930–D940
中国科学院公共医学谷歌学者
IMI eTOX标准化器。https://pypi.org/project/standardiser网站/
Breiman L（2001）《随机森林》。马赫数学习45（1）：5–32
谷歌学者
Pedregosa F、Varoqueux G、Gramfort A、Michel V、Thirion B、Grisel O、Blondel M、Prettenhofer P、Weiss R、Dubourg V等人（2011）Scikit learn:Python中的机器学习。J Mach学习研究12:2825–2830
谷歌学者
Sheridan RP（2013）使用随机森林对另一个随机森林模型的领域适用性进行建模。化学信息杂志53（11）：2837–2850
中国科学院公共医学谷歌学者
Cortes-Ciriano I、van Westen GJ、Bouvier G、Nilges M、Overington JP、Bender A、Malliavin TE（2016）使用NCI60癌细胞系小组改进了对生长抑制模式的大规模预测。生物信息学32（1）：85–95
中国科学院公共医学谷歌学者
Golbraikh A，Tropsha A（2002）小心q2！J摩尔图模型20（4）：269–276
中国科学院公共医学谷歌学者
Tropsha A，Gramatica P，Gombar VK（2003）认真的重要性：验证是成功应用和解释QSPR模型的绝对必要条件。QSAR Comb Sci 22（1）：69–77
中国科学院谷歌学者
Tropsha A，Golbraikh A（2010）预测定量构效关系建模开发和QSAR模型验证。收录：化学信息学算法手册，第211-232页
Fourches D，Muratov E，Tropsha A（2010）Trust，但需验证：化学结构管理在化学信息学和QSAR建模研究中的重要性。化学信息杂志50（7）：1189–1204
中国科学院公共医学公共医学中心谷歌学者
Alexander DL，Tropsha A，Winkler DA（2015），小心R（2）：简单、明确地评估QSAR和QSPR模型的预测准确性。化学信息杂志55（7）：1316–1322
中国科学院公共医学公共医学中心谷歌学者
Tetko IV，Bruneau P，Mewes HW，Rohrer DC，Poda GI（2006），我们能估计ADME-Tox预测的准确性吗？今日药物发现11（15–16）：700–707
中国科学院公共医学谷歌学者
Mathea M、Klingspohn W、Baumann K（2016）化学信息分类方法及其适用范围。摩尔通知。35(5):160–180
中国科学院公共医学谷歌学者
Papadopoulos H，Proedrou K，Vovk V，Gammerman A（2002）回归的归纳置信机。Mach Learn Ecml 2002（2430）：345–356
谷歌学者
Vovk V（2015）交叉符合预测因素。《数学艺术年鉴》74（1-2）：9–28
谷歌学者
Cereto-Massague A、Ojeda MJ、Valls C、Mulero M、Garcia-Vallve S、Pujadas G（2015）虚拟筛选中的分子指纹相似性搜索。方法71:58–63
中国科学院公共医学谷歌学者
Hert J、Willett P、Wilton DJ、Acklin P、Azzaoui K、Jacoby E、Schuffenhauer A（2004）使用多种生物活性参考结构进行基于相似性的虚拟筛选的拓扑描述符比较。有机生物化学2（22）：3256–3266
中国科学院公共医学谷歌学者
Bender A、Jenkins JL、Scheiber J、Sukuru SC、Glick M、Davies JW（2009）相似性搜索方法有多相似？分子描述符空间的主成分分析。化学信息杂志49（1）：108–119
中国科学院公共医学谷歌学者
Papadatos G、Cooper AW、Kadirkamanathan V、Macdonald SJ、McLay IM、Pickett SD、Pritchard JM、Willett P、Gillet VJ（2009）《潜在顾客优化和阵列设计中的邻域行为分析》。化学信息杂志49（2）：195–208
中国科学院公共医学谷歌学者
Sturm N，Sun J，Vandriessche Y，Mayr A，Klambauer G，Carlsson L，Engkvist O，Chen H（2018）生物活性轮廓指纹在构建机器学习模型中的应用。化学信息杂志59（3）：962–972
公共医学谷歌学者
Bender A，Glen RC（2004）《分子相似性：分子信息学中的关键技术》。有机生物化学2（22）：3204–3218
中国科学院公共医学谷歌学者
Sheridan RP，Kearsley SK（2002）为什么我们需要这么多化学相似性搜索方法？今日药物发现7（17）：903–911
公共医学谷歌学者
Johnson AM，Maggiora GM（1990）分子相似性的概念和应用。威利，纽约
谷歌学者
Melville JL，Burke EK，Hirst JD（2009）虚拟放映中的机器学习。梳化学高通量筛12（4）：332–343
中国科学院公共医学谷歌学者
Lavecchia A（2015）《药物发现中的机器学习方法：方法和应用》。今日毒品迪斯科20（3）：318–331
公共医学谷歌学者
Sun H、Tawa G、Wallqvist A（2012）《脚手架打孔方法分类》。今日药物发现17（7–8）：310–324
中国科学院公共医学谷歌学者
Brown N，Jacoby E（2006）《药物化学中的脚手架和跳跃》。医学化学迷你版6（11）：1217–1229
中国科学院公共医学谷歌学者
Vogt M、Stumpfe D、Geppert H、Bajorath J（2010）使用二维指纹跳脚手架：真正的潜力、魔法还是无望的努力？虚拟筛选指南。医学化学杂志53（15）：5707–5715
中国科学院公共医学谷歌学者
Latti S、Niinivehmas S、Pentikainen OT（2016）Rocker：用于AUC和浓缩计算以及ROC可视化的开源易用工具。化学杂志8（1）：45
公共医学公共医学中心谷歌学者
Hanley JA，McNeil BJ（1982）接收机工作特性（ROC）曲线下面积的含义和使用。放射学143（1）：29–36
中国科学院公共医学谷歌学者
Truchon JF，Bayly CI（2007）评估虚拟筛选方法：“早期识别”问题的良好和不良指标。化学信息杂志47（2）：488–508
中国科学院公共医学谷歌学者
Riniker S，Landrum GA（2013），开放源平台，为基于配体的虚拟筛查基准指纹。化学杂志5（1）：26
中国科学院公共医学公共医学中心谷歌学者
Pearlman DA，Charifson PS（2001）使用OWFEG自由能量网格改进配体-蛋白质相互作用评分。医学化学杂志44（4）：502–511
中国科学院公共医学谷歌学者
Koutsoukas A、Lowe R、Kalantaromatamedi Y、Mussa HY、Klaffke W、Mitchell JB、Glen RC、Bender A（2013）《电子目标预测：定义基准数据集并比较多类Naive Bayes和Parzen-Rosenblatt窗口的性能》。化学信息杂志53（8）：1957-1966
中国科学院公共医学谷歌学者
Hothorn T，Hornik K，Van de Wiel MA，Zeileis A（2006）条件推理的乐高系统。美国统计局60（3）：257–263
谷歌学者
Hothorn T，Hornik K，van de Wiel MAV，Zeileis A（2008）实施一类置换测试：硬币包装。J Stat Softw杂志28（8）：1–23
谷歌学者
Riniker S、Fechner N、Landrum GA（2013）基于配体的虚拟筛选的异构分类器融合：或者，委员会的决策如何可能是一件好事。化学信息杂志53（11）：2829–2836
中国科学院公共医学谷歌学者
Irwin JJ（2008）《虚拟筛查的社区基准》。计算机辅助分子设计杂志22（3-4）：193–199
中国科学院公共医学谷歌学者
Rohrer SG，Baumann K（2009）基于PubChem生物活性数据的虚拟筛选的最大无偏验证（MUV）数据集。化学信息杂志49（2）：169–184
中国科学院公共医学谷歌学者
Heikamp K，Bajorath J（2011）ChEMBL复合数据集的大规模相似性搜索分析。化学信息杂志51（8）：1831–1839
中国科学院公共医学谷歌学者
Huang N，Shoichet BK，Irwin JJ（2006）分子对接基准集。医学化学杂志49（23）：6789–6801
中国科学院公共医学公共医学中心谷歌学者
Willett P（2013）在基于配体的虚拟筛选中融合相似性排名。计算结构生物技术杂志5:e201302002
公共医学公共医学中心谷歌学者
Rogot E，Goldberg ID（1966年），一个用于测量重测研究中一致性的拟议指标。慢性疾病杂志19（9）：991–1006
中国科学院公共医学谷歌学者
Todeschini R、Consonni V、Xiang H、Holliday J、Buscema M、Willett P（2012）二元化学信息学数据的相似系数：使用模拟和实际数据集的概述和扩展比较。化学信息杂志52（11）：2884–2901
中国科学院公共医学谷歌学者
Chen C，Liaw A，Breiman L（2004）使用随机森林学习不平衡数据。加州大学伯克利分校统计系，伯克利，第12页
谷歌学者
Xu Y，Johnson M（2001）用标记伪图表示的分子等价类命名算法。化学信息与计算科学杂志41（1）：181–185
中国科学院公共医学谷歌学者
Bemis GW，Murcko MA（1996）已知药物的特性。1.分子框架。医学化学杂志39（15）：2887–2893
中国科学院公共医学谷歌学者
Tropsha A（2010）QSAR模型开发、验证和利用的最佳实践。摩尔通知29（6-7）：476-488
中国科学院公共医学谷歌学者
Gramatica P（2013）关于QSAR模型的开发和验证。方法分子生物学930:499–526
中国科学院公共医学谷歌学者
Kalliokoski T、Kramer C、Vulpetti A（2013）公共领域化学基因组学数据的质量问题。摩尔通知32（11–12）：898–905
中国科学院公共医学谷歌学者
Kalliokoski T，Kramer C，Vulpetti A，Gedeck P（2013）混合IC（5）（0）数据的可比性——统计分析。公共科学图书馆ONE 8（4）:e61007
中国科学院公共医学公共医学中心谷歌学者
Zhao L，Wang W，Sedykh A，Zhu H（2017）QSAR建模集的实验错误：我们能做什么和不能做什么。ACS Omega 2（6）：2805–2812
中国科学院公共医学公共医学中心谷歌学者
Fourches D，Muratov E，Tropsha A（2016）Trust，but verify II：化学基因组学数据管理实用指南。化学信息杂志56（7）：1243–1252
中国科学院公共医学公共医学中心谷歌学者
Stumpfe D，Bajorath J（2012）《探索药物化学中的活动悬崖》。医学化学杂志55（7）：2932–2942
中国科学院公共医学谷歌学者
Bajorath J（2014）《从化学信息学角度探索活动悬崖》。摩尔通知33（6–7）：438–442
中国科学院公共医学谷歌学者
Bosc N，Atkinson F，Felix E，Gaulton A，Hersey A，Leach AR（2019）QSAR和保形预测方法的大规模比较及其在药物发现中的应用。化学杂志11（1）：4
公共医学公共医学中心谷歌学者
Cortes Cabrera A，Petrone PM（2018）使用期望函数和遗传算法优化HTS指纹定义。化学信息杂志58（3）：641–646
中国科学院公共医学谷歌学者

下载参考资料

致谢

计算资源由CESNET LM2015042和CERIT科学云LM2015085提供，在“大型研究、开发和创新基础设施项目”下提供。

基金

这项工作得到了捷克共和国教育、青年和体育部的支持——项目编号LM2018130（C.Š.，D.S.，W.D.）和RVO 68378050-KAV-NPUI（C.Š.，D.S.）。该项目获得了欧盟2020年研究与创新框架计划（2014-2020）的资助，根据第703543号Marie Sklodowska居里拨款协议（I.C.C.）和FP7 Marie Sklodowska居里ITN项目“环境化学信息学”（ECO），拨款协议编号238701（C.Š.和I.V.T.）。

作者信息

作者和附属机构

CZ-OPENSCREEN：国家化学生物学基础设施，ASCR分子遗传学研究所，v.v.i.，vídeňská1083，142 20，捷克共和国布拉格4
C.Škuta，W。Dehaen&D.公司。斯沃齐尔
英国剑桥大学化学系分子信息学中心，剑桥Lensfield路，CB2 1EW
I.Cortés-Ciriano&A.公司。折弯机
CZ-OPENSCREEN：捷克共和国布拉格化学与技术大学化学技术学院信息与化学系国家化学生物学基础设施，Technická516628，Prague
W.Dehaen和D。斯沃齐尔
捷克共和国布拉格化学与技术大学化学工程学院数学系，布拉格Techniká5，166 28
P.Křízi
计算药物发现、药物发现与安全，LACDR，莱顿大学，Einsteinweg 55，2333 CC，荷兰莱顿
G.J.P.范韦斯顿
Helmholtz Zentrum Muenchen–德国环境健康研究中心（GmbH）和BIGCHEM GmbH，Ingolstaedter Landstrasse 1，85764，Neuherberg，Germany
I.V.Tetko公司

作者

C.Škuta公司
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
I.科尔特斯·西里亚诺
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
W.Dehaen公司
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
P.Křízi
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
G.J.P.范韦斯顿
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
I.V.Tetko公司
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
A.折弯机
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
D.斯沃齐尔
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者

贡献

CŠ、IT和DS构思了这项研究。CŠ、IC-C、WD和GJPvW负责方法开发、实施和验证。PK负责统计数据分析。DS负责监督研究。DS、CŠ和IC-C写了这份手稿。IVT、GJPvW、AB和PK编辑了手稿。所有作者阅读并批准了最终手稿。

通讯作者

与的通信D.斯沃齐尔.

道德声明

竞争性利益

作者声明，他们没有相互竞争的利益。

其他信息

出版说明

Springer Nature在公布的地图和机构关联中的管辖权主张方面保持中立。

补充信息

附加文件1。

QAFFP施工。统计（配体计数和质量标准\（q^{2}\）和\（R_{0}^{'2}\）)1360名受过训练的模特中。每个模型由目标ChEMBL ID和活动类型（Ki、Kd、IC50或EC50）给出。440个模型，用于构建以绿色突出显示的QAFFP指纹。440个模型的配体数据（以配体ChEMBL ID、SMILES、活性类型和活性值给出）。

附加文件2。

相似性搜索任务。HET和HOM数据集的列表，包括活动和非活动的数量。

附加文件3。

生物活性分类任务。包含活动和非活动数量的CLASS数据集列表。

附加文件4。

跳脚手架任务。用于脚手架跳跃潜力评估的目标列表、ACSK和RACSK的数量以及使用Morgan2、b-QAFFP和rv-QAFFP指纹以及rv+b-QAFFP组合检索的ACSK数量。

附加文件5。

相似性搜索任务。HET和HOM数据集中单个集合的AUC和EF5的平均值是使用各种设置（亲和力截止值为5-8，AD估计打开和关闭）获得的，用于构建b-QAFFP指纹。

附加文件6。

相似性搜索和生物活性分类任务。显示QAFFP和Morgan2指纹性能的图。

附加文件7。

生物活性分类任务。使用构建b-QAFFP和rv-QAFFP指纹的各种设置（亲和力截止值为5-8，AD估计打开和关闭）获得的CLASS数据集中单个集合的AUC和EF5平均值。

权利和权限

开放式访问本文根据知识共享署名4.0国际许可证获得许可，该许可证允许以任何媒介或格式使用、共享、改编、分发和复制，只要您对原作者和来源给予适当的信任，提供知识共享许可证的链接，并说明是否进行了更改。本文中的图像或其他第三方材料包含在文章的Creative Commons许可证中，除非材料的信用额度中另有说明。如果文章的知识共享许可证中没有包含材料，并且您的预期用途不被法律法规允许或超出了允许的用途，则您需要直接获得版权所有者的许可。要查看此许可证的副本，请访问http://creativecommons.org/licenses/by/4.0/知识共享公共领域专用豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据，除非数据的信贷额度中另有规定。

转载和许可

关于本文

引用本文

Škuta，C.，Cortés-Ciriano，I.，Dehaen，W。等。QSAR衍生亲和指纹（第1部分）：用于相似性搜索、生物活性分类和支架跳跃的指纹构建和建模性能。化学杂志 12, 39 (2020). https://doi.org/10.1186/s13321-020-00443-6

下载引文

收到:2019年8月7日
认可的:2020年5月16日
出版:2020年5月29日
内政部:https://doi.org/10.1186/s13321-020-00443-6

QSAR衍生亲和指纹（第1部分）：用于相似性搜索、生物活性分类和支架跳跃的指纹构建和建模性能

摘要

介绍

方法

定义

rv-QAFFP指纹构造

b-QAFFP指纹构造

QAFFP绩效评估

相似性搜索

生物活性分类

脚手架跳跃

结果和讨论

数据统计

b-QAFFP指纹在相似性搜索中的性能

b-QAFFP和rv-QAFFP指纹在生物活性分类中的性能

b-QAFFP和rv-QAFFP指纹在脚手架跳跃中的性能

结论

数据和材料的可用性

缩写

工具书类

致谢

基金

作者信息

作者和附属机构

贡献

通讯作者

道德声明

竞争性利益

其他信息

出版说明

补充信息

权利和权限

关于本文

引用本文

分享这篇文章

关键词

化学信息学杂志

联系我们