对接构造数据集和生成
为了评估DockRMSD的对称性校正和贪婪搜索启发式的可靠性,我们基于CSAR Hi-Q蛋白-甘露数据集生成了对接构象[21]. 该数据集包含343个蛋白质结构,每个结构都与各自的配体复合,其中对接诱饵构象由我们使用AutoDock Vina程序生成[6]. 对于每个蛋白-配体对,使用OpenBabel构象随机化去除天然配体结构[15],并使用AutoDock Vina重新装入装订袋[6]. OpenBabel执行输入PDBQT文件的生成以进行对接,以及输出文件从PDBQT-MOL2的转换。对接RMSD是在单个再锁定实验产生的前五个姿势的所有10个可能的成对组合之间进行计算的,导致总共3430个RMSD计算(每个蛋白质-配体对10个,总共343个蛋白质-配子对)。所有3430次计算都是在Red Hat Enterprise Linux机器上使用不同程序列表进行的,该机器具有3.30 GHz的Intel i5-4590 CPU。对于DockRMSD、幼稚RMSD和对象rms,分别(参见“DockRMSD运行时比较”部分以获得更详细的运行时分析)。
此处,未计算相对于天然晶体结构姿势的原始RMSD计算,因为AutoDock Vina配体制备过程删除了氧化还原配体和天然配体之间的直接原子对应关系。AutoDock Vina根据配体的扭转树对配体的原子进行重新排序,因此,所有Vina姿势彼此直接对应,但与原始的天然配体结构无关。因此,只有能够找到文件之间原子对应关系的程序才能用于比较Vina姿势和原生晶体结构姿势。这就是为什么用于评估程序的数据集只包含停靠姿势的原因;天然晶体结构和Vina生成的姿势之间不能直接对应。配体结构已使用UCSF Chimera可视化[22].
通过DockRMSD对接RMSD计算
为了检查对接RMSD计算中对称校正的影响,我们在图中进行了比较三a根据DockRMSD计算的对称修正RMSD和根据结构文件的默认原子顺序计算的原始RMSD。虽然3430个案例中有2109个不需要对称校正,但其余1321个案例(38.5%)是坚持原始RMSD人为地将对接RMSD膨胀,其中54个案例中膨胀了2º以上(表1). 这方面最极端的例子是配体分子较大且具有镜像对称平面,以及配体构成大致重叠。对于这些情况,确定最佳映射至关重要,因为错位的对应将导致原子间距离过大,特别是与相对较小的“真实”RMSD相比。石杉碱a基乙酰胆碱酯酶配体的实例[23]如图所示三b、 其中分子的两半在化学上彼此相同,并且肉眼应具有相对较小的RMSD值。DockRMSD的计算与这一粗略评估一致,计算出的RMSD值为3.42Å。然而,由于查询是相对于模板翻转的,天真的RMSD认为这种重新定向是一个重要区别,因此计算出RMSD为10.74º。
表1相对于确定性DockRMSD计算的误差为零、小(非零但小于2.0°)或大(大于2.0°)的3430个RMSD计算总数 在图中4a、 我们将DockRMSD的RMSD与匈牙利算法计算的RMSD进行了比较,匈牙利算法已被一些已建立的方法所采用,例如DOCK6[8]. 在匈牙利算法中,映射是通过对成本矩阵(即原子间距离矩阵)的迭代操作生成的,从而出现对应于最优分配的零值模式。匈牙利算法的性能是使用对接RMSD计算程序的Python实现进行评估的,与Allen和Rizzo所描述的类似[7]. 该脚本使用Python Munkres包[24]生成查询模板原子对应,以便只能在同一元素的原子之间进行赋值。如上所述,此算法的松懈导致它过度优化并生成低于可能值的RMSD值。因此,在几乎所有分析的案例中,匈牙利算法生成的RMSD值都低于DockRMSD找到的最佳答案(3430个RMSD计算中的3269个,95.3%;表1). 这意味着匈牙利算法引入的过校正问题并不简单。
与DockRMSD和幼稚RMSD之间的比较不同,DockRMSS和匈牙利算法之间的最大差异出现在几乎完全重叠的近镜像对称分子中。作为一个示例,我们在图4c来自HIV-1蛋白酶抑制剂BEA425[25],其中呈现的姿势看起来几乎完全相同,因此可以预计RMSD值应该很低。然而,由于分子中心附近有一个羟基,这个分子并不是真正对称的,因此,这两种姿势在化学上并不完全相同。由于匈牙利算法只考虑单个原子类型,而不考虑全局化学恒等式,因此此类情况会愚弄算法,使其接受局部对应区域,而代价是要正确考虑哪些原子是键合的。尽管该算法生成的RMSD值较低,但这些值并不能反映配体键合结构衍生的原子映射的正确对应。
这里需要注意的是,上述RMSD计算是在AutoDock Vina对接构象上进行的,选择该构象纯粹是为了通过直接通信比较不同的RMSD计算程序。事实上,配体RMSD计算最常见的应用之一是用于基准测试,评估对接程序生成与天然构象极为相似的配体姿势的能力。在此类实验中,如果姿势相对于本地姿势的RMSD≤2.0º,则通常认为姿势是“近本地”的。为了检查与此任务相关的不同程序的性能,使用DockRMSD和匈牙利算法,将343个蛋白质-配体对中每一个的排名靠前的AutoDock Vina姿势与CSAR Hi-Q集合提供的配体晶体结构姿势进行了比较,其结果如图所示4b和表2结果表明,在343个案例中的190个案例中,匈牙利算法得出的值低于DockRMSD确定的最佳值,其中10个案例会导致“近似自然”姿势的假阳性分类。这些结果表明,使用不正确的原子对应关系通过RMSD值评估对接算法可能会导致对接结果的人为膨胀。
表2通过DockRMSD和匈牙利算法计算的对接配体位置和各自天然晶体结构配体位置之间343 RMSD计算的列联表 DockRMSD运行时比较
为了评估DockRMSD的运行效率,将所有3430个姿势对的初始和对称修正RMSD计算与对象rms. The对象rms包是OpenBabel的一个工具,它通过使用与DockRMSD类似的算法解决图同构问题来计算RMSD。计算值介于对象rms和DockRMSD(如果DockRMSP中未使用债券类型信息)相同;因此,这两个程序之间最深刻的比较是确定它们分别以多快的速度得出正确的答案。实验结果总结如图所示5,将运行时转换为更接近正态分布的日志。如图所示,DockRMSD执行的每个计算都比对象rms,这与它们的平均运行时间之间的统计显著差异一致(t=310.6,p<10−20,000通过单尾配对t检验)。对称校正和非对称校正运行时之间的差异也具有统计学意义(t=43.9,p<10−400通过单尾配对t检验),但DockRMSD和对象rms(1.04对数10(秒))比对称校正和天真运行时(0.21 log10(秒))。该数据表明,虽然对称性校正对RMSD计算时间的影响是可以观察到的,但相对于对象rms将执行类似对称校正的最小化。
虽然这种运行时差异很大程度上可以归因于以下事实对象rms是使用OpenBabel的面向对象框架实现的,因此导致实例化比这个问题所需的计算密集型数据结构,DEE也有助于提高DockRMSD的效率。作为DEE功效的一个说明性例子,巴克敏斯特富勒烯(C60)分子与tRNA鸟嘌呤转糖苷酶对接[26]使用AutoDock Vina,然后,使用不带DEE的DockRMSD、带有DEE的DuckRMSD计算前五个姿势之间的对接RMSD,以及对象rms用于运行时分析。在本实验中,受体的选择是随机和任意的;与该受体对接只是为配体生成假想姿势的一种手段,并不意味着有更大的生物学相关性。然而,选择巴克敏斯特富勒烯分子作为配体的原因是,它是自然界中观察到的最高度对称的分子之一:分子中每个碳的化学性质都与其他碳相同,导致总状态空间为6060可能的映射,比宇宙中原子的数量还要多。因此,对映射搜索空间进行适当的剪枝对于有效地找到该分子的最小RMSD至关重要。反映出这一点,没有DEE的DockRMSD需要相对较长的时间(每个配体对平均93.3±0.9 ms)才能找到最佳解决方案,因为所做的唯一修剪是实现中描述的基于键的重复标准;由于巴克敏斯特富勒烯的对称性,原子身份搜索不提供任何信息。这个对象rms由于该工具直接实现了VF2可行性标准,因此修剪效率更高(每个配体对平均59.6±0.9 ms),但仍需要枚举每个有效映射以找到最佳映射,因此需要更长的时间才能获得最佳答案。然而,由于DEE根据映射的累积平方距离修剪映射,因此DockRMSD能够在与对象rms在大多数其他分子上(每个配体对平均8.7±0.7ms)。