Modelling bound ligands in protein crystal structures

Zwart, P.H.; Langer, G.G.; Lamzin, V.S.

doi:10.1107/S0907444904012995

研究论文

生物
结晶学

国际标准编号：1399-0047

第60卷| 第12部分| 2004年12月| 第2230-2239页

doi:10.1107/S0907444904012995

蛋白质晶体结构中结合配体的建模

P.H.Zwart先生,^一 ‡ G.G.兰格 ^一和V.S.兰津 ^一 ^*

^一欧洲分子生物学实验室，c/o DESY，Notkestrasse 85，Building 25A，22603 Hamburg，Germany
^*通信电子邮件：victor@embl-hamburg.de

(收到日期：2004年2月26日； 2004年5月28日接受)

描述了电子密度图中蛋白质结合配体的自动识别和构建方法。基于位置参数的晶格分布，得到了配体分子结构几何特征的误差模型通过并用于构造近似似然评分函数。该评分函数与基于图形的搜索技术相结合，提供了一种灵活的建模方案，其应用显示了良好的初始结果。已在各种X射线结构中识别出一些大小在9到44个非H原子之间的配体，并使用少量的先前立体化学知识自动构建。

关键词：蛋白结合配体;建模.

1.简介

蛋白质晶体学中的自动建模技术是任何硬件和软件管道的重要组成部分，旨在以最少的用户干预提供蛋白质晶体结构(例如布伦泽尔等。, 2003 ). 建模例程，例如ARP协议/弯曲（佩拉基斯等。1999年 ),RESOLVE（解决）（特威利格，2003年 )以及女服务员（莱维特，2001年 )能够以全自动化的方式构建几乎完整的蛋白质结构（Badger，2003 )给出了一组合理的相位估计和足够分辨率的X射线数据。虽然结构中的蛋白质部分被识别，但其他化合物，如DNA、RNA和配体，不能完全自动构建。配体构建问题从理论和实践的角度都特别令人感兴趣。与蛋白质结合的配体的化学多样性是巨大的：在撰写本文时，异种化合物信息中心（HIC-Up；https://xray.bmc.uu.se/hicup)和2000多个配体词典条目包含在REFMAC公司5/中央对手方清算所4单体库（Vagin等。, 2003 ; 协作计算项目，第4期，1994年 ). 在解释分辨率低于原子分辨率且存在相位误差的电子密度时，找到一种处理配体基本化学知识的方法尤其具有挑战性。实际兴趣主要来源于制药公司和大型X射线晶体学设备，它们希望实现药物发现工作的自动化或建立结构解决方案的通用基础设施。配体构建程序在高通量X射线晶体学筛查的自动化和实际可行性中发挥着重要作用，如Abbott（Nienaber等。2000年 )和Astex Technology（Sharff&Jhoti，2003）). 现有的非蛋白质模型构建方法要么基于扭转角、原子间距离矩阵的使用，要么基于电子密度的拓扑分析。中实现的方法XLIGAND公司（奥尔德菲尔德，2001年b条 )或BLOB（博客）（迪勒等。, 1999 )通过改变扭转角度使配体与电子密度相匹配。x长度进行形状匹配，需要对获得的配体位置进行初步猜测通过差密度分割。在几个试验构象中，将配体分子置于密度中，并进行局部优化，以最大限度地适应电子密度（Oldfield，2001）一 ).BLOB（博客）利用全局优化技术找到配体的方向、位置和构象。基于距离矩阵的解释技术的一个例子是科赫（1974）的开创性工作 )及其扩展（Main&Hull，1978 ; 卡斯卡拉诺等。, 1991 ; 阿尔托马尔等。, 2002 ). 这些基于距离矩阵的地图解释方法使用迭代程序，根据已知的几何特征和通过峰值拾取方法获得的近似原子位置在地图中构建分子模型。最近，基于距离矩阵的方法也被应用于高分辨率蛋白质电子密度图的解释（Oldfield，2002 ). 电子密度图的解释通过电子密度的拓扑分析在解释过程中还调用了其他拓扑特征，如凹坑和鞍点（Leherte等。, 1997 ; Menéndez-Velázquez和García-Granda，2003年 ). 虽然这三种方法都有各自的优点，但我们选择基于距离矩阵研究配体构建技术，因为它们与ARP协议/弯曲此外，与基于扭转角的方法相比，距离矩阵方法可以更直接地构建构建部分无序配体的算法。

虽然在电子密度中构建配体结构与在重复肽基序基础上构建蛋白质似乎是不同的问题（Lamzin&Wilson，1997 )可以看出，基本原则基于相同的概念（Bart&Busetti，1976 ).

在晶体学中限制精炼，通过改变原子位置来优化以下函数{x个}:

$[{\rm LL}（\{{\bf x}\}）=\ln[f（{\rm-chemical}\，\，{\rm-sense}|\{\bf-x}\{）]+\textstyle\sum\limits_{\bf-h}\ln[f（f^{\rm-obs}_{\bf-h}|\}{\bv-x}）]。\等式（1）]$

这个（f）( $[F^{\rm obs}_{\bf h}]$ |{x个})（1）中的术语在给定原子位置估计集的情况下，对X射线数据的概率分布进行建模{x个}.（f）（化学感|{x个})表示系统立体化学的先验知识。在蛋白质晶体学中，该表达式通常由一组高斯分布的乘积建模，这些高斯分布以几何特征（例如距离和角度）的“理想”值为中心。什么时候？（f）( $[F^{\rm obs}_{\bf h}]$ |{x个})也通过高斯模型进行建模，（1）结果为标准最小二乘精细化。建模（1）的X射线部分通过水稻分配最大似然精炼（Pannu&Read，1996年 ; 布里科涅，1997年一 ; 穆尔舒多夫等。, 1997 ).

我们采用的配体构建方法与所描述的精炼例子。然而，为了优化总对数似然（LL），我们没有改变位置参数，而是将它们保持不变，并修改以原子标记集形式表示的解释以优化（1）此外，尽管我们通过独立对数概率的（加权）和对先验分布进行建模，但单个概率密度函数并不具有高斯形式。与（1）中振幅部分的情况一样，我们的化学感觉先验可以根据一个合适的位置参数误差模型推导出来。解释的立体化学质量是通过几何特征的模型分布来衡量的，但与X射线数据的对应关系是以一种更简单的方式来解释的。原子的可能性已通过密度高度的单调递增函数建模，以推动对高电子密度的解释。由于所开发函数中的近似值，我们将使用通用术语评分函数，而不是对数似然函数。

从广泛的各种拓扑和几何描述符中，我们只使用来自键合原子（1-2距离）、键合角（1-3距离）、手性原子和范德瓦尔斯排斥。尽管有大量其他信息来源，如平面度约束，顺式–反式规范、可能的分子内氢键模式和特定扭转角的不利组合被忽略，几何描述符的数量与电子密度相结合，可以获得配体位置、取向和构象的适当估计。

2.方法

开发了以下原型程序，用于自动构建剩余电子密度中的配体。首先，对大分子模型的蛋白质部分进行手动或自动的侧链和/或主链构象重塑，以克服配体诱导的非同构。然后利用这种结构获得相位和优值以及相应的差异电子密度图。然后构造一个正交网格，从中选择可能属于配体的点。利用配体分子的几何特征建立配体原子位置参数的误差模型。设计用于优化构建的评分函数的搜索算法会将配体原子名称分配给网格点。获得了几何化配体，随后受到约束精炼配体-蛋白质复合物的使用REFMAC公司5（穆尔舒多夫等。, 1997). 如果存在其他配体，可以重复该过程来定位它们。

2.2. 原子生成试验

含有配体的差分电子密度图由最小间距的正交网格参数化d日_网格在两个网格点之间。d日_网格设置为0.5º，这与所使用的误差模型有关，如§2.3. 正交网格的构建方式是覆盖整个大分子，并添加适当大小的边界。晶体学对称性在此阶段被忽略。每个网格点都与三个参数相关联：密度高度、占用率和簇数。密度高度是指单位单元格。占用率为0或1，并确定网格点是否用于试探原子生成。簇号将网格点集划分为簇，其中元素是路径连接的。

如果网格点的电子密度值高于某个阈值，则选择网格点ρ_三个使用与众所周知的骨架化程序相关的方法对选定的网格点进行聚类（Greer，1974 ; 斯旺森，1994 ).

（i）设置关联密度高度大于的所有栅格点的占用率ρ_三个等于1；将所有网格点的簇数设置为0。
（ii）一)移动到占用率为1的下一个栅格点，该栅格点的相邻栅格点的占用率为零。
（ii）b条)标记此网格点，表示“要删除”，除非它只有占用率为0的邻居或标记为要删除的邻居，或者如果删除此网格点会断开相邻网格点的连接。
（iii）转至（ii）一)直到访问了所有网格点。
（iv）将“待移除”网格点的占用率设置为0；转到（ii）一)直到没有进一步的变化发生。
（v）为具有非零占用率的每个栅格点指定不同的簇号。

该算法称为约束侵蚀（Heijmans，1992

)，提供了许多孤立的网格点。可以表明，在步骤（ii）中给定邻域的定义的情况下，剩余的网格点还没有被路径连接。在本实施方式中，当两个网格点的距离小于或等于3时，将其定义为邻居^1/2d日_网格.

该算法的逆运算，测地线重建（Heijmans，1992)，已应用。

（i）初始化C类到0。
（ii）C类=C类+ 1
（iii）移动到下一个网格点，占用率等于1，集群数量等于C类.
（iv）选择相关密度高度大于ρ_三个; 将簇号和占用率设置为C类和1。
（v）转至（iii），直到不再发生变化。
（vi）转至（ii），直到所有集群都构建完成。

可以构造其他算法，以类似的方式执行聚类。

在一个连接簇中分组的网格点的数量与作为可能的信噪比分类器的差密度簇的体积有关。在实际实现中，将最大的簇分配给要构建的配体，或者在多个配体的情况下，将按体积排序的簇列表与按大小排序的配体列表相匹配。

密度阈值ρ_三个在聚类算法中使用的是根据获得的簇的大小进行选择的。

为了进一步减少网格点的数量，执行了另一个类似于约束侵蚀的选择过程。

（i）移动到密度和占用率最高的网格点1。
（ii）选择距离为d日_ρ并将其占用率设置为0。
（iii）转至（i）直至收敛。

由于电子密度的高度与原子的接近程度相关，因此此过程更有可能保留靠近配体原子位置的网格点。选择半径d日_ρ应反映所寻求的配体中存在的键距以及网格间距的选择d日_网格.设置d日_ρ若网格间距为0.5º，则计算结果为1.3º。基于网格的选择过程对原子周围电子密度的形状或拓扑特性不敏感，但存在产生大量初始试原子过剩的缺点。

2.3. 距离的分布

如上所述，在设计评分函数时需要配体几何特征的误差模型。试验原子的位置参数并不像自由原子模型中假设的那样连续分布（Zwart&Lamzin，2003 , 2004 )但遵循离散的所谓晶格分布（Abramovicz&Stegun，1974 ; 布里科涅，1974年 ). 我们假设，最好的解释是将配体原子映射到网格上最近的邻居。因此，提出的位置参数误差模型包括将“真”配体原子的位置参数舍入到网格的位置参数。可以得到四舍五入后原子间距的分布通过模拟。使用拒绝抽样法对分布在球体上的点进行抽样；附录中概述了算法A类也可以考虑包含给定原子间距离的任何不确定性或“自然扩散”。

图1显示了原子间距离为1.5º、正交网格间距为0.5º和0.8º的经验分布（明显非高斯分布）选择0.5º的网格间距是为了防止键合（非H）原子的位置参数四舍五入到相同的网格点。此外，0.5º网格间距确保“真正的”配体原子与最近网格点的距离小于或等于3^1/2× 0.5/2 = 0.43 Å. 这是一个位置误差，应在约束细化配体的程序。

图1
在给定理想距离1.5º和网格间距0.5º和0.8º的情况下，网格上的距离分布。

2.4. 手性的分布

这个手性手性原子之间原子间矢量的标量三重积的符号定义了原子的j个和三个保税邻居k个, 我和米,

$[C_j={\rm符号}[{\bf-d}_{jk}\cdot（{\bf d}{jl}\times{\bfd-}{jm}）]。\等式（2）]$

d日_jx公司表示手性原子之间的矢量j个和邻近的原子x个键合原子的顺序取决于输入配体结构中的出现顺序，而不是标准优先规则，因为它只需要有一个内部标准。

The distribution of手性原子的结构与距离分布的结构类似。手性原子及其键合邻居被随机定向并放置在网格上。随机定向的产生是通过从四维单位球上均匀分布的点中采样来实现的。这四个数字可以被认为是一个四元数，并用于重新定向所考虑的碎片（附录A类). 将位置参数舍入到最近的栅格点后手性已重新计算。手性体积符号的分布示例如图2所示.

图2
手性体积2.77º符号的条件分布^三网格间距为0.5º。

2.5. 排斥

分子碎片内部几何形状的另一个信息来源是范德瓦尔斯排斥。排斥项模拟了我们的先验知识，即1-n个距离，使用n个大于3的平均距离大于1-3的平均距离。排斥术语防止皱巴巴的试验分配被识别为可能的分子片段。所使用的排斥项具有以下形式：

$[W（d|a，b）=\textstyle{{1}\over{2}}\{1+\tanh[（d-a）b]\}。\等式（3）]$

通过改变一和b条，可以修改拐点的位置和斥力函数的形状，如图3所示。从概率的观点来看，这个函数可以被视为不恰当的先验（Bernardo&Smith，2000 )在1上-n个(n个>3）距离，尽管其作用应更多地视为激活函数（Bishop，1995 )其对数形式仅对短非键相互作用中涉及的原子间距离给出惩罚。

图3
排斥功能W公司(d日|一,b条)具有多种位置参数选择一和形状参数b条.

2.6。电子密度

实验信息的最基本来源之一是不同电子密度的高度。配体分子由选定的网格点构成，这些网格点不仅满足上述立体化学标准，而且具有尽可能高的密度。所使用的单调评分函数与描述范德瓦尔斯斥力的函数类似，

$[W（\rho|s）={{1}\over{2}}\left[1+\tanh\left（{{2}\over{s}}\rho-2\right）\right]，\eqno（4）]$

哪里秒是所选网格点簇的平均电子密度，以及ρ是每个网格点的电子密度值。

2.7. 搜索和评分

通过假设1-2个距离位于1.1和1.9Å之间，构建了已知配体的图。网格表示的图形可以以类似的方式构建。通过使用§2.3.

搜索过程从生成一组部分解释开始，通过将给定配体原子的标签指定给可用簇内的每个网格点。然后通过添加一个固定配体标签来扩展这些部分解释。根据构建的试验原子图生成展开，考虑到理想配体图、试验原子图和可用的部分解释所指示的约束。每个扩展的解释都会计分，但只有N个_商店存储分数最高的部分解释。当尝试了所有可能的单原子展开后，存储的部分解释将用于进一步展开，直到配体完成。搜索过程如图4所示我们将配体的特定原子分配给网格点的顺序表示为展开顺序。默认情况下，要指定的第一个原子是具有最大数量的键合相邻原子的原子。其他原子“附加”到部分解释的顺序取决于添加该原子所获得的几何信息量。上可用的几何信息量越大局部结构，越容易将其识别为正确的片段。因此，原子被添加到局部结构按照在随后生成的结构中提供最大预期信息量的顺序。从概念上讲，该程序应尽量减少正确解释超出N个_商店最佳局部解释。

图4
搜索过程的流程图。详见正文。

部分解释评分如下：

$[\eqaligno{Q（{\rm grid}|{\rm-ligand}）&=w_{\rm-priorial}\textstyle\sum\limits_m\ln[P_{\rma-prioril}（d^{\rm-obs}_m|d^{\ rm-tar}_m）]\cr&\quad+w_{\ rm-c}\texttyle\sum\simits_n\ln[P_c limits_o\ln[w（d_{o}^{rm obs}|a，b）]\cr&\quad+w_{rm dens}\textstyle\sum\limits_j\ln[W（\rho_j|s）]&(5)}]$

P（P）_先前的( $[d^{\rm obs}_m|d^{\rm tar}_m]$ )表示给定指定目标距离的观测距离的概率。P（P）_C类( $[C_n^{\rm obs}|C_n^{\ rm tar}]$ )给出了观测到的概率手性给定目标手性。这些分布如§2.3和§2.4.W公司(d日_o个^{光突发事件}|一, b条)表示§2.5. 这个W公司(ρ_j个|秒)术语解释了密度值。乘数w个_先前的,w个_c（c）,w个_代表和w个_洞穴是四个功能贡献的相对权重。

全局优化算法，如模拟退火（Kirkpatrick等。, 1983 )和交叉熵方法（Rubinstein，1999 )已尝试作为概述的优化过程的替代方案，但在随机搜索过程中，似乎难以合并搜索图和目标图的连接性矩阵所指示的几何约束。然而，这些算法的初步实现确实取得了成功，但需要更长的时间和微调参数才能收敛到正确的解。

2.8. 几何尺寸化

一旦网格点被分配给配体原子，配体模型就适合于密度，并使用1-2和1-3距离约束进行几何化。键合距离和角键合距离的目标偏差分别设置为0.02Å和0.04Å。最小二乘法最小化是使用正规矩阵的一阶导数和对角近似来实现的，其公式类似于阿加瓦尔（1978）所描述的公式 ).

3.结果

使用从PDB（Bernstein）获得的数据对中等大小的配体进行了许多测试等。, 1977 ; 伯曼等。2000年 ). 参数一和b条在（3）中分别设置为2.5和2.0。重量w个_先前的,w个_c（c）,w个_代表和w个_洞穴分别设置为0.7、10、12和6。通过用计算出的距离极限（§2.7). 每个膨胀循环中存储的部分结构的最大数量是试验原子组中观察到的假定1-2个相邻原子数量的五倍。表1总结了所用结构和X射线数据集的特征。除非另有说明，否则该过程已使用指定的参数运行。根据§2.1. 默认情况下，得分最高的解释用于验证程序。所有测试结构的结果也总结在表1中以下各小节中给出了每种情况下建筑物的详细说明。

表1
数据集特征

PDB代码	d日_最小值(Å)	B类_威尔逊(Å²)	配体	B类_配体†(Å²)	非H原子	相对标准偏差。‡(Å)	用于G4 Mac OSX的CPU 1 GHz（最小）
1个ee2	1.5	15	NADH公司	11	44	0.09	27
			胆酸	16	29	0.09	5
1个对象	1.4	14	列车自动防护系统	23	31	0.07	7
			放大器	32	23	§	§
1月2日	2.2	38	丙脒	34	23	§	7
1a28号	1.8	24	孕酮	25	23	0.17	2
1立方厘米	1.8	13	维甲酸	13	22	0.22	2
1ld8（1ld8）	1.8	18	FDP公司¶	17	24	§	12
			IC49系列††	19	33	0.28	10
			蔗糖	31	23	§	§
1确定4	2.1	19	DHAP公司‡‡	17	9	0.30	5

†平均B类配体原子的值。
之后沉积结构的根-平方位移约束细化蛋白质-配体复合物。
§见正文。
¶法尼基二磷酸。
††抑制剂化合物49。
磷酸二羟基丙酮

3.1. 胆酸和NADH

SS-LADH（PDB码）的X射线数据和二聚体原子模型1个ee2; 阿道夫等。2000年 )含有两个胆酸分子、两个NADH分子、2×374个残基和大约1000个水分子。从刚体获得的相位精炼结构的蛋白质部分被用作构建胆酸和NADH的起点。簇结构揭示了四个相连密度的簇，其体积大于80º^三.体积约为150Ω的簇^三被解释为NADH和体积约为85º的簇^三作为可能的胆酸。图5显示了放置的网格原子和之后的模型的初始差异密度精炼具有REFMAC公司其中一个胆酸簇为5。几何化后，所建模型相对于沉积模型的均方根位移（rm.s.d.）为0.30º，几何化后为0.09º约束细化蛋白质-配体复合物REFMAC公司5

图5
胆酸的试验原子（左）和精细解释（右）(一)和NADH(b条)在原始差异密度中。

NADH的建造产生了一个从沉积坐标（图5）得出的r.m.s.d.为0.11º的结构). 为了防止算法在构建的早期阶段放弃正确的部分解释，迭代扩展期间存储的部分扩展数必须从默认值增加四倍。

3.2. ATP和AMP

赛卡合成酶的原子模型（PDB代码1个对象; 列夫迪科夫等。, 1998 )包含AMP和ATP。由于不同电子密度中存在相对较大的噪声，所述的聚类过程无法在合理的时间内确定配体的位置。因此，在聚类选择和分配中使用了ATP和AMP的位置。建筑及其后续精炼ATP导致结构匹配沉积坐标（r.m.s.d.=0.09 Au；图6). 由于磷酸盐和糖部分的密度不明确/不存在差异，AMP的构建不成功。沉积AMP结构的占用率为0.5。沉积结构因子的Wilson图和X射线数据的完整性分析表明，约15%的分辨率为3.0º左右的最强反射缺失。这可能是相对嘈杂的差异图和随后AMP建造失败的原因。

图6
ATP试验原子密度差(一)，在原始差异密度中进行精细解释(b条)以及之后的密度精炼(c（c）).

3.3. 丙脒

丙脒分子在双链DNA结构（PDB码）中的位置1月2日; 施瓦岑巴赫等。, 2004 )已经使用所描述的使用来自刚体的相位的聚类算法的默认参数来确定精炼原子模型的非配体部分。差异密度的解释及后续精炼导致配体的位置与沉积结构相比具有不同的构象（图7). 在同一图中，显示了最佳的六种几何解释。部分丙脒分子相对较弱的密度可能解释了沉积模型和自动构建模型之间的差异。

图7
丙脒密度的前6种解释(一). 最佳解释（浅灰色）和沉积构造（深灰色）如所示(b条).

3.4. 孕酮

类固醇在人类孕酮受体中的位置（PDB代码1a28号; Williams&Sigler，1998年 )使用默认参数定位。建造和沉积的模型在酮基团的方向上不同（图8). 与存款相符的解释晶体结构得分稍低，但显示出比翻转酮组更有利的蛋白质接触。我们的评分功能目前没有考虑这些交互作用。根据沉积坐标建立和改进模型的r.m.s.d.为0.17°。翻转酮基团的加入使r.m.s.d.增加到0.29º。

图8
试验位置的差异密度(一)，非几何解释(b条)孕酮的沉积结构(c（c）). * 表示酮氧在解释和沉积结构中的位置不同。

3.5. 维甲酸

维甲酸转运蛋白（PDB编码）不同电子密度中的维甲酸1磅; 克莱维特等。, 1994 )使用默认参数进行定位和构建（图9). 构建模型与沉积模型的相对标准偏差为0.22Ω。

图9
试验位置的差异密度(一)维甲酸的精细解释(b条).

3.6. 法尼基二磷酸（FDP）、抑制剂化合物49（IC49）和蔗糖

配体FDP、IC49和蔗糖在人法尼斯基转移酶差异密度中的位置（PDB编码1磅8; 莱希等。, 1992 )执行如下。根据簇体积，将最大的三个不同密度簇分配给各个配体。一旦构建了一个配体，蛋白质-配体复合物就被重新定义，随后使用新的密度图构建其余的配体。由于配体的大小，中间部分解释的数量增加了两倍。尽管IC49的制造和精炼的r.m.s.d.为0.28 Au，但FDP是在顺式而不是反式与沉积结构相比的构象（图10). 制造蔗糖的尝试在各种环境下都失败了。这是因为配体具有高度的表观对称性，导致解释过程很可能无法保持正确局部结构每次迭代后都收敛到假极小值。

图10
IC49的差异密度和精细解释(一)以及解释和沉积FDP模型的叠加(b条). * 标记FDP的错误构建部分。

3.7. 磷酸二羟基丙酮（DHAP）

DHAP分子在醛缩酶结构差异图中的位置（PDB代码1确定4; 洛伦岑等。, 2003 )使用围绕已知配体结合的残基的聚类算法确定先验的精细解释如图11所示由于DHAP与蛋白质共价结合，蛋白质与配体的相互作用将使解释更容易。

图11
试验位置的差异密度(一)以及覆盖在正确的二羟丙酮-磷酸盐模型上的精细解释(b条).

4.讨论和结论

距离分布的建模通过在基于网格的建模例程中，格分布的边缘化被证明是建模先前几何知识的一个适当工具。得到的近似分布可以很快得到通过蒙特卡洛模拟。相对复数的近似分布，例如原子手征体积的符号分布，也可以通过直接的模拟获得。必须注意的是，所构建的关于位置参数的误差模型是近似的。原子间距离不是独立的，原则上应该考虑相互关系。如果能够实现有效的方法来存储和处理几何特征的多维分布，则可以尝试获得所有几何特征在整个搜索分子中的联合概率分布。此外，设计用于消除低密度原子的网格点选择算法会影响网格点之间可能的距离集。这组距离的分布可能与模拟中构建的分布不同，可能取决于簇内密度高度的空间分布。然而，事实证明，所设计的分类器足以识别正确的解决方案。处理可用的先验知识也存在类似的情况，这些先验知识仅限于1-2和1-3距离、手征和排斥。即使有了有限的信息量，人们也能够识别不同密度的复杂模型。其他信息，如平面度限制、之前的1-4距离分布和配体-蛋白质相互作用，很可能会提高识别过程的性能。

网格上构建的模型距离其正确位置足够近REFMAC公司5能够直接精炼蛋白质-配体复合物。将几何化与电子密度的真实空间拟合相结合，进一步增强了解释过程。

从黄体酮实例和DHAP实例中可以看出，在一定程度上，内部配体几何信息本身并不总是足以解释差异密度。将蛋白质-配体接触纳入决策过程将有助于解决可能的歧义，防止蛋白质和配体原子之间的化学不合理接触，并可能限制搜索空间。类似的方法也适用于构建具有内部重复的结构，例如糖基化位点。如果在初始阶段可以安装糖骨架，则可以使用现有零件上的约束装置进行（碳）氧基团的后续放置。理想情况下，构建过程应该能够自动识别这些模块，并使用它们来提高识别过程的速度和性能。

该搜索算法能够基于所提出的评分函数构建不同电子密度的配体。目前该软件的一个限制可能是其速度：大多数配体在大约10分钟内生成，而ATP需要15分钟，NADH大约需要半小时。在未来的实现中，构建算法将针对CPU效率进行优化。未来发展的一个重要部分将是实现高效机制，以决定是否将一个原子或一组原子添加到可用的局部结构结果更好地描述了观察到的不同电子密度。这将进一步促进该过程，也可以构建部分无序配体，如§3.2，自动执行。

所描述的配体构建例程已并入6.1版的ARP/wARP套房于2004年7月推出。

附录A

球体和超球体点拾取

使用Marsagalia（1972）开发的方法对单位半径球体上的点进行均匀采样 )包括对两个随机数进行采样，A类和B类，在（−1，1）上独立均匀分布。成对的(A类, B类)对于其中A类²+B类²<1可用于构造向量(x个, 年, z（z）)均匀分布在球体上，

$[\eqalignno｛x&=2A（1-A^2-B^2）^｛1/2｝，&（6）\cr y&=2B（1-A^2-B^2）^｛1/2｝，&（7）\cr z&=1-2（A^2+B^2）。&（8）｝]$

采样点(一₀,一₁,一₂,一_三)在单位半径的四维球体上也可以用类似的方法进行。四个随机数(A类, B类, C类, D类)独立于（−1，1）上的均匀分布绘制。配对的随机数(A类, B类)和(C类, D类)满足A类²+B类²<1和C类²+D类²<1用于以下转换

$[\eqaligno{a_0&=a，&（9）\cra_1&=B，&（10）\crA_2&=C\左（{{1-a^2-B^2}\上{C^2+D^2}}\右），&$

向量(一₀,一₁,一₂,一_三)然后均匀分布在半径为1的四维球体上。该矢量可以被认为是四元数，

$[{\bf q}=a0+a1i+a2j+a3k\eqno（13）]$

并可用于重新定位分子片段（Weisstein，1999 ). 基于旋转组对应的更有效采样方法SO公司（3）四维球体在别处也有描述，例如布里科涅（1997）b条 ).

脚注

‡现住址：美国伊利诺伊州阿贡市阿贡国家实验室生物系SAIC-Frederick。

致谢

作者感谢R.J.Morris和A.Perrakis激发了讨论。PHZ感谢K.Cowtan帮助使用Clipper图书馆和EMBL获得博士奖学金。

工具书类

Abramovicz，M.和Stegun，I.A.（1974年）。数学函数手册。纽约：多佛出版公司谷歌学者
 Adolph，H.-W.、Zwart，P.、Meijers，R.、Hubatsch，I.、Kiefer，M.、Lamzin，V.S.和Cedergren-Zeppezauer，E.（2000年）。生物化学,39, 12885–12897. 科学网交叉参考公共医学中国科学院谷歌学者
 Agarwal，R.（1978年）。《水晶学报》。A类34, 791–809. 交叉参考中国科学院 IUCr日志科学网谷歌学者
 Altomare，A.、Giacovazzo，C.、Ianigro，M.、Moliterni，A.G.和Rizzi，R.（2002）。J.应用。克里斯特。 35, 21–27. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Badger，J.（2003）。《水晶学报》。D类59, 823–827. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Bart，J.C.J.和Busetti，A.（1976年）。《水晶学报》。A类32，927–933交叉参考中国科学院 IUCr日志科学网谷歌学者
 Berman，H.M.、Westbrook，J.、Feng，Z.、Gilliland，G.、Bhat，T.N.、Weissig，H.、Shindyalov，I.和Bourne，P.E.（2000）。核酸研究。 28, 235–242. 科学网交叉参考公共医学中国科学院谷歌学者
 Bernardo，J.M.和Smith，A.F.M.（2000）。贝叶斯理论。纽约：Wiley。谷歌学者
 Bernstein，F.C.，Koetzle，T.F.，Williams，G.J.B.，Meyer，E.F.Jr，Brice，M.D.，Rodgers，J.R.，Kennard，O.，Shimanouchi，T.&Tasumi，M.（1977年）。分子生物学杂志。 112, 535–542. 交叉参考中国科学院公共医学科学网谷歌学者
 Bishop，C.M.（1995年）。模式识别的神经网络。牛津大学出版社。谷歌学者
 Bricogne，G.（1974年）。《水晶学报》。A类30, 395–405. 交叉参考科学网 IUCr日志谷歌学者
 Bricogne，G.（1997年）一).方法酶制剂。 276，361–423交叉参考中国科学院科学网谷歌学者
 Bricogne，G.（1997年）b条).方法酶制剂。 276, 424–449. 交叉参考中国科学院科学网谷歌学者
 Brunzelle，J.S.、Shafaee，P.、Yang，X.、Weigand，S.、Ren，Z.和Anderson，W.F.（2003）。《水晶学报》。D类59, 1138–1144. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Cascarano，G.、Giacovazzo，C.、Camalli，M.、Spagna，R.和Watkin，D.J。(1991).《水晶学报》。A类47, 373–381. 交叉参考中国科学院科学网 IUCr日志谷歌学者
 协作计算项目，第4期（1994年）。《水晶学报》。D类50, 760–763. 交叉参考 IUCr日志谷歌学者
 Diller，D.、Pohl，E.、Redinbo，M.、Hovey，B.和Hol，W.（1999）。蛋白质,36, 512–525. 交叉参考公共医学中国科学院谷歌学者
 Greer，J.（1974）。分子生物学杂志。 82, 279–301. 交叉参考中国科学院公共医学科学网谷歌学者
 Heijmans，H.J.A.M.（1992年）。Nieuw拱门。威斯克。(4),10, 237–276. 谷歌学者
 Kirkpatrick，S.、Gelatt，C.D.和Vecchi，M.P.（1983年）。科学,220, 671–680. 科学网交叉参考公共医学中国科学院谷歌学者
 Kleywegt，G.J.，Bergfors，T.，Senn，H.，Le Motte，P.，Gsell，B.，Shudo，K.&Jones，T.A.（1994）。结构,2, 1241–1258. 交叉参考中国科学院公共医学科学网谷歌学者
 Koch，M.H.J.（1974年）。《水晶学报》。A类30, 67–70. 交叉参考 IUCr日志科学网谷歌学者
 Lamzin，V.&Wilson，K.（1997年）。方法酶制剂。 277, 269–305. 交叉参考公共医学中国科学院科学网谷歌学者
 Leahy，D.J.、Axel，R.和Hendrickson，W.A.（1992年）。单元格,68, 1145–1162. 交叉参考公共医学中国科学院科学网谷歌学者
 Leherte，L.、Glasgow，J.I.、Baxter，K.、Steeg，E.和Fortier，S.（1997年）。J.阿蒂夫。智力。物件。 7，125–159谷歌学者
 Levdikov，V.M.、Barynin，V.V.、Grebenko，A.I.、Melik Adamyan，W.R.、。，Lamzin，V.S.&Wilson，K.S.（1998年）。结构,6, 363–376. 科学网交叉参考中国科学院公共医学谷歌学者
 莱维特·D·G（2001）。《水晶学报》。D类57, 1013–1019. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Lorentzen，E.、Pohl，E.、Zwart，P.、Stark，A.、Russell，R.、Knura，T.、Hensel，R.和Siebers，B.（2003）。生物学杂志。化学。 278, 47253–47260. 科学网交叉参考公共医学中国科学院谷歌学者
 Main，P.&Hull，S.E.（1978年）。《水晶学报》。A类34, 353–361. 交叉参考中国科学院 IUCr日志科学网谷歌学者
 Marsaglia，G.（1972年）。安。数学。斯达。 43, 645–646. 交叉参考科学网谷歌学者
 Menéndez-Velázquez，A.&GarcíA-Granda，S.（2003）。J.应用。克里斯特。 36，193–205科学网交叉参考 IUCr日志谷歌学者
 Murshudov，G.N.、Vagin，A.A.和Dodson，E.J.（1997）。《水晶学报》。D类53, 240–255. 交叉参考中国科学院科学网 IUCr日志谷歌学者
 Nienaber，V.L.、Richardson，P.L.，Klighofer，V.、Bouska，J.J.、Giranda，V.L和Greer，J.（2000）。自然生物技术。 18, 1105–1108. 科学网交叉参考中国科学院谷歌学者
 Oldfield，T.J.（2001）一).《水晶学报》。D类57, 82–94. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Oldfield，T.J.（2001）b条).《水晶学报》。D类57, 696–705. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Oldfield，T.J.（2002）。《水晶学报》。D类58, 963–967. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Pannu，N.S.和Read，R.J.（1996年）。《水晶学报》。A类52, 659–668. 交叉参考中国科学院科学网 IUCr日志谷歌学者
 Perrakis，A.、Morris，R.J.和Lamzin，V.S.（1999）。自然结构。生物。 6, 458–463. 科学网交叉参考公共医学中国科学院谷歌学者
 Rubinstein，R.（1999）。方法计算。申请。探针。 1, 127–190. 交叉参考谷歌学者
 施瓦岑巴赫，R。等。(2004).蛋白质,54, 174–177. 科学网交叉参考公共医学中国科学院谷歌学者
 Sharff，A.和Jhoti，H.（2003）。货币。操作。化学。生物。 7, 340–345. 科学网交叉参考公共医学中国科学院谷歌学者
 Swanson，S.M.（1994）。《水晶学报》。D类50, 695–708. 交叉参考中国科学院科学网 IUCr日志谷歌学者
 Terwilliger，T.C.（2003）。《水晶学报》。D类59, 38–44. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Vagin，A.、Murshudov，G.、Dodson，E.、Henrick，K.、Richelle，J.和Wodak，S.（2003）。MONLIB，一本多用途大分子词典。未发布的结果。谷歌学者
 Weisstein，E.（1999）。CRC简明数学百科全书。纽约：查普曼和霍尔/CRC出版社。谷歌学者
 Williams，S.P.和Sigler，P.B.（1998年）。自然（伦敦）,393，392–396页科学网中国科学院公共医学谷歌学者
 Zwart，P.H.和Lamzin，V.S.（2003年）。《水晶学报》。D类59, 2104–2113. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Zwart，P.H.和Lamzin，V.S.（2004）。《水晶学报》。D类60, 220–226. 科学网交叉参考中国科学院 IUCr日志谷歌学者