研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标生物
结晶学
国际标准编号:1399-0047

蛋白质晶体结构中结合配体的建模

十字标记_颜色_方形_文本.svg

欧洲分子生物学实验室,c/o DESY,Notkestrasse 85,Building 25A,22603 Hamburg,Germany
*通信电子邮件:victor@embl-hamburg.de

(收到日期:2004年2月26日; 2004年5月28日接受)

描述了电子密度图中蛋白质结合配体的自动识别和构建方法。基于位置参数的晶格分布,得到了配体分子结构几何特征的误差模型通过并用于构造近似似然评分函数。该评分函数与基于图形的搜索技术相结合,提供了一种灵活的建模方案,其应用显示了良好的初始结果。已在各种X射线结构中识别出一些大小在9到44个非H原子之间的配体,并使用少量的先前立体化学知识自动构建。

关键词: 蛋白结合配体;建模.

1.简介

蛋白质晶体学中的自动建模技术是任何硬件和软件管道的重要组成部分,旨在以最少的用户干预提供蛋白质晶体结构(例如布伦泽尔等。, 2003【Brunzelle,J.S.,Shafaee,P.,Yang,X.,Weigand,S.,Ren,Z.&Anderson,W.F.(2003),《结晶学报》D59,1138-1144。】). 建模例程,例如ARP协议/弯曲(佩拉基斯等。1999年【Perrakis,A.、Morris,R.J.和Lamzin,V.S.(1999)。《自然结构生物学》第6期,第458-463页。】),RESOLVE(解决)(特威利格,2003年【Terwilliger,T.C.(2003),《水晶学报》,D59,38-44。】)以及女服务员(莱维特,2001年【莱维特·D·G(2001),《水晶学报》D571013-1019。】)能够以全自动化的方式构建几乎完整的蛋白质结构(Badger,2003【Badger,J.(2003),《水晶学报》,D59,823-827。】)给出了一组合理的相位估计和足够分辨率的X射线数据。虽然结构中的蛋白质部分被识别,但其他化合物,如DNA、RNA和配体,不能完全自动构建。配体构建问题从理论和实践的角度都特别令人感兴趣。与蛋白质结合的配体的化学多样性是巨大的:在撰写本文时,异种化合物信息中心(HIC-Up;https://xray.bmc.uu.se/hicup)和2000多个配体词典条目包含在REFMAC公司5/中央对手方清算所4单体库(Vagin等。, 2003[Vagin,A.,Murshudov,G.,Dodson,E.,Henrick,K.,Richelle,J.&Wodak,S.(2003)。MONLIB,一本多用途大分子词典。未发表的结果。]; 协作计算项目,第4期,1994年[合作计算项目,第4期(1994年),《晶体学报》,D50,760-763。]). 在解释分辨率低于原子分辨率且存在相位误差的电子密度时,找到一种处理配体基本化学知识的方法尤其具有挑战性。实际兴趣主要来源于制药公司和大型X射线晶体学设备,它们希望实现药物发现工作的自动化或建立结构解决方案的通用基础设施。配体构建程序在高通量X射线晶体学筛查的自动化和实际可行性中发挥着重要作用,如Abbott(Nienaber等。2000年【Nienaber,V.L.、Richardson,P.L.,Klighofer,V.、Bouska,J.J.、Giranda,V.L和Greer,J.(2000)。《自然生物技术》第18期,第1105-1108页。】)和Astex Technology(Sharff&Jhoti,2003)[Sharff,A.和Jhoti,H.(2003),《当代化学生物学》第7卷,第340-345页。]). 现有的非蛋白质模型构建方法要么基于扭转角、原子间距离矩阵的使用,要么基于电子密度的拓扑分析。中实现的方法XLIGAND公司(奥尔德菲尔德,2001年b条【Oldfield,T.J.(2001b),《水晶学报》,D57,696-705。】)或BLOB(博客)(迪勒等。, 1999【Diller,D.、Pohl,E.、Redinbo,M.、Hovey,B.和Hol,W.(1999)。蛋白质,36,512-525。】)通过改变扭转角度使配体与电子密度相匹配。x长度进行形状匹配,需要对获得的配体位置进行初步猜测通过差密度分割。在几个试验构象中,将配体分子置于密度中,并进行局部优化,以最大限度地适应电子密度(Oldfield,2001)【Oldfield,T.J.(2001a),《晶体学报》,D57,82-94。】).BLOB(博客)利用全局优化技术找到配体的方向、位置和构象。基于距离矩阵的解释技术的一个例子是科赫(1974)的开创性工作[科赫·M·H·J(1974),《晶体学报》,A30,67-70。])及其扩展(Main&Hull,1978【Main,P.&Hull,S.E.(1978),《晶体学报》,A34,353-361。】; 卡斯卡拉诺等。, 1991[卡斯卡拉诺,G.,贾科瓦佐,C.,卡马利,M.,斯帕格纳,R.&沃特金,D.J.(1991),《结晶学报》A47,373-381.]; 阿尔托马尔等。, 2002[Altomare,A.,Giacovazzo,C.,Ianigro,M.,Moliterni,A.G.G.&Rizzi,R.(2002),《应用结晶杂志》35,21-27). 这些基于距离矩阵的地图解释方法使用迭代程序,根据已知的几何特征和通过峰值拾取方法获得的近似原子位置在地图中构建分子模型。最近,基于距离矩阵的方法也被应用于高分辨率蛋白质电子密度图的解释(Oldfield,2002【Oldfield,T.J.(2002),《水晶学报》,D58,963-967。】). 电子密度图的解释通过电子密度的拓扑分析在解释过程中还调用了其他拓扑特征,如凹坑和鞍点(Leherte等。, 1997【Leherte,L.,Glasgow,J.I.,Baxter,K.,Steeg,E.&Fortier,S.(1997),《科学研究杂志》第7期,第125-159页。】; Menéndez-Velázquez和García-Granda,2003年[Menéndez Velázquez,A.和GarcíA-Granda,S.(2003)。《应用晶体》杂志,第36193-205页。]). 虽然这三种方法都有各自的优点,但我们选择基于距离矩阵研究配体构建技术,因为它们与ARP协议/弯曲此外,与基于扭转角的方法相比,距离矩阵方法可以更直接地构建构建部分无序配体的算法。

虽然在电子密度中构建配体结构与在重复肽基序基础上构建蛋白质似乎是不同的问题(Lamzin&Wilson,1997[Lamzin,V.&Wilson,K.(1997),《酶学方法》,第277、269-305页。])可以看出,基本原则基于相同的概念(Bart&Busetti,1976【Bart,J.C.J.和Busetti,A.(1976),《结晶学报》,A32,927-933。】).

在晶体学中限制精炼,通过改变原子位置来优化以下函数{x个}:

[{\rm LL}(\{{\bf x}\})=\ln[f({\rm-chemical}\,\,{\rm-sense}|\{\bf-x}\{)]+\textstyle\sum\limits_{\bf-h}\ln[f(f^{\rm-obs}_{\bf-h}|\}{\bv-x})]。\等式(1)]

这个(f)([F^{\rm obs}_{\bf h}]|{x个})(1)中的术语[链接]在给定原子位置估计集的情况下,对X射线数据的概率分布进行建模{x个}.(f)(化学感|{x个})表示系统立体化学的先验知识。在蛋白质晶体学中,该表达式通常由一组高斯分布的乘积建模,这些高斯分布以几何特征(例如距离和角度)的“理想”值为中心。什么时候?(f)([F^{\rm obs}_{\bf h}]|{x个})也通过高斯模型进行建模,(1)[链接]结果为标准最小二乘精细化。建模(1)的X射线部分[链接]通过水稻分配最大似然 精炼(Pannu&Read,1996年【Pannu,N.S.和Read,R.J.(1996),《水晶学报》A52659-668。】; 布里科涅,1997年【Bricogne,G.(1997年a)。《酶学方法》,276,361-423。】; 穆尔舒多夫等。, 1997【Murshudov,G.N.,Vagin,A.A.&Dodson,E.J.(1997),《结晶学报》D53,240-255。】).

我们采用的配体构建方法与所描述的精炼例子。然而,为了优化总对数似然(LL),我们没有改变位置参数,而是将它们保持不变,并修改以原子标记集形式表示的解释以优化(1)[链接]此外,尽管我们通过独立对数概率的(加权)和对先验分布进行建模,但单个概率密度函数并不具有高斯形式。与(1)中振幅部分的情况一样[链接],我们的化学感觉先验可以根据一个合适的位置参数误差模型推导出来。解释的立体化学质量是通过几何特征的模型分布来衡量的,但与X射线数据的对应关系是以一种更简单的方式来解释的。原子的可能性已通过密度高度的单调递增函数建模,以推动对高电子密度的解释。由于所开发函数中的近似值,我们将使用通用术语评分函数,而不是对数似然函数。

从广泛的各种拓扑和几何描述符中,我们只使用来自键合原子(1-2距离)、键合角(1-3距离)、手性原子和范德瓦尔斯排斥。尽管有大量其他信息来源,如平面度约束,顺式反式规范、可能的分子内氢键模式和特定扭转角的不利组合被忽略,几何描述符的数量与电子密度相结合,可以获得配体位置、取向和构象的适当估计。

2.方法

开发了以下原型程序,用于自动构建剩余电子密度中的配体。首先,对大分子模型的蛋白质部分进行手动或自动的侧链和/或主链构象重塑,以克服配体诱导的非同构。然后利用这种结构获得相位和优值以及相应的差异电子密度图。然后构造一个正交网格,从中选择可能属于配体的点。利用配体分子的几何特征建立配体原子位置参数的误差模型。设计用于优化构建的评分函数的搜索算法会将配体原子名称分配给网格点。获得了几何化配体,随后受到约束精炼配体-蛋白质复合物的使用REFMAC公司5(穆尔舒多夫等。, 1997【Murshudov,G.N.,Vagin,A.A.&Dodson,E.J.(1997),《结晶学报》D53,240-255。】). 如果存在其他配体,可以重复该过程来定位它们。

2.2. 原子生成试验

含有配体的差分电子密度图由最小间距的正交网格参数化d日网格在两个网格点之间。d日网格设置为0.5º,这与所使用的误差模型有关,如§[链接]2.3. 正交网格的构建方式是覆盖整个大分子,并添加适当大小的边界。晶体学对称性在此阶段被忽略。每个网格点都与三个参数相关联:密度高度、占用率和簇数。密度高度是指单位单元格。占用率为0或1,并确定网格点是否用于试探原子生成。簇号将网格点集划分为簇,其中元素是路径连接的。

如果网格点的电子密度值高于某个阈值,则选择网格点ρ三个使用与众所周知的骨架化程序相关的方法对选定的网格点进行聚类(Greer,1974[Greer,J.(1974),分子生物学杂志,82279-301]; 斯旺森,1994【Swanson,S.M.(1994),《结晶学报》,D50,695-708。】).

  • (i) 设置关联密度高度大于的所有栅格点的占用率ρ三个等于1;将所有网格点的簇数设置为0。

  • (ii))移动到占用率为1的下一个栅格点,该栅格点的相邻栅格点的占用率为零。

  • (ii)b条)标记此网格点,表示“要删除”,除非它只有占用率为0的邻居或标记为要删除的邻居,或者如果删除此网格点会断开相邻网格点的连接。

  • (iii)转至(ii))直到访问了所有网格点。

  • (iv)将“待移除”网格点的占用率设置为0;转到(ii))直到没有进一步的变化发生。

  • (v) 为具有非零占用率的每个栅格点指定不同的簇号。

该算法称为约束侵蚀(Heijmans,1992【Heijmans,H.J.A.M.(1992),《威斯克大学新建筑》(4),第10期,第237-276页。】),提供了许多孤立的网格点。可以表明,在步骤(ii)中给定邻域的定义的情况下,剩余的网格点还没有被路径连接。在本实施方式中,当两个网格点的距离小于或等于3时,将其定义为邻居1/2d日网格.

该算法的逆运算,测地线重建(Heijmans,1992【Heijmans,H.J.A.M.(1992),《威斯克大学新建筑》(4),第10期,第237-276页。】),已应用。

  • (i) 初始化C类到0。

  • (ii)C类=C类+ 1

  • (iii)移动到下一个网格点,占用率等于1,集群数量等于C类.

  • (iv)选择相关密度高度大于ρ三个; 将簇号和占用率设置为C类和1。

  • (v) 转至(iii),直到不再发生变化。

  • (vi)转至(ii),直到所有集群都构建完成。

可以构造其他算法,以类似的方式执行聚类。

在一个连接簇中分组的网格点的数量与作为可能的信噪比分类器的差密度簇的体积有关。在实际实现中,将最大的簇分配给要构建的配体,或者在多个配体的情况下,将按体积排序的簇列表与按大小排序的配体列表相匹配。

密度阈值ρ三个在聚类算法中使用的是根据获得的簇的大小进行选择的。

为了进一步减少网格点的数量,执行了另一个类似于约束侵蚀的选择过程。

  • (i) 移动到密度和占用率最高的网格点1。

  • (ii)选择距离为d日ρ并将其占用率设置为0。

  • (iii)转至(i)直至收敛。

由于电子密度的高度与原子的接近程度相关,因此此过程更有可能保留靠近配体原子位置的网格点。选择半径d日ρ应反映所寻求的配体中存在的键距以及网格间距的选择d日网格.设置d日ρ若网格间距为0.5º,则计算结果为1.3º。基于网格的选择过程对原子周围电子密度的形状或拓扑特性不敏感,但存在产生大量初始试原子过剩的缺点。

2.3. 距离的分布

如上所述,在设计评分函数时需要配体几何特征的误差模型。试验原子的位置参数并不像自由原子模型中假设的那样连续分布(Zwart&Lamzin,2003【Zwart,P.H.&Lamzin,V.S.(2003),《结晶学报》,第59期,第2104-2113页。】, 2004【Zwart,P.H.&Lamzin,V.S.(2004),《结晶学报》,D60,220-226。】)但遵循离散的所谓晶格分布(Abramovicz&Stegun,1974[Abramovicz,M.&Stegun,I.A.(1974),《数学函数手册》,纽约:多佛出版公司]; 布里科涅,1974年【布里科涅·G(Bricogne,G.)(1974),《水晶学报》,A30,395-405。】). 我们假设,最好的解释是将配体原子映射到网格上最近的邻居。因此,提出的位置参数误差模型包括将“真”配体原子的位置参数舍入到网格的位置参数。可以得到四舍五入后原子间距的分布通过模拟。使用拒绝抽样法对分布在球体上的点进行抽样;附录中概述了算法A类[链接]也可以考虑包含给定原子间距离的任何不确定性或“自然扩散”。

图1显示了原子间距离为1.5º、正交网格间距为0.5º和0.8º的经验分布(明显非高斯分布)[链接]选择0.5º的网格间距是为了防止键合(非H)原子的位置参数四舍五入到相同的网格点。此外,0.5º网格间距确保“真正的”配体原子与最近网格点的距离小于或等于31/2× 0.5/2 = 0.43 Å. 这是一个位置误差,应在约束细化配体的程序。

[图1]
图1
在给定理想距离1.5º和网格间距0.5º和0.8º的情况下,网格上的距离分布。

2.4. 手性的分布

这个手性手性原子之间原子间矢量的标量三重积的符号定义了原子的j个和三个保税邻居k个,

[C_j={\rm符号}[{\bf-d}_{jk}\cdot({\bf d}{jl}\times{\bfd-}{jm})]。\等式(2)]

d日jx公司表示手性原子之间的矢量j个和邻近的原子x个键合原子的顺序取决于输入配体结构中的出现顺序,而不是标准优先规则,因为它只需要有一个内部标准。

The distribution of手性原子的结构与距离分布的结构类似。手性原子及其键合邻居被随机定向并放置在网格上。随机定向的产生是通过从四维单位球上均匀分布的点中采样来实现的。这四个数字可以被认为是一个四元数,并用于重新定向所考虑的碎片(附录A类[链接]). 将位置参数舍入到最近的栅格点后手性已重新计算。手性体积符号的分布示例如图2所示[链接].

[图2]
图2
手性体积2.77º符号的条件分布网格间距为0.5º。

2.5. 排斥

分子碎片内部几何形状的另一个信息来源是范德瓦尔斯排斥。排斥项模拟了我们的先验知识,即1-n个距离,使用n个大于3的平均距离大于1-3的平均距离。排斥术语防止皱巴巴的试验分配被识别为可能的分子片段。所使用的排斥项具有以下形式:

[W(d|a,b)=\textstyle{{1}\over{2}}\{1+\tanh[(d-a)b]\}。\等式(3)]

通过改变b条,可以修改拐点的位置和斥力函数的形状,如图3所示[链接]。从概率的观点来看,这个函数可以被视为不恰当的先验(Bernardo&Smith,2000【Bernardo,J.M.和Smith,A.F.M.(2000)。贝叶斯理论。纽约:威利出版社。】)在1上-n个(n个>3)距离,尽管其作用应更多地视为激活函数(Bishop,1995【Bishop,C.M.(1995)。模式识别的神经网络。牛津大学出版社。】)其对数形式仅对短非键相互作用中涉及的原子间距离给出惩罚。

[图3]
图3
排斥功能W公司(d日|,b条)具有多种位置参数选择和形状参数b条.

2.6。电子密度

实验信息的最基本来源之一是不同电子密度的高度。配体分子由选定的网格点构成,这些网格点不仅满足上述立体化学标准,而且具有尽可能高的密度。所使用的单调评分函数与描述范德瓦尔斯斥力的函数类似,

[W(\rho|s)={{1}\over{2}}\left[1+\tanh\left({{2}\over{s}}\rho-2\right)\right],\eqno(4)]

哪里是所选网格点簇的平均电子密度,以及ρ是每个网格点的电子密度值。

2.7. 搜索和评分

通过假设1-2个距离位于1.1和1.9Å之间,构建了已知配体的图。网格表示的图形可以以类似的方式构建。通过使用§[链接]2.3.

搜索过程从生成一组部分解释开始,通过将给定配体原子的标签指定给可用簇内的每个网格点。然后通过添加一个固定配体标签来扩展这些部分解释。根据构建的试验原子图生成展开,考虑到理想配体图、试验原子图和可用的部分解释所指示的约束。每个扩展的解释都会计分,但只有N个商店存储分数最高的部分解释。当尝试了所有可能的单原子展开后,存储的部分解释将用于进一步展开,直到配体完成。搜索过程如图4所示[链接]我们将配体的特定原子分配给网格点的顺序表示为展开顺序。默认情况下,要指定的第一个原子是具有最大数量的键合相邻原子的原子。其他原子“附加”到部分解释的顺序取决于添加该原子所获得的几何信息量。上可用的几何信息量越大局部结构,越容易将其识别为正确的片段。因此,原子被添加到局部结构按照在随后生成的结构中提供最大预期信息量的顺序。从概念上讲,该程序应尽量减少正确解释超出N个商店最佳局部解释。

[图4]
图4
搜索过程的流程图。详见正文。

部分解释评分如下:

[\eqaligno{Q({\rm grid}|{\rm-ligand})&=w_{\rm-priorial}\textstyle\sum\limits_m\ln[P_{\rma-prioril}(d^{\rm-obs}_m|d^{\ rm-tar}_m)]\cr&\quad+w_{\ rm-c}\texttyle\sum\simits_n\ln[P_c limits_o\ln[w(d_{o}^{rm obs}|a,b)]\cr&\quad+w_{rm dens}\textstyle\sum\limits_j\ln[W(\rho_j|s)]&(5)}]

P(P)先前的([d^{\rm obs}_m|d^{\rm tar}_m])表示给定指定目标距离的观测距离的概率。P(P)C类([C_n^{\rm obs}|C_n^{\ rm tar}])给出了观测到的概率手性给定目标手性。这些分布如§[链接]2.3和§[链接]2.4.W公司(d日o个光突发事件|b条)表示§[链接]2.5. 这个W公司(ρj个|)术语解释了密度值。乘数w个先前的,w个c(c),w个代表w个洞穴是四个功能贡献的相对权重。

全局优化算法,如模拟退火(Kirkpatrick等。, 1983【Kirkpatrick,S.、Gelatt,C.D.和Vecchi,M.P.(1983),《科学》,第220、671-680页。】)和交叉熵方法(Rubinstein,1999[Rubinstein,R.(1999)。方法计算应用问题1,127-190。])已尝试作为概述的优化过程的替代方案,但在随机搜索过程中,似乎难以合并搜索图和目标图的连接性矩阵所指示的几何约束。然而,这些算法的初步实现确实取得了成功,但需要更长的时间和微调参数才能收敛到正确的解。

2.8. 几何尺寸化

一旦网格点被分配给配体原子,配体模型就适合于密度,并使用1-2和1-3距离约束进行几何化。键合距离和角键合距离的目标偏差分别设置为0.02Å和0.04Å。最小二乘法最小化是使用正规矩阵的一阶导数和对角近似来实现的,其公式类似于阿加瓦尔(1978)所描述的公式【阿加瓦尔·R(1978),《水晶学报》,A34,791-809。】).

3.结果

使用从PDB(Bernstein)获得的数据对中等大小的配体进行了许多测试等。, 1977[Bernstein,F.C.,Koetzle,T.F.,Williams,G.J.B.,Meyer,E.F.Jr,Brice,M.D.,Rodgers,J.R.,Kennard,O.,Shimanouchi,T.&Tasumi,M.(1977),《分子生物学杂志》,第112期,第535-542页。]; 伯曼等。2000年[Berman,H.M.、Westbrook,J.、Feng,Z.、Gilliland,G.、Bhat,T.N.、Weissig,H.、Shindyalov,I.和Bourne,P.E.(2000)。核酸研究28,235-242。]). 参数b条在(3)中[链接]分别设置为2.5和2.0。重量w个先前的,w个c(c),w个代表w个洞穴分别设置为0.7、10、12和6。通过用计算出的距离极限(§[链接]2.7). 每个膨胀循环中存储的部分结构的最大数量是试验原子组中观察到的假定1-2个相邻原子数量的五倍。表1总结了所用结构和X射线数据集的特征[链接]。除非另有说明,否则该过程已使用指定的参数运行。根据§[链接]2.1. 默认情况下,得分最高的解释用于验证程序。所有测试结构的结果也总结在表1中[链接]以下各小节中给出了每种情况下建筑物的详细说明。

表1
数据集特征

PDB代码 d日最小值(Å) B类威尔逊2) 配体 B类配体2) 非H原子 相对标准偏差。(Å) 用于G4 Mac OSX的CPU 1 GHz(最小)
1个ee2 1.5 15 NADH公司 11 44 0.09 27
      胆酸 16 29 0.09 5
1个对象 1.4 14 列车自动防护系统 23 31 0.07 7
      放大器 32 23 § §
1月2日 2.2 38 丙脒 34 23 § 7
1a28号 1.8 24 孕酮 25 23 0.17 2
1立方厘米 1.8 13 维甲酸 13 22 0.22 2
1ld8(1ld8) 1.8 18 FDP公司 17 24 § 12
      IC49系列†† 19 33 0.28 10
      蔗糖 31 23 § §
1确定4 2.1 19 DHAP公司‡‡ 17 9 0.30 5
†平均B类配体原子的值。
之后沉积结构的根-平方位移约束细化蛋白质-配体复合物。
§见正文。
¶法尼基二磷酸。
††抑制剂化合物49。
磷酸二羟基丙酮

3.1. 胆酸和NADH

SS-LADH(PDB码)的X射线数据和二聚体原子模型1个ee2; 阿道夫等。2000年【Adolph,H.-W.,Zwart,P.,Meijers,R.,Hubatsch,I.,Kiefer,M.,Lamzin,V.S.&Cedergren-Zeppezauer,E.(2000).生物化学,39,12885-12897.】)含有两个胆酸分子、两个NADH分子、2×374个残基和大约1000个水分子。从刚体获得的相位精炼结构的蛋白质部分被用作构建胆酸和NADH的起点。簇结构揭示了四个相连密度的簇,其体积大于80º.体积约为150Ω的簇被解释为NADH和体积约为85º的簇作为可能的胆酸。图5[链接]显示了放置的网格原子和之后的模型的初始差异密度精炼具有REFMAC公司其中一个胆酸簇为5。几何化后,所建模型相对于沉积模型的均方根位移(rm.s.d.)为0.30º,几何化后为0.09º约束细化蛋白质-配体复合物REFMAC公司5

[图5]
图5
胆酸的试验原子(左)和精细解释(右)()和NADH(b条)在原始差异密度中。

NADH的建造产生了一个从沉积坐标(图5)得出的r.m.s.d.为0.11º的结构[链接]). 为了防止算法在构建的早期阶段放弃正确的部分解释,迭代扩展期间存储的部分扩展数必须从默认值增加四倍。

3.2. ATP和AMP

赛卡合成酶的原子模型(PDB代码1个对象; 列夫迪科夫等。, 1998[Levdikov,V.M.,Barynin,V.V.,Grebenko,A.I.,Melik-Adamyan,W.R.,Lamzin,V.S.&Wilson,K.S.(1998).结构,6,363-376.])包含AMP和ATP。由于不同电子密度中存在相对较大的噪声,所述的聚类过程无法在合理的时间内确定配体的位置。因此,在聚类选择和分配中使用了ATP和AMP的位置。建筑及其后续精炼ATP导致结构匹配沉积坐标(r.m.s.d.=0.09 Au;图6[链接]). 由于磷酸盐和糖部分的密度不明确/不存在差异,AMP的构建不成功。沉积AMP结构的占用率为0.5。沉积结构因子的Wilson图和X射线数据的完整性分析表明,约15%的分辨率为3.0º左右的最强反射缺失。这可能是相对嘈杂的差异图和随后AMP建造失败的原因。

[图6]
图6
ATP试验原子密度差(),在原始差异密度中进行精细解释(b条)以及之后的密度精炼(c(c)).

3.3. 丙脒

丙脒分子在双链DNA结构(PDB码)中的位置1月2日; 施瓦岑巴赫等。, 2004【Schwarzenbacher,R.等人(2004)。蛋白质,54,174-177。】)已经使用所描述的使用来自刚体的相位的聚类算法的默认参数来确定精炼原子模型的非配体部分。差异密度的解释及后续精炼导致配体的位置与沉积结构相比具有不同的构象(图7[链接]). 在同一图中,显示了最佳的六种几何解释。部分丙脒分子相对较弱的密度可能解释了沉积模型和自动构建模型之间的差异。

[图7]
图7
丙脒密度的前6种解释(). 最佳解释(浅灰色)和沉积构造(深灰色)如所示(b条).

3.4. 孕酮

类固醇在人类孕酮受体中的位置(PDB代码1a28号; Williams&Sigler,1998年【Williams,S.P.&Sigler,P.B.(1998),《自然》(伦敦),393,392-396。】)使用默认参数定位。建造和沉积的模型在酮基团的方向上不同(图8[链接]). 与存款相符的解释晶体结构得分稍低,但显示出比翻转酮组更有利的蛋白质接触。我们的评分功能目前没有考虑这些交互作用。根据沉积坐标建立和改进模型的r.m.s.d.为0.17°。翻转酮基团的加入使r.m.s.d.增加到0.29º。

[图8]
图8
试验位置的差异密度(),非几何解释(b条)孕酮的沉积结构(c(c)). * 表示酮氧在解释和沉积结构中的位置不同。

3.5. 维甲酸

维甲酸转运蛋白(PDB编码)不同电子密度中的维甲酸1磅; 克莱维特等。, 1994【Kleywegt,G.J.,Bergfors,T.,Senn,H.,Le Motte,P.,Gsell,B.,Shudo,K.&Jones,T.A.(1994),结构,21241-258。】)使用默认参数进行定位和构建(图9[链接]). 构建模型与沉积模型的相对标准偏差为0.22Ω。

[图9]
图9
试验位置的差异密度()维甲酸的精细解释(b条).

3.6. 法尼基二磷酸(FDP)、抑制剂化合物49(IC49)和蔗糖

配体FDP、IC49和蔗糖在人法尼斯基转移酶差异密度中的位置(PDB编码1磅8; 莱希等。, 1992[Leahy,D.J.,Axel,R.&Hendrickson,W.A.(1992)。《细胞》,第68期,第1145-1162页。])执行如下。根据簇体积,将最大的三个不同密度簇分配给各个配体。一旦构建了一个配体,蛋白质-配体复合物就被重新定义,随后使用新的密度图构建其余的配体。由于配体的大小,中间部分解释的数量增加了两倍。尽管IC49的制造和精炼的r.m.s.d.为0.28 Au,但FDP是在顺式而不是反式与沉积结构相比的构象(图10[链接]). 制造蔗糖的尝试在各种环境下都失败了。这是因为配体具有高度的表观对称性,导致解释过程很可能无法保持正确局部结构每次迭代后都收敛到假极小值。

[图10]
图10
IC49的差异密度和精细解释()以及解释和沉积FDP模型的叠加(b条). * 标记FDP的错误构建部分。

3.7. 磷酸二羟基丙酮(DHAP)

DHAP分子在醛缩酶结构差异图中的位置(PDB代码1确定4; 洛伦岑等。, 2003【Lorentzen,E.,Pohl,E.,Zwart,P.,Stark,A.,Russell,R.,Knura,T.,Hensel,R.&Siebers,B.(2003),《生物化学杂志》278,47253-47260。】)使用围绕已知配体结合的残基的聚类算法确定先验的精细解释如图11所示[链接]由于DHAP与蛋白质共价结合,蛋白质与配体的相互作用将使解释更容易。

[图11]
图11
试验位置的差异密度()以及覆盖在正确的二羟丙酮-磷酸盐模型上的精细解释(b条).

4.讨论和结论

距离分布的建模通过在基于网格的建模例程中,格分布的边缘化被证明是建模先前几何知识的一个适当工具。得到的近似分布可以很快得到通过蒙特卡洛模拟。相对复数的近似分布,例如原子手征体积的符号分布,也可以通过直接的模拟获得。必须注意的是,所构建的关于位置参数的误差模型是近似的。原子间距离不是独立的,原则上应该考虑相互关系。如果能够实现有效的方法来存储和处理几何特征的多维分布,则可以尝试获得所有几何特征在整个搜索分子中的联合概率分布。此外,设计用于消除低密度原子的网格点选择算法会影响网格点之间可能的距离集。这组距离的分布可能与模拟中构建的分布不同,可能取决于簇内密度高度的空间分布。然而,事实证明,所设计的分类器足以识别正确的解决方案。处理可用的先验知识也存在类似的情况,这些先验知识仅限于1-2和1-3距离、手征和排斥。即使有了有限的信息量,人们也能够识别不同密度的复杂模型。其他信息,如平面度限制、之前的1-4距离分布和配体-蛋白质相互作用,很可能会提高识别过程的性能。

网格上构建的模型距离其正确位置足够近REFMAC公司5能够直接精炼蛋白质-配体复合物。将几何化与电子密度的真实空间拟合相结合,进一步增强了解释过程。

从黄体酮实例和DHAP实例中可以看出,在一定程度上,内部配体几何信息本身并不总是足以解释差异密度。将蛋白质-配体接触纳入决策过程将有助于解决可能的歧义,防止蛋白质和配体原子之间的化学不合理接触,并可能限制搜索空间。类似的方法也适用于构建具有内部重复的结构,例如糖基化位点。如果在初始阶段可以安装糖骨架,则可以使用现有零件上的约束装置进行(碳)氧基团的后续放置。理想情况下,构建过程应该能够自动识别这些模块,并使用它们来提高识别过程的速度和性能。

该搜索算法能够基于所提出的评分函数构建不同电子密度的配体。目前该软件的一个限制可能是其速度:大多数配体在大约10分钟内生成,而ATP需要15分钟,NADH大约需要半小时。在未来的实现中,构建算法将针对CPU效率进行优化。未来发展的一个重要部分将是实现高效机制,以决定是否将一个原子或一组原子添加到可用的局部结构结果更好地描述了观察到的不同电子密度。这将进一步促进该过程,也可以构建部分无序配体,如§[链接]3.2,自动执行。

所描述的配体构建例程已并入6.1版的ARP/wARP套房于2004年7月推出。

附录A

球体和超球体点拾取

使用Marsagalia(1972)开发的方法对单位半径球体上的点进行均匀采样【Marsaglia,G.(1972),《数学年鉴》第43卷,第645-646页。】)包括对两个随机数进行采样,A类B类,在(−1,1)上独立均匀分布。成对的(A类B类)对于其中A类2+B类2<1可用于构造向量(x个z(z))均匀分布在球体上,

[\eqalignno{x&=2A(1-A^2-B^2)^{1/2},&(6)\cr y&=2B(1-A^2-B^2)^{1/2},&(7)\cr z&=1-2(A^2+B^2)。&(8)}]

采样点(0,1,2,)在单位半径的四维球体上也可以用类似的方法进行。四个随机数(A类B类C类D类)独立于(−1,1)上的均匀分布绘制。配对的随机数(A类B类)和(C类D类)满足A类2+B类2<1和C类2+D类2<1用于以下转换

[\eqaligno{a_0&=a,&(9)\cra_1&=B,&(10)\crA_2&=C\左({{1-a^2-B^2}\上{C^2+D^2}}\右),&

向量(0,1,2,)然后均匀分布在半径为1的四维球体上。该矢量可以被认为是四元数,

[{\bf q}=a0+a1i+a2j+a3k\eqno(13)]

并可用于重新定位分子片段(Weisstein,1999[Weisstein,E.(1999),《CRC简明数学百科全书》,纽约:查普曼和霍尔/CRC出版社。]). 基于旋转组对应的更有效采样方法SO公司(3) 四维球体在别处也有描述,例如布里科涅(1997)b条【Bricogne,G.(1997年b)。《酶学方法》,2764249。】).

脚注

现住址:美国伊利诺伊州阿贡市阿贡国家实验室生物系SAIC-Frederick。

致谢

作者感谢R.J.Morris和A.Perrakis激发了讨论。PHZ感谢K.Cowtan帮助使用Clipper图书馆和EMBL获得博士奖学金。

工具书类

第一次引用Abramovicz,M.和Stegun,I.A.(1974年)。数学函数手册。纽约:多佛出版公司谷歌学者
第一次引用Adolph,H.-W.、Zwart,P.、Meijers,R.、Hubatsch,I.、Kiefer,M.、Lamzin,V.S.和Cedergren-Zeppezauer,E.(2000年)。生物化学,39, 12885–12897. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Agarwal,R.(1978年)。《水晶学报》。A类34, 791–809. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用Altomare,A.、Giacovazzo,C.、Ianigro,M.、Moliterni,A.G.和Rizzi,R.(2002)。J.应用。克里斯特。 35, 21–27. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Badger,J.(2003)。《水晶学报》。D类59, 823–827. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Bart,J.C.J.和Busetti,A.(1976年)。《水晶学报》。A类32,927–933交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用Berman,H.M.、Westbrook,J.、Feng,Z.、Gilliland,G.、Bhat,T.N.、Weissig,H.、Shindyalov,I.和Bourne,P.E.(2000)。核酸研究。 28, 235–242. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Bernardo,J.M.和Smith,A.F.M.(2000)。贝叶斯理论。纽约:Wiley。 谷歌学者
第一次引用Bernstein,F.C.,Koetzle,T.F.,Williams,G.J.B.,Meyer,E.F.Jr,Brice,M.D.,Rodgers,J.R.,Kennard,O.,Shimanouchi,T.&Tasumi,M.(1977年)。分子生物学杂志。 112, 535–542. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Bishop,C.M.(1995年)。模式识别的神经网络。牛津大学出版社。 谷歌学者
第一次引用Bricogne,G.(1974年)。《水晶学报》。A类30, 395–405. 交叉参考 科学网 IUCr日志 谷歌学者
第一次引用Bricogne,G.(1997年)).方法酶制剂。 276,361–423交叉参考 中国科学院 科学网 谷歌学者
第一次引用Bricogne,G.(1997年)b条).方法酶制剂。 276, 424–449. 交叉参考 中国科学院 科学网 谷歌学者
第一次引用Brunzelle,J.S.、Shafaee,P.、Yang,X.、Weigand,S.、Ren,Z.和Anderson,W.F.(2003)。《水晶学报》。D类59, 1138–1144. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Cascarano,G.、Giacovazzo,C.、Camalli,M.、Spagna,R.和Watkin,D.J。(1991).《水晶学报》。A类47, 373–381. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用协作计算项目,第4期(1994年)。《水晶学报》。D类50, 760–763. 交叉参考 IUCr日志 谷歌学者
第一次引用Diller,D.、Pohl,E.、Redinbo,M.、Hovey,B.和Hol,W.(1999)。蛋白质,36, 512–525. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Greer,J.(1974)。分子生物学杂志。 82, 279–301. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Heijmans,H.J.A.M.(1992年)。Nieuw拱门。威斯克。(4),10, 237–276. 谷歌学者
第一次引用Kirkpatrick,S.、Gelatt,C.D.和Vecchi,M.P.(1983年)。科学,220, 671–680. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Kleywegt,G.J.,Bergfors,T.,Senn,H.,Le Motte,P.,Gsell,B.,Shudo,K.&Jones,T.A.(1994)。结构,2, 1241–1258. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Koch,M.H.J.(1974年)。《水晶学报》。A类30, 67–70. 交叉参考 IUCr日志 科学网 谷歌学者
第一次引用Lamzin,V.&Wilson,K.(1997年)。方法酶制剂。 277, 269–305. 交叉参考 公共医学 中国科学院 科学网 谷歌学者
第一次引用Leahy,D.J.、Axel,R.和Hendrickson,W.A.(1992年)。单元格,68, 1145–1162. 交叉参考 公共医学 中国科学院 科学网 谷歌学者
第一次引用Leherte,L.、Glasgow,J.I.、Baxter,K.、Steeg,E.和Fortier,S.(1997年)。J.阿蒂夫。智力。物件。 7,125–159谷歌学者
第一次引用Levdikov,V.M.、Barynin,V.V.、Grebenko,A.I.、Melik Adamyan,W.R.、。,Lamzin,V.S.&Wilson,K.S.(1998年)。结构,6, 363–376. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用莱维特·D·G(2001)。《水晶学报》。D类57, 1013–1019. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Lorentzen,E.、Pohl,E.、Zwart,P.、Stark,A.、Russell,R.、Knura,T.、Hensel,R.和Siebers,B.(2003)。生物学杂志。化学。 278, 47253–47260. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Main,P.&Hull,S.E.(1978年)。《水晶学报》。A类34, 353–361. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用Marsaglia,G.(1972年)。安。数学。斯达。 43, 645–646. 交叉参考 科学网 谷歌学者
第一次引用Menéndez-Velázquez,A.&GarcíA-Granda,S.(2003)。J.应用。克里斯特。 36,193–205科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Murshudov,G.N.、Vagin,A.A.和Dodson,E.J.(1997)。《水晶学报》。D类53, 240–255. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Nienaber,V.L.、Richardson,P.L.,Klighofer,V.、Bouska,J.J.、Giranda,V.L和Greer,J.(2000)。自然生物技术。 18, 1105–1108. 科学网 交叉参考 中国科学院 谷歌学者
第一次引用Oldfield,T.J.(2001)).《水晶学报》。D类57, 82–94. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Oldfield,T.J.(2001)b条).《水晶学报》。D类57, 696–705. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Oldfield,T.J.(2002)。《水晶学报》。D类58, 963–967. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Pannu,N.S.和Read,R.J.(1996年)。《水晶学报》。A类52, 659–668. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Perrakis,A.、Morris,R.J.和Lamzin,V.S.(1999)。自然结构。生物。 6, 458–463. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Rubinstein,R.(1999)。方法计算。申请。探针。 1, 127–190. 交叉参考 谷歌学者
第一次引用施瓦岑巴赫,R。等。(2004).蛋白质,54, 174–177. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Sharff,A.和Jhoti,H.(2003)。货币。操作。化学。生物。 7, 340–345. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Swanson,S.M.(1994)。《水晶学报》。D类50, 695–708. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Terwilliger,T.C.(2003)。《水晶学报》。D类59, 38–44. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Vagin,A.、Murshudov,G.、Dodson,E.、Henrick,K.、Richelle,J.和Wodak,S.(2003)。MONLIB,一本多用途大分子词典。未发布的结果。 谷歌学者
第一次引用Weisstein,E.(1999)。CRC简明数学百科全书。纽约:查普曼和霍尔/CRC出版社。 谷歌学者
第一次引用Williams,S.P.和Sigler,P.B.(1998年)。自然(伦敦),393,392–396页科学网 中国科学院 公共医学 谷歌学者
第一次引用Zwart,P.H.和Lamzin,V.S.(2003年)。《水晶学报》。D类59, 2104–2113. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Zwart,P.H.和Lamzin,V.S.(2004)。《水晶学报》。D类60, 220–226. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者

©国际结晶学联合会。如果引用了原文作者和来源,则无需事先获得许可即可复制本文中的简短引文、表格和数字。有关详细信息,请单击在这里.

期刊徽标生物
结晶学
国际标准编号:1399-0047