2.方法
开发了以下原型程序,用于自动构建剩余电子密度中的配体。首先,对大分子模型的蛋白质部分进行手动或自动的侧链和/或主链构象重塑,以克服配体诱导的非同构。然后利用这种结构获得相位和优值以及相应的差异电子密度图。然后构造一个正交网格,从中选择可能属于配体的点。利用配体分子的几何特征建立配体原子位置参数的误差模型。设计用于优化构建的评分函数的搜索算法会将配体原子名称分配给网格点。获得了几何化配体,随后受到约束精炼配体-蛋白质复合物的使用REFMAC公司5(穆尔舒多夫等。, 1997). 如果存在其他配体,可以重复该过程来定位它们。
2.2. 原子生成试验
含有配体的差分电子密度图由最小间距的正交网格参数化d日网格在两个网格点之间。d日网格设置为0.5º,这与所使用的误差模型有关,如§2.3. 正交网格的构建方式是覆盖整个大分子,并添加适当大小的边界。晶体学对称性在此阶段被忽略。每个网格点都与三个参数相关联:密度高度、占用率和簇数。密度高度是指单位单元格。占用率为0或1,并确定网格点是否用于试探原子生成。簇号将网格点集划分为簇,其中元素是路径连接的。
如果网格点的电子密度值高于某个阈值,则选择网格点ρ三个使用与众所周知的骨架化程序相关的方法对选定的网格点进行聚类(Greer,1974; 斯旺森,1994).
(i) 设置关联密度高度大于的所有栅格点的占用率ρ三个等于1;将所有网格点的簇数设置为0。 (ii)一)移动到占用率为1的下一个栅格点,该栅格点的相邻栅格点的占用率为零。 (ii)b条)标记此网格点,表示“要删除”,除非它只有占用率为0的邻居或标记为要删除的邻居,或者如果删除此网格点会断开相邻网格点的连接。 (iii)转至(ii)一)直到访问了所有网格点。 (iv)将“待移除”网格点的占用率设置为0;转到(ii)一)直到没有进一步的变化发生。 (v) 为具有非零占用率的每个栅格点指定不同的簇号。
|
该算法称为约束侵蚀(Heijmans,1992),提供了许多孤立的网格点。可以表明,在步骤(ii)中给定邻域的定义的情况下,剩余的网格点还没有被路径连接。在本实施方式中,当两个网格点的距离小于或等于3时,将其定义为邻居1/2d日网格.该算法的逆运算,测地线重建(Heijmans,1992),已应用。
可以构造其他算法,以类似的方式执行聚类。
在一个连接簇中分组的网格点的数量与作为可能的信噪比分类器的差密度簇的体积有关。在实际实现中,将最大的簇分配给要构建的配体,或者在多个配体的情况下,将按体积排序的簇列表与按大小排序的配体列表相匹配。
密度阈值ρ三个在聚类算法中使用的是根据获得的簇的大小进行选择的。
为了进一步减少网格点的数量,执行了另一个类似于约束侵蚀的选择过程。
(i) 移动到密度和占用率最高的网格点1。 (ii)选择距离为d日ρ并将其占用率设置为0。 (iii)转至(i)直至收敛。
|
由于电子密度的高度与原子的接近程度相关,因此此过程更有可能保留靠近配体原子位置的网格点。选择半径d日ρ应反映所寻求的配体中存在的键距以及网格间距的选择d日网格.设置d日ρ若网格间距为0.5º,则计算结果为1.3º。基于网格的选择过程对原子周围电子密度的形状或拓扑特性不敏感,但存在产生大量初始试原子过剩的缺点。
2.4. 手性的分布
这个手性手性原子之间原子间矢量的标量三重积的符号定义了原子的j个和三个保税邻居k个, 我和米,
d日jx公司表示手性原子之间的矢量j个和邻近的原子x个键合原子的顺序取决于输入配体结构中的出现顺序,而不是标准优先规则,因为它只需要有一个内部标准。
The distribution of手性原子的结构与距离分布的结构类似。手性原子及其键合邻居被随机定向并放置在网格上。随机定向的产生是通过从四维单位球上均匀分布的点中采样来实现的。这四个数字可以被认为是一个四元数,并用于重新定向所考虑的碎片(附录A类). 将位置参数舍入到最近的栅格点后手性已重新计算。手性体积符号的分布示例如图2所示.
| 图2 手性体积2.77º符号的条件分布三网格间距为0.5º。 |
2.6。电子密度
实验信息的最基本来源之一是不同电子密度的高度。配体分子由选定的网格点构成,这些网格点不仅满足上述立体化学标准,而且具有尽可能高的密度。所使用的单调评分函数与描述范德瓦尔斯斥力的函数类似,
哪里秒是所选网格点簇的平均电子密度,以及ρ是每个网格点的电子密度值。
2.8. 几何尺寸化
一旦网格点被分配给配体原子,配体模型就适合于密度,并使用1-2和1-3距离约束进行几何化。键合距离和角键合距离的目标偏差分别设置为0.02Å和0.04Å。最小二乘法最小化是使用正规矩阵的一阶导数和对角近似来实现的,其公式类似于阿加瓦尔(1978)所描述的公式).
4.讨论和结论
距离分布的建模通过在基于网格的建模例程中,格分布的边缘化被证明是建模先前几何知识的一个适当工具。得到的近似分布可以很快得到通过蒙特卡洛模拟。相对复数的近似分布,例如原子手征体积的符号分布,也可以通过直接的模拟获得。必须注意的是,所构建的关于位置参数的误差模型是近似的。原子间距离不是独立的,原则上应该考虑相互关系。如果能够实现有效的方法来存储和处理几何特征的多维分布,则可以尝试获得所有几何特征在整个搜索分子中的联合概率分布。此外,设计用于消除低密度原子的网格点选择算法会影响网格点之间可能的距离集。这组距离的分布可能与模拟中构建的分布不同,可能取决于簇内密度高度的空间分布。然而,事实证明,所设计的分类器足以识别正确的解决方案。处理可用的先验知识也存在类似的情况,这些先验知识仅限于1-2和1-3距离、手征和排斥。即使有了有限的信息量,人们也能够识别不同密度的复杂模型。其他信息,如平面度限制、之前的1-4距离分布和配体-蛋白质相互作用,很可能会提高识别过程的性能。
网格上构建的模型距离其正确位置足够近REFMAC公司5能够直接精炼蛋白质-配体复合物。将几何化与电子密度的真实空间拟合相结合,进一步增强了解释过程。
从黄体酮实例和DHAP实例中可以看出,在一定程度上,内部配体几何信息本身并不总是足以解释差异密度。将蛋白质-配体接触纳入决策过程将有助于解决可能的歧义,防止蛋白质和配体原子之间的化学不合理接触,并可能限制搜索空间。类似的方法也适用于构建具有内部重复的结构,例如糖基化位点。如果在初始阶段可以安装糖骨架,则可以使用现有零件上的约束装置进行(碳)氧基团的后续放置。理想情况下,构建过程应该能够自动识别这些模块,并使用它们来提高识别过程的速度和性能。
该搜索算法能够基于所提出的评分函数构建不同电子密度的配体。目前该软件的一个限制可能是其速度:大多数配体在大约10分钟内生成,而ATP需要15分钟,NADH大约需要半小时。在未来的实现中,构建算法将针对CPU效率进行优化。未来发展的一个重要部分将是实现高效机制,以决定是否将一个原子或一组原子添加到可用的局部结构结果更好地描述了观察到的不同电子密度。这将进一步促进该过程,也可以构建部分无序配体,如§3.2,自动执行。
所描述的配体构建例程已并入6.1版的ARP/wARP套房于2004年7月推出。
附录A
球体和超球体点拾取
使用Marsagalia(1972)开发的方法对单位半径球体上的点进行均匀采样)包括对两个随机数进行采样,A类和B类,在(−1,1)上独立均匀分布。成对的(A类, B类)对于其中A类2+B类2<1可用于构造向量(x个, 年, z(z))均匀分布在球体上,
采样点(一0,一1,一2,一三)在单位半径的四维球体上也可以用类似的方法进行。四个随机数(A类, B类, C类, D类)独立于(−1,1)上的均匀分布绘制。配对的随机数(A类, B类)和(C类, D类)满足A类2+B类2<1和C类2+D类2<1用于以下转换
向量(一0,一1,一2,一三)然后均匀分布在半径为1的四维球体上。该矢量可以被认为是四元数,
并可用于重新定位分子片段(Weisstein,1999). 基于旋转组对应的更有效采样方法SO公司(3) 四维球体在别处也有描述,例如布里科涅(1997)b条).
致谢
作者感谢R.J.Morris和A.Perrakis激发了讨论。PHZ感谢K.Cowtan帮助使用Clipper图书馆和EMBL获得博士奖学金。
工具书类
Abramovicz,M.和Stegun,I.A.(1974年)。数学函数手册。纽约:多佛出版公司谷歌学者
Adolph,H.-W.、Zwart,P.、Meijers,R.、Hubatsch,I.、Kiefer,M.、Lamzin,V.S.和Cedergren-Zeppezauer,E.(2000年)。生物化学,39, 12885–12897. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Agarwal,R.(1978年)。《水晶学报》。A类34, 791–809. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
Altomare,A.、Giacovazzo,C.、Ianigro,M.、Moliterni,A.G.和Rizzi,R.(2002)。J.应用。克里斯特。 35, 21–27. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Badger,J.(2003)。《水晶学报》。D类59, 823–827. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Bart,J.C.J.和Busetti,A.(1976年)。《水晶学报》。A类32,927–933交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
Berman,H.M.、Westbrook,J.、Feng,Z.、Gilliland,G.、Bhat,T.N.、Weissig,H.、Shindyalov,I.和Bourne,P.E.(2000)。核酸研究。 28, 235–242. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Bernardo,J.M.和Smith,A.F.M.(2000)。贝叶斯理论。纽约:Wiley。 谷歌学者
Bernstein,F.C.,Koetzle,T.F.,Williams,G.J.B.,Meyer,E.F.Jr,Brice,M.D.,Rodgers,J.R.,Kennard,O.,Shimanouchi,T.&Tasumi,M.(1977年)。分子生物学杂志。 112, 535–542. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
Bishop,C.M.(1995年)。模式识别的神经网络。牛津大学出版社。 谷歌学者
Bricogne,G.(1974年)。《水晶学报》。A类30, 395–405. 交叉参考 科学网 IUCr日志 谷歌学者
Bricogne,G.(1997年)一).方法酶制剂。 276,361–423交叉参考 中国科学院 科学网 谷歌学者
Bricogne,G.(1997年)b条).方法酶制剂。 276, 424–449. 交叉参考 中国科学院 科学网 谷歌学者
Brunzelle,J.S.、Shafaee,P.、Yang,X.、Weigand,S.、Ren,Z.和Anderson,W.F.(2003)。《水晶学报》。D类59, 1138–1144. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Cascarano,G.、Giacovazzo,C.、Camalli,M.、Spagna,R.和Watkin,D.J。(1991).《水晶学报》。A类47, 373–381. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
协作计算项目,第4期(1994年)。《水晶学报》。D类50, 760–763. 交叉参考 IUCr日志 谷歌学者
Diller,D.、Pohl,E.、Redinbo,M.、Hovey,B.和Hol,W.(1999)。蛋白质,36, 512–525. 交叉参考 公共医学 中国科学院 谷歌学者
Greer,J.(1974)。分子生物学杂志。 82, 279–301. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
Heijmans,H.J.A.M.(1992年)。Nieuw拱门。威斯克。(4),10, 237–276. 谷歌学者
Kirkpatrick,S.、Gelatt,C.D.和Vecchi,M.P.(1983年)。科学,220, 671–680. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Kleywegt,G.J.,Bergfors,T.,Senn,H.,Le Motte,P.,Gsell,B.,Shudo,K.&Jones,T.A.(1994)。结构,2, 1241–1258. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
Koch,M.H.J.(1974年)。《水晶学报》。A类30, 67–70. 交叉参考 IUCr日志 科学网 谷歌学者
Lamzin,V.&Wilson,K.(1997年)。方法酶制剂。 277, 269–305. 交叉参考 公共医学 中国科学院 科学网 谷歌学者
Leahy,D.J.、Axel,R.和Hendrickson,W.A.(1992年)。单元格,68, 1145–1162. 交叉参考 公共医学 中国科学院 科学网 谷歌学者
Leherte,L.、Glasgow,J.I.、Baxter,K.、Steeg,E.和Fortier,S.(1997年)。J.阿蒂夫。智力。物件。 7,125–159谷歌学者
Levdikov,V.M.、Barynin,V.V.、Grebenko,A.I.、Melik Adamyan,W.R.、。,Lamzin,V.S.&Wilson,K.S.(1998年)。结构,6, 363–376. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
莱维特·D·G(2001)。《水晶学报》。D类57, 1013–1019. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Lorentzen,E.、Pohl,E.、Zwart,P.、Stark,A.、Russell,R.、Knura,T.、Hensel,R.和Siebers,B.(2003)。生物学杂志。化学。 278, 47253–47260. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Main,P.&Hull,S.E.(1978年)。《水晶学报》。A类34, 353–361. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
Marsaglia,G.(1972年)。安。数学。斯达。 43, 645–646. 交叉参考 科学网 谷歌学者
Menéndez-Velázquez,A.&GarcíA-Granda,S.(2003)。J.应用。克里斯特。 36,193–205科学网 交叉参考 IUCr日志 谷歌学者
Murshudov,G.N.、Vagin,A.A.和Dodson,E.J.(1997)。《水晶学报》。D类53, 240–255. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Nienaber,V.L.、Richardson,P.L.,Klighofer,V.、Bouska,J.J.、Giranda,V.L和Greer,J.(2000)。自然生物技术。 18, 1105–1108. 科学网 交叉参考 中国科学院 谷歌学者
Oldfield,T.J.(2001)一).《水晶学报》。D类57, 82–94. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Oldfield,T.J.(2001)b条).《水晶学报》。D类57, 696–705. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Oldfield,T.J.(2002)。《水晶学报》。D类58, 963–967. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Pannu,N.S.和Read,R.J.(1996年)。《水晶学报》。A类52, 659–668. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Perrakis,A.、Morris,R.J.和Lamzin,V.S.(1999)。自然结构。生物。 6, 458–463. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Rubinstein,R.(1999)。方法计算。申请。探针。 1, 127–190. 交叉参考 谷歌学者
施瓦岑巴赫,R。等。(2004).蛋白质,54, 174–177. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Sharff,A.和Jhoti,H.(2003)。货币。操作。化学。生物。 7, 340–345. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Swanson,S.M.(1994)。《水晶学报》。D类50, 695–708. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Terwilliger,T.C.(2003)。《水晶学报》。D类59, 38–44. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Vagin,A.、Murshudov,G.、Dodson,E.、Henrick,K.、Richelle,J.和Wodak,S.(2003)。MONLIB,一本多用途大分子词典。未发布的结果。 谷歌学者
Weisstein,E.(1999)。CRC简明数学百科全书。纽约:查普曼和霍尔/CRC出版社。 谷歌学者
Williams,S.P.和Sigler,P.B.(1998年)。自然(伦敦),393,392–396页科学网 中国科学院 公共医学 谷歌学者
Zwart,P.H.和Lamzin,V.S.(2003年)。《水晶学报》。D类59, 2104–2113. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Zwart,P.H.和Lamzin,V.S.(2004)。《水晶学报》。D类60, 220–226. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
©国际结晶学联合会。如果引用了原文作者和来源,则无需事先获得许可即可复制本文中的简短引文、表格和数字。有关详细信息,请单击在这里.
| 生物 结晶学 |
国际标准编号:1399-0047