研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标结构
生物学
编号:2059-7983

用稀疏密度表示法自动识别晶体配体

十字标记_颜色_方形_文本.svg

欧洲分子生物学实验室(EMBL),c/o DESY,Notkestrasse 85,22603 Hamburg,Germany
*通信电子邮件:victor@embl-hamburg.de

(收稿日期:2013年11月15日; 2014年4月15日接受; 在线2014年6月29日)

介绍了一种在大分子晶体电子密度图中自动识别配体的新方法。它基于密度簇的稀疏参数化和伪原子网格的匹配,从而使用分子形状、大小和拓扑的数学描述符创建构象变化配体。在对来自蛋白质数据库的实验数据进行大规模测试时,该程序可以从候选数据库中快速识别顶级化合物中沉积的配体。这表明了该方法在基于片段的药物筛选和大分子结构测定的模型完成中用于识别结合实体的适用性。

1.简介

配体分子存在于许多大分子晶体中,经常指示母体蛋白质或核酸的功能。配体的鉴定和这些晶体结构中配体结合模式的阐明为评估大分子的作用机制和操纵这些作用的潜在手段奠定了基础(Abendroth等。, 2011【Abendroth,J.、Sankaran,B.、Edwards,T.E.、Gardberg,A.S.、Dieterich,S.、Bhandari,J.和Napuli,A.J.、Van Voorhis,W.C.、Stager,B.L.、Myler,P.J.和Stewart,L.J.(2011),《结晶学报》F67,1106-1112。】; 等。, 2005[Li,Y.,Choi,M.,Cavey,G.,Daugherty,J.,Suino,K.,Kovach,A.,Bingham,N.C.,Kliewer,S.A.和Xu,H.E.(2005)。分子细胞,17491-502。]). 在经典的基于结构的药物设计中,在(例如共结晶)或随后(例如浸泡)结晶实验,在建立大分子模型后,识别引起不同电子密度的配体通常很容易。然而,当小分子(通常是在表达期间粘附在蛋白质上的内源性底物或效应器)在纯化和结晶过程中保持结合时,就不那么简单了(Hamiaux等。, 2009【Hamiaux,C.,Stanley,D.,Greenwood,D.R.,Baker,E.N.&Newcomb,R.D.(2009),《生物化学杂志》284,3496-3503。】; 吉拉尔迪等。, 2010【Girardi,E.,Wang,J.,Mac,T.T.,Versluis,C.,Bhowruth,V.,Besra,G.,Heck,A.J.,Van Rhijn,I.&Zajonc,D.M.(2010).免疫学杂志.185,376-386.】)或者同时向晶体中添加多个配体。后一种方法可以提高基于片段的药物设计的效率(Mooij等。, 2006【Mooij,W.T.、Hartshorn,M.J.、Tickle,I.J.和Sharff,A.J.、Verdonk,M.L.和Jhoti,H.(2006)。化学药物化学,1827-838。】)在代谢产物鸡尾酒中筛选蛋白质功能(舒米林等。, 2012[Shumilin,I.A.,Cymborowski,M.,Chertihin,O.,Jha,K.N.,Herr,J.C.,Lesley,S.A.,Joachimiak,A.&Minor,W.(2012).结构,201715-1725.]). 在大分子晶体学(MX)中,小分子实体也是从结晶介质或低温保护剂溶液中衍生出来的,为了更全面地解释实验,有必要将其识别并拟合到电子密度图中。记住PDB配体数据库(Golovin等。, 2004【Golovin,A.等人(2004)。核酸研究32,D211-D216。】)现在包含17000个条目,这项任务显然很重要。经常讨论电子密度“斑点”的性质以及配体结构对此类斑点的分配(Kleywegt,2007)【Kleywegt,G.J.(2007),《结晶学报》,D63,94-100。】)证明一项任务的复杂性,迄今为止,这项任务一直依赖于相关研究人员的专业知识和他们的主观分析。显然,需要一种自动化、高效的方法来无偏见、准确地识别电子密度图中的配体。

已经提出了多种将已知配体自动拟合到电子密度图中的方法,通常是基于在配体的其他元素完全添加之前识别配体刚性核在电子密度中的位置(Oldfield,2001)【Oldfield,T.J.(2001),《水晶学报》,D57,696-705。】; 特威利格等。, 2006【Terwilliger,T.C.,Klei,H.,Adams,P.D.,Moriarty,N.W.&Cohn,J.D.(2006),《结晶学报》,D62,915-922.】)配体与密度主轴的对齐,并使用Metropolis-type优化进行拟合(Debreczeni&Emsley,2012[Debreczeni,J.E..&Emsley,P.(2012),《水晶学报》,D68,425-430。])或类似方法的组合(Evrard等。, 2007【Evrard,G.X.,Langer,G.G.,Perrakis,A.&Lamzin,V.S.(2007),《水晶学报》,D63,108-117。】; 兰格等。, 2012[Langer,G.G.,Evrard,G.X.,Carolan,C.G.&Lamzin,V.S.(2012),《分子生物学杂志》419,211-222。]). 显然,这些方法可以通过编写脚本来适应配体识别,从而将每个配体从分子数据库循环匹配到指定的电子密度簇。的确,特威利格等。(2007【Terwilliger,T.C.,Adams,P.D.,Moriarty,N.W.&Cohn,J.D.(2007),《结晶学报》D63,101-107。】)证明了这种方法的有用性,通过电子密度图关联对119个配体数据库中由配体建模协议生成的每个模型进行了排序,并注意到正确的实体(储存在PDB条目中用于测试的药物)也是46%病例中排名第一的化合物。然而,这种方法本身速度较慢,因为它需要将所有候选配体与密度相匹配。

更快速地将配体与电子密度匹配的努力集中在使用数学描述符上,因为它们的值的比较既快速又稳健。即使是简单的形状特征,例如配体分子或密度簇的边界盒的体积,也可以在配体结构建模之前,在差异图中识别合适的密度斑点(Langer等。, 2012[Langer,G.G.,Evrard,G.X.,Carolan,C.G.&Lamzin,V.S.(2012),《分子生物学杂志》419,211-222。]). 考虑到大量候选数据库,从构象可变配体的密度识别其更具挑战性的任务显然需要更复杂的方法。Gunasekaran公司等。(2009【Gunasekaran,P.、Grandison,S.、Cowtan,K.、Mak,L.、Lawson,D.M.和Morris,R.J.(2009)。生物信息学中的模式识别,由V.Kadirkamanathan、G.Sanguinetti、M.Girolma、M.Niranjan和J.Noirel编辑,第125-136页。柏林,海德堡:施普林格。])使用三维Zernike矩将配体与从OMIT图中获得的分段电子密度簇相匹配,但尽管这种方法具有高度的严格性,但只有30%的情况下,正确的配体被确定为排名靠前的配体。

一种有趣的建模配体电子密度的方法是使用密度簇(Aishima)中心轴的图形表示等。, 2005【Aishima,J.,Russel,D.S.,Guibas,L.J.,Adams,P.D.&Brunger,A.T.(2005),《水晶学报》D61,1354-1363。】)随后使用配体与图的几何和构象匹配进行结构建模。使用原子标记算法将配体原子与电子密度团(Zwart等。, 2004【Zwart,P.H.、Langer,G.G.和Lamzin,V.S.(2004),《结晶学报》,D60,2230-2239。】). 通过以伪原子方式表示电子密度,可以使用基于原子间距离和连接性的特征来描述密度和候选配体。

在这份手稿中,我们提出了一种新的有效方法,将配体电子密度快速参数化为伪原子点云,并介绍了描述分子大小、形状和拓扑的各种数学特征的应用,以实现配体候选与电子密度的有效匹配。该方法能够快速而准确地识别实验大分子晶体密度图中的配体,有望用作建模和验证工具。

2.方法

2.1、。方法概述

图1描述了筛选候选配体化合物数据库的方法[链接]具体地,使用自由原子来参数化指定的电子密度,并且基于生成的稀疏密度点的位置来计算一系列数学特征。将这些特征与为候选配体的每个构象计算的相同特征进行比较,并根据每个特征得分的加权和推导出排名。排名最高的化合物,依次以其最高的构象排列,受到短暂的真实空间的影响精炼在电子密度图中。最终排名基于相关系数在精制配体和电子密度之间。

[图1]
图1
配体识别协议的示意图,所示为假定的N型ATP焦磷酸酶(PDB条目)结构中的三磷酸腺苷(ATP)3千克1; 福鲁哈尔等。, 2011【Forouhar,F.、Saadat,N.、Hussain,M.、Seetharaman,J.、Lee,I.、Janjua,H.、Xiao,R.、Shastry,R.,Acton,T.B.、Montelione,G.T.和Tong,L.(2011),《结晶学报》F67,1323-1327。】)分辨率为2.3Å。(F类o个负极F类c(c),αc(c))差异密度图的等高线为1.0σ高于平均值;自由原子显示为球。已针对每个图像调整可视板的厚度,以提供最佳视图;然而,它在(b条)为了阐明蛋白质模型显示后感兴趣的电子密度().

2.2. 独特配体的选择

我们创建了晶体结构中常见的配体的大量数据集,包括内源性配体和MX常见实验程序中衍生的化合物。蛋白质数据库分析(PDB;Berman等。, 2000[Berman,H.M.、Westbrook,J.、Feng,Z.、Gilliland,G.、Bhat,T.N.、Weissig,H.、Shindyalov,I.N.和Bourne,P.E.(2000)。核酸研究28,235-242。])2013年5月,共有超过15000个不同的配体实体。其中294个存在于至少40个不同的沉积构造中,因此被认为是常见的。由于我们关注的焦点是非共价结合配体,这些配体通常会在MX电子密度图中产生孤立的斑点,因此修饰的氨基酸,如磷酸丝氨酸(SEP)和O(运行)-硫-L(左)-酪氨酸(TYS)以及糖类未考虑参与翻译后糖基化。还排除了少于五个非H原子(主要是单原子离子)的配体实体。

对其余140种配体的仔细检查表明,其中许多配体彼此非常相似。例如,配体,例如腺苷-5′-三磷酸(ATP)、磷酸甲基膦酸-腺苷酸酯(ACP)和磷酸氨基膦酸酯(ANP)具有相同的亚结构(相对于其非H原子),并且仅在原子组成上不同。取代ATP中第二和第三磷酸盐之间的O原子的是ACP有一个C原子,而ANP则有一个N原子。只有在可以识别原子身份或氢键网络的非常高分辨率的图谱中,才能从这些配体的电子密度中识别这些配体,从而排除了通过本文所述方法进行区分的可能性。因此,将配体聚集在一起以减少这种亚结构冗余。基于小分子中原子间键模式的描述符,如广泛使用的BCUT描述符(对称矩阵的特征值,其中的术语表示原子间的键和键序;Burden,1989[Burden,F.R.(1989),《化学信息计算科学杂志》,第29225-227页。], 1997【Burden,F.R.(1997),《数量结构-法案》,第16、309-314页。】),是构象不变的,非常适合这样的聚类任务。对所考虑的每个配体计算了这些特征。k个-平均数聚类,然后人工处理结果,得到82个大小不等的独特配体(硫酸盐、SO4、咪唑、IMD)和100个非H原子(心磷脂、CDL),最多由8种不同配体组成。

2.3. 选择培训和测试数据集

下载了含有配体测试集中82种配体中至少一种配体的PDB中所有条目的实验结构和结构因子。仅使用X射线晶体学导出的结构,分辨率在1.0到2.5º之间,并存在于电子密度服务器(EDS;Kleywegt等。, 2004【Kleywegt,G.J.,Harris,M.R.,Zou,J.,Taylor,T.C.,Wählby,A.&Jones,T.A.(2004),《结晶学报》,D60,2240-2249。】)使用了。MTZ数据文件使用成本加保险费、运费2MTZ公司来自的程序中央处理器4个套餐(优胜者等。, 2011【Winn,M.D.等人(2011),《结晶学报》,D67,235-242。】).

为了减少密度图中沉积配体结构的“记忆”,对“apo”蛋白进行了重新定义。具体来说,所有配体和溶剂原子都从PDB文件中删除约束细化使用REFMAC公司(穆尔舒多夫等。, 2011【Murshudov,G.N.,Skubák,P.,Lebedev,A.A.,Pannu,N.S.,Steiner,R.A.,Nicholls,R.A..,Winn,M.D.,Long,F.&Vagin,A.A..(2011),《晶体学报》,D67,355-367。】).

根据相关系数根据沉积配体结构计算的图谱与之后获得的差异图谱之间REFMAC公司 精细化,其中施加0.75的阈值;相关系数使用中央处理器4个程序SFALL公司覆盖层[例如,参见Muller(2013[Muller,Y.A.(2013),《水晶学报》F69,1071-1076。])或波扎尔斯基等。(2013【Pozharski,E.,Weichenberger,C.X.&Rupp,B.(2013),《结晶学报》D69,150-167。】)有关相关系数阈值的讨论]。这导致删除了三分之二的条目,突出了一些报告(Kleywegt,2007)中提到的许多PDB病例中配体电子密度的质量较差且解释不充分【Kleywegt,G.J.(2007),《结晶学报》,D63,94-100。】; 库珀等。, 2011[Cooper,D.R.,Porebski,P.J.,Chruszcz,M.&Minor,W.(2011),《药物发现专家》,第6期,第771-782页。]; 利贝舒埃茨等。, 2012【Liebeschuetz,J.、Hennemann,J.,Olsson,T.&Groom,C.R.(2012),《计算机辅助分子设计杂志》26,169-183。】; 波扎尔斯基等。, 2013【Pozharski,E.,Weichenberger,C.X.&Rupp,B.(2013),《结晶学报》D69,150-167。】)并且为模型构建和验证带来了明显的困难。尽管如此,仍有1100多个不同的PDB条目可供使用。其中160个被放入了“培训组”精炼而剩下的970个条目用于后面描述的评估。

2.4. 参数化电子密度

差分电子密度以0.3º的间距计算,用户提供感兴趣的密度簇的近似位置。形状比较用最终网格的制备过程如下。

  • (i) 密度是通过将自由原子放置在偏向密度较高的网格点的网格上来参数化的。每个自由原子都有一个距离在1.2到1.7度之间的邻居。

  • (ii)在自由原子之间应用2.0º距离的阈值,以选择最靠近关注点的簇。移除所有其他自由原子。

  • (iii)获得每个自由原子位置的电子密度值,并按降序排序。选定簇中的自由原子数通常小于200。每个密度值的标准偏差(σ)计算了连续排序原子之间的密度值差异;例如,σ对于原子是根据原子之间密度值的三个连续差异计算得出的−3,− 2,−1和。由于对密度值进行了排序,因此在密度簇边缘,连续值之间的差异更大,这由σ值,如图2所示[链接](). 在峰值位置设置阈值,并使用多达五个不同的阈值来细化稀疏网格(图2[链接]).

  • (iv)网格细化后,重复步骤(ii),将最大原子间距离阈值增加到2.3º,生成最终的分子形状,以便使用数学特征进行比较(图1[链接]).

[图2]
图2
对伪原子网格簇进行修剪,以便与配体特征进行特征比较。差异(F类o个负极F类c(c),αc(c))地图的等高线为2.5σ高于平均值。()放置的自由原子的密度值按降序排序,并计算相邻值之间的差异。绘制了密度差的标准偏差,仅输出密度高于标记点的原子。为PDB条目显示数据4英寸(李等。, 2010[李,M.,陈,C.,戴维斯,D.R.&邱,T.K.(2010).生物化学杂志.285,21487-21495.]). (b条)输出原子(显示为球)将根据距离截止值进行进一步修剪,以生成最终的筛选形状,如十字所示。它与沉积的配体THP非常匹配。(c(c))如中所示()但PDB沉积中的数据有三个簇3毫巴5(盖洛吉特等。, 2010【Gueloget,A.、Roovers,M.、Guérineau,V.、Barbey,C.、Li,X.和Golinelli-Pinpaneau,B.(2010)。核酸研究38,6206-6218。】)用箭头标记。(d日)第三个簇由箭头3标记,与最后一个配体SAM很匹配。

网格细化和聚类需要晶体对称性以便正确识别位于不同不对称单元之间正式边界的配体。

2.5. 数字特征描述符

以前使用形状和拓扑特征将分子碎片建模为晶体电子密度的经验突出了一系列可以使用的此类特征(兰格等。, 2012[Langer,G.G.,Evrard,G.X.,Carolan,C.G.&Lamzin,V.S.(2012),《分子生物学杂志》419,211-222。]; Hattne&Lamzin,2008年【Hattne,J.和Lamzin,V.S.(2008),《晶体学报》D64,834-842。】, 2011[Hattne,J.&Lamzin,V.S.(2011),J.R.Soc.接口,8144-151.]; 赫斯等。, 2009【Heuser,P.、Langer,G.G.和Lamzin,V.S.(2009),《结晶学报》,D65、690-696。】).

共选择了22个特性供使用,并在表1中列出[链接]它们对配体的平移和旋转都是不变的,除原子数外,其他所有都对配体大小是不变的。仅连通矩阵的特征值(Burden,1989[Burden,F.R.(1989),《化学信息计算科学杂志》,第29225-227页。], 1997【Burden,F.R.(1997),《数量结构-法案》,第16、309-314页。】)当然,原子数是构象不变的;其他人都是依赖的。

表1
用于比较稀疏网格密度表示与多构象配体集的22个特征

功能类型 此类功能的数量 参考(如适用)
三阶矩不变量 11 洛登(1989)【Lo,C.-H.&Don,H.-S.(1989),IEEE Trans.Pattern Anal.Machine Intell.第11期,第1053-1064页。】); Hattne&Lamzin(2008年[Hattne,J.和Lamzin,V.S.(2008),《结晶学报》,D64,834-842。])
手性指数 1 Hattne&Lamzin(2011年[Hattne,J.&Lamzin,V.S.(2011),J.R.Soc.接口,8144-151.])
基于原子间距的特征 2 Crippen&Havel(1988年【Crippen,G.M.&Havel,T.F.(1988)。距离几何和分子构象。汤顿:研究出版社。】)
基于原子间连接性的特征 4 负担(1989【Burden,F.R.(1989),《化学与信息计算科学杂志》29,225-227。】, 1997【Burden,F.R.(1997),《数量结构-法案》,第16、309-314页。】)
原子坐标系欧氏距离的中心矩 塔巴奇尼克和菲德尔(1996)【Tabachnick,B.G.&Fidell,L.S.(1996),《使用多元统计》,第三版,纽约:哈珀·柯林斯出版社。】)
原子数 1  

预先计算了82个配体中每个配体的所有构象(最多200个)的特征:总共约10000个条目。对密度簇中的稀疏网格进行形状比较(最多五个)σ阈值。自由原子之间的伪关联如兰格所述等。(2012[Langer,G.G.,Evrard,G.X.,Carolan,C.G.&Lamzin,V.S.(2012),《分子生物学杂志》419,211-222。]). 排名是基于所有配体相对于所有稀疏网格的所有分数的合成。

由于这些特征是以不同的单位定义的,因此它们都是基于计算的值归一化为单位方差的,以描述训练集中的配体。这使得它们的方差-协方差矩阵成为一个方便的相关矩阵,其对角元素等于1,非对角元素的绝对值小于1。特征组合的初始权重是根据应用于训练集的每个特征所解释的方差范围设置的,根据经验公式计算,

[w_i={{textstyle\sum\limits_{j=1,m}\lambda_{j} u个_{ji}^2}\超过{{textstyle\sum\limits_{j=1,m}}\lambda{j}}},\eqno(1)]

哪里w个是特征的计算权重,是五个最高值特征值,λj个j个相关矩阵的特征值和u个是对应的特征向量。随后使用交叉熵方法对重量进行训练(Rubinstein&Kroese,2004[Rubinstein,R.Y.&Kroese,D.P.(2004)。交叉熵方法:组合优化的统一方法,蒙特卡罗模拟和机器学习。纽约:Springer-Verlag。])根据训练集中的数据计算出的特征,最大化82个候选配体中正确配体的等级。最佳稀疏网格是指与正确配体的最小最近邻根平方偏差(NNRMSD),如§[链接]3.1.

2.6. 小分子排列和真实空间精细化

除了训练外,在形状匹配之后,还需要配体与伪原子稀疏网格的构象灵活对齐,以便将识别的配体适当地放置到后续实际空间的映射中精炼以及基于真实空间相关系数进行排名。独立软件利加林是为了最小化配体和稀疏网格之间的最近邻距离而开发的。

配体的立体化学根据前面描述的坐标自动计算(Langer等。, 2012[Langer,G.G.,Evrard,G.X.,Carolan,C.G.&Lamzin,V.S.(2012),《分子生物学杂志》419,211-222。]). 配体的三个主轴(以任意构象)在所有四种可能的组合中与网格的主轴对齐(+x个++z(z), −x个负极+z(z), +x个负极负极z(z)和−x个+负极z(z))每个都是独立考虑的。通过围绕键旋转实现对齐(被认为可旋转的键以60°的增量随机旋转,以产生所有可能的构象,其中不会发生原子内碰撞),使用遗传算法(惠特利,1994年【Whitley,D.(1994),《统计计算》第4卷,第65-85页。】). 配体坐标是叠加在最近邻稀疏网格点上的最小二乘法。对于每个符合者,分数计算如下

[s={\textstyle\sum\limits_{j=1,k}}\left[1-\exp\left(-{{di}\over 2}\right)\right]^2,\eqno(2)]

哪里k个是最近邻对的数量d日是每对的最近邻距离。选择这样一个目标函数,以便在一个模型的原子在另一个模型中有两个相邻原子的情况下,第一个模型的偏移偏向于一个原子对的匹配,而使第二个相邻原子“未配对”。在算法的每个循环中,与最佳得分覆盖相关联的旋转被交叉,而精炼通过最大±10°晃动这些交叉的结果来实现构象的变化。

本质上,通过数据库进行基于形状的搜索时确定的最佳构造被以下内容取代利加林,根据数据库中的离散构象提供可能不可能(或不够准确)的更紧密匹配。利加林可以看作是一个初步的真实空间精炼通过围绕键的旋转,可以更好地匹配模拟密度而不是密度本身的网格。

将识别的配体放置在稀疏网格上后精炼如前所述(兰格等。, 2012[Langer,G.G.,Evrard,G.X.,Carolan,C.G.&Lamzin,V.S.(2012),《分子生物学杂志》419,211-222。]). 这一步骤突出了与实际密度匹配的配体,而不仅仅是稀疏的网格。这个实空间相关系数计算密度图的配体区域。

3.结果和讨论

3.1. 训练集中配体与稀疏网格子结构的匹配

早在1974年,就描述了“稀疏网格”结构的制备,以指示电子密度内潜在的候选原子位置(Koch,1974[科赫·M·H·J(1974),《晶体学报》,A30,67-70。]; Main&Hull,1978年【Main,P.&Hull,S.E.(1978),《晶体学报》,A34,353-361。】; Isaacs&Agarwal,1985年【Isaacs,N.W.和Agarwal,R.C.(1985)。酶法。115,112-117。】),并已由Zwart使用等。(2004年【Zwart,P.H.、Langer,G.G.和Lamzin,V.S.(2004),《结晶学报》,D60,2230-2239。】)由兰格详细阐述等。(2012[Langer,G.G.,Evrard,G.X.,Carolan,C.G.&Lamzin,V.S.(2012),《分子生物学杂志》419,211-222。])以模拟配体结构。至关重要的是,稀疏网格的构建是建立在对要构建的结构以及因此要放置的自由原子数量(或者,换句话说,稀疏网格簇的大小)的了解基础上的。空间电子密度的可能极限(与目前的情况相比,低阈值下的相邻密度可能属于相邻配体或溶剂或是虚假的可能性要清楚得多,因为在目前的情况下,配体的性质及其大小、形状和构象都可以找到。

使用上述和图2中描述的方法[链接],我们可以生成密度的伪原子表示,在训练集中,93%的病例的密度在实际配体的1.0°最近邻根平方偏差(NNRMSD)以内。

网格下部结构密度值的第一、第二和第三阈值导致了与真配体的最低NNRMSD(见图2[链接]c(c))在几乎相同数量的情况下。只有一次,第五格是最好的。

配体中的原子数与所选网格点数量的比值变化很大,在0.25到1.7之间波动;分布类似高斯分布,平均值为0.8,标准偏差为0.3。我们注意到,这里我们并不像标签摆动法(Zwart)那样从稀疏网格构建配体等。, 2004【Zwart,P.H.、Langer,G.G.和Lamzin,V.S.(2004),《结晶学报》,D60,2230-2239。】). 稀疏网格仅包含允许使用形状描述符的自由原子数。正如NNRMSD值所示,网格子结构的整体形状往往与配体匹配良好,并且由于所使用的大多数特征都集中在身体的整体形状上,因此预计实体之间的数量差异将通过应用特征来克服。

基于电子密度值细微变化的网格细化概念与Langer提出的碎片树非常相似等。(2012[Langer,G.G.,Evrard,G.X.,Carolan,C.G.&Lamzin,V.S.(2012),《分子生物学杂志》419,211-222。])当密度与不同分子实体之间的相邻分子片段相邻时,在密度-簇体积与等容线-σ阈值的曲线中观察到特征性断裂。在这里描述的情况下,使用原子位置而不是密度体积,可以根据距离更准确地细化外部自由原子点,如图2所示[链接](b条)和2[链接](d日).

3.2、。依赖于训练集中的数据分辨率、配体大小和构象

进一步分析(图3[链接])表明性能取决于数据的分辨率,但网格子结构对配体的NNRMSD在所有尺寸的配体中都是一致的。

[图3]
图3
比较训练集计算的稀疏网格和PDB中存放的配体坐标之间的NNRMSD差异()各种分辨率和(b条)不同大小的配体。误差条描述了值在集合中的标准偏差。

我们目前的构象生成方法没有测试环系统的不同褶皱。因此,我们在数据库中包括了一些配体的多种构象,如表2所示[链接]所有测试的数据库包含96个不同的分子实体,代表82种不同的配体,每个配体有多达200种构象。

表2
用于训练目的的配体,由PDB三字母代码列出,并带有相应的通用配体名称(药物名称或文献中常用的化合物名称)

那些在他们的代码旁边有星号的人会被筛选成至少两种不同的折叠构象。

连字号三字母代码 配体通用名
017 达芦那韦
1台PE 戊二醇
2GP(2GP) 2-单磷酸鸟苷
2个PE 壬二醇
5加仑* 5-单磷酸鸟苷
A3P飞机* 腺苷3′,5′-二磷酸
ACO公司* 乙酰辅酶A
ADE公司 腺嘌呤
附件 腺苷
ADP公司 5′-二磷酸腺苷
AKG公司 2-氧化戊二酸
放大器 一磷酸腺苷
列车自动防护系统* 腺苷5′-三磷酸
B3P公司 2-[3-(2-羟基-1,1-二羟甲基-乙氨基)-丙胺基]-2-羟甲基-丙-1,3-二醇
BCL公司 细菌叶绿素A
比特币 双三向缓冲器
英国电话号码 生物素
碳二烯酸* 环二鸟苷一磷酸
计算机辅助制造 樟脑
CDL公司 心磷脂
冠心病 胆酸
企业所得税 柠檬酸
CLA公司 叶绿素A
化学机械抛光 腺苷3′,5′-环磷酸
COA公司 辅酶A
CXS公司 3-环己基-1-丙基磺酸
CYC公司 藻蓝蛋白
DIO(数字输入输出) 1,4-二甘醇
DTT公司 1,4-二硫苏糖醇
欧洲电力公司 HEPES公司
F3S型 –S4集群
FAD公司* 黄素腺嘌呤二核苷酸
FMN公司* 黄素单核苷酸
FPP公司 法尼基二磷酸
高尔夫球 甘油
谷胱甘肽 谷胱甘肽
人4b 5,6,7,8-四氢生物蝶呤
六氯环己烷 对位-香豆酸
HEA公司* 哈姆A
HED公司 2-羟乙基二硫
哈姆
IMD公司 咪唑
IPH公司 苯酚
本地设计院 十二烷基二甲胺-N个-氧化物
人工编码站 2-(N个-吗啉)乙磺酸
MLI公司 丙二酸根离子
MLT公司 D类-苹果酸盐
MPD公司 (4S公司)-2-甲基-2,4-戊二醇
MTE公司 膦酸单(2-氨基-5,6-二巯基-4-氧代-3,7,8A,9,10,10-六氢-4H-8-氧代-1,3,9,10-四氮杂-蒽醌-7-基甲基)酯
马来西亚令吉 肉豆蔻酸
北美* 烟酰胺腺嘌呤二核苷酸
小睡* 烟酰胺腺嘌呤二核苷酸磷酸
国家编目局 六胺钴(III)
NHE公司 2-(N个-环己氨基)乙磺酸
欧拉 油酸
ORO公司 香精酸
第6G页 六乙二醇
二(羟乙基)醚
政治公众人物 磷酸烯醇丙酮酸盐
前列腺素4 四甘醇
职业高尔夫球协会 2-磷酸乙醇酸
PGO公司 S公司-1,2-丙二醇
PHQ公司 氯碳酸苄酯
产品生命周期管理 棕榈酸
PLP公司 吡哆醛-5′-磷酸盐
流行音乐 焦磷酸盐2−
PYR公司 丙酮酸
转塔 视网膜
SAM公司* S公司-腺苷甲硫氨酸
SF4气体 铁-硫簇
新加坡航空公司 O(运行)-唾液酸
二氧化硫 硫酸盐离子
SPO公司 球亚纲
STU公司* Staurosporine公司
TAM公司 三(羟乙基)氨基甲烷
THP公司 胸苷3′,5′-二磷酸
TLA公司 L(左)-(+)-酒石酸
第三方程序 二磷酸硫胺
TRS公司 Tris缓冲器
TYD公司 胸苷5′-二磷酸
10岁以下 辅酶Q10
升级换代 尿苷5′-二磷酸葡萄糖

3.3. 功能比较的性能

使用上述训练集对特征进行加权,可以在32%的情况下选择正确的化合物作为顶级实体,而无需实际空间精炼以及密度的使用相关系数作为额外的过滤标准。我们注意到,在86%的病例中,正确的配体在基于特征的排名后的前十名中被确定,在94%的病例中排在前20名中。我们决定将排名前20的配体传递到最终的真实空间精炼步骤。

如引言所述[链接]与蛋白质或核苷酸建模相比,单独使用数学特征将配体与其密度匹配的成功率更有限。由于配体在化学和构象上相对于大分子及其碎片变化更大,因此必须假设捕获配体或密度形状各个方面的单一特征不足以进行构象依赖性配体识别。基于这些结果,我们得出结论,应该使用更全面地描述此类形状的特征组合。

尽管在上一段中进行了讨论,但根据(3)对检测到的重量进行分析[链接],表明基于原子间距的特征特别适合于配体与其稀疏网格的匹配任务。三阶矩不变量也在合理程度上有助于匹配过程,基于原子间连接性的特征也是如此。后者是构象不变描述符,因此很好地补充了构象变异特征。值得注意的是,作为特征的配体椭球体的三个主要成分仅占表1中22个特征总贡献的0.1%[链接]这突出了三阶和高阶特征的重要性。

[p_f={{sum\limits_{i=1,l}{{w_i}}\over{sum\ limits{i=1,n}{w_i}}\eqno(3)]

在(3)中[链接]歧视性权力,第页(f),计算为所有特征的总和这些特征的权重除以所有22个特征的权重之和(n个)功能。

3.4. 取决于数据的分辨率和评估集中配体的大小

将该方法整体应用于大型实验数据评估集表明,在61%的情况下,单独的特征匹配可以识别排名前20的化合物中的配体。实时空间精炼在这20名候选人中,有31%的人将正确的化合物添加到表格中,并由CC重新排名。如图4所示[链接](),正确的化合物始终排名靠前。鉴于该方法是在低NNRMSD的正确构象中寻找正确的配体,我们得出结论,如果准备了适当的稀疏网格,从而可以通过特征比较进行识别,那么应用利加林真实空间遵循的程序精炼CC的排名非常有效。

[图4]
图4
()真实空间后正确化合物的最终等级精炼CC对通过基于特征的配体选择的550种化合物进行排名。(b条)在这些配体之间传递到最终真实空间的不同分辨率数据的性能精炼步骤。(c(c))不同大小配体在传递到最终真实空间的配体中的性能精炼步骤。

进一步强调这一点的是,性能非常依赖于数据的分辨率,就像稀疏网格构造一样。如图4所示[链接](b条)当化合物进入最终阶段时,大约70%的配体可以在最高等级准确识别,数据分辨率在1.0到1.6°之间精炼步骤。大多数化合物的分辨率仍高于2.0º,但在较差的分辨率下性能会下降。其原因可能是基于自由原子的方法,即必须识别单个原子,特别是它们之间的间隙,以便根据原子间距离准确细化簇。该程序仍然显示分辨率高达2.5º的数据的实用程序。

如图4所示,性能受拟安装配体的大小影响较小[链接](c(c)). 事实上,正如特威利格之前指出的那样,可能是配体的组成以及其典型密度在形状上是否独特对性能影响最大等。(2007【Terwilliger,T.C.,Adams,P.D.,Moriarty,N.W.&Cohn,J.D.(2007),《结晶学报》D63,101-107。】).

3.5. 软件实施

开发的技术已在ARP协议/wARP7.4晶体模型构建软件包于2013年10月与中央处理器4 v.6.4.0。考虑到所有配体构象,软件中使用的最终数据库包含近10000个分子实体。配体识别可以通过在图形用户界面中简单地选择电子密度簇来直观地完成Arp导航器(兰格等。, 2013[Langer,G.G.,Hazledine,S.,Wiegels,T.,Carolan,C.&Lamzin,V.S.(2013),《水晶学报》,D69,635-641.])并通过鼠标单击调用分析。由于配体数据库中使用了预先计算的数值特征,因此该程序可以快速执行。在台式工作站的单核上运行时,平均执行时间约为2.5分钟。执行后,顶级化合物将在密度范围内建模。与该配体簇合的化合物,如方法部分所述[链接],也输出(例如,将特定的电子密度团簇归因于硫酸根离子,提供磷酸根离子作为替代溶液),从而能够根据可能的晶体含量考虑最合适的配体。因此,虽然筛选数据库仅包括82种配体,但该软件可以帮助识别多达140种不同的化合物。筛选的化合物列表见表2[链接].

4.结论

我们已经证明,通过将密度和距离约束应用于代表不同电子密度的特定簇的密堆积区域,可以获得与负责这种密度的配体结构非常相似的伪原子稀疏网格结构。此外,基于特征的稀疏网格与各种配体构象的比较可以可靠地指向正确的配体。实时空间精炼将配体放置在网格上后,可以提供更好的配体识别方法。稀疏网格构造和配体实空间精炼取决于X射线数据的分辨率;大多数化合物的分辨率都高于2.0º,但此后性能下降。

我们的分析表明,所识别的配体几乎总是很好地符合密度斑点,无论它们实际上是否正确。因此,用户可以检查排名较低的化合物在任何特定情况下是否更合适。我们发现,识别错误通常是由网格准备中的不准确引起的;反过来,这往往是由于难以确定给定簇的边界,以及将自由原子放置到可归因于其他配体或金属离子的密度。我们打算在未来改进该方法的这一方面。

我们注意到,尽管最重要的是不同形状特征的组合,但这种组合的结果以及对单个特征组相对“功率”的估计取决于所选的目标函数。在这里,我们训练特征组合的权重,以使正确配体的秩最大化。显然,有很多方法可以实现这一点,这可能是未来研究的主题。

展望未来,为了提高其准确性和/或效率,可以对所提出的方法进行其他一些改进。当应用于较低分辨率的数据时,可能需要对稀疏网格结构进行重新参数化,并在改进密度斑点边界测定方面进行未来研究。为配体-网格比较添加其他特征也可能提高识别能力,只要特征可以快速计算和比较,就可以考虑将其包含在方法中。把更多配体传给决赛也是值得的精炼与当前的20个协议相比,可以考虑建立运行时间更长的补充协议。

将来自蛋白质的数据包括在内,并考虑蛋白质-配体接触可能会对性能产生重大影响。这可以通过多种方式实现,无论是通过包含基于物理的评分函数来解释这种交互作用(Diller等。, 1999[Diller,D.J.,Pohl,E.,Redinbo,M.R.,Hovey,B.T.和Hol,W.G.J.(1999)。蛋白质,36512-525。])或使用蛋白质中的配体结合模板(Liu&Altman,2011)[Liu,T.&Altman,R.B.(2011)。公共科学图书馆计算生物学7,e1002326。]). 在这两种情况下,可能会根据接触形成和静电碰撞的相对强度来区分形状相似的配体。然而,预先计算所有可能的蛋白质-配体相互作用的数据库可能并不简单。

通过减少要考虑的化合物的数量,可以取得进一步的进展。与其严格细化搜索数据库,不如只包含基于晶体生长条件可行的配体。我们打算包括一个界面,供用户选择用于未来分析样品的缓冲液、结晶试剂和蛋白质表达系统;这将允许在筛选之前手动添加依赖于系统的数据库。通过分析蛋白质序列和结构,并提取与类似蛋白质或结合位点结合的配体数据集,可以对数据库成分进行类似的预先选择。这个Lig搜索方法(德比耳等。, 2013【Beer,T.A.P.de,Laskowski,R.A.,Duban,M.-E.,Chan,A.W.E.,Anderson,W.F.&Thornton,J.M.(2013),《结晶学报》D69,2395-2402。】)对此很感兴趣。

这里介绍的配体识别方法具有巨大的潜力,是实现自动化模型构建的重要一步。因此,只要提供结晶数据和蛋白质序列作为输入,就可以连续对蛋白质、配体和溶剂进行建模,而无需任何用户干预。

致谢

作者希望对Tim Wiegels激发的讨论表示感谢。CC感谢EMBL通过其跨学科博士后(EIPOD)计划提供资金,并感谢德国科学和教育部(BMBF)通过项目05K10YEA提供的支持。

工具书类

第一次引用Abendroth,J.、Sankaran,B.、Edwards,T.E.、Gardberg,A.S.、Dieterich,S.、Bhandari,J.,Napuli,A.J.、Van Voorhis,W.C.、Stager,B.L.、Myler,P.J.和Stewart,L.J.(2011)。《水晶学报》。F类67, 1106–1112. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Aishima,J.、Russel,D.S.、Guibas,L.J.、Adams,P.D.和Brunger,A.T.(2005)。《水晶学报》。D类61, 1354–1363. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Beer,T.A.P.de,Laskowski,R.A.,Duban,M.-E.,Chan,A.W.E.,Anderson,W.F.&Thornton,J.M.(2013)。《水晶学报》。D类69, 2395–2402. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Berman,H.M.、Westbrook,J.、Feng,Z.、Gilliland,G.、Bhat,T.N.、Weissig,H.、Shindyalov,I.N.和Bourne,P.E.(2000)。核酸研究。 28,235–242科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Burden,F.R.(1989)。化学杂志。Inf.计算。科学。 29, 225–227. 交叉参考 中国科学院 科学网 谷歌学者
第一次引用Burden,F.R.(1997)。数量。结构-行动。相关。 16, 309–314. 交叉参考 中国科学院 科学网 谷歌学者
第一次引用Cooper,D.R.、Porebski,P.J.、Chruszcz,M.和Minor,W.(2011年)。专家操作。药物迪斯科。 6, 771–782. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Crippen,G.M.&Havel,T.F.(1988年)。距离几何和分子构象。汤顿:研究出版社。 谷歌学者
第一次引用Debreczeni,J.E.和Emsley,P.(2012)。《水晶学报》。D类68, 425–430. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Diller,D.J.、Pohl,E.、Redinbo,M.R.、Hovey,B.T.和Hol,W.G.J.(1999)。蛋白质,36, 512–525. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Evrard,G.X.、Langer,G.G.、Perrakis,A.和Lamzin,V.S.(2007年)。《水晶学报》。D类63, 108–117. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Forouhar,F.、Saadat,N.、Hussain,M.、Seetharaman,J.、Lee,I.、Janjua,H.、Xiao,R.、Shastry,R.,Acton,T.B.、Montelione,G.T.和Tong,L.(2011)。《水晶学报》。F类67, 1323–1327. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Girardi,E.,Wang,J.,Mac,T.T.,Versluis,C.,Bhowruth,V.,Besra,G.,Heck,A.J.,Van Rhijn,I.&Zajonc,D.M.(2010年)。免疫学杂志。 185, 376–386. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用A.戈洛文。等。(2004).核酸研究。 32,D211–D216科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Gueloget,A.、Roovers,M.、Guérineau,V.、Barbey,C.、Li,X.和Golinelli-Pinpaneau,B.(2010年)。核酸研究。 38, 6206–6218. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Gunasekaran,P.、Grandison,S.、Cowtan,K.、Mak,L.、Lawson,D.M.和Morris,R.J.(2009年)。生物信息学中的模式识别由V.Kadirkamanathan、G.Sanguinetti、M.Girolma、M.Niranjan和J.Noirel编辑,第125-136页。柏林,海德堡:施普林格。 谷歌学者
第一次引用Hamiaux,C.、Stanley,D.、Greenwood,D.R.、Baker,E.N.和Newcomb,R.D.(2009年)。生物学杂志。化学。 284, 3496–3503. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Hattne,J.和Lamzin,V.S.(2008)。《水晶学报》。D类64, 834–842. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Hattne,J.和Lamzin,V.S.(2011年)。J.R.Soc.接口,8, 144–151. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Heuser,P.、Langer,G.G.和Lamzin,V.S.(2009年)。《水晶学报》。D类65, 690–696. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Isaacs,N.W.和Agarwal,R.C.(1985)。方法酶制剂。 115, 112–117. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Kleywegt,G.J.(2007)。《水晶学报》。D类63,94–100科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Kleywegt,G.J.、Harris,M.R.、Zou,J.、Taylor,T.C.、Wählby,A.和Jones,T.A.(2004)。《水晶学报》。D类60, 2240–2249. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Koch,M.H.J.(1974年)。《水晶学报》。A类30, 67–70. 交叉参考 IUCr日志 科学网 谷歌学者
第一次引用Langer,G.G.、Evrard,G.X.、Carolan,C.G.和Lamzin,V.S.(2012年)。分子生物学杂志。 419, 211–222. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Langer,G.G.、Hazledine,S.、Wiegels,T.、Carolan,C.和Lamzin,V.S.(2013年)。《水晶学报》。D类69, 635–641. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Li,M.、Chen,C.、Davies,D.R.和Chiu,T.K.(2010年)。生物学杂志。化学。 285, 21487–21495. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Li,Y.、Choi,M.、Cavey,G.、Daugherty,J.、Suino,K.、Kovach,A.、Bingham,N.C.、Kliewer,S.A.和Xu,H.E.(2005)。分子电池,17, 491–502. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Liebeschuetz,J.、Hennemann,J.和Olsson,T.&Groom,C.R.(2012)。J.计算。辅助分子设计。 26, 169–183. 科学网 CSD公司 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Liu,T.&Altman,R.B.(2011)。公共科学图书馆计算。生物。 7,e1002326科学网 交叉参考 公共医学 谷歌学者
第一次引用Lo,C.-H.和Don,H.-S.(1989年)。IEEE传输。模式分析。机器故障。 11, 1053–1064. 交叉参考 科学网 谷歌学者
第一次引用Main,P.&Hull,S.E.(1978年)。《水晶学报》。A类34, 353–361. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用Mooij,W.T.、Hartshorn,M.J.、Tickle,I.J.、Sharff,A.J.、Verdonk,M.L.和Jhoti,H.(2006)。化学医药化学,1,827–838页科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Muller,Y.A.(2013)。《水晶学报》。F类69, 1071–1076. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Murshudov,G.N.、Skubák,P.、Lebedev,A.A.、Pannu,N.S.、Steiner,R.A.、Nicholls,R.A.、Winn,M.D.、Long,F.和Vagin,A.A.(2011年)。《水晶学报》。D类67, 355–367. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Oldfield,T.J.(2001)。《水晶学报》。D类57, 696–705. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Pozharski,E.、Weichenberger,C.X.和Rupp,B.(2013)。《水晶学报》。D类69, 150–167. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Rubinstein,R.Y.和Kroese,D.P.(2004)。交叉熵方法:组合优化、蒙特卡罗模拟和机器学习的统一方法。纽约:Springer-Verlag。 谷歌学者
第一次引用Shumilin,I.A.、Cymborowski,M.、Chertihin,O.、Jha,K.N.、Herr,J.C.、Lesley,S.A.、Joachimiak,A.&Minor,W.(2012)。结构,20, 1715–1725. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Tabachnick,B.G.和Fidell,L.S.(1996年)。使用多元统计,第三版,纽约:哈珀·柯林斯。 谷歌学者
第一次引用Terwilliger,T.C.、Adams,P.D.、Moriarty,N.W.和Cohn,J.D.(2007)。《水晶学报》。D类63, 101–107. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Terwilliger,T.C.、Klei,H.、Adams,P.D.、Moriarty,N.W.和Cohn,J.D.(2006)。《水晶学报》。D类62, 915–922. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Whitley,D.(1994)。统计计算。 4, 65–85. 交叉参考 谷歌学者
第一次引用医学博士温恩。等。(2011).《水晶学报》。D类67,235–242科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Zwart,P.H.、Langer,G.G.和Lamzin,V.S.(2004)。《水晶学报》。D类60,2230–2239页科学网 交叉参考 中国科学院 IUCr日志 谷歌学者

这是一篇开放获取的文章,根据知识共享署名(CC-BY)许可证它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

期刊徽标结构
生物学
编号:2059-7983