核酸研究。2006年1月1日;34(数据库问题):D296–D301。
大分子运动数据库:十年新特点
,1,三 ,2 ,三 ,6 ,4 ,三 ,6 ,三 ,6,7和三,4,5,*
塞缪尔·弗洛雷斯
1耶鲁大学物理系,美国康涅狄格州纽黑文208120号邮箱,邮编:06520-8120
三美国康涅狄格州纽黑文耶鲁大学惠特尼大道266号Bass 432A分子生物物理和生物化学系,邮编06520
纳撒尼尔·埃科尔斯
2美国加州大学伯克利分校分子与细胞生物学系,邮编:94720
邓肯·米尔伯恩
三美国康涅狄格州纽黑文耶鲁大学惠特尼大道266号Bass 432A分子生物物理和生物化学系,邮编06520
布兰登·赫斯彭海德
6美国亚利桑那州立大学物理与天文学系生物物理中心,亚利桑那州坦佩市,邮编85287
凯文·基廷
4计算生物学和生物信息学项目,Bass 432A,266 Whitney Avenue,Yale University,New Haven,CT 06520,USA
杰森·卢
三美国康涅狄格州纽黑文市耶鲁大学惠特尼大道266号Bass 432A分子生物物理和生物化学系,邮编06520
斯蒂芬·威尔斯
6美国亚利桑那州立大学物理与天文学系生物物理中心,亚利桑那州坦佩市,邮编85287
埃里克·Z·余
三美国康涅狄格州纽黑文耶鲁大学惠特尼大道266号Bass 432A分子生物物理和生物化学系,邮编06520
迈克尔·索普
6美国亚利桑那州立大学物理与天文学系生物物理中心,亚利桑那州坦佩市,邮编85287
7美国亚利桑那州立大学化学与生物化学系
马克·格斯坦
三美国康涅狄格州纽黑文市耶鲁大学惠特尼大道266号Bass 432A分子生物物理和生物化学系,邮编06520
4计算生物学和生物信息学项目,Bass 432A,266 Whitney Avenue,Yale University,New Haven,CT 06520,USA
5美国康涅狄格州纽黑文市耶鲁大学惠特尼大道266号巴斯432A计算机科学系,邮编06520
1耶鲁大学物理系,美国康涅狄格州纽黑文208120号邮箱,邮编:06520-8120
2美国加州大学伯克利分校分子与细胞生物学系,邮编:94720
三美国康涅狄格州纽黑文市耶鲁大学惠特尼大道266号Bass 432A分子生物物理和生物化学系,邮编06520
4计算生物学和生物信息学项目,Bass 432A,266 Whitney Avenue,Yale University,New Haven,CT 06520,USA
5美国康涅狄格州纽黑文市耶鲁大学惠特尼大道266号Bass 432A计算机科学系,邮编06520
6美国亚利桑那州立大学物理与天文学系生物物理中心,亚利桑那州坦佩市,邮编85287
7美国亚利桑那州立大学化学与生物化学系
2005年8月15日收到;2005年10月4日修订;2005年10月4日接受。
版权©作者2006。牛津大学出版社出版。保留所有权利 本文的在线版本是在开放存取模式下发布的。用户有权出于非商业目的使用、复制、传播或展示本文的开放存取版本,但前提是:原创作者是正确且完全归属的;《华尔街日报》和牛津大学出版社被认为是原始出版地,并提供了正确的引用细节;如果一篇文章随后不是全部复制或传播,而是部分复制或作为衍生作品传播,则必须明确指出。如需商业再使用,请联系gro.slanruojdrofxo@snoissimrep.slanruej
摘要
分子运动数据库MolMovDB(http://molmovdb.org)在过去十年中一直存在。它对大分子运动进行分类,并提供工具在两种构象(变形服务器)之间进行插值,并预测单个结构中可能的运动。2005年,我们扩展了MolMovDB上提供的服务。特别是,我们进一步开发了变形服务器,以在两个提交的结构之间生成改进的插值。我们在原始绝热映射插值中添加了对多链的支持,从而可以分析子单元运动。我们还添加了使用FRODA插值的选项,这允许更复杂的路径,有可能克服空间位阻。我们为铰链预测服务添加了一个接口,该服务作用于单个结构并预测可能的灵活性剩余点。我们开发了一些工具,将结构中的这些柔韧性点与特定的关键残基位置联系起来,即活性位点或高度保守的位置。最后,我们开始使用基因本体联盟的描述将我们的运动分类方案与功能联系起来。
简介
研究大分子运动对理解功能很重要。运动对于催化机制、信号传递和复合物的形成至关重要。此外,可访问构象的知识可用于提高对接代码的性能。由于这些原因,接收成对结构并生成假定运动轨迹的服务器在结构生物学中发挥着独特的作用。分子运动数据库(1–5)不仅是此类运动的存储库,还旨在系统地描述它们,并为其分析提供工具。
MolMovDB是研究蛋白质和其他大分子构象变化的资源,主要通过晶体结构分析。它被用于设计和测试各种结构分析算法。特别是变形服务器被许多科学家用来分析成对的构象并生成逼真的动画。
MolMovDB位于专注于蛋白质结构的数据库群中。其中包括蛋白质的结构分类(6),蛋白质数据库(PDB)(7)、CATH(8)以及其他许多人。这些数据库大多被设计为单个蛋白质结构的信息库或分类系统。MolMovDB与大多数不同之处在于它专注于运动。
基于两种结构对比的领域运动早期研究(9,10)产生了创建结构对数据库的想法。最初是一个简单的网页集合(10)MolMovDB很快发展成为一个具有分类方案的适当数据库(1,2,11). 随后,一个用于在PDB中发现和变形相关蛋白质的自动管道(三). 近年来的更新包括一个正常模式分析服务器,试图预测单个结构的可能运动(三)和显示灵活性统计信息分布的自动图形(4).
在本工作中,我们描述了MolMovDB的最新改进。我们已经开始使用GO提供的定义将我们的运动分类方案与功能分类联系起来(12). 增加了新的工具来将运动与特定位点联系起来,即活性位点和高度保守的残基。我们进一步开发了变形服务器,以在两个结构之间生成更真实的插值,并处理更大的运动。特别是,增加了一个使用FRODA的选项(13)为了找到空间上允许的轨迹,已经提供了一个多链选项,可以使用绝热映射获得复合体的轨迹。我们还为灵活性预测程序FlexOracle(S.Flores)添加了一个接口等.,已提交)。
MORPH服务器的改进
原始变形服务器使用绝热映射方法为单链生成变形。在这种方案下,一个结构上的每个原子与第二个结构上相应原子之间的距离均匀减小。在每次约简之后,这样的插值结构都会经历能量最小化步骤。生成的轨迹的有用性受到两个因素的限制。首先,以前版本的服务器无法处理复杂的内容。这种局限性阻碍了蛋白质内部空隙的大规模研究、螺旋-螺旋堆积、柔韧性预测和许多其他大规模结构分析。其次,我们发现当构象变化的轨迹偏离线性插值很远时,变形服务器通常会给出非物理结果。
为了解决这些限制,我们添加了两种新的变形方法。首先,一个新的多链选项允许使用绝热映射对复合体进行变形(11). 其次,新的FRODA选项使我们的变形服务器能够避免绝热映射中有时发生的空间位阻冲突。
使用绝热映射方法的多链变形
Morph Server的新多链选项被开发用于帮助研究大型复合物的构象变化,包括混合蛋白质-核酸结构。
虽然在服务器的早期版本中可以插入复合体,但它们受到精确匹配序列和有限间隙要求的限制。具有非常遥远同源性的蛋白质可以变形,但一次只能形成单链。我们的新服务器可以确定任意多个链的一致序列和坐标,并已成功用于55%序列一致性相关的结构。与前两个版本相比,输出更加忠实于原始晶体学数据,保留了大多数原子位置、残数和间隙。目前,同源结构的处理导致丙氨酸突变导致残基失配,但该设计足够灵活,可以添加其他方法来获得一致序列。
morph服务器的新FRODA选项
为了解决非线性轨迹中固有的潜在冲突,我们使用了新开发的FRODA(13)该模块是FIRST5软件套件的一部分。我们的提交页面现在提供了“FRODA精简版”(14)选项,它使用一组默认参数调用“定向动态”FRODA运行。在这种“lite”模式中,只有共价键的长度和角度保持不变,所有原子上都有适当的范德瓦尔斯半径,以避免碰撞(13). 由于在“lite”模式中没有考虑氢键约束,因此输入结构不需要添加氢键。带有FRODA的FIRST5全功能版本可在以下网址下载和在线使用:网址:http://flexweb.asu.edu其中还包括添加的氢原子,以及氢键约束和疏水系链(13).
FRODA背后的核心概念是使用几何模拟探索构象空间。模拟首先将一组鬼模板映射到蛋白质上,这样每个原子都至少属于一个模板。这些模板仅以可旋转的二面角相互重叠。分别显示了原子和两个鬼模板,分别为黄色和蓝色,FRODA分配给乙烷分子。这两个碳原子属于两个鬼模板,因为碳-碳键是可旋转的(柔性的)。最初,这些模板完美地映射到结构上,模板的每个边缘映射到蛋白质中的共价键。非共价相互作用不包括在FRODA lite的变形过程中。
在FRODA中通过几何模拟确定的乙烷分子的运动。(一)初始原子位置;(b条)鬼模板;(c(c))随机原子位移;(d日)鬼模板对原子的拟合;(e(电子))将原子重新装配为ghost模板;((f)和克)(d和e)的进一步迭代;(小时)直到找到新的构象13.
一旦鬼模板被映射到蛋白质原子,模拟将通过一系列置换和匹配步骤进行。每一步的结果都是一个新的构象。其中一个模拟步骤描述了乙烷分子,图中显示了绿色碳球和白色氢球.显示了映射到乙烷分子上的两个重影模板,黄色和蓝色,这样每个氢原子与一个顶点关联,而每个碳原子与两个顶点关联(每个重影模板中有一个顶点)。每一步都从每个原子位置的随机位移开始()基本上打破了所有的联系。现在开始一个迭代过程,以重新对齐原子及其相关模板。首先,鬼影模板尽可能适合原子的新位置(). 每个重影模板的位置和方向是通过与原子的新位置相适应的最小二乘法来计算的。然后将移位的原子拟合到重影模板的新位置(). 氢原子正好适合它们各自的虚模板位置,因为它们各自只属于一个模板。然而,碳原子各自属于两个模板,因此它们与各自关联的重影模板点的距离相等。这就结束了原子重影模板拟合的一次迭代。预定义的拟合公差决定了模板是否已充分重新对齐,从而结束了FRODA中的一个步骤。中的模板超出了拟合公差,因此重影模板-原子拟合的迭代仍在继续。分别显示了将模板重新装配到原子上,以及将原子重新装配到模板上。可以看出,第二次迭代,,生成的模板与中第一次迭代的结果相比对齐得更好。该过程将继续,直到原子和重影模板在公差范围内对齐。对齐是通过原子和顶点之间的距离来测量的。FRODA lite的公差≤0.125Å。FRODA的一个完整步骤产生乙烷分子的新构象().
FRODA lite使用的变形过程是从初始结构定向到目标,因此与中给出的示例略有不同在变形过程中,每个步骤开始时原子的初始随机位移现在会发生偏移,以将原子移向目标结构中各自的位置。结果是从最初的结构逐渐过渡到目标结构。重要的是要注意,在每次迭代期间都会计算空间重叠,以便原子在拟合期间移动,以匹配重影模板并遵守排除体积约束。
如果结构发现自己处于卡住的位置,以致无法满足公差,它将恢复到以前的一致性并继续变形。原子位移中的随机元素提供了一定程度的模拟退火,以便结构能够绕过小障碍物。因此,FRODA产生的路径避免了空间不可能的轨迹。
柔性分析工具接口
最后,大多数关于灵活性的研究都是以预测特定构象变化为目标的。为此,我们构建了FlexOracle灵活性分析工具的界面,可从MolMovDB的首页访问。该服务器的目标是为公众提交的结构提供铰链预测。FlexOracle和正常模式分析服务器(三)与morph服务器的不同之处在于,前两个操作用户提交的单个结构,第三个操作一对结构。
链接到MolMovDB首页的铰链预测服务器提交表单。邀请用户提交单个PDB(7)包含单链的文件。提交后,FlexOracle将在结构上运行。将向用户发送一封电子邮件,其中包含可以查看结果的URL。
FlexOracle铰链预测算法(S.Flores等.,提交出版),在残留物之后将切口引入结构中我.结果N个-残基为1至的末端片段我−1与残基从C末端片段分离我到N个.使用CHARMm计算每个片段的分子内势能(15). 隐式溶剂模型用于解释蛋白质-溶剂相互作用。将这两个碎片对应的能量相加。重复该过程我=2至N个该程序与Janin和Wodak使用的程序类似(9)在他们的溶剂暴露面积计算中。继续比较我这导致较低的能量对应于铰链中的残留物。正如在我们的服务器上实现的那样,预测器仅在提交的链代表生物分子(即不以复合物形式出现)且可溶时才起作用。对于这些情况,预测与已知的铰链相比较。
对于在提交的结构上运行FlexOracle的蛋白质,我们链接到能量与我(). 为了将预测的铰链与实际铰链进行比较,我们准备了一组小变形,让FlexOracle在两个提交的结构中的第一个结构上运行。这些可以在molmovdb.org/sets/curedFlexOracle上查看。
新的变形页面。上一页现在称为morph-classic.cgi,仍然可以通过链接访问。特点:(一)链接到序列同源性>99%的PDB条目的页面;(b条)突出显示CSA数据库中的活动站点(如果条目存在于任何密切同源项中);(c(c))扭转角图可用于指导铰链的选择;(d日)如果您希望为我们的铰链研究做出贡献,请使用箭头按钮通过目视检查手动选择最多三个铰链;(e(电子))提交您的铰链选择,以及任何评论。评论出现在我们的公共公告栏上;((f))如果我们的FlexOracle铰链预测程序已经在变形的第一帧上运行,那么可以在这里查看能量与剩余数的关系图;(克)观众可以突出显示10个最佳铰链(能量最低,按能量升序排列)。
基本分类的改进
除了改进两结构和单结构服务器之外,我们还改进了MolMovDB中的底层分类。这些改进的方向是将结构与功能联系起来,并允许我们将相关的变体与其同系物组合在一起。
GO注释
我们集成了来自EBI基因本体注释(GOA)项目的数据集子集(12),进入服务器。特别是,我们实现了对给定运动或变形中的PDB标识符的GO项的查找和显示。三个GO组织原则(分子功能、细胞成分和生物过程)中的每一个的术语都会在可用时显示出来(在撰写本文时,有191040处引用了24703个PDB结构),并提供了链接以揭示各个术语的定义。例如,对于来自水热Thermus aquaticus(数据库运动“taqpol”,PDB代码2ktq和3ktq),运动报告可以用六个GO术语注释:DNA结合、核酸酶活性、5′-3′核酸外切酶活性、DNA定向DNA聚合酶活性(所有分子功能)、细胞内(细胞成分)和DNA复制(生物过程)-这个酶的所有适当术语。
添加用于运动和变形报告注释的GOA数据集不仅本身有用,因为添加GO术语也有助于以比以前更广泛的方式搜索数据库。此外,我们还添加了一些有趣的新子集,用于自动绘图仪三从包含GO术语的搜索中派生。显示了一个特定统计信息的分布,即以这种方式导出的两个子集结构第二(移动)核心的最大Cα位移,以及出于比较目的而包含的第三个统计信息,显示了相同统计信息在数据库中所有规范变形中的分布。这些图是解决特定类型的运动是否与生物系统中的特定功能或角色相关的问题的第一步。
与参考形态数据集(200个典型形态底部)相比,用GO术语注释的结构中移动成分(第二核心)的最大Cα位移分布的示例图(“DNA结合”,17个形态顶部;“代谢”,17个形态中心)。深色条表示第二个核心最大Cα位移低于中值的变形,而浅色条表示上述变形。
PDB ID与MORPH ID爆炸特征
MolMovDB的首页长期以来提供了一个通过PDB ID进行搜索的功能。由于许多用户直接上传结构文件,而不是提供PDB标识符,这一功能受到了限制。此外,提交的结构往往未发表,因此完全没有出现在PDB中。对于这些变形,没有指定PDB ID,因此使用此搜索方法无法找到它们。
为了克服这些缺点,有必要为这些变形指定PDB ID。为此,我们在PDB中搜索与数据库中的变形序列一致性>99%的结构。然后,这些信息被用于在我们的首页上提供额外的搜索选项。也可以使用此功能通过提供PDB ID连接到我们的数据库,就像在LinkHub上所做的那样(a.Smith等.,手稿正在准备中)。相反,可以搜索具有给定变形的高序列标识的PDB ID(,a)。另一个好处是,可以将注释从密切相关的PDB结构转移到相应的变形。我们利用此功能将活性位点注释指定给来自催化位点图谱(CSA)的变体(19).
将运动与结构上的场地联系起来的工具
用户通常希望将结构中特定残基的运动与特定的结构位点和特征联系起来,例如活性位点或高度保守残基的位置。我们构建了工具,现在可以实现这两种功能。
催化现场突出显示
我们将变体与CSA中确定的活性位点联系起来(19). CSA是手动管理的,因此避免了使用PDB SITE记录的各种陷阱。
我们从Thornton小组提供的表格中获得了活性位点残数和相应的PDB ID。我们注释了由同源表链接到CSA中条目的所有变体。当注释可用时,变形页面上会出现一个按钮,以突出显示活动站点残留物。这可以作为理解催化和运动之间联系的视觉帮助。
为了更轻松地浏览此功能,我们添加了一个新库(2)命名为“催化现场地图集”。此库中的每个变形都有可供查看的活动站点信息。
保存分数查看器
由于高度保守的残基更有可能在蛋白质的功能中发挥重要作用,我们实现了一个工具来计算提交序列的每个残基的保守得分。服务器突出显示了最保守的5%的残留(即保存分数最高的残留)。
为了计算这些保守性得分,我们首先针对nrdb90对输入序列进行BLAST搜索,nrdb90是一个非冗余序列数据库,其中蛋白质序列彼此之间的序列一致性不超过90%(20). 接下来,我们将多达50个顶部对齐的序列提取到给定的变形,以使用Clustal W生成多序列对齐(21). 对于多重序列比对中的每个位置,我们使用信息含量来评估该位置20种氨基酸中每一种的一致性(22). 然后,我们根据信息内容的大小对每个位置进行排序。
致谢
亚利桑那州立大学的这项工作得到了NSF、NIH和亚利桑那州立大学基金会的支持。
利益冲突声明。未声明。
参考文献
1Gerstein M.,Krebs W.高分子运动数据库。核酸研究。1998;26:4280–4290. [PMC免费文章][公共医学][谷歌学者] 2Krebs W.G.,Gerstein M.变形服务器:在数据库框架中分析和可视化大分子运动的标准化系统。核酸研究。2000;28:1665–1675. [PMC免费文章][公共医学][谷歌学者] 三。Krebs W.G.、Alexandrov V.、Wilson C.A.、Echols N.、Yu H.、Gerstein M.数据库框架中大分子运动的正常模式分析:将模式集中作为有用的分类统计。蛋白质。2002;48:682–695.[公共医学][谷歌学者] 4Krebs W.G.、Tsai J.、Alexandrov V.、Junker J.、Jansen R.、Gerstein M.分析蛋白质灵活性的工具和数据库;将隐含特征映射到序列的方法。方法酶制剂。2003;374:544–584.[公共医学][谷歌学者] 5Qian J.、Stenger B.、Wilson C.A.、Lin J.,Jansen R.、Teichmann S.A.、Park J.、Krebs W.G.、Yu H.、Alexandrov V.等。PartsList:基于不同属性(包括全基因组表达和交互信息)的蛋白质折叠动态排序的网络系统。核酸研究。2001;29:1750–1764. [PMC免费文章][公共医学][谷歌学者] 6Murzin A.G.、Brenner S.E.、Hubbard T.、Chothia C.SCOP:用于序列和结构研究的蛋白质数据库的结构分类。分子生物学杂志。1995;247:536–540.[公共医学][谷歌学者] 7Berman H.M.、Westbrook J.、Feng Z.、Gilliland G.、Bhat T.N.、Weissig H.、Shindyalov I.N.、Bourne P.E.蛋白质数据库。核酸研究。2000;28:235–242. [PMC免费文章][公共医学][谷歌学者] 8Pearl F.、Todd A.、Sillitoe I.、Dibley M.、Redfern O.、Lewis T.、Bennett C.、Marsden R.、Grant A.、Lee D.等人。CATH域结构数据库和相关资源Gene3D和DHS为基因组分析提供了全面的域家族信息。核酸研究。2005;33:D247–D251。 [PMC免费文章][公共医学][谷歌学者] 9Janin J.、Wodak S.J.蛋白质的结构域及其在蛋白质功能动力学中的作用。掠夺。生物物理学。分子生物学。1983;42:21–78.[公共医学][谷歌学者] 10Gerstein M.,Lesk A.M.,Chothia C.蛋白质结构域运动的结构机制。生物化学。1994;33:6739–6749.[公共医学][谷歌学者] 11M Gerstein R.J.、Johnson T.、Tsai J.和Krebs W.在数据库框架中研究大分子运动:从结构到序列。刚性理论应用。1999:401–442. [谷歌学者] 12Camon E.、Magrane M.、Barrell D.、Lee V.、Dimmer E.、Maslen J.、Binns D.、Harte N.、Lopez R.、Apweiler R.基因本体注释(GOA)数据库:在Uniprot中与基因本体共享知识。核酸研究。2004;32:D262–D266。 [PMC免费文章][公共医学][谷歌学者] 13.Wells S.、Menor S.、Hespenheide B.M.、Thorpe M.F。物理学。生物。2005(印刷中)[公共医学][谷歌学者] 14Jacobs D.J.、Rader A.J.、Kuhn L.A.、Thorpe M.F.使用图论预测蛋白质柔韧性。蛋白质。2001;44:150–165.[公共医学][谷歌学者] 15Brooks B.R.、Bruccoleri R.E.、Olafson B.D.、States D.J.、Swaminathan S.、Karplus M.CHARMM:高分子能量、最小化和动力学计算程序。J.计算。化学。1983;4:187–217. [谷歌学者] 16Lindahl E.、Hess B.、van der Spoel D.GROMACS:分子模拟和轨迹分析软件包。J.摩尔模型。2001;7:306–317. [谷歌学者] 17Rader A.J.、Hespenhide B.M.、Kuhn L.A.、Thorpe M.F.蛋白质展开:刚性丧失。程序。美国国家科学院。科学。美国。2002;99:3540–3545. [PMC免费文章][公共医学][谷歌学者] 18Thorpe M.F.、Lei M.、Rader A.J.、Jacobs D.J.、Kuhn L.A.使用约束理论的蛋白质柔性和动力学。J.摩尔图。模型。2001;19:60–69.[公共医学][谷歌学者] 19Porter C.T.、Bartlett G.J.、Thornton J.M.《催化位点图谱:使用结构数据在酶中识别的催化位点和残基的资源》。核酸研究。2004;32:D129–D133。 [PMC免费文章][公共医学][谷歌学者] 20Holm L.,Sander C.从大型蛋白质序列收集中移除近邻冗余。生物信息学。1998;14:423–429.[公共医学][谷歌学者] 21Thompson J.D.、Higgins D.G.、Gibson T.J.CLUSTAL W:通过序列加权、特定位置间隙惩罚和权重矩阵选择提高渐进式多序列比对的敏感性。核酸研究。1994;22:4673–4680. [PMC免费文章][公共医学][谷歌学者] 22Schneider T.D.、Stormo G.D.、Gold L.、Ehrenfeucht A.核苷酸序列上结合位点的信息含量。分子生物学杂志。1986;188:415–431.[公共医学][谷歌学者]