跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
美国国家科学院院刊。2004年3月9日;101(10):3352–3357。
2004年2月26日在线发布。 数字对象标识:10.1073/pnas.0307851100
PMCID公司:下午73465
PMID:14988499
来自封面

蛋白质结构中水的预测

关联数据

补充资料

摘要

蛋白质已经进化成利用水来引导折叠。在蛋白质结构预测中加入一个基于物理动机的非通气性水介导相互作用模型——哈密顿量,显著提高了较大蛋白质的结构预测质量。自由能剖面分析表明,长程水介导电位引导折叠并使下面的折叠漏斗平滑。通过分析模拟轨迹,可以直接证明水介导的相互作用促进了超次级结构元素的天然堆积。亲水基团的长程配对是蛋白质结构的组成部分。特定的水介导的相互作用是生物分子识别景观在折叠和结合中的普遍特征。

水与蛋白质折叠密切相关(14). 蛋白质在加热和冷却时变性强烈暗示了水的自由度。考兹曼(5)正确地从热力学推断出蛋白质结构的疏水分层特征,然后再通过晶体学方法确定蛋白质结构。在讨论蛋白质折叠机制时,通常会考虑排水动力学,但同样强调的是避免在最终折叠结构中出现水(1). 疏水性模式一直是使用序列数据预测蛋白质结构的主要考虑因素(6)是合成蛋白质设计的基础(7). 然而,在大多数现有的结构预测算法中,水的结构特征并不是最重要的因素(8). 这些通常依赖于有效对电势(9)或掩埋表面积项来解释掩埋疏水残基的自由能(10)。

在本文中,我们假设特定的水介导的相互作用有助于指导折叠过程,甚至在天然接触形成之前。利用这个想法,我们开发了一种生物信息学,考虑水的非通气加性相互作用模型表明,它大大提高了α螺旋蛋白结构预测的效率和准确性。对具有这种潜力的折叠轨迹的分析强烈暗示了长距离水介导相互作用的指导作用。有趣的是,我们发现长程亲水性相互作用,与疏水性相互作用不同,也占据了中心地位。

水介导电位的生物信息学途径在几个方面都很困难(关于更直接的物理方法,请参阅参考文献。11). 虽然结合水在结构中可见,但定位水比定位主链原子更困难。单体蛋白质结构也具有相对较少的可见水介导的相互作用。我们通往水介导潜能的道路始于蛋白质-蛋白质相互作用的能量景观分析和二聚体结构界面的生物信息学调查(12,13). 我们发现经常使用的接触电位(9)很好地描述了疏水结合界面;然而,亲水界面的识别率很低(13). 这一发现表明,由水介导的远程界面接触在稳定这些界面方面起着重要作用(13). 为了验证这个假设,我们推导了直接和水介导的结合电位(13). 当这两种电位同时使用时(13)实现了对不同结合界面的平滑识别(与直接接触电位相比)。在这里,我们表明,水介导的相互作用不仅在结合界面中,而且在单体蛋白质的折叠中发挥着重要作用。

我们使用缔合记忆(AM)哈密顿分子动力学模型作为起点(1416). 该哈密顿量有两个主要组成部分:基于序列无关的通用聚合物物理术语,统称为“主干”,以及基于序列相关的知识距离相关加性势,统称AM/C(AM/接触)。AM部分描述了在3到12个残基之间按顺序分离的所有残基对之间的相互作用。它使用一组非同源记忆蛋白,通过匹配片段来构建一个漏斗状的能量景观。C部分适用于按顺序由>12个残留物分离的残留物之间的三级接触。潜力中的所有参数均已根据所述的能源景观理论,采用自持程序进行优化(15)(请参见附录:计算细节支持文本,作为支持信息发布在PNAS网站上)。

AM/C势的C部分描述了每个残基对中Cβ(Gly的Cα)原子之间的有效相互作用。它由三口井组成,涵盖4.5至8.5奥、8.5至10.0奥和10.0至15.0奥距离段。同样,本研究中使用的电位包含4.5-6.5-Au层段的第一口井,而第二口井则由局部密度相关电位取代(下文讨论)。它们不包含第三个井,因为水不太可能在如此长的距离(10-15℃)内介导特定的相互作用。此外,还存在一种残留物特异性多体埋藏剖面潜力,描述了所有20种氨基酸的配位偏好。我们称之为AM/W(水的W)的产生电位的参数通过使用我们早期基于序列的方法进行了优化(13). 我们使用来自能源景观理论的基于结构的自我协调优化方案进一步细化了这些参数(15). 我们表示原始电势AM/W-0,以及更精细的电势AM/W-1(参见计算细节附录支持文本)。

对于我们研究中考虑的粗粒度模型,水介导接触的定义自然比全原子模拟中的定义更加间接。由于直接接触被定义为发生在Cβ(Gly的Cα)原子之间的距离小于6.5º的残基之间,因此对水介导接触的类似约束将其置于6.5-9.5º的距离区间。参考文献中对这种选择的理由进行了更广泛的讨论。13其中,对于水介导接触范围的各种替代定义,蛋白质结合识别的结果也被发现是稳健的。

为了通过水进行相互作用,我们要求两种残留物都充分暴露在水中,或者等效地,两种残渣都不应埋藏在蛋白质内部(疏水核)。为了对此进行建模,我们使用高度非相加的局部密度相关电位:当对中的任一残基的局部邻域密度达到临界阈值以上(即被掩埋)时,电位平稳但快速地从水介导转换为蛋白质介导。

结果和讨论

相互作用势的物理解释。在讨论模拟结果之前,我们简要分析了AM/C和AM/W相互作用势之间的主要定性差异。AM/W电位第一阱范围内的相互作用和第二阱的蛋白质介导的相互作用在性质上类似于它们对应的AM/C对应物(参见图1A类B类). 主要区别在于第二井水介导的相互作用中亲水残基之间的相互作用(参见图1C类). 尽管极性第二阱相互作用在AM/C电位上平均不稳定,但当两个残基处于低密度环境中时,即当残基通过水相互作用时,它们在AM/W电位上高度稳定(图1C类)。

保存图片、插图等的外部文件。对象名称为zpq0040435920001.jpg

比较了生物信息学预测能量函数中的详细交互作用。我们将210个残基间残基对划分为165对,其中165对具有至少一个疏水性伴侣(疏水基团),45对在该对中仅具有带电和极性残基(极性基团)。矩阵元素的正值越大,说明相互作用越有利。(A类)显示了具有至少一个疏水性伙伴的残基对之间第一阱相互作用的165个相互作用矩阵元。疏水基团第一阱相互作用在AM/C和AM/W电位之间显示出非常相似的曲线。(B类)显示了所有带电残基对和极性残基对之间第一阱相互作用的45个相互作用。除了在AM/W-0和AM/W-1电位中更不稳定的最带电对外,每个电位中的第一阱极性群接触相互作用非常相似。(C类)显示了所有带电残基对和极性残基对之间的第二阱蛋白介导(填充符号)和第二阱水介导(点符号)相互作用的45个相互作用。同样,AM/W中的第二阱蛋白介导的相互作用与AM/C中的相似,但AM/W水介导的交互作用不同(见正文讨论)。

尽管这些潜力的起源是基于知识的,但研究它们的细节可以对生物分子力的性质产生有趣的物理见解(13). 荷电残基相互作用的研究图1B类C类这表明,当形成完全直接接触时,必须付出很大的脱溶代价,因此,带电和极性很高的残基倾向于通过一个或两个水层相互作用来避免完全脱溶。更有趣的是,当通过水相互作用时,不仅带相反电荷的残基相互吸引,而且带相同电荷的残基也相互吸引(图1C类). 这一发现表明,相同电荷的残基改变了它们的相互pK所以只有一个残基是真正带电的(即一个残基带电荷-极性相互作用),或者是反离子云的相关波动(17)水-氢结合网络的微扰将类电荷残基结合在一起。

总体趋势。鉴于上述电位之间的差异,我们预计AM/W电位将显著改善那些在其自然状态下包含显式水脊相互作用的蛋白质的AM/C电位结果。正如我们将要看到的,这些水介导的相互作用在链的崩塌和折叠过程中也会短暂出现,并有助于引导杂聚合物进入正确的拓扑结构。对于选择用于研究的14种蛋白质(如下所述),我们进行了五次不同的退火(7.2×105时间步长),从高温下随机生成的扩展线圈构象开始,使用三种电位(AM/C、AM/W-0和AM/W-1)中的每一种(我们没有优化AM/W电位的退火协议,也没有使用其他最小化技术;参考文献。18). 对于每次运行,我们都以相同的时间间隔拍摄了240张快照,通过使用接触重叠测量来监控实现原生形态的进度.我们的措施比通常的接触更严格因为它不仅考虑了本机结构中发生的接触的正确性,而且还考虑了所有残基对之间距离的正确性(即使它们在本机状态中相距很远)。除了在讨论各种结构时,我们使用了其他结构相似性度量,如均方根位移(RMSD)和组合扩展(CE)方法,这使得两个构象的序列相关对齐(19). 比较蛋白质结构是一件棘手的事情,涉及到所讨论的几种相似性方法,这也许并不奇怪(20)。

由于参数过度学习的风险,任何基于知识的潜力的验证都必须在一组无关的测试蛋白上进行。所用的14个α-螺旋蛋白中有9个是AM/C电位的“训练”蛋白,即,它们用于推导电位的AM和C部分的参数(15). AM/W-0的W部分通过使用基于序列的技术对一组不相关的蛋白质进行优化。因此,对于AM/W-0三级接触电位,这九种蛋白质部分用作测试蛋白质。另一方面,AM/W-1电位的W部分是通过使用相同的九种蛋白质训练集进行精炼的。我们强调这些关系是为了关注过度学习的可能性。有必要对一组不相关的测试蛋白应用这种潜力以进行确认。

AM/W电位的表现由五种α螺旋测试蛋白很好地记录下来,我们在下面详细讨论了这五种蛋白(另请参见支持文本). 两种测试蛋白质[蛋白质数据库(PDB)代码1BG8(21)和1JWE(22)]是来自CASP3(蛋白质结构预测技术的关键评估)事件的目标(参考。20; 有关所有CASP结果的详细汇编,请访问网址:http://predictioncenter.llnl.gov)、和三个,目标T0170[PDB代码1H40(23)],目标T172b[PDB代码1N2X(24)]和目标T129a【PDB代码1IZM(A.Galkin、E.Sarikaya、C.Lehman、A.Howard和O.Herzberg,个人通信)】,取自CASP5事件(http://predictioncenter.llnl.gov和参考。25). 我们的结果与CASP对这些蛋白质的预测结果相比较(http://predictioncenter.llnl.gov),但已获得后部(虽然是以相当自动的方式),不应被视为新的CASP条目。然而,由于许多预测小组参与了CASP,CASP实验产生了宝贵的统计数据,可用于校准进展。

当最好的时候比较所有14种蛋白质在所有五次退火过程中获得的每个蛋白质的得分(图2),以下趋势变得明显。首先,AM/C和AM/W电位对小(<115个残基)训练蛋白表现出相似的性能。对于小测试蛋白,1BG8(21)AM/W-0和AM/W-1电位都大大改善了T0170,而只有AM/W-0.才能改善T0170。当考虑到最大的蛋白质(>115个残基)时,最显著的趋势是非常可取的。通过AM/W-0和AM/W-1电位,训练和测试蛋白质的预测都得到了系统的改进,后者的趋势更加一致(图2). 对于大蛋白质,提高0.05–0.10英寸是非常重要的,通常会将全球RMSD提高几奥,并显著提高其他折叠识别措施,如CEZ轴分数。

保存图片、插图等的外部文件。对象名称为zpq0040435920002.jpg

结构预测性能以及AM/C、AM/W-0和AM/W-1电位的比较。最大值显示了使用三种不同电位对14种蛋白质中的每一种进行五次退火过程中获得的分数与链长的关系。训练蛋白的PDB代码为紫色,测试蛋白为绿色。

具体目标。利用三级接触电位结合长程水介导的相互作用在蛋白质结构预测方面取得了实质性进展,我们接下来将研究结构识别改进的原因。我们关注三种蛋白质:()PDB代码2FHA(26),一种训练蛋白,是蛋白质组中最大的一种;(ii(ii))PDB代码1BG8(21)AM/W-0和AM/W-1均显示出显著改善的一种小测试蛋白;和()CASP5靶向T129a(A.Galkin、E.Sarikaya、C.Lehmann、A.Howard和O.Herzberg,个人沟通),这是蛋白质集中最大的测试蛋白,具有两个相互作用的域。

人铁储存蛋白,铁蛋白[PDB代码2FHA(26)],是研究的最大蛋白质(172个残基)。虽然它是AM/C的一种训练蛋白,但当同时使用AM/W-0和AM/W-1时,结构预测有了很大的改进(图3A类). 在冷却计划期间,本机轨迹之间的分歧发生在T型=1.05。为了进一步评估电位之间的差异,我们进行了自由能计算,作为通过使用组织编程技术(16). 这些计算表明,AM/W-0相对于AM/C的自由能最小值向更自然的结构转移(数据未显示)。此外,热力学能量是(图3B类)表明AM/W-0能量分布比AM/C略为漏斗状。AM/C电位比AM/W电位产生更粗糙的能量分布。这在E类()的绘图图3B类由AM/C势能表面的更深陷阱的缓慢探测引起的统计噪声引起。这些热力学观测至少部分解释了AM/W势预测的改进。

保存图片、插图等的外部文件。对象名称为zpq0040435920003.jpg

铁蛋白的结构预测,PDB代码2FHA。(A类)最好的(每个潜力五个)-给出了三种不同势能下的分数退火轨迹。(B类)平均热力学能量vs。.(C类)AM/W-0最佳叠加-标出了分数结构(蓝色)和原生结构(红色)。球体表示带电的残余Cα原子。(D类)AM/W-0最佳距离图-分数结构(蓝色,上三角)和本地结构(红色,下三角)。(E类)AM/C最佳距离图-比较了分数结构(蓝色,上三角)和本地结构(红色,下三角)。在AM/W-0结构中(D类),只有少数联系人丢失,并且在剩余70附近发生了少量注册表偏移。在AM/C结构中(E类)主螺旋间界面上的C端一半缺失。

最高的AM/W-0退火后的结构叠加在天然铁蛋白结构上图3C类。CE结构对齐方法提供了Z轴134个残基的RMSD为3.4º(a)的比对得分为5.7Z轴得分>3.5被视为重要的折叠识别)。第一个和最后15个残基未经CE校准,如图3C类。由于这两个相对较小的片段被错误打包,10.2º的全球RMSD结果有些误导。本地结构和预测结构的距离图(图3D类)表明整个褶皱和第三次相互作用被非常准确地捕获。另一方面,最佳AM/C快照仅正确描述了整体结构的一小部分(118个残基与5.0º的RMSD一致Z轴3.9分)。当我们划分-将数据分为短序列和中等序列的天然接触(在3到12个残基之间),而不是长序列的天然接触(三级接触,>12个残基),然后得到短的中等的AM/C和AM/W电位相当相似(=0.74和=0.59与。=0.79和= 0.64). 主要性能增益来自超次级结构元件的改进封装(长的=0.20与。长的=0.36)。虽然可以预期,但由于描述短距离和中距离接触的AM电势由所有电势共享,这一发现直接表明,AM/W电势通过更好地处理三次相互作用改善了本征性。

我们观察到小测试(CASP3)蛋白在天然结构识别方面有很大增强,它是大肠杆菌应激反应蛋白HdeA[PDB编码1BG8(21)]. 最佳预测结构与AM/W-1和本地结构的叠加如所示图4A类.总体而言得分为0.47,总76个残基中70个残基的CE比对得出的RMSD为4.2ºZ轴3.7分。全球RMSD为5.1亿。最佳AM/C预测(图4B类)再次正确捕获结构的大块(残基7-62的CE比对产生Z轴得分3.3分,RMSD为5.7欧),但未能在全球范围内实现=0.31,全球RMSD=12.0 Au)。自由能计算表明F类()对于AM/W电位而言,基本上向本机方向移动(图4C类),使退火结果合理化。

保存图片、插图等的外部文件。对象名称为zpq0040435920004.jpg

1DeA、PDB代码1bg8(CASP3)的结构预测。(A类)最好的叠加-AM/W-1电位的得分结构(蓝色)和本征结构(红色)如图所示。球体表示带电的残余Cα原子。(B类)最好的叠加-AM/C电位的得分结构(蓝色)和本征结构(红色)如图所示。(C类)自由能vs。用组织编程技术计算。(D类)单个碎片的退火轨迹分数、含有残基1-61的大N端片段和含有残基62-76的小C端结构域显示为整个运行过程中瞬时温度的函数。(E类)碎片间的退火轨迹显示分数。(F类)碎片间的退火轨迹示出了划分为第一井和第二井贡献的分数。

对HdeA序列的仔细检查表明,N端和C端11个残基片段都带高电荷(N端片段中有四个带电荷残基,C端片段中七个带电荷的残基)。图4B类表明AM/C电位错误地包装了这些终端碎片。为了进行分析,我们将蛋白质分为两个片段:一个较大的N末端片段,由残基1-61组成,另一个较小的C末端片段,包含残基62-76。相应碎片的退火轨迹分数(图4D类)表明AM/C和AM/W-1产生的碎片结构在性质上类似T型=0.8,在该温度下,较大的碎片经历AM/W-1电位本征性跳跃。在这一事件发生之前,分歧立即爆发价值(图4E类)表明天然碎片间界面的形成使较大碎片的折叠成核。我们对碎片进行了额外分区注入第一口井和第二口井(图4F类). 该分析表明,界面识别的主要改进来自第二口井的相互作用。因为AM/W-1中蛋白质介导的第二阱相互作用大大减弱(参见图1C类)我们注意到C末端片段的带电性质(图4A类)我们发现,正是AM/W水介导的相互作用极大地促进了HdeA中二级结构元素的正确填充。

当HdeA晶体结构最初发表时,杨. (21)找不到与任何其他已知蛋白质的任何序列或结构相似性。其功能作用也不得而知(21). 在随后的研究中(27)证明HdeA对细菌病原菌具有耐酸性(HdeA在极端酸性条件下是稳定的)。研究表明,在中性pH值下,HdeA形成二聚体(二聚体界面主要由疏水残基形成),当pH值显著降低时,二聚体离解成为活性单体(27)解离的确切机制尚不清楚。Gajiwala和Burley(27)假设pH诱导的未知性质的构象变化可能导致解离。根据我们的分析,末端片段质子化状态的改变确实可能导致大的结构重排,可能导致二聚体分离。

用于分析的最终测试蛋白是一个双域CASP5靶蛋白,T129a[PDB代码1IZM;在撰写本文时,该结构尚未发布(a.Galkin、E.Sarikaya、C.Lehmann、a.Howard和O.Herzberg,个人通信)]。距离图比较最佳(0.36)预测结构和晶体结构(图5A类)显示蛋白质折叠的主要特征被很好地捕获(全球RMSD在8.7℃下被发现)。有趣的是,同一快照也具有最好的域间同一轨迹的得分。但是,有些快照的单个域结构稍好一些,但停靠不正确(图5B类). 个人领域II最佳AM/C和AM/W-1轨迹之间的分数具有相似的质量,但AM/W-1电位为域I产生更多的原生结构(图5C类). 与HdeA的情况一样,域间(图5D类)显示了与AM/C相比AM/W-1的最大改进。分区域间第一和第二口井的贡献(图5E类F类)再次得出结论,水介导的相互作用增强了超二级结构元素的天然堆积。

保存图片、插图等的外部文件。对象名称为zpq0040435920005.jpg

CASP5靶蛋白T129a的结构预测(PDB代码1IZM,撰写本文时尚未正式发布结构信息)。(A类)AM/W-1最佳距离图-显示了分数结构(蓝色,上三角)和本机结构(红色,下三角)。(B类)单个域最佳和的AM/W-1结构的距离图图中显示了分数(蓝色,上三角)和本机结构(红色,下三角)。(C类)单个域的退火轨迹分数、含残基1-75的N末端结构域和含残基76-170的C末端结构域显示。(D类)域间退火轨迹显示分数。(E类)畴间第一阱的退火轨迹绘制分数。(F类)畴间第二阱的退火轨迹绘制分数。

在粗颗粒水平上,直接接触相互作用和长程水介导相互作用之间的相互作用都指导着折叠过程,这表明了一些新的蛋白质物理学。直接接触电位大致相当于蛋白质与其溶剂环境之间的表面张力,而长程水介导的相互作用取决于蛋白质-水界面的曲率。极性物种和带电物种在反离子存在下的复杂溶剂化物理形成了曲率景观。我们的结果表明,至少在所研究的案例中,进化已经调整了表面张力和曲率的贡献,以符合最小挫折原则(28)。

结论

总之,无论是单体的折叠还是许多二聚体的结合,特定的水介导的相互作用都是生物分子识别的一个普遍特征。我们已经证明,在结构预测中,通过非通气性加性转换电位,将长程水介导的相互作用纳入哈密顿量,可以系统地改进对蛋白质结构的预测。对模型退火轨迹的详细分析明确表明,水介导的相互作用确实有助于将超二级结构元素正确组装成全球原生褶皱。我们希望,本文中提出的水模型也将有助于推进正在进行的重要工作,以构建用于生物和非生物系统自组装的水的精确粗粒度表示。

补充材料

支持信息:

致谢

我们感谢迈克尔·普伦蒂斯(Michael Prentiss)帮助建立CASP5目标计算和有用的讨论;Yaakov Levy博士在准备手稿时提供有用的意见;Osnat Herzberg博士允许我们显示CASP5目标T129a的距离图图5晶体信息发布前;以及W.M.Keek基金会,以提供对W.M.Keek综合生物学实验室计算资源的访问。G.A.P.感谢美国国立卫生研究院通过博士后奖学金对这项工作的慷慨支持。J.U.感谢瑞典研究委员会和圣地亚哥超级计算中心提供博士后奖学金。P.G.W.在蛋白质折叠概念方面的努力得到了美国国立卫生研究院拨款5R01GM44557的支持。获得了国家科学基金会拨款PHY-0216556和PHY-0225630的额外支持。

附录:计算细节

AM/C哈密顿量。文献中对AM/C哈密顿量进行了大量讨论(1416,2932). 哈密顿量,H(H)上午/下午=H(H)英国广播公司+H(H)调幅+H(H)接触由基于一般聚合物物理的主链电位组成(参见参考文献。15,16、和29详细信息),AM术语定义了由<12个残基分离的残基的能量漏斗(15,16,31)和一个描述三级相互作用的接触术语。接触哈密顿量,H(H)接触,有三口井,分别覆盖4.5至8.5奥特、8.5至10.0奥特和10.0至15.0奥特层段。支持文本提供了有关AM/C哈密顿量的更多详细信息。

AM/W哈密顿量。AM/W哈密顿量是AM/C哈密尔顿量的修正,其中AM/C汉密顿量的第三接触部分被基于水介导相互作用的势所取代,H(H)上午/下午=H(H)英国广播公司+H(H)调幅+H(H)Rg(雷亚尔)+H(H)接触+H(H)+H(H)埋葬,其中H(H)英国广播公司H(H)调幅与AM/C电位相同,H(H)Rg(雷亚尔)是一个二次势,有助于瓦解链(H(H)rg公司=C类 *[R(右)({第页}) -R(右)(N个)]2,基于参考文献中的工作。33),H(H)接触保持与AM/C中相同的功能形式,但它只包含一个单一的直接接触,定义在4.5和6.5Å之间,H(H)是非通气添加剂的第二井转换电位(定义如下),以及H(H)埋葬是一个多体电位,表示每个氨基酸(定义如下)的埋藏偏好。水介导的第二口井的潜力是,方程式M1,其中切换功能方程式M2方程式M3取决于残留物的局部密度环境j个 方程式M4、和方程式M5。在这些表达式中第页ij公司是残留物之间的距离j、 第页最小值第页最大值指示对应井的端点(第一口井为4.5–6.5º,第二口井为6.5–9.5º),κ是描述切换tanh函数清晰度的参数(κ设置为5.0)。σ开关函数的构造使得当每个残留物的局部密度ρ增加超过ρ的阈值时trsh公司[从单体数据库的结构调查中选择为2.6(34),见下文],σ从1平稳切换到0,而σ保护从0切换到1。

埋藏剖面术语,H(H)埋葬,是基于三阱势的多体局部密度,表示特定配位密度的氨基酸偏好,方程式M6,其中方程式M7,其中(μ=1、2或3)表示特定残留物存在于低、中或高局部密度环境中。这三口井的间隔被定义为从零到三、三到六、六到九个残基(即,当配位数增加到九以上时,电位变为零)。

AM/W-0电位的优化。训练集由来自巴纳瓦尔及其同事数据库的156个蛋白质组成(34). 在AM/W-0中,第一个阱相互作用、第二个阱通过蛋白质相互作用和第二个阱通过水相互作用的210个参数是用如上所述的序列重排方案发现的(13). 这些被缩放到AM/C相互作用的大小。

从同一个单体蛋白数据库中获得了多体埋藏剖面的60个参数(20个氨基酸×3个孔)(34)通过计算20个氨基酸中每个氨基酸在3-Å区间内特定配位数的出现频率,并取相应频率的对数。

AM/W-1电位的优化。我们的基于结构的自我协调优化策略最大化了T型F类/T型G公司(折叠温度/玻璃化转变温度)(30). 对于九种训练蛋白中的每一种,通过长时间恒温运行(1.26×106时间步长)-约束潜力。

哈密顿量是线性的H(H)=∑γε,式中εs是前面描述的哈密顿量中的实际相互作用项。γs是缩放这些项的参数。我们之前描述的基于能量景观理论的变分优化程序用于最大化T型F类/T型G公司(30). 我们引入两个辅助数学对象,一个向量方程式M8,表示稳定间隙,以及矩阵方程式M9这表明熔融球状系综与原生系综相比过于坚固。什么时候?T型F类T型G公司按以下公式计算A类B类,然后T型F类/T型G公司优化导致γ≈γ0+T型 *B类-1个A类,其中T型是模拟温度(15,30,35)。

在当前的工作中,标准程序被修改为使用每个训练蛋白来生成自己的蛋白质Bγ≈Bγ0+T型*A类等式。我们同时对所有蛋白质使用超定方程组的最小二乘奇异值分解解(36). 通过使用泊松噪声和重复求解(20次)不同随机种子的γ来测试解的鲁棒性。为了防止从小训练集中过度学习,我们只允许通过疏水性/极性粗颗粒氨基酸相互作用分组来调节AM/W-0电位(37)。

与AM/C相比,AM/W-1中所有新的参数在中给出支持文本图6和表1-6,这些信息作为支持信息发布在PNAS网站上。

用于AM/C和AM/W-1参数优化的训练蛋白质。9个α螺旋蛋白(PDB编码1R69、1UTG、3ICB、256BA、4CPV、1CCR、2MHR、1MBA和2FHA)用于训练。

笔记

缩写:AM,联想记忆;AM/C、AM/触点;AM/W、AM/水;RMSD,均方根位移;CE,组合扩展;蛋白质数据库;CASP,蛋白质结构预测技术的关键评估。

请参阅第页的评论3325

参考文献

1Cheung,M.S.、Garcia,A.E.和Onuchic,J.N.(2002)程序。国家。阿卡德。科学。美国 99,685-690.[PMC免费文章][公共医学][谷歌学者]
2Head-Gordon,T.&Brown,S.(2003)货币。操作。结构。生物。 13,160-167. [公共医学][谷歌学者]
三。Kaya,H.&Chan,H.S.(2003)分子生物学杂志。 326,911-931. [公共医学][谷歌学者]
4Van der vaart,A.,Busulaya,B.D.,Brooks,C.L.&Merz,K.M.(2000)《物理学杂志》。化学。B类 104,9554-9563.[谷歌学者]
5考兹曼·W(1959)高级蛋白质化学。 14,1-59. [公共医学][谷歌学者]
6艾森伯格·D、韦斯·R·M和特威利格·T·C(1984)程序。国家。阿卡德。科学。美国 81,140-144.[PMC免费文章][公共医学][谷歌学者]
7DeGrado,W.F.、Wasserman,Z.R.和Lear,J.D.(1989)科学类 243,622-628. [公共医学][谷歌学者]
8Hardin,C.、Pogorelov,T.V.和Luthey-Schulten,Z(2002)货币。操作。结构。生物。 12,176-181. [公共医学][谷歌学者]
9Miyazawa,S.&Jernigan,R.L.(1996)分子生物学杂志。 256,623-644. [公共医学][谷歌学者]
10Hummer,G.、Garde,S.、Garcia,A.E.和Pratt,L.R.(2000)化学。物理学。 258,349-370.[谷歌学者]
11Pertsemlidis,A.、Soper,A.K.、Sorenson,J.M.和Head-Gordon,T.(1999)程序。国家。阿卡德。科学。美国 96,481-486.[PMC免费文章][公共医学][谷歌学者]
12Papoian,G.A.和Wolynes,P.G.(2003)生物聚合物 68,333-349. [公共医学][谷歌学者]
13Papoian,G.A.、Ulander,J.和Wolynes,P.G.(2003)美国化学杂志。Soc公司。 125,9170-9178. [公共医学][谷歌学者]
14Friedrichs,M.S.和Wolynes,P.G.(1989)科学类 246,371-373中。[公共医学][谷歌学者]
15Hardin,C.、Eastwood,M.P.、Luthey-Schulten,Z.和Wolynes,P.G.(2000)程序。国家。阿卡德。科学。美国 97,14235-14240.[PMC免费文章][公共医学][谷歌学者]
16Eastwood,M.P.、Hardin,C.、Luthey-Schulten,Z.和Wolynes,P.G.(2001)IBM J.研究开发。 45,475-497.[谷歌学者]
17Evans,D.F.和Wennerström,H.(1999)物理、化学、生物和技术交汇的胶体领域(威利,纽约)。
18Wales,D.J.和Scheraga,H.A.(1999年)科学类 285,1368-1372. [公共医学][谷歌学者]
19Shindyalov,I.N&Bourne,P.E.(1998)蛋白质工程。 11,第739-747页。[公共医学][谷歌学者]
20Murzin,A.G.(1999)蛋白质结构。功能。遗传学。 37,补遗3,88-103。[公共医学][谷歌学者]
21Yang,F.、Gustafson,K.R.、Boyd,M.R.和Wlodawer,A.(1998)自然结构。生物。 5,763-764. [公共医学][谷歌学者]
22Weigelt,J.、Brown,S.E.、Miles,C.S.、Dixon,N.E.和Otting,G.(1999)结构。折叠。设计 7,681-690. [公共医学][谷歌学者]
23Allen,M.、Friedler,A.、Schon,O.和Bycroft,M.(2002)分子生物学杂志。 323,411-416. [公共医学][谷歌学者]
24Miller,D.J.、Ouellette,N.、Evdokimova,E.、Savchenko,A.、Edwards,A.和Anderson,W.F.(2003)蛋白质科学。 12,1432-1442.[PMC免费文章][公共医学][谷歌学者]
25特拉蒙塔诺,A.(2003)自然结构。生物。 10,87-90. [公共医学][谷歌学者]
26劳森·D·M、阿提米乌克·P·J、尤达尔·S·J、史密斯·J·M·A、利文斯通·J·C、特雷弗里·A、卢萨戈·A、列维·S、阿罗西奥·P、塞萨里尼·G、。,. (1991)自然 349,541-544. [公共医学][谷歌学者]
27Gajiwala,K.S.和Burley,S.K.(2000)分子生物学杂志。 295,605-612. [公共医学][谷歌学者]
28Bryngelson,J.D.和Wolynes,P.G.(1987)程序。国家。阿卡德。科学。美国 84,7524-7528.[PMC免费文章][公共医学][谷歌学者]
29Hardin,C.、Luthey-Schulten,Z.和Wolynes,P.G.(1999)蛋白质 34,281-294. [公共医学][谷歌学者]
30Eastwood,M.P.、Luthey-Schulten,Z.和Wolynes,P.G.(2003)化学杂志。物理学。 118,8500-8512.[谷歌学者]
31Hardin,C.、Eastwood,M.P.、Prentiss,M.、Luthey-Schulten,Z.和Wolynes,P.G.(2002)J.计算。化学。 23,138-146. [公共医学][谷歌学者]
32Eastwood,M.P.、Hardin,C.、Luthey Schulten,Z.和Wolynes,P.G.(2002年)化学杂志。物理学。 117,4602-4615.[谷歌学者]
33Kolinski,A.、Skolnick,J.、Godzik,A.和Hu,W.P.(1997)蛋白质结构。功能。遗传学。 27,290-308. [公共医学][谷歌学者]
34Chang,I.、Cieplak,M.、Dima,R.I.、Maritan,A.和Banavar,J.R.(2001)程序。国家。阿卡德。科学。美国 98,14350-14355.[PMC免费文章][公共医学][谷歌学者]
35Koretke,K.K.、Luthey-Schulten,Z.和Wolynes,P.G.(1998)程序。国家。阿卡德。科学。美国 95,2932-2937年。[PMC免费文章][公共医学][谷歌学者]
36Press,W.H.,Teukolsky,S.A.,Vetterling,W.T.&Flannery,B.P.(2002)C中的数字配方++(剑桥大学出版社,英国剑桥)。
37Wang,J.和Wang,W.(1999)自然结构。生物。 6,1033-1038. [公共医学][谷歌学者]

文章来自美国国家科学院院刊由以下人员提供美国国家科学院