1.简介
在结构基因组学和高通量结构生物学时代,晶体学界认为有必要以快速、准确和自动化的方式解决结构问题。因此,人们越来越需要能够绕过大量人工干预并自动“决定”策略的软件。
目前有几个程序对于蛋白质结构解决方案同样精确且高度自动化,每个程序都具有特定的特性和特点,使其比其他程序更适用于某些晶体学情况。从这个意义上说,目前还没有一个通用的结构解决软件,因此,在许多情况下,尝试一种集成方法,利用每个程序的单独属性和功能,可能是一个好主意。
这种方法反过来可以实现更可靠和更广泛的重原子站点检测,这是一个更好的初步阶段精细化或者更有效的密度修改程序,所有这些都会产生更准确的相位,这最终也会对模型构建产生积极影响,使其更快、更高效。
在某些情况下,重要的是不要只使用一个软件,还要尽量使用每个程序允许的所有选项;默认选项的使用同样非常实用和简单,在某些情况下也很有效,但通过尝试发现GUI或每个软件脚本中的“隐藏”按钮或关键字来尝试第二选项通常是一个好主意。自动方法和综合方法都可能导致结构解决方案,但在某些情况下,综合方法也可能提供更好的阶段,这反过来又允许更快、更准确的链式追踪,符合科学竞争带来的紧张时间表。因此,乍一看可能是“浪费”时间的事情,最终可以揭示解决结晶学问题的更有效方法。
这里将展示三个晶体案例,其中上述综合方法已被证明是成功的。
第一个涉及一种叫做AphA的蛋白质,来自大肠杆菌; 它是一种酸性镁磷酸酶,能够水解几种不同的磷酸单酯,并催化磷酸转移到有机化合物的羟基。此外,AphA似乎参与了DNA复制起源的亲本链识别。AphA是一种寡聚蛋白,由四个相同的单体组成,每个单体约25 kDa,仅存在于一些细菌病原体中(Calderone,Forleo等。, 2004; 福莱奥等。2003年).
第二个例子涉及来自枯草芽孢杆菌; 它与其他细菌生物的Cu和Zn SOD的序列同源性从45%到30%不等。在细菌蛋白质中,它是唯一一种不保存铜结合位点两个残基的蛋白质,据报道具有未知功能(Banci等。, 2004)
第三个例子涉及另一种参与细胞内铜稳态的蛋白质;它是酵母中铜硫蛋白的截短形式(36个残基,而非52个野生型)。这种蛋白质能够结合六到八个Cu我通过其十个半胱氨酸残基的每个分子的原子数(卡尔德隆,杜德勒等。, 2004).
2.数据收集和处理
2.1. AphA来自大肠杆菌
在DESY(德国汉堡)的EMBL X-31 PX光束线上,使用旋转方法在100K下对单个衍生的AphA晶体进行Br边缘的三波长MAD实验。溴化衍生的AphA晶体衍射到2.2º分辨率,属于空间组 P(P)21212(单元-单元参数一= 49.50,b条= 92.62,c(c)=138.25 Au),其中两个分子位于非对称单元溶剂含量约为60%。
第二个三波长MAD数据集在100 K的ESRF ID-29光束线(法国格勒诺布尔)从AuCl收集三导数,衍射分辨率为1.69º。这个空间组是我222,其中一个分子位于非对称单元溶剂含量约为60%。后一个数据集对于解决结构没有用处,已用于以更高分辨率细化AphA结构。
表1显示了溴衍生物的三个波长和金衍生物的远程波长的数据收集统计信息。溴和金衍生物的PDB代码为1n9千和1个8个分别是。
| BR峰值(λ= 0.91957 Å) | BR屈折(λ= 0.9204 Å) | BR远程(λ= 0.88561 Å) | AU遥控器(λ= 1.03770 Å) | “空间”组 | P(P)21212 | 我222 | 单位-细胞参数(Ω,°) | 一= 49.50,b条= 92.62,c(c)= 138.25,α =β=γ= 90 | 一=49.28,b条= 92.46,c(c)= 138.18,α =β=γ= 90 | 分辨率(Ω) | 25.0–2.2 (2.23–2.20) | 25.0–2.2(2.23–2.20) | 25.0–2.2 (2.23–2.20) | 25–1.69 (1.79–1.69) | 总反射 | 256647 (10044) | 217935 (8426) | 246719 (9458) | 135549 (7369) | 独特的反射 | 32501 (1272) | 32868 (1294) | 32383 (1281) | 31884 (2579) | 总体完成率(%) | 98.5 (96.6) | 99.3 (96.9) | 97.8 (96.8) | 98.2 (92.0) | 异常完整性(%) | 93.6 (92.6) | 91.5 (90.5) | 96.5 (96.5) | — | R(右)sym(对称)(%) | 9.2 (33.0) | 7.3 (23.9) | 11.4(41.5) | 7.5 (37.5) | R(右)anom公司(%) | 9.5 (15.8) | 8.9 (16.1) | 7.8 (36.4) | — | 多重性 | 7.3 (7.0) | 6.6 (6.5) | 7.6(7.4) | 4.3 (2.9) | 我/σ(我) | 17.1 (3.9) | 16.9 (4.2) | 13.7 (2.8) | 7.2 (1.8) | FOM(溶剂压扁前) | 0.28 | 0.27 | 0.18 | — | FOM(全部)(溶剂压平前) | 0.47 | — | — | — | | |
2.2. SOD-like蛋白质来自枯草杆菌
在100 K的ELETTRA XRD-1光束线(意大利的里雅斯特)上,使用旋转法在含锌的晶体上进行了锌边缘的SAD实验。
该晶体衍射到1.8°分辨率,属于空间组 P(P)1(单位-细胞参数一= 38.22,b条= 61.11,c(c) = 64.91 Å,α= 84.35,β = 76.02,γ=90.42°),其中有四个分子非对称单元溶剂含量约为45%。
表2显示了数据收集统计信息。PDB代码为1s4i公司.
| Zn峰值(λ=1.281Å) | “空间”组 | P(P)1 | 单位-细胞参数(Ω,°) | 一= 38.22,b条= 61.11,c(c)= 64.91,α= 84.35,β= 76.02,γ= 90.42 | 分辨率(Ω) | 37.0–1.8 | 总反射 | 232658 (8554) | 独特的反射 | 49677 (3958) | 总体完成率(%) | 94.6 (92.4) | 异常完整性(%) | 89.8(71.8) | R(右)sym(对称)(%) | 3.4 (23.2) | R(右)anom公司(%) | 4.1 (18.2) | 多重性 | 4.7 (2.2) | 我/σ(我) | 13.8 (2.6) | FOM(溶剂压平前) | 0.23 | | |
2.3. 酵母铜硫蛋白的截短形式
在DESY(德国汉堡)的EMBL BW7A光束线上,使用旋转方法进行了两次100K的衍射实验;第一次在铜边波长(1.370°)下进行,第二次在0.919°下进行。
第一个晶体衍射到1.7°分辨率,第二个衍射到1.4°分辨率;这两种晶体都属于立方体空间组 P(P)4三32(单元-单元参数一 = b条 = c(c) = 62.17 Å,α=β=γ=90°),其中一个分子位于非对称单元溶剂含量约为50%。
表3报告两个数据集的数据收集统计信息。PDB代码为1rju公司.
| Cu峰值(λ= 1.37 Å) | Cu远程(λ= 0.919 Å) | “空间”组 | P(P)4三32 | P(P)4三32 | 单位-细胞参数(Ω,°) | 一=b条=c(c)= 62.21,α=β=γ= 90 | 一=b条=c(c)= 62.16,α=β=γ= 90 | 分辨率(Å) | 31.1–1.65 | 27.8–1.44 | 总反射 | 170252 (22414) | 173047 (25070) | 独特的反射 | 5475 (764) | 7922(1117) | 总体完成率(%) | 100 (100) | 100 (100) | 异常完整性(%) | 98.6 (99.7) | – | R(右)sym(对称)(%) | 8.1 (33.7) | 7.0 (35.8) | R(右)anom公司(%) | 9.5 (13.6) | – | 多重性 | 31.1 (29.3) | 21.8 (22.4) | 我/σ(我) | 8.4 (2.1) | 9.3 (2.1) | FOM(溶剂压平前) | 0.25 | — | | |
上述所有数据集均使用该程序进行处理MOSFLM公司(莱斯利,1991年)并使用程序进行缩放SCALA公司(埃文斯,1997年)使用TAILS和SECONDARY修正(后者使用TIE SURFACE命令进行约束),以实现经验吸收修正。
3.结构解决方案和不同的建模方法
3.1. 来自的AphA大肠杆菌
AphA的分期大肠杆菌用程序对溴代衍生MAD数据进行解决方案(Terwilliger和Berendzen,1999年)假设每个非对称单元。最佳溶液产生了18个具有良好占据率和位移参数的Br原子;其中9个位点通过非晶体学双轴与其他位点相关。然后使用NCS平均值进行密度修改,假设在非对称单元溶剂含量为60%。得到的电子密度图质量足够高,可以用程序部分追踪蛋白质主链(不对称单元中两条链中每一条链约有55%没有侧链的残基)RESOLVE(解决)(特威利格,2000年2003年).
另一种方法是使用来自RESOLVE(解决)然后把它们喂给ARP协议/弯曲6.0(佩拉基斯等。, 1999),仍使用2.2º分辨率下的相同数据;这种方法效率较低,对于不对称单元中的两个分子,仅可能获得约40%的无侧链残基。
为了尝试通过扩展分辨率来改善相,然后将NaBr衍生物部分溶液中的一个单体用作分子置换用软件实现高分辨率的远程波长黄金衍生数据AMoRe公司(纳瓦扎,1994年). 旋转函数的峰值最高相关系数下面的平移函数提供了一个明确的解决方案,在刚体之后细化,给出了一个相关系数42.6和R(右)系数为0.49。
然后将该部分模型与黄金衍生数据结合使用SIGMAA公司(里德,1986年)屈服SIGMAA公司-加权相位和优值(FOM);然后将这些阶段输入RESOLVE(解决)使用标准跟踪协议和以减少模型偏差为目标的prime-and-switch选项。可追踪的残留物数量分别约为70%和75%。
在示踪残留物数量方面,通过将分子置换溶液注入ARP协议/弯曲6.0,不使用相位限制(即不限制亨德里克森-拉特曼相位概率分布的相位),并使用有限深度优先算法。分子的自动构建能够分配大约95%的结构(预计212个残基中的205个)。然后人工建造剩余的残留物。
表4显示了细化统计用于黄金衍生品。
分辨率范围(Ω) | 25.0–1.69 | R(右)晶体/R(右)自由的(%) | 17.7/20.6 | 蛋白质原子 | 1644 | 离子 | 1 | 水分子 | 283 | R.m.s.d.粘结长度(Ω) | 0.01 | R.m.s.d.粘结角(°) | 1.4 | | |
图1(一)显示了对AphA执行的不同跟踪方法的直方图视图大肠杆菌.
| 图1 (一)构建残留物数量的直方图表示与用于大肠杆菌AphA(详见正文)。(b条)构建残留物数量的直方图表示与SOD-like蛋白的阶段划分和构建方法枯草杆菌(详见正文)。(c(c))构建残留物数量的直方图表示与酵母铜硫蛋白的阶段化和构建方法(详见正文)。 |
图2(一)显示了从如上所述获得的单体和镁结合位点开始构建的生理四聚体。
| 图2 (一)功能性四聚体概述大肠杆菌AphA公司。(b条)整体视图非对称单元SOD样蛋白枯草杆菌. (c(c))概述了酵母铜硫蛋白的结构。 |
3.2. SOD-like蛋白质来自枯草杆菌
使用该程序对六个重原子位点进行了检测SHELXD公司(Schneider&Sheldrick,2002年).
然后,通过该计划对初步阶段进行了改进夏普(de La Fortelle&Bricogne,1997))并使用所罗门群岛(亚伯拉罕和莱斯利,1996年); 在结果阶段尝试了以下链跟踪协议。
第一次尝试是使用ARP协议/弯曲6.0,从重原子位置和无相位约束的实验结构因子振幅出发;没有残留物是这样建造的。
第二次尝试是使用果皮/弯曲6.0无相位限制;随机化对应于一个粗糙的模拟退火过程,其目的是将模型从可能错误的局部极小值中剔除。这一尝试也被证明是失败的,因为没有建造残留物。
另一次失败的尝试是从已知的重原子位置开始,从SHELXD公司,将其用作的输入解决方案/RESOLVE(解决).
在第四次尝试中,已知的重原子位置再次用解决方案,但是所罗门群岛然后进行密度调整;以这种方式获得的改性相随后被送入ARP协议/弯曲6.0,但未构建残留物。
从获得的阶段开始进一步尝试夏普并把它们喂给RESOLVE(解决); 这一次,追踪到的一条链约占总残留量的40%。
第六次尝试是从夏普阶段,但这一次要将它们输入ARP协议/弯曲6.0,使用广度搜索算法并应用相位约束(即Hendrickson–Lattmann相位概率分布的抑制相位);结果是建造了大约45%的残留物总量。
第七次尝试与前一次相同,但这次没有应用相位限制;这种方法产生了更多的残留物。
最后也是最成功的尝试涉及运行ARP协议/弯曲上的6.0夏普在没有相位约束的情况下使用所述有限深度搜索算法的相位;这种方法产生了大约75%的总残留物。
表5报告精细化统计数据。
分辨率范围(Ω) | 37.0–1.8 | R(右)晶体/R(右)自由的(%) | 22.0/25.7 | 蛋白质原子(四分子) | 4520 | 离子 | 6 | 水分子 | 398 | R.m.s.d.粘结长度(Ω) | 0.02 | R.m.s.d.粘结角(°) | 2.7 | | |
图1(b条)显示了对该蛋白质进行的不同跟踪方法的直方图视图。
图2(b条)显示了非对称单元六个锌原子。
3.3. 酵母铜硫蛋白
这个结晶学案例似乎很简单,因为反常散射体的数量约占蛋白质重量的12%;因此,异常信号非常突出,约占总信号的15-20%。尽管如此,使用蛋白质晶体学中最广泛使用的软件进行的几次尝试都被证明是失败的。
与之前收集的数据集相比,成功的数据集具有非常高的冗余度,并且数据收集统计数据稍微好一些。因此,使用反常色散用程序在铜边(1.370°)的单波长处进行测量解决方案; 然后使用密度修改技术将获得的初始相(FOM=0.25)改进为FOM为0.78,使用50%的溶剂含量RESOLVE(解决).
使用这些阶段,进行了多次跟踪尝试。
第一种是使用链式赛车程序RESOLVE(解决),但在电子密度图中不可能追踪到任何残留物。
当用解决方案密度修改为所罗门群岛然后输入ARP协议/弯曲6.0,一种情况下有相位限制,另一种情况没有相位限制。
当相位从RESOLVE(解决)被用作输入ARP协议/弯曲6.0使用无相位限制的有限深度优先搜索算法:在36个蛋白质残基中,有24个残基没有侧链。电子密度图现在清楚地显示了第八个铜原子的位置,这一点得到了反常傅里叶差分图中八个大峰的进一步证实。
从可用的部分模型开始,使用更高分辨率(1.4º)的数据集,并使用果皮/弯曲6.0在没有相位限制的情况下,追踪36个残基中的34个残基。然后添加剩余的两个残留物,并手动放置所有侧链。
表6报告细化统计用于高分辨率数据集。
分辨率范围(Ω) | 27–1.44 | R(右)晶体/R(右)自由的(%) | 14.4/17.0 | 蛋白质原子 | 256 | 配体原子 | 8 | 水分子 | 64 | R.m.s.d.债券(Au) | 0.02 | R.m.s.d.角(°) | 2 | | |
图1(c(c))显示了对酵母铜硫蛋白进行的不同跟踪方法的直方图视图。
图2(c(c))显示了该蛋白质与八个铜原子协调的整体结构。
对于上述三种结构精细化然后使用REFMAC公司5(穆尔舒多夫等。, 1997)并用该程序进行了手动重建和模型可视化XtalView(X塔尔视图)(麦克雷,1999年). 使用该程序评估了精制模型的立体化学质量PROCHECK检查(拉斯科夫斯基等。, 1993).
4.结论
由单个软件执行的自动定相和模型构建是蛋白质晶体学中的一个很好的工具,但有时一个程序无法工作或产生有限的结果;这种情况可以通过使用不同的策略来改善。事实上,每个程序都有非常特殊的特征,这些特征可以同时是弱点和优点,例如在低分辨率下比在高分辨率下更好地跟踪的能力,或者在初始或密度修正相上给出更真实的优值的能力(这在使用时是至关重要的最大似然方法)。
如以上示例所示,通过组合使用不同程序进行重原子检测、定相、密度修改和链追踪,获得了最佳结果。
此外,建模程序中的默认选项通常工作得很好,但在最初没有完全成功的情况下(例如使用程序建议的默认选项进行非常有限的链跟踪)可能值得花一些时间尝试次要选项,例如替代搜索算法(在以下情况下ARP协议/弯曲)或prime and switch选项(如果是RESOLVE(解决)).
作为一般经验法则,根据上述结果,有限深度搜索算法似乎比宽度搜索更好;后一种算法从每个构建的肽探索所有可能的进一步连接(但仅限于肽-单位深度),并迭代地消除最差的连接,直到保留一条链。只要不看一个以上的肽单元,就可以根据可使用的几何特征将该方法定义为“局部”。对于低密度,实现了一种新的算法(有限深度搜索算法),该算法搜索到更深的肽连接树,并寻找几何质量好的长片段。然而,在高分辨率非常好的数据的情况下,宽度搜索算法似乎比有限深度搜索算法工作得更好,尽管速度慢得多。
在以下情况下RESOLVE(解决)当从分子置换部分溶液开始时,建议使用prime-and-switch选项,这似乎不会影响链追踪。对于中分辨率数据,此程序似乎工作得更好。
另一个经验法则是关于ARP协议/弯曲迭代精细化;这通常会降低跟踪的效率,但结果可能取决于相位规划对概率分布估计的准确性。
致谢
来自锡耶纳、佛罗伦萨和图宾根的不同团体和机构的几位人士使上述工作得以开展;我要感谢他们所有人的宝贵合作和专业知识。特别感谢我的导师斯特凡诺·曼加尼教授在这段经历中提出的宝贵建议和给予的支持。再次感谢来自CERM(佛罗伦萨大学)的Ivano Bertini教授、Lucia Banci教授和Claudio Luchinat教授,他们通过宝贵的合作让我有机会参与他们的研究项目。我还感谢ESRF(法国格勒诺布尔)设施的光束线工作人员、EMBL汉堡分站改善人类潜能计划的欧洲共同体研究基础设施行动(合同号HPRI-CT-1999-00017)和ELETTRA XRD-1(意大利的里雅斯特)光束线工作员。这项工作得到了意大利MURST COFIN01的财政支持。
工具书类
Abrahams,J.P.和Leslie,A.G.W.(1996)。《水晶学报》。D类52, 30–42. 交叉参考 计算机辅助系统 科学网 IUCr日志 谷歌学者
Banci,L.、Bertini,I.、Calderone,V.、Del Conte,R.、Fantoni,A.、Mangani,S.、Quattrone,A.和Viezzoli,M.S.(2004年)。提交。 谷歌学者
Calderone,V.,Dolderer,B.,Echner,H.,Hartmann,H.-J.,Del Bianco,C.,Luchinat,C.,Mangani,S.&Weser,U.(2004年)。提交。 谷歌学者
Calderone,V.、Forleo,C.、Benvenuti,M.、Thaller,M.C.、Rossolini,G.M.和Mangani,S.(2004)。分子生物学杂志。 335,761–773页科学网 交叉参考 公共医学 计算机辅助系统 谷歌学者
Evans,P.R.(1997)。Jnt CCP4/ESF–EABCM新闻。蛋白质结晶仪。 33, 22–24. 谷歌学者
Forleo,C.、Benvenuti,M.、Calderone,V.、Schippa,S.、Doquier,J.D.、Thaller,M.C.、Rossolini,G.M.和Mangani,S.(2003年)。《水晶学报》。D类59,1058–1060科学网 交叉参考 计算机辅助系统 IUCr日志 谷歌学者
La Fortelle,E.de&Bricogne,G.(1997)。方法酶制剂。 276, 472–494. 谷歌学者
Laskowski,R.A.、MacArthur,M.W.、Moss,D.S.和Thornton,J.M.(1993)。J.应用。克里斯特。 26, 283–291. 交叉参考 计算机辅助系统 科学网 IUCr日志 谷歌学者
Leslie,A.G.W.(1991)。结晶计算V由D.Moras、A.D.Podjarny和J.P.Thierry编辑,第50页。牛津大学出版社。 谷歌学者
McRee,D.E.(1999)。J.结构。生物。 125, 156–165. 科学网 交叉参考 公共医学 计算机辅助系统 谷歌学者
Murshudov,G.N.、Vagin,A.A.和Dodson,E.J.(1997)。《水晶学报》。D类53, 240–255. 交叉参考 计算机辅助系统 科学网 IUCr日志 谷歌学者
Navaza,J.(1994)。《水晶学报》。A类50, 157–163. 交叉参考 计算机辅助系统 科学网 IUCr日志 谷歌学者
Perrakis,A.、Morris,R.和Lamzin,V.S.(1999)。自然结构。生物。 6, 458–463. 科学网 交叉参考 公共医学 计算机辅助系统 谷歌学者
Read,R.J.(1986年)。《水晶学报》。A类42, 140–149. 交叉参考 计算机辅助系统 科学网 IUCr日志 谷歌学者
Schneider,T.R.和Sheldrick,G.M.(2002)。《水晶学报》。D类58, 1772–1779. 科学网 交叉参考 计算机辅助系统 IUCr日志 谷歌学者
Terwilliger,T.C.(2000)。《水晶学报》。D类56, 965–972. 科学网 交叉参考 计算机辅助系统 IUCr日志 谷歌学者
Terwilliger,T.C.(2003)。《水晶学报》。D类59,38–44科学网 交叉参考 计算机辅助系统 IUCr日志 谷歌学者
Terwilliger,T.C.和Berendzen,J.(1999)。《水晶学报》。D类55, 849–861. 科学网 交叉参考 计算机辅助系统 IUCr日志 谷歌学者
©国际结晶学联合会。如果引用了原文作者和来源,则无需事先获得许可即可复制本文中的简短引文、表格和数字。有关详细信息,请单击在这里.
| 生物 结晶学 |
国际标准编号:1399-0047