1.简介
实验SAD定相允许我们通过求解基于结构因子Friedel对之间差异的方程来获得相位信息。反射的可能解以概率分布的形式表示(Blow&Crick,1959; Otwinowski,1991年; 麦考伊等。2004年). 为了解决一个结构,这个阶段信息被传递给密度修改,密度修改利用分子图的预期特征来打破初始分布中存在的模糊性(Wang,1985). 在许多反射具有精确相位的情况下,获得可解释的地图是很简单的。相反,当大多数反射的测定结果不佳时,解决模糊性仍然是一项困难的任务。
我们从基因V蛋白(Skinner)中选择了SAD数据集等。, 1994)作为这种情况的一个例子。由于密度修正后获得的电子密度图质量较低,仅从峰值波长SAD数据求解此结构具有挑战性。然而,该结构可以通过MAD数据集进行求解。这是一个常见的情况,当实验阶段导致一个糟糕的地图。
维克特(2005))提出了一项有趣的研究,研究表明,通过将低误差相位分配给几个最强的反射波,在密度修改后,整个相位集可以显著改善。有五个结构,5000–17 000次反射,看到这样大的数据集可以通过只将124次最强的反射指定为正确的相位而得到改善,这非常令人鼓舞。维克特(2005))指定了根据模型计算出的正确相位,并提出在实际中可以通过三光束衍射实验测量相位。在这里,我们通过探索计算方法来跟进这一分析,以便在将一些最强的反射引入密度修改之前,为其选择改进的相位。为了实现这一目标,我们提出了以下几点。
(i) 我们测试了地图是否偏斜(Podjarny&Yonath,1977)它描述了地图中极值趋向于系统性正值或负值的程度,可用于确定一些最强反射的正确相位。我们通过开发一个遗传算法寻找最强反射的相位组合。在存在整个数据集的情况下,这些会导致更好的偏度值。我们观察到,最强反射的正确相位与贴图偏度值的增加相关。一个计算机程序,SISA公司(“SIR/SAD阶段优化”),已编写,将纳入菲尼克斯软件包(Adams等。, 2010). (ii)对于三个“困难结构”,我们测试了将偏度作为目标函数来实现优化最强反射相位质量的算法的效率。为了观察这种改进的效果,我们使用优化的数据集进行密度修改,并将结果与使用原始数据进行密度修改的结果进行了比较。
|
我们选择了表1中的数据集因为它们是临界情况,在这种情况下,密度修改的相不足以生成可解释的图。 结构 | PDB条目 | “空间”组 | 搜索分辨率(Ω) | 非H原子数量 | 单位-细胞参数(Ω,°) | 案例一:基因V蛋白(单链DNA结合蛋白;Skinner等。, 1994) | 1个vqb | C2 | 2.6 | 682 | 一= 75.81,b条=27.92,c(c)= 42.40,β= 103.1 | 案例二:包含酵母ai5结构域5和6的RNAγ第二组自剪接内含子(Zhang和Doudna,2002) | 1千x千 | P(P)6122 | 3.5 | 1497 | 一=b条=91.68,c(c)= 241.65, | 案例三:异质核糖核蛋白A1(Shamoo等。, 1997) | 1小时1 | P(P)21 | 3 | 1338 | 一= 38.1,b条= 44.0,c(c)= 56.1,β= 94.8 | | |
为了提高实验地图的质量,我们在这里利用了两个关键思想。第一个涉及最强反射的作用。我们尝试用正确的相位(根据PDB模型计算)替换100个最强反射的质心相位,用于我们的一个测试案例,即基因V蛋白;我们将这组反射传递给密度修改,并计算出方程(2)中定义的地图相关性(见下文;Read,1986年; Lunin&Woolfson,1993年)用于密度修改后的地图。根据Vekhter(2005)的观察),新的一组结构因子的映射相关性从0.45(使用原始反射集时获得的值)增加到0.66(图1一).
| 图1 在该方法的实施过程中利用了两个关键思想。(一)从SAD数据生成的基因V蛋白的两个密度修改图的比较:第一个图来自具有原始质心相位的反射集(φB类)而第二张图是通过将正确的相位(来自PDB模型)分配给来自同一数据集的100个最强反射而得出的。第二幅地图的地图相关性从0.45显著提高到0.66。(b条)两个电子密度直方图的比较:左边的直方图是由使用质心相位计算的电子密度图生成的(φB类)导致地图偏斜值较小(偏斜=0.22;见方程式1)右侧的直方图是根据使用正确相位计算的地图生成的(φC),导致贴图偏斜值较大(偏斜=1.11)。 |
通过注意由相位误差引入的电子密度的均方误差与反射的振幅平方成比例,也可以理解这些最强反射的重要性。基因V蛋白的100个最强反射(仅占所有反射的4%)占整个数据集平方振幅总和的23%。这也表明可以改进的最强反射的数量有限,因为如果包含更多反射,振幅平方和的回报将逐渐减少。正如预期的那样,这23%的振幅平方和贡献并不是均匀分布在不同分辨率的壳中;在振幅平方和的23%中,64%是由最低分辨率外壳中的反射贡献的(>10 Å).
考虑到一些最强的反射可能会对密度修改产生影响,因此可以实现在这个紧凑的解空间中搜索相位组合的算法。由于我们已经了解了实验相位的相位,因此无需搜索0到2的整个值范围π,但我们可以根据反射的概率分布限制反射相位的选择。
第二个关键思想是基于分子图质量的测量。请注意,我们将只为几个最强的反射选择替代相位。其余反射将与其原始质心相位一起使用,任何新贴图都将使用完整的反射集进行计算。通过这种方式,没有变化的反射相位提供了用于地图计算的已知信息的背景,并且正在测试变化的相位与其他相位的一致性。假设新生成的地图具有一些分子特征,作为计算地图质量的起点。正如特威利格指出的那样,我们在这项工作中选择了电子密度图中密度值的偏度等。(2009年)这是十个测试指标中评估地图质量最准确的指标。我们设置了倾斜函数(1)作为搜索算法的目标函数,
图1(b条)显示了SAD数据相位生成的电子密度直方图的比较(φB类)和求解结构的相位(φC)基因V蛋白。相应地生成了两个相位源的电子密度图,阈值为±5σ应用于地图中的密度截断。使用(1)计算偏度对于第一和第二种情况,得到的值分别约为0.22和1.11。有必要应用阈值截止来截断密度图,因为大多数开始的实验图往往具有一些高度正值和负值。截断有助于防止由几个非常大的峰值导致的极端map-skewness值。
2.方法
我们选择了遗传算法由于此类算法在问题表示和搜索空间探索中的有用特性,因此被视为优化工具。遗传算法是由Holland(1975年)首创的)并已在X射线衍射的各种方法中作为搜索工具实施,例如小角度散射,以确定分子形状(Franke&Svergun,2009)粉末衍射恢复相位(Shankland等。, 1997; 哈里斯等。2004年; Feng&Dong,2007年)和从头算低分辨率大分子晶体学中的相位(米勒等。1996年; 韦伯斯特和希尔根菲尔德,2001年; 周和苏,2004; 伊米尔齐等。, 2009).
我们的实现将选择的最强反射的相位概率分布作为输入,创建一个类似于染色体的数据结构来存储这些相位,并通过遗传算子操作每个染色体,只选择那些偏差值高于父函数的解,并输出目标函数值较高的解(图2). 在每次运行结束时,我们测量两个量:(i)地图相关性(方程2; 见下文)(φS公司)以及根据正确模型计算的相位(φC)仅针对搜索中选择的最强反射,以及(ii)密度修改后的映射之间的映射相关性(通过将选定反射的优化相位与其余反射的质心相位相结合生成,并将其传递给密度修改;在该过程中使用所有反射)和计算出的图(由求解的结构生成)。
哪里N个是选定反射的数量。
| 图2 遗传算法的实现。 |
我们将SISA公司程序分为三个部分:首先,从相位概率分布函数初始化相位选择(存储在染色体中);其次,应用遗传算法和遗传算子,目标函数是密度图的偏度;第三,选择最佳方案,分配新的优值,并将其传递给密度修改和模型构建。算法的所有部分都是用Python编写的cctbx公司图书馆(格罗西-昆斯利夫等。, 2002).
2.3. 复合解决方案
该过程的最后一部分涉及从优化过程中选择最佳解决方案。为了对解空间进行采样,进行了几个独立的微运行,以便从不同的起点获得许多解。所有运行完成后,我们注意到有不同的解决方案可以产生同样高的地图偏度值,即对于选定的map偏度值,最佳解和最差解之间的相位差可能高达15°左右。为了避免选择最差的解,选择适应度值高于平均值的那些解,并计算它们的质心相位作为最佳解。这个组合最佳解决方案是搜索过程每次运行的输出。
我们将这些优化的相位和更新的优值图与质心相位及其原始优值图相结合,然后通过将这组新反射输入密度修改来测量优化最强反射的影响。如下文所述(见图6),通过将初始值增加0.2来更新所选反射的优值或保持不变。
在每次跑步过程中遗传算法由以下参数控制。
(i)N个染色体,染色体的数目。 (ii)N个世代,世代数。 (iii)P(P)交叉,交叉概率(0.0–1.0)。 (iv)P(P)突变,突变概率(0.0-1.0)。 (v)R(右)交叉点,由染色体大小的一部分表示的交叉点数量。 (vi)N个突变点,突变点的数量。
|
这些参数决定了每次运行可以表示的解决方案空间的大小以及所需的计算时间。 3.结果和讨论
3.2. 案例二和案例三
对基因V蛋白SAD数据集进行密度修改和建模后的改进表明,图偏度可以作为目标函数来搜索比φB类为了研究相同的方法是否适用于其他情况,我们选择了两个进一步的数据集(表1中的情况II和情况III)在密度修正和模型建立后,未能给出完整的结构。
对于基因V蛋白,这两个数据集采用了相同的方案。我们首先使用遗传算法并在每次测试中获得了五次独立运行的结果。我们计算了所有优化相位的映射相关系数(φS公司)与已知结构相比(φC),这是使用不同的数据集解决的。搜索操作完成后,我们将选定反射的新相位集与原始质心相位重新组合(通过添加0.2使其原始优值略微膨胀)(φB类)并将其传递给密度修改(使用PHENIX汽车制造). 我们从运行中收集了密度修改图的图相关性,以研究新相集的影响。
使用SAD数据对包含酵母ai5结构域5和6的RNA进行所有测试,优化阶段的质量都得到了提高γ第二组自剪接内含子(第二组内含子;案例二),与选择的最强反射数无关(图9一). 由新反射文件生成的密度修改图(具有优化相位和剩余质心相位)得到了显著改进;所有测试的平均地图相关性(具有不同数量的选定最强反射)从0.56(使用原始质心相位的密度修改地图的地图相关性)增加到0.70(图9b条); 只有对100个最强反射进行优化,才能获得这种改进。
| 图9 对来自第二组内含子的SAD数据进行五项独立试验,以搜索100、500和1000个反射波的相位,结果选出最强反射波。(一)仅映射优化相位的选定反射的相关性。(b条)密度修改贴图的所有反射的贴图相关性。 |
我们注意到,后续的建模过程导致仅具有原始质心相位的数据集以及具有原始质心相位和优化相位的数据集中的地图质量相似。在这些迭代密度修改和建模周期结束时,由质心相位(0.56)生成的密度修改图的图相关性也增加到0.7左右:对包含优化相位的数据集进行一次密度修改后获得的值。
在搜索异质核糖核蛋白A1(hnRNP;案例III)后,我们可以获得相位改善,但在密度修改图上没有观察到任何影响(图10). 与之前的测试案例类似,当选择更多的反射时,优化阶段的平均改进会降低。所有三次测试(100、500和1000次最强反射)和质心相位的密度修改产生了类似的结果,图相关性约为0.7。然而,在这种情况下,没有观察到对密度修改的影响;这可能是因为从质心相位产生的密度修改已经产生了可用的映射。
| 图10 对hnRNP的SAD数据进行五项独立试验的结果(一)仅映射优化相位的选定反射的相关性。(b条)密度修改贴图的所有反射的贴图相关性。 |
4.结论
本文探讨了两个关键思想:首先,减少一小组最强反射中的相位误差会产生很大影响,其次,图偏度是相位质量的一个非常有效的度量。这些想法是在一个计算机程序中实现的,SISA公司,它应用了遗传算法以提高密度修改后密度图的质量,从而在后续的模型构建中取得更大的成功。使用这三个测试用例的结果表明,通过使用贴图偏度作为目标函数的迭代搜索,可以改善大约1000个选定最强反射的相位。基于改变搜索中使用的最强反射次数(100、500或1000)的测试,我们观察到,当反射次数较少时,平均相位改善更大(例如100)。
当100–500个相位发生变化并与原始质心相位相结合时,φB类对于其余的反射,大多数测试运行表明,对第II组内含子和基因V蛋白进行密度修改后,地图的质量有了实质性的改善。此外,应用SISA公司该过程极大地促进了后者的自动化模型构建。
搜索的计算时间取决于结构的大小和选定反射的数量。在这三个测试案例中,最小的结构,基因V蛋白,有682个非H原子,在空间组 C2.计算时间约为15 100次最强反射的最小值为1.2 h表示2.4上的500次最强反射 GHz CPU。最大的结构,II族内含子(案例II),有1497个非H原子,约7400个反射空间组 P(P)6122.我们记录了2和10.5的计算时间 h分别用于100和500次选定反射。
中的程序优化的阶段SISA公司将对SIR/SAD数据集有用,这些数据集可以生成具有边际质量的电子密度图。SISA公司可以从下载https://www.biochem.uni-luebeck.de/public/software/sisa/sisa.html并将纳入菲尼克斯软件套件。
致谢
我们感谢劳伦斯伯克利国家实验室使用计算网格来运行搜索算法和建模程序PHENIX汽车制造这项工作得到了医学和生命科学计算研究生院(DFG GSC 235/1)和卓越集群“界面炎症”(DFG EXC 306/2)的支持。MU感谢Ralf W.Grosse-Kunstleve博士激发的讨论。TCT和RJR感谢NIH(批准号:P01GM063210)。RJR由Wellcome信托基金支持(批准号:082961)。RH由中国科学院通过高级国际科学家客座教授(批准号:2010T1S6)提供支持。
工具书类
P.D.亚当斯。等。(2010).《水晶学报》。D类66, 213–221. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Bäck,T.、de Graaf,J.M.、Kok,J.N.和Kosters,W.A.(1997)。牛市。欧洲理论协会。计算。科学。 63, 161–192. 谷歌学者
Blow,D.M.&Crick,F.H.C.(1959年)。《水晶学报》。 12, 794–802. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
Connor,R.(1994年)。遗传算法实用手册:应用由L.D.Chambers编辑,第57-74页。博卡拉顿:CRC出版社。 谷歌学者
De Jong,K.A.和Spears,W.M.(1991)。第一届自然并行问题解决研讨会会议记录由H.-P.Schwefel&R.Männer编辑,第38-47页。伦敦:Springer-Verlag。 谷歌学者
Feng,Z.J.和Dong,C.(2007)。J.应用。克里斯特。 40, 583–588. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Franke,D.和Svergun,D.I.(2009年)。J.应用。克里斯特。 42, 342–346. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Grosse-Kunstleve,R.W.,Sauter,N.K.,Moriarty,N.W.和Adams,P.D.(2002)。J.应用。克里斯特。 35, 126–136. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Harris,K.D.M.、Haberson,S.、Cheung,E.Y.和Johnston,R.L.(2004)。Z.克里斯塔洛格。 219, 838–846. 科学网 交叉参考 中国科学院 谷歌学者
Hendrickson,W.A.和Lattman,E.E.(1970年)。《水晶学报》。B类26, 136–143. 交叉参考 中国科学院 IUCr日志 谷歌学者
Holland,J.H.(1975)。自然和人工系统中的适应安娜堡:密歇根大学出版社。 谷歌学者
Immirzi,A.、Erra,L.和Tedesco,C.(2009年)。J.应用。克里斯特。 42, 810–814. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Lunin,V.Yu.和Woolfson,M.(1993年)。《水晶学报》。D类49, 530–533. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
McCoy,A.J.、Storoni,L.C.和Read,R.J.(2004)。《水晶学报》。D类60, 1220–1228. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Miller,S.T.、Hogle,J.M.和Filman,D.J.(1996)。《水晶学报》。D类52, 235–251. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Otwinowski,Z.(1991)。CCP4研究周末会议记录。同构替换与异常散射,由W.Wolf、P.R.Evans和A.G.W.Leslie编辑,第80-86页。沃灵顿:达斯伯里实验室。 谷歌学者
Podjarny,A.D.和Yonath,A.(1977年)。《水晶学报》。一个33, 655–661. 交叉参考 中国科学院 IUCr日志 谷歌学者
里德,R.J.(1986)。《水晶学报》。一个42, 140–149. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Shamoo,Y.、Krueger,U.、Rice,L.M.、Williams,K.R.和Steitz,T.A.(1997年)。自然结构。生物。 4, 215–222. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
Shankland,K.,David,W.I.F.&Csoka,T.(1997)。Z.克里斯塔洛格。 212, 550–552. 交叉参考 中国科学院 科学网 谷歌学者
斯金纳,M.M.,张,H.,莱斯尼策,D.H.,关,Y.,贝拉米,H.、斯威特,R.M.、格雷,C.W.、科宁,R.N.、王,A.H.-J.和特威利格,T.C.(1994)。程序。美国国家科学院。科学。美国,91, 2071–2075. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
Sywerda,G.(1989)。第三届遗传算法国际会议论文集由J.D.Schaffer编辑,第2-9页。旧金山:摩根·考夫曼。 谷歌学者
Terwilliger,T.C.、Adams,P.D.、Read,R.J.、McCoy,A.J.、Moriarty,N.W.、Grosse-Kunstleve,R.W.,Afonine,P.V.、Zwart,P.H.&Hung,L.W.(2009年)。《水晶学报》。D类65, 582–601. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Vekhter,Y.(2005)。《水晶学报》。D类61, 899–902. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Wang,B.-C.(1985)。方法酶学。 115, 90–112. 交叉参考 中国科学院 公共医学 谷歌学者
Webster,G.和Hilgenfeld,R.(2001)。《水晶学报》。一个57, 351–358. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Zhang,L.和Doudna,J.A.(2002)。科学类,295, 2084–2088. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Zhou,Y.和Su,W.-P.(2004)。《水晶学报》。一个60, 306–310. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
| 生物 结晶学 |
国际标准编号:1399-0047
打开访问