研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标生物
结晶学
国际标准编号:1399-0047

改进密度修改前强反射的实验阶段

十字标记_颜色_方形_文本.svg

德国吕贝克拉特泽堡阿勒160号吕贝克大学结构与细胞生物学医学中心生物化学研究所,邮编:23538,b条德国吕贝克拉特泽堡阿勒160号吕贝克大学医学和生命科学计算研究生院,邮编:23538,c(c)中国科学院上海药物研究所,中华人民共和国上海市祖冲支路555号,邮编:201203,d日美国新墨西哥州洛斯阿拉莫斯市洛斯阿拉莫斯国家实验室生物科学部和洛斯阿拉莫研究所,以及e(电子)英国剑桥大学剑桥医学研究所血液学系,剑桥CB2 0XY
*通信电子邮件:hilgenfeld@biochem.uni-luebeck.de

(2013年3月15日收到; 2013年7月1日接受; 2013年9月20日在线)

大分子晶体衍射数据的实验定相包括推导相位概率分布。这些分布通常是双峰的,使得它们的加权平均、质心相位不太可能,因此使用质心相位计算的电子密度图通常无法解释。密度修正带来了蛋白质晶体中电子密度特性的信息。在成功的情况下,这允许在相位概率分布中的模式之间进行选择,并且映射可以跨越不可解释和可解释之间的边界。基于Vekhter的建议[Vekhter(2005)[Vekhter,Y.(2005),《水晶学报》,D61,899-902.]),《水晶学报》。D类61,899–902],研究了在密度修改过程之前为少量强反射确定优化相位的影响,同时使用质心相位作为剩余反射的起点。一个遗传算法利用密度图的偏度作为目标函数来优化此类相位的质量。以这种方式优化的相然后用于密度修改。在大多数测试中,生成的地图质量高于从原始质心相位生成的地图。在其中一个测试案例中,新方法充分改进了实验SAD阶段的边缘集,从而成功地进行了地图解释。一个计算机程序,SISA公司,已被开发用于将此方法应用于高分子结晶中的相改进。

1.简介

实验SAD定相允许我们通过求解基于结构因子Friedel对之间差异的方程来获得相位信息。反射的可能解以概率分布的形式表示(Blow&Crick,1959【Blow,D.M.&Crick,F.H.C.(1959),《水晶学报》,第12期,第794-802页。】; Otwinowski,1991年[Otwinowski,Z.(1991)。CCP4研究周末会议记录。同构替换和异常散射,W.Wolf,P.R.Evans&A.G.W.Leslie编辑,第80-86页。沃灵顿:达斯伯里实验室。]; 麦考伊等。2004年【McCoy,A.J.、Storoni,L.C.和Read,R.J.(2004),《结晶学报》,D60,1220-1228。】). 为了解决一个结构,这个阶段信息被传递给密度修改,密度修改利用分子图的预期特征来打破初始分布中存在的模糊性(Wang,1985[王,B.-C.(1985)。《酶学方法》,115,90-112。]). 在许多反射具有精确相位的情况下,获得可解释的地图是很简单的。相反,当大多数反射的测定结果不佳时,解决模糊性仍然是一项困难的任务。

我们从基因V蛋白(Skinner)中选择了SAD数据集等。, 1994[Skinner,M.M.,Zhang,H.,Leschnitzer,D.H.,Guan,Y.,Bellamy,H.、Sweet,R.M.、Gray,C.W.、Konings,R.N.、Wang,A.H.-J.和Terwilliger,T.C.(1994)。美国国家科学院院刊,91,2071-2075。])作为这种情况的一个例子。由于密度修正后获得的电子密度图质量较低,仅从峰值波长SAD数据求解此结构具有挑战性。然而,该结构可以通过MAD数据集进行求解。这是一个常见的情况,当实验阶段导致一个糟糕的地图。

维克特(2005)[Vekhter,Y.(2005),《水晶学报》,D61,899-902.])提出了一项有趣的研究,研究表明,通过将低误差相位分配给几个最强的反射波,在密度修改后,整个相位集可以显著改善。有五个结构,5000–17000次反射,看到这样大的数据集可以通过只将124次最强的反射指定为正确的相位而得到改善,这非常令人鼓舞。维克特(2005)[Vekhter,Y.(2005)《晶体学报》D61、899-902。])指定了根据模型计算出的正确相位,并提出在实际中可以通过三光束衍射实验测量相位。在这里,我们通过探索计算方法来跟进这一分析,以便在将一些最强的反射引入密度修改之前,为其选择改进的相位。为了实现这一目标,我们提出了以下几点。

  • (i) 我们测试了地图是否偏斜(Podjarny&Yonath,1977【Podjarny,A.D.和Yonath,A.(1977),《水晶学报》,A33,655-661。】)它描述了地图中极值趋向于系统性正值或负值的程度,可用于确定一些最强反射的正确相位。我们通过开发一个遗传算法寻找最强反射的相位组合。在存在整个数据集的情况下,这些会导致更好的偏度值。我们观察到,最强反射的正确相位与贴图偏度值的增加相关。一个计算机程序,SISA公司(“SIR/SAD阶段优化”),已编写,将纳入菲尼克斯软件包(Adams等。, 2010[Adams,P.D.等人(2010),《晶体学报》D662113-221。]).

  • (ii)对于三个“困难结构”,我们测试了将偏度作为目标函数来实现优化最强反射相位质量的算法的效率。为了观察这种改进的效果,我们使用优化的数据集进行密度修改,并将结果与使用原始数据进行密度修改的结果进行了比较。

我们选择了表1中的数据集[链接]因为它们是临界情况,在这种情况下,密度修改的相不足以生成可解释的图。

表1
测试蛋白质数据汇总

结构 PDB条目 “空间”组 搜索分辨率(Ω) 非H原子数量 单位-细胞参数(Ω,°)
案例一:基因V蛋白(单链DNA结合蛋白;Skinner等。, 1994[Skinner,M.M.,Zhang,H.,Leschnitzer,D.H.,Guan,Y.,Bellamy,H.、Sweet,R.M.、Gray,C.W.、Konings,R.N.、Wang,A.H.-J.和Terwilliger,T.C.(1994)。美国国家科学院院刊,91,2071-2075。]) 1个vqb C2 2.6 682 = 75.81,b条=27.92,c(c)= 42.40,β= 103.1
案例二:包含酵母ai5结构域5和6的RNAγ第二组自剪接内含子(Zhang和Doudna,2002[Zhang,L.&Doudna,J.A.(2002),《科学》,2952084-288。]) 1千x千 P(P)6122 3.5 1497 =b条=91.68,c(c)= 241.65,
案例三:异质核糖核蛋白A1(Shamoo等。, 1997[Shamoo,Y.、Krueger,U.、Rice,L.M.、Williams,K.R.和Steitz,T.A.(1997)。《自然结构生物学》第4期,第215-222页。]) 1小时1 P(P)21 3 1338 = 38.1,b条= 44.0,c(c)= 56.1,β= 94.8

为了提高实验地图的质量,我们在这里利用了两个关键思想。第一个涉及最强反射的作用。我们尝试用正确的相位(根据PDB模型计算)替换100个最强反射的质心相位,用于我们的一个测试案例,即基因V蛋白;我们将这组反射传递给密度修改,并计算出方程(2)中定义的地图相关性[链接](见下文;Read,1986年[Read,R.J.(1986),《结晶学报》,A42140-149。]; Lunin&Woolfson,1993年【Lunin,V.Yu.和Woolfson,M.M.(1993),《结晶学报》D49,530-533。】)用于密度修改后的地图。根据Vekhter(2005)的观察[Vekhter,Y.(2005),《水晶学报》,D61,899-902.]),新的一组结构因子的映射相关性从0.45(使用原始反射集时获得的值)增加到0.66(图1[链接]).

[图1]
图1
在该方法的实施过程中利用了两个关键思想。()从SAD数据生成的基因V蛋白的两个密度修改图的比较:第一个图来自具有原始质心相位的反射集(φB类)而第二张图是通过将正确的相位(来自PDB模型)分配给来自同一数据集的100个最强反射而得出的。第二幅地图的地图相关性从0.45显著提高到0.66。(b条)两个电子密度直方图的比较:左边的直方图是由使用质心相位计算的电子密度图生成的(φB类)导致地图偏斜值较小(偏斜=0.22;见方程式1[链接])右侧的直方图是根据使用正确相位计算的地图生成的(φC),导致贴图偏斜值较大(偏斜=1.11)。

通过注意由相位误差引入的电子密度的均方误差与反射的振幅平方成比例,也可以理解这些最强反射的重要性。基因V蛋白的100个最强反射(仅占所有反射的4%)占整个数据集平方振幅总和的23%。这也表明可以改进的最强反射的数量有限,因为如果包含更多反射,振幅平方和的回报将逐渐减少。正如预期的那样,这23%的振幅平方和贡献并不是均匀分布在不同分辨率的壳中;在振幅平方和的23%中,64%是由最低分辨率外壳中的反射贡献的(>10Å).

考虑到一些最强的反射可能会对密度修改产生影响,因此可以实现在这个紧凑的解空间中搜索相位组合的算法。由于我们已经了解了实验相位的相位,因此无需搜索0到2的整个值范围π,但我们可以根据反射的概率分布限制反射相位的选择。

第二个关键思想是基于分子图质量的测量。请注意,我们将只为几个最强的反射选择替代相位。其余反射将与其原始质心相位一起使用,任何新贴图都将使用完整的反射集进行计算。通过这种方式,没有变化的反射相位提供了用于地图计算的已知信息的背景,并且正在测试变化的相位与其他相位的一致性。假设新生成的地图具有一些分子特征,作为计算地图质量的起点。正如特威利格指出的那样,我们在这项工作中选择了电子密度图中密度值的偏度等。(2009年【Terwilliger,T.C.、Adams,P.D.、Read,R.J.、McCoy,A.J.、Moriarty,N.W.、Grosse-Kunstleve,R.W.,Afonine,P.V.、Zwart,P.H.&Hung,L.W.(2009),《结晶学报》D65、582-601。】)这是十个测试指标中评估地图质量最准确的指标。我们设置了倾斜函数(1)[链接]作为搜索算法的目标函数,

[{\rm斜交}={{\langle{\rho}^{3}\rangle}\在{{\langle\rho{^{2}\range}^{3/2}}.\eqno(1)]

图1[链接](b条)显示了SAD数据相位生成的电子密度直方图的比较(φB类)和求解结构的相位(φC)基因V蛋白。相应地生成了两个相位源的电子密度图,阈值为±5σ应用于地图中的密度截断。使用(1)计算偏度[链接]对于第一和第二种情况,得到的值分别约为0.22和1.11。有必要应用阈值截止来截断密度图,因为大多数开始的实验图往往具有一些高度正值和负值。截断有助于防止由几个非常大的峰值导致的极端map-skewness值。

2.方法

我们选择了遗传算法由于此类算法在问题表示和搜索空间探索中的有用特性,因此被视为优化工具。遗传算法是由Holland(1975年)首创的[Handland,J.H.(1975),《自然和人工系统中的适应》,安娜堡:密歇根大学出版社)并已在X射线衍射的各种方法中作为搜索工具实施,例如小角度散射,以确定分子形状(Franke&Svergun,2009【Franke,D.和Svergun,D.I.(2009),《应用晶体》杂志,第42卷,第342-346页。】)粉末衍射恢复相位(Shankland等。, 1997【Shankland,K.,David,W.I.F.&Csoka,T.(1997).Z.Kristallogr.212,550-552】; 哈里斯等。2004年【Harris,K.D.M.,Haberson,S.,Cheung,E.Y.&Johnston,R.L.(2004),Z.Kristallogr.219,838-846.】; Feng&Dong,2007年【Feng,Z.J.&Dong,C.(2007),《应用结晶》第40卷,第583-588页。】)和从头算低分辨率大分子晶体学中的相位(米勒等。1996年【Miller,S.T.、Hogle,J.M.和Filman,D.J.(1996),《结晶学报》D52、235-251。】; 韦伯斯特和希尔根菲尔德,2001年[Webster,G.&Hilgenfeld,R.(2001),《结晶学报》A57,351-358。]; 周和苏,2004[Zhou,Y.&Su,W.-P.(2004).晶体学报A60306-310]; 伊米尔齐等。, 2009【Immirzi,A.、Erra,L.和Tedesco,C.(2009),《应用结晶杂志》第42期,第810-814页。】).

我们的实现将选择的最强反射的相位概率分布作为输入,创建一个类似于染色体的数据结构来存储这些相位,并通过遗传算子操作每个染色体,只选择那些偏差值高于父函数的解,并输出目标函数值较高的解(图2[链接]). 在每次运行结束时,我们测量两个量:(i)地图相关性(方程2[链接]; 见下文)(φS公司)以及根据正确模型计算的相位(φC)仅针对搜索中选择的最强反射,以及(ii)密度修改后的映射之间的映射相关性(通过将选定反射的优化相位与其余反射的质心相位相结合生成,并将其传递给密度修改;在该过程中使用所有反射)和计算出的图(由求解的结构生成)。

[{\rm CP}\{\rho_1,\rho_2\}={{\textstyle\sum\limits_{i=1}^N{F{\rm-obs}}{(i)}^2}\cos[{\varphi_{\rm-C}}(i},\eqno(2)]

哪里N个是选定反射的数量。

[图2]
图2
遗传算法的实现。

我们将SISA公司程序分为三个部分:首先,从相位概率分布函数初始化相位选择(存储在染色体中);其次,应用遗传算法和遗传算子,目标函数是密度图的偏度;第三,选择最佳方案,分配新的优值,并将其传递给密度修改和模型构建。算法的所有部分都是用Python编写的cctbx公司图书馆(格罗西-昆斯利夫等。, 2002【Grosse-Kunstleve,R.W.,Sauter,N.K.,Moriarty,N.W.&Adams,P.D.(2002),《应用结晶杂志》第35期,第126-136页。】).

2.1、。阶段选择的初始化

根据Hendrickson–Lattman系数中编码的相位概率分布函数,我们生成了反射的相位选择(Hendricgson&Lattman,1970[Hendrickson,W.A.&Lattman,E.(1970),《结晶学报》B26136-143。]). 选择反射相位的示例如图3所示[链接].在这种情况下双峰分布,质心相位(φB类)通常会被选中。在我们的方法中,我们允许从相位概率分布中选择相位。实际上,我们转换了相位概率分布(图3[链接])累积分布(图3[链接]b条). 该算法相当于选取0–1范围内的一个随机数,水平绘制一条与累积函数相交的线,并在曲线的这一点选择相位。通过多次这样做,我们可以为反射采样所有可能的相位选择。同样明显的是,由于累积函数的斜率较大,最有可能选择概率较高的阶段。最后,我们根据所需的密度图数量(遗传算法的种群大小)生成了许多阶段选择。对每个选定的反射都执行了此过程。

[图3]
图3
选择除φB类进行反思。()相位概率分布函数。(b条)根据计算的累积分布函数(). (c(c))为遗传算法存储相位选择的染色体。

请注意,我们仅将这些备选选项应用于不同数量的最强反射。构成大多数反射的其余反射保持质心相位(φB类). 尽管剩余反射的相位没有受到扰动,但它们在与变化的反射相互作用以确定偏斜值方面发挥着重要作用。我们在§中显示[链接]只有将不同的反射与其他反射一起用于生成密度图并计算图偏度作为搜索的目标函数时,才能获得相位改善。

2.2. 遗传算法

第二部分是实施遗传算法。这种随机搜索算法有两个重要特点。第一个特性是存储表示问题可能解决方案的信息的方式。这个遗传算法将每组答案视为一条染色体,它看起来就像我们刚刚从第一部分构造的输出(图3[链接]c(c)),其中每个相位值都是反射的可能答案。注意,染色体中存储的值不是由二进制字符串表示的,而是由0到359之间的非负整数集表示的。我们的算法将我们刚刚创建的这些相位组合作为染色体的起始池。

第二个特征包括选择和重组过程。为了提高搜索性能,我们选择了地理约束技术(Connor,1994)[Connor,R.(1994),《遗传算法实用手册:应用》,L.D.Chambers编辑,第57-74页。博卡拉顿:CRC出版社。])概率加权(也称为轮盘赌)方法(Bäck等。, 1997【Bäck,T.,de Graaf,J.M.,Kok,J.N.&Kosters,W.A.(1997)。《欧洲公牛协会理论计算科学》63,161-192。】)用于此选择过程。这一决定是基于搜索性能的比较,通过使用来自基因V的SAD数据并使用这两种选择技术来搜索100个最强反射的相位。这个遗传算法当群体库中的所有染色体变得均一时(从同一代的所有染色体对计算出的map相关性平均值>0.9),则终止。在使用轮盘赌轮选择时,我们需要大约95-97代人,但在终止算法时,只有大约9-11代人受到地理限制。两种选择技术都产生了从100个优化阶段计算出的类似质量的地图相关性(约0.53)。

图4[链接]说明了如何在选择过程中实施地理约束技术。在任何时候,父染色体都是从地图上的随机位置中选择的,在那里绘制另一个较小的地图以覆盖所选位置(图4[链接]). 该算法在这个较小的映射上执行随机行走,以选择重组的候选对象,并选择具有最高适应值的一个。与轮盘赌相比,轮盘赌在任何给定的时间都可能只选择一组具有高适应值的染色体,地理再限制方法允许选择适合度景观中不同位置的染色体进行重组,即使它们不属于具有高适合度值的组。这样可以防止种群过早丧失多样性。

[图4]
图4
遗传算法的选择和重组过程中使用的地理约束技术。()从适应环境中的随机位置选择一个父代(黑色位置),在那里绘制一张局部地图。通过在该局部地图上执行随机漫步,更多的染色体被选为候选染色体(中灰色),最合适的染色体(深灰色)被选为重组过程。(b条)在交叉和突变概率的控制下,选择一对选定的染色体进行重组。均匀交叉技术用于交叉操作,其中只有交叉模板上指示的位置在父母之间交换。突变算子发生在子染色体上随机选择的位置,在那里,子染色体的相位被相位概率分布中重新绘制的新相位所取代。

进化过程是通过应用变异算子和使用交叉算子重组父代来实现的。这两种机制都是由交叉和变异的概率控制的,因此许多合适的解和一些不合适的解将被选择给下一代。

对于重组过程,我们选择了均匀交叉,这允许从父母染色体中随机选择的片段进行交换(Sywerda,1989[Sywerda,G.(1989),《第三届遗传算法国际会议论文集》,J.D.Schaffer编辑,第2-9页。旧金山:摩根·考夫曼。]). 对于复杂搜索空间中的实际种群规模无法满足必要的采样精度的问题,建议将其作为合适的算子(De Jong&Spears,1991[De Jong,K.A.&Spears,W.M.(1991),《第一届自然并行问题解决研讨会论文集》,H.P.Schwefel&R.Männer编辑,第38-47页。伦敦:施普林格-弗拉格。])在我们的问题设置中,想象解空间大小的一种方法是考虑必须测试1000次反射的相集数量。如果每个反射都有两个相位选择(如双峰分布的情况),则有2个1000为了获得正确答案,需要测试的相位组合。为了仍然能够计算一些答案,我们的方法每次测试只生成大约400个相位组合,这个数字比获得正确答案所需的数字小得多:均匀交叉鼓励染色体断裂,这可能有助于算法探索优化阶段的更多可能性。

重组过程如何与我们的方法一起工作的示例如图4所示[链接](b条). 从人口池中选择一对相位集。为了重组染色体,会生成一个随机模板,指示基因交换的位置。每次发生交叉时,都会重新创建此模板。在一定的概率下,这两个新后代染色体的一些基因也发生了突变。当发生突变时,该算法从反射的原始相位概率分布中随机选择一个新的相位。然后根据新的相位组合重新计算目标函数。只有当子代具有较高的目标函数值时,父对才会被其子代替换。

2.3. 复合解决方案

该过程的最后一部分涉及从优化过程中选择最佳解决方案。为了对解空间进行采样,进行了几个独立的微运行,以便从不同的起点获得许多解。所有运行完成后,我们注意到有不同的解决方案可以产生同样高的地图偏度值,对于选定的map偏度值,最佳解和最差解之间的相位差可能高达15°左右。为了避免选择最差的解,选择适应度值高于平均值的那些解,并计算它们的质心相位作为最佳解。这个组合最佳解决方案是搜索过程每次运行的输出。

我们将这些优化的相位和更新的优值图与质心相位及其原始优值图相结合,然后通过将这组新反射输入密度修改来测量优化最强反射的影响。如下文所述(见图6),通过将初始值增加0.2来更新所选反射的优值或保持不变。

在每次跑步过程中遗传算法由以下参数控制。

  • (i)N个染色体,染色体的数目。

  • (ii)N个世代,世代数。

  • (iii)P(P)交叉,交叉概率(0.0–1.0)。

  • (iv)P(P)突变,突变概率(0.0-1.0)。

  • (v)R(右)交叉点,由染色体大小的一部分表示的交叉点数量。

  • (vi)N个突变点,突变点的数量。

这些参数决定了每次运行可以表示的解决方案空间的大小以及所需的计算时间。

3.结果和讨论

3.1. 案例一:基因V蛋白

该晶体的SAD数据集产生了相位,整个反射集的平均优值为0.42。通过向自动建模程序提供带有分子序列的数据集,PHENIX汽车制造,我们可以在运行结束时获得一个模型,其中87个残留物中有42个是用R(右)=0.46,地图相关性为0.52。数据集(约2500次反射)是从属于空间组 C2,单位-细胞参数如表1所示[链接].

这里有两点指导了我们的测试程序。我们有兴趣确定倾斜函数是否可以用于改善一些最强反射的相位,如果可以,则确定新相位是否会对密度修改产生影响。为了实现第一个目标,我们选择对不同数量的最强反射运行优化算法。除了反射次数不同外,我们还指定了相同的参数(N个染色体= 400,N个世代= 100,P(P)交叉= 0.95,P(P)突变=0.01,R(右)交叉点=0.2和N个突变点=1)至遗传算法在所有的运行中,当染色体中的每一对相集的图相关性大于0.9时,终止程序。这组参数值是从各种测试值中选择的,因为它在保持令人满意的计算性能的同时,似乎可以产生最佳结果。为了观察相位质量的变化,我们计算了map相关性(2[链接])对于特定的染色体,与已知的相比较,该染色体存储选定反射的相位选择φC.

我们通过选择20、30、100和500个最强反射来测试优化过程。为了测量相位的质量,我们生成了散点图(图5[链接])在仅使用搜索中的选定反射计算的贴图相关性(垂直轴)和贴图偏斜度(水平轴)之间,其中一个特定点表示选定反射的一组相位。颜色从浅绿色变为深蓝色,代表了必要的优化次数。正方形和菱形标记表示φB类和优化阶段φS公司分别为。请注意φS公司是从偏斜值大于平均值的所选染色体计算出的新质心相位。这些图还揭示了优化过程中整体相位质量的变化,从一系列填充点可以看出。每个填充点表示从具有类似倾斜值的相位集集合计算的质心相位的相位质量。这些质心相位往往比单个样品具有更高的相位质量,这在反射次数变化较大时尤为明显。

[图5]
图5
测量搜索中选择的最强反射的优化相位的质量。使用地图相关系数(方程式2)计算测量值[链接])优化阶段的(φS公司)和已知相位(φC). 每个点代表一组相位,产生密度图的特定偏移值和地图相关性的特定值。填充点显示了从一组具有类似倾斜值的相位计算出的质心相位的地图相关系数。所有图显示了五次独立运行的结果,其中一个方形标记表示原始质心相位φB类和代表优化阶段的菱形标记φS公司选择作为搜索过程的输出()20次最强的反射(b条)30次最强的反射(c(c))100次最强反射和(d日)500次最强反射。

这些图告诉我们,为了获得相位改善,应至少选择30个最强的反射,因为通过选择最少的反射次数,我们能够获得最佳相位(φS公司)与使用质心相位计算的图相关性更好(φB类). 当我们增加选定反射的数量时,我们观察到该算法获得了较高的贴图偏斜值,而不同反射的相位质量的总体平均改善较小。此外,我们还注意到,大多数改进都发生在优值大于0.2的反射上(图6[链接]). 我们在随后的测试中忽略了这些反思。

[图6]
图6
()500次最强反射的优化相位质量,根据其原始优值分组(b条)使用原始品质因数和原始品质因数生成的密度修正图的质量比较增加了0.2。

下一步是测试这些优化阶段对密度修改的影响。在这里,我们尝试了两种方法来使用优值来选择最强的反射:原始优值和略微增加原始优值(+0.2)。使用原始优值进行密度修改后可以获得改进,但优值的轻微膨胀会导致更好的结果(图6[链接]b条). 另一种可能性是根据搜索过程结束时选择的染色体(为遗传算法存储相位)之间的相位值分布计算优值;然而遗传算法与每个反射具有非常相似相位值的总体收敛,给出了在优化相位达到峰值的分布(优值接近1)。

当优化100多个反射的相位时,迭代搜索有助于提高相位质量;对于500次反射,增量搜索100次反射的相位,从五次独立运行(映射相关性为φB类为0.48,无迭代优化阶段的平均map相关为0.51;见图7[链接]).

[图7]
图7
对来自基因V蛋白的SAD数据进行五项独立试验以搜索100、500和1000个阶段的结果选择了最强的反射。()仅映射优化相位的选定反射的相关性。(b条)密度修改贴图的所有反射的贴图相关性。

使用迭代搜索模式,我们对100、500和1000个最强反射进行了五次独立的运行。我们测量了优化阶段的地图相关性(φS公司)对于选定的反射(图7[链接])并将这些选定的反射(具有优化的相位)与其余反射(具有原始质心相位)相结合,以进行密度修改。我们计算了所有反射的密度修正相位的映射相关性,以观察所选最强反射及其优化相位的影响(图7[链接]b条).

图7中的结果[链接]根据最强反射的数量进行分组;误差栏显示平均值和±1σ从五次独立运行中获得的地图相关性。对于每个组φB类对于选定数量的反射,使用方形标记显示。

所有测试的优化阶段(100、500和1000次最强反射)提高了密度修正图的质量;地图相关性从0.45增加(密度修正地图使用φB类)平均map相关性(五次运行)分别为0.52、0.57和0.55。即使选择了1000个最强的反射波,仍然可以迭代提高相位质量;然而,500次最强反射的密度修正相位(全部反射)足以在随后的建模周期中获得改善。我们使用PHENIX汽车制造对于图相关性最低和最高的密度修正图,获得了图相关性分别为0.75和0.8的最终图(原始质心相位导致图相关性为0.52);最好的图谱提供了一个几乎完整的结构(87个残基中有84个残基与R(右)R(右)自由的分别为0.20和0.27)。

保持不变的剩余反射在获得不同反射的相位改善方面起着重要作用。我们对100和500次最强反射进行了两次测试:一次仅使用选定的最强反射,另一次使用所有反射来计算搜索期间的贴图偏度(但仅使用选定最强反射变化)。100和500次最强反射的结果表明,只有使用所有反射生成密度图并计算图偏度(搜索的目标函数)时,才能获得相位改善;对于100次最强反射,地图相关性增加到平均值0.55(五次)(图8[链接])500次最强反射时为0.57(图8[链接]b条); 在搜索中仅使用选定的最强反射时,未观察到任何改善。

[图8]
图8
优化相位图相关性的比较(φS公司)从使用可变反射和剩余反射以及地图相关性的测试中得出,从仅使用可变反射计算地图偏度的测试中得到,作为搜索的目标函数。图上的误差条显示平均值和±1σ从五次运行中获得的地图相关性。方形标记表示使用以下方法计算的地图相关性φB。()100次最强反射。(b条)500强反射案例。

我们试图调查遗传算法在优化100多个反射的相位时,可以帮助改善结果。我们进行了10次跑步,将人群规模从400增加到2500,以搜索500次最强反射的相位。将搜索的其他参数保留为之前使用的相同值,我们获得了与测试中使用400个总体大小时类似的500个最强反射的地图相关性值。

3.2. 案例二和案例三

对基因V蛋白SAD数据集进行密度修改和建模后的改进表明,图偏度可以作为目标函数来搜索比φB类为了研究相同的方法是否适用于其他情况,我们选择了两个进一步的数据集(表1中的情况II和情况III[链接])在密度修正和模型建立后,未能给出完整的结构。

对于基因V蛋白,这两个数据集采用了相同的方案。我们首先使用遗传算法并在每次测试中获得了五次独立运行的结果。我们计算了所有优化相位的映射相关系数(φS公司)与已知结构相比(φC),这是使用不同的数据集解决的。搜索操作完成后,我们将选定反射的新相位集与原始质心相位重新组合(通过添加0.2使其原始优值略微膨胀)(φB类)并将其传递给密度修改(使用PHENIX汽车制造). 我们从运行中收集了密度修改图的图相关性,以研究新相集的影响。

使用SAD数据对包含酵母ai5结构域5和6的RNA进行所有测试,优化阶段的质量都得到了提高γ第二组自剪接内含子(第二组内含子;案例二),与选择的最强反射数无关(图9[链接]). 由新反射文件生成的密度修改图(具有优化相位和剩余质心相位)得到了显著改进;所有测试的平均地图相关性(具有不同数量的选定最强反射)从0.56(使用原始质心相位的密度修改地图的地图相关性)增加到0.70(图9[链接]b条); 只有对100个最强反射进行优化,才能获得这种改进。

[图9]
图9
对来自第二组内含子的SAD数据进行五项独立试验,以搜索100、500和1000个反射波的相位,结果选出最强反射波。()仅映射优化相位的选定反射的相关性。(b条)密度修改贴图的所有反射的贴图相关性。

我们注意到,后续的建模过程导致仅具有原始质心相位的数据集以及具有原始质心相位和优化相位的数据集中的地图质量相似。在这些迭代密度修改和建模周期结束时,由质心相位(0.56)生成的密度修改图的图相关性也增加到0.7左右:对包含优化相位的数据集进行一次密度修改后获得的值。

在搜索异质核糖核蛋白A1(hnRNP;案例III)后,我们可以获得相位改善,但在密度修改图上没有观察到任何影响(图10[链接]). 与之前的测试案例类似,当选择更多的反射时,优化阶段的平均改进会降低。所有三次测试(100、500和1000次最强反射)和质心相位的密度修改产生了类似的结果,图相关性约为0.7。然而,在这种情况下,没有观察到对密度修改的影响;这可能是因为从质心相位产生的密度修改已经产生了可用的映射。

[图10]
图10
对hnRNP的SAD数据进行五项独立试验的结果()仅映射优化相位的选定反射的相关性。(b条)密度修改贴图的所有反射的贴图相关性。

3.3、。优化相对密度调整的影响

根据初始阶段的质量,我们的方法可以显著改进密度修改和模型构建。在所有三种测试情况下,优化后最强反射的映射相关性都得到了改善(500个最强反射的结果如图11所示[链接]). 然而,在hnRNP的情况下,密度修改已经提高了原始质心相的质量,以生成质量相当好的地图,因此优化的相没有提供任何进一步的改进,也没有必要进行搜索。当密度修改导致地图质量较差时,例如在基因V和第II组内含子的情况下,所选最强反射的优化阶段对密度修改的质量和模型构建的容易程度有很大影响(图11[链接]b条).

[图11]
图11
()映射三个测试用例(基因V蛋白、第II组内含子和hnRNP)500个最强反射的优化相位和原始质心相位的相关性(b条)从具有优化相位和不具有优化相位的反射生成的密度修改映射的映射相关性。

4.结论

本文探讨了两个关键思想:首先,减少一小组最强反射中的相位误差会产生很大影响,其次,图偏度是相位质量的一个非常有效的度量。这些想法是在一个计算机程序中实现的,SISA公司,它应用了遗传算法以提高密度修改后密度图的质量,从而在后续的模型构建中取得更大的成功。使用这三个测试用例的结果表明,通过使用贴图偏度作为目标函数的迭代搜索,可以改善大约1000个选定最强反射的相位。基于改变搜索中使用的最强反射次数(100、500或1000)的测试,我们观察到,当反射次数较少时,平均相位改善更大(例如100)。

当100–500个相位发生变化并与原始质心相位相结合时,φB类对于其余的反射,大多数测试运行表明,对第II组内含子和基因V蛋白进行密度修改后,地图的质量有了实质性的改善。此外,应用SISA公司该过程极大地促进了后者的自动化模型构建。

搜索的计算时间取决于结构的大小和选定反射的数量。在这三个测试案例中,最小的结构,基因V蛋白,有682个非H原子,在空间组 C2.计算时间约为15100次最强反射的最小值为1.2h表示2.4上的500次最强反射GHz CPU。最大的结构,II族内含子(案例II),有1497个非H原子,约7400个反射空间组 P(P)6122.我们记录了2和10.5的计算时间h分别用于100和500次选定反射。

中的程序优化的阶段SISA公司将对SIR/SAD数据集有用,这些数据集可以生成具有边际质量的电子密度图。SISA公司可以从下载https://www.biochem.uni-luebeck.de/public/software/sisa/sisa.html并将纳入菲尼克斯软件套件。

致谢

我们感谢劳伦斯伯克利国家实验室使用计算网格来运行搜索算法和建模程序PHENIX汽车制造这项工作得到了医学和生命科学计算研究生院(DFG GSC 235/1)和卓越集群“界面炎症”(DFG EXC 306/2)的支持。MU感谢Ralf W.Grosse-Kunstleve博士激发的讨论。TCT和RJR感谢NIH(批准号:P01GM063210)。RJR由Wellcome信托基金支持(批准号:082961)。RH由中国科学院通过高级国际科学家客座教授(批准号:2010T1S6)提供支持。

工具书类

第一次引用P.D.亚当斯。等。(2010).《水晶学报》。D类66, 213–221. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Bäck,T.、de Graaf,J.M.、Kok,J.N.和Kosters,W.A.(1997)。牛市。欧洲理论协会。计算。科学。 63, 161–192. 谷歌学者
第一次引用Blow,D.M.&Crick,F.H.C.(1959年)。《水晶学报》。 12, 794–802. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用Connor,R.(1994年)。遗传算法实用手册:应用由L.D.Chambers编辑,第57-74页。博卡拉顿:CRC出版社。 谷歌学者
第一次引用De Jong,K.A.和Spears,W.M.(1991)。第一届自然并行问题解决研讨会会议记录由H.-P.Schwefel&R.Männer编辑,第38-47页。伦敦:Springer-Verlag。 谷歌学者
第一次引用Feng,Z.J.和Dong,C.(2007)。J.应用。克里斯特。 40, 583–588. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Franke,D.和Svergun,D.I.(2009年)。J.应用。克里斯特。 42, 342–346. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Grosse-Kunstleve,R.W.,Sauter,N.K.,Moriarty,N.W.和Adams,P.D.(2002)。J.应用。克里斯特。 35, 126–136. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Harris,K.D.M.、Haberson,S.、Cheung,E.Y.和Johnston,R.L.(2004)。Z.克里斯塔洛格。 219, 838–846. 科学网 交叉参考 中国科学院 谷歌学者
第一次引用Hendrickson,W.A.和Lattman,E.E.(1970年)。《水晶学报》。B类26, 136–143. 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Holland,J.H.(1975)。自然和人工系统中的适应安娜堡:密歇根大学出版社。 谷歌学者
第一次引用Immirzi,A.、Erra,L.和Tedesco,C.(2009年)。J.应用。克里斯特。 42, 810–814. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Lunin,V.Yu.和Woolfson,M.(1993年)。《水晶学报》。D类49, 530–533. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用McCoy,A.J.、Storoni,L.C.和Read,R.J.(2004)。《水晶学报》。D类60, 1220–1228. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Miller,S.T.、Hogle,J.M.和Filman,D.J.(1996)。《水晶学报》。D类52, 235–251. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Otwinowski,Z.(1991)。CCP4研究周末会议记录。同构替换与异常散射,由W.Wolf、P.R.Evans和A.G.W.Leslie编辑,第80-86页。沃灵顿:达斯伯里实验室。 谷歌学者
第一次引用Podjarny,A.D.和Yonath,A.(1977年)。《水晶学报》。一个33, 655–661. 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用里德,R.J.(1986)。《水晶学报》。一个42, 140–149. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Shamoo,Y.、Krueger,U.、Rice,L.M.、Williams,K.R.和Steitz,T.A.(1997年)。自然结构。生物。 4, 215–222. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Shankland,K.,David,W.I.F.&Csoka,T.(1997)。Z.克里斯塔洛格。 212, 550–552. 交叉参考 中国科学院 科学网 谷歌学者
第一次引用斯金纳,M.M.,张,H.,莱斯尼策,D.H.,关,Y.,贝拉米,H.、斯威特,R.M.、格雷,C.W.、科宁,R.N.、王,A.H.-J.和特威利格,T.C.(1994)。程序。美国国家科学院。科学。美国,91, 2071–2075. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Sywerda,G.(1989)。第三届遗传算法国际会议论文集由J.D.Schaffer编辑,第2-9页。旧金山:摩根·考夫曼。 谷歌学者
第一次引用Terwilliger,T.C.、Adams,P.D.、Read,R.J.、McCoy,A.J.、Moriarty,N.W.、Grosse-Kunstleve,R.W.,Afonine,P.V.、Zwart,P.H.&Hung,L.W.(2009年)。《水晶学报》。D类65, 582–601. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Vekhter,Y.(2005)。《水晶学报》。D类61, 899–902. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Wang,B.-C.(1985)。方法酶学。 115, 90–112. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Webster,G.和Hilgenfeld,R.(2001)。《水晶学报》。一个57, 351–358. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Zhang,L.和Doudna,J.A.(2002)。科学类,295, 2084–2088. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Zhou,Y.和Su,W.-P.(2004)。《水晶学报》。一个60, 306–310. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者

这是一篇根据知识共享署名(CC-BY)许可证它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

期刊徽标生物
结晶学
国际标准编号:1399-0047