Factors influencing estimates of coordinate error for molecular replacement

Hatti, K.S.; McCoy, A.J.; Oeffner, R.D.; Sammito, M.D.; Read, R.J.

doi:10.1107/S2059798319015730

研究论文

结构
生物学

国际标准编号：2059-7983

第76卷| 第1部分| 2020年1月| 第19-27页

https://doi.org/10.107/S2059798319015730

打开

访问

影响分子替换坐标误差估计的因素

考希克·S·哈蒂,^一艾莉·麦考伊,^一罗伯特·奥夫纳,^一马西莫·桑米托 ^一和兰迪·里德 ^一 ^*

^一英国剑桥大学剑桥医学研究所血液学系
^*通信电子邮件：rjr27@cam.ac.uk公司

(2019年6月17日收到； 2019年11月21日接受)

模型和目标原子坐标之间有效平方根偏差（r.m.s.d.）的良好先验估计优化了信号分子替换，从而提高了在困难情况下的成功率。以前的研究使用X射线晶体学求解的蛋白质结构作为模型，表明最佳误差估计（在结构解后进行细化）与模型和目标之间的序列一致性以及模型中的残基数相关。在这里，这项工作得到了扩展，以发现模型参数和目标之间的额外相关性，从而改进了坐标误差的先验估计。使用图形数据库，对使用X射线晶体学求解的模型进行的6030个分子再置换计算的精心策划集进行了分析，以考虑大约120个模型和目标参数。通过将序列一致性替换为序列相似性的Gonnet评分，以及考虑目标结构的分辨率和摩尔概率模型的得分。通过分析12610个额外的分子再置换计算，扩展了该方法，其中模型由NMR确定。研究发现，一个集合中成对模型之间的中位数r.m.s.d.与目标的估计r.m.s.d相关。对于NMR求解的模型，总坐标误差估计值大于X射线晶体学确定的结构，并且与残基数的相关性更高。

关键词：分子置换;坐标误差;平方根偏差;均方根标准偏差。;核磁共振;对数似然增益;大型货车.

类似文章

1.简介

基于似然数分子置换（MR）使用模型和数据中的误差估计来改进搜索中的信噪比。在相位器（麦考伊等。, 2007 )，对数似然强度增益（LLGI；Read&McCoy，2016 )说明了在对MR搜索进行评分时强度测量误差的影响。LLGI区分正确和错误的解决方案，并用于跨复杂搜索策略对解决方案进行排序（Oeffner等。, 2018 )，例如在阿西姆博尔多一套程序（Milán等。, 2015 ),充足的（里格登等。, 2008 ; 比比等。, 2013 )和BUMP先生（基根和温恩，2008年 ).

LLGI（无中心反射）定义为

$[\eqaligno{{rm LLGI}&={\textstyle\sum\limits_{hkl}}\log\biggr[{2E_{rm e}}\在{1-D_{rm obs}^2\sigma_{rmA}^2}}\exp\左（{e_{rme}^2+D_{orm obs{2\sigma}{rm A}^2}^2\sigma_{\rm A}^2}}\right）\cr&\\quad\quad\times}\I{\rmo}\left（{2E_{\rme}D_{\orm obs}\sigma{\rmA}e_{\rma c}}\over{1-D_{\rm obs}^2\sigma_{\rma A}^2}}\right）\biggr]，&（1a）\cr\sigma_{\orm A}&=f_p^{1/2}\exp\left[{{-2（\pis\Delta）^2}\over 3}\right]。&（1b）}]$

在这个方程中，参数E类_{e（电子）}（有效E类)和D类_{光突发事件}（卢萨蒂风格D类因子）由测量强度及其估计标准偏差得出（Read&McCoy，2016)，导致任何具有较大实验误差的反射被降权重。这为需要昂贵数值积分的基于强度的似然目标提供了极好的近似值。这个σ_A类术语解释了模型中预测误差的影响。当初始估计σ_A类都是准确的。低估σ_A类将导致LLGI计算中高分辨率反射的权重不足，而高估σ_A类将导致这些反思的过度加重。这两个问题都会导致数据使用不理想，并可能影响在临界情况下的成功。

为了简单起见，忽略了可选的散装溶液术语，σ_A类可以表示为分辨率的函数(秒= 1/d日)，模型完整性(（f）_第页、模型所占总散射分数）和模型的有效r.m.s.坐标误差(Δ)如（1）所示b条)将模型放入MR计算后Δ可以在刚体期间进行细化精细化。本学期Δ与通过叠加两个结构在等效原子位置之间计算的r.m.s.d.不同，因为它是一个有效的r.m.s.d.，可以优化LLGI目标中的方差项。因此，我们将其称为variance-r.m.s.d.或简称为VRMS。

只有放置好模型后，才能对VRMS进行优化，并且只有正确放置模型时，其值才相关，因此有必要在执行搜索之前提供VRMS的预先估计。之前相位器第2.5.4节，相位器使用了Chothia和Lesk曲线（该曲线将序列同一性与主链原子之间的r.m.s.d.联系起来；Chothia＆Lesk，1986 )作为一级近似。尽管这些值运行得相当好，但很明显，需要针对MR问题进行估算。我们开发了一种改进的函数形式来估计VRMS（2）作为模型大小的函数(N个_物件)和序列标识(H（H），突变残基的分数）等。, 2013 ):

$[{\rm eVRMS}=A（B+N_{\rm-res}）^{1/3}\exp（CH）.\eqno（2）]$

然而，使用各种MR模型的经验表明，序列一致性是评估极远同源序列相似性的一个较差的度量。我们考虑了过去几十年发展起来的一些替代序列相似性测量方法，Vogt对这些方法进行了很好的总结等。(1995 ).

为了评估哪些属性可以提高预测能力，我们还研究了模型和目标的各种属性与改进的VRMS项之间的相关性。由于到目前为止的工作主要集中在通过X射线晶体学导出的模型上，我们还开发了一种新的函数形式，专门用于估算用作相位模型的核磁共振系综成员的VRMS。

2.方法

该研究遵循Oeffner描述的方法等。（2013年). 在这里，我们总结了Oeffner及其同事用于X射线模型大规模分子置换试验的步骤。早期工作的扩展包括NMR模型，如下所述。

2.1. 使用X射线模型生成分子重定位数据

在早期的研究中，共有2862个结构（以及相关的衍射数据）在非对称单元，跨一系列SCOP类（Murzin等。, 1995 )并且其大小在50到1500个残基之间，被选为wwPDB的靶标（伯曼等。, 2000 ). 注意不要包括已知的成对靶点或已公布的靶点R（右）乌普萨拉电子密度服务器无法复制因子（Kleywegt等。, 2004 ). 对于每个独特的序列，只保留了一个例子，除了保留了具有600个以上残基的蛋白质的所有条目，以改进大靶标的采样。对于每个靶点，通过执行爆炸搜索（Altschul，1991 )使用爆炸压力工具。ClustalW公司（汤普森等。, 1994 )用于对同源序列和靶序列进行配对比对；不像爆炸，用于查找局部子序列比对，ClustalW公司最大化全局序列对齐。模型经过修剪和编辑雕塑家（Bunkóczi&Read，2011年一 ). 在早期的研究中，共进行了21822次分子置换计算并用于分析。

在本研究中，我们整理了早期研究中的数据库，以删除多余的靶点（无意中包含了多次）和未能成功实现分子再置换解决方案的模型。为了测量分子置换解决方案的可靠性，我们使用phenix.get_cc_mtz_pdb评估2之间的协议毫发_o个−DF公司_c（c）地图（Read，1986 )根据分子置换溶液和沉积模型计算。最后，从精心策划的数据库中选择了6030个globalCC>0.2的分子置换试验的子集。这些试验由1307个不同的靶点（其中包括119个具有沉积强度数据的靶点）和3420个不同的模型组成。数据库进行了扩展，包括与目标、模型和序列相似性度量相关的各种参数。

2.1.1. 目标属性

从wwPDB下载了几种评估晶体参数、数据参数和蛋白质参数的方法。见表1以获取研究中考虑的目标属性的完整列表。

表1
研究中考虑的特性列表

序列相似性度量已在之前的综述中讨论过（Vogt等。, 1995)以及其中的引文。在核磁共振系综中，系综一致性被测量为模型之间的中位数r.m.s.d。

目标属性	模型属性	序列相似性度量
晶体参数：不对称单位体积、单位-细胞尺寸、空间群、马修斯系数、晶体体系、极性空间群	验证参数：Ramachandran属性、碎屑核、转子分离器异常值、，摩尔概率得分，角度上的均方根标准差，债券上的均方标准差，C^β偏差，R（右）因素†	序列识别，PAM250，PAM300，BLOSUM30，BLOSUM35，BLOSUS40，BLOSOM45，BLOSEM65，Benner6，Benner22，Benner74，Feng，Genetic，Gonnet，Johnson，Levin，McLach，Miyata，Rao，Risler，基于结构
数据参数：分辨率，WilsonB因子，合并统计信息	数据属性：分辨率†，共振赋值的完整性‡，集合一致性‡，沉积的异构体数量‡，计算的构象数‡，场强‡
蛋白质特性：残留物数量，SCOP类别	蛋白质特性：残留物数量、分子量、非球形度、螺旋和片状含量
	存款日期

†X射线模型特有的特性。
核磁共振模型特有的特性。

2.1.2. 模型属性

参数，如残余物数量、沉积日期、分辨率、键长和角度与理想值的均方根偏差，以及R（右）因子从wwPDB下载。验证参数，如Ramachandran属性、clashscore、转子流量计异常值、，摩尔概率得分（Chen等。, 2010 )和C^β使用重新计算处理后的模型的偏差凤凰（利布施内尔等。, 2019 )命令行工具。通过使用以下公式计算主轴来估计模型的非球形格鲁马克斯（亚伯拉罕等。, 2015 )命令行工具。

可用时，从SCOPe数据库（Fox）下载SCOP定义等。2014年 )并分配给目标和模型条目（表1).

2.1.3. 序列相似性属性

使用几个氨基酸替代矩阵来评估目标-模型对的序列相似性。在这项研究中，我们考虑了被判断为在低于50%的成对序列同一性下准确评估序列相似性的矩阵（Vogt等。, 1995; 表1). 矩阵是从内部使用的生物蟒蛇（v.1.72）对每个目标进行评分-模型两两序列比对。将分数归一化为对齐残基的长度。

2.2. 使用核磁共振模型生成分子重定位数据

核磁共振模型使用了一种类似于使用X射线模型生成分子重定位数据的协议。保留了上述目标，本研究未考虑新的目标。

2.2.1. 核磁共振模型的选择

使用PDB中70%序列非冗余的条目构建的序列文件数据库PDB_mmCIF70从HHpred公司（齐默尔曼等。, 2018 )网站。对于给定的目标（如之前在2.1节中选择的)HMMER公司（芬兰等。, 2011 )用于鉴定PDB_mmCIF70的同源结构。保留了1364个仅通过NMR测定的同源结构。特定于NMR模型的属性，例如存储在系综中的模型数量和化学变换数据验证从wwPDB下载（如果报告）。

2.2.2. 核磁共振模型的处理

Clustal欧米茄（筛子等。, 2011 )，改进了Clustal公司算法来执行目标和NMR模型序列的成对比对。X射线模型讨论的分数也用于评估核磁共振模型的序列相似性。模型被修剪并用雕塑家（Bunkóczi&Read，2011年一). 其他研究表明，使用核磁共振模型进行核磁共振定相是一项挑战，并建议调整方案以提高分子重定位定相的成功率（Chen等。, 2000 ; 毛等。, 2011 ). 因此，使用合奏家（Bunkóczi&Read，2011年b条 )，选择默认选项以修剪偏离3°以上的残留物。格萨姆特（克里斯内尔，2012年 )用于对核磁共振系综中所有修剪模型与所有修剪模型进行成对组合叠加。等效C之间的中位数r.m.s.d^α计算每个修剪后的整体的位置，以评估模型之间的构象差异。见表1本研究中考虑的NMR特定指标列表。

2.2.3. 分子置换刚体精细化

序列覆盖率超过50%的核磁共振模型使用格萨姆特使用MR_RNP模式进行了总共20973次分子置换刚体细化相位器（麦考伊等。, 2007)独立地使用来自修剪的NMR系综的每个模型。实际上，最好将核磁共振模型用作系综，但系综统计加权的成功取决于对系综每个单独成员的有效误差进行最佳估计（Read，2001 ).

2.3. 图形数据库的生成

对于给定的一对目标和模型，大约有120个属性需要评估。为了解决这种大规模比较，我们使用开源图形数据库平台构建了一个内部数据库，将数据表示为图形尼奥4j个（v.3.4.0；https://neo4j.com). 目标和模型被定义为节点，连接两者的边定义了关系（图1一). 与目标或模型关联的所有属性都与其各自的节点关联。诸如序列相似性得分和分子重新安置计算结果等属性与连接两个节点的边缘相关。通过这种方式，生成了一个复杂的图形网络，其中包括定义目标、模型（X射线和核磁共振）以及它们之间关系的所有数据（图1b条). 节点的中间层（图1中未显示为了清晰起见）用于表示核磁共振谱系综的型号。Cypher是一种声明性的图形查询语言，用于查询数据。

图1
图形数据库的示意图。目标和模型表示为方形和圆形节点，而连接两个节点的边表示目标和模型节点之间的关系。(一)两种类型的边可以连接目标-模型对。（i）单向边缘定义了一个分子再置换试验的单一实例，其中使用模型来确定目标结构。四种不同的单向边缘代表四种不同试验分子替换，例如，使用不同分辨率限制的数据。（ii）双向边定义与序列相似性度量相关的属性。如果进行了一次以上的分子置换试验，则目标-模型对之间存在多个单向边缘。(b条)提供了一个小型图形数据库的概述，以显示节点之间的互连。单个PDB条目可用于确定两个不同的目标；在这种情况下，与处理模型相关的属性，例如摩尔概率已处理模型的分数存储为边缘属性的一部分。也有一些例子表明，可以使用多个独立模型确定单个目标。

所有统计分析均在R（右）统计程序设计环境(R（右）v.3.5.0；R核心团队，2018年 ). 使用国家统计局包装（Baty等。, 2015 )从相关性最高的参数开始，然后添加更多参数，直到获得与未使用参数的低残差相关性。图形是使用ggplot图2套（威克姆，2016 ). 两者都是国家实验室和ggplot图内有2个软件包R（右）.

2.4. 推导方程式以预测精炼VRMS

在拟合这两个数据集时，对数据进行了检查，以确定哪些属性与改进的VRMS相关性最高。通常，一次只包含一个属性。在拟合数据时，对添加了该属性的方程进行了不同的函数形式的测试，并选择了能够最小化优化和估计VRMS之间偏差的函数形式。为了选择要包含在数据拟合中的下一个属性，计算了残差相关性（与精炼VRMS和估计VRMS之间的归一化差异的相关性）。当添加新属性对配合质量几乎没有影响时，该过程终止。

3.结果

3.1. X射线模型的改进估计

Gonnet矩阵得分（Gonnet等。, 1992 )与精炼VRMS术语的相关性最高（表2)在所有用于估计序列相似性的度量中，选择该度量来扮演Oeffner等式（2）中序列一致性的角色等。（2013年). 在模型的属性中，模型的大小与VRMS的相关性最高，其次是摩尔概率分数。根据残差相关性判断（也如表2所示)，的摩尔概率分数是Oeffner在工作中没有考虑到的最重要的模型特征等。（2013年). 虽然我们只期望涉及模型的属性发挥重要作用，但我们发现目标分辨率也与VRMS相关，其相关性高于摩尔概率得分（表2). 进行了进一步的分子置换计算，以确定相关性不是VRMS期间使用的数据分辨率的伪影精细化。通过将数据截断到较低的分辨率极限（2.2、2.7、3.0、3.5、4、6和7？），重复分子置换计算，作为目标分辨率的函数，结果发现VRMS与目标原始分辨率之间的相关性持续存在。

表2
特性与X射线VRMS项的相关性

残差相关性是指估计的VRMS和使用Oeffner方程（2）或新方程（3）估计的精细VRMS之间的性质和差异之间的相关性.

财产	与VRMS的相关性	与VRMS的残差相关性
财产	与VRMS的相关性	Oeffner估计	新的估计
模型残留物数量	0.43	0.10	0
序列标识	−0.67 (−0.33†)	0	0
Gonnet得分	−0.71（−0.41†)	−0.16	−0.03
目标分辨率	0.26	0.24	0
摩尔概率模型得分	0.16	0.18	−0.02
百分比α-螺旋线	0.20	0.19	0.10
百分比β-薄板	−0.14	−0.16	−0.13

†序列一致性<30%的病例子集的相关性

在初步工作中，测试了与精选数据库中6030个分子置换试验的数据相适应的非线性最小二乘的不同函数形式，包括涉及不同性质的总和和乘积，以及与特定性质相关的术语的不同指数选择。使用将总方差表示为独立方差项之和的方程获得了最佳结果。

图2显示了包含连续方差项的效果。随着解释力较低的新属性的加入，收益率逐渐下降。在摩尔概率得分已包括在内，最重要的剩余财产是β-模型中的表，残差相关性为-0.13。然而，在非线性拟合中包含此特性对拟合质量的影响很小，因此它没有包含在最终方程中（3）注意，与α-螺旋含量显然是由这一点与其他性质的相关性来解释的。

$[\eqaligno{{rm eVRMS}&=[A（N_{rm res}）+B\，{rm exp}（CG^{2.5}）+D（{MolProbity}）\cr&\\quad+\E（{rm分辨率}）^3]^{1/2}.&(3)}]$

图2
预测中添加新属性时，估算VRMS中的R.m.s.误差。在包括任何特性之前（“无”），均方根误差是所有计算中精确VRMS值与其平均值的均方根偏差。

（3）的非线性最小二乘拟合得出了系数A类= 0.001455,B= 1.710,C类= −0.2444,D类= 0.1040,E类= 0.01586. 使用eVRMS的新表达式计算的剩余相关性表明，该函数形式解释了数据中大多数初始系统变化（表2). 此外频率分布与使用之前的Oeffner坐标误差估计值相比，根据估计值和精炼值之比计算的VRMS值变得更加对称和单峰（图3).

图3
根据SCOP类别的函数，从精选数据集中精确估计的VRMS比率的频率分布。红线代表所有情况。理想分布应为高斯分布，方差尽可能最小，以1为中心（用黑色虚线表示）。X光病例：Oeffner评估有一个肩部，这在新的X光评估中不存在。核磁共振案例：基于X射线数据的Oeffner估计值的分布右移，表明当应用于核磁共振导出的模型时，错误被系统地低估了。基于核磁共振数据的新估计具有以1为中心的对称分布。

图3还表明，不同SCOP褶皱类型的VRMS分布略有不同，平均误差略为低估-α蛋白质和稍微高估了所有-β蛋白质。然而，为了与包含百分比的拟合效果保持一致β-与总体分布宽度相比，褶皱类分布的差异较小。

3.2. 核磁共振模型的估计

以前出版的作品等。, 2000)轶事证据表明，与使用X射线数据获得的模型相比，使用核磁共振数据得到的模型在核磁共振中的工作情况通常较差。此外，我们预计可能需要不同的函数形式来预测模型质量。例如，考虑到核磁共振结构主要由短距离数据定义，人们可能会期望坐标误差对模型大小的依赖性增加。此外，核磁共振结构通常被报告为替代模型的集合（通常为20个），这些模型都与数据具有可比的拟合度，人们可能期望这些模型之间的偏差能够提供模型精度的指示，如果不是准确度的话。事实上，相关性分析表明，对于核磁共振模型，精制VRMS与模型大小之间的相关性比X射线数据更强，并且与集合中模型之间的偏差有显著相关性（表3).

表3
核磁共振模型的性质与VRMS的相关性

残差相关性是指属性之间的相关性以及估计的VRMS项和细化的VRMS项之间的差异。

财产	与VRMS的相关性	与VRMS的残差相关性
财产	与VRMS的相关性	Oeffner X射线估算	新的估计
模型残差数	0.56	0.28	0.06
Gonnet得分	−0.38	0.40	0
目标分辨率	0.28	−0.05	−0.01
中位数r.m.s.d。	0.22	0.14	0.02
摩尔概率模型得分	0.11	0.05	0
百分比α-螺旋线	0.23	0.22	0
百分比β-薄板	0.07	0.24	−0.01

我们想检查核磁共振模型的估计值是否可以通过包括核磁共振验证工作组（Montelione）推荐的标准来改进等。, 2013 ). 例如，完整性是指已分配的化学位移的百分比。令人惊讶的是，在这一完整性测量和VRMS之间没有发现相关性。其他测量仅针对本研究中包括的一小部分NMR模型进行了报道，因此无法进一步研究。当大量核磁共振结构报告这些验证指标时，可能需要重新进行分析。

一种新的函数形式，如（4）所示，再次将总方差估计为独立方差贡献的总和，并测试基础变量的不同指数。拟合质量仅受到N个_物件这可能是因为核磁共振模型的模型大小范围有限。出乎意料的是，1/3的指数比X射线拟合的1的指数稍好；尽管与X射线模型相比，VRMS对核磁共振模型尺寸更为敏感，但这种敏感性来自乘法因子A类而不是指数。

$[\eqaligno{{rm eVRMS}&=[A（N_{rm res}）^{1/3}+B\exp（CG）+D（{MolProbity}）\cr&\\quad+\E（{rm分辨率}）+F（{rm-中值\，r.m.s.D}）]^{1/2}.&(4)}]$

该等式中的六个参数使用12610个分子再置换案例的子集进行拟合（globalCC>0.2），其中NMR结构被用作模型，将数据限制为长度在30到300个残基之间的结构。这个摩尔概率得分（4）对应于个人摩尔概率给定NMR系综中每个模型的得分。中位数r.m.s.d.是给定NMR系综成员的所有成对叠加的r.m.s.d.s的中位数。非线性最小二乘拟合得出系数A类= 0.4240,B= −1.259,C类= 0.07804,D类= 0.1442,E类= 0.2364,F类= 0.4130. 所有的残差相关性都接近于零，与从X射线模型得出的Oeffner估计值相比有了实质性的改进（表3).

3.3. 准确的VRMS估算的重要性

开始计算时，必须准确估计VRMS，以获得最高的初始LLGI分数，因为LLGI得分的绝对值与搜索中获得的信噪比高度相关（McCoy等。, 2017 ). 为了评估这一点，我们从正确放置的模型开始计算刚体细化中的LLGI，但没有细化VRMS参数。本研究考虑了用于X射线和核磁共振模型曲线拟合的同一组案例。使用X射线衍生和NMR衍生模型进行的计算同时使用了Oeffner和VRMS的新估计。对于NMR模型，这些计算中只考虑了NMR系综的第一个成员。

在X射线模型的情况下观察到了逐渐的改善。用新的VRMS估计值计算的LLGI（LLGI中位数=163.9）略好于用Oeffner估计值计算出的（LLGI=160.1）（图4). 然而，在核磁共振模型的情况下观察到了更大的改进，其中使用基于X射线模型的Oeffner估计进行计算的中值LLGI为7.4，使用核磁共振模型得出的新值进行计算的中位数LLGI是14.7。使用新的VRMS估计值，核磁共振模型的LLGI值的分布也变得更加狭窄（图4). 请注意，在我们的测试中，很少有核磁共振模型的LLGI分数达到60或更高，这通常表示正确的溶液，但新的LLGI值已被纳入一个范围，该范围应有助于用正确的溶液来丰富潜在溶液池（McCoy等。, 2017). 值得注意的是，这里报告的计算使用了单个核磁共振模型来校准VRMS估计值，但在实际的分子置换搜索中，人们将使用整个系综，这将改进结果。

图4
从Oeffner开始计算LLGI，并在没有VRMS细化的情况下对VRMS进行新的估计。(一)X射线模型的值。(b条)核磁共振模型的值。为了清晰起见，显示了有限范围的LLGI值（以及最极端的异常值）。

3.4. X射线和核磁共振模型的比较分析

我们的误差估计表明了原因分子置换核磁共振模型是一个挑战，因为核磁共振模型的估计误差比可比的X射线模型高得多。为了比较整个序列一致性范围内的模型质量，对于核磁共振所处理的典型尺寸的结构，我们用数据库中125到175个残基的目标的60到100%序列一致性之间的所有可用模型来补充我们的数据集，添加了444个X射线模型和20个核磁共振模型。对于这个尺寸范围，我们发现使用90-100%序列一致性的核磁共振模型等同于使用20-30%序列一致性左右的X射线模型（图5). 通过假设核磁共振模型在具有标准偏差约为1.25？的额外独立误差分量方面存在差异，可以很好地近似该图中的数据。这个错误成分在序列标识分布中占主导地位。

图5
150±25个残基的X射线和核磁共振模型之间的误差对比分析。虽然Gonnet评分用于评估VRMS，但序列一致性(x个轴）以便于比较。

4.讨论

当序列一致性小于30%时，X射线模型VRMS的Oeffner估计系统地高估了误差。该人工制品在精确VRMS和估计VRMS之间的比率分布中显示为肩部（图3和图5b条在Oeffner等。, 2013). 对填充此肩部的病例的检查表明，这是由于使用序列一致性来测量远缘同源物之间序列相似性的局限性。

在目标序列和模型序列经过最佳对齐后，序列标识表示对齐中每个位置的二进制（真/假）分数，这对于序列标识较低的远距离同源序列来说是一个相当粗略的度量。序列恒等式也无法区分保守替换和非保守替换。因此，我们考虑了表1中列出的20个矩阵得分并在Vogt的评论中进行了讨论等。(1995)，这有望对序列同源性低于50%的同源物之间的序列相似性进行敏感评估。当我们考虑全序列一致性（10–100%）时，BLOSUM30、BLOSUM35、BLOSOM40、BLOSUM45（Henikoff&Henikoft，1992）)、本纳22、本纳74（本内特等。, 1994 )和Gonnet得分（Gonnet等。, 1992)均与VRMS密切相关，相关系数为−0.70至−0.71。序列一致性给出的相关性稍弱，为-0.67（表2). 然而，在序列一致性逐渐降低的情况下，MR更具挑战性，一些评分矩阵开始表现更好。对于序列一致性低于30%的模型，Benner22、Benner74和Gonnet得分均产生-0.38的相关性；对于序列一致性低于20%的模型，Gonnet评分给出的相关性为-0.15，略好于Benner74的-0.14和Benner22的-0.11。我们的观察结果与早先的发现一致，即Gonnet评分是评估远缘同源序列相似性的前三个矩阵之一（Vogt等。, 1995). 通过用Gonnet评分代替序列一致性，我们解决了系统高估远距离同源区误差的问题。

虽然我们希望找到与模型分辨率的相关性，但我们惊讶地发现目标分辨率反而与VRMS相关非对称单元体积，威尔逊B因子和马修斯系数也与VRMS相关，但它们都彼此相关，并且与目标分辨率相关。一旦在VRMS估计中考虑到目标的分辨率，就不会存在与这些其他目标属性的剩余相关性。这一发现表明，如果晶体衍射到较低的分辨率，则应期望较高的r.m.s.d。可以通过注意到衍射到较低分辨率的晶体在本质上有序性较差，并且具有大量构象状态来解释这一点，而单一模型对此解释得很差。在两者之间的差距方面也得出了类似的结论R（右）_晶体和R（右）_合并（霍尔顿等。2014年 ).

在评估模型质量所考虑的属性中，模型的分辨率，R（右）_自由的、碎屑岩和摩尔概率评分均与VRMS相关摩尔概率得分相关性最高。这些措施都相互关联，一旦摩尔概率分数已被计算在内，与模型的其他属性没有剩余相关性。考虑到摩尔概率得分（陈等。, 2010)结合了碎屑核、Ramachandran异常值和轮调异构体异常值的贡献，令人惊讶的是摩尔概率尽管与Ramachandran和rotamer离群值的相关性很小，但分数是一个明显优于clashscore的预测因子。这大概表明摩尔概率尽管如此，score综合了所有三个衡量标准的影响，以评估模型构建的质量和精炼比任何单独的措施都要好。

对于X射线模型，与VRMS相关的属性也与核磁共振模型的VRMS相关。然而，这些因素的相对重要性不同。对于X射线病例，最重要的因素是通过Gonnet评分测量的序列相似性，其次是模型中的残留物数量、目标的分辨率和摩尔概率模型的得分。然而，模型中的残基数量是NMR案例的主导因素，相关系数为0.5，其次是Gonnet分数、目标分辨率和NMR集成一致性（测量为模型之间的平均相对标准偏差）。使用X射线方程估计核磁共振模型的VRMS将系统地低估误差（图3)，导致次优的分子置换计算，因此对核磁共振模型进行了单独的非线性最小二乘拟合。

使用新的函数形式，我们获得了更好的精度和更好的估计误差分布（更加对称和单峰）。新的估计对X射线和核磁共振模型都有更好的表现。

以图形的形式表示和查询高度互联的数据简化了数据分析。图形数据库使我们能够克服数据中的冗余，并提供了扩展现有X射线数据和核磁共振数据的简单方法。它提供了一个平台，可以快速、一致地比较多个分子置换试验的结果。未来还可能进一步扩展数据，例如包括低温电子显微镜相关数据。

通过在误差估计中包含目标的属性，我们正在突破分子置换通过对给定数据集的模型进行个性化设置。数据驱动的模型生成将为处理具有多个域或亚单位的结构的复杂分子置换搜索策略铺平道路。

新的VRMS估计值将作为移相器运行新版本的管道相位器,相位rtng（麦考伊等。, 2020 )目前正在开发中。

致谢

我们感谢审稿人的宝贵意见。

资金筹措信息

本研究得到了CCP4（KSH）的资助，获得了Marie Skłodowska-Curie赠款（MDS；790122）下的欧盟地平线2020研究与创新项目的奖学金支持，Wellcome Trust首席研究奖学金（RJR；赠款209407/Z/17/Z）和NIH（RJR赠款P01GM063210）的支持，对此我们深表感谢。

工具书类

Abraham，M.J.、Murtola，T.、Schulz，R.、Páll，S.、Smith，J.C.、Hess，B.和Lindahl，E.（2015）。软件X,1–2, 19–25. 交叉参考谷歌学者
 Altschul，S.F.（1991）。分子生物学杂志。 219, 555–565. 交叉参考中国科学院公共医学谷歌学者
 Baty，F.、Ritz，C.、Charles，S.、Brutsche，M.、Flandrois，J.-P.和Delignete-Muller，M.-L.（2015）。J.统计软件。 66(5), 1–21. 谷歌学者
 Bennet，S.A.、Cohen，M.A.和Gonnet，G.H.（1994年）。蛋白质工程设计。选择。 7, 1323–1332. 交叉参考谷歌学者
 Berman，H.M.、Westbrook，J.、Feng，Z.、Gilliland，G.、Bhat，T.N.、Weissig，H.、Shindyalov，I.N.和Bourne，P.E.（2000）。核酸研究。 28, 235–242. 科学网交叉参考公共医学中国科学院谷歌学者
 Bibby，J.、Keegan，R.M.、Mayans，O.、Winn，M.D.和Rigden，D.J.（2013）。《水晶学报》。D类69, 2194–2201. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Bunkóczi，G.和Read，R.J.（2011年一).《水晶学报》。D类67，303–312科学网交叉参考 IUCr日志谷歌学者
 Bunkóczi，G.&Read，R.J.（2011）b条).计算。结晶器。新闻。 2, 8–9. 谷歌学者
 Chen，V.B.、Arendall，W.B.、Headd，J.J.、Keedy，D.A.、Immormino，R.M.、Kapral，G.J.，Murray，L.W.、Richardson，J.S.和Richardsson，D.C.（2010）。《水晶学报》。D类66, 12–21. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Chen，Y.W.、Dodson，E.J.和Kleywegt，G.J.（2000）。结构,8，R213–R220科学网交叉参考公共医学中国科学院谷歌学者
 Chothia，C.&Lesk，A.M.（1986年）。EMBO J。 5, 823–826. 交叉参考中国科学院公共医学科学网谷歌学者
 Finn，R.D.、Clements，J.和Eddy，S.R.（2011年）。核酸研究。 39，W29–W37科学网交叉参考中国科学院公共医学谷歌学者
 Fox，N.K.、Brenner，S.E.和Chandonia，J.-M.（2014）。核酸研究。 42，D304–D309科学网交叉参考中国科学院公共医学谷歌学者
 Gonnet，G.H.、Cohen，M.A.和Benner，S.A.（1992年）。科学类,256, 1443–1445. 交叉参考公共医学中国科学院谷歌学者
 Henikoff，S.和Henikoft，J.G.（1992年）。程序。美国国家科学院。科学。美国,89, 10915–10919. 交叉参考公共医学中国科学院科学网谷歌学者
 Holton，J.M.、Classen，S.、Frankel，K.A.和Tainer，J.A.（2014）。FEBS J公司。 281, 4046–4060. 科学网交叉参考中国科学院公共医学谷歌学者
 Keegan，R.M.和Winn，M.D.（2008年）。《水晶学报》。D类64, 119–124. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Kleywegt，G.J.、Harris，M.R.、Zou，J.、Taylor，T.C.、Wählby，A.和Jones，T.A.（2004）。《水晶学报》。D类60, 2240–2249. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Krissinel，E.（2012年）。分子生物化学杂志。 1, 76–85. 中国科学院公共医学谷歌学者
 Liebschner，D.，Afonine，P.V.，Baker，M.L.，Bunkóczi，G.，Chen，V.B.，Croll，T.I.，Hintze，B.，Hung，L.-W.，Jain，S.，McCoy，A.J.，Moriarty，N.W.，Oeffner，R.D.，Poon，B.K.，Prisant，M.G.，Read，R.J.，Richardson，J.S.，Richadson，D.C.，Sammito，M.D.，Sobolev，O.V.，Stockwell，D.H.，Terwilliger，T.C.，Urzhumtsev，A.G.，Videau，L。L.、Williams、C.J.和Adams，P.D.（2019年）。《水晶学报》。D类75, 861–877. 科学网交叉参考 IUCr日志谷歌学者
 Mao，B.、Guan，R.和Montelione，G.T.（2011年）。结构,19, 757–766. 科学网交叉参考中国科学院公共医学谷歌学者
 A.J.麦考伊。等。(2020). 正在准备中。谷歌学者
 McCoy，A.J.、Grosse-Kunstleve，R.W.、Adams，P.D.、Winn，M.D.、Storoni，L.C.和Read，R.J.（2007年）。J.应用。克里斯特。 40, 658–674. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 McCoy，A.J.、Oeffner，R.D.、Wrobel，A.G.、Ojala，J.R.M.、Tryggvason，K.、Lohkamp，B.和Read，R.J.（2017）。程序。美国国家科学院。科学。美国,114, 3637–3641. 科学网交叉参考中国科学院公共医学谷歌学者
 Milán，C.，Sammito，M.&Usón，I.（2015）。IUCrJ大学,2，95–105科学网交叉参考公共医学 IUCr日志谷歌学者
 Montelione，G.T.，Nilges，M.，Bax，A.，Güntert，P.，Herrmann，T.，Richardson，J.S.，Schwieters，C.D.，Vranken，W.F.，Vuister，G.W.，Wishart，D.S.，Berman，H.M.，Kleywegt，G.J.&Markley，J.L.（2013）。结构,21, 1563–1570. 科学网交叉参考中国科学院公共医学谷歌学者
 Murzin，A.G.、Brenner，S.E.、Hubbard，T.和Chothia，C.（1995年）。分子生物学杂志。 247，536–540交叉参考中国科学院公共医学科学网谷歌学者
 Oeffner，R.D.、Afonine，P.V.、Millán，C.、Sammito，M.、Usón，I.、Read，R.J.和McCoy，A.J.（2018）。《水晶学报》。D类74, 245–255. 科学网交叉参考 IUCr日志谷歌学者
 Oeffner，R.D.、Bunkóczi，G.、McCoy，A.J.和Read，R.J.（2013）。《水晶学报》。D类69, 2209–2215. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 R核心团队（2018年）。R统计计算基金会.https://www.r-project.org/. 谷歌学者
 Read，R.J.（1986年）。《水晶学报》。A类42, 140–149. 交叉参考中国科学院科学网 IUCr日志谷歌学者
 Read，R.J.（2001）。《水晶学报》。D类57, 1373–1382. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Read，R.J.和McCoy，A.J.（2016）。《水晶学报》。D类72, 375–387. 科学网交叉参考 IUCr日志谷歌学者
 Rigden，D.J.、Keegan，R.M.和Winn，M.D.（2008）。《水晶学报》。D类64, 1288–1291. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Sievers，F.、Wilm，A.、Dineen，D.、Gibson，T.J.、Karplus，K.、Li，W.、Lopez，R.、McWilliam，H.、Remmert，M.、Söding，J.、Thompson，J.D.和Higgins，D.G.（2011年）。摩尔系统。生物。 7, 539. 科学网交叉参考公共医学谷歌学者
 汤普森，J.D.、希金斯，D.G.和吉布森，T.J.（1994）。核酸研究。 22, 4673–4680. 交叉参考中国科学院公共医学科学网谷歌学者
 Vogt，G.、Etzold，T.和Argos，P.（1995）。分子生物学杂志。 249, 816–831. 交叉参考中国科学院公共医学科学网谷歌学者
 Wickham，H.（2016）。ggplot2：用于数据分析的优雅图形纽约：Springer。谷歌学者
 Zimmermann，L.，Stephens，A.，Nam，S.-Z.，Rau，D.，Kübler，J.，Lozajic，M.，Gabler，F.，Söding，J.（2018）。分子生物学杂志。 430, 2237–2243. 科学网交叉参考中国科学院公共医学谷歌学者