Using graphlet degree vectors to predict atomic displacement parameters in protein structures

Pražnikar, J.

doi:10.1107/S2059798323009142

研究论文

结构
生物学

国际标准编号：2059-7983

第79卷| 第12部分| 2023年12月| 第1109-1119页

https://doi.org/10.107/S2059798323009142

打开

访问

利用graphlet度向量预测蛋白质结构中的原子位移参数

朱尔·普拉日·尼卡 ^a、，^b条 ^*

^一斯洛文尼亚科珀Glagoljaška 8号Primorska大学数学、自然科学和信息技术学院^b条斯洛文尼亚卢布尔雅那贾莫瓦39号Joíef Stefan研究所生物化学、分子和结构生物学系
^*通信电子邮件：jure.praznikar@upr.si

德国康斯坦茨大学K.Diederichs编辑(收到日期：2023年6月26日； 2023年10月17日接受；在线2023年11月21日)

在结构生物学中，原子位移参数，通常以B类值，描述原子位置的不确定性。它们在结构上的分布可以提供局部结构可靠性和移动性的提示。空间大分子模型可以用一个图来表示，该图的节点是原子，其边缘对应于一定距离内的所有原子间接触。被称为graphlets的小连通子图提供了有关特定原子连线的信息。基于此信息的多元线性回归方法旨在预测各向同性原子位移参数值的分布(B类值）。通过建模原子不确定性的动态分量，该方法允许B类从实验结晶学或低温电子显微术研究中获得的数值应相对良好地再现。

关键词：原子位移参数;graphlet度向量;原子间接触;高分子.

类似文章

1.简介

在诸如大分子晶体学和低温电子显微镜（cryo-EM）等实验方法中，原子位置的不确定性由原子位移参数（ADP）描述，通常以B类值（Trueblood等。1996年 ; Parthasarathy&Murthy，1997年 ; 拉迪沃亚茨等。2004年 ; Carugo，2018年一 ; 太阳等。, 2019 ). 事实上，该参数既包括我们感兴趣的实际原子迁移率，也包括样品上原子位置的变化，即静态不确定性。ADP在沉积在蛋白质数据库（PDB；Berman等。, 2000 ). 在中等分辨率下，观测数与参数数之比较低，且实验数据不足，因此需要约束和约束来细化坐标和ADP。现代晶体学软件中使用的一个简单限制是键合原子往往具有类似的ADP（Hirshfeld，1976）; Konnert&Hendrickson，1980年 ; 特隆鲁，1996年 ; Merritt，2011年 , 2012 ). 然而，精炼还取决于晶体学家，他决定约束和约束的强度；例如，最小值和最大值B类允许的值。Carugo（2018）的研究对象是蛋白质模型中ADP的准确性及其最大值b条 , 2022 ). 这些研究表明，2008年后，大量ADP更频繁地沉积在PDB中，在过去20年中，ADP错误没有改善。

最近，Masmaliyeva和Murshudov（2019年 )和马斯马利耶娃等。(2020 )提出了一种非常有趣的方法来分析和验证各向同性ADP。研究表明，蛋白质结构中各向同性ADP的分布遵循移位逆伽马分布（SIGD），其定义为

$[P（B\semi-B_0，\alpha，\beta）={{\beta^\alpha}\ over{\Gamma（\alpha）}}（B-B_0）^{-\alpha-1}\exp\ left（-{\beta over{B-B_0}}\ right），\eqno（1）]$

哪里α，β和B类₀分别是形状、比例和偏移参数。请注意B类₀定义为最小值的90%B类蛋白质模型中的值。SIGD的形状和尺度参数的统计数据来自大型PDB数据集。通过估计SIGD的形状和尺度参数，可以获得查询蛋白的ADP分布是否为离群值的信息，需要进一步验证。同时，该方法不能用于预测ADP。

相反，提出了几种利用氨基酸序列预测大分子各向同性ADP的方法（Yuan等。, 2005 ; Schlesinger和Rost，2005年 ; 施莱辛格等。, 2006 ; Pan&Shen，2009年 )，包装密度（Halle，2002 )、图表理论参数（Jacobs等。, 2001 ; 高尔克等。2004年 ; 阴等。, 2011 )，C的弹性网络^α原子（昆都等。, 2002 )，局部结构组件变化（Yang等。, 2016 )和先进的机器学习算法（Bramer&Wei，2018 ).

据我们所知，这些方法都没有在实践中得到广泛应用。对引用的科学论文的审查表明：（i）一些脚本或软件不可用，（ii）预测基于序列而不是原子模型，以及（iii）预测B类给定残渣中所有原子的值都是常数。为了解决所有这些问题，并进一步发展对B类值，Weiss（2007）介绍的方法 )选择了，其中引入了线性模型，其中B类值取决于紧密原子接触的参数。因此，通过添加描述局部接线模式的参数，线性模型被扩展为构造相对简单直观的多重线性模型。

从图论的角度来看，每个接触可以看作是两个节点（原子）之间的边，每个原子的接触数在图论中称为节点度。此局部图形参数可用于对节点进行分类或排序。这个单一的度量似乎不足以确定两个节点是否相似。节点的阶数表示特定节点有多少个连接，但不包含这些相邻节点本身是如何连接的信息。因此，需要额外的局部图形参数来更好地定义给定节点的紧密接触和深度接触，预计这些参数可以估计各个原子的ADP。

Príulj（2007）引入了节点度或每个节点的连接数的扩展 ). 在这项工作中，引入了小（2-4节点）子图，称为graphlets。与计算每个节点的边数类似，也可以计算每个节点中的graphlet数。因此，通过计算图中每个节点的小图（或小基序），我们可以提取节点的局部拓扑。节点的拓扑描述包含有关连接数的信息以及有关相邻节点如何连接的信息。

在本文中，使用graphlet度向量（GDV）建立多元线性回归模型来预测蛋白质各向同性ADP的分布(B类值）。结果表明，使用GDV的多元线性回归模型可以预测B类值的性能优于仅基于原子接触数的线性模型（Weiss，2007). 多重线性模型与分辨率无关，仅基于模型的几何结构。预测B类通过大分子晶体学、低温电子显微镜或结构预测获得的大分子模型值（Jumper等。, 2021 ; 贝克等。, 2021 ).

2.方法

2.1. Graphlet度向量

图是较大图的小诱导子图（图1). 石墨笔G公司₀是最小的graphlet，包含两个标记为“0”的拓扑相等节点（图1). 石墨笔G公司₁具有标记为“1”和“2”的两个拓扑上不同的节点。当两个或多个节点在拓扑上相同时，我们说它们属于同一轨道G公司₁属于轨道O（运行）₁，而中间的节点属于轨道O（运行）₂。总的来说，大小为2、3和4的graphlet包含15个拓扑上不同的节点，称为轨道，标记为0、1、2、3…、14（图1).

图1
大小为2的画笔(G公司₀), 3 (G公司₁和G公司₂)和4(G公司_三–G公司₈). 轨道，即拓扑上不同的节点标记为0、1、2、3…、14。

目视检查图2所示图形(一)显示该节点C类有三条边。如果我们计算具有哪个节点的边数，则会得到相同的结果C类接触轨道O（运行）₀（“接触”一词摘自2007年Príulj的著作). 例如，节点C类接触轨道O（运行）₀三次，通过边缘D类–C类，B类–C类和F类–C类（图2一). 因此，轨道的度数O（运行）₀对于节点C类是三。用同样的方法，我们现在可以计算节点的次数C类接触轨道O（运行）₁，O（运行）₂…，O（运行）₁₄换句话说，这是节点度的扩展。

图2
具有九个节点和十条边的图的所有15个轨道的度数的图示。(一)有九个节点和十条边的图；graphletG公司_三where节点C类接触轨道O（运行）₅在图表旁边列出；(b条)相应的GDV。

为了便于说明，带有九个节点和十条边的图的所有15个轨道的度数显示为彩色表格（图2b条). 因此，节点C类接触轨道O（运行）₁五次，通过E类–D类–C类，一个–B类–C类，G公司–F类–C类，H（H）–F类–C类和我–F类–C类.节点F类接触轨道O（运行）₀四次(C类–F类，G公司–F类，H（H）–F类和我–F类)，当它接触轨道时O（运行）₁只有两次(D类–C类–F类和B类–C类–F类). 仅节点F类，G公司，H（H）和我接触式轨道O（运行）_三：“三角形”。最高阶数（10）对应于节点C类和轨道O（运行）₅.所有相应的graphletG公司_三，其中节点C类接触轨道O（运行）₅，在图2中的图表旁边列出(一).

因此，对于每个查询蛋白，我们都会得到一个大小矩阵N个×M（M），其中N个是原子数和M（M）是15（轨道总数）。因此，矩阵的每个元素都包含每个节点（原子）特定轨道的度数。

2.2. 多元线性回归

使用多元线性回归模型预测B类如上所述，将原子视为图的节点，从原子GDV中获得蛋白质原子的值。要启用B类不同蛋白质结构的值B类每个蛋白质结构的值都是独立标准化的，因此平均值B类值设置为0B类值设置为1。多元线性回归搜索解释变量和因变量之间的线性关系。在本研究中，解释变量是GDV的组成部分，因变量是B类值。由于每个原子的轨道度数可能不同，因此更有可能找到更高的轨道度O（运行）₀而不是轨道O（运行）₁₄，矩阵的列N个×M（M），其中N个是给定蛋白质中的原子总数M（M）是GDV的长度。具有15个解释变量和N个蛋白质原子写为

$[B_n=B_0+\beta_0O_{n，0}+\beta _1O_{n$

哪里B类_n个是因变量，n个= 1, 2, …,N个，b条₀是截距，O（运行）_n个，k个，k个=0，1，2，…，14是解释变量β_k个是回归向量的系数。轨道O（运行）₀包含有关每个原子的联系人数量的信息。为了与GDV模型进行比较，一个带有自变量的线性模型（接触模型）O（运行）₀也使用了，

$[B_n=B_0+\beta_0 O_{n，0}.\eqno（3）]$

为了计算接触和GDV模型的效率B类值和存放在PDB-REDO数据库中的值（Joosten等。, 2009 , 2014 )已计算。

2.3. 软件

这个R（右）软件包（版本4.2.1；R核心团队，2022 )使用以下软件包进行数据分析：逆戟鲸（版本1.1-1；Hočevar&Demšar，2014 , 2016 ),网络用户（版本0.4.9100；Ali等。, 2014 ),生物三d日（版本2.4-2；授予等。, 2006 ),迁移率（版本1.2.6；Csardi&Nepusz，2006 ),插入符号（版本6.0-90；库恩，2008 ),MASS（质量）（版本7.3-58.1；Venables&Ripley，2002年 )和逆伽马射线（版本1.1）。

下面给出了一个用于构建图形和计算轨道的简化算法。

步骤1。这个生物三d日包用于读取PDB文件并提取原子坐标。

第2步。计算了所有原子对之间的距离矩阵。

步骤3。将创建邻接矩阵（如果距离小于某个阈值，则存在链接）。

步骤4。邻接矩阵作为输入数据迁移率包用于创建图形。

步骤5。步骤4中的图表和逆戟鲸（内部网络发行人）包用于计算每个节点的轨道数（度）。

最终结果是维度矩阵N个×M（M），其中N个是原子数和M（M）是15，有轨道O（运行）₀，O（运行）₁…，O（运行）₁₄. TheR（右）用于读取蛋白质坐标、创建图表、计算轨道和预测的脚本B类值可以在以下位置找到https://github.com/jure-praznikar/Graphlets-B-value.

为了根据变量的重要性对多元线性回归中的变量进行排序变量Imp功能(R（右）包裹插入符号)被使用。一般来说，最重要的变量是解释响应变量大部分方差的变量。这个R（右）功能变量Imp使用的绝对值t吨-统计来衡量变量的重要性。

所有包含3D蛋白质模型带状表示的图形均使用视觉分子动力学（汉弗莱等。1996年 ).

3.结果和讨论

3.1. 数据集

这个双鱼座蛋白质序列剔除服务器（Wang和Dunbark，2003 )用于获得具有以下特征的蛋白质结构的蛋白质数据库鉴定（PDBid）列表：最大相互序列同一性为40%，X射线分辨率范围为1.6–2.6 奥，晶体学R（右）值小于或等于0.25，蛋白质大小在50到500个残基之间。检索PDBid列表后，应用了以下筛选器：排除超过10个的程序集 000个原子，排除缺失蛋白质B类值，排除具有B类值大于200 Å²，排除具有极低B类-数值标准偏差（低于0.1），不包括低Ramachandran和转子流量计组件Z轴-分数（小于-2）。这里的组装是指生物组装1中确定的所有链。Ramachandran和旋转加速器Z轴-得分数据来自PDB-REDO数据库，网址为https://pdb-redo.eu/下载然后使用PDBid列表从PDB-REDO数据库（Joosten）检索2107个条目等。, 2009, 2014).

The distribution ofB类按照Masmiliyeva和Murshudov的建议，使用SIGD分析每个条目的值; 马斯马利耶娃等。, 2020). 对于每个条目，SIGD参数，即形状(α)和规模(β)根据分辨率计算并绘制(补充图S1). 具有低或高的PDB-REDO数据库条目α和β超出95%预测区间的数值被排除在进一步分析之外。因此，最终数据集包括1957年的PDB-REDO模型。自B类晶体学模型中的值取决于原子的堆积，在PDB-REDO模型中添加了与对称性相关的残基。为此，如果…怎么办使用（Vriend，1990 ; 罗德里格斯等。, 1998 ). 它添加了所有与对称性相关的残基，这些残基至少具有一个与原始蛋白质结构中的原子接触的原子。当范德瓦尔斯表面之间的距离小于5.0时，两个对称相关原子被视为接触 Å.补充图S2显示了本工作中使用的带有对称相关残基的PDB-REDO结构的示例。

3.2. 截止距离的优化

要计算GDV，必须首先将3D蛋白质模型转换为节点表示蛋白质原子的图形。如果相应原子的距离小于规定值（以下称为截止距离），则两个节点通过边连接。图形边缘不区分共价键合原子和非共价键结原子。

结晶学期间精细化，主要使用各种约束来确保化学键合的原子具有相似的性质B类值。GDV也受到了类似的限制。为此，将一个新的平滑值指定给给定的原子，作为当前值和2.0内所有相邻节点的平均值的总和 φ半径。我们需要区分用于创建图形的截止距离和2.0 平滑过程中使用的距离。该平滑距离略高于共价键的长度，在搜索用于生成图形的最佳截止距离时保持不变。

为了定义这个距离，我们首先随机选择了50个条目，用于训练和验证（多）线性模型。模型建立在90%的结构上，然后用于预测测试集（10%的蛋白质结构）。在十倍交叉验证的框架中，该程序重复了十次。对于每个条目相关系数预测值和PDB-REDO之间B类计算了这些值，并使用这些值来找到最佳截止距离。图3显示了预测值和PDB-REDO之间的相关性B类值。它的行为对于所有测试模型都是相似的，这使我们能够得出一些结论。

图3
PDB-REDO与预测值的相关性B类值作为从我们的数据库中随机选择的50个结构的截止距离的函数。(一)GDV模型(b条)接触模型；红线代表平均值。

在GDV模型中，相关性最低的是我们尝试的最短截止距离3.0 奥（图3一)而相关性最高的值出现在区间5.0–8.0 Å，在这个区间没有显著差异。因此，截止距离为5.0 最大限度地减少了计算量，被认为是最佳选择，并用于进一步分析。

为了进行比较，我们对接触模型重复了相同的步骤。这里，最佳截止距离（图3b条)与GDV模型不同，符合7.0的值之前由Weiss（2007）确定的Δ). GDV模型获得的总体相关性高于接触模型获得的整体相关性。

GDV模型中相关性在较短截止距离处达到平稳的原因是GDV包含了“深度接触”的信息，即邻居的邻居。例如，graphletG公司_三可以表示C^α–C^α两个相邻残留物之间的布线，其距离通常为～3.8 对于a，为反式肽。快速估计球面半径外深接触的平均距离为3.8的一半 Å,即1.9 Å. 如果我们添加GDV模型截止距离5.0 ？和1.9的估计深接触距离奥，我们得到了6.9的距离与接触模型的截止距离相一致。

3.3. 预测B类-价值分配

图4(一)显示了PDB-REDO和预测值之间所有相关值的方框图B类使用等式（3）定义的接触模型的1957个条目的值以及由等式（2）定义的GDV模型，每个都有自己的截止距离：7.0和5.0 分别为：。使用§3.2中描述的相同程序（十倍交叉验证）对两种模型（contact和GDV）进行验证.

图4
(一)PDB-REDO与预测值之间相关性的方框图B类触点和GDV模型的值。成对增量相关GDV–接触盒图表示GDV和接触模型之间的差异。(b条)接触模型的相关性与分辨率(c（c）)GDV模型的相关性与分辨率(d日)接触模型和(e（电子）)GDV模型的原子数（蛋白质大小）相关性。

GDV模型的表现优于接触模型，平均相关性增加0.08（0.73对0.65），最大相关性增加0.17。平均值并不表明GDV模型在多少情况下比接触模型更好。因此，计算了德尔塔相关性（GDV-接触），定义为GDV-模型相关性减去接触-模型相关性。方框图显示（图4一)GDV模型在测试中使用的绝大多数PDB-REDO条目（1943条（或99.3%））中表现优于接触模型。

因此，与接触模型相比，引入额外的变量和信息可以改善结果。应该强调的是，这两个模型都预测了B类值，即规范化值，而不是绝对值B类值（单位：²). 它们的重新缩放以预测非标准化B类值也是可能的，但只是在一定程度上。这样做，意味着B类值和标准偏差B类需要模型的价值。这些值取决于分辨率（Carugo，2018b条; 马斯马利耶娃和穆尔舒多夫，2019年; 另请参见补充图S3)，并且给定分辨率的分布宽度相当大。例如，分辨率为2.0 平均值B类值范围为15到50 Å²标准偏差范围为5-20 Å²，并且使用这些值的错误组合可能会导致错误预测绝对值B类值。

本研究中使用的数据集包含以不同分辨率求解的蛋白质结构，并且具有完全不同的大小。相关性与分辨率图以及相关性与原子数的关系表明，接触和GDV模型的准确性并不取决于这些参数（图4). 这是意料之中的，因为该模型完全基于分子几何。因此，我们可以假设B类值不是完全独立的参数，但与原子坐标有关：分子几何。第一项研究表明B类Halle（2002）提出的值并不是完全独立的参数)和Weiss（2007年). 之前的研究表明B类数值与接触密度成反比，而后一项研究表明，原子接触数与B类值。GDV，或者更确切地说是图形，也是基于原子坐标的。因此，本研究支持以下假设：B类值并非完全独立于坐标。

3.4. 最终（多）线性模型

基于所有数据建立的最终联系模型，即所有PDB-REDO条目的所有原子（～5.8×10⁶原子），表示为

$[B_{\rm p}=-0.64{O_0}\eqno（4）]$

GDV模型如下所示

$[\eqaligno{B_{\rm-p}&=0.33{O_0}-2.48{O_1}+0.30{O_2}-1.30{O3}-0.71{O_4}+1.17{O_5}\cr&\\quad+\0.35{O_6}-0.28{O_7}+0.10{O_8}+0.50{O_9}+0.68{O_10}\cr&\\quad-\0.08{O_11}+\0.43{O_12}+0.04{O_{13}}+0.28{O_{14}}，&（5）}]$

哪里B类_第页指归一化预测B类价值和O（运行）₀，O（运行）₁, …O（运行）₁₄是节点轨道的度数。注意方程（4）中的截距值为0，线性回归系数等于−0.64，这意味着接触次数越大B类价值（Halle，2002; Weiss，2007年).

线性模型（方程4)比多重线性模型更容易解释（方程式5)尤其是因为其变量高度相关。实际上，相关矩阵（图5一)表明轨道之间有很高的共线性，并且所有轨道都与B类值。这个B类值与轨道负相关最大O（运行）₁（-0.63）和O（运行）₄(−0.66). 因此，不用分析方程（5）中回归系数的大小和符号，对最重要的变量进行了分析。前三个最重要的变量是O（运行）₄，O（运行）₁和O（运行）₅（图5b条). 这三个轨道对应于两个graphlet，G公司₁和G公司_三（图1). 有趣的是注意到轨道O（运行）₀（接触人数）似乎是不太重要的变量之一；然而，它与其他几个轨道高度相关。这表明相邻原子的连接类型比其自身的接触数量更重要。前三个最重要的变量(O（运行）₄，O（运行）₁和O（运行）₅)对应于“未分支”的图形G公司₁和G公司_三，而接下来的四个重要变量是O（运行）₉，O（运行）₁₂，O（运行）₁₀和O（运行）₆，对应于“分支”graphlet，即G公司₄，G公司₆和G公司₇（图1)，因此包含有关节点之间的内部连接的信息。

图5
(一)相关矩阵B类值和轨道O（运行）₀，O（运行）₁, …O（运行）₁₄(b条)GDV模型的可变重要性。变量的重要性被规范化，因此最重要的变量的值为100。

3.5. 这个双峰分布属于B类值及其与规范化的关系

大约15%的PDB结构表现出B类值（Masmaliyeva等。, 2020)，应注意这些B类值被归一化。我们的数据集中有两个示例双峰分布第页，共页B类值如所示补充图S4GDV模型的性能及其与标准化的关系B类值如下所示。

3.5.1. 异三聚体蛋白

对接触模型和GDV模型结果的详细检查表明，在PDB进入的情况下，两种模型的相关性最低（～0.20）7个以上也被视为方框图中的异常值（图4一). 这项义务的结构基础知识-型异源三聚体蛋白是一种从头开始2.1确定的设计分辨率（Bermeo等。, 2022 ). 每个单体由两个长度约为35个残基的螺旋组成，由短环连接，同一侧有两个环（链一个和B类)另一侧有一个环（链条C类)异三聚体（图6一). 目视检查表明链条一个，B类和C类具有类似的空间结构（图6b条). 模板建模分数（TM-score；Zhang&Skolnick，2005 )对齐链的范围为0.64到0.79，而链之间的成对序列恒等式一个，B类和C类小于35%(补充表S1).

图6
(一)安基础知识-型异源三聚体蛋白；链一个，B类和C类分别为黑色、蓝色和红色。(b条)对齐的链条。(c（c）)链条一个根据B类PDB-REDO模型中的值，并按最小值等于-1标准偏差和最大值等于+1标准偏差进行缩放。链B类和C类以灰色色带显示。虚线椭圆标记位于螺旋中间的溶剂暴露侧链。(d日)与相同(c（c）)模型根据预测着色B类值。

分析B类值显示具有相同方向的链（链一个和B类)有类似的B类值，而链C类方向相反的，其值明显更高（图7一). 这个B类链的值一个与链原子相比，相邻原子的变化相当平稳B类尤其是链条C类预测值与PDB-REDO之间的相关系数B类链条的值为0.48、0.46和0.52一个，B类和C类分别为(补充图S5). 因此，预测的准确性B类每条链的值适中（～0.50），所有三条链的值都很低（～0.20）。

图7
B类的值基础知识-类型异源三聚体蛋白（PDB条目7个以上). (一)PDB-REDO和(b条)预测的B类值。B类值进行了标准化，以便平均值B类值设置为0B类值设置为1。

预测值和存款值之间的另一个显著差异B类值是PDB-REDO结构的共价键合原子具有非常相似的B类值（图7一)，而预测B类数值变化很大（图7b条),即它们不太平滑。一般来说，对于所有三条链，我们可以看到PDB-REDO和预测B类链末端和循环区域的值较高。个人预测高B类值对应于暴露于溶剂中的侧链原子（图6d日)正如预期的那样，虽然位于PDB-REDO结构螺旋线中间的溶剂暴露侧链没有高B类值（图6c（c）). 对晶体接触的简要检查表明，溶剂暴露在螺旋线中间的侧链，如图6中的虚线椭圆所示(c（c）)和6(d日)，不涉及大量晶体接触。

全局（非对称单位）和局部（链）精度之间存在显著差异的主要原因是B类值。当链或域的平均值显著不同时B类值，则更合理的做法是分别对每个单元（链或域）进行归一化，然后计算预测值和存储值之间的相关性B类用于评估GDV模型效率的值。有趣的是，链条一个，B类和C类所检测的异源三聚体蛋白对应于三个平移-平动-螺旋（TLS）组。因此，作为手动选择的替代方案，也可以根据预定义的（大的）TLS组执行标准化（Schomeker&Trueblood，1968 ).

3.5.2. 不对称单元中的两个单体

专性酶-腺苷酸复合物（PDB入口）的结构2005年4月)，确定为1.65 奥决议（威廉姆森等。, 2014 )，获得于空间组 C类2个，每个有两个单体非对称单元（图8一). 该蛋白具有一个腺苷酸化域（AD域）和一个寡核苷酸结合域（OB域）。使用较大的AD域进行对齐的两个单体的重叠表明它们具有不同的构象（图8b条). 当域分别对齐时，根平方偏差（在C上^αatoms）对于每个域小于1 Å. 因此，短触点（～5 在比较这两种单体时。这表明预测B类值也应该类似。事实上，预测的相关性B类单体之间的值为0.83（图8d日). 另一方面，存款的相关性B类单体之间的值仅为0.37（图8c（c）). 此外B类链中的值B类比链条中的要高得多一个PDB-REDO与预测值之间的相关性B类链的值为0.65一个，而链的相关性B类显著低于-0.40(补充图S6). 值得注意的是，作者（威廉姆森等。, 2014)用过的链条一个，定义为生物组合1，作为进一步讨论的参考，因为它具有更完整的密度和更低的平均值B类与链相比的价值B类（生物组装2）。

图8
(一)酶的两个单体–腺苷酸复合物非对称单元（PDB条目2005年4月); 链一个是蓝色的，有链子B类是橙色的。(b条)酶-腺苷酸复合物的叠加单体。(c（c）)PDB-重做B类值。(d日)已预测B类值。B类值进行了标准化，以便平均值B类值设置为0B类值设置为1。

本例和前面的异三聚体蛋白示例表明，如果B类蛋白质模型中的值具有多峰分布，我们希望评估GDV模型的性能B类值应该根据模式进行规范化。模式或集群B类给定蛋白质模型中的值当然依赖于案例，并对应于链、结构域或大型TLS组。

3.6. 应用于电子显微镜结构

最后，接触和GDV模型（方程式4和5)在低温电子显微镜测定的几个结构上以高于2.5的分辨率进行了测试且含量小于10 每个独立成分有1000个非H原子。此前，瓦洛达尔等。（2017年 )指出B类几乎所有沉积的低温电子显微镜模型中的值都没有意义。我们研究中使用的所有低温电子显微镜结构都是在2019年至2022年期间沉积的，质量控制似乎有所改善。

这个相关系数在预测和沉积之间B类触点和GDV模型的值如图9所示对于GDV模型，PDB和预测值之间的平均相关性B类26个低温电磁结构的值为～0.64，平均比接触模型好～0.15。最大的差异是PDB条目7转/分相关系数分别为0.64和0.38。人们可以推测，对于这种明显困难的结构，GDV方法仍然能够预测有关原子迁移率的一些信息，即使远不是完美的，而接触模型基本上失败了。

图9
预测和沉积之间的相关系数B类26个低温电磁结构的值。GDV模型和接触模型的相关性分别以红色和蓝色显示。

4.结论

本研究提出了一种改进的方法来预测B类蛋白质结构上的值。该方法使用graphlet度向量（GDV）。GDV的组成部分描述了大分子中给定原子布线的复杂性，不仅考虑到其直接接触的数量，还考虑到其邻域接触的信息。以GDV分量为解释变量，建立了多元线性回归模型。测试表明，该模型优于线性模型（Weiss，2007)仅基于直接原子接触。由于GDV模型完全基于几何考虑B类数值不是完全独立的参数，其性能不依赖于实验数据的分辨率。

预测值和实验值之间的不一致B类这些值可能是由于方法的缺陷和实验值中存在静态误差造成的，因为沉积模型也反映了样品上结构的变化。特别是，第二个组件负责B类数据分辨率的值。建议模型的一个明显缺陷是难以获得B类值在绝对刻度上，而不是在标准刻度上。

尽管这样的建模是不完整和不完善的，但结构生物学家最感兴趣的是蛋白质结构的动态方面，这种改进的预测方法有助于获得关于原子迁移率的概念，并为准确预测原子迁移率提供起始值B类-价值精细化。应该提到的是，在使用沉积或预测晶体时需要一定程度的谨慎B类用于分析蛋白质结构动力学的值，如B类外部残余物的值可能因紧密的晶体接触而产生偏差。然而，GDV模型是结构预测软件的重要补充工具，例如字母折叠和罗斯塔福尔德（跳线等。, 2021; 贝克等。, 2021).

未来的研究可以集中在使用该模型验证PDB中沉积的蛋白质模型，以及包括非蛋白质原子；例如，核酸类和配体。预测和沉积之间的低相关性B类值可能是由于B类值或部分错误的模型。前者意味着应重新考虑每个域/链或TLS组的规范化。后者意味着一些原子或环的位置应该被修正。因此，未来的工作将考虑将GDV模型应用于整个PDB，并识别蛋白质模型中可能错误建模的区域。然而，蛋白质结构的局部误差并不是沉积和预测差异的唯一来源B类值。沉积与预测之间差异的原因B类值也可以是辐射损伤，例如（Gerstel等。, 2015 ; 雪莱等。, 2018 ).

除了验证模型并将其应用于大型数据库之外，还可以通过使用高级预测方法或将GDV模型与其他经验证的方法相结合来改进模型。例如，Pearce&Gros（2021年）提出的分层无序模型 )它使用一组TLS参数来表示不同结构水平的结构紊乱，可以与GDV模型相结合，创建响应变量为部分的多元多元线性模型B类链、二级结构、残基和原子水平的值。进一步分析B类值也是集群B类用于搜索主链、侧链、内部或外部原子的典型向量的值。

支持信息

补充图表。内政部：https://doi.org/10.107/S2059798323009142/di5068sup1.pdf

致谢

D.Turk对手稿进行了批判性审查，进行了有益的讨论，并获得了长期支持。

资金筹措信息

这项工作得到了斯洛文尼亚研究机构提供的结构生物学拨款P1-0048和基础设施计划拨款I0-0035-2790的支持。

工具书类

Ali，W.、Rito，T.、Reinert，G.、Sun，F.和Deane，C.M.（2014）。生物信息学，30，i430–i437交叉参考中国科学院谷歌学者
 Baek，M.、DiMaio，F.、Anishchenko，I.、Dauparas，J.、Ovchinnikov，S.、Lee，G.R.、Wang，J.，Cong，Q.、Kinch，L.N.、Schaeffer，R.D.、MilláN，C.、Park，H.、Adams，C.、Glassman，C.R.、DeGiovanni，A.、Pereira，J.H.、Rodrigues，A.V.、van Dijk，A.A.、Ebrecht，A.C.、Opperman，D.J.、Sagmeister，T.、Buhlheller，C.、Pavkov-Keller，T.，Rathinaswamy、，M.K.、Dalwadi，U.、Yip，C.K.、Burke，J.E.、Garcia，K.C.、Grishin，N.V.、Adams，P.D.、Read，R.J.和Baker，D.（2021）。科学类，373, 871–876. 科学网交叉参考中国科学院公共医学谷歌学者
 Berman，H.M.、Westbrook，J.、Feng，Z.、Gilliland，G.、Bhat，T.N.、Weissig，H.、Shindyalov，I.N.和Bourne，P.E.（2000）。核酸研究。 28, 235–242. 科学网交叉参考公共医学中国科学院谷歌学者
 Bermeo，S.、Favor，A.、Chang，Y.-T.、Norris，A.、Boyken，S.E.、Hsia，Y.、Haddox，H.K.、Xu，C.、Brunette，T.J.、Wysocki，V.H.、Bhabha，G.、Ekiert，D.C.和Baker，D.（2022）。自然结构。分子生物学。 29, 1266–1276. 交叉参考中国科学院谷歌学者
 Bramer，D.&Wei，G.-W.W.（2018年）。化学杂志。物理学。 149, 134107. 交叉参考谷歌学者
 卡鲁戈，O.（2018年一).氨基酸，50, 775–786. 科学网交叉参考中国科学院公共医学谷歌学者
 Carugo，O.（2018年b条).BMC生物信息学，19, 61. 谷歌学者
 Carugo，O.（2022年）。《水晶学报》。D类78, 69–74. 交叉参考 IUCr日志谷歌学者
 Csardi，G.和Nepusz，T.（2006年）。国际复杂系统。, 1695. 谷歌学者
 Gerstel，M.、Deane，C.M.和Garman，E.F.（2015）。J.同步辐射。 22, 201–212. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Gohlke，H.、Kuhn，L.A.和Case，D.A.（2004）。蛋白质，56, 322–337. 科学网交叉参考公共医学中国科学院谷歌学者
 Grant，B.J.，Rodrigues，A.P.C.，ElSawy，K.M.，McCammon，J.A.&Caves，L.S.D.（2006）。生物信息学，22，2695–2696科学网交叉参考公共医学中国科学院谷歌学者
 Halle，B.（2002年）。程序。美国国家科学院。科学。美国，99, 1274–1279. 科学网交叉参考公共医学中国科学院谷歌学者
 Hirshfeld，F.L.（1976年）。《水晶学报》。一个32, 239–244. 交叉参考 IUCr日志科学网谷歌学者
 Hočevar，T.&Demšar，J.（2014）。生物信息学，30, 559–565. 谷歌学者
 Hočevar，T.&Demšar，J.（2016）。J.统计软件。 71(10), 1–24. 谷歌学者
 Humphrey，W.、Dalke，A.和Schulten，K.（1996）。J.摩尔图。 14, 33–38. 交叉参考中国科学院公共医学科学网谷歌学者
 Jacobs，D.J.、Rader，A.J.、Kuhn，L.A.和Thorpe，M.F.（2001年）。蛋白质，44, 150–165. 科学网交叉参考公共医学中国科学院谷歌学者
 Joosten，R.P.、Long，F.、Murshudov，G.N.和Perrakis，A.（2014）。IUCrJ大学，1, 213–220. 科学网交叉参考中国科学院公共医学 IUCr日志谷歌学者
 Joosten，R.P.、Salzemann，J.、Bloch，V.、Stockinger，H.、Berglund，A.-C.、Blanchet，C.、Bongcam-Rudloff，E.、Combet，C.、Da Costa，A.L.、Deleage，G.、Diarena，M.、Fabbretti，R.、Fettahi，G.，Flegel，V.，Gisel，A.、Kasam，V.（2009）。J.应用。克里斯特。 42, 376–384. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Jumper，J.，Evans，R.，Pritzel，A.，Green，T.，Figurnov，M.，Ronneberger，O.，Tunyasuvunakool，K.，Bates，R.第页，M.，Berghammer，T.，Bodenstein，S.，Silver，D.，Vinyals，O.，Senior，A.W.，Kavukcuoglu，K.，Kohli，P.&Hassabis，D.（2021）。自然，596, 583–589. 科学网交叉参考中国科学院公共医学谷歌学者
 Konnert，J.H.和Hendrickson，W.A.（1980年）。《水晶学报》。一个36, 344–350. 交叉参考中国科学院 IUCr日志科学网谷歌学者
 Kuhn，M.（2008）。J.统计软件。 28(5), 1–26. 谷歌学者
 Kundu，S.、Melton，J.S.、Sorensen，D.C.和Phillips，G.N.（2002）。生物物理学。J。 83, 723–732. 交叉参考中国科学院谷歌学者
 Masmaliyeva，R.C.、Babai，K.H.和Murshudov，G.N.（2020年）。《水晶学报》。D类76, 926–937. 科学网交叉参考 IUCr日志谷歌学者
 Masmaliyeva，R.C.和Murshudov，G.N.（2019年）。《水晶学报》。D类75, 505–518. 科学网交叉参考 IUCr日志谷歌学者
 Merritt，E.A.（2011年）。《水晶学报》。一个67, 512–516. 科学网交叉参考 IUCr日志谷歌学者
 Merritt，E.A.（2012年）。《水晶学报》。D类68, 468–477. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Pan，X.-Y.和Shen，H.-B.（2009）。蛋白质肽。莱特。 16, 1447–1454. 交叉参考中国科学院谷歌学者
 Parthasarathy，S.&Murthy，M.R.N.（1997年）。蛋白质科学。 6, 2561–2567. 交叉参考中国科学院公共医学科学网谷歌学者
 Pearce，N.M.和Gros，P.（2021）。国家公社。 12, 5493. 科学网交叉参考公共医学谷歌学者
 Príulj，N.（2007年）。生物信息学，23，e177–e183谷歌学者
 Radivojac，P.、Obradovic，Z.、Smith，D.K.、Zhu，G.、Vuacetic，S.、Brown，C.J.、Lawson，J.D.和Dunker，A.K.（2004年）。蛋白质科学。 13, 71–80. 科学网交叉参考公共医学中国科学院谷歌学者
 R核心团队（2022）。统计计算R项目.https://www.r-project.org网站/. 谷歌学者
 Rodriguez，R.、China，G.、Lopez，N.、Pons，T.和Vriend，G.（1998）。生物信息学，14, 523–528. 科学网交叉参考中国科学院公共医学谷歌学者
 Schlessinger，A.和Rost，B.（2005年）。蛋白质，61, 115–126. 科学网交叉参考公共医学中国科学院谷歌学者
 Schlessinger，A.、Yachdav，G.和Rost，B.（2006年）。生物信息学，22, 891–893. 交叉参考中国科学院谷歌学者
 Schomaker，V.&Trueblood，K.N.（1968年）。《水晶学报》。B类24, 63–76. 交叉参考中国科学院 IUCr日志科学网谷歌学者
 Shelley，K.L.、Dixon，T.P.E.、Brooks-Bartlett，J.C.和Garman，E.F.（2018）。J.应用。克里斯特。 51, 552–559. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Sun，Z.、Liu，Q.、Qu，G.、Feng，Y.和Reetz，M.T.（2019年）。化学。修订版。 119, 1626–1665. 科学网交叉参考中国科学院公共医学谷歌学者
 Tronrud，D.E.（1996）。J.应用。克里斯特。 29，100–104交叉参考中国科学院科学网 IUCr日志谷歌学者
 Trueblood，K.N.、Bürgi，H.-B.、Burzlaff，H.、Dunitz，J.D.、Gramaccioli，C.M.、Schulz，H.H.、Shmueli，U.和Abrahams，S.C.（1996年）。《水晶学报》。一个52, 770–781. 交叉参考中国科学院科学网 IUCr日志谷歌学者
 Venables，W.N.&Ripley，B.D.（2002年）。现代应用统计学与S第4版，纽约：施普林格出版社。谷歌学者
 Vriend，G.（1990年）。J.摩尔图。 8, 52–56. 交叉参考中国科学院公共医学科学网谷歌学者
 Wang，G.和Dunbrack，R.L.Jr（2003）。生物信息学，19, 1589–1591. 科学网交叉参考公共医学中国科学院谷歌学者
 Weiss，M.S.（2007年）。《水晶学报》。D类63, 1235–1242. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Williamson，A.、Rothweiler，U.和Leiros，H.K.S.（2014）。《水晶学报》。D类70, 3043–3056. 交叉参考 IUCr日志谷歌学者
 Wlodawer，A.、Li，M.和Dauter，Z.（2017）。结构，25, 1589–1597. 科学网交叉参考中国科学院公共医学谷歌学者
 Yang，J.，Wang，Y.和Zhang，Y.（2016）。分子生物学杂志。 428, 693–701. 科学网交叉参考中国科学院公共医学谷歌学者
 Yin，H.，Li，Y.-Z.和Li，M.-L.（2011）。蛋白质肽。莱特。 18, 450–456. 交叉参考中国科学院谷歌学者
 Yuan，Z.，Bailey，T.L.&Teasdale，R.D.（2005）。蛋白质，58, 905–912. 科学网交叉参考公共医学中国科学院谷歌学者
 Zhang，Y.和Skolnick，J.（2005）。核酸研究。 33, 2302–2309. 科学网交叉参考公共医学中国科学院谷歌学者