1.简介
在诸如大分子晶体学和低温电子显微镜(cryo-EM)等实验方法中,原子位置的不确定性由原子位移参数(ADP)描述,通常以B类值(Trueblood等。1996年; Parthasarathy&Murthy,1997年; 拉迪沃亚茨等。2004年; Carugo,2018年一; 太阳等。, 2019). 事实上,该参数既包括我们感兴趣的实际原子迁移率,也包括样品上原子位置的变化,即静态不确定性。ADP在沉积在蛋白质数据库(PDB;Berman等。, 2000). 在中等分辨率下,观测数与参数数之比较低,且实验数据不足,因此需要约束和约束来细化坐标和ADP。现代晶体学软件中使用的一个简单限制是键合原子往往具有类似的ADP(Hirshfeld,1976); Konnert&Hendrickson,1980年; 特隆鲁,1996年; Merritt,2011年, 2012). 然而,精炼还取决于晶体学家,他决定约束和约束的强度;例如,最小值和最大值B类允许的值。Carugo(2018)的研究对象是蛋白质模型中ADP的准确性及其最大值b条, 2022). 这些研究表明,2008年后,大量ADP更频繁地沉积在PDB中,在过去20年中,ADP错误没有改善。
最近,Masmaliyeva和Murshudov(2019年)和马斯马利耶娃等。(2020)提出了一种非常有趣的方法来分析和验证各向同性ADP。研究表明,蛋白质结构中各向同性ADP的分布遵循移位逆伽马分布(SIGD),其定义为
哪里α,β和B类0分别是形状、比例和偏移参数。请注意B类0定义为最小值的90%B类蛋白质模型中的值。SIGD的形状和尺度参数的统计数据来自大型PDB数据集。通过估计SIGD的形状和尺度参数,可以获得查询蛋白的ADP分布是否为离群值的信息,需要进一步验证。同时,该方法不能用于预测ADP。
相反,提出了几种利用氨基酸序列预测大分子各向同性ADP的方法(Yuan等。, 2005; Schlesinger和Rost,2005年; 施莱辛格等。, 2006; Pan&Shen,2009年),包装密度(Halle,2002)、图表理论参数(Jacobs等。, 2001; 高尔克等。2004年; 阴等。, 2011),C的弹性网络α原子(昆都等。, 2002),局部结构组件变化(Yang等。, 2016)和先进的机器学习算法(Bramer&Wei,2018).
据我们所知,这些方法都没有在实践中得到广泛应用。对引用的科学论文的审查表明:(i)一些脚本或软件不可用,(ii)预测基于序列而不是原子模型,以及(iii)预测B类给定残渣中所有原子的值都是常数。为了解决所有这些问题,并进一步发展对B类值,Weiss(2007)介绍的方法)选择了,其中引入了线性模型,其中B类值取决于紧密原子接触的参数。因此,通过添加描述局部接线模式的参数,线性模型被扩展为构造相对简单直观的多重线性模型。
从图论的角度来看,每个接触可以看作是两个节点(原子)之间的边,每个原子的接触数在图论中称为节点度。此局部图形参数可用于对节点进行分类或排序。这个单一的度量似乎不足以确定两个节点是否相似。节点的阶数表示特定节点有多少个连接,但不包含这些相邻节点本身是如何连接的信息。因此,需要额外的局部图形参数来更好地定义给定节点的紧密接触和深度接触,预计这些参数可以估计各个原子的ADP。
Príulj(2007)引入了节点度或每个节点的连接数的扩展). 在这项工作中,引入了小(2-4节点)子图,称为graphlets。与计算每个节点的边数类似,也可以计算每个节点中的graphlet数。因此,通过计算图中每个节点的小图(或小基序),我们可以提取节点的局部拓扑。节点的拓扑描述包含有关连接数的信息以及有关相邻节点如何连接的信息。
在本文中,使用graphlet度向量(GDV)建立多元线性回归模型来预测蛋白质各向同性ADP的分布(B类值)。结果表明,使用GDV的多元线性回归模型可以预测B类值的性能优于仅基于原子接触数的线性模型(Weiss,2007). 多重线性模型与分辨率无关,仅基于模型的几何结构。预测B类通过大分子晶体学、低温电子显微镜或结构预测获得的大分子模型值(Jumper等。, 2021; 贝克等。, 2021).
2.方法
2.2. 多元线性回归
使用多元线性回归模型预测B类如上所述,将原子视为图的节点,从原子GDV中获得蛋白质原子的值。要启用B类不同蛋白质结构的值B类每个蛋白质结构的值都是独立标准化的,因此平均值B类值设置为0B类值设置为1。多元线性回归搜索解释变量和因变量之间的线性关系。在本研究中,解释变量是GDV的组成部分,因变量是B类值。由于每个原子的轨道度数可能不同,因此更有可能找到更高的轨道度O(运行)0而不是轨道O(运行)14,矩阵的列N个×M(M),其中N个是给定蛋白质中的原子总数M(M)是GDV的长度。具有15个解释变量和N个蛋白质原子写为
哪里B类n个是因变量,n个= 1, 2, …,N个,b条0是截距,O(运行)n个,k个,k个=0,1,2,…,14是解释变量βk个是回归向量的系数。轨道O(运行)0包含有关每个原子的联系人数量的信息。为了与GDV模型进行比较,一个带有自变量的线性模型(接触模型)O(运行)0也使用了,
为了计算接触和GDV模型的效率B类值和存放在PDB-REDO数据库中的值(Joosten等。, 2009, 2014)已计算。
2.3. 软件
这个R(右)软件包(版本4.2.1;R核心团队,2022)使用以下软件包进行数据分析:逆戟鲸(版本1.1-1;Hočevar&Demšar,2014, 2016),网络用户(版本0.4.9100;Ali等。, 2014),生物三d日(版本2.4-2;授予等。, 2006),迁移率(版本1.2.6;Csardi&Nepusz,2006),插入符号(版本6.0-90;库恩,2008),MASS(质量)(版本7.3-58.1;Venables&Ripley,2002年)和逆伽马射线(版本1.1)。
下面给出了一个用于构建图形和计算轨道的简化算法。
步骤1。这个生物三d日包用于读取PDB文件并提取原子坐标。
第2步。计算了所有原子对之间的距离矩阵。
步骤3。将创建邻接矩阵(如果距离小于某个阈值,则存在链接)。
步骤4。邻接矩阵作为输入数据迁移率包用于创建图形。
步骤5。步骤4中的图表和逆戟鲸(内部网络发行人)包用于计算每个节点的轨道数(度)。
最终结果是维度矩阵N个×M(M),其中N个是原子数和M(M)是15,有轨道O(运行)0,O(运行)1…,O(运行)14. TheR(右)用于读取蛋白质坐标、创建图表、计算轨道和预测的脚本B类值可以在以下位置找到https://github.com/jure-praznikar/Graphlets-B-value.
为了根据变量的重要性对多元线性回归中的变量进行排序变量Imp功能(R(右)包裹插入符号)被使用。一般来说,最重要的变量是解释响应变量大部分方差的变量。这个R(右)功能变量Imp使用的绝对值t吨-统计来衡量变量的重要性。
所有包含3D蛋白质模型带状表示的图形均使用视觉分子动力学(汉弗莱等。1996年).
3.结果和讨论
3.2. 截止距离的优化
要计算GDV,必须首先将3D蛋白质模型转换为节点表示蛋白质原子的图形。如果相应原子的距离小于规定值(以下称为截止距离),则两个节点通过边连接。图形边缘不区分共价键合原子和非共价键结原子。
结晶学期间精细化,主要使用各种约束来确保化学键合的原子具有相似的性质B类值。GDV也受到了类似的限制。为此,将一个新的平滑值指定给给定的原子,作为当前值和2.0内所有相邻节点的平均值的总和 φ半径。我们需要区分用于创建图形的截止距离和2.0 平滑过程中使用的距离。该平滑距离略高于共价键的长度,在搜索用于生成图形的最佳截止距离时保持不变。
为了定义这个距离,我们首先随机选择了50个条目,用于训练和验证(多)线性模型。模型建立在90%的结构上,然后用于预测测试集(10%的蛋白质结构)。在十倍交叉验证的框架中,该程序重复了十次。对于每个条目相关系数预测值和PDB-REDO之间B类计算了这些值,并使用这些值来找到最佳截止距离。图3显示了预测值和PDB-REDO之间的相关性B类值。它的行为对于所有测试模型都是相似的,这使我们能够得出一些结论。
| 图3 PDB-REDO与预测值的相关性B类值作为从我们的数据库中随机选择的50个结构的截止距离的函数。(一)GDV模型(b条)接触模型;红线代表平均值。 |
在GDV模型中,相关性最低的是我们尝试的最短截止距离3.0 奥(图3一)而相关性最高的值出现在区间5.0–8.0 Å,在这个区间没有显著差异。因此,截止距离为5.0 最大限度地减少了计算量,被认为是最佳选择,并用于进一步分析。
为了进行比较,我们对接触模型重复了相同的步骤。这里,最佳截止距离(图3b条)与GDV模型不同,符合7.0的值 之前由Weiss(2007)确定的Δ). GDV模型获得的总体相关性高于接触模型获得的整体相关性。
GDV模型中相关性在较短截止距离处达到平稳的原因是GDV包含了“深度接触”的信息,即邻居的邻居。例如,graphletG公司三可以表示Cα–Cα两个相邻残留物之间的布线,其距离通常为~3.8 对于a,为反式肽。快速估计球面半径外深接触的平均距离为3.8的一半 Å,即1.9 Å. 如果我们添加GDV模型截止距离5.0 ?和1.9的估计深接触距离 奥,我们得到了6.9的距离 与接触模型的截止距离相一致。
3.5. 这个双峰分布属于B类值及其与规范化的关系
大约15%的PDB结构表现出B类值(Masmaliyeva等。, 2020),应注意这些B类值被归一化。我们的数据集中有两个示例双峰分布第页,共页B类值如所示补充图S4GDV模型的性能及其与标准化的关系B类值如下所示。
4.结论
本研究提出了一种改进的方法来预测B类蛋白质结构上的值。该方法使用graphlet度向量(GDV)。GDV的组成部分描述了大分子中给定原子布线的复杂性,不仅考虑到其直接接触的数量,还考虑到其邻域接触的信息。以GDV分量为解释变量,建立了多元线性回归模型。测试表明,该模型优于线性模型(Weiss,2007)仅基于直接原子接触。由于GDV模型完全基于几何考虑B类数值不是完全独立的参数,其性能不依赖于实验数据的分辨率。
预测值和实验值之间的不一致B类这些值可能是由于方法的缺陷和实验值中存在静态误差造成的,因为沉积模型也反映了样品上结构的变化。特别是,第二个组件负责B类数据分辨率的值。建议模型的一个明显缺陷是难以获得B类值在绝对刻度上,而不是在标准刻度上。
尽管这样的建模是不完整和不完善的,但结构生物学家最感兴趣的是蛋白质结构的动态方面,这种改进的预测方法有助于获得关于原子迁移率的概念,并为准确预测原子迁移率提供起始值B类-价值精细化。应该提到的是,在使用沉积或预测晶体时需要一定程度的谨慎B类用于分析蛋白质结构动力学的值,如B类外部残余物的值可能因紧密的晶体接触而产生偏差。然而,GDV模型是结构预测软件的重要补充工具,例如字母折叠和罗斯塔福尔德(跳线等。, 2021; 贝克等。, 2021).
未来的研究可以集中在使用该模型验证PDB中沉积的蛋白质模型,以及包括非蛋白质原子;例如,核酸类和配体。预测和沉积之间的低相关性B类值可能是由于B类值或部分错误的模型。前者意味着应重新考虑每个域/链或TLS组的规范化。后者意味着一些原子或环的位置应该被修正。因此,未来的工作将考虑将GDV模型应用于整个PDB,并识别蛋白质模型中可能错误建模的区域。然而,蛋白质结构的局部误差并不是沉积和预测差异的唯一来源B类值。沉积与预测之间差异的原因B类值也可以是辐射损伤,例如(Gerstel等。, 2015; 雪莱等。, 2018).
除了验证模型并将其应用于大型数据库之外,还可以通过使用高级预测方法或将GDV模型与其他经验证的方法相结合来改进模型。例如,Pearce&Gros(2021年)提出的分层无序模型)它使用一组TLS参数来表示不同结构水平的结构紊乱,可以与GDV模型相结合,创建响应变量为部分的多元多元线性模型B类链、二级结构、残基和原子水平的值。进一步分析B类值也是集群B类用于搜索主链、侧链、内部或外部原子的典型向量的值。
致谢
D.Turk对手稿进行了批判性审查,进行了有益的讨论,并获得了长期支持。
资金筹措信息
这项工作得到了斯洛文尼亚研究机构提供的结构生物学拨款P1-0048和基础设施计划拨款I0-0035-2790的支持。
工具书类
Ali,W.、Rito,T.、Reinert,G.、Sun,F.和Deane,C.M.(2014)。生物信息学,30,i430–i437交叉参考 中国科学院 谷歌学者
Baek,M.、DiMaio,F.、Anishchenko,I.、Dauparas,J.、Ovchinnikov,S.、Lee,G.R.、Wang,J.,Cong,Q.、Kinch,L.N.、Schaeffer,R.D.、MilláN,C.、Park,H.、Adams,C.、Glassman,C.R.、DeGiovanni,A.、Pereira,J.H.、Rodrigues,A.V.、van Dijk,A.A.、Ebrecht,A.C.、Opperman,D.J.、Sagmeister,T.、Buhlheller,C.、Pavkov-Keller,T.,Rathinaswamy、,M.K.、Dalwadi,U.、Yip,C.K.、Burke,J.E.、Garcia,K.C.、Grishin,N.V.、Adams,P.D.、Read,R.J.和Baker,D.(2021)。科学类,373, 871–876. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Berman,H.M.、Westbrook,J.、Feng,Z.、Gilliland,G.、Bhat,T.N.、Weissig,H.、Shindyalov,I.N.和Bourne,P.E.(2000)。核酸研究。 28, 235–242. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Bermeo,S.、Favor,A.、Chang,Y.-T.、Norris,A.、Boyken,S.E.、Hsia,Y.、Haddox,H.K.、Xu,C.、Brunette,T.J.、Wysocki,V.H.、Bhabha,G.、Ekiert,D.C.和Baker,D.(2022)。自然结构。分子生物学。 29, 1266–1276. 交叉参考 中国科学院 谷歌学者
Bramer,D.&Wei,G.-W.W.(2018年)。化学杂志。物理学。 149, 134107. 交叉参考 谷歌学者
卡鲁戈,O.(2018年一).氨基酸,50, 775–786. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Carugo,O.(2018年b条).BMC生物信息学,19, 61. 谷歌学者
Carugo,O.(2022年)。《水晶学报》。D类78, 69–74. 交叉参考 IUCr日志 谷歌学者
Csardi,G.和Nepusz,T.(2006年)。国际复杂系统。, 1695. 谷歌学者
Gerstel,M.、Deane,C.M.和Garman,E.F.(2015)。J.同步辐射。 22, 201–212. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Gohlke,H.、Kuhn,L.A.和Case,D.A.(2004)。蛋白质,56, 322–337. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Grant,B.J.,Rodrigues,A.P.C.,ElSawy,K.M.,McCammon,J.A.&Caves,L.S.D.(2006)。生物信息学,22,2695–2696科学网 交叉参考 公共医学 中国科学院 谷歌学者
Halle,B.(2002年)。程序。美国国家科学院。科学。美国,99, 1274–1279. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Hirshfeld,F.L.(1976年)。《水晶学报》。一个32, 239–244. 交叉参考 IUCr日志 科学网 谷歌学者
Hočevar,T.&Demšar,J.(2014)。生物信息学,30, 559–565. 谷歌学者
Hočevar,T.&Demšar,J.(2016)。J.统计软件。 71(10), 1–24. 谷歌学者
Humphrey,W.、Dalke,A.和Schulten,K.(1996)。J.摩尔图。 14, 33–38. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
Jacobs,D.J.、Rader,A.J.、Kuhn,L.A.和Thorpe,M.F.(2001年)。蛋白质,44, 150–165. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Joosten,R.P.、Long,F.、Murshudov,G.N.和Perrakis,A.(2014)。IUCrJ大学,1, 213–220. 科学网 交叉参考 中国科学院 公共医学 IUCr日志 谷歌学者
Joosten,R.P.、Salzemann,J.、Bloch,V.、Stockinger,H.、Berglund,A.-C.、Blanchet,C.、Bongcam-Rudloff,E.、Combet,C.、Da Costa,A.L.、Deleage,G.、Diarena,M.、Fabbretti,R.、Fettahi,G.,Flegel,V.,Gisel,A.、Kasam,V.(2009)。J.应用。克里斯特。 42, 376–384. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Jumper,J.,Evans,R.,Pritzel,A.,Green,T.,Figurnov,M.,Ronneberger,O.,Tunyasuvunakool,K.,Bates,R.第页,M.,Berghammer,T.,Bodenstein,S.,Silver,D.,Vinyals,O.,Senior,A.W.,Kavukcuoglu,K.,Kohli,P.&Hassabis,D.(2021)。自然,596, 583–589. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Konnert,J.H.和Hendrickson,W.A.(1980年)。《水晶学报》。一个36, 344–350. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
Kuhn,M.(2008)。J.统计软件。 28(5), 1–26. 谷歌学者
Kundu,S.、Melton,J.S.、Sorensen,D.C.和Phillips,G.N.(2002)。生物物理学。J。 83, 723–732. 交叉参考 中国科学院 谷歌学者
Masmaliyeva,R.C.、Babai,K.H.和Murshudov,G.N.(2020年)。《水晶学报》。D类76, 926–937. 科学网 交叉参考 IUCr日志 谷歌学者
Masmaliyeva,R.C.和Murshudov,G.N.(2019年)。《水晶学报》。D类75, 505–518. 科学网 交叉参考 IUCr日志 谷歌学者
Merritt,E.A.(2011年)。《水晶学报》。一个67, 512–516. 科学网 交叉参考 IUCr日志 谷歌学者
Merritt,E.A.(2012年)。《水晶学报》。D类68, 468–477. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Pan,X.-Y.和Shen,H.-B.(2009)。蛋白质肽。莱特。 16, 1447–1454. 交叉参考 中国科学院 谷歌学者
Parthasarathy,S.&Murthy,M.R.N.(1997年)。蛋白质科学。 6, 2561–2567. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
Pearce,N.M.和Gros,P.(2021)。国家公社。 12, 5493. 科学网 交叉参考 公共医学 谷歌学者
Príulj,N.(2007年)。生物信息学,23,e177–e183谷歌学者
Radivojac,P.、Obradovic,Z.、Smith,D.K.、Zhu,G.、Vuacetic,S.、Brown,C.J.、Lawson,J.D.和Dunker,A.K.(2004年)。蛋白质科学。 13, 71–80. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
R核心团队(2022)。统计计算R项目.https://www.r-project.org网站/. 谷歌学者
Rodriguez,R.、China,G.、Lopez,N.、Pons,T.和Vriend,G.(1998)。生物信息学,14, 523–528. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Schlessinger,A.和Rost,B.(2005年)。蛋白质,61, 115–126. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Schlessinger,A.、Yachdav,G.和Rost,B.(2006年)。生物信息学,22, 891–893. 交叉参考 中国科学院 谷歌学者
Schomaker,V.&Trueblood,K.N.(1968年)。《水晶学报》。B类24, 63–76. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
Shelley,K.L.、Dixon,T.P.E.、Brooks-Bartlett,J.C.和Garman,E.F.(2018)。J.应用。克里斯特。 51, 552–559. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Sun,Z.、Liu,Q.、Qu,G.、Feng,Y.和Reetz,M.T.(2019年)。化学。修订版。 119, 1626–1665. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Tronrud,D.E.(1996)。J.应用。克里斯特。 29,100–104交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Trueblood,K.N.、Bürgi,H.-B.、Burzlaff,H.、Dunitz,J.D.、Gramaccioli,C.M.、Schulz,H.H.、Shmueli,U.和Abrahams,S.C.(1996年)。《水晶学报》。一个52, 770–781. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Venables,W.N.&Ripley,B.D.(2002年)。现代应用统计学与S第4版,纽约:施普林格出版社。 谷歌学者
Vriend,G.(1990年)。J.摩尔图。 8, 52–56. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
Wang,G.和Dunbrack,R.L.Jr(2003)。生物信息学,19, 1589–1591. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Weiss,M.S.(2007年)。《水晶学报》。D类63, 1235–1242. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Williamson,A.、Rothweiler,U.和Leiros,H.K.S.(2014)。《水晶学报》。D类70, 3043–3056. 交叉参考 IUCr日志 谷歌学者
Wlodawer,A.、Li,M.和Dauter,Z.(2017)。结构,25, 1589–1597. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Yang,J.,Wang,Y.和Zhang,Y.(2016)。分子生物学杂志。 428, 693–701. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Yin,H.,Li,Y.-Z.和Li,M.-L.(2011)。蛋白质肽。莱特。 18, 450–456. 交叉参考 中国科学院 谷歌学者
Yuan,Z.,Bailey,T.L.&Teasdale,R.D.(2005)。蛋白质,58, 905–912. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Zhang,Y.和Skolnick,J.(2005)。核酸研究。 33, 2302–2309. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
| 结构 生物学 |
国际标准编号:2059-7983
打开访问