研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标结构
生物学
编号:2059-7983

检测反式顺式蛋白质结构中的翻转和肽-平面翻转

十字标记_颜色_方形_文本.svg

分子和生物分子信息学中心,Radboud大学医学中心,Geert Grootplein-Zuid 26-28,6525 GA奈梅亨,荷兰b条荷兰癌症研究所生物化学系,荷兰阿姆斯特丹Plesmanlaan 121,1066 CX
*通信电子邮件:wouter.touw@radboudumc.nlgerrit.vriend@radboudumc.nl

编辑:G.J.Kleywegt,EMBL–EBI,英国Hinxton(收到日期:2015年2月4日; 2015年4月27日接受; 在线2015年7月28日)

提出了一种基于坐标的方法来检测需要通过肽-肽翻转或通过反式顺式肽键的反转。当应用于整个蛋白质数据库时,该方法预测4617反式顺式翻转和数千个迄今为止未知的肽平面翻转。重点介绍了几个例子,其中对肽平面几何形状的校正导致对结构-功能关系的理解的校正。所有数据,包括1088个手动验证的案例,都是免费的,该方法可以从web服务器、web服务界面和WHAT_检查.

1.简介

肽键连接蛋白质中相邻的氨基酸。肽键的部分双键特性限制了其扭转。二面角ω(C)α−1-C类−1-N个-C类α)通常值约为180°(反式)或0°(顺式),尽管可能有例外(伯克霍尔茨等。, 2012【Berkholz,D.S.,Driggers,C.M.,Shapovalov,M.V.,Dunbrack,R.L.&Karplus,P.A.(2012),美国国家科学院院刊,109,449-453.】). C类α–1-C类α距离约为3.81中的奥数反式构象和2.94左右中的奥数顺式构象。这个反式构象比顺式由于两个C之间不利的非键相互作用而形成的构象α-H(H)α肽键两侧的部分(Zimmerman和Scheraga,1976[Zimmerman,S.S.&Scheraga,H.A.(1976),《大分子》,第9期,第408-416页。]; 斯图尔特等。, 1990【Stewart,D.E.、Sarkar,A.和Wampler,J.E.(1990),《分子生物学杂志》214、253-260。】以及其中的参考;日本佬等。, 1999【Jabs,A.、Weiss,M.S.和Hilgenfeld,R.(1999),《分子生物学杂志》286291-304。】以及其中的参考)。这个顺式酰亚胺键X(X)-Pro比顺式酰胺键X(X)-Xnp(其中Xnp是除Pro之外的任何残基),因为Cα−1和O−1原子在这两种情况下都有类似的第三邻居X(X)-Pro-conformation(Ramachandran和Sasisekharan,1968年【Ramachandran,G.N.和Sasisekharan,V.(1968),高级蛋白质化学23,283-438。】).

在蛋白质晶体学的早期顺式 肽类在可用的蛋白质晶体结构中几乎完全缺失(Ramachandran和Mitra,1976[Ramachandran,G.N.和Mitra,A.K.(1976),《分子生物学杂志》107,85-92。]). 因此顺式-蛋白质晶体结构中的肽几何结构是非常困难的。在20世纪90年代初,沉积在PDB中的结构的数量允许对顺式 肽。斯图尔特等。(1990【Stewart,D.E.、Sarkar,A.和Wampler,J.E.(1990),《分子生物学杂志》214、253-260。】)特征17顺式 X(X)-Xnp和99顺式 X(X)-专业肽类和麦克阿瑟和桑顿(1991【麦克阿瑟·M·W·和桑顿·J·M·(1991),《分子生物学杂志》218、397-412。】)分析58顺式 X(X)-一组非同源结构中的前体残基。许多调查表明顺式反式同分异构体在PDB中的出现频率仅部分反映出来。Jabs和同事回顾了关于罕见的顺式蛋白质结构中的肽键(Jabs等。, 1999【Jabs,A.、Weiss,M.S.和Hilgenfeld,R.(1999),《分子生物学杂志》286291-304。】). 正如几项研究所观察到的那样,这些论点主要与蛋白质能量学和蛋白质功能有关顺式 肽类在功能重要的位置,如活性位点或蛋白质结合界面(Stoddard&Pietrokovski,1998【Stoddard,B.L.和Pietrokovski,S.(1998),《自然结构分子生物学》,第5期,第3-5页。】以及其中的参考;韦斯等。, 1998【Weiss,M.S.,Jabs,A.&Hilgenfeld,R.(1998),《自然结构与分子生物学》,第5期,第676页。】以及其中的参考)。几项研究表明晶体结构和数量顺式 肽类(斯图尔特等。, 1990【Stewart,D.E.、Sarkar,A.和Wampler,J.E.(1990),《分子生物学杂志》214、253-260。】; 韦斯等。, 1998【Weiss,M.S.,Jabs,A.&Hilgenfeld,R.(1998),《自然结构与分子生物学》,第5期,第676页。】; Pal&Chakrabarti,1999年【Pal,D.&Chakrabarti,P.(1999),《分子生物学杂志》294,271-288。】). 包括Jabs和同事在内的几位作者指出顺式 肽类部分原因是先验的通常在确定X射线晶体结构时所做的假设是肽类有一个反式构象(Huber&Steigemann,1974[Huber,R.&Steigemann,W.(1974年)。FEBS Lett.48,2-4。]; 斯图尔特等。, 1990【Stewart,D.E.、Sarkar,A.和Wampler,J.E.(1990),《分子生物学杂志》214、253-260。】; 韦斯等。, 1998【Weiss,M.S.,Jabs,A.&Hilgenfeld,R.(1998),《自然结构与分子生物学》,第5期,第676页。】; 日本佬等。, 1999【Jabs,A.、Weiss,M.S.和Hilgenfeld,R.(1999),《分子生物学杂志》286291-304。】). 20世纪70年代,人们已经注意到,重新解释电子密度图可能会揭示出许多以前未被注意到的现象顺式 肽类在蛋白质结构中(Huber&Steigemann,1974[Huber,R.&Steigemann,W.(1974年)。FEBS Lett.48,2-4。]; Ramachandran和Mitra,1976年[Ramachandran,G.N.和Mitra,A.K.(1976),《分子生物学杂志》107,85-92。]).

错误分配的肽构象可能需要许多可能的修正。第一种也是最常见的是整个肽平面旋转180°,称为酰胺翻转(McCammon等。, 1977【McCammon,J.A.、Gelin,B.R.和Karplus,M.(1977)。《自然》(伦敦),267,585-590。】),肽-肽翻转(Hayward,2001【Hayward,S.(2001),《蛋白质科学》,第10期,第2219-2227页。】)或肽翻转(Joosten等。, 2011【Joosten,R.P.,Joosten.,K.,Cohen,S.X.,Vriend,G.&Perrakis,A.(2011).生物信息学,27,3392-3398.】). 在下文中,这些肽板翻转被称为tt+[图1[链接]; 前两个符号为c表示顺式或t代表反式,分别反映翻转前后的情况;如果构象变化包括主链羰基C=O的翻转,则第三个符号为加号(+),否则为减号(−)]。其他两个修正是反式顺式翻转可以构成主链C=O(tc+或ct+)的翻转或主链酰胺N-H(tc-或ct-)的翻转。正确的肽是tt−或cc−。在蛋白质数据库(PDB;Berman)中保存的晶体结构中观察到每种类型的翻转等。, 2007【Berman,H.、Henrick,K.、Nakamura,H.和Markley,J.L.(2007)。核酸研究35,D301-D303。】)cc+除外(顺式-肽翻转包括C=O的翻转)。图1[链接]显示了五种可能的代码的代表性示例,这些代码包括翻转并且已经在PDB中实际观察到。更多示例可在相关网站上找到(https://swift.cmbi.ru.nl/gv/flips网址/).

[图1]
图1
代表性肽翻转。左图显示了PDB(粉红色结构)中发现的肽构象和从Uppsala电子密度服务器(Kleywegt)获得的电子密度图等。, 2004【Kleywegt,G.J.,Harris,M.R.,Zou,J.,Taylor,T.C.,Wählby,A.&Jones,T.A.(2004),《结晶学报》,D60,2240-2249。】). 右图显示了PDB_REDO数据库(Joosten)中相应重新定义的结构模型(绿色)的构象和电子密度等。, 2011【Joosten,R.P.,Joosten.,K.,Cohen,S.X.,Vriend,G.&Perrakis,A.(2011).生物信息学,27,3392-3398.】). 显示翻转类型(tt−和cc−不是翻转,因此没有图示)。在PDB中找不到cc+示例。()Gly90,链条A类,PDB条目3小时7(成等。, 2012【Cheng,W.-C.,Chen,Y.-F.,Wang,H.-J.,Hsu,K.-C.,Lin,S.-C.,Chen,T.-J.,Yang,J.-M.和Wang,W.-C.(2012)。公共科学图书馆综合版,7,e33481。】), 1.8奥分辨率。(b条)Glu175,链C类,PDB条目3千2克, 1.8奥分辨率。(c(c))Gln541,链条A类,PDB条目1周0分(穆斯塔法等。, 2004[穆斯塔法,I.,康纳瑞斯,H.,泰勒,M.,扎伊采夫,V.,威尔逊,J.C.,基菲尔,M.J.,冯·伊茨坦,M.&泰勒,G.(2004),《生物化学杂志》279,40819-40826。]), 1.9奥分辨率。(d日)Ala82,链条A类,PDB条目1v6i版(Kundhavai Natchiar)等。, 2004【Kundhavai Natchiar,S.,Arockia Jeyaprakash,A.,Ramya,T.N.C.,Thomas,C.J.,Suguna,K.,Surolia,A.&Vijayan,M.(2004),《结晶学报》,D60,211-219。】), 2.15奥分辨率。(e(电子))Pro55,链条B类,PDB条目1月1日(杉木等。, 2004[杉村,I.,佐佐木,C.,长谷川,T.,科诺,T), 2.2奥分辨率。这个PDB_REDO公司程序翻盖(乔斯顿等。, 2011【Joosten,R.P.,Joosten.,K.,Cohen,S.X.,Vriend,G.&Perrakis,A.(2011).生物信息学,27,3392-3398.】)执行tt+肽板翻转,这是C=O翻转和N-H翻转的组合。当X射线数据中的信号足够强时,仅重新定义就可能导致N-H翻转(tc−和ct−翻转)。因此,tt+翻转和后续操作的净结果精细化可能会变成tc+翻转。因此,PDB_REDO公司能够纠正许多(但肯定不是全部)肽类需要反式顺式轻弹。第2个毫发o个DF公司c(c)(灰色网格)和毫发o个DF公司c(c)贴图(+,绿色网格;−,红色网格)的等高线为1.5σ和±3σ分别以0.2的网格大小渲染和为了可视化的目的,使用了。这些数字是用中央处理器4毫克(麦克尼古拉斯等。, 2011[McNicholas,S.,Potterton,E.,Wilson,K.S.&Noble,M.E.M.(2011),《结晶学报》D67,386-394.]).

Frömmel&Preissner(1990【Frömmel,C.&Preissner,R.(1990年)。FEBS Lett.277,159-163。】)是第一个预测顺式 X(X)-专业肽类基于氨基酸序列。随后,将预测算法扩展到考虑X(X)-Xnp公司肽类(帕尔克等。, 2005【Pahlke,D.、Leitner,D.、Wiedemann,U.和Labudde,D.(2005)。生物信息学,21,685-686。】; Exarchos公司等。, 2009【Exarchos,K.P.,Papaloukas,C.,Exarcos,T.P.,Troganis,A.N.&Fotiadis,D.I.(2009),J.Biomed.Inform.42,140-149.】). 机器学习方法已被应用,包括多序列比对、预测二级结构和预测溶剂可及性(Wang等。, 2004[王,M.-L.,李,W.-J.,王,M.L.&徐,W.B.(2004),《佩普研究杂志》第63期,第23-28页。]; 歌曲等。, 2006[Song,J.,Burrage,K.,Yuan,Z.&Huber,T.(2006)。BMC生物信息学,7,124。]; Exarchos公司等。, 2009【Exarchos,K.P.,Papaloukas,C.,Exarcos,T.P.,Troganis,A.N.&Fotiadis,D.I.(2009),J.Biomed.Inform.42,140-149.】). 这些基于序列的算法正确地预测了约四分之三受试者的构象肽。无法对这些算法进行详细比较,因为目前唯一可用的软件是Song的软件等。(2006[Song,J.,Burrage,K.,Yuan,Z.&Huber,T.(2006)。BMC生物信息学,7,124。]). 基于序列的算法可能已经过时,因为晶体学家的日常实践需要更高的预测精度。

Jabs和同事是第一个讨论可用于检测错误建模的几何方面的人X(X)-Xnp tc−翻转(Jabs等。, 1999【Jabs,A.、Weiss,M.S.和Hilgenfeld,R.(1999),《分子生物学杂志》286291-304。】). 他们的算法是第一种基于坐标的翻转预测方法,该方法考虑了错位肽键的局部扭曲几何环境。最初,该算法仅基于四个顺式 肽类在里面凝结因子XIII(Jabs等。, 1999[Jabs,A.,Weiss,M.S.和Hilgenfeld,R.(1999),分子生物学杂志,第286期,第291-304期。]). 此方法在中实现如果…怎么办但有很多误报,预测错误反式-至-顺式翻转。Weiss和Hilgenfeld(WH)后来使用一组错误分配的17个改进了他们的算法反式 肽类(Weiss和Hilgenfeld,1999年【Weiss,M.S.和Hilgenfeld,R.(1999)。生物聚合物,50536-544。】). 这种方法是为了进行比较,但发现它给出了许多错误的否定预测,它忽略了必要的tc−翻转(见表5)。WH方法设计用于X(X)-Xnp公司肽类只有。一种基于结构的预测算法反式-至-顺式向里翻转X(X)-专业肽类目前还不存在。Cis公司-至-反式翻转比反式-至-顺式翻转,主要是由于先验的假设肽类位于反式异构体。Cis公司-至-反式迄今为止,还没有任何已知算法预测到翻转。

随着引入PDB_REDO公司(Joosten&Vriend,2007)【Joosten,R.P.&Vriend,G.(2007),《科学》,317195-196。】; 尤斯登等。, 2009【Joosten,R.P.等人(2009),《应用结晶杂志》第42期,第376-384页。】)之后,有可能以自动化的方式重新解释实验X射线数据,当Joosten和同事开发出一种称为翻盖,根据与局部电子密度(Joosten等。, 2011【Joosten,R.P.,Joosten.,K.,Cohen,S.X.,Vriend,G.&Perrakis,A.(2011).生物信息学,27,3392-3398.】). 然而,应该指出的是蛋白胨不执行反式顺式翻转,有时在实际反式顺式需要翻转。

将所有晶体PDB结构与其对应的PDB_REDO结构进行比较,并在图1中观察到许多不同翻转类型的示例[链接]。有了大量的肽翻转,我们询问这些翻转是否可以用于获得Random Forest的大量训练集(RF;Breiman,2001)[Breiman,L.(2001),《机械学习》,第45、5-32页。])基于结构的肽-塑性反转预测的机器学习方法。该方法预测70461个肽板翻转和4617个反式顺式PDB中的翻转。

2.方法

2.1. 数据选择

从2014年10月20日发布的PDB和PDB_REDO中获得了成对的X射线结构,只有当它们符合表1中列出的选择标准时才使用[链接].

表1
PDB条目的选择标准

选择参数 标准
实验方法 X射线
分辨率 3.5奥或更好
PDB_REDO条目 必须存在
决策支持计划进入 必须是可确定的
BDB条目 必须存在
组成 至少一条含有≥25个氨基酸的链
翻转(tt+、tc−、tc+、cc+、ct−或ct+) 检测到至少一个如果…怎么办

从这些PDB文件中,如果四个残基符合表2中列出的选择标准,则选择它们的延伸[链接].

表2
四肽的选择标准

残留物选择参数 标准
在结构中的位置 不是C端或N端;不靠近断链
氨基酸型 必须是规范的
角度、二面体、不当二面体 必须是可确定的
原子 所有人必须在场;全部的B类因子>0Å2; 所有占用率=1.0
共价束缚原子 只有正则键,没有其他键,甚至没有二硫键
自身分子以外的任何东西 不在2.5以内中心肽平面中O原子的氧原子

数据集中的四肽被分为X(X)-X(X)-专业-X(X)X(X)-X(X)-格莱-X(X)X(X)-X(X)-Xnpg公司-X(X)(其中Xnpg是除Pro或Gly之外的任何残基),为了简单起见,称为X(X)-专业,X(X)-Gly和X(X)-Xnpg。

人工验证了大量四肽。这些四肽代表了正确和不正确的构象。173肽类在81个PDB_REDO文件中,由于目视检查表明PDB_REDO构象不合理,因此对其进行了重建和重新定义(例如,见图2和图4)。这导致了一组由1088个四肽组成的验证数据(见表3[链接])在438个PDB结构中,其中192个包含至少一个真正的翻转。更多肽类进行了检查,但由于电子密度的质量不够好,没有包括在内。验证数据是在本研究过程中收集的。许多四肽预计难以用自动化方法正确预测。这些困难的病例被故意添加到验证集,不仅包括错误的四肽,还包括正确的四肽。大约有400个案例被这里开发的早期分类算法或第一个Jabs、Weiss和Hilgenfeld算法错误分类。

表3
肽转化数据

对于每个肽类,给出了三行。第一行显示了16年中PDB_REDO和PDB之间肽信息差异的计数统计688个结构对,至少共享一个反式顺式差异或肽-肽翻转。翻转类型如图1所示[链接]。第二行显示了用于训练Random Forest分类器的这些案例的子集。需要通过tt−案例来教授正确的方法(反式)肽平面看起来像。第三行显示了用于测试该方法的独立案例。438个结构的测试集中的1088个案例已经过手动验证,并在必要时进行了纠正和重新定义。测试用例来自PDB_REDO–PDB比较(测试用例不包括在第一行中),或在本研究过程中检测到的其他测试用例。粗体条目表示WHAT_检查现在可以验证属于此类别的案例;对于其他类别,没有足够的数据可用于适当的训练和测试。tc−案例X(X)-Pro通过一个非常简单的手动设计的决策树进行求解,如文中所述。

肽类   tt− tt公司+ tc− 总胆固醇+ 立方厘米− 抄送+ 电流互感器− 电流互感器+
X(X)-Xnpg公司 已找到 13875524 24742 176 0 8001 0 0 0
列车 4307 4131 176 0 0 0 0 0
测试 435 65 122 12 6 0 21
X(X)-专业 已找到 696375 0 日期 88 33236 0 0 0
列车 88 0 日期 88 0 0 0 0
测试 90 1 日期 69 74 0 13
X(X)-格莱 已找到 1141604 11869 0 0 2329 0 0 0
列车 1049 1049§ 0 0 0 0 0 0
测试 77 31 7 0 0 0 4 0
†培训和测试示例仅取自2.2求解的结构分辨率或更好。
在不同的PDB入口链中出现八次1千1天(Cheon等。2002年【Cheon,Y.-H.、Kim,H.-S.、Han,K.-H.和Abendroth,J.、Niefind,K.、Schomburg,D.、Wang,J.和Kim,Y.(2002)。生物化学,41,9410-9417。】).
§培训和测试示例仅取自以高于2.0的速度求解的结构奥分辨率。
¶PDB条目不同链中出现六次2参考5.

添加了一个特殊菜单如果…怎么办(弗里德,1990年[Vriend,G.(1990),《分子生物学杂志》,第8期,第52-56页。])其将PDB条目与其PDB_ REDO配对进行比较。此菜单中的选项允许检测坐标、角度、扭转角、,B类因素等。PDB和PDB_REDO对之间。这个如果…怎么办比较~71肽构象的程序000个PDB–PDB_REDO蛋白质结构对和指定翻转类型基于描述相应四肽中中心肽平面之间差异的三个变量:(C=O,C=O)角、(N-H,N-H)角和ω扭转角度差。训练示例取自3.5求解的结构Ω分辨率或更好,除了肽-塑性翻转的例子,因为当只有结构在2.2求解时,翻转分配和预测的验证更准确包括分辨率或更好的分辨率。总的来说,16例患者中至少观察到一个明显翻转的肽688个PDB_REDO条目。

使用手动重建结构库特(埃姆斯利等。, 2010【Emsley,P.、Lohkamp,B.、Scott,W.G.和Cowtan,K.(2010),《水晶学报》D66、486-501。】)并用重新定义REFMAC公司(穆尔舒多夫等。, 2011【Murshudov,G.N.,Skubák,P.,Lebedev,A.A.,Pannu,N.S.,Steiner,R.A.,Nicholls,R.A..,Winn,M.D.,Long,F.&Vagin,A.A..(2011),《晶体学报》,D67,355-367。】). 这个精细化策略和参数是从PDB_REDO公司协议(Joosten等。, 2012【Joosten,R.P.,Jooston,K.,Murshudov,G.N.&Perrakis,A.(2012),《水晶学报》D68,484-496。】). 这个中央处理器4(优胜者等。, 2011[Winn,M.D.等人(2011),《晶体学报》,第67卷,第235-242页。])程序EDSTATS公司(Tickle,2012年【Tickle,I.J.(2012),《水晶学报》,D68,454-467。】)用于计算实际空间相关系数。

2.2. 预测

对于每个四肽,使用如果…怎么办,包括Cα-C类α距离,Cβ-C类β距离、O-O距离、主干扭转角、主干键长度、主干键角Cβ原子、手性体积、C-O-C-O角、O−1bump评分和与an的羰基比对α-序列中靠近螺旋的三态二级结构决策支持计划(卡布施和桑德,1983年【Kabsch,W.和Sander,C.(1983)。生物聚合物,222577-2637。】; 图乌等。, 2015[Touw,W.G.,Baakman,C.,Black,J.,te Beek,T.A.H.,Krieger,E.,Joosten,R.P.&Vriend,G.(2015)。核酸研究43,D364-D368.])和B类BDB条目中的因子(Touw&Vriend,2014【Touw,W.G.和Vriend,G.(2014),《蛋白质工程设计》,第27期,第457-462页。】),始终具有完全各向同性B类因子,与PDB条目不同,PDB条目可以有残差B类TLS的因素(Schomaker&Trueblood,1968[Schomaker,V.&Trueblood,K.N.(1968),《水晶学报》,B24,63-76。])精细化。WH方法在如果…怎么办如Weiss&Hilgenfeld(1999)所述【Weiss,M.S.和Hilgenfeld,R.(1999)。生物聚合物,50536-544。】). WH“罚款-功能评分”(D类总数)也是它的特点之一。Random Forest(布雷曼,2001)[Breiman,L.(2001),《机械学习》,第45、5-32页。])分类器是使用R(右)(R核心团队,2015年[R核心团队(2014)。R:统计计算的语言和环境。R统计计算基金会,奥地利维也纳。网址:https://www.r-project.org/。])包装随机森林(Liaw&Wiener,2002)【Liaw,A.&Wiener,M.(2002),《R新闻》,第2期,第18-22页。】)并使用重复的五倍交叉验证进行调整。分类器对象被自动转换为Fortran代码以包含在如果…怎么办WHAT_检查(发动机罩等。1996年[Hooft,R.W.W.,Vriend,G.,Sander,C.&Abola,E.(1996),《自然》(伦敦),381,272.]).

3.结果

3.1. 肽平面反转示例

通过比较PDB结构与其对应的PDB_REDO结构,观察到数千个肽-塑性反转(表3[链接]).

对许多肽板反转的目视检查表明,大约90%的翻转是由PDB_REDO公司都是正确的。有时PDB_REDO公司肽构象次优。例如,在某些tc−情况下ωPDB_REDO公司输出模型(图2[链接]). 这些构象本质上介于错误构象和正确构象之间,是反式-肽限制超过晶体数据精细化。这些问题可以通过其他方式解决精细化具有顺式-肽限制。

[图2]
图2
逐步改进反式顺式()Arg71和Phe72之间的肽键(ω=132°)在PDB条目中2亿立方米(Huber&Scheidig,2005年【Huber,S.K.和Scheidig,A.J.(2005)。联邦公报第579号,第2821-2829页。】)需要一个tc−flip。(b条)该肽在PDB_REDO中只被翻转了一半(ω= 81°). (c(c))完全翻转和精炼顺式肽(ω= 9°). C以外的侧链已被省略β为了清晰起见。地图如图1所示[链接].

3.2. 肽翻转预测

Weiss和Hilgenfeld(1999)的研究【Weiss,M.S.和Hilgenfeld,R.(1999)。生物聚合物,50536-544。】)我们自己对数百个需要翻转才能更好地符合X射线数据的肽平面进行的目视检查表明,当肽平面构造错误时,许多几何变量往往会偏离其共同值。例如,角度Cα−1-C类−1-N个通常小于正常值X(X)-Xnpg tc−肽,B类如果肽平面需要tt+翻转,则平面中O原子的因子往往较高。因此,收集了所有可能表征错误建模肽平面局部畸变的特征。这些特征不限于几何变量和B类因素,但也包括二级结构和肽平面中O原子的环境描述。可以添加其他变量,如氢键结合状态和侧链的旋转度,但它们需要大量计算,并且由于我们尚未完全理解的原因,对该方法的预测精度影响不大。项目网站上提供了全面的变量列表。对于每种翻转类型,训练分类器以确定可分离的变量组合肽类需要从正确的角度进行翻转肽。将翻转类型特定分类器组合为每个残类一个分类器(X(X)-Xnpg、,X(X)-Pro和X(X)-格雷)。所有分类器均使用独立测试集进行验证。表3[链接]显示了肽类在训练测试集中。分类器顺式-至-反式flips和其他小类别没有被构建,因为适合太少训练例子的分类器将不普遍适用。有足够数据的四种情况下分类器的设计、实现和使用的详细信息,以及X(X)-Pro-tc−见项目网站。

表4[链接]列出了四个残留物和翻转类型特定RF分类器的结果。组合分类器预测X(X)-Xnpg翻转类型(tt−、tt+、tc−、tc+)的精确度为93%。这包括在PDB中发现的所有12例tc+病例,而这些病例不在训练集中。没有这些,准确度为95%X(X)-Xnpg tc+病例。X(X)-测试集中的Pro tt−、tt+、tc−和tc+翻转可以以93%的总准确度进行分类。

表4
测试集性能

测试集上显示了四个RF分类器的性能。括号中显示了WH方法在原始阈值和本研究中确定的阈值下的性能。请注意,分类精度对类别不平衡敏感,而接收器工作特性曲线(AUC)和Matthews相关系数(MCC;Matthews,1975)下的面积[Matthews,B.W.(1975),《生物化学与生物物理学学报》,第405、442-451页。])不是。其他几个性能指标的值和组合预测的混淆表可以在项目的网站上找到。

  X(X)-Xnpg公司 X(X)-专业 X(X)-格莱
  tt公司+ tc− 总胆固醇+ tt公司+
AUC公司 0.99 0.98 (0.97/0.97) 0.94 0.98
电动机控制中心 0.91 0.89 (0.31/0.82) 0.85 0.93
准确性 0.98 0.96 (0.80/0.94) 0.92 0.97
3.2.1.X(X)-Xnpg tc−

表5[链接]显示了预测结果的真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)X(X)-Xnpg tc−和tt−测试肽。还显示了WH方法所得结果的混淆表。Weiss和Hilgenfeld(1999年【Weiss,M.S.和Hilgenfeld,R.(1999)。生物聚合物,50536-544。】)提到他们的截止值无法验证,因为数据集中大多数结构的实验数据都不可用。WH的最佳截止值D类总数可以使用539例通过电子密度手动验证的病例来确定评分。使用新阈值后,TP和FN比率与原始WH阈值相比提高了75%以上(表5[链接]). 基于射频的方法通过降低FP速率进一步提高了这一性能,代价是FN速率略有增加。请注意,低FP率对于蛋白质结构验证目的比预测辅助重建和重新定义更重要。

表5
X(X)-Xnpg测试集预测

行给出真实类,列给出预测类。RF,本研究中开发的方法(MCC=0.89)。WH,Weiss&Hilgenfeld(1999)开发的方法【Weiss,M.S.和Hilgenfeld,R.(1999)。生物聚合物,50536-544。】)带有D类总数得分阈值为143.10(MCC=0.31)。WH′,WH,重新确定D类总数切断82.256(MCC=0.82)。

  射频 白色 WH′(白色)
  tc− tt− tc− tt负极 tc− tt−
温度- 107 14 15 106 110 11
tt− 6 412 0 418 24 394

对于分离最重要的变量X(X)-WH算法中还使用了来自tt−的Xnpg tc−:φ,主干角O−1-C类−1-N个,Cα−1-C类−1-N个−1,Cα−1-C类−1-O(运行)−1和C−1-N个-C类α和Cα−1-Cα距离。此外,Cα-C类-N个角度,Cα手性体积和Cβ−1-C类β发现距离对RF方法很重要。其他WH键的长度和角度不太重要。变量及其重要性的完整列表可以在相关网站上找到。一般来说,从四肽内两个残基中提取的变量对所有翻转类型的预测准确性贡献最大,这一点并不意外。

应用X(X)-Xnpg tc−方法X(X)-Gly病例没有发现任何新的X(X)-Gly tc−翻转。这一结果表明,该方法可能无法检测到X(X)-Gly-tc−翻转;毕竟,它只是在X(X)-Xnpg四肽。另一种解释是X(X)-Gly-tc−翻转非常罕见。这一解释得到了以下观察结果的支持:顺式肽模型反式构象更容易纠正为顺式精细化当残基类型为Gly而不是任何其他类型时。

3.2.2.X(X)-专业技术委员会+

X(X)-测试集中的Pro-tc+病例可以在没有任何FP的情况下进行分类。重要的变量是中心肽键的羰基与之前的羰基之间的角度,即C−1-N个-C类α和N−1-C类α−1-C类−1角,ψ−1、Cα−1-C类α距离和O−1通气得分。Engh&Huber(2001)[Engh,R.A.&Huber,R.(2001),《国际结晶学表》,第F卷,M.G.Rossmann&E.Arnold编辑,第382-392页。多德雷赫特:Kluwer学术出版社。])观察到双峰分布第页,共页−1-N个-C类α在高分辨率肽片段中顺式反式形式。中位数C−1-N个-C类α测试集中tc+病例的角度(116.0°)小于PDB中tt−病例的中值(121.0°)和Engh&Huber(2001)[Engh,R.A.&Huber,R.(2001),《国际结晶学表》,第F卷,M.G.Rossmann&E.Arnold编辑,第382-392页。多德雷赫特:Kluwer学术出版社。])已为报告反式脯氨酸(119.3±1.5°),但在重新细化后,中位数(129°)略高于Engh和Huber报告的值顺式脯氨酸(127.0±2.4°)。如图3所示[链接]网站上的数字显示了测试集中四肽校正和重新精制前后所有变量的变化。

[图3]
图3
C类−1-N个-C类α校正前后的角度X(X)-Pro-tc+案例。曲线显示了C的高斯核密度估计−1-N个-C类α25的主干角X(X)-测试集中的Pro tc+案例在校正和重新定义之前(实线)和之后(虚线)。垂直线显示以下值反式-Pro(119.3±1.5°)和顺式-Engh&Huber(2001)报道的Pro(127.0±2.4°)[Engh,R.A.&Huber,R.(2001),《国际结晶学表》,第F卷,M.G.Rossmann&E.Arnold编辑,第382-392页。多德雷赫特:Kluwer学术出版社。]).
3.2.3.X(X)-Xnpg测试+

480X(X)-测试集中的Xnpg-tt+病例可分为7个FP和3个FN。一个FN和一个FP位于反式顺式轻弹。第八个X(X)-测试集中的Xnpg案例PDB_REDO公司RF方法正确预测了翻转失败。预测最重要的变量X(X)-Xnpg tt+案例是B类中心肽平面中O和C原子的因子,φψ、二级结构和Cβ−1-C类β距离。

3.2.4.X(X)-Gly tt公司+

这个B类中心O原子的因子对于X(X)-Gly分类和C分类−1 B类系数,C−1-N个-C类α和N−1-C类α−1-C类−1角与残渣的二级结构− 1. Gunasekaran公司等。(1998【Gunasekaran,K.,Gomathi,L.,Ramakrishnan,C.,Chandrasekhar,J.&Balaram,P.(1998),《分子生物学杂志》2841505-1516。】)研究过的体内I型和II型之间的转换β-I′型和II′型之间的匝数β-转弯。他们报告了B类-可翻转中中心O原子的因子分布β-转弯(Gunasekaran等。, 1998【Gunasekaran,K.,Gomathi,L.,Ramakrishnan,C.,Chandrasekhar,J.&Balaram,P.(1998),《分子生物学杂志》2841505-1516。】). 获得了最佳分类结果X(X)-当tt+分类器使用以高于2的分辨率求解的结构数据进行训练时,为Gly(两个FP和一个FN)奥,可能是因为低分辨率结构中的主干通常不太清晰,导致更高的分辨率B类由低分辨率而不是需要翻转的肽引起的因素。Gly的固有流动性也可以解释许多表面定位X(X)-由于电子密度太低,发现Gly不能很好地解释。

3.2.5.X(X)-Pro tc−预测值

全部40人X(X)-根据PDB–PDB_REDO比较得出的测试集中的Pro tc−呈阳性φ,而φ对于tt−和tc+情况,始终在−60°左右。值得注意的是,在沉积结构因子为904的整个晶体结构中X(X)-发现阳性病例φ其中86个位于分辨率在1.2到2.0之间的结构中Å. 这904例都是X(X)-Pro tc−翻转(图4[链接])或反式 X(X)-Pro使用其他不正确的氮气手性(“NCh”)。

[图4]
图4
X(X)-以正面为特征的正面问题φ角。()X(X)-Pro tc−flip;Ser339-Pro340,链条A类,PDB条目第1页6(赵等。, 2005[Zhao,B.等人(2005).生物化学杂志280,11599-11607.]), 1.75奥分辨率。(b条)Pro-Gly tt+翻转;Val53-Pro54-Gly55,链条A类,PDB条目1小时(编织者等。, 2001【Weaver,L.H.,Kwon,K.,Beckett,D.&Matthews,B.W.(2001)。美国国家科学院院刊,98,6045-6050。】), 2.40奥分辨率。(c(c))X(X)-Pro tt+翻转;Leu203-Pro204,链B类,PDB条目1cdd(十进制数字)(阿尔马西等。, 1992【Almassy,R.J.,Janson,C.A.,Kan,C.C.&Hostomska,Z(1992)。美国国家科学院院刊,89,6114-6118。】), 2.80奥分辨率。使用PDB结构计算电子密度图,如图1所示[链接]PDB结构显示为粉红色,PDB_REDO结构显示为绿色;手动修正和重新定义的结构以橙色显示。

“NCh”类包括四肽,其中+我需要一个tc+翻转(例如PDB条目中的His173-Leu174-Pro175-Pro1761个插头1比特2; 克拉班德等。, 1998【Klabunde,T.、Eicken,C.、Sacchettini,J.C.和Krebs,B.(1998)。《自然结构分子生物学》第5期,第1084-1090页。】)或tt+翻转[例如Thr52-Val53-Pro54-Gly55(见图4[链接]b条)链中A类PDB条目的1小时(织布工等。, 2001【Weaver,L.H.,Kwon,K.,Beckett,D.&Matthews,B.W.(2001)。美国国家科学院院刊,98,6045-6050。】)链中的Gly152-Ala153-Pro154-Gly155B类PDB条目的4个le4(T.Jiang、H.-C.Chan、C.-H.Huang、T.-P.Ko、T.-Y.Huang.、J.-R.Liu和R.-T.Guo,未发表作品)]。令人惊讶的是,其中一个例子甚至是X(X)-Pro tt+翻盖(链中的Pro204B类PDB条目的1cdd(十进制数字); 阿尔马西等。, 1992【Almassy,R.J.,Janson,C.A.,Kan,C.C.&Hostomska,Z(1992)。美国国家科学院院刊,89,6114-6118。】; 图4[链接]c(c)). 阳性的“起皱”tc−脯氨酸φ经常有一个几乎笔直的C−1-N个-C类α角度(图4[链接]),这可能是非常紧张的结果ω约束,使人联想到反式-至-顺式精细化红细胞红蛋白(Stenkamp,2005[Stenkamp,R.E.(2005),《结晶学报》,D611599-1602。]). 在904例病例中,59例tc−翻转,22例NChX(X)-对Pro病例进行了目视检查。如果角度τ(N-Cα-C类)大于112.5°,且肽平面中O原子的凹凸分数大于0.26如果…怎么办碰撞分数单位,然后X(X)-专业,积极φ不是tc−肽而是“NCh”X(X)-专业。此规则预测404X(X)-Pro tc−翻转和500“NCh”X(X)-专业。

3.3.Cis公司反式翻转

44清除顺式-至-反式本研究中发现了翻转现象。对于反式 X(X)-Xnpg四肽建模为顺式四肽中间Cα−1-C类α距离(3.34?)往往大于中值Cα−1-C类α正确的距离顺式 X(X)-Xnpg四肽(2.95Å). 类似地,中位数C−1-N个-C类α角度(131°)往往大于正常角度(125°)。中位数Cα−1-C类α距离(3.55?)和C−1-N个-C类αct−和ct的角度(159°)+X(X)-前四肽也往往比正常的大(2.95分别为?和127°)。

3.4. 分子替换

分子替换(MR)使用反式肽是无法模拟a的一个常见原因顺式肽正确。本节介绍了这个问题的几个例子。

大肠杆菌家族31α-糖苷酶Yicl、Cys316和Val477采用顺式两种自由形式的构象(PDB条目1xsi(1xsi)1xsj(1xsj); 爱情等。, 2005【Lovering,A.L.,Lee,S.-S.,Kim,Y.W.,Withers,S.G.&Strynadka,N.C.J.(2005),《生物化学杂志》280,2105-2115。】)当与糖加合物eq-5-氟氧基氯(PDB入口)结合时1xsk个; 爱情等。, 2005【Lovering,A.L.,Lee,S.-S.,Kim,Y.W.,Withers,S.G.&Strynadka,N.C.J.(2005),《生物化学杂志》280,2105-2115。】). 作者将这两种残留物列为α-糖苷酶,并提到顺式-Cys316使Trp315的侧链定向,将Cys307导向糖类结合位点(Lovering等。, 2005【Lovering,A.L.,Lee,S.-S.,Kim,Y.W.,Withers,S.G.&Strynadka,N.C.J.(2005),《生物化学杂志》280,2105-2115。】). 值得注意的是,PDB条目1xsi(1xsi)是PDB条目的MR搜索模型1xsj(1xsj)1xsk个,但在此过程中,链中的一个Cys316A类那是正确的顺式构象变成反式在后两个结构中。Val477不正确反式所有六条链的构象由非晶体对称性(NCS)在三个PDB结构中的每个结构中。

PDB条目的PDB_REDO结构1美元(P.Isorna、J.Polaina和J.Sanz-Aparicio,未发表的工作)清楚地表明,应对Ser399进行tc−翻转。预测的结果都是一样的β-葡萄糖苷酶在PDB文件中作为相关结构列出的分子[PDB条目1亿加元1千克(Sanz Aparicio、Hermoso、Martínez Ripoll、Lequerica等。, 1998【Sanz-Aparicio,J.、Hermoso,J.A.、Martínez-Ripoll,M.、Lequerica,J.L.和Polina,J.(1998),《分子生物学杂志》275、491-502。】)和1吨11电子4接口(桑斯·阿帕里西奥、赫尔莫索、马丁内斯·里波尔、冈萨雷斯等。, 1998【Sanz-Aparicio,J.、Hermoso,J.A.、Martínez-Ripoll,M.、González,B.、López-Camacho,C.和Polaina,J.(1998)。蛋白质,33,567-576。】)]. 然而,这些结构的结构系数均不可用。虽然没有论文支持它,但似乎很有可能其中一个相关结构被用作求解该结构的搜索模型1美元和Ser399应该是顺式在所有相关结构中。

尽管更可能是顺式肽会意外地被精炼为反式肽,顺式-至-反式在四条不同的PDB进入链中观察到翻转1v6i版(Kundhavai Natchiar)等。, 2004【Kundhavai Natchiar,S.,Arockia Jeyaprakash,A.,Ramya,T.N.C.,Thomas,C.J.,Suguna,K.,Surolia,A.&Vijayan,M.(2004),《结晶学报》,D60,211-219。】)残基Lys77-Asp78和仅在链中的一个额外ct−翻转A类位于Pro81-Ala82。结构在2.15求解使用带有PDB条目的MR解析2佩尔(班纳吉等。1996年【Banerjee,R.、Das,K.、Ravishankar,R.,Suguna,K.,Surolia,A.和Vijayan,M.(1996),《分子生物学杂志》259281-296。】)作为起始结构。然而,PDB条目中的相应残留物2佩尔都有正确的反式构象。因此,我们不清楚顺式 肽类已被引入1v6i版模型。

3.5. 结晶改善

分析了几种典型的修正和重新定义的PDB结构模型的实空间和倒数空间相关性,以研究翻转修正和重新细化对晶体质量度量的影响。例如,PDB入口在与电子密度的拟合方面显示翻转后的局部改善2z81型(金等。, 2007【Jin,M.S.,Kim,S.E.,Heo,J.Y.,Lee,M.E.,Kim)如图5所示[链接]其他重新定义示例的类似数字可以在网站上找到。

[图5]
图5
PDB入口实空间相关系数(RSCC)的改进2z81型(金等。, 2007【Jin,M.S.,Kim,S.E.,Heo,J.Y.,Lee,M.E.,Kim; 1.80在重建和重新定义不正确的肽键之后。面板显示,在20个周围残基的区域中,六个肽键的平均骨架原子增加RSCC公司(包括Cβ)当肽类与仅对结构进行重新定义相比,对结构进行了重新定义。中央肽键后的残余物显示在顶栏中。Pro540通过tc+翻转和所有其他方法进行校正肽类通过tt+翻转。仅重新定义就已导致Arg541构象的校正。可在相关网站上找到显示肽键局部骨架的重新定义细节和数字。

以下方面的改进R(右)工作/R(右)自由的翻页和重新定义的结果仅为重新定义的0.14/0.41%。工作/自由倒数空间相关性改善为0.08/0.22%。最大的改进是R(右)工作/R(右)自由的PDB条目的工作/自由交互空间相关性(0.18/0.28%)为0.23/0.43%1小时8(屠夫等。, 2001【Butcher,S.J.、Grimes,J.M.、Makeyev,E.V.、Bamford,D.H.和Stuart,D.I.(2001)。《自然》(伦敦),410,235-240。】)其中需要16次翻转。尽管全球精细化指标只有微小的改进,局部指标在翻转时显示出明显的改进,更重要的是,有时翻转改变了我们对蛋白质结构和功能之间关系的理解。

3.6. 新检测到的翻转的生物学意义

3.6.1. 拉布4a

预测人类Rab4a(PDB进入)GDP结合状态下Phe72的tc−flip2亿立方米). 该残留物在相关论文中称为Phe70(Huber&Scheidig,2005)【Huber,S.K.和Scheidig,A.J.(2005)。联邦公报第579号,第2821-2829页。】). Phe72位于α-小GTPase的开关2区域中的螺旋H2(图6[链接]). 图2[链接]校正和重新定义前后GDP-bound Rab4a中显示Phe72。

[图6]
图6
拉布4a。()活动状态(PDB条目2倍; Huber&Scheidig,2005年【Huber,S.K.和Scheidig,A.J.(2005)。联邦公报第579号,第2821-2829页。】)带有反式-Phe72(插图)。灰色球体是镁。(b条)非活动状态(PDB条目2亿立方米; Huber&Scheidig,2005年【Huber,S.K.和Scheidig,A.J.(2005)。联邦公报第579号,第2821-2829页。】)经过纠正和重新定义顺式-橙色Phe72(插图)。不正确的反式-Phe72主干显示为粉红色。

在GppNHp-bound Rab4a(PDB条目2倍; Huber&Scheidig,2005年【Huber,S.K.和Scheidig,A.J.(2005)。联邦公报第579号,第2821-2829页。】)Phe72具有反式构象(图6[链接]). GTP水解后γ-磷酸盐和Gly68丢失,在开关2区域发生构象重排(Huber&Scheidig,2005【Huber,S.K.和Scheidig,A.J.(2005)。联邦公报第579号,第2821-2829页。】). 我们不能排除顺式-结晶过程中选择了形式,但我们的发现也表明Arg71-Phe72反式顺式异构化可能是这种重排的一部分(图2[链接]和6[链接]b条)这表明重新安排的过程可能比之前想象的更加复杂。Phe72在HSSP路线中保存了97%(Touw等。, 2015[Touw,W.G.,Baakman,C.,Black,J.,te Beek,T.A.H.,Krieger,E.,Joosten,R.P.&Vriend,G.(2015)。核酸研究43,D364-D368.])是同源效应结合的一部分表位Rab5a(Huber&Scheidig,2005)【Huber,S.K.和Scheidig,A.J.(2005)。联邦公报第579号,第2821-2829页。】)这表明在区分不同的效应蛋白方面发挥了作用。

3.6.2. 肌苷5′-单磷酸脱氢酶

预测Asn291的tc−翻转(图7[链接])在所有四份副本中胎儿三滴虫肌苷5′-单磷酸脱氢酶(IMPDH;PDB入口1升; 等。2002年[Gan,L.、Petsko,G.A.和Hedstrom,L.(2002).生物化学,41,13309-13317.]). 未为PDB条目保存结构因子1升然而,我们认为Asn291采用了顺式构象,因为MR搜索模型中对应的肽平面(PDB条目1千5; 惠特比等。, 1997【Whitby,F.G.,Luecke,H.,Kuhn,P.,Somoza,J.R.,Huete-Perez,J.A.,Phillips,J.D.,Hill,C.P.,Fletterick,R.J.&Wang,C.C.(1997).生物化学,36,10666-10674.】)也应该是顺式此外,人类II型IMPDH(PDB条目)中的同源Asn1亿3千万; 科尔比等。, 1999[科尔比·T·D、范德芬·K、斯特里克勒·M·D、马克姆·G·D和戈尔茨坦·B·M(1999)。美国国家科学院学报,96,3531-3536。])应该是顺式以及(图7[链接]b条).

[图7]
图7
肌苷5′-单磷酸(IMP)脱氢酶(IMPDH)活性部位的一部分。()胎儿TIMPDH(PDB条目1升; 等。2002年[Gan,L.、Petsko,G.A.和Hedstrom,L.(2002).生物化学,41,13309-13317.]). (b条)人类IMPDH(PDB条目1亿3千万; 科尔比等。, 1999[科尔比·T·D、范德芬·K、斯特里克勒·M·D、马克姆·G·D和戈尔茨坦·B·M(1999)。美国国家科学院学报,96,3531-3536。]). 正确的顺式-PDB_REDO的Asn303显示为绿色。全国广告部+模拟是β-?亚甲基噻唑-4-甲酰胺腺嘌呤二核苷酸(β-PDB条目中的Me-TAD)1升PDB条目中的硒并唑-4-甲酰胺腺嘌呤二核苷酸(SAD)1亿3千万IMP类似物6-氯尿核苷5′-单磷酸(6-Cl-IMP)在PDB进入时与Cys331共价结合1亿3千万.导线追踪Cα原子。为了清楚起见,省略了水分子。

Asn91是β-Me-TAD结合位点。Asn291侧链氢键在所谓的活性中心环中与保守的Gly312羰基结合,其位置小于4Å远离的羧酰胺β-Me-TAD(图7[链接]). 作者写道,活性中心环和这种酰胺之间的相互作用是“三元络合物的最显著特征”(Gan等。2002年[Gan,L.、Petsko,G.A.和Hedstrom,L.(2002).生物化学,41,13309-13317.]). 他们还写道,PDB条目中的同源Asn1亿3千万直接氢键到甲酰胺(图7[链接]b条). 作者广泛提及Asn291在两种配体结合差异中的重要性。然而,他们没有注意到PDB条目之间的肽-肽翻转1亿3千万1升在这两个结构中,Asn291最有可能是顺式肽,一种在活性位点中肯定具有重要意义的生物特征。

4.讨论

目前的研究表明,非常需要能够指出可能需要翻转的肽键并需要晶体学家注意的算法。这种算法的有用性不仅限于较低的分辨率,因为原子分辨率有时也需要翻转(图8[链接]).

[图8]
图8
X(X)-Pro-C=O在原子分辨率下翻转。中心肽Val129-Pro130如所示()1.2解析PDB条目4g季度(威廉姆斯等。, 2012【Williams,L.K.,Li,C.,Withers,S.G.&Brayer,G.D.(2012),《医学化学杂志》第55期,第10177-10186页。】)和(b条)相应的PDB_REDO结构。注意,在PDB_REDO构象中,不仅是局部主干,还包括Val(Cγ1指向读者)和Pro侧链更适合密度。颜色和地图如图1所示[链接].

验证集并非没有选择偏差。验证集中的残留物成分既没有与PDB范围内的平均值匹配,也没有与训练集平均值匹配。如前所述,验证集包含相对困难的情况。因此,该方法的“真实”性能可能比表4中报告的性能更好[链接].

这个PDB_REDO公司重建阶段明确检查肽平面的真实空间相关性在肽-肽翻转之前或之后是否更好(Joosten等。, 2011【Joosten,R.P.,Joosten.,K.,Cohen,S.X.,Vriend,G.&Perrakis,A.(2011).生物信息学,27,3392-3398.】). 在实际需要tc+翻转的情况下,tt+翻转通常仍然比完全不翻转更适合密度(见图1[链接]). 进一步精细化通常会导致额外的N-H翻转。这解释了为什么PDB_REDO公司解决了许多问题反式顺式仅使用肽-板翻转搜索算法的翻转问题。RF方法使用肽类被翻过来的PDB_REDO公司因此从未见过PDB_REDO公司无法更正。因此,人们可能会认为分类器可能偏向于训练集,并且可能学会了只识别可通过以下方法纠正的错误肽构象PDB_REDO公司独立测试集包含69个手动验证X(X)-需要在PDB结构和PDB_REDO结构中进行tc−翻转的Xnpg案例。其中63例被正确分类,这表明该方法具有足够的泛化能力,可以增加PDB_REDO公司过程。随着新的晶体结构不断被解决和重新定义PDB_REDO公司,该方法也可以很容易地迭代改进。

第12页,共14页X(X)-Xnpg tc−FN对应于在NCS相关链或MR搜索模型中观察到或预测到翻转的情况[链中的Asn267A类链中的Glu435D类PDB条目的1英尺宽x(棕色等。, 2000【Brown,K.,Djinovic-Carugo,K.、Haltia,T.、Cabrito,I.、Saraste,M.、Moura,J.J.G.、Moura,I.,Tegoni,M.和Cambillau,C.(2000),《生物化学杂志》275、41133-41136。】),PDB条目中的Ser4121个7赫兹85年第1季度(埃文斯等。, 2004【Evans,J.C.,Huddler,D.P.,Hilgers,M.T.,Romanchuk,G.,Matthews,R.G.&Ludwig,M.L.(2004)。美国国家科学院学报,101,3729-3736。】),PDB条目中的Ala4581周9b1周9天(布尔德里欧等。, 2005[Bourderioux,A.、Lefoix,M.、Gueyrard,D.、Tatibouöt,A.、Cottaz,S.、Arzt,S.,Burmeister,W.P.和Rollin,P.(2005),《生物化学组织》31872-1879。])和PDB条目中的Asp2733fx6个(王)等。, 2009[王S.-F.、田G.R.、张W.-Z.和金J.-Y.(2009).生物有机医药化学快报.195009-5011.])和3英尺/小时(王)等。, 2010【王世芳、金建业、曾振华、田国荣(2010),《中国化学通讯》第21期,第159-162页。】)]. 因此,这些新生力量实际上并不是一个大问题。例如,如果WHAT_检查表明链中相同NCS相关残基发生翻转B类C类D类,晶体学家当然也会检查链中的残留物A类(例如PDB条目中的Asn2671倍). 相反,当检查同源链时,预测的翻转可能会变成FP。精氨酸酶1(PDB条目)中的FP-Glu2773升4; 迪·科斯坦佐等。, 2010【Di Costanzo,L.,Ilies,M.,Thorn,K.J.&Christianson,D.W.(2010),《生物化学与生物物理学》第496卷第101-108页。】)例如,预测为链中的tc−A类但不在链中B类12-氧代二甲酸还原酶3(PDB条目)Y364F突变体中的FP His1882小时8; 布雷索普等。, 2006【Breithaupt,C.、Kurzbauer,R.、Lilie,H.、Schaller,A.、Strassner,J.、Huber,R.,Macheroux,P.和Clausen,T.(2006)。美国国家科学院学报,103,14337-14342。】)在另一个突变体、野生型或MR搜索模型中,未预测为tc−flip。类似地,PDB入口抗体结构轻链中的Asn1372fbj公司是tt−在其他免疫球蛋白PDB进入半胱天冬酶8链中的轻链和Asp3833时11分(余等。, 2009【Yu,J.W.,Jeffrey,P.D.&Shi,Y.(2009),美国国家科学院院刊,106,8169-8174。】)在MR搜索模型中为tt−(PDB条目1i4 e; 等。, 2001[Xu,G.,Cirilli,M.,Huang,Y.,Rich,R.L.,Myszka,D.G.&Wu,H.(2001).自然(伦敦),410,494-497.]).WHAT_检查此外,还显示了比较NCS相关链之间的主干扭转角的图。仅在两条链中的一条上发生肽翻转,便会导致图中出现大量峰值。

如前所述,反式 肽类被大力支持顺式 肽类默认情况下,建模软件会尝试构建反式 肽类首先。也有人可能会说,实验者更关注顺式 肽,如果这些被认可,那么反式 肽。这些参数的组合导致观察到错误建模的可能性很小顺式 肽。确实,只有极少数人清楚顺式-至-反式在本研究中观察到翻转。事实上,无需重建而自动重新定义的结果很少顺式-至-反式修正表明,晶体学数据很少表明对反式在这些情况下的构象。目视检查似乎也表明这是真的顺式 肽类通常发生在分辨率高的位置。克罗尔(2015)【Croll,T.I.(2015),《水晶学报》,第71期,第706-709页。】)最近报道了X(X)-Xnpg公司顺式 肽类在PDB中。他的研究表明,彻底的手动搜索可能会发现更多顺式-至-反式翻转。例如,PDB中的一些结构模型具有意外的大量顺式 肽类在密度低的地区。这些可能是不正确的,但不能用于训练或验证RF分类器。详细的手动搜索顺式-至-反式flips超出了这个项目的范围,但只是重建了所有顺式(cis­) 肽类在中PDB_REDO公司流水线在计算上是可行的。许多顺式-反式当所有PDB结构都使用新的PDB_REDO公司管道。

在一些班级中,观察到的翻转次数非常多,而一些翻转班几乎完全缺席。为了增加小班的观察次数,观察是通过自动执行不必要的翻转和随后的大量重新定义来制造的。模拟的肽类不幸的是,由于这个非常耗时的过程而导致的结果不能用于成功预测肽类属于PDB中观察到的同一类别。将对小班进行监控,在适当的时候,当有足够的例子可用时,将重复分析。

Croll(2015)最近提出的建议【Croll,T.I.(2015),《水晶学报》,第71期,第706-709页。】)将有助于晶体学家识别假晶体顺式 肽。这里介绍的方法可能有助于检测反式 肽类需要翻转。我们相信,如果使用这些结果,可以帮助日常晶体学实践。然而,解决不正确肽构象问题的真正方法是对缺乏经验的晶体学家进行培训和良好的监督。

5.可用性

肽验证方法已在WHAT_检查(https://swift.cmbi.ru.nl/gv/whatcheck网站/)并可作为web服务器使用(https://swift.cmbi.ru.nl/servers/html/flpchk.html)以及作为web服务(https://wiws.cmbi.ru.nl/wsdl/). 执行tc−和tc+类型翻转的功能将添加到PDB_REDO公司. The库特PDB_REDO条目的可视化脚本(Joosten等。, 2014[R核心团队(2014)。R:统计计算的语言和环境。R统计计算基金会,奥地利维也纳。网址:https://www.r-project.org/。])显示肽板翻转和反式顺式翻转自PDB_REDO公司版本5.43。

分类器训练的详细信息、产生的分类器、用于训练和验证的所有四肽数据、用于比较肽构象的详细信息和伪代码以及所有重新定义示例数据可从相关网站获取,网址为:https://swift.cmbi.ru.nl/gv/flips网址/.如果…怎么办,包括PDB–PDB_REDO比较菜单和肽验证方法,可从免费获得https://swift.cmbi.ru.nl/gv/filities网站/.

6.结论

适用于46418PDB中的233个肽平面,该方法预测1527个X(X)-Xnpg tc−翻转,53974X(X)-Xnpg tt+翻转,517X(X)-Pro tc−翻转,2573X(X)-Pro tc+翻转和16487X(X)-Gly tt+翻转。PDB_REDO公司已经纠正了约14%的肽-脯氨酸翻转和约8%的反式-至-顺式翻转。肽构象校正导致R(右)因素,但更重要的是,令人惊讶的是,往往能更好地洞察结构与功能的关系。

致谢

我们感谢RIKEN Structural Genomics/Proteomics Initiative存放PDB条目2参考5纽约结构基因组研究联合会(New York Structural Genomics Research Consortium),负责存放PDB条目3千2克和PDB条目的存款人第四位1美元2fbj公司GV感谢NewProt提供的财政支持,NewProt由欧洲委员会在其主题领域KBBE-2011-5下的FP7计划内资助,合同编号289350,研究计划11319由STW资助。RPJ由荷兰科学研究组织(NWO)的Vidi 723.013.003提供支持

工具书类

第一次引用Almassy,R.J.、Janson,C.A.、Kan,C.C.和Hostomska,Z(1992)。程序。美国国家科学院。科学。美国89, 6114–6118. 交叉参考 公共医学 中国科学院 科学网 谷歌学者
第一次引用Banerjee,R.、Das,K.、Ravishankar,R.,Suguna,K.,Surolia,A.和Vijayan,M.(1996)。分子生物学杂志。 259, 281–296. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Berkholz,D.S.、Driggers,C.M.、Shapovalov,M.V.、Dunbrack,R.L.和Karplus,P.A.(2012年)。程序。美国国家科学院。科学。美国109, 449–453. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Berman,H.、Henrick,K.、Nakamura,H.和Markley,J.L.(2007年)。核酸研究。 35,D301–D303科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Bourderoux,A.、Lefoix,M.、Gueyrard,D.、Tatibouët,A.、Cottaz,S.、Arzt,S.、Burmeister,W.P.和Rollin,P.(2005年)。组织生物素。化学。 , 1872–1879. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Breiman,L.(2001年)。机器。学习。 45, 5–32. 科学网 交叉参考 谷歌学者
第一次引用Breithaupt,C.、Kurzbauer,R.、Lilie,H.、Schaller,A.、Strassner,J.、Huber,R.,Macheroux,P.和Clausen,T.(2006)。程序。美国国家科学院。科学。美国103, 14337–14342. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Brown,K.,Djinovic-Carugo,K.、Haltia,T.、Cabrito,I.、Saraste,M.、Moura,J.J.G.、Moura,I.,Tegoni,M.和Cambillau,C.(2000年)。生物学杂志。化学。 275, 41133–41136. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Butcher,S.J.、Grimes,J.M.、Makeyev,E.V.、Bamford,D.H.和Stuart,D.I.(2001)。自然(伦敦)410, 235–240. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Cheng,W.C.,Chen,Y.-F.,Wang,H.-J.,Hsu,K.C.,Lin,S.-C.,Cheng,T.-J.、Yang,J.-M.和Wang,W-C.(2012)。公共科学图书馆一号7第33481页交叉参考 公共医学 谷歌学者
第一次引用Cheon,Y.-H,Kim,H.-S.,Han,K.-H.,Abendroth,J.,Niefind,K.,Schomburg,D.,Wang,J.&Kim,Y.(2002)。生物化学41, 9410–9417. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Colby,T.D.、Vanderveen,K.、Strickler,M.D.、Markham,G.D.和Goldstein,B.M.(1999)。程序。美国国家科学院。科学。美国96, 3531–3536. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用克罗尔,T.I.(2015)。阿克塔·克里斯特。D类71, 706–709. 交叉参考 IUCr日志 谷歌学者
第一次引用Di Costanzo,L.、Ilies,M.、Thorn,K.J.和Christianson,D.W.(2010年)。架构(architecture)。生物化学。生物物理学。 496, 101–108. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Emsley,P.、Lohkamp,B.、Scott,W.G.和Cowtan,K.(2010年)。阿克塔·克里斯特。D类66, 486–501. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Engh,R.A.和Huber,R.(2001)。国际结晶学表,体积。F类由M.G.Rossmann和E.Arnold编辑,第382-392页。多德雷赫特:Kluwer学术出版社。 谷歌学者
第一次引用Evans,J.C.、Huddler,D.P.、Hilgers,M.T.、Romanchuk,G.、Matthews,R.G.和Ludwig,M.L.(2004)。程序。美国国家科学院。科学。美国101, 3729–3736. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Exarchos,K.P.、Papaloukas,C.、Exarcos,T.P.、Troganis,A.N.和Fotiadis,D.I.(2009)。J.生物识别。通知。 42, 140–149. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Frömmel,C.&Preissner,R.(1990)。FEBS信函。 277, 159–163. 公共医学 谷歌学者
第一次引用Gan,L.、Petsko,G.A.和Hedstrom,L.(2002)。生物化学41, 13309–13317. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Gunasekaran,K.、Gomathi,L.、Ramakrishnan,C.、Chandrasekhar,J.和Balaram,P.(1998)。分子生物学杂志。 284, 1505–1516. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Hayward,S.(2001)。蛋白质科学。 10, 2219–2227. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Hooft,R.W.W.,Vriend,G.,Sander,C.&Abola,E.E.(1996)。自然(伦敦)381, 272. 交叉参考 公共医学 科学网 谷歌学者
第一次引用Huber,S.K.和Scheidig,A.J.(2005)。FEBS信函。 579, 2821–2829. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Huber,R.和Steigemann,W.(1974年)。FEBS信函。 48,2-4交叉参考 谷歌学者
第一次引用Jabs,A.、Weiss,M.S.和Hilgenfeld,R.(1999)。分子生物学杂志。 286, 291–304. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Jin,M.S.、Kim,S.E.、Heo,J.Y.、Lee,M.E.、Kim、H.M.、Paik,S.G.、Lee、H.&Lee,J.O.(2007)。单元格130, 1071–1082. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Jooston,R.P.、Joosten,K.、Cohen,S.X.、Vriend,G.和Perrakis,A.(2011年)。生物信息学27, 3392–3398. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Jooston,R.P.、Joosten,K.、Murshudov,G.N.和Perrakis,A.(2012年)。阿克塔·克里斯特。D类68, 484–496. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Joosten,R.P。等。(2009).J.应用。克里斯特。 42, 376–384. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Joosten,R.P.和Vriend,G.(2007)。科学类317, 195–196. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Kabsch,W.&Sander,C.(1983年)。生物聚合物22, 2577–2637. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Klabunde,T.、Eicken,C.、Sacchettini,J.C.和Krebs,B.(1998年)。自然结构。分子生物学。 5, 1084–1090. 科学网 交叉参考 中国科学院 谷歌学者
第一次引用Kleywegt,G.J.、Harris,M.R.、Zou,J.、Taylor,T.C.、Wählby,A.和Jones,T.A.(2004)。阿克塔·克里斯特。D类60, 2240–2249. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Kundhavai Natchiar,S.、Arockia Jeyaprakash,A.、Ramya,T.N.C.、Thomas,C.J.、Suguna,K.、Surolia,A.和Vijayan,M.(2004年)。阿克塔·克里斯特。D类60, 211–219. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Liaw,A.和Wiener,M.(2002年)。R.新闻2, 18–22. 谷歌学者
第一次引用Lovering,A.L.,Lee,S.-S.,Kim,Y.W.,Withers,S.G.&Strynadka,N.C.J.(2005)。生物学杂志。化学。 280, 2105–2115. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用麦克阿瑟,M.W.和桑顿,J.M.(1991)。分子生物学杂志。 218, 397–412. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Matthews,B.W.(1975年)。生物化学。生物物理学。学报405, 442–451. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用McCammon,J.A.、Gelin,B.R.和Karplus,M.(1977年)。自然(伦敦)267, 585–590. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用McNicholas,S.、Potterton,E.、Wilson,K.S.和Noble,M.E.M.(2011年)。阿克塔·克里斯特。D类67, 386–394. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Moustafa,I.、Connaris,H.、Taylor,M.、Zaitsev,V.、Wilson,J.C.、Kiefel,M.J.、von Itzstein,M.和Taylor(2004)。生物学杂志。化学。 279, 40819–40826. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Murshudov,G.N.、Skubák,P.、Lebedev,A.A.、Pannu,N.S.、Steiner,R.A.、Nicholls,R.A、Winn,M.D.、Long,F.&Vagin,A.(2011)。阿克塔·克里斯特。D类67, 355–367. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Pahlke,D.、Leitner,D.、Wiedemann,U.和Labudde,D.(2005)。生物信息学21, 685–686. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Pal,D.和Chakrabarti,P.(1999)。分子生物学杂志。 294, 271–288. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Ramachandran,G.N.和Mitra,A.K.(1976年)。分子生物学杂志。 107, 85–92. 交叉参考 公共医学 中国科学院 科学网 谷歌学者
第一次引用Ramachandran,G.N.和Sasisekharan,V.(1968年)。高级蛋白质化学。 23, 283–438. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用R核心团队(2014)。R: 统计计算语言和环境。R统计计算基金会,奥地利维也纳。https://www.r-project.org/谷歌学者
第一次引用Sanz-Aparicio,J.、Hermoso,J.A.、Martínez-Ripoll,M.、González,B.、López-Camacho,C.和Polaina,J.(1998)。蛋白质33, 567–576. 中国科学院 公共医学 谷歌学者
第一次引用Sanz-Aparicio,J.、Hermoso,J.A.、Martínez-Ripoll,M.、Lequerica,J.L.和Polina,J.(1998)。分子生物学杂志。 275, 491–502. 科学网 中国科学院 公共医学 谷歌学者
第一次引用Schomaker,V.&Trueblood,K.N.(1968年)。阿克塔·克里斯特。B类24, 63–76. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用Song,J.、Burrage,K.、Yuan,Z.和Huber,T.(2006)。BMC生物信息学7, 124. 谷歌学者
第一次引用Stenkamp,R.E.(2005)。阿克塔·克里斯特。D类61, 1599–1602. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Stewart,D.E.、Sarkar,A.和Wampler,J.E.(1990年)。分子生物学杂志。 214, 253–260. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Stoddard,B.L.和Pietrokovski,S.(1998年)。自然结构。分子生物学。 5, 3–5. 交叉参考 中国科学院 谷歌学者
第一次引用Sugiura,I.、Sasaki,C.、Hasegawa,T.、Kohno,T.、Sugio,S.、Moriyama,H.、Kasai,M.和Matsuzaki,T.(2004年)。阿克塔·克里斯特。D类60, 674–679. 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Tickle,I.J.(2012年)。阿克塔·克里斯特。D类68, 454–467. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Touw,W.G.、Baakman,C.、Black,J.、te Beek,T.A.H.、Krieger,E.、Joosten,R.P.和Vriend,G.(2015)。核酸研究。 43,D364–D368科学网 交叉参考 公共医学 谷歌学者
第一次引用Touw,W.G.和Vriend,G.(2014)。蛋白质工程设计。选择。 27, 457–462. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Vriend,G.(1990年)。J.摩尔图。 8, 52–56. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Wang,M.-L.,Li,W.-J.,Wang,M.L.&Xu,W.B.(2004)。J.佩普特。物件。 63, 23–28. 交叉参考 公共医学 谷歌学者
第一次引用Wang,S.F.,Jin,J.Y.,Zeng,Z.H.&Tian,G.R.(2010)。下巴。化学。莱特。 21, 159–162. 交叉参考 中国科学院 谷歌学者
第一次引用Wang,S.-F.,Tian,G.R.,Zhang,W.-Z.和Jin,J.-Y.(2009)。生物有机医药化学。莱特。 19, 5009–5011. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Weaver,L.H.、Kwon,K.、Beckett,D.和Matthews,B.W.(2001年)。程序。美国国家科学院。科学。美国98, 6045–6050. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Weiss,M.S.和Hilgenfeld,R.(1999)。生物聚合物50, 536–544. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Weiss,M.S.、Jabs,A.和Hilgenfeld,R.(1998)。自然结构。分子生物学。 5, 676. 交叉参考 谷歌学者
第一次引用Whitby,F.G.、Luecke,H.、Kuhn,P.、Somoza,J.R.、Huete Perez,J.A.、Phillips,J.D.、Hill,C.P.、Fletterick,R.J.和Wang,C.C.(1997)。生物化学36, 10666–10674. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Williams,L.K.、Li,C.、Withers,S.G.和Brayer,G.D.(2012)。医学化学杂志。 55,10177–10186交叉参考 中国科学院 公共医学 谷歌学者
第一次引用医学博士温恩。等。(2011).阿克塔·克里斯特。D类67, 235–242. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Xu,G.、Cirilli,M.、Huang,Y.、Rich,R.L.、Myszka,D.G.和Wu,H.(2001)。自然(伦敦)410, 494–497. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Yu,J.W.、Jeffrey,P.D.和Shi,Y.(2009)。程序。美国国家科学院。科学。美国106, 8169–8174. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用B.赵。等。(2005).生物学杂志。化学。 280, 11599–11607. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Zimmerman,S.S.&Scheraga,H.A.(1976年)。大分子9, 408–416. 交叉参考 中国科学院 公共医学 谷歌学者

这是一篇根据知识共享署名(CC-BY)许可它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

期刊徽标结构
生物学
编号:2059-7983