研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标生物
结晶学
国际标准编号:1399-0047

珩磨生物信息学检测蛋白质紊乱的工具包

十字标记_颜色_方形_文本.svg

牛津大学结构生物学系,英国牛津OX3 7BN罗斯福大道威康人类遗传学信托中心,b条以色列韦兹曼科学研究所以色列结构蛋白质组学中心,Rehovot 76100,Israel,c(c)以色列Rehovot 76100 Weizmann科学研究所结构生物学系,d日以色列Rehovot 76100 Weizmann科学研究所神经生物学系,e(电子)英国埃克塞特大学计算机科学系(f)以色列Rehovot 76100 Weizmann科学研究所生物服务部
*通信电子邮件:robert@strubi.ox.ac.uk,jaime.prilusky@weizmann.ac.il

(收到日期:2006年2月9日; 2006年8月21日接受)

并不是所有的蛋白质都在其天然状态下形成明确的三维结构。一些氨基酸序列似乎强烈支持无序状态,而一些氨基酸序列在生物环境变化的影响下明显可以在无序状态和有序状态之间转换,从而在信号传递等过程中发挥重要作用。尽管在生物学上很重要,但对于结构生物学家来说,蛋白质的紊乱区域可能会带来灾难性后果,甚至妨碍成功结构确定。因此,准确预测障碍非常重要,尤其是对于指导表达结构的设计,从而最大限度地提高成功的机会结构确定。此类设计标准已成为欧洲结构蛋白质组学(SPINE)联盟内实验室结构设计策略的组成部分。本文从预测可靠性的角度评估了无序预测的现状,并考虑了如何最好地使用这些方法指导结构设计。最后,它简要讨论了未来如何改进预测方法。

1.简介

蛋白质的三维结构主要由其氨基酸序列决定。然而,蛋白质自身所处的局部和全局环境也会产生很大的影响,可能需要蛋白质折叠机制才能将蛋白质推向其目标构象。在极端条件下,大多数蛋白质会失去任何特定的三维结构,而且很明显,即使在生理条件下,许多蛋白质序列也会部分甚至完全紊乱(Dunker等。, 2000【Dunker,A.K.,Obradovic,Z.,Romero,P.,Garner,E.C.&Brown,C.J.(2000)。基因组信息。11,161-171。】). 此外,即使在生理条件下,改变蛋白质的环境有时也会影响有序和无序状态之间的转换。全基因组的计算研究表明,含有显著无序区域的蛋白质序列百分比存在差异:一项研究预测,52-67%的真核生物蛋白质含有长度超过40个氨基酸的无序区域(Vucetic等。, 2003【Vucetic,S.、Brown,C.J.、Dunker,A.K.和Obradovic,Z.(2003)。蛋白质,52,573-584。】)而另一位科学家预测,33%的真核蛋白质含有超过30个残基的紊乱区域(沃德等。, 2004【Ward,J.J.、Sodhi,J.S.、McGuffin,L.J.和Buxton,B.F.&Jones,D.T.(2004),《分子生物学杂志》337、635-645。】). 令人惊讶的是,原核蛋白中无序区域的百分比预计会大大降低(Vucetic等。, 2003【Vucetic,S.、Brown,C.J.、Dunker,A.K.和Obradovic,Z.(2003)。蛋白质,52,573-584。】). 这可能反映了原核生物中缺失的真核蛋白的整个家族的存在,例如神经系统中的突触蛋白。

当蛋白质用浓缩尿素加热时,它通常会经历有序到无序的转变;当蛋白质成功复性时,它会经历无序到有序的转变。这种转变也可能发生就地由于环境中的更改或响应与特定绑定伙伴的交互而导致的。后一种情况似乎在生物学上特别重要,因为它允许蛋白质伴侣(Oldfield、Cheng、Cortese、Romero等。, 2005【Oldfield,C.J.、Cheng,Y.、Cortese,M.S.、Romero,P.、Uversky,V.N.和Dunker,A.K.(2005)。生物化学,44,12454-12470。】; Tompa,2005年[Tompa,P.(2005).FEBS Lett.579,3346-3354.]; Wright&Dyson,1999年【Wright,P.E.&Dyson,H.J.(1999),《分子生物学杂志》293,321-331.】). 这种相互作用的例子包括酶-底物、受体-配体、蛋白质-蛋白质、蛋白质-RNA和蛋白质-DNA相互作用。在其他用途中,这种受控转换似乎在细胞信号通路中起着关键作用。

据推测,如果氨基酸序列主要决定蛋白质的结构,那么它也主要决定哪些区域是非结构化的。为了支持这一点,早期研究表明,无序区域通常包含大量低复杂度序列,某些氨基酸(带电、极性和柔性氨基酸)极有可能在无序区域中发现(加纳等。, 1998【Garner,E.、Cannon,P.、Romero,P.,Obradovic,Z.和Dunker,A.K.(1998),《基因组信息》,第9期,第201-213页。】). 例如,Glu、Asp和Lys带电,Ser增强了溶解度并提供了灵活性,而低复杂度富含Pro-rich和/或富含Gly的序列很少形成稳定的结构。相反,芳香族氨基酸(Trp、Tyr和Phe)主要与有序区域相关(基辛格等。, 1995[基辛格·C·R、帕奇·H·E、奈顿·D·R、刘易斯·C·T、佩尔蒂耶·L·A、坦普奇克·A、卡利什·J、塔克·K·D、肖瓦尔特·R·E、穆马·E·W、加斯蒂内尔·L·N、哈布卡·N、陈·X、马尔多纳多·F、巴克·J·E、巴奎特·R·维拉弗兰卡·J·E.(1995)。《自然》(伦敦),378,641-644。])因为它们具有强大的交互能力,有助于发展结构(Burley&Petsko,1985【Burley,S.K.和Petsko,G.A.(1985),《科学》,第229、23-28页。】). 脂肪族氨基酸(Leu、Ile和Val)也同样与有序区域相关。

无序在分子识别研究中的重要性已经被描述过。然而,作为结构生物学中的一种通用工具,对无序区域的准确检测也有更现实和迫切的需求。X射线晶体学和核磁共振谱学都依赖于几乎相同结构的集合来放大实验信号。光谱方法最多可以提供一些无序序列构象的信息(贝纳多等。, 2005[伯纳多·P、布兰查德·L、蒂明斯·P、马里恩·D、瑞格洛克·R·W和布莱克利奇·M(2005)。美国国家科学院学报,10217002-17007。]),而X射线晶体学不适用于此类序列(Oldfield、Chen、Cortese、Brown等。, 2005【Oldfield,C.J.,Cheng,Y.,Cortese,M.S.,Brown,C.J..,Uversky,V.N.&Dunker,A.K.(2005).生物化学,441989-2000。】). 此外,无序区域可以防止结构测定完全通过影响溶解度和/或结晶性。

近年来无序预测算法的激增(示例见表1[链接])反映在CASP5和CASP6中都包含了无序预测(https://predictioncenter.org/casp6/casp6.html)试验。值得注意的是,在CASP5中,一种提交的完全无序蛋白质,靶145(Melamud&Moult,2003)【Melamud,E.和Moult,J.(2003),《蛋白质》,53,增刊6,561-565。】),实际上是果蝇属粘附蛋白-胶质结合蛋白(Zeev-Ben-Mordehai等。, 2003【Zeev-Ben-Mordehai,T.,Rydberg,E.H.,Solomon,A.,Toker,L.,Botti,S.,Auld,V.J.,Silman,I.&Sussman,J.L.(2003)。蛋白质,53,758-767。】),脊椎工作包10(生物医学相关人类蛋白质;Banci等。, 2006【Banci,L.等人(2006),《结晶学报》,D621208-1217。】). 在CASP5中,测试了六种方法,而在2004年,在CASP6试验中,评估了20种方法。While期间PONDR公司(李等。, 1999[Li,X.,Romero,P.,Rani,M.,Dunker,A.K.&Obradovic,Z.(1999)。基因组信息。序列研讨会基因组信息。10,30-40。]; 罗梅罗等。, 1997[Romero,P.、Obradovic,Z.和Dunker,K.(1997)。基因组信息。序列研讨会基因组信息。8,110-124。]2001年[Romero,P.、Obradovic,Z.、Li,X.、Garner,E.C.、Brown,C.J.和Dunker,A.K.(2001)。蛋白质,42,38-48。])仍然可能是这些方法中最为人所知的,我们估计已经开发了40多种算法。自CASP6试验以来,SPINE合作伙伴开发了两种新方法,其原理和适用性截然不同。折叠索引(普里卢斯基等。, 2005[Prilusky,J.、Felder,C.E.、Zeev Ben Mordehai,T.、Rydberg,E.、Man,O.、Beckmann,J.S.、Silman,I.和Sussman,J.L.(2005)。生物信息学,2133435-3438。])由魏茨曼研究所开发,实现了乌弗斯基描述的算法等。(2000[Uversky,V.N.,Gillespie,J.R.&Fink,A.L.(2000),《蛋白质》,第41期,第415-427页。])根据序列的平均净电荷和平均亲水性进行计算,从而对该序列(或子序列)是有序的还是无序的进行单一预测。相反,罗恩(杨等。, 2005[Yang,Z.R.,Thomson,R.,McNeil,P.&Esnouf,R.M.(2005).生物信息学,21,3369-3376.])由牛津大学和埃克塞特大学联合开发,使用神经网络技术预测任何给定残基在周围氨基酸序列中是否可能有序或无序。这两种方法都可以自由访问通过它们各自的URL。

表1
选定的无序药物治疗程序及其URL

方法 统一资源定位地址 参考
DisEMBL(解散)(465) https://dis.embl.de网址/ 延森·林丁等。(2003[Linding,R.,Jensen,L.J.,Diela,F.,Bork,P.,Gibson,T.J.&Russell,R.B.(2003),《结构》,第11期,第1453-1459页。])
DisEMBL(解散)(线圈) https://dis.embl.de网址/ 延森·林丁等。(2003[Linding,R.,Jensen,L.J.,Diela,F.,Bork,P.,Gibson,T.J.&Russell,R.B.(2003),《结构》,第11期,第1453-1459页。])
DisEMBL(解散)(热) https://dis.embl.de网址/ 林丁,詹森等。(2003[Linding,R.,Jensen,L.J.,Diela,F.,Bork,P.,Gibson,T.J.&Russell,R.B.(2003),《结构》,第11期,第1453-1459页。])
已被淘汰2 https://bioinf.cs.ucl.ac.uk/disopred/disopred.html 病房等。(2004年【Ward,J.J.、Sodhi,J.S.、McGuffin,L.J.和Buxton,B.F.&Jones,D.T.(2004),《分子生物学杂志》337、635-645。】)
折叠索引 https://bip.weizmann.ac.il/fldbin/findex网址 Prilusky公司等。(2005[Prilusky,J.、Felder,C.E.、Zeev Ben Mordehai,T.、Rydberg,E.、Man,O.、Beckmann,J.S.、Silman,I.和Sussman,J.L.(2005)。生物信息学,2133435-3438。])
全球地图 https://globplot.embl.de网站/ 罗素·林丁等。(2003[Linding,R.,Russell,R.B.,Neduva,V.&Gibson,T.J.(2003)。核酸研究31,3701-3708。])
伊斯特-佐兰/VSL公司-1 https://www.ist.temple.edu/disprot/predictorVSL1.php 奥布拉多维奇等。(2005【Obradovic,Z.,Peng,K.,Vucetic,S.,Radivojac,P.&Dunker,A.K.(2005)。蛋白质,61,增刊7,176-182。】)
IUPRED公司 网址:https://iupred.enzim.hu/ 多斯塔尼等。(2005【Dosztanyi,Z.,Csizmok,V.,Tompa,P.&Simon,I.(2005a).生物信息学,21,3433-3434.】,b条【Dosztanyi,Z.,Csizmok,V.,Tompa,P.&Simon,I.(2005b),《分子生物学杂志》347,827-839.】)
庞德 https://www.pondr.com/ 罗梅罗等。(1997[Romero,P.、Obradovic,Z.和Dunker,K.(1997)。基因组信息。序列研讨会基因组信息。8,110-124。]2001年[Romero,P.、Obradovic,Z.、Li,X.、Garner,E.C.、Brown,C.J.和Dunker,A.K.(2001)。蛋白质,42,38-48。]),李等。(1999[Li,X.,Romero,P.,Rani,M.,Dunker,A.K.&Obradovic,Z.(1999)。基因组信息。序列研讨会基因组信息。10,30-40。])
PreLink(预链接) https://genomics.eu.org/spip/PreLink网站 Coeytaux和Poupon(2005年【Coeytaux,K.和Poupon,A.(2005),生物信息学,211891-1900。】)
罗恩 https://www.strubi.ox.ac.uk/RONN 等。(2005[Yang,Z.R.,Thomson,R.,McNeil,P.&Esnouf,R.M.(2005).生物信息学,21,3369-3376.])

本文回顾了包含在折叠索引罗恩并从总体上考虑了客观评估此类算法性能的困难。然后,考虑将紊乱与其他生物信息学分析相结合以指导表达结构设计的方法。讨论结束时考虑了通过识别不同类型的蛋白质紊乱来改进算法的可能性。

2.方法

2.1、。收集无序序列的数据

任何无序预测方法的核心都是对已知的有序或无序序列数据库进行排序。有序序列可以很容易地从蛋白质数据库(PDB;Sussman等。, 1998[Sussman,J.L.、Lin,D.、Jiang,J.、Manning,N.O.、Prilusky,J.和Ritter,O.&Abola,E.(1998)。《结晶学报》D54,1078-1084。]; 伯曼等。, 2000[Berman,H.M.、Westbrook,J.、Feng,Z.、Gilliland,G.、Bhat,T.N.、Weissig,H.、Shindyalov,I.N.和Bourne,P.E.(2000)。核酸研究28,235-242。]). 虽然不可能知道哪些残基是有序的,哪些是无序的,但结构尚未确定的蛋白质也可以通过使用诸如异核单量子相关(HSQC)光谱等技术进行大量排序。相反,很难收集无序序列的数据。为了确认是否存在紊乱,必须有可溶性蛋白质,在许多情况下,这是不可能的,因为紊乱区域本身的存在加剧了这种情况。通过晶体学方法无法确定完全无序的蛋白质的结构,因此必须使用包括核磁共振在内的光谱方法来研究这些蛋白质(Wright&Dyson,1999【Wright,P.E.&Dyson,H.J.(1999),《分子生物学杂志》293,321-331.】). 对于部分有序的蛋白质,可以确定局部结构从而推断缺失区域是无序的,例如在人类朊蛋白(Zahn等。, 2000【Zahn,R.、Liu,A.、Luhrs,T.、Riek,R.,von Schroetter,C.、Lopez Garcia,F.、Billeter,M.、Calzolai,L.、Wider,G.和Wuthrich,K.(2000)。美国国家科学院院刊,97,145-150。】). 由于这些部分结构通常被沉积,PDB也是与部分有序结构相关的无序序列的最大存储库。乌弗斯基等。(2000[Uversky,V.N.,Gillespie,J.R.&Fink,A.L.(2000),《蛋白质》,第41期,第415-427页。])以光谱方法为特征的表列完全无序序列,而Yang等。(2005[Yang,Z.R.,Thomson,R.,McNeil,P.&Esnouf,R.M.(2005).生物信息学,21,3369-3376.])在2004年4月29日发布的PDB中搜寻,使用大分子结构数据库(MSD;Boutselakis)寻找无序序列等。, 2003【Boutselakis,H.等人(2003)。核酸研究31,458-462。】)在欧洲生物信息学研究所。虽然只有一小部分已知蛋白质的结构得到了测定,而且由于只能包括部分结构蛋白质,因此这种方法有一定的偏差,但这是迄今为止最大的无序序列资源。在本文中,重复并更新了分析,以反映截至2005年10月18日PDB的状态(表2[链接]; 详细数据可从罗恩网站,https://www.strubi.ox.ac.uk/RONN). 预计数据会包含一些错误,例如晶体结构测定,其中蛋白质的末端区域可能被错误地归类为无序。这些区域可能会丢失(i),因为它们确实是无序的,(ii)因为它们通过柔性连接物连接到分子的其余部分,因此相对于分子的其余部位没有固定的方向,或者(iii)因为该区域可能由于意外的蛋白水解而从结晶实体中缺失。创建了另一个实验测量的紊乱序列资源,以评估折叠索引(普里卢斯基等。, 2005【Prilusky,J.,Felder,C.E.,Zeev-Ben-Mordehai,T.,Rydberg,E.,Man,O.,Beckmann,J.S.,Silman,I.&Sussman,J.L.(2005).生物信息学,21,3435-3438.】)可以在以下位置访问https://www.weizmann.ac.il/sb/faculty_pages/Sussman/papers/supl/Prilusky_2005.

表2
从PDB中提取的疾病信息

该表总结了假定存在于结晶/分析实体中但未构建结构的蛋白质序列部分。2005年10月18日的分析仅限于X射线晶体学测定的结构。

  PDB,2004年4月29日 PDB,2005年10月18日
PDB中的条目 25931 34347
仅包含短无序区域的条目 5754(5–20个残留物) 6105(5–18个残留物)
过滤后这些条目中无序区域的数量 1925 2866
包含至少一个长无序区域的条目 1573(>20个残留物) 1841(>18个残留物)
过滤后这些条目中长无序区域的数量 530 687
筛选后这些条目中的长有序区域数 891 1358
†过滤异多聚物复合物和高度冗余序列的删除条目。冗余使用解决CD-HIT光盘(李等。2001年[Li,W.,Jaroszewski,L.&Godzik,A.(2001).生物信息学,17,282-­283.], 2002[Li,W.,Jaroszewski,L.&Godzik,A.(2002)。生物信息学,18,77-­82。])以去除与集合中的其他序列相同超过70%的序列。

2.2. 预测问题的不同方法

众所周知,无序序列的氨基酸组成不同于有序序列(加纳等。, 1998[Garner,E.,Cannon,P.,Romero,P.,Obradovic,Z.&Dunker,A.K.(1998)。基因组信息。9201-213。])由于氨基酸侧链的物理性质不同。因此,大多数无序给药方法侧重于单个氨基酸的特性,要么基于实验测量的参数,要么基于已知有序或无序序列的统计分析计算(Wright&Dyson,1999【Wright,P.E.&Dyson,H.J.(1999),《分子生物学杂志》293,321-331.】; Dyson&Wright,2004年[Dayson,H.J.和Wright,P.E.(2004)。化学修订版104,3607-3622。])例如蛋白质紊乱数据库(https://www.disprot.org/). 许多不同的参数化方法已经尝试过,并体现在基于规则的神经网络方法中,例如PONDR公司,全球地图,DisEMBL(解散)已被淘汰2(见表1[链接]). 然而,这种方法最简单地封装在折叠索引(普里卢斯基等。, 2005【Prilusky,J.,Felder,C.E.,Zeev-Ben-Mordehai,T.,Rydberg,E.,Man,O.,Beckmann,J.S.,Silman,I.&Sussman,J.L.(2005).生物信息学,21,3435-3438.】),它对Uversky派生的规则进行编码等。(2000[Uversky,V.N.,Gillespie,J.R.&Fink,A.L.(2000),《蛋白质》,第41期,第415-427页。]). 该程序最初设计用于对任何给定序列进行“有序”或“无序”的单一总体预测,但后来被修改为给出过残留无序倾向,因为这对结构设计很有用。虽然氨基酸的物理性质在确定无序性方面显然是基本的,但神经网络用于罗恩(杨等。, 2005[Yang,Z.R.,Thomson,R.,McNeil,P.&Esnouf,R.M.(2005).生物信息学,21,3369-3376.])故意避免以这种方式对氨基酸进行显式参数化。相反,它使用非间隙序列比对来测量未知蛋白质的序列窗口与PDB分析得出的已知折叠状态蛋白质的窗口序列之间的“距离”。因此,在某种意义上,折叠索引罗恩代表了解决无序预测问题的两种极端方法,尽管这两种方法各有优缺点,但与其他无序预测方法相比,它们表现得很好。图1[链接]使用2004年4月29日发布的PDB数据,将这两种方法与其他最广泛使用的疾病预测因子进行比较。不出所料,鉴于上述讨论,折叠索引对于完全有序或完全无序的序列表现特别好,而罗恩在识别部分无序序列方面更为成功。

[图1]
图1
九种不同无序预测方法的预测性能评估。()完全有序和完全无序序列的平衡混合盲测试结果。(b条)从PDB中提取的部分有序序列的盲测试结果。参见§[链接]2.3用于术语讨论。转载自杨等。(2005[Yang,Z.R.,Thomson,R.,McNeil,P.&Esnouf,R.M.(2005).生物信息学,21,3369-3376.])经牛津大学出版社许可。

2.3. 预测的测量精度

乍一看,评估用于预测给定氨基酸(或氨基酸序列)是有序还是无序的算法的价值似乎微不足道。然而,由于任何算法的有效性都严重取决于正确预测和错误预测的重要性和后果,而正确预测和不正确预测又取决于算法的应用,因此不可能设计出一种通用的度量方法。计算机科学中已经定义了这种二进制分类器的许多度量方法,并且在web上发布了一篇关于文本分类的可访问讨论(https://www.islanddata.com/downloads/irt_whitepaper_perfmeasure.pdf). 第二个问题是,对算法的描述通常引用交叉验证结果,而不是真正的盲测试结果,这会产生更真实的结果。最后,由于测试集往往包含相对较少的无序氨基酸,并且在实验结构设计的“现实世界”中,它们的出现频率甚至更低,因此,算法性能的良好度量不能受到这些相对类频率差异的过度影响。从事结构设计的实验科学家真正想要的是一个关于算法比简单猜测好多少的现实想法。诸如“概率过剩”(Yang等。, 2005[Yang,Z.R.,Thomson,R.,McNeil,P.&Esnouf,R.M.(2005).生物信息学,21,3369-3376.])CASP试验中使用的相关评分函数试图提供这样的衡量标准,并表明目前可用的最佳算法大约比对部分有序结构进行盲测试的猜测要好50%。图1[链接]介绍了常见方法的概率过剩评估,包括罗恩折叠索引然而,如果问题只是“给定的序列是否构成有序结构?”然后是当前的方法,特别是全局预测因子,如折叠索引,可以提供更高确定度的答案。

衡量算法性能的最后一个复杂因素是,无序序列本身并不构成同质类:有些复杂度较低,例如含有20个或更多连续谷氨酸残基,有些是看起来相当复杂的长序列,有些是有序序列中的短区域,显然对无序有强烈的偏好。下文将详细讨论这些观察结果。不同的算法可以更好地适应不同种类的无序,因此算法的相对性能会根据无序预测的上下文而有所不同。例如,使用无序预测来检测域之间的链接器区域本质上是检测短(ish)无序区域和使用长预测窗口的方法的要求,例如当前版本的罗恩,因此可能会降低灵敏度。

3.结果和讨论

3.1. 脊椎结构分析

为了评估预测方法的稳健性,将沉积有PDB的初始SPINE结构集用作现实的(但不是严格意义上的“盲”)测试集。在分析时,MSD已对139个沉积的脊椎结构进行了充分注释,其中15个对应于蛋白质-蛋白质复合物,但未进行进一步分析;其他4人因其他原因被排除在外。其余120个结构中,47个不含无序,73个部分无序,共有25230个有序残基和1476个无序残基。与“真实世界”的用法一致,数据集没有以任何方式进行过滤以删除相似的序列,也没有删除训练集中可能使用的序列。此外,这组包含的真核来源的结构(45%的结构)比PDB整体上的结构要多得多(表3[链接]). 因此,预计该数据集对于预测算法来说是困难的,尤其是折叠索引它既不是为部分有序结构设计的,也不是针对部分有序结构进行训练的。的预测结果罗恩(表3[链接])表明其表现与之前公布的盲试结果一致(杨等。, 2005[Yang,Z.R.,Thomson,R.,McNeil,P.&Esnouf,R.M.(2005).生物信息学,21,3369-3376.])尽管本试验中无序残留物的比例大大降低(5.5%,而10.9%)。然而,原核生物蛋白质的表现明显更好,这表明训练偏向于这些蛋白质,并且原核生物和真核生物领域的蛋白质之间存在显著差异。有点令人惊讶的是,真核生物组比原核生物组含有更少的失调,尽管使用失调预测工具的基因组研究表明,失调在真核生物中更为普遍。这种明显的异常可能反映了在真核蛋白质研究中的困难:要么靶点选择更保守,要么只有非常有序的真核蛋白质才能成功地进行结构测定。与此形成鲜明对比的是,对于一小组病毒蛋白,这两种预测罗恩折叠索引实际上是无用的。虽然这项试验的规模使得很难对这一观察结果给予太大的重视,但很有可能表明病毒蛋白,特别是结构蛋白中的紊乱决定因素可能与其他蛋白质的紊乱决定因子有所不同。如上所述,折叠索引发现所有预测都更加困难(表3[链接])尽管对原核蛋白的预测仍然有用。

表3
沉积SPINE结构的无序预测

蛋白质是根据它们所属的生命域来划分的。概率超额表示与简单猜测相比的相对改进。

    概率超额(%)
  结构 罗恩 折叠索引
原核生物的 59 58.4 28.5
真核生物的 54 49.9 14.2
病毒 7 7.4 −2.9
全部 120 48.4 17

3.2、。无序预测在建筑设计中的应用

在结构蛋白质组学开发方法的SPINE范围内,无序预测的唯一最重要用途是作为构建设计的辅助。许多生物医学上重要的蛋白质都含有紊乱区域,这些区域往往与结构测定, 例如因为它们可以促进聚集,降低溶解度或抑制晶体生长。然而,由于PDB中的许多结构部分无序,PDB是无序数据的最大来源,也是大多数分析的基础。在许多怀疑无序的情况下,晶体生产的最佳策略是并行使用多个结构(例如,参见Banci等。, 2006【Banci,L.等人(2006),《结晶学报》,D621208-1217。】)无序预测已成为结构设计过程中的一个重要工具。

无序预测只是一系列工具中的一种,可以为建筑设计提供信息。其他包括与基于序列或结构的域定义的比较、信号检测肽类和核定位序列,检测疏水性和低复杂性区域,与PDB中已经沉积的结构以及与感兴趣蛋白质相关的任何已知功能数据或突变数据对齐。生物信息学的一个重要目标是以一种简单、最好是可视化的方式呈现所有这些信息,研究人员可以方便地访问和评估这些信息(参见Albeck等。, 2006【Albeck,S.等人(2006),《结晶学报》,D621184-1195。】).

大多数疾病预测器的输出是一个过残留疾病概率图,50%的概率被用作决策阈值。然而,这有点不切实际,主要是因为方便,例如,一个残基是否有序还取决于总序列长度,完整的结构域是否在表达结构中,当然,也取决于最终的蛋白质环境。然而,这些图表很有用,我们的经验主要基于罗恩折叠索引,表明对输出进行更仔细的分析是合理的。首先,被预测具有极低无序概率的区域往往对应于疏水区域和跨膜序列,这些区域可能使构建物与无序区域一样难以使用。其次,尽管使用了50%的单一预测阈值,但最好将精确的转移残差定义为在一侧的有序残差和另一侧的无序残差的概率平台之间的一半。第三,对于依赖预测窗口的方法,用户应该了解它们引入的平滑效果。虽然结构域之间的短无序连接体可能不够长,无法对任何超过50%的残基进行单独预测,但在图中仍然可以清楚地看到较低的峰值。

最后一个考虑因素是,结构设计的目标是能够以稳定、良好的可溶性形式表达部分(或全部)感兴趣的蛋白质。这可能需要在决定起点和终点时相当精确。将一个或两个以上的残基切割成有序结构域可能会破坏整个结构域的折叠,而过于保守并在表达结构上留下一条长而无序的尾巴可能会对溶解度产生不利影响,同质性和结晶性。所有可能的N端和C端截短的详尽表达筛选结果(Hart&Tarendeau,2006【Hart,D.J.和Tarendeau,F.(2006),《晶体学报》,D62,19-26。】)表明可接受的窗口可能很窄,可能不超过五种氨基酸。虽然许多疾病预测因子可以给出与观察到的疾病基本一致的结果,但要达到这一精度水平,还需要进一步改进算法。

3.3. 不同类型的紊乱?

很可能,蛋白质并不是偶然地具有紊乱的区域。随着对无序的研究进展,人们已经清楚地认识到,并非所有的无序都是等价的,而且似乎如果存在不同类型的无序,那么它们必须实现不同的目的。长期以来,携带许多带电氨基酸的低复杂度序列被认为是无序的,其中一些可能在将蛋白质锚定在带电表面(如膜)上发挥作用。还存在其他含有脯氨酸和甘氨酸重复序列的低复杂度序列,它们可能充当间隔物或“柄”。一些长的无序区域具有更复杂的序列,类似于结构区域,甚至可能包括“结构保护”氨基酸,如Trp、Tyr和Phe。一种可能性是,当这些区域与同源伴侣结合时,可能会转变为有序状态,而“结构友好”氨基酸则可能在复合物形成中发挥关键作用。短的紊乱区域经常出现在大量有序的蛋白质中;在这里,一种可能性是它们在某种程度上反映了父基因的进化历史,另一种可能性则是它们在蛋白质表面上增加了一个需要多样性的点。氨基酸在这些柔性环中的分布很有特点,以甘氨酸为主。最后,无序区域中最常见的一个基序完全是人为的:纯化His标签是所有无序序列组中最容易检测到的。

上述讨论产生的自然问题是,这些不同类型的无序序列是否以任何可能对无序预测算法有用的方式聚集在一起。这又取决于不同类型的疾病是否可以从序列中单独分类。三种方法提出了自己的观点:(i)无序区域是否可以划分为可单独表征的子组,(ii)不同长度的无序区域,尤其是非常短的区域,是否具有特征序列,以及(iii)有序和无序之间的过渡特征?根据对从PDB中提取的疾病数据的初步分析(结果如表2所示[链接])前两个问题的答案并不明确。除了明显无序的序列外,要产生将有序序列和无序序列分开的序列簇,需要将非常精细的簇聚成许多小簇。这与牛津集团在罗恩增加原型序列的数量显著提高了性能。然而,检测有序到无序和无序到有序转换的特征序列更为成功(图2[链接]). 尽管之前尝试过小规模(Radivojac等。, 2003[Radivojac,P.,Obradovic,Z.,Brown,C.J.&Dunker,A.K.(2003),太平洋交响乐团生物计算,第216-227页。]),这项大规模分析表明,不仅某些氨基酸更有可能在过渡的两侧发现,而且这些频率明显高于在有序或无序的长区域中间观察到的频率。此外,有序-无序转换的氨基酸分布实际上反映了无序-有序转换的分布,表明这些效应在初级序列中是双向的。我们正试图在新的无序预测算法中利用这些发现。

[图2]
图2
基于PDB分析的有序态过渡边界两侧的氨基酸频率(表2[链接]). 基于频率()关于1709年有序无序转变和(b条)关于1918年无序到有序的转变。考虑了过渡边界两侧五个氨基酸的窗口,并用WEBLOGO公司(弯钩等。, 2004【Crooks,G.E.,Hon,G.,Chandonia,J.M.&Brenner,S.E.(2004),基因组研究14,1188-1190。】). 每个单字母氨基酸代码堆栈的高度与(氨基酸在)每个残基位置的重要性,而堆栈中每个氨基酸代码的高度与其在该位置的相对频率成正比(参见Crooks等。, 2004【Crooks,G.E.,Hon,G.,Chandonia,J.M.&Brenner,S.E.(2004),基因组研究14,1188-1190。】更多详细信息)。颜色反映了氨基酸的种类(带电、芳香.).顺序状态转换边界由每个图中的中心间隙表示。

3.4. 结论

对于结构蛋白质组学(因此对于脊椎),疾病预测的最重要应用是构建生物医学重要性蛋白质的设计。这是一个要求极高的应用,因为许多这些蛋白质都是部分有序的(最难预测的无序),并且需要非常准确地定义有序和无序区域之间的边界,以便有助于定义稳定的可溶性结晶结构。

许多简单易用的预测蛋白质紊乱的方法现在可以在互联网上找到。虽然不同的方法具有不同的优势,因此不同的程序可能更适合特定的应用,但最好的工具似乎比猜测要好50%左右。折叠索引计算序列中所有氨基酸的物理性质,以确定有序或无序的总体概率。许多方法将氨基酸的物理性质参数化,以训练神经网络等学习算法,而罗恩使用神经网络结合无间隙序列比对原型序列,以避免必须明确定义相关物理属性。

随着这些方法的发展和更多无序序列的分析,无序显示出许多微妙之处。氨基酸在无序区域中的分布取决于无序区域的长度和与有序区域的接近程度。这为新一代无序预测仪带来了希望,它将更加可靠,尤其是在定义无序区域的精确末端方面更为出色。目前正在进行改进算法的工作。

致谢

所述研究得到了欧洲委员会的支持,作为欧洲结构蛋白质组学(SPINE)合同(QLG2-CT-2002-00988)的一部分,该合同是根据综合计划“生活质量和生活资源管理”、以色列科学技术部对ISPC的拨款、Divadol基金会、MINERVA基金会、,布鲁斯·罗森基金会和Kimmelman中心。JLS是Morton and Gladys Pickman结构生物学教授。RME由英国医学研究委员会支持。RH和DT分别得到英国医学研究委员会学生奖学金和英国EPSRC博士培训补助金的支持。

工具书类

第一次引用阿尔贝克,S。等。(2006).《水晶学报》。D类62, 1184–1195. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用班奇,L。等。(2006).《水晶学报》。D类62, 1208–1217. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Berman,H.M.、Westbrook,J.、Feng,Z.、Gilliland,G.、Bhat,T.N.、Weissig,H.、Shindyalov,I.N.和Bourne,P.E.(2000)。核酸研究。 28,235–242科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用伯纳多·P、布兰查德·L、蒂明斯·P、马里恩·D、瑞格洛克·R·W和布莱克利奇·M(2005)。程序。国家科学院。科学。美国,102, 17002–17007. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用布泽拉基斯,H。等。(2003年)。核酸研究。 31, 458–462. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Burley,S.K.和Petsko,G.A.(1985年)。科学类,229, 23–28. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Coeytaux,K.和Poupon,A.(2005年)。生物信息学,21, 1891–1900. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Crooks,G.E.、Hon,G.、Chandonia,J.M.和Brenner,S.E.(2004年)。基因组。物件。 14, 1188–1190. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Dosztanyi,Z.、Csizmok,V.、Tompa,P.和Simon,I.(2005)).生物信息学,21, 3433–3434. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Dosztanyi,Z.、Csizmok,V.、Tompa,P.和Simon,I.(2005)b条).分子生物学杂志。 347, 827–839. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Dunker,A.K.、Obradovic,Z.、Romero,P.、Garner,E.C.和Brown,C.J.(2000)。基因组信息。 11, 161–171. 中国科学院 谷歌学者
第一次引用Dyson,H.J.和Wright,P.E.(2004)。化学。版次。 104, 3607–3622. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Garner,E.、Cannon,P.、Romero,P.,Obradovic,Z.和Dunker,A.K.(1998)。基因组信息。 9, 201–213. 中国科学院 谷歌学者
第一次引用Hart,D.J.和Tarendeau,F.(2006年)。《水晶学报》。D类62, 19–26. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用基辛格,C.R.,帕奇,H.E.,奈顿,D.R.,刘易斯,C.T.,佩利蒂埃,L.A.,坦普奇克,A.,卡利什,V.J.,塔克,K.D.,肖瓦尔特,R.E.,穆马,E.W.,加斯蒂内尔,L.N.,哈布卡,N.,陈,X.,马尔多纳多,F.,巴克,J.E.,巴奎特,R.&维拉弗兰卡,J.E..(1995)。自然(伦敦),378, 641–644. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Li,W.、Jaroszewski,L.和Godzik,A.(2001)。生物信息学,17, 282–­283. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Li,W.、Jaroszewski,L.和Godzik,A.(2002)。生物信息学,18, 77–­82. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Li,X.、Romero,P.、Rani,M.、Dunker,A.K.和Obradovic,Z.(1999)。基因组信息。序列号。车间基因组信息。 10, 30–40. 公共医学 中国科学院 谷歌学者
第一次引用Linding,R.、Jensen,L.J.、Diela,F.、Bork,P.、Gibson,T.J.和Russell,R.B.(2003)。结构,11, 1453–1459. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Linding,R.,Russell,R.B.,Neduva,V.&Gibson,T.J.(2003)。核酸研究。 31,3701–3708科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Melamud,E.&Moult,J.(2003)。蛋白质类,53,供应商。6, 561–565. 谷歌学者
第一次引用Obradovic,Z.,Peng,K.,Vucetic,S.,Radivojac,P.&Dunker,A.K.(2005)。蛋白质类,61,供应商。7, 176–182. 谷歌学者
第一次引用Oldfield,C.J.、Cheng,Y.、Cortese,M.S.、Brown,C.J..、Uversky,V.N.和Dunker,A.K.(2005)。生物化学,44, 1989–2000. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Oldfield,C.J.、Cheng,Y.、Cortese,M.S.、Romero,P.、Uversky,V.N.和Dunker,A.K.(2005年)。生物化学,44, 12454–12470. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Prilusky,J.,Felder,C.E.,Zeev-Ben-Mordehai,T.,Rydberg,E.,Man,O.,Beckmann,J.S.,Silman,I.&Sussman,J.L.(2005)。生物信息学,21, 3435–3438. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Radivojac,P.、Obradovic,Z.、Brown,C.J.和Dunker,A.K.(2003)。太平洋。交响乐团。生物成分。第216-227页谷歌学者
第一次引用Romero,P.、Obradovic,Z.和Dunker,K.(1997)。基因组信息。序列号。车间基因组信息。 8, 110–124. 公共医学 中国科学院 谷歌学者
第一次引用Romero,P.、Obradovic,Z.、Li,X.、Garner,E.C.、Brown,C.J.和Dunker,A.K.(2001)。蛋白质类,42, 38–48. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Sussman,J.L.、Lin,D.、Jiang,J.、Manning,N.O.、Prilusky,J.,Ritter,O.和Abola,E.(1998)。《水晶学报》。D类54, 1078–1084. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Tompa,P.(2005)。FEBS信函。 579, 3346–3354. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Uversky,V.N.,Gillespie,J.R.&Fink,A.L.(2000)。蛋白质类,41, 415–­427. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Vucetic,S.、Brown,C.J.、Dunker,A.K.和Obradovic,Z.(2003)。蛋白质类,52, 573–584. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Ward,J.J.、Sodhi,J.S.、McGuffin,L.J.和Buxton,B.F.&Jones,D.T.(2004)。分子生物学杂志。 337, 635–645. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Wright,P.E.&Dyson,H.J.(1999)。分子生物学杂志。 293, 321–331. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Yang,Z.R.,Thomson,R.,McNeil,P.&Esnouf,R.M.(2005)。生物信息学,21, 3369–3376. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Zahn,R.、Liu,A.、Luhrs,T.、Riek,R.、von Schroetter,C.、Lopez Garcia,F.、Billeter,M.、Calzolai,L.、Wider,G.和Wuthrich,K.(2000年)。程序。国家科学院。科学。美国,97, 145–150. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Zeev-Ben-Mordehai,T.,Rydberg,E.H.,Solomon,A.,Toker,L.,Botti,S.,Auld,V.J.,Silman,I.&Sussman,J.L.(2003)。蛋白质类,53, 758–767. 科学网 交叉参考 公共医学 中国科学院 谷歌学者

©国际结晶学联合会。如果引用了原文作者和来源,则无需事先获得许可即可复制本文中的简短引文、表格和数字。有关详细信息,请单击在这里.

期刊徽标生物
结晶学
国际标准编号:1399-0047