iMOTdb—a comprehensive collection of spatially interacting motifs in proteins

Ganesan Pugalenthi; Anirban Bhaduri; R. Sowdhamini

doi:10.1093/nar/gkj125

核酸研究。2006年1月1日；34（数据库问题）：D285–D286。

2005年12月28日在线发布。数字对象标识：10.1093/nar/gkj125

预防性维修识别码：项目经理1347487

PMID：16381866

iMOTdb——蛋白质中空间相互作用基序的综合集合

Ganesan Pugalenthi公司,阿尼尔班·巴杜里，以及R.索德哈米尼^*

作者信息文章注释版权和许可信息 PMC免责声明

摘要

实现代表蛋白质家族的保守残基对于更清楚地了解生物功能以及更好地识别序列数据库中的其他成员至关重要。功能重要的残基由于在密切相关的序列中具有高度的保守性而得到了很好的识别，并在功能基序数据库中进行了注释。结构图案是褶皱完整性的核心，需要仔细分析才能识别。我们报告了单个蛋白质结构中空间相互作用基序数据库的可用性，以及属于超家族的远相关蛋白质结构中的空间相互作用模序数据库。使用序列相似性得分和距离计算自动测量保守基序之间的空间相互作用。保守基序对之间的相互作用以赝能的形式描述。iMOTdb数据库提供了854 488个基序的信息，对应于60 849个蛋白质结构域和22 648个蛋白质结构条目。

简介

蛋白质折叠问题的中心法则是蛋白质如何自发地到达其独特的三维折叠。安芬森的假设表明，蛋白质三级结构的全部信息都包含在其氨基酸序列中(1). 蛋白质在很大程度上对突变具有耐受性，同源蛋白质家族中的大量信息表明，突变更可能发生在结构可变的区域(2–8). 结构不变区域指向经过允许氨基酸交换的溶剂化残基。我们早先在蛋白质具有远亲关系但保留相似生物功能的超家族中发现了这种结构不变的残基(9,10). 结构不变的残基经历允许的氨基酸突变，其中交换的氨基酸仍然保留类似的化学基团。

功能重要的残基可以从诱变实验中识别出来，也可以简单地从蛋白质家族和超家族之间的高序列和结构保守性中识别出来。关于这些功能残基的信息可以从流行的motif数据库中获得(11). 然而，对结构完整性至关重要的保守残基很难识别，因为它们经历了允许的氨基酸交换。我们早先使用了与褶皱中其他基序在空间上相互作用的保守残基来识别蛋白质家族的其他假定成员(12)并开发了一个web服务器，用于自动识别空间相互作用的保守残基(13). 其他研究小组在蛋白质结构保守区的可视化方面也进行了类似的尝试(14). 在本文中，我们报告了一个包含空间上最接近的保守基序的数据库的可用性，其中iMOT已应用于蛋白质结构超家族的整个数据库(7,10)以及蛋白质结构数据库中的所有结构条目(15).

数据库内容

该数据库提供了来自SCOP数据库1.67版本的60 849个蛋白质结构域超家族的相互作用基序(7). SCOP数据库中的所有1731个有问题的条目都不能用于我们的数据库，因为计算中存在虚假值，或者保守残基缺乏空间相互作用，或者缺少同系物或只有C的条目^α协调。对于SCOP数据库中已考虑的超家族中的每个结构成员，分别识别同源序列。在查询氨基酸交换矩阵后，为对齐位置提供平均相似性得分(16). 平均相似度得分大于50的相邻残基被视为保守残基或基序。这些图案被映射到结构超家族成员上，以检查它们之间的空间邻近性。通过计算描述相互作用强度的赝能，进一步检验了成对的守恒残基(13). 空间相互作用的图案映射到超家族的排列上，以进一步识别整个超家族中保守的空间相互作用图案[有关详细信息，请参阅帮助网页和(12,13)]. PDB数据库（2005年5月发布）中提交的所有22648个蛋白质结构都提供了相互作用基序。iMOTdb属于60 849个蛋白质结构域的854 488个基序，对应于SCOP 1.67数据库(7).

数据库的特点

蛋白质结构中确定的空间相互作用基序在序列比对和结构上进行映射和彩色编码[使用MOLSCRIPT(17)和CHIME（MDL Information Systems，Inc.）]。
所有可能的基序对之间的空间相互作用程度以对称矩阵的形式提供，其中的值被描述为伪能量(13). 通过对已知结构基序进行基准测试，将伪能量分为强（优于−125）、中（介于−125和−50之间）和弱（低于−50），并相应地进行颜色编码。
提供了关于单个基序的结构信息，包括二级结构中基序的存在、溶剂可及性模式和超家族成员之间的位置变化（反映为均方根偏差）。
该数据库为用户提供了使用SCANMOT服务器中选定的交互基序搜索基因组数据库的选项(18)并使用PHIBLAST(19).
指向其他在线资源的超链接，如PROSITE(11)、CKAAPsDB(20)、打印和(21)电子MOTIFS(22)，以便直接比较基序定义和肽签名(23)可能是可能的。

应用

空间相互作用的图案对结构和/或功能至关重要。它们有助于在基因组数据库中搜索遥远的同源物，并在大部分未分配序列之间建立遥远的同源性。大量蛋白质结构中结构基序信息的可用性应作为进行详细分析、合理设计蛋白质折叠、定点突变实验以及了解蛋白质作用机制和构象变化的起点。iMOTdb数据库可以从以下位置访问http://caps.ncbs.res.in/imotdb（网址：http://caps.ncbs.res.in/imotdb）/.

致谢

R.S.是英国Wellcome信托基金会的高级研究员。我们也感谢NCBS（TIFR）提供的财政和基础设施支持。G.P.的逗留得到了英国Wellcome Trust的支持。支付本文开放存取出版费用的资金由英国Wellcom Trust提供。

利益冲突声明。未声明。

参考文献

1Anfinsen C.B.控制蛋白质链折叠的原则。科学。1973;181:223–230.[公共医学][谷歌学者]

2Rossmann M.G.，Argos P.蛋白质结构分类。分子生物学杂志。1977;109:99–129.[公共医学][谷歌学者]

三。理查森J.S.蛋白质结构的解剖和分类。高级保护。化学。1981;34:167–339.[公共医学][谷歌学者]

4决定蛋白质结构的原理。每年。生物化学评论。1984;53:537–572.[公共医学][谷歌学者]

5Holm L.、Sander C.使用Dali/FSSP游览蛋白质折叠空间。核酸研究。1998;26:316–319. [PMC免费文章][公共医学][谷歌学者]

6Overington J.、Johnson M.S.、Sali A.、Blundell T.L.蛋白质进化多样性的第三级结构约束：模板、关键残基和结构预测。程序。生物科学。1990;B241型:132–145.[公共医学][谷歌学者]

7Murzin A.G.、Brenner S.E.、Hubbard T.、Chothia C.SCOP：用于序列和结构研究的蛋白质数据库的结构分类。分子生物学杂志。1995;247:536–540.[公共医学][谷歌学者]

8Orengo C.A.、Michie A.D.、Jones S.、Jones D.T.、Swindells M.B.、Thornton J.M.CATH-蛋白质结构的层次分类。结构。1997;5:1093–1108.[公共医学][谷歌学者]

9Chakrabarti S.、Venkataramanan K.、Sowdhamini R.SMoS：超家族结构模体数据库。蛋白质工程。2003;16:791–793.[公共医学][谷歌学者]

10Bhaduri A.、Pugalenthi G.、Sowdhamini R.PASS2：作为结构超家族组织的蛋白质比对的自动化数据库。BMC生物信息学。2004;5:35. [PMC免费文章][公共医学][谷歌学者]

11Falquet L.、Pagni M.、Bucher P.、Hulo N.、Sigrist C.J.、Hofmann K.、Bairoch A.PROSITE数据库，2002年状态。核酸研究。2002;30:235–238. [PMC免费文章][公共医学][谷歌学者]

12Bhaduri A.、Ravishankar R.、Sowdhamini R.保存蛋白质超家族的空间相互作用基序：应用于基因组数据的折叠识别和功能注释。蛋白质。2004;54:657–670.[公共医学][谷歌学者]

13.Bhaduri A.、Pugalenthi G.、Gupta N.、Sowdhamini R.iMOT：用于选择空间交互主题的交互式软件包。核酸研究。2004;32：W602–W605。 [PMC免费文章][公共医学][谷歌学者]

14Bennett S.P.、Nevill-Manning C.G.、Brutlag D.L.3MOTIF：可视化蛋白质结构数据库中的保守蛋白质序列模体。生物信息学。2003;19:541–542.[公共医学][谷歌学者]

15Berman H.M.、Westbrook J.、Feng Z.、Gilliland G.、Bhat T.N.、Weissig H.、Shindyalov I.N.、Bourne P.E.蛋白质数据库。核酸研究。2000;28:235–242. [PMC免费文章][公共医学][谷歌学者]

16Johnson M.S.，Overington J.P.，Blundell T.L.使用结构模板数据库进行比对和搜索常见的蛋白质折叠。分子生物学杂志。1993;231:735–752.[公共医学][谷歌学者]

17Kraulis P.J.MOLSCRIPT：一个生成蛋白质结构详细和示意图的程序。J.应用。Crystallogr公司。1991;24:946–950. [谷歌学者]

18Chakrabarti S.、Anand A.P.、Bhardwaj N.、Pugalenthi G.、Sowdhamini R.SCANMOT：使用多序列基序的同时扫描搜索相似序列。核酸研究。2005;33：W274–W276。 [PMC免费文章][公共医学][谷歌学者]

19Zhang Z.、Schaffer A.A.、Miller W.、Madden T.L.、Lipman D.J.、Koonin E.V.、Altschul S.F.使用模式作为种子进行蛋白质序列相似性搜索。核酸研究。1998;26:3986–3990. [PMC免费文章][公共医学][谷歌学者]

20Li W.W.、Reddy B.V.、Tate J.G.、Shindyalov I.N.、Bourne P.E.CKAAP数据库：保守的关键氨基酸位置数据库。核酸研究。2002;30:409–411. [PMC免费文章][公共医学][谷歌学者]

21Attwood T.K.PRINTS数据库：蛋白质家族鉴定的资源。简介。生物信息。2002;三:252–263.[公共医学][谷歌学者]

22黄J.Y.，Brutlag D.L.EMOTIF数据库。核酸研究。2001;29:202–204. [PMC免费文章][公共医学][谷歌学者]

23Prakash T.、Khandelwal M.、Dasgupta D.、Dash D.、Brahmachari S.K.CoPS：综合肽特征数据库。生物信息学。2004;20:2886–2888.[公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社