跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2000年1月1日;28(1): 267–269.
数字对象标识:10.1093/nar/28.1267
预防性维修识别码:项目编号12458
采购管理信息:10592243

ProDom和ProDom-CG:蛋白质域分析和全基因组比较工具

关联数据

补充资料

摘要

ProDom包含从SWISS-PROT和TrEMBL序列数据库自动生成的所有蛋白质域家族(http://www.toulouse(图卢兹)。inra.fr/prodom.html)。ProDom-CG的结果来自于应用于完整基因组的类似域分析(http://www.toulouse.ina.fr/prodomCG.html ). ProDom数据库及其服务器的最新改进包括:扩大规模以包括TrEMBL中的序列,将Pfam-A条目添加到经专家验证的系列集合中,分配稳定的登录号,域系列的一致性指标,子系列的域安排和到Pfam-A的链接。

简介

ProDom是通过自动分析可用蛋白质序列数据获得的蛋白质结构域家族数据库(1,2). 它有助于分析复杂蛋白质家族的结构域排列,并有助于对模块蛋白质的同源关系进行分析。同源结构域的聚类为组织蛋白质序列数据提供了一种合理的方法。设计了一个交互式图形界面,以便在示意性域排列、多重比对、系统发育树、SWISS-PROT条目之间轻松导航(),PROSITE模式(4)、Pfam-A系列(5)以及PDB中的三维结构(6). 可以减少或发展路线和树,以便于分析大型域族中的序列关系(7). 可以根据ProDom搜索新序列,并与现有的域家族对齐,并基于PDB中的同源域进行建模。

最近,我们扩大了这个过程,将TrEMBL序列包含在源数据库中。我们还将Pfam-A族添加到ProDom施工程序中使用的专家验证族集合中。ProDom最近的其他改进使得在连续的释放中跟踪蛋白质家族变得更加容易。

建筑ProDom

自版本35以来,构建ProDom的自动化过程得到了专业知识的补充。对于一些域族,要求专家更正域边界。为了增加这些经专家验证的家庭的数量,我们使用了Pfam的管理部分(5):1403个Pfam-A家族的种子比对被添加到21个ProDom专家验证的多重比对列表中,并用于通过PSI-BLAST计划构建新的ProDom家族(8). 如前所述,其他系列使用基于递归使用PSI-BLAST的自动化过程构建(2,9). 这个过程可以应用于任何一组蛋白质序列,只要有足够的序列可用于检测域边界。自99.1版以来,ProDom源数据库是SWISS-PROT及其TrEMBL补充(). 一组可用的完整基因组也用于构建ProDom-CG;第20版是通过对1999年4月8日获得的20个完整基因组的蛋白质域进行自动聚类而构建的:4个古生菌、14个细菌和2个真核生物。

ProDom统计

ProDom 99.2版包含157 167个族(表(表1)。1). ProDom覆盖了源数据库中95%以上的残留物。TrEMBL的加入意味着源数据库增加了2.4倍。ProDom建设过程逐步扩大,没有出现重大困难,结果稳定。每个序列的平均域数保持稳定,接近每个序列的三个域,呈指数分布(图1a) ●●●●。令人惊讶的是,ProDom中的域长度也显示出指数分布(图。(图1b),1b) 与以平均值为中心的更均衡分布的期望相反。因此,在ProDom中,短“域”在其当前状态下被过度表示,这可能是由于自动化过程生成的大量序列末端和域间链接器造成的。在所有ProDom序列残基中,有56%存在于含有10个或更多成员的家族中。有6264个ProDom条目链接到1462个Pfam-A条目(v4.0),5787个链接到1056个PROSITE条目(v15),2378个链接到PDB。

保存图片、插图等的外部文件。对象名称为gkd07601.jpg

()ProDom 99.2中每个序列的域数分布。(b条)ProDom 99.2中单个结构域的氨基酸长度分布。

表1。

ProDom版本比较
ProDom版本3699.199.2
发布日期08/27/199801/13/199907/23/1999
源数据库(非片段序列)SP36标准SP36+TrEMBL+TrEMPL更新10/17/1998SP37+TrEMBL+TrEMPL更新日期:1999年4月26日
序列数66 756158 880170 648
残留物数量25 356 08761 545 34466 703 627
ProDom域名家族57 976149 606157 167
序列覆盖率95.9%95.4%95.6%
每个序列的平均域数2.73.32.8
平均结构域长度(残数)136112132
至少有两个成员的ProDom域系列17 77744 34543 965
序列覆盖率77.4%76.1%76.6%
平均结构域长度(残数)141111138

最近的ProDom改进

加入号码

现在,每个ProDom条目都有一个唯一且稳定的登录号(AC),可以跨后续版本访问同一域系列。这些数字由字母PD后面紧跟六位数字组成(例如PD002243)。由于ProDom每次都是重新构建的,所以域家族在各个版本之间并不是完全保持不变的。我们已经衍生出一个工具,用于链接发布中的族n个给获释的家属n个–1.对于发布中的每个家庭n个,它搜索与发布系列的重叠n个–1;它使用重叠中涉及的子序列的绝对数和相对数按降序对点击进行排序;AC编号通过选择列表中的第一个可用编号进行分配,如果没有剩余编号,则分配新的AC。

一致性指示器

由于ProDom族是通过自动过程计算的,因此序列同质性在族之间可能会有很大差异。一些家族可能包括数百个几乎相同或非常分散的序列。我们引入了两个衡量族一致性的指标:直径和回转半径。直径是族中两个域之间的最大距离。回转半径是每个域和族一致序列之间距离的加权均方根。为了帮助选择一个能很好地代表家族的序列,我们还指出哪个序列最接近共识。在43 965个包含至少两个序列的ProDom家族中,24%的家族直径<10 PAM,90%的家族直径<240 PAM;30%的患者半径<10 PAM,90%<71 PAM。直径分布(图。(图2)2)显示了两种模式,表示ProDom中有两类族。在第一类中,域过于相似,表明源数据库中存在序列冗余。在第二类中,家族是真正复杂的,包括更多发散的同源结构域。

保存图片、插图等的外部文件。对象名称为gkd07602.jpg

直径分布()和回转半径(b条)ProDom系列(99.2版)。请注意,这两个分布的第一个点都在范围之外:5411个族完全冗余,直径为0 PAM。

图形表示

如前所述(2)ProDom Web服务器提供蛋白质结构域排列的图形表示。每个蛋白质都显示在一行上,带有与相应ProDom条目超文本链接的示意框。每个域系列都有一个唯一的表示,该表示与ProDom登录号相链接,从而确保其在连续发布之间的稳定性。共享同源结构域的所有蛋白质的结构域排列的图形表示可能很大,而且很难理解。由于ProDom家族可以按照系统发育树划分为亚家族,因此现在可以显示同一亚家族中所有蛋白质的结构域排列。例如,ProDom域PD000612包括同源氧化还原酶的细胞色素b5和血红素结合域的94个序列:用户可以很容易地显示特定于42个硝酸还原酶或三个亚硫酸盐氧化酶的蛋白质域排列(请参阅补充材料中的ProDom WWW服务器使用示例)。

将ProDom用于基因组项目

ProDom被广泛用于分析基因组序列中的蛋白质结构域关系。例如,马科特系统地使用ProDom. (10)为了根据“罗塞塔石”序列组合推断蛋白质-蛋白质相互作用。系统使用ProDom的另一个例子涉及结构基因组学。最近出现了几个旨在对蛋白质结构宇宙进行系统研究的项目(参见http://www.nih.gov/nigms/news/meetings/structure_genomics_targets.html)。这些项目需要一个全面的蛋白质家族分类方案,以便对蛋白质结构空间进行充分采样。我们在蛋白质结构倡议的框架内为这一计划作出了贡献(http://www.genome3d.org ). 根据以下标准为2587个ProDom家族选择用于结构测定的靶蛋白:(i)没有可用的三维结构;(ii)他们至少有两名成员(真正的家庭);(iii)它们包含至少一种只有一个结构域的蛋白质,短于500个氨基酸(ProDom结构域跨度正确);(iv)家族中最遥远的两个序列至少有10%的同源性(家族是同质的)。建议的靶点是单域蛋白质,最好是人类。单结构域蛋白质的选择消除了设计特定结构域的需要,并且应该使表达和纯化更容易实现。

另一项共同努力是InterPro项目,旨在为蛋白质家族整合资源(网址:http://www.ebi.ac。英国/国际刑警组织)。我们选择了2883个ProDom系列,这些系列似乎是InterPro中记录的新系列的理想候选。它们是根据以下标准选择的:(i)项目15.0中未提及它们;(ii)至少有两名成员;(iii)它们包含来自SWISS-PROT的至少一个单域蛋白质,短于500个氨基酸;(iv)家族中最远序列之间的相似性介于10%和90%之间(家族是同质的,但没有过度冗余)。这些标准确保为每个新族都定义了域边界。

可利用性

可通过匿名FTP网站获得:ftp://ftp.toulouse.inra.fr/pub/prodom公司

或WWW服务器:http://www.toulouse.inra.fr/prodom.html

http://www.toulouse.ina.fr/prodomCG.html

补充材料

参见NAR Online上的补充材料。

【补充资料】

参考文献

1Sonnhammer E.L.L.和Kahn,D.(1994)蛋白质科学。,, 482–492.[PMC免费文章][公共医学][谷歌学者]
2Corpet F.、Gouzy,J.和Kahn,D.(1999)核酸研究。,27, 263–267.[PMC免费文章][公共医学][谷歌学者]
三。Bairoch A.和Apweiler,R.(1999)核酸研究。,27, 49–54. 本期更新文章:核酸研究. (2000),28, 45–48.[谷歌学者]
4Hofmann K.、Bucher,P.、Falquet,L.和Bairoch,A.(1999)核酸研究。,27, 215–219.[PMC免费文章][公共医学][谷歌学者]
5Bateman A.、Birney,E.、Durbin,R.、Eddy,S.R.、Finn,R.D.和Sonnhammer,E.L.L.(1999年)核酸研究。,27, 260–262. 本期更新文章:核酸研究. (2000),28, 263–266.[谷歌学者]
6Abola E.E.、Bernstein F.C.、Bryant S.H.、Koetzle T.F.和Weng J.(1987)在Allen F.H.、Bergerhoff G.和Sievers R.(编辑)中,结晶数据库-信息内容,软件系统,科学应用《国际结晶学联合会数据委员会》,波恩/剑桥/切斯特,第107–132页。
7Corpet F.、Gouzy,J.和Kahn,D.(2000年)生物信息学,正在印刷中。[谷歌学者]
8Altschul S.F.,Madden,T.L.,Schäffer,A.A.,Zhang,J.,Z.,Miller,W.和Lipman,J.L.(1997)核酸研究。,25, 3389–3402.[PMC免费文章][公共医学][谷歌学者]
9Gouzy J.、Corpet,F.和Kahn,D.(1999)计算机化学。,23, 333–340. [公共医学][谷歌学者]
10Marcotte E.M.、Pellegrini、M、Ng、H.L.、Rice、D.W.、Yeates、T.O.和Eisenberg,D.(1999)科学类,285, 751–753. [公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社