跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2004年1月1日;32(数据库问题):D138–D141。
数字对象标识:10.1093/nar/gkh121
预防性维修识别码:项目经理308855
PMID:14681378

Pfam蛋白质家族数据库

摘要

Pfam是蛋白质家族和结构域的大型集合。在过去两年里,Pfam的家庭数量翻了一番,目前为6190个(版本10.0)。描述了在本地以及通过web搜索Pfam集合的方法改进。最近的其他创新包括不连续域建模,使Pfam域定义更接近结构数据库中的定义。Pfam在英国的网站上提供(http://www.sanger.ac.uk/Software/Pfam/),美国(http://pfam.wustl.edu/),法国(http://pfam.jouy.inra.fr/)和瑞典(网址:http://Pfam.cgb.ki.se/).

简介

Pfam是一个蛋白质结构域和家族的综合集合,具有广泛的既定用途,包括基因组注释。Pfam中的每个家族都由两个多序列比对和两个轮廓-Hidden Markov模型(轮廓-HMM)表示。Pfam的功能、使用和理念已在以前的出版物中讨论过(1,2)这里不再详细讨论。在下面的部分中,我们描述了过去两年中对数据库所做的最重要的改进。

PFAM的增长

截至10.0版,Pfam包含6190个Pfam家族。Pfam家族匹配Swiss-Prot和TrEMBL中75%的蛋白质序列()(占所有残留物的53%)。相比之下,2年前的6.6版本中有3071个家庭和69%的覆盖率(2). 对于那些不属于任何Pfam家族的蛋白质序列,我们推导出自动生成的Pfam-B家族。Pfam-B系列源自ProDom(4),一组由Swiss Prot和TrEMBL序列数据库自动生成的蛋白质结构域家族。许多多域蛋白质序列包含(非重叠)与Pfam和Pfam-B家族的匹配。Pfam和Pfam-B的组合涵盖了Swiss-Prot和TrEMBL中82%的蛋白质序列。现在,每个Pfam版本都建立在Swiss-Pro和TrEMPL的最新版本上,最大限度地减少了过时序列条目的问题。

Pfam有两大系列功能无特征的家族,称为未知功能域(DUF)和无特征蛋白家族(UPF)。DUF是由Pfam创建的族,而UPF是由Swiss-Prot创建并添加到Pfam的族。通过跟踪DUF和UPF的数量,我们可以了解到Pfam中有多少家庭没有特征化,以及这个数字是如何随时间变化的。截至Pfam 6.6,在3071个家庭中,有272个DUF和UPF家庭。Pfam 10.0版包含6190个DUF和UPF家族中的1004个。原始272份中的89份已作了注释。其中,20个与其他家族合并,69个用函数注释。因此,平均每个月大约有37个未知函数的新域被添加到Pfam中,其中6个用函数注释。Pfam数据库中DUF和UPF家族的比例从9%增加到16%。然而,与注释家庭的点击量相比,DUF和UPF与Swiss-Prot匹配的数量在这段时间内只略有增加。这反映了完全未描述的家族越来越趋向于小且仅限于少数基因组。

为了应对增加的计算负担,使家庭数量翻倍,从而产生了轮廓-HMM,我们有两项创新来帮助用户。首先,用于构建和搜索Pfam的免费profile-HMM软件HMMER已升级到2.3版衍生(当前版本为2.3.1,请参阅http://hmmer.wustl.edu). HMMER 2.3与以前版本的主要区别在于,由于性能优化,在大多数平台上的速度提高了2到3倍,而在Mac OS/X上,由于斯坦福大学的Erik Lindahl提供的代码,速度提高了约8倍。这些性能改进加速了Pfam搜索,并有助于跟上数据库不断增长的速度。其次,用户现在可以在英国网络服务器上一次执行多达1000个序列的批量搜索,搜索结果通过电子邮件返回。此服务意味着具有中等要求的用户无需安装Pfam和HMMER的本地副本。

PFAM中畴的改进模型

Pfam的目标是成为准确的蛋白质域定义的数据库。在过去的两年里,我们将许多现有家庭划分为结构域。与结构蛋白域数据库SCOP的合作(5)和CATH(6)已启用领域比较工具的开发来帮助此过程(参见图。图1)。1). 该工具允许将CATH和SCOP定义的结构域架构(architecture)之间的关系与Pfam进行比较。这样的比较有助于确保三个独立数据库中域定义的一致性,并有助于在公共级别进行链接。域比较工具使用web服务根据用户请求从CATH和SCOP检索域边界。这些web服务由每个数据库维护,确保数据最新,并将数据库版本之间的差异降至最低。Web用户可以使用Rasmol或RasWin查看根据域边界标记的结构(7).

保存图片、插图等的外部文件。对象名为gkh121f1.jpg

Pfam、SCOP和CATH域定义的比较S公司-腺苷甲硫氨酸合成酶。SCOP和Pfam的定义非常相似,但与CATH更严格的结构定义截然不同。可以在每个数据库的结构级别上比较这些定义。右侧的两个Rasmol窗口显示了CATH定义上方的Pfam定义。

Pfam和结构数据库之间的域定义存在显著差异的一个方面是由于SCOP和CATH中定义的域不连续。不连续域是指域的线性序列被另一个插入域中断的域。例如,在GuaB蛋白中发现IMPDH结构域(Pfam加入PF00478)是一个连续结构域,在肌苷单磷酸脱氢酶中有一对插入的CBS结构域(PF00571)。目前,Pfam中有29个不连续畴。通过强制轮廓-HMM允许插入的域作为长插入来实现不连续域的建模。我们通过使用HMMER软件中的–hand选项以及#=GC RF线来实现这一点。为了清楚起见,插入域的序列也用X字符屏蔽,并且在平面文件中用NE标记指示嵌套域的存在。这种改进的模型可以更准确地描述蛋白质结构中的不连续结构域,并提高了搜索灵敏度。

改善家庭成员

为了给用户提供更统一的蛋白质域视图,我们实施了两项基于网络的创新。首先,蛋白质结构域的SMART数据库(8)Pfam和Pfam都包含许多其他人无法获得的条目,在其他情况下,家庭成员身份差异显著。这两个数据库交换匹配列表,并在Pfam和SMART网站上显示这些匹配。

其次,我们应用了语音识别中的语言建模技术来识别弱域点击(9). 当HMMER得分低于策划阈值时,通常在蛋白质的其他域点击中包含足够的上下文信息,以将该得分提高到阈值以上。语言建模作为后处理步骤应用于所有E值<1000的HMMER识别匹配集。在考虑HMMER和上下文得分的情况下,使用动态编程算法来找到蛋白质的最高得分结构域。我们以这种方式发现了32587个额外的域出现,占Pfam 10.0版中额外0.5%的残留覆盖率。

改进的结构图像

尽管Pfam条目数量大幅增加,但只有略多于三分之一的条目包含至少一种已知3D结构的蛋白质。此前,Pfam很好地使用了PDBsum数据库提供的结构图像(10). 为了使图像更具关于Pfam的信息,我们现在通过Pfam域给结构着色。通过将PDB序列映射到EBI大分子结构数据库(E-MSD)提供的Swiss-Prot序列,这种结构域标记得到了极大的帮助(11). 静态图像是使用Molscript生成的(12)并使用Raster3D进行渲染(13). 每个图像都附有结构的简要描述,然后是域标记键,其中包含指向结构中所有域的家族页面的链接(图。(图22).

保存图片、插图等的外部文件。对象名为gkh121f2.jpg

由Pfam域着色的结构图像,包括下面的彩色域键。该结构显示P27、cyclin和CDK2的复合物。单击图像链接到PDBsum资源(10).

可利用性

Pfam数据库在英国的网站上免费提供(http://www.sanger.ac.uk/Software/Pfam/),美国(http://pfam.wustl.edu/),法国(http://pfam.jouy.inra.fr/)和瑞典(网址:http://Pfam.cgb.ki.se/). 所有数据都可以从每个Pfam网站链接的FTP站点以平面文件的形式下载,也可以作为一组MySQL关系数据库文件下载。

致谢

我们要感谢威廉·米夫苏德(William Mifsud)、尼古拉·凯里森(Nicola Kerrison)、大卫·沃特菲尔德(David Waterfield)和本·维拉·布里法(Ben Vella Briffa)为Pfam增加了许多新家庭。我们感谢凯文·豪的有益讨论和建议。我们还要感谢蒂莫·拉斯曼(Timo Lassmann)和马库斯·维斯特兰德(Markus Wistrand)帮助维护瑞典Pfam网站,感谢洛伦佐·塞鲁蒂(Lorenzo Cerutti)维护法国Pfam的网站。这项工作由Wellcome信托基金和MRC(英国)电子科学基金资助。

参考文献

1Bateman A.、Birney E.、Durbin R.、Eddy S.R.、Howe K.L.和Sonnhammer E.L.(2000)《Pfam蛋白质家族数据库》。核酸研究。,28, 263–266.[PMC免费文章][公共医学][谷歌学者]
2Bateman A.、Birney E.、Cerruti L.、Durbin R.、Etwiller L.、Eddy S.R.、Griffiths-Jones S.、Howe K.L.、Marshall M.和Sonnhammer E.L.(2002)《Pfam蛋白质家族数据库》。核酸研究。,30, 276–280.[PMC免费文章][公共医学][谷歌学者]
三。Boeckmann B.、Bairoch A.、Apweiler R.、Blatter M.C.、Estreicher A.、Gasteiger E.、Martin M.J.、Michoud K.、O'Donovan C.、Phan I。(2003)2003年,SWISS-PROT蛋白质知识库及其补充TrEMBL。核酸研究。,31, 365–370.[PMC免费文章][公共医学][谷歌学者]
4Corpet F.、Servant F.、Gouzy J.和Kahn D.(2000)《ProDom和ProDom-CG:蛋白质域分析和全基因组比较的工具》。核酸研究。,28, 267–269.[PMC免费文章][公共医学][谷歌学者]
5Lo Conte L.、Brenner,S.E.、Hubbard,T.J.、Chothia,C.和Murzin,A.G.(2002)2002年的SCOP数据库:改进适应结构基因组学。核酸研究。,30, 264–267.[PMC免费文章][公共医学][谷歌学者]
6Pearl F.M.、Bennett,C.F.、Bray,J.E.、Harrison,A.P.、Martin,N.、Shepherd,A.、Sillitoe,I.、Thornton,J.和Orengo,C.A.(2003)CATH数据库:结构和功能基因组学的扩展蛋白质家族资源。核酸研究。,31, 452–455.[PMC免费文章][公共医学][谷歌学者]
7Sayle R.和Milner-White,E.(1995)RASMOL:面向所有人的生物分子图形。生物化学趋势。科学。,20, 374–374. [公共医学][谷歌学者]
8Letunic I.、Goodstadt,L.、Dickens,N.J.、Doerks,T.、Schultz,J.、Mott,R.、Ciccarelli,F.、Copley,R.R.、Ponting,C.P.和Bork,P.(2002)《基于SMART域的序列注释资源的最新改进》。核酸研究。,30, 242–244.[PMC免费文章][公共医学][谷歌学者]
9Coin L.,Bateman,A.和Durbin,R.(2003)通过使用语音识别的语言建模技术增强蛋白质域发现。程序。美国国家科学院。科学。美国,100, 4516–4520.[PMC免费文章][公共医学][谷歌学者]
10Laskowski R.A.(2001)PDBsum:PDB结构的总结和分析。核酸研究。,29, 221–222.[PMC免费文章][公共医学][谷歌学者]
11Boutselakis H.、Dimitropoulos D.、Fillon J.、Golovin A.、Henrick K.、Hussain A.、Ionides J.、John M.、Keller P.A.、Krissinel E。(2003)E-MSD:欧洲生物信息学研究所大分子结构数据库。核酸研究。,31, 458–462.[PMC免费文章][公共医学][谷歌学者]
12Kraulis P.(1991)MOLSCRIPT:生成蛋白质结构的详细和示意图的程序。J.应用。结晶器。,24, 946–950.[谷歌学者]
13Bacon D.和Anderson,W.(1988)绘制填空分子图像的快速算法。J.摩尔图。,6,219–220。[谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社