The Pfam protein families database

Alex Bateman; Lachlan Coin; Richard Durbin; Robert D. Finn; Volker Hollich; Sam Griffiths-Jones; Ajay Khanna; Mhairi Marshall; Simon Moxon; Erik L. L. Sonnhammer; David J. Studholme; Corin Yeats; Sean R. Eddy

doi:10.1093/nar/gkh121

核酸研究。2004年1月1日；32（数据库问题）：D138–D141。

数字对象标识：10.1093/nar/gkh121

预防性维修识别码：项目经理308855

PMID：14681378

Pfam蛋白质家族数据库

亚历克斯·贝特曼,^* 拉克伦货币,德宾,罗伯特·D·芬恩,沃尔克·霍利奇,¹ 萨姆·格里菲斯·琼斯,阿杰·坎纳,² 马歇尔,西蒙·莫克森,埃里克·L·L·桑纳默,¹ 大卫·J·斯塔德霍姆,科林·叶芝、和肖恩·埃迪²

作者信息文章注释版权和许可信息 PMC免责声明

摘要

Pfam是蛋白质家族和结构域的大型集合。在过去两年里，Pfam的家庭数量翻了一番，目前为6190个（版本10.0）。描述了在本地以及通过web搜索Pfam集合的方法改进。最近的其他创新包括不连续域建模，使Pfam域定义更接近结构数据库中的定义。Pfam在英国的网站上提供(http://www.sanger.ac.uk/Software/Pfam/)，美国(http://pfam.wustl.edu/)，法国(http://pfam.jouy.inra.fr/)和瑞典(网址：http://Pfam.cgb.ki.se/).

简介

Pfam是一个蛋白质结构域和家族的综合集合，具有广泛的既定用途，包括基因组注释。Pfam中的每个家族都由两个多序列比对和两个轮廓-Hidden Markov模型（轮廓-HMM）表示。Pfam的功能、使用和理念已在以前的出版物中讨论过(1,2)这里不再详细讨论。在下面的部分中，我们描述了过去两年中对数据库所做的最重要的改进。

PFAM的增长

截至10.0版，Pfam包含6190个Pfam家族。Pfam家族匹配Swiss-Prot和TrEMBL中75%的蛋白质序列(三)（占所有残留物的53%）。相比之下，2年前的6.6版本中有3071个家庭和69%的覆盖率(2). 对于那些不属于任何Pfam家族的蛋白质序列，我们推导出自动生成的Pfam-B家族。Pfam-B系列源自ProDom(4)，一组由Swiss Prot和TrEMBL序列数据库自动生成的蛋白质结构域家族。许多多域蛋白质序列包含（非重叠）与Pfam和Pfam-B家族的匹配。Pfam和Pfam-B的组合涵盖了Swiss-Prot和TrEMBL中82%的蛋白质序列。现在，每个Pfam版本都建立在Swiss-Pro和TrEMPL的最新版本上，最大限度地减少了过时序列条目的问题。

Pfam有两大系列功能无特征的家族，称为未知功能域（DUF）和无特征蛋白家族（UPF）。DUF是由Pfam创建的族，而UPF是由Swiss-Prot创建并添加到Pfam的族。通过跟踪DUF和UPF的数量，我们可以了解到Pfam中有多少家庭没有特征化，以及这个数字是如何随时间变化的。截至Pfam 6.6，在3071个家庭中，有272个DUF和UPF家庭。Pfam 10.0版包含6190个DUF和UPF家族中的1004个。原始272份中的89份已作了注释。其中，20个与其他家族合并，69个用函数注释。因此，平均每个月大约有37个未知函数的新域被添加到Pfam中，其中6个用函数注释。Pfam数据库中DUF和UPF家族的比例从9%增加到16%。然而，与注释家庭的点击量相比，DUF和UPF与Swiss-Prot匹配的数量在这段时间内只略有增加。这反映了完全未描述的家族越来越趋向于小且仅限于少数基因组。

为了应对增加的计算负担，使家庭数量翻倍，从而产生了轮廓-HMM，我们有两项创新来帮助用户。首先，用于构建和搜索Pfam的免费profile-HMM软件HMMER已升级到2.3版衍生（当前版本为2.3.1，请参阅http://hmmer.wustl.edu). HMMER 2.3与以前版本的主要区别在于，由于性能优化，在大多数平台上的速度提高了2到3倍，而在Mac OS/X上，由于斯坦福大学的Erik Lindahl提供的代码，速度提高了约8倍。这些性能改进加速了Pfam搜索，并有助于跟上数据库不断增长的速度。其次，用户现在可以在英国网络服务器上一次执行多达1000个序列的批量搜索，搜索结果通过电子邮件返回。此服务意味着具有中等要求的用户无需安装Pfam和HMMER的本地副本。

PFAM中畴的改进模型

Pfam的目标是成为准确的蛋白质域定义的数据库。在过去的两年里，我们将许多现有家庭划分为结构域。与结构蛋白域数据库SCOP的合作(5)和CATH(6)已启用领域比较工具的开发来帮助此过程（参见图。图1）。1). 该工具允许将CATH和SCOP定义的结构域架构（architecture）之间的关系与Pfam进行比较。这样的比较有助于确保三个独立数据库中域定义的一致性，并有助于在公共级别进行链接。域比较工具使用web服务根据用户请求从CATH和SCOP检索域边界。这些web服务由每个数据库维护，确保数据最新，并将数据库版本之间的差异降至最低。Web用户可以使用Rasmol或RasWin查看根据域边界标记的结构(7).

在单独的窗口中打开

图1

Pfam、SCOP和CATH域定义的比较S公司-腺苷甲硫氨酸合成酶。SCOP和Pfam的定义非常相似，但与CATH更严格的结构定义截然不同。可以在每个数据库的结构级别上比较这些定义。右侧的两个Rasmol窗口显示了CATH定义上方的Pfam定义。

Pfam和结构数据库之间的域定义存在显著差异的一个方面是由于SCOP和CATH中定义的域不连续。不连续域是指域的线性序列被另一个插入域中断的域。例如，在GuaB蛋白中发现IMPDH结构域（Pfam加入PF00478）是一个连续结构域，在肌苷单磷酸脱氢酶中有一对插入的CBS结构域（PF00571）。目前，Pfam中有29个不连续畴。通过强制轮廓-HMM允许插入的域作为长插入来实现不连续域的建模。我们通过使用HMMER软件中的–hand选项以及#=GC RF线来实现这一点。为了清楚起见，插入域的序列也用X字符屏蔽，并且在平面文件中用NE标记指示嵌套域的存在。这种改进的模型可以更准确地描述蛋白质结构中的不连续结构域，并提高了搜索灵敏度。

改善家庭成员

为了给用户提供更统一的蛋白质域视图，我们实施了两项基于网络的创新。首先，蛋白质结构域的SMART数据库(8)Pfam和Pfam都包含许多其他人无法获得的条目，在其他情况下，家庭成员身份差异显著。这两个数据库交换匹配列表，并在Pfam和SMART网站上显示这些匹配。

其次，我们应用了语音识别中的语言建模技术来识别弱域点击(9). 当HMMER得分低于策划阈值时，通常在蛋白质的其他域点击中包含足够的上下文信息，以将该得分提高到阈值以上。语言建模作为后处理步骤应用于所有E值<1000的HMMER识别匹配集。在考虑HMMER和上下文得分的情况下，使用动态编程算法来找到蛋白质的最高得分结构域。我们以这种方式发现了32587个额外的域出现，占Pfam 10.0版中额外0.5%的残留覆盖率。

改进的结构图像

尽管Pfam条目数量大幅增加，但只有略多于三分之一的条目包含至少一种已知3D结构的蛋白质。此前，Pfam很好地使用了PDBsum数据库提供的结构图像(10). 为了使图像更具关于Pfam的信息，我们现在通过Pfam域给结构着色。通过将PDB序列映射到EBI大分子结构数据库（E-MSD）提供的Swiss-Prot序列，这种结构域标记得到了极大的帮助(11). 静态图像是使用Molscript生成的(12)并使用Raster3D进行渲染(13). 每个图像都附有结构的简要描述，然后是域标记键，其中包含指向结构中所有域的家族页面的链接（图。（图22).

在单独的窗口中打开

图2

由Pfam域着色的结构图像，包括下面的彩色域键。该结构显示P27、cyclin和CDK2的复合物。单击图像链接到PDBsum资源(10).

可利用性

Pfam数据库在英国的网站上免费提供(http://www.sanger.ac.uk/Software/Pfam/)，美国(http://pfam.wustl.edu/)，法国(http://pfam.jouy.inra.fr/)和瑞典(网址：http://Pfam.cgb.ki.se/). 所有数据都可以从每个Pfam网站链接的FTP站点以平面文件的形式下载，也可以作为一组MySQL关系数据库文件下载。

致谢

我们要感谢威廉·米夫苏德（William Mifsud）、尼古拉·凯里森（Nicola Kerrison）、大卫·沃特菲尔德（David Waterfield）和本·维拉·布里法（Ben Vella Briffa）为Pfam增加了许多新家庭。我们感谢凯文·豪的有益讨论和建议。我们还要感谢蒂莫·拉斯曼（Timo Lassmann）和马库斯·维斯特兰德（Markus Wistrand）帮助维护瑞典Pfam网站，感谢洛伦佐·塞鲁蒂（Lorenzo Cerutti）维护法国Pfam的网站。这项工作由Wellcome信托基金和MRC（英国）电子科学基金资助。

参考文献

1Bateman A.、Birney E.、Durbin R.、Eddy S.R.、Howe K.L.和Sonnhammer E.L.（2000）《Pfam蛋白质家族数据库》。核酸研究。,28, 263–266.[PMC免费文章][公共医学][谷歌学者]

2Bateman A.、Birney E.、Cerruti L.、Durbin R.、Etwiller L.、Eddy S.R.、Griffiths-Jones S.、Howe K.L.、Marshall M.和Sonnhammer E.L.（2002）《Pfam蛋白质家族数据库》。核酸研究。,30, 276–280.[PMC免费文章][公共医学][谷歌学者]

三。Boeckmann B.、Bairoch A.、Apweiler R.、Blatter M.C.、Estreicher A.、Gasteiger E.、Martin M.J.、Michoud K.、O'Donovan C.、Phan I。等（2003）2003年，SWISS-PROT蛋白质知识库及其补充TrEMBL。核酸研究。,31, 365–370.[PMC免费文章][公共医学][谷歌学者]

4Corpet F.、Servant F.、Gouzy J.和Kahn D.（2000）《ProDom和ProDom-CG：蛋白质域分析和全基因组比较的工具》。核酸研究。,28, 267–269.[PMC免费文章][公共医学][谷歌学者]

5Lo Conte L.、Brenner，S.E.、Hubbard，T.J.、Chothia，C.和Murzin，A.G.（2002）2002年的SCOP数据库：改进适应结构基因组学。核酸研究。,30, 264–267.[PMC免费文章][公共医学][谷歌学者]

6Pearl F.M.、Bennett，C.F.、Bray，J.E.、Harrison，A.P.、Martin，N.、Shepherd，A.、Sillitoe，I.、Thornton，J.和Orengo，C.A.（2003）CATH数据库：结构和功能基因组学的扩展蛋白质家族资源。核酸研究。,31, 452–455.[PMC免费文章][公共医学][谷歌学者]

7Sayle R.和Milner-White，E.（1995）RASMOL：面向所有人的生物分子图形。生物化学趋势。科学。,20, 374–374. [公共医学][谷歌学者]

8Letunic I.、Goodstadt，L.、Dickens，N.J.、Doerks，T.、Schultz，J.、Mott，R.、Ciccarelli，F.、Copley，R.R.、Ponting，C.P.和Bork，P.（2002）《基于SMART域的序列注释资源的最新改进》。核酸研究。,30, 242–244.[PMC免费文章][公共医学][谷歌学者]

9Coin L.，Bateman，A.和Durbin，R.（2003）通过使用语音识别的语言建模技术增强蛋白质域发现。程序。美国国家科学院。科学。美国,100, 4516–4520.[PMC免费文章][公共医学][谷歌学者]

10Laskowski R.A.（2001）PDBsum:PDB结构的总结和分析。核酸研究。,29, 221–222.[PMC免费文章][公共医学][谷歌学者]

11Boutselakis H.、Dimitropoulos D.、Fillon J.、Golovin A.、Henrick K.、Hussain A.、Ionides J.、John M.、Keller P.A.、Krissinel E。等（2003）E-MSD：欧洲生物信息学研究所大分子结构数据库。核酸研究。,31, 458–462.[PMC免费文章][公共医学][谷歌学者]

12Kraulis P.（1991）MOLSCRIPT:生成蛋白质结构的详细和示意图的程序。J.应用。结晶器。,24, 946–950.[谷歌学者]

13Bacon D.和Anderson，W.（1988）绘制填空分子图像的快速算法。J.摩尔图。,6，219–220。[谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社