跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2002年1月1日;30(1): 276–280.
数字对象标识:10.1093/nar/30.1.276
预防性维修识别码:PMC99071型
PMID:11752314

Pfam蛋白家族数据库

摘要

Pfam是蛋白质多序列比对和剖面隐马尔可夫模型的大型集合。Pfam可在英国的万维网上获取,网址为http://www.sanger.ac.uk/Software/Pfam/,在瑞典http://www.cgb.ki.se/Pfam网站/,在法国网址:http://pfam.jouy.inra.fr/在美国http://pfam.wustl.edu/。Pfam的最新版本(6.6)包含3071个家族,与SWISS-PROT 39和TrEMBL 14中69%的蛋白质相匹配。在可用的情况下,已使用结构数据来确保Pfam族与结构域对应,并改进基于域的注释。现在还包括非域区域的预测。除了二级结构外,Pfam多序列比对现在还包含活性位点残留标记。新的搜索工具,包括分类法搜索和域查询,大大增加了Pfam资源的功能和可用性。

简介

Pfam是一个人工收集的蛋白质家族,可通过网络和平面文件形式获得(1). 基因组项目,包括人类和苍蝇,广泛使用Pfam对基因组数据进行大规模功能注释(2). 构建Pfam家族所围绕的多重序列比对是理解蛋白质结构和功能的重要工具,也是二级结构预测、折叠识别、系统发育分析和突变设计等技术的基础。Pfam(6.6)的最新版本包含3071个家族,与69%的序列相匹配,并覆盖序列数据库中49%的残基。

Pfam中的每个策展家庭都有一个种子和完整的排列。种子包含家族的代表性成员,而完全比对包含家族的所有成员,如使用HMMER2软件从种子比对构建的轮廓隐马尔可夫模型(HMM)所检测的(网址:http://hmmer.wustl.edu/). 完整比对可能很大,前20个族现在都包含2500多个序列。大多数已知的蛋白质序列仅来自数千个蛋白质家族。然而,为了全面起见,Pfam-A中的策展家庭由Pfam-B进行了扩充,这是一种从PRODOM数据库中自动生成的补充(4).

Pfam在世界各地有四个位置可用,每个位置都提供一组核心功能,用于访问每个家庭。Pfam在欧洲的万维网上提供,网址为http://www.sanger.ac.uk/Software/Pfam/(英国),http://www.cgb.ki.se/Pfam网站/(瑞典)和http://pfam.jouy.inra.fr/(法国),在美国http://pfam.wustl.edu/。有关Pfam内容和使用的文档可通过web获取。上述网站包含有关Pfam校准、标记和族注释的文档。Pfam中的路线采用斯德哥尔摩格式,详见http://www.cgb.ki.se/cgb/groups/sonnhammer/Stockholm.htmlHMMER软件记录在http://hmmer.wustl.edu/。

Pfam公告

Pfam以文本描述、其他资源链接和文献参考的形式包含每个家族的注释。Pfam是InterPro财团的成员(5)和其他成员数据库一样,为InterPro项目提供了注释和族。InterPro旨在提供各种蛋白质家族数据库的集成视图,其优势之一是通过合并每个成员的信息创建了一套全面的注释。InterPro注释通常比Pfam注释更全面,因此可以导入到Pfam网页中,并可以通过以下链接访问InterPro。下文概述了Pfam族注释质量的进一步改进。

结构数据改善了域边界和注释

结构域是蛋白质的结构和功能构建块,因此在有数据的地方,结构信息被用于确保Pfam家族对应于单个结构域。当前使用的域边界是SCOP数据库定义的域边界(6)一种新的基于网络的工具允许SCOP网站上的域与相应的Pfam家族直接交联。这种家族和结构域的匹配可以增强对多结构域蛋白质功能的理解。例如,OTCace家族包含两种相关酶,天冬氨酸氨甲酰基转移酶和鸟氨酸氨甲酰基转移酶。结构数据表明,这大约300个氨基酸蛋白质由两个结构相似的结构域组成,N末端结构域与氨甲酰磷酸结合,C末端结构域结合天冬氨酸/鸟氨酸。每个领域现在都由一个注释良好的Pfam家族表示。这两种活性也在谷氨酸依赖性氨甲酰磷酸合成酶的C末端发现,氨甲酰磷酸酶是一种大型多域蛋白,其基于Pfam的注释现在也清楚地描述了ATP结合和寡聚化域等。在某些情况下,将一个家族切成两个或多个结构域的行为也可以解释特定结构域的增加实例,有时在新的蛋白质上下文中。例如,细胞色素还原酶家族已被拆分为其组成的FAD和NAD结合域,它们更普遍地存在于许多氧化还原酶中。总的来说,大约有300个Pfam家族被划分为两个或多个域,域边界更加精细,以更好地匹配可用的结构数据。

为了帮助澄清这些变化,我们引入了一个新的注释字段“类型”(TP)。目前,Pfam家族可分为家族、域、重复或基序。族类型是默认类,它只声明成员是相关的。一个结构域被定义为一个自主的结构单元,或一个可在多种蛋白质上下文中找到的可重复使用的序列单元。相比之下,单独重复通常不稳定;相反,通常需要多个串联重复序列来形成球状结构域或扩展结构。基序通常描述球状结构域以外的较短序列单位。Pfam 6.6版包含2032个家族、980个结构域、54个重复序列和5个基序。

蛋白质-蛋白质相互作用数据为研究蛋白质家族及其细胞作用提供了重要的信息来源。我们使用了PDB中已知三维蛋白质复合物的数据(7)推断Pfam结构域之间的蛋白质-蛋白质相互作用。NCBI爆炸2(8)用于查找序列数据库中已知结构(PDB链)和序列之间的对应关系。这些数据用于分析Pfam结构域之间的结构复合物。英国网站上提供的该数据的图形界面示例如图所示图11.

保存图片、插图等的外部文件。对象名称为gkf01501.jpg

凝血酶与牛胰蛋白酶抑制剂结构复合物的网络视图。该网页显示了复合物中两种蛋白质的Pfam结构域;PDB结构中代表的蛋白质区域由每个蛋白质上方的方括号突出显示。PDBsum资源(17)很好地提供了蛋白质结构图。

非域名公告

尽管Pfam试图尽可能将蛋白质划分为结构域,但一些蛋白质区域预计不会形成稳定的球状结构域。这些区域包括偏倚氨基酸组成的区域[称为低序列复杂性区域(9)]、线圈、跨膜区和信号肽。然而,这些地区引起了人们的极大兴趣,因此英国网站上报道了这些预测。这些预测通过以下第三方程序在序列数据库中预先计算得出:TMHMM(10)(跨膜区),信号蛋白(11)(信号肽区),ncoils(12)(线圈区域)和SEG(9)(低复杂性区域)。区域和相关分数存储在Pfam关系数据库中(见下文)。

非贫困地区需要不同的基于网络的图形表示。与Pfam-A和Pfam-B区域相比,非Pfam区域可以相互重叠,也可以与Pfam区重叠。通过分层方法解决图形显示的重叠区域。用户可以轻松更改默认层次结构(信号肽>Pfam-A>跨膜>Pfam-B>低复杂性>线圈),以实现不同特征的可视化。

活动网站信息

查看多序列比对时,能够看到感兴趣要素的序列位置非常有用。结构特征以前已经被纳入Pfam比对,最近我们已经包括了活性位点残基。我们使用了SWISS-PROT中的ACT_SITE功能表行作为数据源。添加标记的比对清楚地显示了活性位点残基在一个家族的所有成员中是否保守。SWISS-PROT中最常见的活性位点残留物是C、D、E、H、K、R、S和Y(图。(图2)。2). 其他非极性残基也会出现,但频率要低得多。甘氨酸残基是胰蛋白酶抑制剂中的活性键,不是真正的活性位点残基。我们可以通过检查与活性位点残基相对应的色谱柱中氨基酸的分布来获得有关活性位点残基取代性质的信息,如图所示图22.

保存图片、插图等的外部文件。对象名称为gkf01502.jpg

SWISS-PROT和Pfam种子比对中活性位点残基的分布。直方图显示了在SWISS-PROT活性位点中发现的氨基酸的频率(蓝色)和与活性位点残基对齐的氨基酸频率(黄色)。

分类学

“分类搜索”工具(英国网站)允许用户使用分类查询语言查找特定于一组生物体的Pfam条目。使用逻辑运算符(AND、OR、NOT)和括号可以进行复杂的查询。每个蛋白质匹配的分类信息都是从SWISS-PROT/TrEMBL数据库中提取的(13).

该工具的一个用途是帮助识别假定的药物靶点。例如,作为筛选疟疾寄生虫特有的可能药物靶点的一部分,人们可能希望确定存在于恶性疟原虫但脊椎动物宿主中没有。分类查询'恶性疟原虫而不是脊椎动物门'返回26个Pfam域,其中10个已被假定为针对恶性疟原虫。

使用分类搜索软件,我们评估了四个主要王国(真核生物、细菌、古生菌和病毒)在Pfam集合中的表示方式。结果如表所示表1。1数据清楚地表明了对真核生物的偏见,超过三分之二的Pfam家族含有真核生物代表。这些家族中有许多是真核生物特有的,可能反映了这个王国中新蛋白质的发明,也可能只是已知蛋白质序列数据库中的偏差。古细菌蛋白质仅存在于三分之一以上的Pfam家族中,反映出序列数量相对较少,只有49个家族仅限于古细菌。在571个Pfam家族中发现了病毒序列。

表1。

Pfam家族的分类分布
 真核生物细菌古生菌病毒
Pfam条目总数215517371030571
唯一Pfam条目数82435649225

第一行显示每个王国中的Pfam条目数。第二行显示每个王国特定的Pfam条目数。

领域建筑演化分析

Pfam是研究蛋白质结构域进化的极好资源。为了使这种分析成为可能,即使是普通用户,我们也为Pfam网络服务器配备了许多工具。NIFAS允许在进化树中对域体系结构进行可视化检查,如前所述(14). 开发了两种新工具,如下所述。

类似领域组织

Pfam的主要用途之一是返回感兴趣的蛋白质的结构域组织。这将告知用户它所属的领域族,作为对传统相似性搜索的宝贵补充。分析序列相似性的另一种方法是寻找共享相同整体结构域的蛋白质,尽管这些蛋白质可能不是序列最相似的蛋白质。此搜索功能现在可在瑞典web服务器上使用。显然,没有正确的方法来为结构域组织中的相似性评分,因此蛋白质是根据共同结构域的数量进行启发式排序的,从相同的结构域结构,通过重新排序的组合,到较少的共同结构域。所有蛋白质都被列为结构域架构的示意图,并且可以显示其功能描述。

域查询工具

为了询问是否存在某些域体系结构功能的其他问题,瑞典web服务器上安装了一个通用工具。菜单驱动的界面允许用户指定由一组Pfam域组成的查询,与正则表达式类似,有或没有顺序或间隙约束。用户可以检索具有特定域组合基序的所有蛋白质的列表,例如具有Fz、kringle和蛋白激酶域的所有蛋白质。也可以执行否定查询,例如检索Fz域和蛋白激酶域之间没有kringle域的所有蛋白质。使用与前一个工具相同的图形示意图对结果进行排序。

Pfam搜索的更改

此前,Pfam家族基于对全局(ls)或片段(fs)模型HMM的点击。后者不会惩罚长差距,因此可以找到与HMM的部分匹配。对特定家族使用哪种模型的决定很大程度上是武断的,但受成员标准的影响。例如,病毒抗抑制反式激活蛋白的REV家族等家族包含许多在SWISS-PROT/TrEMBL中注释为片段的蛋白质,其中许多被使用ls模型的HMM搜索遗漏。然而,随着对域族的日益重视,将族基于全局模型似乎更直观,以便尽可能匹配整个域。为了解决这个问题,我们最近使用ls和fs模型HMM重建了所有Pfam家族,并从全局模型计算了成员身份,但在fs模型中添加了被认为与ls模型不匹配的点击。这种方法大大增加了许多家族的蛋白质匹配数量,也增加了残留水平的覆盖率。

由于这一全球变化,需要进行一些小规模的格式更改。每个模型都需要单独的收集阈值(GA),并且每个模型都有相关的可信(TC)和噪声(NC)截止值。这些数字都在族注释中指定。基于Web的搜索现在提供了使用全局或片段模型进行搜索的选项。

除了提供Pfam HMM的搜索外,英国网站现在还提供了针对SMART的搜索选项(15)和TIGRFAM(16)HMM系列。Pfam、SMART和TIGRFAM域可能重叠,因此提供了一个工具来更改显示优先级。

Pfam关系数据库

事实证明,Pfam的传统实现是一种文本文件的目录结构,每个家族都有一个目录。修订控制系统用于提供数据库的更新历史记录,并允许我们重新创建数据库的任何版本。然而,基于文本文件的实现并不适合在实时数据库上执行跨家族查询,例如查询位于特定蛋白质序列上的所有Pfam域。这种查询在Pfam中广泛执行,以实施关键质量控制之一,即重叠标准,该标准规定任何蛋白质的残基都不能属于多个家族。在过去,执行这种性质的查询的唯一方法是搜索每个族的路线文件,查找感兴趣序列的出现次数。这是缓慢的,并且随着家庭数量的增加而变慢。

PfamRDB是一个mySQL关系数据库,由大约10个遵循紧密关系模式的表组成。它与实时Pfam数据库同步更新,以保持绝对一致性。一些数据(例如HMM和校准)目前未存储在PfamRDB中。PfamRDB还包含附加信息,例如序列的非结构域标记(如上所述的低复杂性、卷曲线圈、跨膜和信号肽),以及Pfam结构域在PDB中的已解决结构上的投影。

致谢

我们感谢许多人向普法协会提交了数据。特别是,威廉·米夫苏德(William Mifsud)、马修·巴什顿(Matthew Bashton)和尼娜·棉恩(Nina Mian)在Pfam中加入了许多新家庭。我们感谢Christian Storm和Volker Hollich实施NIFAS和域查询工具。我们还感谢Roman Laskowski允许我们合并PDBsum资源中的蛋白质结构图片(17)并向罗布·芬恩(Rob Finn)征求有益意见。

参考文献

1Sonnhammer E.L.L.、Eddy,S.R.和Durbin,R.(1997)《Pfam:基于种子比对的蛋白质结构域家族综合数据库》。蛋白质28, 405–420. [公共医学][谷歌学者]
2Adams M.D.、Celniker S.E.、Holt R.A.、Evans C.A.、Gocayne J.D.、Amanatides P.G.、Scherer S.E.、Li P.W.、Hoskins R.A.、Galle R.F。(2000)的基因组序列黑腹果蝇.科学类287, 2185–2195. [公共医学][谷歌学者]
三。Lander E.S.、Linton L.M.、Birren B.、Nusbaum C.、Zody M.C.、Baldwin J.、Devon K.、Dewar K.、Doyle M.、FitzHugh W。(2001)人类基因组的初步测序和分析。自然409, 860–921. [公共医学][谷歌学者]
4Corpet F.、Servant F.、Gouzy J.和Kahn D.(2000)《ProDom和ProDom-CG:蛋白质域分析和全基因组比较的工具》。核酸研究。28, 267–269.[PMC免费文章][公共医学][谷歌学者]
5Apweiler R.、Attwood、T.K.、Bairoch、A.、Bateman、A.、Birney、E.、Biswas、M.、Bucher、P.、Cerutti、L.、Corpet、F.、Croning、M.D。(2000)InterPro-蛋白质家族、结构域和功能位点的综合文献资源。生物信息学16, 1145–1150. [公共医学][谷歌学者]
6Murzin A.G.、Brenner,S.E.、Hubbard,T.和Chothia,C.(1995)SCOP:用于序列和结构研究的蛋白质数据库的结构分类。分子生物学杂志。247, 536–540. [公共医学][谷歌学者]
7Bernstein F.C.、Koetzle,T.F.、Williams,G.J.B.、Meyer,E.F.、Brice,M.D.、Rodgers,J.R.、Kennard,O.、Shimanouchi,T.和Tasumi,M.(1977)蛋白质数据库:基于计算机的宏观分子结构档案文件。分子生物学杂志。112, 535–542. [公共医学][谷歌学者]
8Altschul S.F.、Madden,T.L.、Schaffer,A.A.、Zhang,J.、Zhan、Miller,W.和Lipman,D.J.(1997)Gapped BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序。核酸研究。25, 3389–3402.[PMC免费文章][公共医学][谷歌学者]
9Wootton J.C.(1994)“异常”氨基酸组成的序列。货币。操作。结构。生物。4,413–421。[谷歌学者]
10Krogh A.、Larsson,B.、von Heijne,G.和Sonnhammer,E.L.L.(2001)用隐马尔可夫模型预测跨膜蛋白拓扑:应用于完整基因组。分子生物学杂志。305, 567–580. [公共医学][谷歌学者]
11Nielsen H.、Brunak,S.和von Heijne,G.(1999)预测信号肽和其他蛋白质分选信号的机器学习方法。蛋白质工程。12, 3–9. [公共医学][谷歌学者]
12Lupas A.、Van Dyke,M.和Stock,J.(1991)从蛋白质序列预测螺旋。科学类252, 1162–1164. [公共医学][谷歌学者]
13Bairoch A.和Apweiler,R.(1999)1999年的SWISS-PROT蛋白质序列数据库及其补充TrEMBL。核酸研究。27, 49–54.[PMC免费文章][公共医学][谷歌学者]
14Storm C.E.和Sonnhammer,E.L.L.(2001)NIFAS:蛋白质结构域进化的可视化分析。生物信息学17, 343–348. [公共医学][谷歌学者]
15Ponting C.P.、Schultz,J.、Milpetz,F.和Bork,P.(1999)《智能:信号和细胞外蛋白序列域的识别和注释》。核酸研究。27,229–232。本期更新文章:核酸研究。(2002),30, 242–244.[PMC免费文章][公共医学][谷歌学者]
16Haft D.H.、Loftus,B.J.、Richardson,D.L.、Yang,F.、Eisen,J.A.、Paulsen,I.T.和White,O.(2001)TIGRFAMs:蛋白质功能鉴定的蛋白质家族资源。核酸研究。29, 41–43.[PMC免费文章][公共医学][谷歌学者]
17Laskowski R.A.(2001)PDBsum:PDB结构的总结和分析。核酸研究。29, 221–222.[PMC免费文章][公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社