核酸研究。2004年1月1日;32(数据库问题):D138–D141。
Pfam蛋白质家族数据库
亚历克斯·贝特曼,* 拉克伦货币,德宾,罗伯特·D·芬恩,,1 萨姆·格里菲斯·琼斯,,2 马歇尔,西蒙·莫克森,,1 大卫·J·斯塔德霍姆,科林·叶芝、和2 沃尔克·霍利奇
英国剑桥CB10 1SA Hinxton Wellcome Trust Genome校区Wellcome-Trust Sanger学院,1瑞典斯德哥尔摩卡罗林斯卡研究所基因组学和生物信息学中心,S-171 772美国密苏里州圣路易斯华盛顿大学医学院霍华德·休斯医学院和遗传学系
阿杰·坎纳
英国剑桥CB10 1SA Hinxton Wellcome Trust Genome校区Wellcome-Trust Sanger学院,1瑞典斯德哥尔摩卡罗林斯卡研究所基因组学和生物信息学中心,S-171 772美国密苏里州圣路易斯华盛顿大学医学院霍华德·休斯医学院和遗传学系
埃里克·L·L·桑纳默
英国剑桥CB10 1SA Hinxton Wellcome Trust Genome校区Wellcome-Trust Sanger学院,1瑞典斯德哥尔摩卡罗林斯卡研究所基因组学和生物信息学中心,S-171 772Howard Hughes医学研究所和遗传学系,华盛顿大学医学院,圣路易斯,MO 63110,美国
肖恩·埃迪
英国剑桥CB10 1SA Hinxton Wellcome Trust Genome校区Wellcome-Trust Sanger学院,1瑞典斯德哥尔摩卡罗林斯卡研究所基因组学和生物信息学中心,S-171 772美国密苏里州圣路易斯华盛顿大学医学院霍华德·休斯医学院和遗传学系
英国剑桥CB10 1SA Hinxton Wellcome Trust Genome校区Wellcome-Trust Sanger学院,1瑞典斯德哥尔摩卡罗林斯卡研究所基因组学和生物信息学中心,S-171 772美国密苏里州圣路易斯华盛顿大学医学院霍华德·休斯医学院和遗传学系
收稿日期:2003年9月17日;2003年10月20日接受。
简介
Pfam是一个蛋白质结构域和家族的综合集合,具有广泛的既定用途,包括基因组注释。Pfam中的每个家族都由两个多序列比对和两个轮廓-Hidden Markov模型(轮廓-HMM)表示。Pfam的功能、使用和理念已在以前的出版物中讨论过(1,2)这里不再详细讨论。在下面的部分中,我们描述了过去两年中对数据库所做的最重要的改进。
PFAM的增长
截至10.0版,Pfam包含6190个Pfam家族。Pfam家族匹配Swiss-Prot和TrEMBL中75%的蛋白质序列(三)(占所有残留物的53%)。相比之下,2年前的6.6版本中有3071个家庭和69%的覆盖率(2). 对于那些不属于任何Pfam家族的蛋白质序列,我们推导出自动生成的Pfam-B家族。Pfam-B系列源自ProDom(4),一组由Swiss Prot和TrEMBL序列数据库自动生成的蛋白质结构域家族。许多多域蛋白质序列包含(非重叠)与Pfam和Pfam-B家族的匹配。Pfam和Pfam-B的组合涵盖了Swiss-Prot和TrEMBL中82%的蛋白质序列。现在,每个Pfam版本都建立在Swiss-Pro和TrEMPL的最新版本上,最大限度地减少了过时序列条目的问题。
Pfam有两大系列功能无特征的家族,称为未知功能域(DUF)和无特征蛋白家族(UPF)。DUF是由Pfam创建的族,而UPF是由Swiss-Prot创建并添加到Pfam的族。通过跟踪DUF和UPF的数量,我们可以了解到Pfam中有多少家庭没有特征化,以及这个数字是如何随时间变化的。截至Pfam 6.6,在3071个家庭中,有272个DUF和UPF家庭。Pfam 10.0版包含6190个DUF和UPF家族中的1004个。原始272份中的89份已作了注释。其中,20个与其他家族合并,69个用函数注释。因此,平均每个月大约有37个未知函数的新域被添加到Pfam中,其中6个用函数注释。Pfam数据库中DUF和UPF家族的比例从9%增加到16%。然而,与注释家庭的点击量相比,DUF和UPF与Swiss-Prot匹配的数量在这段时间内只略有增加。这反映了完全未描述的家族越来越趋向于小且仅限于少数基因组。
为了应对增加的计算负担,使家庭数量翻倍,从而产生了轮廓-HMM,我们有两项创新来帮助用户。首先,用于构建和搜索Pfam的免费profile-HMM软件HMMER已升级到2.3版衍生(当前版本为2.3.1,请参阅http://hmmer.wustl.edu). HMMER 2.3与以前版本的主要区别在于,由于性能优化,在大多数平台上的速度提高了2到3倍,而在Mac OS/X上,由于斯坦福大学的Erik Lindahl提供的代码,速度提高了约8倍。这些性能改进加速了Pfam搜索,并有助于跟上数据库不断增长的速度。其次,用户现在可以在英国网络服务器上一次执行多达1000个序列的批量搜索,搜索结果通过电子邮件返回。此服务意味着具有中等要求的用户无需安装Pfam和HMMER的本地副本。
PFAM中畴的改进模型
Pfam的目标是成为准确的蛋白质域定义的数据库。在过去的两年里,我们将许多现有家庭划分为结构域。与结构蛋白域数据库SCOP的合作(5)和CATH(6)已启用领域比较工具的开发来帮助此过程(参见图。). 该工具允许将CATH和SCOP定义的结构域架构(architecture)之间的关系与Pfam进行比较。这样的比较有助于确保三个独立数据库中域定义的一致性,并有助于在公共级别进行链接。域比较工具使用web服务根据用户请求从CATH和SCOP检索域边界。这些web服务由每个数据库维护,确保数据最新,并将数据库版本之间的差异降至最低。Web用户可以使用Rasmol或RasWin查看根据域边界标记的结构(7).
Pfam、SCOP和CATH域定义的比较S公司-腺苷甲硫氨酸合成酶。SCOP和Pfam的定义非常相似,但与CATH更严格的结构定义截然不同。可以在每个数据库的结构级别上比较这些定义。右侧的两个Rasmol窗口显示了CATH定义上方的Pfam定义。
Pfam和结构数据库之间的域定义存在显著差异的一个方面是由于SCOP和CATH中定义的域不连续。不连续域是指域的线性序列被另一个插入域中断的域。例如,在GuaB蛋白中发现IMPDH结构域(Pfam加入PF00478)是一个连续结构域,在肌苷单磷酸脱氢酶中有一对插入的CBS结构域(PF00571)。目前,Pfam中有29个不连续畴。通过强制轮廓-HMM允许插入的域作为长插入来实现不连续域的建模。我们通过使用HMMER软件中的–hand选项以及#=GC RF线来实现这一点。为了清楚起见,插入域的序列也用X字符屏蔽,并且在平面文件中用NE标记指示嵌套域的存在。这种改进的模型可以更准确地描述蛋白质结构中的不连续结构域,并提高了搜索灵敏度。
改善家庭成员
为了给用户提供更统一的蛋白质域视图,我们实施了两项基于网络的创新。首先,蛋白质结构域的SMART数据库(8)Pfam和Pfam都包含许多其他人无法获得的条目,在其他情况下,家庭成员身份差异显著。这两个数据库交换匹配列表,并在Pfam和SMART网站上显示这些匹配。
其次,我们应用了语音识别中的语言建模技术来识别弱域点击(9). 当HMMER得分低于策划阈值时,通常在蛋白质的其他域点击中包含足够的上下文信息,以将该得分提高到阈值以上。语言建模作为后处理步骤应用于所有E值<1000的HMMER识别匹配集。在考虑HMMER和上下文得分的情况下,使用动态编程算法来找到蛋白质的最高得分结构域。我们以这种方式发现了32587个额外的域出现,占Pfam 10.0版中额外0.5%的残留覆盖率。
改进的结构图像
尽管Pfam条目数量大幅增加,但只有略多于三分之一的条目包含至少一种已知3D结构的蛋白质。此前,Pfam很好地使用了PDBsum数据库提供的结构图像(10). 为了使图像更具关于Pfam的信息,我们现在通过Pfam域给结构着色。通过将PDB序列映射到EBI大分子结构数据库(E-MSD)提供的Swiss-Prot序列,这种结构域标记得到了极大的帮助(11). 静态图像是使用Molscript生成的(12)并使用Raster3D进行渲染(13). 每个图像都附有结构的简要描述,然后是域标记键,其中包含指向结构中所有域的家族页面的链接(图。).
由Pfam域着色的结构图像,包括下面的彩色域键。该结构显示P27、cyclin和CDK2的复合物。单击图像链接到PDBsum资源(10).
致谢
我们要感谢威廉·米夫苏德(William Mifsud)、尼古拉·凯里森(Nicola Kerrison)、大卫·沃特菲尔德(David Waterfield)和本·维拉·布里法(Ben Vella Briffa)为Pfam增加了许多新家庭。我们感谢凯文·豪的有益讨论和建议。我们还要感谢蒂莫·拉斯曼(Timo Lassmann)和马库斯·维斯特兰德(Markus Wistrand)帮助维护瑞典Pfam网站,感谢洛伦佐·塞鲁蒂(Lorenzo Cerutti)维护法国Pfam的网站。这项工作由Wellcome信托基金和MRC(英国)电子科学基金资助。
参考文献
1Bateman A.、Birney E.、Durbin R.、Eddy S.R.、Howe K.L.和Sonnhammer E.L.(2000)《Pfam蛋白质家族数据库》。核酸研究。,28, 263–266.[PMC免费文章][公共医学][谷歌学者] 2Bateman A.、Birney E.、Cerruti L.、Durbin R.、Etwiller L.、Eddy S.R.、Griffiths-Jones S.、Howe K.L.、Marshall M.和Sonnhammer E.L.(2002)《Pfam蛋白质家族数据库》。核酸研究。,30, 276–280.[PMC免费文章][公共医学][谷歌学者] 三。Boeckmann B.、Bairoch A.、Apweiler R.、Blatter M.C.、Estreicher A.、Gasteiger E.、Martin M.J.、Michoud K.、O'Donovan C.、Phan I。等(2003)2003年,SWISS-PROT蛋白质知识库及其补充TrEMBL。核酸研究。,31, 365–370.[PMC免费文章][公共医学][谷歌学者] 4Corpet F.、Servant F.、Gouzy J.和Kahn D.(2000)《ProDom和ProDom-CG:蛋白质域分析和全基因组比较的工具》。核酸研究。,28, 267–269.[PMC免费文章][公共医学][谷歌学者] 5Lo Conte L.、Brenner,S.E.、Hubbard,T.J.、Chothia,C.和Murzin,A.G.(2002)2002年的SCOP数据库:改进适应结构基因组学。核酸研究。,30, 264–267.[PMC免费文章][公共医学][谷歌学者] 6Pearl F.M.、Bennett,C.F.、Bray,J.E.、Harrison,A.P.、Martin,N.、Shepherd,A.、Sillitoe,I.、Thornton,J.和Orengo,C.A.(2003)CATH数据库:结构和功能基因组学的扩展蛋白质家族资源。核酸研究。,31, 452–455.[PMC免费文章][公共医学][谷歌学者] 7Sayle R.和Milner-White,E.(1995)RASMOL:面向所有人的生物分子图形。生物化学趋势。科学。,20, 374–374. [公共医学][谷歌学者] 8Letunic I.、Goodstadt,L.、Dickens,N.J.、Doerks,T.、Schultz,J.、Mott,R.、Ciccarelli,F.、Copley,R.R.、Ponting,C.P.和Bork,P.(2002)《基于SMART域的序列注释资源的最新改进》。核酸研究。,30, 242–244.[PMC免费文章][公共医学][谷歌学者] 9Coin L.,Bateman,A.和Durbin,R.(2003)通过使用语音识别的语言建模技术增强蛋白质域发现。程序。美国国家科学院。科学。美国,100, 4516–4520.[PMC免费文章][公共医学][谷歌学者] 10Laskowski R.A.(2001)PDBsum:PDB结构的总结和分析。核酸研究。,29, 221–222.[PMC免费文章][公共医学][谷歌学者] 11Boutselakis H.、Dimitropoulos D.、Fillon J.、Golovin A.、Henrick K.、Hussain A.、Ionides J.、John M.、Keller P.A.、Krissinel E。等(2003)E-MSD:欧洲生物信息学研究所大分子结构数据库。核酸研究。,31, 458–462.[PMC免费文章][公共医学][谷歌学者] 12Kraulis P.(1991)MOLSCRIPT:生成蛋白质结构的详细和示意图的程序。J.应用。结晶器。,24, 946–950.[谷歌学者] 13Bacon D.和Anderson,W.(1988)绘制填空分子图像的快速算法。J.摩尔图。,6,219–220。[谷歌学者]