核酸研究。2000年1月1日;28(1): 228–230.
使用Blocks数据库服务器增加蛋白质家族的覆盖范围
霍华德·休斯医学院,弗雷德·哈钦森癌症研究中心,1100 Fairview Avenue North,Seattle,WA 98109-1024,USA
一信件应寄给谁。电话:+1 206 667 4515;传真:+1 206 667 5889;电子邮件:史蒂夫@fhcrc.org现住址:Shmuel Pietrokovski,Weizmann Institute,Rehovot 76100,Israel
收到日期:1999年9月29日;1999年10月4日接受。
摘要
块数据库WWW(http://blocks.fhcrc.org)和电子邮件(blocks@blocks.fhcrc.org)服务器提供工具,根据多重比对的Blocks+数据库搜索DNA和蛋白质查询,这些比对代表保守的蛋白质区域。Blocks+通过将Pfam-A、ProDom和Domo数据库中的家族添加到PROSITE和PRINTS中的家族,使数据库中包含的蛋白质家族数量几乎翻了一番。其他新功能包括改进的块搜索器统计数据、使用NCBI的IMPALA程序进行搜索以及在PDB结构上显示块的3D显示。
简介
区块是对应于蛋白质最保守区域的未映射多重比对。区块数据库由使用自动化PROTOMAT系统从相关蛋白的文档家族构建的区块组成(1). 除了在Blocks数据库中搜索序列相似性之外,还引入了一些增强功能,以利用块中隐含的蛋白质家族信息(2). 其中包括基于块的序列数据库搜索(三),块与块搜索(4)多重比对的序列标志和树表示,以及使用CODEHOP(COnsensus-DEgenerate Hybrid Oligonucide primer)方法进行PCR引物设计(5). 在过去的一年中,由于从多个概要中添加了族,默认块数据库的覆盖范围有所增加,并且实施了新的块数据库搜索和三维显示选项。
方块+
以前,区块数据库的蛋白质家族列表来自PROSITE目录(6)并补充了来自PRINTS数据库的其他系列(7). 现在,从Pfam-A获得了更多家庭(8),项目Dom(9)和Domo(10)蛋白质家族数据库。通过提取SWISS-PROT来计算这些系列的块(11)源蛋白家族数据库中记录的序列并将其提交给自动化PROTOMAT系统(1). 然而,为了最小化冗余,只有在LAMA块与块搜索时,才会将族的结果块添加到blocks+中(4)其中,针对当前数据库的结果没有重大命中。此递归过程生成了从Pfam-A族中提取的块集,这些块在PROSITE或PRINTS中均未找到,ProDom中的块在前三个数据库中均未发现,Domo中的块也未在其他任何数据库中找到。区块+数据库(12)表示截至1999年6月15日来自2129个不同蛋白质家族的9498个区块(图。). 由于未使用源族数据库中的多条路线,因此块+中的路线可能与它们不一致。因此,LAMA用于搜索blocks+中的每套区块,并将其与这些源定线切割出的区块进行对比(2)、和WWW链接是在找到点击时创建的。
Blocks WWW和电子邮件服务器提供了针对Blocks+搜索DNA和蛋白质查询的工具。作为避免误报命中的一个选项,可以搜索Blocks+的子集,从中删除了许多成分偏向的块。使用多重比对处理器和LAMA搜索引擎,还可以使用关键字或块或其他多重比对查询块+数据库。所有搜索结果都链接到Blocks+数据库中的相应条目,其中包括系统发育树、序列标识和3D结构,以及其他序列和蛋白质家族数据库的链接。
改进的块搜索E-VALUES
块搜索器使用BLIMPS搜索程序(13)将DNA或蛋白质查询序列与正在搜索的区块数据库中的每个区块进行比较。然后对单个块的结果进行分析,以合并属于同一蛋白质家族的块的点击。最初的分析程序BLKSORT根据等级计算家庭命中的E值(14). 一个新的分析程序BLKPROB使用MAST搜索工具针对序列数据库开发的块查询搜索方法计算多个块点击的E值(15,16). 该方法需要计算每个块的得分分布,当从块中导出的位置特定得分矩阵(PSSM)仅包含整数时,可以显式地进行计算(17). 然后,可以简单地在分数分布中查找获得与查询序列对齐的分数的概率。当前实现仅计算得分大于分布99.5%的块的完整分布;该值预先计算并与每个块一起存储。图中显示了新输出的示例a。
具有基于等级的E值的原始分析程序仍然可用作选项,并且仍然是Blocks Email Searcher的默认设置(为大量自动提交保持标准化格式)。然而,鼓励电子邮件用户尝试改进的分析程序;所需的消息格式在http://blocks.fhcrc.org/help/email.html
IMPALA搜索器
IMPALA Searcher是蛋白质查询的Block Searcher的一种新替代方法,NCBI的BLAST小组已将其用于Blocks WWW服务器(18). IMPALA搜索适当格式的PSI-BLAST PSSM数据库(19). 通过使用COBBLER(局部嵌入残留物导致的COnsensus偏倚)序列进行PSI-BLAST搜索,为Blocks+中的每个家族构建(三)查询已知属于该家族的SWISS-PROT序列。COBBLER序列是一个代表性序列,从第一个块的上游10 aa延伸到最后一个块的下游10 aa,其中嵌入了从块区域推导出的一致剩余。迭代PSI-BLAST搜索直到收敛,从而为Blocks+中的每个族生成一个PSI-BLEST PSSM数据库。图b显示了IMPALA输出的一个示例,该输出由熟悉的BLAST输出和E值统计信息组成,并包含指向Blocks+families hit的链接。与块搜索器不同,IMPALA可以在查询与块的对齐中插入间隙,并且还可以对齐块之间的区域。由于Blocks和IMPALA Searcher倾向于报告相同的真阳性点击,但不同的假阳性(例如,比较图。a和b),使用两者进行搜索并比较结果的用户可能能够更好地区分真假点击,以进行具有挑战性的查询。
将块映射到三维结构
PDB数据库中越来越多的蛋白质家族由一个或多个3D结构表示(网址:http://www.rcsb.org/pdb ). 要将块映射到PDB、MAST中的结构(15)用于根据PDB序列数据库搜索PSSM。相应PDB结构中的段进行了彩色编码,以指示它们所代表的块。WWW浏览器可以使用可以处理Rasmol的辅助软件查看3D块表示(20)命令,例如Chime(http://www.mdl.com/chemscape/chime ).
访问
Blocks WWW服务器位于http://blocks.fhcrc.org实现了本文中描述的所有功能,在使用Blocks服务器时应该引用这些功能。也可以通过电子邮件搜索Blocks+数据库,方法是将FASTA格式的DNA或蛋白质序列发送给blocks@blocks.fhcrc.org
致谢
我们感谢Nick Taylor实施3D块和NCBI BLAST小组,特别是Alejandro Schaffer,感谢他提供IMPALA软件用于搜索块数据库。这项工作得到了NIH(GM29009)和DOE(DE-FG03-97ER62382)的资助。
参考文献
2Henikoff J.G.、Henikof S.和Pietrokovski S.(1999)核酸研究。,27, 226–228.[PMC免费文章][公共医学][谷歌学者] 5Rose T.M.、Schultz E.R.、Henikoff J.G.、Pietrokovski S.、McCallum C.M.和Henikof S.(1998)核酸研究。,26, 1628–1635.[PMC免费文章][公共医学][谷歌学者] 6Hofmann K.、Bucher,P.、Falquet,L.和Bairoch,A.(1999年)核酸研究。,27, 215–219.[PMC免费文章][公共医学][谷歌学者] 7Attwood T.K.、Flower,D.R.、Lewis,A.P.、Mabey,J.E.、Morgan,S.R.、Scordis,P.、Selley,J.N.和W.赖特(1999)核酸研究。,27, 220–225.[PMC免费文章][公共医学][谷歌学者] 8贝特曼A.、伯尼E.、杜宾R.、埃迪S.R.、芬恩R.D.和桑纳默E.L.L.(1999)核酸研究。,27, 260–262. 本期更新文章:核酸研究. (2000),28, 225–227.[谷歌学者] 9Corpet F.、Gouzy,J.和Kahn,D.(1999)核酸研究。,27, 263–267. 本期更新文章:核酸研究. (2000),28, 267–269.[谷歌学者] 10Gracy J.和Argos,P.(1998)生物信息学,14, 164–173. [公共医学][谷歌学者] 12Henikoff S.、Henikof,J.G.和Pietrokovski,S.(1999)生物信息学,15, 471–479. [公共医学][谷歌学者] 13Henikoff S.、Henikof,J.G.、Alford,W.J.和Pietrokovski,S.(1995)基因,163,一般条款17–一般条款26。[公共医学][谷歌学者] 14Henikoff S.和Henikof,J.G.(1994)基因组学,19, 97–107. [公共医学][谷歌学者] 15Bailey T.L.和Gribskov,M.(1997)J.计算。生物。,4, 45–59. [公共医学][谷歌学者] 16Bailey T.L.和Gribskov,M.(1998)生物信息学,14, 48–54. [公共医学][谷歌学者] 17.Tatusov R.L.、Altschul,S.F.和Koonin,E.V.(1994)程序。美国国家科学院。科学。美国,91, 12091–12095.[PMC免费文章][公共医学][谷歌学者] 18Schaffer A.A.、Wolf,Y.I.、Ponting,C.P.、Koonin,E.V.、Aravind,L.和Altschul,S.F.(1999)生物信息学,正在印刷中。[公共医学][谷歌学者] 19Altschul S.F.、Madden,T.L.、Schaffer,A.A.、Zhang,J.、Zhang、Miller,W.和Lipman,D.J.(1997)核酸研究。,25, 3389–3402.[PMC免费文章][公共医学][谷歌学者] 20Sayle R.A.和Milner-White,E.F.(1995)趋势生物化学。科学。,20, 374. [公共医学][谷歌学者]