跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2000年1月1日;28(1): 228–230.
数字对象标识:10.1093/nar/28.1.228
预防性维修识别码:项目经理102407
PMID:10592233

使用Blocks数据库服务器增加蛋白质家族的覆盖范围

摘要

块数据库WWW(http://blocks.fhcrc.org)和电子邮件(blocks@blocks.fhcrc.org)服务器提供工具,根据多重比对的Blocks+数据库搜索DNA和蛋白质查询,这些比对代表保守的蛋白质区域。Blocks+通过将Pfam-A、ProDom和Domo数据库中的家族添加到PROSITE和PRINTS中的家族,使数据库中包含的蛋白质家族数量几乎翻了一番。其他新功能包括改进的块搜索器统计数据、使用NCBI的IMPALA程序进行搜索以及在PDB结构上显示块的3D显示。

简介

区块是对应于蛋白质最保守区域的未映射多重比对。区块数据库由使用自动化PROTOMAT系统从相关蛋白的文档家族构建的区块组成(1). 除了在Blocks数据库中搜索序列相似性之外,还引入了一些增强功能,以利用块中隐含的蛋白质家族信息(2). 其中包括基于块的序列数据库搜索(),块与块搜索(4)多重比对的序列标志和树表示,以及使用CODEHOP(COnsensus-DEgenerate Hybrid Oligonucide primer)方法进行PCR引物设计(5). 在过去的一年中,由于从多个概要中添加了族,默认块数据库的覆盖范围有所增加,并且实施了新的块数据库搜索和三维显示选项。

方块+

以前,区块数据库的蛋白质家族列表来自PROSITE目录(6)并补充了来自PRINTS数据库的其他系列(7). 现在,从Pfam-A获得了更多家庭(8),项目Dom(9)和Domo(10)蛋白质家族数据库。通过提取SWISS-PROT来计算这些系列的块(11)源蛋白家族数据库中记录的序列并将其提交给自动化PROTOMAT系统(1). 然而,为了最小化冗余,只有在LAMA块与块搜索时,才会将族的结果块添加到blocks+中(4)其中,针对当前数据库的结果没有重大命中。此递归过程生成了从Pfam-A族中提取的块集,这些块在PROSITE或PRINTS中均未找到,ProDom中的块在前三个数据库中均未发现,Domo中的块也未在其他任何数据库中找到。区块+数据库(12)表示截至1999年6月15日来自2129个不同蛋白质家族的9498个区块(图。(图1)。1). 由于未使用源族数据库中的多条路线,因此块+中的路线可能与它们不一致。因此,LAMA用于搜索blocks+中的每套区块,并将其与这些源定线切割出的区块进行对比(2)、和WWW链接是在找到点击时创建的。

保存图片、插图等的外部文件。对象名称为gkd02501.jpg

区块+数据库的组成(截至1999年6月15日)。

Blocks WWW和电子邮件服务器提供了针对Blocks+搜索DNA和蛋白质查询的工具。作为避免误报命中的一个选项,可以搜索Blocks+的子集,从中删除了许多成分偏向的块。使用多重比对处理器和LAMA搜索引擎,还可以使用关键字或块或其他多重比对查询块+数据库。所有搜索结果都链接到Blocks+数据库中的相应条目,其中包括系统发育树、序列标识和3D结构,以及其他序列和蛋白质家族数据库的链接。

改进的块搜索E-VALUES

块搜索器使用BLIMPS搜索程序(13)将DNA或蛋白质查询序列与正在搜索的区块数据库中的每个区块进行比较。然后对单个块的结果进行分析,以合并属于同一蛋白质家族的块的点击。最初的分析程序BLKSORT根据等级计算家庭命中的E值(14). 一个新的分析程序BLKPROB使用MAST搜索工具针对序列数据库开发的块查询搜索方法计算多个块点击的E值(15,16). 该方法需要计算每个块的得分分布,当从块中导出的位置特定得分矩阵(PSSM)仅包含整数时,可以显式地进行计算(17). 然后,可以简单地在分数分布中查找获得与查询序列对齐的分数的概率。当前实现仅计算得分大于分布99.5%的块的完整分布;该值预先计算并与每个块一起存储。图中显示了新输出的示例图22a。

保存图片、插图等的外部文件。对象名称为gkd02502.jpg
保存图片、插图等的外部文件。对象名称为gkd02502b.jpg

块搜索器和IMPALA搜索输出。一个假设拟南芥从GenBank/EMBL条目中预测外显子翻译的蛋白质序列U53501型用于查询Blocks+,截止预期值为5。此查询序列的已知真阳性点击数为BL00094(胞嘧啶DNA甲基转移酶)和BL00598(色域),这是Block Searcher和IMPALA Searcher的前两个点击数。注意,对于这两种方法,报告的其他点击数都不相同。显示前两个点击的对齐。()块搜索器输出。BL00094E和BL00094F未被检测到,因为它们因错误的基因预测而从查询中丢失U53501型,经直接cDNA分析证实(21)。每个点击由查询序列中找到的蛋白质组的一个或多个块组成。选择一组最高取芯块进行分析,这些块的顺序正确,并通过与块数据库相当的距离进行分隔。如果该组包括多个方块,则报告得分较低的方块支持得分最高的方块的概率。显示了数据库块和查询序列的映射:“AAA”表示大致与其宽度成比例的块。“:”表示数据库中块之间的最小距离表示数据库中块之间的最大距离。'<>'表示序列已被截断以适合页面。查询图在得分最高的块上对齐。与得分最高的方块一致的多个方块命中由冒号分隔。显示查询序列与块数据库中最接近它的序列的对齐。检测到的块之间的距离列为(min,max):对于数据库条目,后跟查询中的距离。查询中的大写表示块的该列中至少出现一个残留物。(b条)IMPALA搜索器输出。IMPALA对齐将查询序列中与BL00094A对应的区域检测为一个单独的高分段,位于BL00094B上游163 aa处。查询序列与用于生成PSI-BLAST PSSM的COBBLER序列对齐。在显示的两条路线中,块区域内未插入任何间隙。

具有基于等级的E值的原始分析程序仍然可用作选项,并且仍然是Blocks Email Searcher的默认设置(为大量自动提交保持标准化格式)。然而,鼓励电子邮件用户尝试改进的分析程序;所需的消息格式在http://blocks.fhcrc.org/help/email.html

IMPALA搜索器

IMPALA Searcher是蛋白质查询的Block Searcher的一种新替代方法,NCBI的BLAST小组已将其用于Blocks WWW服务器(18). IMPALA搜索适当格式的PSI-BLAST PSSM数据库(19). 通过使用COBBLER(局部嵌入残留物导致的COnsensus偏倚)序列进行PSI-BLAST搜索,为Blocks+中的每个家族构建()查询已知属于该家族的SWISS-PROT序列。COBBLER序列是一个代表性序列,从第一个块的上游10 aa延伸到最后一个块的下游10 aa,其中嵌入了从块区域推导出的一致剩余。迭代PSI-BLAST搜索直到收敛,从而为Blocks+中的每个族生成一个PSI-BLEST PSSM数据库。图2b2b显示了IMPALA输出的一个示例,该输出由熟悉的BLAST输出和E值统计信息组成,并包含指向Blocks+families hit的链接。与块搜索器不同,IMPALA可以在查询与块的对齐中插入间隙,并且还可以对齐块之间的区域。由于Blocks和IMPALA Searcher倾向于报告相同的真阳性点击,但不同的假阳性(例如,比较图。图2a2a和b),使用两者进行搜索并比较结果的用户可能能够更好地区分真假点击,以进行具有挑战性的查询。

将块映射到三维结构

PDB数据库中越来越多的蛋白质家族由一个或多个3D结构表示(网址:http://www.rcsb.org/pdb ). 要将块映射到PDB、MAST中的结构(15)用于根据PDB序列数据库搜索PSSM。相应PDB结构中的段进行了彩色编码,以指示它们所代表的块。WWW浏览器可以使用可以处理Rasmol的辅助软件查看3D块表示(20)命令,例如Chime(http://www.mdl.com/chemscape/chime ).

访问

Blocks WWW服务器位于http://blocks.fhcrc.org实现了本文中描述的所有功能,在使用Blocks服务器时应该引用这些功能。也可以通过电子邮件搜索Blocks+数据库,方法是将FASTA格式的DNA或蛋白质序列发送给blocks@blocks.fhcrc.org

致谢

我们感谢Nick Taylor实施3D块和NCBI BLAST小组,特别是Alejandro Schaffer,感谢他提供IMPALA软件用于搜索块数据库。这项工作得到了NIH(GM29009)和DOE(DE-FG03-97ER62382)的资助。

参考文献

1Henikoff S.和Henikof,J.G.(1991)核酸研究。,19, 6565–6572.[PMC免费文章][公共医学][谷歌学者]
2Henikoff J.G.、Henikof S.和Pietrokovski S.(1999)核酸研究。,27, 226–228.[PMC免费文章][公共医学][谷歌学者]
三。Henikoff S.和Henikof,J.G.(1997)蛋白质科学。,6, 698–705.[PMC免费文章][公共医学][谷歌学者]
4彼得罗科夫斯基S.(1996)核酸研究。,24, 3836–3845.[PMC免费文章][公共医学][谷歌学者]
5Rose T.M.、Schultz E.R.、Henikoff J.G.、Pietrokovski S.、McCallum C.M.和Henikof S.(1998)核酸研究。,26, 1628–1635.[PMC免费文章][公共医学][谷歌学者]
6Hofmann K.、Bucher,P.、Falquet,L.和Bairoch,A.(1999年)核酸研究。,27, 215–219.[PMC免费文章][公共医学][谷歌学者]
7Attwood T.K.、Flower,D.R.、Lewis,A.P.、Mabey,J.E.、Morgan,S.R.、Scordis,P.、Selley,J.N.和W.赖特(1999)核酸研究。,27, 220–225.[PMC免费文章][公共医学][谷歌学者]
8贝特曼A.、伯尼E.、杜宾R.、埃迪S.R.、芬恩R.D.和桑纳默E.L.L.(1999)核酸研究。,27, 260–262. 本期更新文章:核酸研究. (2000),28, 225–227.[谷歌学者]
9Corpet F.、Gouzy,J.和Kahn,D.(1999)核酸研究。,27, 263–267. 本期更新文章:核酸研究. (2000),28, 267–269.[谷歌学者]
10Gracy J.和Argos,P.(1998)生物信息学,14, 164–173. [公共医学][谷歌学者]
11.Bairoch A.和Boeckmann,B.(1992)核酸研究。,20, 2019–2022.[PMC免费文章][公共医学][谷歌学者]
12Henikoff S.、Henikof,J.G.和Pietrokovski,S.(1999)生物信息学,15, 471–479. [公共医学][谷歌学者]
13Henikoff S.、Henikof,J.G.、Alford,W.J.和Pietrokovski,S.(1995)基因,163,一般条款17–一般条款26。[公共医学][谷歌学者]
14Henikoff S.和Henikof,J.G.(1994)基因组学,19, 97–107. [公共医学][谷歌学者]
15Bailey T.L.和Gribskov,M.(1997)J.计算。生物。,4, 45–59. [公共医学][谷歌学者]
16Bailey T.L.和Gribskov,M.(1998)生物信息学,14, 48–54. [公共医学][谷歌学者]
17.Tatusov R.L.、Altschul,S.F.和Koonin,E.V.(1994)程序。美国国家科学院。科学。美国,91, 12091–12095.[PMC免费文章][公共医学][谷歌学者]
18Schaffer A.A.、Wolf,Y.I.、Ponting,C.P.、Koonin,E.V.、Aravind,L.和Altschul,S.F.(1999)生物信息学,正在印刷中。[公共医学][谷歌学者]
19Altschul S.F.、Madden,T.L.、Schaffer,A.A.、Zhang,J.、Zhang、Miller,W.和Lipman,D.J.(1997)核酸研究。,25, 3389–3402.[PMC免费文章][公共医学][谷歌学者]
20Sayle R.A.和Milner-White,E.F.(1995)趋势生物化学。科学。,20, 374. [公共医学][谷歌学者]
21Henikoff S.和Comai,L.(1998)遗传学,149, 307–318.[PMC免费文章][公共医学][谷歌学者]

来自的文章核酸研究由以下人员提供牛津大学出版社