Increased coverage of protein families with the Blocks Database servers

Jorja G. Henikoff; Elizabeth A. Greene; Shmuel Pietrokovski; Steven Henikoff

doi:10.1093/nar/28.1.228

核酸研究。2000年1月1日；28(1): 228–230.

数字对象标识：10.1093/nar/28.1.228

预防性维修识别码：项目经理102407

PMID：10592233

使用Blocks数据库服务器增加蛋白质家族的覆盖范围

Jorja G.Henikoff先生,伊丽莎白·A·格林,什穆埃尔·彼得罗科夫斯基、和史蒂文·海尼科夫^一

作者信息文章注释版权和许可信息 PMC免责声明

摘要

块数据库WWW(http://blocks.fhcrc.org）和电子邮件(blocks@blocks.fhcrc.org）服务器提供工具，根据多重比对的Blocks+数据库搜索DNA和蛋白质查询，这些比对代表保守的蛋白质区域。Blocks+通过将Pfam-A、ProDom和Domo数据库中的家族添加到PROSITE和PRINTS中的家族，使数据库中包含的蛋白质家族数量几乎翻了一番。其他新功能包括改进的块搜索器统计数据、使用NCBI的IMPALA程序进行搜索以及在PDB结构上显示块的3D显示。

简介

区块是对应于蛋白质最保守区域的未映射多重比对。区块数据库由使用自动化PROTOMAT系统从相关蛋白的文档家族构建的区块组成(1). 除了在Blocks数据库中搜索序列相似性之外，还引入了一些增强功能，以利用块中隐含的蛋白质家族信息(2). 其中包括基于块的序列数据库搜索(三)，块与块搜索(4)多重比对的序列标志和树表示，以及使用CODEHOP（COnsensus-DEgenerate Hybrid Oligonucide primer）方法进行PCR引物设计(5). 在过去的一年中，由于从多个概要中添加了族，默认块数据库的覆盖范围有所增加，并且实施了新的块数据库搜索和三维显示选项。

方块+

以前，区块数据库的蛋白质家族列表来自PROSITE目录(6)并补充了来自PRINTS数据库的其他系列(7). 现在，从Pfam-A获得了更多家庭(8)，项目Dom(9)和Domo(10)蛋白质家族数据库。通过提取SWISS-PROT来计算这些系列的块(11)源蛋白家族数据库中记录的序列并将其提交给自动化PROTOMAT系统(1). 然而，为了最小化冗余，只有在LAMA块与块搜索时，才会将族的结果块添加到blocks+中(4)其中，针对当前数据库的结果没有重大命中。此递归过程生成了从Pfam-A族中提取的块集，这些块在PROSITE或PRINTS中均未找到，ProDom中的块在前三个数据库中均未发现，Domo中的块也未在其他任何数据库中找到。区块+数据库(12)表示截至1999年6月15日来自2129个不同蛋白质家族的9498个区块（图。（图1）。1). 由于未使用源族数据库中的多条路线，因此块+中的路线可能与它们不一致。因此，LAMA用于搜索blocks+中的每套区块，并将其与这些源定线切割出的区块进行对比(2)、和WWW链接是在找到点击时创建的。

在单独的窗口中打开

图1

区块+数据库的组成（截至1999年6月15日）。

Blocks WWW和电子邮件服务器提供了针对Blocks+搜索DNA和蛋白质查询的工具。作为避免误报命中的一个选项，可以搜索Blocks+的子集，从中删除了许多成分偏向的块。使用多重比对处理器和LAMA搜索引擎，还可以使用关键字或块或其他多重比对查询块+数据库。所有搜索结果都链接到Blocks+数据库中的相应条目，其中包括系统发育树、序列标识和3D结构，以及其他序列和蛋白质家族数据库的链接。

改进的块搜索E-VALUES

块搜索器使用BLIMPS搜索程序(13)将DNA或蛋白质查询序列与正在搜索的区块数据库中的每个区块进行比较。然后对单个块的结果进行分析，以合并属于同一蛋白质家族的块的点击。最初的分析程序BLKSORT根据等级计算家庭命中的E值(14). 一个新的分析程序BLKPROB使用MAST搜索工具针对序列数据库开发的块查询搜索方法计算多个块点击的E值(15,16). 该方法需要计算每个块的得分分布，当从块中导出的位置特定得分矩阵（PSSM）仅包含整数时，可以显式地进行计算(17). 然后，可以简单地在分数分布中查找获得与查询序列对齐的分数的概率。当前实现仅计算得分大于分布99.5%的块的完整分布；该值预先计算并与每个块一起存储。图中显示了新输出的示例图22a。

在单独的窗口中打开

在单独的窗口中打开

图2

块搜索器和IMPALA搜索输出。一个假设拟南芥从GenBank/EMBL条目中预测外显子翻译的蛋白质序列U53501型用于查询Blocks+，截止预期值为5。此查询序列的已知真阳性点击数为BL00094（胞嘧啶DNA甲基转移酶）和BL00598（色域），这是Block Searcher和IMPALA Searcher的前两个点击数。注意，对于这两种方法，报告的其他点击数都不相同。显示前两个点击的对齐。(一)块搜索器输出。BL00094E和BL00094F未被检测到，因为它们因错误的基因预测而从查询中丢失U53501型，经直接cDNA分析证实（21）。每个点击由查询序列中找到的蛋白质组的一个或多个块组成。选择一组最高取芯块进行分析，这些块的顺序正确，并通过与块数据库相当的距离进行分隔。如果该组包括多个方块，则报告得分较低的方块支持得分最高的方块的概率。显示了数据库块和查询序列的映射：“AAA”表示大致与其宽度成比例的块。“：”表示数据库中块之间的最小距离表示数据库中块之间的最大距离。'<>'表示序列已被截断以适合页面。查询图在得分最高的块上对齐。与得分最高的方块一致的多个方块命中由冒号分隔。显示查询序列与块数据库中最接近它的序列的对齐。检测到的块之间的距离列为（min，max）：对于数据库条目，后跟查询中的距离。查询中的大写表示块的该列中至少出现一个残留物。(b条)IMPALA搜索器输出。IMPALA对齐将查询序列中与BL00094A对应的区域检测为一个单独的高分段，位于BL00094B上游163 aa处。查询序列与用于生成PSI-BLAST PSSM的COBBLER序列对齐。在显示的两条路线中，块区域内未插入任何间隙。

具有基于等级的E值的原始分析程序仍然可用作选项，并且仍然是Blocks Email Searcher的默认设置（为大量自动提交保持标准化格式）。然而，鼓励电子邮件用户尝试改进的分析程序；所需的消息格式在http://blocks.fhcrc.org/help/email.html

IMPALA搜索器

IMPALA Searcher是蛋白质查询的Block Searcher的一种新替代方法，NCBI的BLAST小组已将其用于Blocks WWW服务器(18). IMPALA搜索适当格式的PSI-BLAST PSSM数据库(19). 通过使用COBBLER（局部嵌入残留物导致的COnsensus偏倚）序列进行PSI-BLAST搜索，为Blocks+中的每个家族构建(三)查询已知属于该家族的SWISS-PROT序列。COBBLER序列是一个代表性序列，从第一个块的上游10 aa延伸到最后一个块的下游10 aa，其中嵌入了从块区域推导出的一致剩余。迭代PSI-BLAST搜索直到收敛，从而为Blocks+中的每个族生成一个PSI-BLEST PSSM数据库。图图2b2b显示了IMPALA输出的一个示例，该输出由熟悉的BLAST输出和E值统计信息组成，并包含指向Blocks+families hit的链接。与块搜索器不同，IMPALA可以在查询与块的对齐中插入间隙，并且还可以对齐块之间的区域。由于Blocks和IMPALA Searcher倾向于报告相同的真阳性点击，但不同的假阳性（例如，比较图。图2a2a和b），使用两者进行搜索并比较结果的用户可能能够更好地区分真假点击，以进行具有挑战性的查询。

将块映射到三维结构

PDB数据库中越来越多的蛋白质家族由一个或多个3D结构表示(网址：http://www.rcsb.org/pdb ). 要将块映射到PDB、MAST中的结构(15)用于根据PDB序列数据库搜索PSSM。相应PDB结构中的段进行了彩色编码，以指示它们所代表的块。WWW浏览器可以使用可以处理Rasmol的辅助软件查看3D块表示(20)命令，例如Chime(http://www.mdl.com/chemscape/chime ).

访问

Blocks WWW服务器位于http://blocks.fhcrc.org实现了本文中描述的所有功能，在使用Blocks服务器时应该引用这些功能。也可以通过电子邮件搜索Blocks+数据库，方法是将FASTA格式的DNA或蛋白质序列发送给blocks@blocks.fhcrc.org

致谢

我们感谢Nick Taylor实施3D块和NCBI BLAST小组，特别是Alejandro Schaffer，感谢他提供IMPALA软件用于搜索块数据库。这项工作得到了NIH（GM29009）和DOE（DE-FG03-97ER62382）的资助。

参考文献

1Henikoff S.和Henikof，J.G.（1991）核酸研究。,19, 6565–6572.[PMC免费文章][公共医学][谷歌学者]

2Henikoff J.G.、Henikof S.和Pietrokovski S.（1999）核酸研究。,27, 226–228.[PMC免费文章][公共医学][谷歌学者]

三。Henikoff S.和Henikof，J.G.（1997）蛋白质科学。,6, 698–705.[PMC免费文章][公共医学][谷歌学者]

4彼得罗科夫斯基S.（1996）核酸研究。,24, 3836–3845.[PMC免费文章][公共医学][谷歌学者]

5Rose T.M.、Schultz E.R.、Henikoff J.G.、Pietrokovski S.、McCallum C.M.和Henikof S.（1998）核酸研究。,26, 1628–1635.[PMC免费文章][公共医学][谷歌学者]

6Hofmann K.、Bucher，P.、Falquet，L.和Bairoch，A.（1999年）核酸研究。,27, 215–219.[PMC免费文章][公共医学][谷歌学者]

7Attwood T.K.、Flower，D.R.、Lewis，A.P.、Mabey，J.E.、Morgan，S.R.、Scordis，P.、Selley，J.N.和W.赖特（1999）核酸研究。,27, 220–225.[PMC免费文章][公共医学][谷歌学者]

8贝特曼A.、伯尼E.、杜宾R.、埃迪S.R.、芬恩R.D.和桑纳默E.L.L.（1999）核酸研究。,27, 260–262. 本期更新文章：核酸研究. (2000),28, 225–227.[谷歌学者]

9Corpet F.、Gouzy，J.和Kahn，D.（1999）核酸研究。,27, 263–267. 本期更新文章：核酸研究. (2000),28, 267–269.[谷歌学者]

10Gracy J.和Argos，P.（1998）生物信息学,14, 164–173. [公共医学][谷歌学者]

11.Bairoch A.和Boeckmann，B.（1992）核酸研究。,20, 2019–2022.[PMC免费文章][公共医学][谷歌学者]

12Henikoff S.、Henikof，J.G.和Pietrokovski，S.（1999）生物信息学,15, 471–479. [公共医学][谷歌学者]

13Henikoff S.、Henikof，J.G.、Alford，W.J.和Pietrokovski，S.（1995）基因,163，一般条款17–一般条款26。[公共医学][谷歌学者]

14Henikoff S.和Henikof，J.G.（1994）基因组学,19, 97–107. [公共医学][谷歌学者]

15Bailey T.L.和Gribskov，M.（1997）J.计算。生物。,4, 45–59. [公共医学][谷歌学者]

16Bailey T.L.和Gribskov，M.（1998）生物信息学,14, 48–54. [公共医学][谷歌学者]

17.Tatusov R.L.、Altschul，S.F.和Koonin，E.V.（1994）程序。美国国家科学院。科学。美国,91, 12091–12095.[PMC免费文章][公共医学][谷歌学者]

18Schaffer A.A.、Wolf，Y.I.、Ponting，C.P.、Koonin，E.V.、Aravind，L.和Altschul，S.F.（1999）生物信息学，正在印刷中。[公共医学][谷歌学者]

19Altschul S.F.、Madden，T.L.、Schaffer，A.A.、Zhang，J.、Zhang、Miller，W.和Lipman，D.J.（1997）核酸研究。,25, 3389–3402.[PMC免费文章][公共医学][谷歌学者]

20Sayle R.A.和Milner-White，E.F.（1995）趋势生物化学。科学。,20, 374. [公共医学][谷歌学者]

21Henikoff S.和Comai，L.（1998）遗传学,149, 307–318.[PMC免费文章][公共医学][谷歌学者]

来自的文章核酸研究由以下人员提供牛津大学出版社