跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2010年1月;38(数据库问题):D227–D233。
2009年11月5日在线发布。 数字对象标识:10.1093/nar/gkp971
预防性维修识别码:项目经理2808883
PMID:19892822

MEROPS:肽酶数据库

摘要

肽酶及其底物和抑制剂与生物学、医学和生物技术有着密切的关系。这个MEROPS公司数据库(http://merops.sanger.ac.uk)旨在满足对这些信息的综合来源的需求。该数据库有一个层次分类,其中肽酶和蛋白质抑制剂的同源组被归类为蛋白质物种,这些蛋白质物种被归类为家族,而家族又被归类为氏族。分类框架用于在每个级别附加信息。该数据库的一个重要重点是通过识别肽酶在哪里切割底物以及与哪些抑制剂相互作用方面的特异性来区分一种肽酶和另一种肽酶。我们在蛋白质、肽和合成底物中收集了39000多个已知的切割位点。这使我们能够显示肽酶的特异性和蛋白质底物的排列,以指示切割位点的保存情况,从而显示其可能的生理相关性。虽然新肽酶家族和家族的数量增长缓慢,但完整基因组的数量却大幅增加。这使我们能够在相关物种页面上添加分析工具,以显示肽酶基因相对于相关物种的显著增减。

简介

这个MEROPS公司数据库是一个手动管理的信息资源,用于肽酶(也称为蛋白酶、蛋白酶或蛋白水解酶)及其抑制剂和底物。该数据库自1996年以来一直存在,可在以下网址找到:http://merops.sanger.ac.uk.

数据库的组织原则是一种等级分类,其中肽酶和蛋白质抑制剂的同源组被归类为蛋白质物种,蛋白质物种又被归类为家族,家族又被归类到家族。一个家族包含的蛋白质仅通过序列比较就可以证明是相关的,而一个家族则包含的蛋白质序列是如此的遥远,以至于只有通过比较结构才能看到相似性。序列分析仅限于直接负责肽酶或抑制剂活性的蛋白质部分,分别称为“肽酶单元”或“抑制剂单元”。肽酶或抑制剂单元通常对应于一个结构域,一些蛋白质将包含多个肽酶或抑制域。例如,马铃薯Y病毒多聚蛋白含有三个肽酶单位,每个单位属于不同的家族;火鸡卵粘蛋白含有三种抑制剂单位,都属于同一家族。在数据库的每个级别上,都会选择一个特征鲜明的类型示例,家庭或家族的所有其他成员都必须以统计上显著的方式与之相关。肽酶或抑制剂水平上的类型示例称为“完整型”(1,2).

这个MEROPS公司数据库每季度发布一次,用户现在可以了解最新的MEROPS公司通过订阅MEROPS公司数据库博客位于http://meropsdb.wordpress.com。第8.5版(2009年8月)的统计数据MEROPS公司如所示表1与2007年4月的7.8版相比。肽酶序列的数量增加了一倍多,而蛋白质物种、家族和家族的数量仅略有增加。由于一些真核生物基因组中存在大量同源物,抑制剂序列的数量增加了三倍,其中三个家族(I1、I4和I63)的数量增加最多。这些增加反映了在测序新基因组方面投入的巨大努力。它还证明了肽酶分类对数据洪流的意义。

表1。

肽酶和蛋白抑制剂同源物的标识符、家族和家族计数MEROPS公司数据库

梅洛普斯7.8
梅洛普斯8.5
肽酶类抑制剂肽酶类抑制剂
序列66 5244912140 31316 337
蛋白质种类24035713215678
家庭1855320866
氏族51335234

当前版本中的数字MEROPS公司(2009年8月8.5版)与2007年4月的7.8版进行了比较。

2007年,我们发布了一种肽酶与另一种肽酶类的区分标准()在过去两年中,我们的大部分工作都集中在在MEROPS公司数据库。我们已经将这些标准应用于通过分析完全测序的基因组确定的假想肽酶同源物(4),允许我们分配MEROPS公司适当的标识符。两个重要的区别标准是不同的肽酶特异性和蛋白质内所有结构域的总体排列。下面讨论的新显示利用了这些标准,使我们能够识别新的肽酶。

基因组分析

目前,细胞生物中已完成测序的基因组数量已超过1300个。由于同一生物体的多个菌株的基因组已经测序,这代表了780个不同物种的基因组。我们最近在MEROPS公司用于肽酶同系物的概要分析。我们重点介绍了以下情况:基因组中含有肽酶家族成员,但在90%或更多的其他密切相关物种中未发现(意外出现),或肽酶家族缺失,但在其他90%或更多密切相关物种(意外缺失),或者,当所讨论的生物体中含有的肽酶家族成员多于或少于任何其他密切相关的物种时。本页面是CGI程序的产物,该程序从科级向超王国级推进生物分类,一次一个分类单元,收集具有完全序列基因组的物种数量。当数量超过5时,进行分析,结果显示在物种页面的底部。示例分析如所示图1.

保存图片、插图等的外部文件。对象名为gkp971f1.jpg

太古宙全序列基因组中肽酶同源物的分析Cenarchium共生。该图摘自MEROPS公司网站。肽酶同系物列表按字母顺序排列MEROPS公司标识符显示在顶部面板中,基因组分析显示在页面底部。蛋白质组的肽酶部分C.共生体(12)已与Thermoprotei类17种其他物种进行了比较。肽酶家族C26、C44、M38、M48、S9和U62的成员的意外缺失,以及肽酶家族M3的同源物的意外存在。在比较的物种中,C.共生体肽酶家族M20同源物数量最少,但肽酶家族S8同源物数量最多。大量缺失肽酶家族可能表明该内共生体基因组退化。

域架构

显示域架构的图像已被彻底检查。因为只有肽酶和抑制剂单元被分类在MEROPS公司数据库中,可以比较同一肽酶或抑制剂家族中不同蛋白质的结构。现在,通过单击家族页面上的“架构”按钮,可以对家族中的所有全息图进行此操作。家庭架构的示例如所示图2.

保存图片、插图等的外部文件。对象名为gkp971f2.jpg

肽酶亚家族M12B全型的结构域。该图摘自肽酶亚家族M12B(adamalysins)的域结构页MEROPS公司网站。显示了选择的完整型蛋白质的区域和结构域的排列。结构从页面顶部按以下顺序排列MEROPS公司标识符。肽酶的名称在左边。所有结构均按相同比例绘制。序列长度由淡蓝色线表示。由确定的区域和域MEROPS公司UniProt数据库中的Pfam数据库和Swiss-Prot条目(7),在此栏上显示为彩色矩形。在中分类的域MEROPS公司数据库显示为稍大的方框,绿色表示肽酶单元,灰色表示抑制剂单元(未显示)。这个MEROPS公司标识符以黑色文本显示在中间。来自Pfam数据库的域(13)显示为深红色的较小矩形,域名为白色文本。点击框后,用户将进入相关Pfam条目。Swiss-Prot的区域包括信号肽和跨膜区域(黑色显示为更小的方框)和前肽(深灰色)。活性部位残留物(红色“棒棒糖”)和金属配体(蓝色“棒棒糖糖”)显示在底部边缘。碳水化合物结合残基(橙色“棒棒糖”)和二硫键(连接半胱氨酸的黑线)显示在顶部边缘。在所有情况下,鼠标悬停在文本上可显示功能的详细信息。

底物和特异性显示

肽酶最重要的特征之一是它的特异性:它将在哪里裂解底物蛋白质或肽。这个MEROPS公司1998年,随着CD版的蛋白水解酶手册(5)现在已经从7.8版(2007年4月)中的1919个裂解增加到了蛋白质和肽(生理和非生理)中的34000多个已知裂解,以及合成底物中的2700多个裂解。在可能的情况下,将蛋白质和肽底物映射到UniProt标识符,并且每个裂解的P1残基[剪切键氨基侧的残基(6)]映射到UniProt数据库条目中的残留物编号。负责切割的肽酶映射到MEROPS公司标识符。我们最近在这个集合中添加了裂解,从而去除蛋白质的靶向信号,包括通过蛋氨酸氨基肽酶从细胞质蛋白质中启动蛋氨酸,通过信号肽酶进入分泌途径的蛋白质中的信号肽,去除导入叶绿体、线粒体和过氧化物酶体的蛋白质的靶向肽。只有那些通过实验验证的裂解,通常是通过成熟蛋白的N末端测序,才被包括在内。

我们在基板页面上引入了“标记”,以指示用于识别解理位置的方法。标记如下:NT表明裂解位置是通过N末端测序确定的,MS表明肽组成是通过质谱(MS)确定的,裂解位置是计算出来的,MU表明裂解位置由定点突变决定,CS表明,卵裂位置是根据蛋白质序列中的一致模体(CS)推测的。因为研究人员使用的底物通常是成熟的蛋白质和肽,所以底物页面还包括一个额外的列,以显示每个研究中使用的蛋白质或肽的残留范围。

已经组装了一个工具,允许底物蛋白质序列的动态对齐。假设生理相关的切割将在密切相关生物体的同源蛋白质序列中保持不变,则在比对中突出显示切割位点,以表明其是否保持不变。很少保存的裂开部位可能是偶然的,没有生理意义(尽管在少数情况下可能是病理性的)。对于已知劈理的每个基板,对应的UniRef50条目(7)并且该条目中包含的所有UniProt蛋白序列都与肌肉对齐(8).

据推测,天然蛋白质中的大多数裂解发生在表面环和结构域间连接体内。在解决了三级结构的情况下,二级结构元素显示在基板对齐上。具有所指示的二级结构的实例蛋白质-底物比对显示于图3.

保存图片、插图等的外部文件。对象名为gkp971f3.jpg

底物蛋白质序列比对的示例。该图取自MEROPS公司网站和显示了人类C–X–C基序趋化因子11及其密切同源物的蛋白质序列比对,显示了基质金属肽酶8(MMP8,M10.002)在残基84处的裂解位点附近的保守性(14). 发现卵裂的蛋白质序列以绿色突出显示。残留物按此顺序编号。这个MEROPS公司左边的残基数下面显示了已知能裂解这种底物的肽酶的标识符。每个旁边的箭头MEROPS公司标识符显示了实验中使用的肽片段的残基范围,在大多数情况下是没有信号肽的成熟蛋白(显示了残基22处的信号肽酶切割)。问号而不是尖括号表示终点尚未确定。剪式债券符号(保存图片、插图等的外部文件。对象名为gkp971i1.jpg)显示解理发生的位置。可以单击每个符号,并突出显示对齐,以显示解理位置周围的保护。每个解理位点任一侧四个残基(P4–P4′)(6)突出显示。完全保守的残基以橙色突出显示。尽管在本例中未显示,以粉红色突出显示的残基不会被保存,但在另一MMP8底物中的相同位置可以观察到氨基酸。欧洲雪貂序列中的Ile84(臭鼬)标记为UniProt A8DBL7的,显示为黑色背景,因为任何MMP8底物在此位置都不知道异亮氨酸。最后一行显示了二级结构:α螺旋线显示为一系列以红色突出显示的“a”,而链显示为以绿色突出显示的一系列“b”。该示例表明,MMP8能够在α螺旋内裂解该蛋白底物。

显示所选蛋白质的裂解取决于用户选择从中提取底物的正确物种。如果用户选择的蛋白质没有已知的裂解,但来自不同物种的相同蛋白质已知,则会自动显示一个选项,以显示与突出显示的裂解的序列对齐。

我们使用MEROPS公司底物裂解收集表明肽酶的特异性。这显示为WebLogo(9)以及结合囊P4到P4′中可接受残基的频率矩阵,前提是我们已知10个或更多底物。有300多种肽酶,已知底物10种或更多。这些显示显示在相关肽酶摘要页面上。然而,这不允许一种肽酶与另一种肽酶进行容易的比较。所以除了肽酶摘要上的显示外,MEROPS公司现在包括显示器,用于比较捆绑口袋S4和S4′中的首选项。它们在所有氨基酸、氨基酸特性和单个氨基酸方面表现出偏好。第一个结果显示,对于每种肽酶,如果它出现在40%或更多底物的同一结合囊中,则为一种氨基酸。因此,任何一个结合囊中显示的氨基酸不超过两个。氨基酸显示为绿色背景,绿色越亮,底物中氨基酸所占比例越大。第二个显示类似,但不是显示单个氨基酸,而是将其收集为“脂肪族”、“芳香族”、‘酸性’、‘碱性’或‘小’组。在第三个选项中,用户被提示从下拉菜单中选择一种氨基酸,显示屏显示每个肽酶的每个结合囊中所选氨基酸的底物百分比。如果在结合囊中未观察到氨基酸,则以黑色突出显示。在所有三个不可能有氨基酸的显示器中(例如,氨肽酶的P4、P3和P2,羧肽酶的P2′、P3′或P4′),结合囊以灰色突出显示。图4显示了其中一个新显示的一部分。

保存图片、插图等的外部文件。对象名为gkp971f4.jpg

肽酶特异性的比较。该图显示了来自MEROPS公司网站。显示了肽酶对氨基酸脯氨酸的偏好。这个MEROPS公司左边显示了肽酶的标识符和名称,以及MEROPS公司收藏。当脯氨酸出现在40%或更多底物的相同位置时,细胞以绿色突出显示,并且显示了在该位置具有脯氨酸的底物的百分比。只有当已知10个或更多肽酶底物时,细胞才会突出显示。如果没有结合囊来容纳底物残基,例如氨肽酶的位置P4、P3和P2或羧肽酶的P2′、P3′和P4′,则这些细胞以灰色突出显示。

线形和树木

我们已经意识到,随着收集的数据越来越多,我们的一些比对变得非常大。不仅会有数百(甚至数千)个序列,而且比对如此多不同序列的结果意味着插入了更多的间隙字符,比对变得更宽。这些很难在计算机屏幕上查看,滚动屏幕时,残留数字或序列标识符会从屏幕上消失。为了帮助缓解这些问题,我们使树状图更具交互性。树的节点现在是活动链接,单击节点时,将显示从该节点派生的所有序列的对齐。此对齐还包括族类型示例和从类型示例序列派生的序列编号。显示的对齐不是动态的,而是通过删除所有序列通用的任何插入字符从完全对齐中派生出来的。为了实现这一点,我们现在在MySQL数据库中包括对齐的肽酶或抑制剂单元序列和树状图(新罕布什尔州格式)。

肽酶(或抑制剂)摘要的序列页现在包括一个ALIGN VARIANTS(校准变量)按钮。许多肽酶和抑制剂被多次测序,并且存在变体,可能是菌株特异性的,也可能是选择性启动、外显子选择性剪接、等位变异或单核苷酸多态性(SNP)的结果。点击ALIGN VARIANTS(校准变量)按钮将生成我们从主要序列数据库收集的所有变量的动态校准。与我们选择纳入蛋白质序列集合的序列不同的残基在黑色背景上以白色文本突出显示。

新索引

索引是使用户能够找到所需数据的重要工具。我们已经为添加了许多新索引MEROPS公司.

一个新的基因名称索引已添加到主索引页(左侧菜单)。你现在可以搜索任何已知其基因或基因位点名称的肽酶或蛋白抑制剂同源物。

添加了一个新的基板菜单,其中包括基板名称索引,使用户可以更容易地找到我们收藏中有劈开的基板。基板按名称的字母顺序排列。名称通常取自UniProt描述,但如果底物是较大蛋白质的片段,则肽的通用名称优先于蛋白质名称。例如,用户会在索引中找到“P物质”以及源蛋白“蛋白激酶-1”。该索引还包括合成底物的名称。底物菜单还提供了对肽酶特异性进行比较的页面。

文学

这个MEROPS公司该数据库包含大量参考书目(超过37000)。这些引用中的每一个都标记有MEROPS公司相关肽酶、抑制剂、家族或家族的标识符,以及每个肽酶、抑制物、家族或氏族的参考列表。我们使用彩色“旗帜”标记了一些与特别重要主题相关的出版物。标志的完整列表如所示表2.

表2。

用于标记与特别重要主题及其解释相关的出版物的标记

解释
A类A类ssay方法,
E类重组E类表达,
小分子设计抑制剂,
K(K)基因K(K)nockout或其他人工基因操纵,
M(M)自然的M(M)突变、等位变异或多态性,
P(P)基板s第页特殊性,
R(右)R(右)NA拼接变异,
S公司三维S公司结构,
T型被提议作为治疗T型目标,
U型本身就有治疗潜力,
V(V)R(右)审查

数据库交叉引用

“搜索”菜单中添加了一个新项目。这个MEROPS公司该数据库包括许多对其他数据库和生物信息学资源的交叉引用。使其他人更容易将其数据库条目映射到MEROPS公司有一种新的CGI,它提供了MEROPS公司以及从下拉菜单中选择的任何数据库。之间有大量的交叉引用MEROPS公司和主要序列数据库,因此这些数据以50000为一批返回。

分布式注释系统(DAS)服务器(10)已为设置MEROPS公司。这允许其他人直接从MEROPS公司MySQL数据库,以包含在他们自己的Internet服务中。用户在URL中输入登录作为参数(通常这是UniProt登录,但EMBL/GenBank ProtID适用于MEROPS公司)并且与存储在我们的集合中的序列相关的数据将被返回。对于肽酶或蛋白质抑制剂,这将包括MEROPS公司标识符、家族和家族、肽酶或抑制剂单元的范围、活性位点残基(和金属肽酶的金属配体)、氨基酸序列和中的页面链接MEROPS公司针对每个功能。对于蛋白质底物,已知裂解的位置和MEROPS公司返回负责肽酶的标识符。示例URL为:

http://das.sanger.ac.uk/das/merops/features?segment=P07858(人类组织蛋白酶B的特征)

http://das.sanger.ac.uk/das/merops/sequence?segment=P07858(人类组织蛋白酶B序列)

http://das.sanger.ac.uk/das/merops/features?segment=P05067(已知人类淀粉样β-A4蛋白前体的裂解)

现有功能的增强

对于基因组完全测序的真核生物,肽酶或蛋白抑制剂同源基因的染色体位置(以兆碱基为单位)现在显示在生物页面上。这些位置来自EnSEMBL数据库(11)通过搜索与UniProt蛋白质序列数据库交叉引用的条目,因此不会显示来自任何拷贝数较低基因组的基因的位置。然而,显示了人类和小鼠的所有同源物的位置。对于人类和小鼠,这些位置也显示在肽酶或蛋白质抑制剂汇总的遗传学表中。这里的位置与EnSEMBL中的contig视图相关联,该视图显示了该基因的外显子和内含子结构。染色体(或基因组支架)的名称位于位置之前,而链则由位置后括号中的加号或减号表示。

肽酶或抑制剂在生物体中的分布得到了增强。现在,在每个节点上都有鼠标悬停文本,它给出了分类单元的名称。

MEROPS公司已将标识符添加到肽酶抑制剂相互作用表中,现在可以根据标识符或蛋白质名称对表进行排序。

社区公告

已经为我们的用户设置了一些设施,以便在MEROPS公司通过“提交”按钮。目前只有两个提交项目,都是为我们提供我们不知道的任何已知蛋白质裂解位点的建议。第一个是提交单个乳沟的表单,第二个允许用户上传已知乳沟位置的文件。后者的设计考虑了蛋白质组学实验。提供的信息将使我们能够将解理映射到UniProt数据库中的条目。也欢迎用户就MEROPS公司网站发送至以下电子邮件地址:ku.ca.regnas@孢子.

基金

威康信托【授权号WT077044/Z/05/Z】。开放存取费用的资金来源:Wellcome Trust。

利益冲突声明。未声明。

致谢

我们要感谢Pfam和Rfam的同事进行了有益的讨论,感谢桑格研究所网络团队的Paul Bevan、Jody Clements和Matthew Waller在维护此资源方面提供的所有帮助。我们还要感谢那些指出错误和遗漏,或建议更改和改进的用户。

参考文献

1.罗林斯ND,巴雷特AJ。肽酶的进化家族。生物化学杂志。1993;290:205–218. [PMC免费文章][公共医学][谷歌学者]
2罗林斯ND、托勒DP、巴雷特AJ。肽酶抑制剂的进化家族。生物化学。J。2004;378:705–716. [PMC免费文章][公共医学][谷歌学者]
三。Barrett AJ,罗林斯州。肽酶的种类。生物化学。2007;388:1151–1157.[公共医学][谷歌学者]
4罗林斯·ND,莫顿·FR.MEROPS批次BLAST:检测基因组中肽酶及其非肽酶同系物的工具。生物芯片。2008;90:243–259.[公共医学][谷歌学者]
5Barrett AJ、Rowlings ND、Woessner JF编辑。蛋白水解酶手册。伦敦:学术出版社;1998[谷歌学者]
6Schechter I,Berger A.关于蛋白酶的活性位点。3.木瓜蛋白酶活性位点的定位;木瓜蛋白酶的特异性肽抑制剂。生物化学。生物物理学。Res.Commun公司。1968;32:898–902.[公共医学][谷歌学者]
7Apweiler R、Bairoch A、Wu CH、Barker WC、Boeckmann B、Ferro S、Gasteiger E、Huang H、Lopez R、Magrane M等。UniProt:通用蛋白质知识库。核酸研究。2004;32:D115–D119。 [PMC免费文章][公共医学][谷歌学者]
8埃德加钢筋混凝土。MUSCLE:一种减少时间和空间复杂度的多序列比对方法。BMC生物信息学。2004;5:113. [PMC免费文章][公共医学][谷歌学者]
9Crooks GE,Hon G,Chandonia JM,Brenner SE。WebLogo:序列徽标生成器。基因组研究。2004;14:1188–1190. [PMC免费文章][公共医学][谷歌学者]
10Dowell RD、Jokerst RM、Day A、Eddy SR、Stein L.分布式注释系统。BMC生物信息学。2001;2:7. [PMC免费文章][公共医学][谷歌学者]
11Hubbard TJ、Aken BL、Ayling S、Ballester B、Beal K、Bragin E、Brent S、Chen Y、Clapham P、Clarke L等,2009年合奏。核酸研究。2009;37:D690–D697。 [PMC免费文章][公共医学][谷歌学者]
12Hallam SJ、Konstantinidis KT、Putnam N、Schleper C、Watanabe Y、Sugahara J、Preston C、de la Torre J、Richardson PM、DeLong EF。未开垦海洋火葬场的基因组分析新生代共生体.程序。美国国家科学院。科学。美国。2006;103:18296–18301. [PMC免费文章][公共医学][谷歌学者]
13Finn RD、Tate J、Mistry J、Coggill PC、Sammut SJ、Hotz HR、Ceric G、Forslund K、Eddy SR、Sonnhammer EL等。Pfam蛋白质家族数据库。核酸研究。2008;36:D281–D288。 [PMC免费文章][公共医学][谷歌学者]
14Cox JH、Dean RA、Roberts CR、Overall CM。CXCL11/I-TAC的基质金属蛋白酶处理导致趋化活性丧失和糖胺聚糖结合改变。生物学杂志。化学。2008;283:19389–19399.[公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社