什么是HAMAP?
概述
HAMAP代表H(H)igh-质量A类自动化和M(M)年度A类注释P(P)鱼藤素。
由于新一代测序技术和不断增长的全基因组测序速度,今天产生了大量数据即使是这些基因组的一小部分,也不可能再手动注释,尽管对更正和注释的需求很大完整的蛋白质组。为了丰富UniProtKB中的注释,我们开发了HAMAP,其目标是自动注释来自完整基因组测序项目的大量蛋白质的百分比。此自动注释管道基于族纵断面和手动创建的注释规则的集合,仅在可以产生与手动相同质量的情况下应用注释是指属于定义明确的家族或亚家族的蛋白质。这里我们指的是具有定义明确的函数,并且在序列层次上保持良好。HAMAP最初是为了注释来自完全测序的细菌、古菌和质体,但我们现在也产生并整合了针对真核生物和病毒蛋白家族。
HAMAP系列配置文件
HAMAP家族档案是用于确定查询蛋白质序列的蛋白质家族成员身份的人工筛选签名。标准给一个家族分配初始成员是序列相似性和文献中关于所讨论蛋白质的已知内容。这些“种子成员”是手动选择和对齐的。然后使用此“种子对齐”自动生成HAMAP族配置文件(有关更多信息详情请参阅我们的“标准操作程序(SOP)HAMAP族配置文件创建“文档)。有时,我们需要使用某种不同的方法来注释大型复杂的同源家族(例如基础知识运输公司)。对于这些,需要严格的轮廓来区分与运输基板相关的功能亚家族。对于ABC转运蛋白,手动构建的PROSITE配置文件用于分配家族成员,并且没有种子比对。
HAMAP注释规则
手动创建的HAMAP注释规则指定注释及其应用条件。创建每个HAMAP注释规则,查阅现有文献并手动对所有具有实验特性的蛋白质进行鉴定按照Swiss-Prot标准进行注释。将这些蛋白质的注释结合起来,构建包含要传播的注释的规则。决定哪些注释可以安全地传播到正交图。“案例”的使用(例如:对将注释传播到分类群,依赖于检测某种保守的活性位点氨基酸残基等。;参见下面的示例)有助于限制传播的扩展,如果缺少更多特征,并且假设相同的功能、亚单位、辅因子等适用于蛋白质家族的所有成员。(有关更多详细信息,请参阅我们的“HAMAP注释规则的标准操作程序(SOP)创造“文档)。
访问HAMAP
在网络上
访问HAMAP数据的最有效和用户友好的方式是交互式浏览Expasy服务器,网址为https://hamap.expasy.org,您可以在其中浏览、搜索和查看HAMAP配置文件和注释规则。
每个配置文件的视图包含:
- 关于家族简介的一般信息:登录号、名称、家族简介的分类范围以及相关的用于生成用于匹配蛋白质序列的注释的规则。此外,用于生成可以在此处查看配置文件以及配置文件本身。
- UniProtKB中配置文件匹配的统计信息,包括UniProtKB/Swiss-Prot和UniProtKB/TrEMBL中的点击数,以及比赛的分类分布和个人得分分布的图形视图比赛。
例子:HAMAP配置文件MF_01962
有关更多详细信息,请参阅Web视图用户手册,也可通过单击HAMAP配置文件页面每个部分的标题。
每个注释规则的视图包含:
- 注释规则的一般信息:加入号、创建日期和最后修订日期、名称和分类范围规则、特征化UniProtKB/Swiss-Prot模板条目列表以及用于检测家庭成员的家庭配置文件序列。
- 传播到成员条目的注释(例如,蛋白质名称、基因名称、注释、序列特征),包括用于控制繁殖的条件(分类、代谢或基于特征)。
- 关键词和基因本体论术语。
- 蛋白质域相关数据库的交叉引用(目前为PROSITE、Pfam、PRINTS、TIGRFAMs和/或PIRSF)
- 家族特征(例如大小范围、融合、重复等)。
- 关于家庭的评论。
例子:HAMAP规则MF_01962
有关更多详细信息,请参阅Web视图用户手册,也可以使用通过单击HAMAP规则页面每个部分的标题。
下载
注释规则、轮廓和路线也可在HAMAP ftp部分下载https://ftp.expasy.org/databases/hamap.
如何使用
已经开发了一个支持增量更新的关系数据库,用于存储注释规则、配置文件、序列和点击。简言之,根据HAMAP家族档案扫描蛋白质序列,以确定家族成员,并生成注释以进行阳性匹配通过应用在相应的HAMAP注释规则中找到的注释来解析其条件语句。
HAMAP-扫描
HAMAP可以通过我们的网络界面用于蛋白质序列的注释HAMAP-扫描,接受用于注释的单个蛋白质序列或完整(微生物)蛋白质组。请咨询我们的“HAMAP-扫描用户手册“获取有关如何使用此服务的更多信息。
UniProtKB中的HAMAP
作为UniProt自动注释管道、HAMAP常规为UniProtKB/TrEMBL中数百万未经审查的蛋白质序列提供Swiss-Prot质量注释。HAMAP自动管道是用于注释UniProtKB以以下方式:匹配的UniProtKB/TrEMBL序列其中一个HAMAP配置文件使用关联的注释规则进行注释。为了防止注释错误,任何有问题的情况都会被过滤掉。生成的注释集成到UniProtKB/TrEMBL中。
自动添加注释的条目具有以下一般功能:
- 与之匹配的HAMAP系列配置文件的交叉引用
HAMAP系列配置文件(或多个)匹配的所有UniProtKB条目中都存在交叉引用。这些交叉引用可以在条目的“系列和域”部分找到,格式如下:
HAMAP;配置文件标识符;配置文件名称;计数.
标识符为:
-
配置文件标识符
- HAMAP系列配置文件的唯一标识符
-
配置文件名称
- HAMAP系列配置文件的名称
-
计数
- 蛋白质中发现的结构域数量,通常为'1',偶尔为'2',用于2个相同结构域的融合。
示例:HAMAP;MF_01885;tRNA_甲基tr_TrmL;1
- HAMAP推断的注释源由指向HAMAP注释规则的证据标记指示生成了注释
源于HAMAP批注规则的UniProtKB批注上的证据标记的类型为{ECO:0000256|HAMAP-rule:规则标识符}.
例子:Q8ZL60型.
常见问题(FAQ)
HAMAP在基因组中的覆盖率是多少?
由于家庭规则的建立偏重于经过深入研究的门和家政基因,因此覆盖范围取决于有机体类型和基因组大小。HAMAP覆盖了69%的小基因组,例如蚜虫布氏杆菌(第。雌蕊棘吸管),至26%的模式生物大肠杆菌K12,对于一些大基因组来说略低于6%链霉菌物种(例如冰城根链霉菌).
是否可以使用HAMAP注释新的完整基因组的所有蛋白质?
在某些新的基因组中,可以用当前的一套规则自动注释超过一半的蛋白质。此覆盖范围随着新规则的增加不断扩大。然而,目前的方法本质上局限于“表现良好”的直系生物家庭。