SUPERFAMILY 1.75 HMM库和基因组分配服务器

超级家族2可访问supfam.org。拜托联系我们如果你遇到任何问题。

以域为中心的酶委员会(EC)注释和结构域酶委员会本体

跳转到[顶部·域2EC·SDEO公司·数据可用性]

本文件解释了蛋白质结构分类中分类的结构域的EC注释背后的细节(SCOP公司)数据库(Andreeva等人,2008)。IntEnz(综合关系酶数据库)是一个专注于酶命名法的资源,这是一个与UniProts交叉引用的酶(蛋白质催化剂)命名系统。结合SUPERFAMILY数据库中蛋白质的全基因组域分配(Gough,2006),我们对检测EC本体与结构域的相关性进行了统计推断。我们认为如果一个EC术语倾向于注释包含一个结构域的蛋白质,那么这个术语也应该给出该结构域的酶信号。基于此,以结构域为中心的EC注释可以从蛋白质/uniprot EC注释中推断出来。此外,我们已经初始化了EC的精简版,这是注释域信息量最大的版本。该资源代表了开发结构域EC本体(SDEO)的持续努力。与一起(排序)生命的参考物种树,该资源实际上可以用于查看由任何选定的EC术语注释的域集在物种进化过程中的分布。


推断SCOP域EC注释的管道

跳转到[顶部·域2EC·SDEO公司·数据可用性]

背后的动机是:如果一个EC术语倾向于注释包含一个结构域的蛋白质,那么这个术语也应该为该结构域提供酶信号。如果含有EC注释蛋白的结构域的数量显著高于偶然预期,则可以反向推断结构域的这种酶信号。图1总结了如何从鼠标中的单个蛋白质/基因级注释生成以域为中心的EC注释的过程。

图1。使用IntEnz数据库和SUPERFAMILY数据库中的域分配推断以域为中心的EC注释的流程图。

    数据源蛋白质/单蛋白EC注释摘自IntEnz公司。不同于域2GO,所有蛋白质(即Uniprot2EC映射矩阵)都支持结构域和EC之间的关联,因为在可注释的Uniprots中使用数量不足的单核结构域蛋白质进行统计测试失败。

    统计分析对于Uniprot2EC映射矩阵,执行两种类型的丰富以推断域和EC项之间的总体和相对关联(图2).EC术语(如t)和结构域(如d)之间可能关联的统计推断不仅在我们可分析的基因空间中进行,而且在注释给EC术语直接父代的那些基因的上下文中进行。这些双重约束确保只保留那些信息最丰富的EC术语。当同时比较多个假设检验时,可以使用错误发现率(FDR)方法评估域-EC术语关联的统计显著性(Benjamini和Hochberg,1995)。最终的FDR用于确定域EC术语关联的重要性。

    域2EC识别高质量域名EC协会的标准基于严格的FDR(<0.001)。由于SCOP将进化相关领域划分为超家族水平和家庭级别,我们相应地为两个域级别中的每一个生成了以域为中心的EC注释。

图2。根据超几何分布评估推断的统计显著性,生成整体注释的总体过度表示(左面板)和所有直系父母的相对过度表示(中面板)。基于最大P值,域-EC术语关联的统计显著性可以通过FDR解释多重假设检验的方法进行评估(右面板)。


初始化结构域酶委员会本体

跳转到[顶部·域2EC·SDEO公司·数据可用性]

基于高质量的Domain2EC,我们还初始化了一个精简版本的EC,这是注释结构域信息量最大的版本(图3).

图3。基于Domain2EC注释配置文件的信息论分析创建结构域酶委托本体(SDEO)的流程图。

    弗斯特,我们应用信息论来定义EC术语的信息内容(IC):负log10-注释到该术语的观测域频率的变换对于任何域,注释到该域的EC术语构成DAG中的域EC注释配置文件,包括直接注释以及根据真路径规则继承的注释。考虑到EC术语之间依赖性的性质(或所谓的真路径规则),直接注释到特定EC术语(称为直接注释)的域/蛋白质应可继承地注释到其父术语(术语为继承注释)。上面生成的EC注释可以被视为直接注释。完整的EC注释(直接注释和继承注释)用于计算所有EC术语的IC。值得注意的是,那些具有类似IC的EC术语可以表示DAG在Domain2EC方面的分区。

    第二给定一个预定义的IC(例如1)作为种子及其对应的范围(例如[0.75 1.25]),该算法从最初未标记的所有EC术语开始,迭代地识别最接近预定义IC的未标记EC术语,直到标记所有EC术语(图4). 为了确保每个路径只能识别一个EC术语,应满足以下约束:如果在同一路径中识别出具有相同IC的多个EC术语,则这些父术语将被过滤掉;一旦确定了EC术语,该术语所在路径中的所有术语都将被标记为不受进一步搜索的影响。

    最后输出为EC术语,IC在该范围内。我们使用四个种子IC(即0.5、1、1.5和2)中的每一个来运行算法,以创建SDEO,分别对应于具有四个级别的EC项(信息最少,信息量适中,信息丰富的,信息量大).

图4。演示如何迭代创建结构域酶委员会本体(SDEO)的算法。I) 。最初,所有EC术语都没有标记(开圆圈);二) ●●●●。识别那些未标记的EC术语(用粉红色填写),IC与预定义IC最接近(例如,1);三) ●●●●。从步骤II中确定的EC术语中筛选出这些母公司EC术语。四) ●●●●。标记EC术语及其所有祖先和后代。V-VI)。继续步骤II-IV,反复识别未标记的EC术语,直到标记所有EC术语。七) ●●●●。仅输出IC在范围内(例如[0.75 1.25])确定为SDEO的EC术语。


数据可用性

跳转到[顶部·域2EC·SDEO公司·数据可用性]

除了两个层次结构之外(SCOP-层次结构,或EC-层级)对于浏览,我们还提供了两种可解析格式的Domain2EC映射结果(即普通文件和mysql表)。尽管我们在SCOP也提供Domain2EC折叠级别,应特别注意,因为就进化相关性而言,它们绝对是无用的.

Domain2EC映射结果

  • 以域为中心的高覆盖率EC注释可在域2EC.txt文件。

  • 被视为SDEO的EC术语(四个级别:信息量最小、信息量适中、信息量大、信息量高)可以在中找到这个SDEO.txt文件文件。我们强烈建议用户使用这些EC术语及其注释域域2EC.txt不同于整个EC层次结构,不同粒度的EC术语在其与域(而非蛋白质)的相关性方面具有代表性和全面性。请记住,SDEO对应于四种SCOP域类型(即。,FA、SF、CF和CL).
Domain2EC MySQL表
    我们用四张桌子(域2EC.sql.gz)以存储上述信息(即。,Domain2EC映射结果):

    EC信息(_I):包含有关EC术语的信息。
    >描述EC信息;+-------------+----------------------------------+------+-----+---------+-------+|字段|类型|空|键|默认|额外|+-------------+----------------------------------+------+-----+---------+-------+|ec|varchar(15)|NO|PRI|NULL|||namespace|enum('root','enzyme_commission')|NO||NULL|||description|varchar(255)|NO||NULL|||distance|tinyint(3)unsigned|NO||NULL||+-------------+----------------------------------+------+-----+---------+-------+
    • 这个电子商务列是EC id,请参见IntEnz-分类规则。可通过以下方式浏览EC-层级.
    • 这个命名空间列是哺乳动物的表型,否则为根。
    • 这个描述列显示EC术语的全名。
    • 这个距离列显示EC术语到根的距离。

    EC_hie(_H):包含有关EC层次结构的信息。
    >描述EC_hie;+----------+---------------------+------+-----+---------+-------+|字段|类型| Null |键|默认值|额外|+----------+---------------------+------+-----+---------+-------+|parent|varchar(15)|NO|PRI|NULL||child|varchar(15)|NO|PRI|NULL||distance|tinyint(3)unsigned|NO|PRI|NULL|+----------+---------------------+------+-----+---------+-------+
    • 这个起源列是EC id。
    • 这个小孩列是EC id。
    • 这个距离列显示直接父子关系的父EC id到子EC id的距离。其他列指示它们之间存在路径(可到达但间接)。

    EC映射(_M):包含有关Domain2EC注释的信息。
    >描述EC映射;+----------------+---------------------------+------+-----+---------+-------+|字段|类型|空|键|默认|额外|+----------------+---------------------------+------+-----+---------+-------+|id|mediumint(8)unsigned|NO|PRI|NULL|||level|enum('cl','cf','sf','fa')|NO||NULL|||ec|varchar(15)|NO|PRI|NULL|||all_score|double|NO||1|||inherited_from|text|YES||NULL||+----------------+---------------------------+------+-----+---------+-------+
    • 这个身份证件是SCOP唯一标识符,太阳系的。可通过以下方式浏览SCOP-层次结构.
    • 这个水平在SCOP层次结构中。可以是class的“cl”,fold的“cf”,superfamily的“sf”,fa的“fa”之一。
    • 这个电子商务列是EC id。
    • 这个所有核心列是所有UniProt(包括多域UniProt)支持的FDR。
    • 这个继承自列用于标记Domain2EC预测注释的状态。1)如果标记为“directed”(即“all_score”<0.001),则所有UniProt(包括多域UniProt)都显著支持Domain2EC。2)如果它是一个以逗号分隔的EC id列表(数字部分;列“all_score”不小于0.001),则在DAG中应用true-path规则时,Domain2EC继承自任何下降的EC术语(显著相关)。3)否则清空。因此,使用NOT EECTY选择列“inherited_from”可以获得Domain2EC的列表.

    EC(_I):包含SDEO的信息。
    >描述EC_ic;+---------+---------------------------+------+-----+---------+-------+|字段|类型|空|键|默认|额外|+---------+---------------------------+------+-----+---------+-------+|level|enum('cl','cf','sf','fa')|NO|PRI|NULL|||ec|varchar(15)|NO|PRI|NULL |||ic|double|YES||NULL|||include|tinyint(2)|YES|MUL|NULL||+---------+---------------------------+------+-----+---------+-------+
    • 这个水平在SCOP层次结构中。可以是class的“cl”,fold的“cf”,superfamily的“sf”,fa的“fa”之一。
    • 这个电子商务列是EC id。
    • 这个集成电路列显示了EC术语的信息内容。
    • 这个包括列指示EC术语是否属于SDEO。如果该列设置为“0”,则它不是SDEO的成员。否则,“1”表示信息最少(即最通用),“2”表示信息适度,“3”表示信息丰富,“4”表示信息高度(即最具体)。


工具书类

    Andreeva,A.、Howorth,D.、Chandonia,J.M.、Brenner,S.E.、Hubbard,T.J.、Chothia,C.和Murzin,A.G.(2008)《数据增长及其对SCOP数据库的影响:新发展》,核酸研究,36,D419-425。摘要[公共医学]
    Benjamini,Y.和Hochberg,Y.(1995)《控制错误发现率——一种实用而有力的多重测试方法》,《皇家统计学会期刊B辑方法学》,57,289-300。摘要[公共医学]
    Fleischmann,A.,Darsow,M.,Degtyarenko,K.,Fleischman,W.,Boyce,S.,Axelsen,K.B.,Bairoch,A.,Schomburg,D.,Tipton,K.F.和Apweiler,R.(2004)IntEnz,综合关系酶数据库,核酸研究,32,D434-7。摘要[公共医学]
    Gough,J.(2006)蛋白质结构域的基因组尺度亚家族分配,核酸研究,343625-3633。摘要[公共医学]