PROSITE徽标
[ < ] [>]   [ << ] [向上] [>>]         [顶部] [目录] [索引] [?]

1.UniRule格式介绍

UniRule是一种描述由UniProtKB/Swiss-Prot自动化注释项目。它定义了将被为(选定的)预测特征生成。

结构

每个UniRule条目由以下部分组成。


应用程序

蛋白质规则

用于注释蛋白质家族:HAMAP规则。

域/站点规则

用于注释蛋白质域或位点:ProRules。


术语解释

动机

任何序列特征预测器或鉴别器,如模式、轮廓或剖面-HMM。

税收代码

最多5个字母数字的助记码用于UniProtKB/Swiss-Prot。


[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

2.收割台部分

这个页眉部分包含有关UniRules的技术信息。


[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

2.1交流线路

每个UniRule都以一个或多个开头自动控制(A分区编号)行。入职编号的格式为“入职”项目需求单位'后跟5ProRules和'的数字MF公司_'后跟5位数字表示HAMAP规则。

应用程序:

 
蛋白质规则:强制域/站点规则:强制

格式:

 
自动控制主要登录号;[二级登录号;]

示例:

 
AC PRU00001;AC PRU00002;PRU99998;PRU99999;交流电MF_00022;

注:CVS目录中的UniRule文件名对应于UniRule的主登录号。


[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

2.2直流线

这个直流(数据类)行指定规则注释的数据类型。

应用程序:

 
蛋白质规则:强制性

域/站点规则:强制

格式:

 
直流数据类;[自动]

示例:

 
DC蛋白;汽车DC域;DC站点;

这个数据类为以下值之一:

蛋白质

指启用UniProtKB/Swiss-Prot条目的完整注释的规则。

顶部_域

该规则适用于拓扑意义的领域,如细胞外区域。A’顶部_域'可能包含任何''在其范围内。

指启用UniProtKB/Swiss-Prot条目的域注释的规则。

域通常不允许重叠。然而,在极少数情况下是这样的一个域可能位于另一个域中;例如EH域和EF-hand。在这种情况下,较小域的注释必须在较长域的规则中触发。

现场

指启用UniProtKB/Swiss-Prot条目的站点注释的规则。一个或多个站点可能位于域中。如果域中的站点是保守的,通常在域规则中触发(参见第节DR线路).


蛋白质规则优先于域/位点规则。
可选拖尾项'汽车'表示可以应用UniRule自动注释。如果不存在,则意味着只能使用UniRule用于支持手动注释,当方法具有大量误报或输出需要进一步手动完成。


[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

2.3 TR线

这个信托收据(触发器)行描述了哪些(选定的)序列分析功能触发当前UniRule的应用。每个UniRule可以包含一个或多个信托收据线。每个功能名称在整个TR行中只能出现一次UniRule数据库,因为一种功能只会触发一个规则。

应用程序:

 
蛋白质规则:强制

域/站点规则:强制


TR线路有两种类型:


[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

2.3.1TR图案线


格式:

 
信托收据库名;标识符1;标识符2;nbhits个; 水平=水平

示例:

 
TR PROSITE公司;PS50075;ACP域;0-1; 级别=0TR HAMAP;MF_00401;-;1; 级别=0TR概述;跨膜;-;1; 级别=0TR IPRO;IPR009003;-;1; 级别=0

[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

2.3.2TR元模体线


格式:

 
TR元模体;mm搜索选项;元基序

示例:

 
TR元模体;-;信号>=GPI_anchor

技术说明:现在元模体被anabelle psat检测到(通过mmsearch);它们只是gff的经典psat功能。因此,元模体检测不再与规则评估步骤挂钩。如果需要,元模体TR不应包括在测试条件中特征已经存在,这是无用的/过时的(由于元模体是由psat检测到的,这意味着它功能)。

这个元基序字段应与可检测元模体的名称相对应功能。元模特征名称同时也是元模描述。它描述了子功能(按名称)在序列中的排列。“可用”元基序列在$ANABELLE/data/metamotives.dat该文件由mmsearch使用,并由在发布时创建(anabelle_update.sh)从CVSed UniRules中提取TR元运动线。

这个领域mm搜索选项用于控制元模体的行为搜索自动化(在“picohamap”时间?)。现在已经过时了,只需使用“-”即可。


[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

2.4 XX线

这条分隔线没有任何意义。它用于分离线。


[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

2.5名称行

这个姓名线表示规则描述的图案的名称。第一个名称是UniProtKB/Swiss-Prot中使用的名称,下面列出了同义词,一个每行的名称。如果没有特定的图案名称未定义'应作为占位符插入。

应用程序:

 
蛋白质规则:1个名称是必填的

域/站点规则:强制

格式:

 
名称:未定义姓名:同义词1

 同义词2

例子:

 
名称:Nacht域NACHT-NTPase域核苷三磷酸酶结构域

[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

2.6功能线

这个功能行表示域的“泛型”函数。通常是这样不应超过一行,但如果是,则后面的行第一个将缩进一个空格。

应用程序:

 
蛋白质规则:禁止

域/站点规则:强制性

格式:

 
功能:未定义/未知功能:文本

示例:

 
功能:蛋白质结合功能:DNA-binding功能:抑制纤维蛋白原与血小板受体的相互作用蛇毒液类

[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

2.7内部意见


关于规则的评论,供内部使用不显示在已发布的版本中。它应该出现在前缀为的行上两个星号和一个空格。它们可能出现在标题部分的末尾,并且贯穿注释部分和计算部分。然而,它是将此类注释放在标题部分末尾的良好做法立即可见,只在注释和计算部分。
例子:

 
**SALRD在C端异常长,标记为非典型。

[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

3.注释部分

这个批注部分包括所有可以应用于规则匹配。此外,还可以用线条表示条件语句('案例’, ‘else情况’, ‘其他的','c?’,c!')和一条表示图案或排列的线,根据计算特征位置的位置(参见第节FT自线). 这条线顺序与UniProtKB/Swiss-Prot中的相同。


[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

3.1 ID线

这个身份证行包含条目中使用的蛋白质名称的助记符代码UniProtKB/Swiss-Prot条目的名称。

应用程序:

 
蛋白质规则:强制

域/站点规则:禁止

格式:

 
身份证蛋白质名称代码

例子:

 
ID确认

注意:如果指定的代码为“Ynnn”,则将替换为“Y”,后跟注释蛋白质的OLN(OrderedLocusName)编号。


[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

3.2 DE线

这个判定元件行对应于UniProtKB/Swiss-Prot条目的描述行。定义应添加到现有数据中的DE注释(来自原始数据条目和/或来自以前的规则元素应用程序),而不是替换它:在DE块前面加上“+’.

应用程序:

 
蛋白质:强制

域/站点:可选

格式:

 
DE说明。DE+部分描述

例子:

 
DE RecName:Full=推测的3-甲基腺嘌呤DNA糖苷酶;DE EC=3.2.2.-;DE+RecName:EC=2.7.3.-;

DE行可能包含占位符<本地标记>',这将是(在注释输出中)替换为条目的有序位置名称(OLN)(或如果未发现OLN,则通过ORF名称;如果找不到任何东西:将保持原样但会生成警告)。
它还可能包含占位符“<基因名称>将被条目基因名(GN name)取代。

例子:

 
DE RecName:Full=类Hemerythrin蛋白<locus_tag>。

DE行可能包含@gn(ANYGENENAME)占位符/命令,它将被替换为正确的外壳和基因计数编号(根据条目分类法)指定的基因名称。


[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

3.3 GN线

这个GN(通用)行包含一个蛋白质家族,如果存在的话。

应用程序:

 
蛋白质:可选

域/站点:禁止

格式:

 
GN名称=名称;[同义词=同义词[,同义词]…;]

示例:

 
GN名称=acpD;GN名称=groS;同义词=groES;

[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

3.4 CC线

这个科科斯群岛行包含UniProtKB/Swiss-Prot条目的所有适用注释行。

应用程序:

 
蛋白质:可选

域/站点:可选

格式:

 
抄送--话题:文本.

例子:

 
抄送-!-相似性:属于ABC运输车家族。

CC行主题相似性:包含'通常不完整。散列签名'#'在文本中表示为给定的motif并在自动注释过程中被替换;术语重复’, ‘领域'或'锌指'将设置为复数,如果在一种蛋白质中发现了不止一个真正的阳性反应。

CC行可能包含:

 
抄送-!-PTM:#{120}的磷酸化激活。。。抄送-!-PTM:CDK2在#{Ser-187:FEN1_HUMAN}处的磷酸化。。。抄送-!-PTM:#{Arg-101}的可逆ADP-核糖基化失活。。。

例如,后者变为:

 
抄送-!-PTM:Arg-112的可逆ADP核糖基化失活。。。。。。

[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

3.5 DR线路

这个博士行的主要用法是触发“child”规则,以避免规则内容重复。这与“真正的”DR UniProtKB/Swiss-Prot没有太大关系注释行(在Anabelle中,DR注释仅对PROSITE执行图案)。DR线路的格式与TR线路的格式相似(参见第节TR线).

应用程序:

 
蛋白质规则:可选

域/站点规则:可选

格式:

 
博士类型/dbname;功能名称;标识符;nbhits个; 触发器=[yes|strict|no]

例子:

 
DR PROSITE公司;PS00419;光系统_I_PSAAB;1; 触发器=否DR PROSITE公司;PS00010;ASX_HYDROXYL;0-1; 触发器=否DR General;信号;-;0-1; 触发器=严格DR General;跨膜;-;10-11; 触发器=是

笔记:


[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

3.6KW线路

这个千瓦行包含UniProtKB/Swiss-Prot条目的所有适用关键字,每行一个。

应用程序:

 
蛋白质规则:可选

域/站点规则:可选

格式:

 
千瓦关键字

例子:

 
KW转移酶KW激酶

[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

3.7 GO线

这个GO(开始)该行包含所有适用的基因本体术语,每行一个。

应用程序:

 
蛋白质规则:可选

域/站点规则:可选

格式:

 
GO(开始)附加编号;方面:学期

例子:

 
GO-GO:0019104;F: DNA N-糖苷酶活性GO-GO:0006281;P: DNA修复


[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

3.8 FT线路

这个英尺(功能表)行包含UniProtKB/Swiss-Prot条目的适用功能。这个特征位置由基于关于规则和母题的匹配位置。

应用程序:

 
蛋白质规则:可选

域/站点规则:可选

格式:

 
FT起始:模板id(模板-账号)或图案的唯一标识符英尺钥匙                  描述.[FT[可选;][组:n个;] [条件:图案]]

示例:

 
FT发件人:CARB_ECOLI(P00968)FT域第403号羧基磷酸合成域。FT自:PS00385FT站点6通过相似性。

[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

3.8.1FT自线


这个FT自行必须位于FT功能行。定义“模板”/“参考框架”以允许指定的规则要映射到目标序列坐标的坐标后来的FT功能线。模板必须是以下之一:“any”,是基序、蛋白质标识符或元基序。

格式:

 
FT起始:图案的唯一标识符[:正则表达式]FT起始:条目名称(访问编号)[:regexp]FT起始:元基序[:正则表达式]FT-From:任意[:regexp]

示例:

 
FT发件人:PS50234FT发件人:ACP_ECOLI(P02901)FT自:PS50021=7,91=PS50021FT自:任何FT发件人:PS50217:([KR])[^LI].*([KR)[^ LI]([LI]).*([LI])

如果给定(addition_number)=模板/参照系是UniProt蛋白=编号基于该蛋白,则随后的位置将映射到带注释的目标序列。
如果(accession_number)未给定=参考帧是触发器(motif)匹配区域。如果给定特定的模体标识符,则仅当当前触发器为指定类型时,才会传播后续的FT(当一个规则作为多个触发器时,这很有用……)。如果使用“any”,则不会按触发器名称进行筛选。
可选的regexp可以与后续FT中的1-9美元位置“键”结合使用,以注释浮动位置。


注意:如果模板是元基序,则必须在TR行中逐字显示。


[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

3.8.2FT功能线

这个FT功能行定义了实际的FT行在成员条目中传播。

格式:

 
英尺钥匙                  描述.
钥匙

UniProtKB/Swiss-Prot功能键。(注意,如果设置为“隐藏',则不会传播功能。只是为了给FT组添加约束或提升标签…)

特征位置采用以下格式之一:

1

开始模板.

12

相对于开始的位置模板.

8+1

相对于模板,已移位相对于目标序列的一些残基(不总是与模板序列上的位置9,因为可能有插入)。

<1
?251

相对于开始的位置模板,使用UniProtKB/Swiss-Prot功能中使用的修饰符。

Nter公司
Cter公司

目标序列的第一个、最后一个残差。

的开始和结束模板延长了在部分配置文件匹配的情况下,需要生成完全匹配。这个要添加的残留物数量在“功能来源'和功能目标'GFF属性。

进入
出口

的开始和结束模板,部分情况下不扩展比赛。

$1

匹配的FT From regexp捕获组的开始(1到9)

描述

功能描述。

示例:

 
FT CHAIN到+1 Cter<name>。FT LIPID 1 1 GPI-锚定酰胺化<resture_name>。FT域从到层粘连G-like#。FT TOPO_DOM Nter 6周质(电位)。FT域?8+1类EGF#。FT发件人:PS50217:([KR])[^LI].*([KR)[^ LI]([LI]).*([LI])FT REGION$1$2基本图案#。FT REGION$3$4亮氨酸拉链#。

占位符(在描述中)


[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

3.8.3FT约束线

这个FT约束线(也称为FT条件线路)在其正上方的FT线上给出约束。

格式:

 
FT[标签:标记名[,标记名]…;] [可选;][组:n个;][条件:图案]

要素线通常受序列上的图案约束(在如果需要更复杂的规则,则使用case语句(请参阅第节案例陈述)应该使用。

例子:

 
FT结合37 37磷戊烷(按相似性)。FT标记:磷酸化;条件:S

图案'在中指定PROSITE模式格式添加了

角色'*'可用于指定不受约束的范围,例如C-x*-C’. 对应于特性必须与此模式完全匹配。

为了注释的一致性,应应用多个FT行要么全部组合在一起,要么根本不组合在一起’,以限制所有站点的公共存在。该组可以被引用通过案例声明,例如在相关KW和CC线路中取决于功能的存在。

例子:

 
案例<FTGroup:1>KW GTP绑定终端盒XX年案例<OC:细菌>FT发件人:IF2_ECOLI(P02995)FT域392 540 G-域。FT组:1FT NP_BIND 398 405 GTP(按相似性)。FT组:1;条件:G-H-V-D-H-G-K-TFT NP_BIND 444 448 GTP(通过相似性)。FT组:1;条件:D-T-P-G-HFT NP_BIND 498 501 GTP(按相似性)。FT组:1;条件:N-K-[LIVCM]-D最终案例

注:一个FT行可以是多个FTGroup的一部分。如果其中至少有一个组完成后,FT行通过其FTGroup约束(隐式OR)。

例子:

 
FT DISULFID 25 31根据相似性。FT组:1;组:2;条件:C-x*-C

可选'标签可用于指示缺少功能不应将其视为注释程序中警告的触发器。只有在“条件'提供了模式。

例子:

 
FT结合37 37磷戊烷(按相似性)。FT可选;条件:S

A’标记可以为特征指定名称(或多个)(注意:不同的特征可以具有相同的标记名),以便针对特定功能使用case(带案例<FTTag:tagname>)请参阅一节案例陈述.

例子:

 
FT DISULFID 48 51氧化还原活性(按相似性)。FT标签:disself,redox;条件:C-x*-C

[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

4.计算部分

这个计算部分注释部分其中,行标识符不再限于2个字母。这个信息从行标识符的行开始,如下行缩进1个空格。

通用格式:

 
行标识符1:行1中的信息下列行缩进行标识符2:行1中的信息下列行缩进

并非所有线型都与任何数据类相关(参见第节直流线路).


[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

4.1警戒线

指定使用规则时应生成的警告自动注释。最常用于案例陈述中,以表明发生规则无法解决的不一致,或者一些注释应该由管理员手动完成。SAM模块将警告行文本传输到**硬件'节UniProtKB/Swiss-Prot条目的。

应用程序:

 
蛋白质规则:可选

域/站点规则:可选

格式:

 
警告:文本

例子:

 
病例<OC:变形杆菌>警告:手动检查域边界终端盒

[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

4.2斩波线

为了注释而可以截断域边界的范围以完全连续的方式连续的域。此行只能使用如果可以注释域的完整大小,则由程序执行;一般来说无法将其与仅覆盖部分域。

应用程序:

 
蛋白质规则:禁止

域/站点规则:强制性

格式:

 
印章:编号=最大; Cter公司=最大;[X(X)特(动机)=最大;]*

示例:

 
印章:编号=0;Cter=3;印章:Nter=1;Cter=无限制;印章:编号=0;Cter=0;Nter(信号)=50;

[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

4.3尺寸线

这个大小线表示与蛋白质家族或基序相关的大小。对于数据类的条目蛋白质',的最小和最大大小列出了符合规则的蛋白质。对于数据类的条目',此行包含完整域的大小范围以UniProtKB/Swish Prot进行注释。尺寸差异较大的构件可能是从范围中排除。尺寸可以指定为“无限制的’.

应用程序:

 
蛋白质规则:强制

域/站点规则:强制

格式:

 
尺寸:最小尺寸-最大_大小;尺寸:固定大小;

示例:

 
尺寸:176-239;尺寸:13-不限;大小:无限制;

[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

4.4相关线路

列出已知顺序相似的UniRules以及生成风险交叉比赛。如果字符串'!'或'!!'追加到规则,这意味着“相关”行中列出的规则将取代当前规则规则,如果匹配,则应忽略与当前规则的匹配使用列出的规则可以找到:!'在重叠区域;!!“蛋白质上的任何地方。

标记'!当存在两个不同的规则时同一蛋白质的“短”和“长”版本(如HAMAP中有时出现的情况家族)。”Long'蛋白将匹配这两个剖面;在这种情况下“longer”UniRule应包含“!'标记以取代更短的UniRule。

应用程序:

 
蛋白质规则:强制

域/站点规则:强制

格式:

 
相关:无;相关:蛋白质[!][!];[蛋白质[!][!];]…

例子:

 
相关:MF_00492;MF_00493;MF_00494;相关:MF_00344!;相关:ANA00003!!;

[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

4.5重复线

UniProtKB/Swiss-Prot中观察到的域或站点重复次数条目。数字可以指定为“无限制的’.

应用程序:

 
蛋白质规则:禁止

域/站点规则:强制性

格式:

 
重复次数:价值;[无关键字;]重复次数:最小值-最大;

可选属性'无关键字'表示该类型规则的多个副本'不应触发添加关键字'重复'(参见第节关键字重复).

示例:

 
重复次数:1次;重复次数:2-4次;重复次数:无限制;无关键字;

[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

4.6拓扑线

指定域或站点可能出现的亚细胞位置。

应用程序:

 
蛋白质规则:可选

域/站点规则:强制

格式:

 
拓扑:未定义;拓扑结构:位置;

此主题的值限制为“未定义’, ‘细胞质的'或不是细胞质’.

例子:

 
拓扑:非细胞质;

[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

4.7模板线

列出用于构建UniRule(注:仅供参考)。没有特征的蛋白质家族没有必须有一个模板,这被记为“模板:无;’. 请注意在许多情况下,传播的注释是特征条目。

应用程序:

 
蛋白质规则:强制

域/站点规则:禁止

格式:

 
模板:附加_编号;[加入编号;]…模板:无;模板:未定义;

示例:

 
模板:P12345;模板:无;模板:未定义;


[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

4.8示例行

规则所针对的一个或多个示例条目。

应用程序:

 
蛋白质规则:禁止

域/站点规则:强制

格式:

 
例子:附加_编号;[加入编号;]…示例:未定义;

示例:

 
示例:P12345;示例:未定义;

[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

4.9范围块

列出可能在其中找到规则匹配项的分类类。

应用程序:

 
蛋白质规则:强制

域/站点规则:强制性

格式:

 
范围:王国[;亚分类单元][除亚分类单元…][不在中税收代码[,税收代码]…]

这个王国行缩进一个空格,而后续行缩进两个空格。

例子:

 
范围:细菌;变形杆菌属肠杆菌除外巴氏杆菌除外细菌;放线菌门古生菌不在ARCFU、HALN1、METTH、METJA、PYRAB、PYRHO、SULSO、SULTO、,西亚克、西沃Plastid公司

分类学分类由王国组成,可以选择后跟子分类单元的名称,以进一步限制UniRule的应用于分类学水平。的有效值王国是:'真核生物’,细菌’, ‘古生菌’, ‘病毒’, ‘噬菌体’,Plastid公司'和'线粒体’. 后两个值指定细胞器基因组中编码的蛋白质,但不是细胞核和靶向细胞器。

如果已确定UniRule未在以下内容中表示:

注:质粒未定义为王国; 有一条单独的线类型(参见章节质粒系).


[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

4.10熔合块

列出给定UniRule在某些情况下可能融合到的UniRule。

应用程序:

 
蛋白质规则:强制

域/站点规则:禁止

格式:

 
融合:NT:无CT:无融合:NT(新台币):蛋白质[;蛋白质]…计算机断层扫描:蛋白质[;蛋白质]…

蛋白质可以是UniRule加入,后跟标识符圆括号之间(例如MF_00222(aroE)'),或之间的名称尖括号(例如<硫氧还蛋白域>')如果没有可用的UniRule。

例子:

 
融合:NT:无CT:MF_00222(aroE)<未知>

[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

4.11复线

列出触发规则的基序在多个副本中找到的生物体。

应用程序:

 
蛋白质规则:强制性

域/站点规则:禁止

格式:

 
重复:无副本:in税收代码[,税收代码]…

例子:

 
副本:ANASP、CAUCR、LACLA、RHILO、RHIME、STAAU、SYNY3

[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

4.12质粒线

列出触发规则的基序编码在质粒上的生物体。

应用程序:

 
蛋白质规则:强制

域/站点规则:禁止

格式:

 
质粒:无质粒:in税收代码[,税收代码]…

例子:

 
质粒:在RHIME中

[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

4.13评论栏

关于该规则的评论,应向公众公开。

应用程序:

 
蛋白质规则:强制

域/站点规则:强制性

格式:

 
注释:无评论:注释_文本

例子:

 
注释:SYNY3中类似NUDIX的C末端结构域

[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

5.控制声明


[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

5.1案例陈述

格式:

 
箱子<条件>[和|或[未][已定义]<条件>]…else情况<条件>[和|或[未][已定义]<条件>]…其他的终端盒

案例'和'其他情况'行包含必须满足的条件用于应用它下面的行,直到下一个'else情况’, ‘其他的或'最终案例'语句。条件行(c!和c?,见下文)不打破最新的案例陈述。

注意:不能使用'案例'在中的语句'案例语句,但可以使用条件行c!还是c?。

案例类型:


[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

5.1.1三值逻辑

应使用三元逻辑计算UniRule条件,其中条件评估为三个值之一:真的,,或不设防的.运算符的定义如下,与它们在Perl编程语言。请注意,某些规则是违反直觉的。


二进制运算符:''和'

j i和j i或j
真的 真的 真的 真的
真的 真的
真的 不设防的 不设防的 真的
真的 真的
不设防的 不设防的
不设防的 真的 不设防的 真的
不设防的 不设防的
不设防的 不设防的 不设防的 不设防的

一元运算符:''和'定义

不是我 定义的i
真的 真的
真的 真的
不设防的 不设防的

运算符关联性和优先级

从最高到最低的优先顺序和关联性如下。

结合性 操作人员
正确的 定义
正确的
左边
左边


应用示例:如果膜的数量已知且等于2,则应用给定的注释项。否则,应用不太具体的注释项目。

 
案例定义的<属性:薄膜>和<属性:膜=2>抄送-!-亚细胞位置:内膜相关(通过相似性)。其他的抄送-!-亚细胞位置:膜相关(通过相似性)。终端盒

[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

5.1.2条件线c!c?

条件行c!c?包含其他直线立即传播的约束该行的格式为:

 
c!条件c?条件

哪里条件具有与中相同的语法案例行,或,在FT行之前,它还可以包括PROSITE模式表达式。

注:在FT行中,不能使用FT[组]条件(而是使用用例!)。

条件行不同于案例那条线

The condition of thec!行必须为true,否则错误为预期。建议使用使用UniRules的工具生成错误消息。

例子:

 
c<功能:PS00013>KW ATP绑定

的条件c?行可以为真也可以为假,就像功能一样不会出现在UniRule的所有匹配项中。

例子:

 
c<特征:PS99999:10-13=N-{P}(P)-[ST]-{P}>和<OC:真核生物>FT碳水化合物10 13 N-连接(潜在)。

例外情况:参见第节隐藏的信息.

过渡:条件行应自动替换通过c!行,其中一些稍后由c?线。二硫化物的强制性条件应被抑制,可选条件替换为c?线。


[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

6.隐藏信息

UniRules力求包含与图案相关的所有信息。然而,对于避免重复,我们没有包括以下信息,这是隐含的自动注释管道工具“已知”。


[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

6.1关键词重复

关键字重复与数据类的所有规则相关。当在中找到域或重复项时,此关键字适用在蛋白质中至少两次。该规则的相应部分是:

 
case<特征:当前规则访问编号>1>KW重复终端盒

可以通过使用属性“无关键字在Repeats行中(请参阅第节重复行).


[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

6.2FT约束功能键的行DISULFID公司

对于带有键的功能DISULFID公司,约束条件发件人收件人两者都需要半胱氨酸的位置是隐含的。相应的行将是以下示例的第二行:

 
FT DISULFID 4 23根据相似性。FT条件:C-x*-C

[<] [>]   [<<] [向上] [>>]         [顶部] [目录] [索引] [?]

A.UniAln公司

引言

UniAln是蛋白质序列比对的一种格式,它补充了UniRules收藏。一些UniRules是基于专业化的预测程序开发的数据库,如PROSITE。然而,其他UniRules是基于精心策划的比对构成UniAln系列的。这是HAMAP中使用的方法注释项目。


格式

UniAln比对的格式与CLUSTAL套件生成的格式类似共个程序。每条路线由以下部分组成:


路线受以下约束:


对齐标题行

对齐的第一行必须以字符串“群集'或肌肉'或'T_咖啡’. 行的其余部分是自由文本,但特殊标记是被程序识别。标签可以重复。标签包括:

模板=标识符

表示对齐是UniRule中的特征传播模板,该模板使用对齐。必须在对齐中指示模板序列允许在UniRules中进行基于对齐的特征传播。

配置文件方法=方法

指示应该用于从对齐。允许的值方法是:

配置文件方法=pfmake

(默认)应使用“脉冲宽度'和'pfmake品牌'来自PFTOOLS软件包。无需指明此方法,因为它是默认值。

profile_method=hmmbuild

应使用“hmmbuild公司'来自HMMER包并使用“”转换为配置文件htop公司”。使用“”生成的配置文件pfmake品牌'通常比生成的更敏感带有“hmmbuild公司’. 在某些情况下,这意味着他们的歧视性较小。如果观察到默认方法导致误报,可以尝试使用使用“hmmbuild公司'方法来查看是否解决了问题。请参见HAMAP 2003论文进行讨论。

在一些HAMAP家庭中hmmbuild公司“能够避免误报负片,而'pfmake公司'不是:

  • 密切相关的蛋白质家族;
  • 对于某些非常短的蛋白质('pfmake品牌“得分很低)。


标题行示例:

 
集群CLUSTAL W(1.83)多序列比对模板=XYLA_ECOLI模板=XYLA_ACTMICLUSTAL W(1.83)多序列比对模板=XYLA_ECOLI profile_method=hmmbuild肌肉(3.52)多序列比对

[<] [ > ]   [<<] [向上] [ >> ]         [顶部] [目录] [索引] [?]

B.UniRules条目示例

“域”UniRule示例

 
AC PRU00241;DC域;TR PROSITE公司;PS50903;RUBREDOXIN_类;1; 级别=0XX年名称:Rubredoxin-like域功能:参与电子传递过程。XX年抄送-!-相似性:包含#rubredoxin-like域。DR PROSITE公司;PS00202;RUBREDOXIN;0-1; 触发器=否案例<FTGroup:1>GO-GO:0009490;F: 单核铁电子载体转到:0006810;P: 运输GO-GO:0006118;P: 电子输运KW运输KW电子传输KW金属绑扎KW熨斗终端盒XX年FT自:PS50903FT域从到Rubredoxin-like#。FT METAL 6 6 1号铁(根据相似性)。FT组:1;条件:CFT METAL 9 9 1号铁(根据相似性)。FT组:1;条件:CFT METAL 38 38 1号铁(根据相似性)。FT组:1;条件:CFT METAL 41 41 1号铁(根据相似性)。FT组:1;条件:CXX年印章:编号=0;Cter=0;尺寸:34-54;相关:无;重复次数:2次;拓扑:细胞质;示例:Q9V099;范围:细菌古生菌//

“蛋白质”UniRule示例

 
交流电MF_00198;DC蛋白;汽车TR HAMAP;MF_00198;-;1; 级别=0XX年ID速度案例<OC:细菌>DE亚精胺合酶(酶代码EC2.5.1.16)(Putrescine氨基丙基转移酶)德国(PAPT)(SPDSY)。终端盒案例<OC:Archaea>DE可能亚精胺合酶(EC 2.5.1.16)(腐胺DE氨基丙基转移酶)(PAPT)(SPDSY)。最终案例GN名称=speE;XX年抄送-!-功能:催化腐胺生成亚精胺CC和脱羧S-腺苷蛋氨酸(dcSAM),其作用是CC是氨丙基供体(通过相似性)。抄送-!-催化活性:S-腺苷甲硫胺+腐胺=5'-S-CC甲基-5’-硫腺苷+精脒。抄送-!-途径:胺和多胺生物合成;精脒CC生物合成;腐胺中的亚精胺:步骤1/1。病例<OC:变形杆菌>抄送-!-亚单位:同二聚体(根据相似性)。其他情况<OC:Thermotogales>抄送-!-亚单位:均四聚体(根据相似性)。其他的抄送-!-亚单位:同二聚体或同四聚体(根据相似性)。终端盒抄送-!-相似性:属于亚精胺/精胺合酶家族。XX年Pfam博士;PF01564;精氨酸合成酶;1; 触发器=否DR TIGRFAM;TIGR00417;speE;1; 触发器=否DR PROSITE公司;PS01330;SPERMIDINE_SYNTHASE_1;1; 触发器=否DR PROSITE公司;PS51006;SPERMIDINE_SYNTHASE_2;1; 触发器=否XX年KW多胺生物合成KW精脒生物合成KW转移XX年GO-GO:0004766;F: 精脒合酶活性GO-GO:0008295;P: 精脒生物合成过程XX年FT发件人:SPEE_THEMA(Q9WZC2)FT区域152 153 S-腺苷甲硫氨酸结合(ByFT相似性)。FT条件:[DN]-[AGV]FT结合46 46 S-腺苷甲硫氨酸(按相似性)。FT条件:[QHNR]FT结合101 101 S-腺苷甲硫氨酸(按相似性)。FT条件:[DE]FT结合121 121 S-腺苷甲硫氨酸(按相似性)。FT条件:[ED]FT结合170 170 S-腺苷甲硫氨酸(按相似性)。FT条件:DFT结合173 173腐烂(根据相似性)。FT条件:[DE]XX年尺寸:261-366;相关:无;模板:P09158;第70998页;Q9WZC2;Q8U4G1;O25503;范围:细菌不在AGRT5、ANASP、BACTN、BORBR、BORBU、BORPA、BORPE、BRAJA、BRUME、,BRUSU、BUCBP、CAMJE、BLOFL、CAUCR、CHLCV、CHLMU、CHLPN、CHLTE、CHLTR、,CORGL、COXBU、DEIRA、ENTFA、FUSNN、GLOVI、HAEDU、HAEIN、HELHP、LACLA、,LACPL、LISIN、LISMO、MYCGA、MYCPE、MYCLE、MYPPE、MYCP、MYCPU、PASMU、,PORGI、PSEPK、RHILO、RHIME、RICCN、RICPR、STAAM、STAAN、STAAW、STAES、,STRA3、STRA5、STRMU、STRP3、STRP8、STRP1、SYNEL、SYNY3、TREPA、TROW8、,TROWT、UREPA、VIBCH、VIBPA、WIGBR古生菌不在HALSA、METAC、METKA、METMA、METTH融合:NT:<未知>CT:<未知>副本:AQUAE、BACAN、BACCR、LEPIN、PSEAE、RALSO、STRCO、THETN质粒:RALSO中注释:无**在Buchnera sp.中,只有speE和speD存在,来自鸟氨酸的途径都不存在**精氨酸的途径也不完整。//

[顶部] [目录] [索引] [?]

目录


[顶部] [目录] [索引] [?]

关于本文档

此文档是使用生成的texi2html 1.82.

导航面板中的按钮具有以下含义:

按钮 姓名 从1.2.3转到
[ < ] 后退 阅读顺序中的上一节 1.2.2
[ > ] 福沃德 阅读顺序中的下一节 1.2.4
[<<] 快速后退 本章或上一章的开头 1
[向上] 向上 上部分 1.2
[ >> ] 快进 下一章 2
[顶部] 顶部 文件封面(顶部)  
[目录] 目录 目录  
[索引] 索引 索引  
[ ? ] 关于 关于(帮助)  

其中例子假设当前位置为一至二至三小节具有以下结构的文档: