[ < ] |
[>] |
|
[ << ] |
[向上] |
[>>] |
|
|
|
|
[顶部] |
[目录] |
[索引] |
[?] |
1.UniRule格式介绍
UniRule是一种描述由UniProtKB/Swiss-Prot自动化注释项目。它定义了将被为(选定的)预测特征生成。
结构
每个UniRule条目由以下部分组成。
- 这个收割台部分包含UniRule登录号数据类、触发功能的标识符规则,以及关于规则的一些基本信息。
- 这个注释部分。与显示UniRule。并非所有注释行都适用于所有的真实点击。因此,案例语句将注释的全部或部分限制为进一步的条件,如分类群或蛋白质的大小。
- 这个计算部分涵盖蛋白质、结构域或与程序相关的站点。应该自动检查它仍然是不完整的。
- A//(终止符)行,不包含数据或注释并指定条目的结尾。
应用程序
- ‘蛋白质规则’
-
用于注释蛋白质家族:HAMAP规则。
- ‘域/站点规则’
-
用于注释蛋白质域或位点:ProRules。
术语解释
- ‘动机’
-
任何序列特征预测器或鉴别器,如模式、轮廓或剖面-HMM。
- ‘税收代码’
-
最多5个字母数字的助记码用于UniProtKB/Swiss-Prot。
2.收割台部分
这个页眉部分包含有关UniRules的技术信息。
2.1交流线路
每个UniRule都以一个或多个开头自动控制(A分区编号)行。入职编号的格式为“入职”项目需求单位'后跟5ProRules和'的数字MF公司_'后跟5位数字表示HAMAP规则。
应用程序:
格式:
示例:
|
AC PRU00001;AC PRU00002;PRU99998;PRU99999;交流电MF_00022;
|
|
注:CVS目录中的UniRule文件名对应于UniRule的主登录号。
2.2直流线
这个直流(数据类)行指定规则注释的数据类型。
这个数据类为以下值之一:
- ‘蛋白质’
-
指启用UniProtKB/Swiss-Prot条目的完整注释的规则。
- ‘顶部_域’
-
该规则适用于拓扑意义的领域,如细胞外区域。A’顶部_域'可能包含任何'域'在其范围内。
- ‘域’
-
指启用UniProtKB/Swiss-Prot条目的域注释的规则。
域通常不允许重叠。然而,在极少数情况下是这样的一个域可能位于另一个域中;例如EH域和EF-hand。在这种情况下,较小域的注释必须在较长域的规则中触发。
- ‘现场’
-
指启用UniProtKB/Swiss-Prot条目的站点注释的规则。一个或多个站点可能位于域中。如果域中的站点是保守的,通常在域规则中触发(参见第节DR线路).
蛋白质规则优先于域/位点规则。
可选拖尾项'汽车'表示可以应用UniRule自动注释。如果不存在,则意味着只能使用UniRule用于支持手动注释,当方法具有大量误报或输出需要进一步手动完成。
2.3 TR线
这个信托收据(触发器)行描述了哪些(选定的)序列分析功能触发当前UniRule的应用。每个UniRule可以包含一个或多个信托收据线。每个功能名称在整个TR行中只能出现一次UniRule数据库,因为一种功能只会触发一个规则。
TR线路有两种类型:
2.3.1TR图案线
格式:
|
信托收据库名;标识符1;标识符2;nbhits个; 水平=水平
|
示例:
|
TR PROSITE公司;PS50075;ACP域;0-1; 级别=0TR HAMAP;MF_00401;-;1; 级别=0TR概述;跨膜;-;1; 级别=0TR IPRO;IPR009003;-;1; 级别=0
|
|
- 这个库名例如,通常是主题数据库的名称‘PROSITE公司'或'HAMAP公司’. ‘概述'用于引用的规则与所使用的预测方法无关。
- 这个标识符1是功能名称 例如独一无二的给定数据库中图案的标识符,通常是一个登录数字。对于“概述'方法一个术语指示功能标识符触发规则,例如Transmembrane、Signal。如果库名是'IPRO公司',该标识符1是InterPro编号,InterPro编号下的所有图案都将成为触发器。
- 这个标识符2是图案的二级标识符,它是通常是一个条目名称,它是空的('-')在的触发行中类型'HAMAP公司'和'概述’.
- 这个nbhits个字段指示主题的预期命中次数。显然,只有在至少找到一次命中时才会触发规则。然而,因为TR线中提到的图案不应在DR线中重复,此字段控制在以下情况下是否应创建FALSE_NEG交叉引用另一条TR线触发了规则,但在给定的TR线(参见章节DR线路用于讨论)。法律价值是“1'和‘0-1',后一个值仅在有多个TR行时有效。
- 这个水平指示命中必须触发的最低级别规则。注:过时,不再使用!
2.3.2TR元模体线
技术说明:现在元模体被anabelle psat检测到(通过mmsearch);它们只是gff的经典psat功能。因此,元模体检测不再与规则评估步骤挂钩。如果需要,元模体TR不应包括在测试条件中特征已经存在,这是无用的/过时的(由于元模体是由psat检测到的,这意味着它功能)。
这个元基序字段应与可检测元模体的名称相对应功能。元模特征名称同时也是元模描述。它描述了子功能(按名称)在序列中的排列。“可用”元基序列在$ANABELLE/data/metamotives.dat该文件由mmsearch使用,并由在发布时创建(anabelle_update.sh)从CVSed UniRules中提取TR元运动线。
这个领域mm搜索选项用于控制元模体的行为搜索自动化(在“picohamap”时间?)。现在已经过时了,只需使用“-”即可。
2.4 XX线
这条分隔线没有任何意义。它用于分离线。
2.5名称行
这个姓名线表示规则描述的图案的名称。第一个名称是UniProtKB/Swiss-Prot中使用的名称,下面列出了同义词,一个每行的名称。如果没有特定的图案名称‘未定义'应作为占位符插入。
应用程序:
格式:
例子:
|
名称:Nacht域NACHT-NTPase域核苷三磷酸酶结构域
|
|
2.6功能线
这个功能行表示域的“泛型”函数。通常是这样不应超过一行,但如果是,则后面的行第一个将缩进一个空格。
应用程序:
格式:
示例:
|
功能:蛋白质结合功能:DNA-binding功能:抑制纤维蛋白原与血小板受体的相互作用蛇毒液类
|
|
2.7内部意见
关于规则的评论,供内部使用不显示在已发布的版本中。它应该出现在前缀为的行上两个星号和一个空格。它们可能出现在标题部分的末尾,并且贯穿注释部分和计算部分。然而,它是将此类注释放在标题部分末尾的良好做法立即可见,只在注释和计算部分。
例子:
3.注释部分
这个批注部分包括所有可以应用于规则匹配。此外,还可以用线条表示条件语句('案例’, ‘else情况’, ‘其他的','c?’,‘c!')和一条表示图案或排列的线,根据计算特征位置的位置(参见第节FT自线). 这条线顺序与UniProtKB/Swiss-Prot中的相同。
3.1 ID线
这个身份证行包含条目中使用的蛋白质名称的助记符代码UniProtKB/Swiss-Prot条目的名称。
注意:如果指定的代码为“Ynnn”,则将替换为“Y”,后跟注释蛋白质的OLN(OrderedLocusName)编号。
3.2 DE线
这个判定元件行对应于UniProtKB/Swiss-Prot条目的描述行。定义应添加到现有数据中的DE注释(来自原始数据条目和/或来自以前的规则元素应用程序),而不是替换它:在DE块前面加上“+’.
应用程序:
格式:
例子:
|
DE RecName:Full=推测的3-甲基腺嘌呤DNA糖苷酶;DE EC=3.2.2.-;DE+RecName:EC=2.7.3.-;
|
|
DE行可能包含占位符<本地标记>',这将是(在注释输出中)替换为条目的有序位置名称(OLN)(或如果未发现OLN,则通过ORF名称;如果找不到任何东西:将保持原样但会生成警告)。
它还可能包含占位符“<基因名称>’将被条目基因名(GN name)取代。
例子:
|
DE RecName:Full=类Hemerythrin蛋白<locus_tag>。
|
DE行可能包含@gn(ANYGENENAME)占位符/命令,它将被替换为正确的外壳和基因计数编号(根据条目分类法)指定的基因名称。
3.3 GN线
这个GN(通用)行包含一个蛋白质家族,如果存在的话。
应用程序:
格式:
|
GN名称=名称;[同义词=同义词[,同义词]…;]
|
示例:
|
GN名称=acpD;GN名称=groS;同义词=groES;
|
|
3.4 CC线
这个科科斯群岛行包含UniProtKB/Swiss-Prot条目的所有适用注释行。
CC行主题相似性:包含'通常不完整。散列签名'#'在文本中表示为给定的motif并在自动注释过程中被替换;术语‘重复’, ‘领域'或'锌指'将设置为复数,如果在一种蛋白质中发现了不止一个真正的阳性反应。
CC行可能包含:
- 占位符<基因名称>',将被替换(在注释输出中)输入基因名称(GN name)。
- #(ftdesc,text)占位符例如#(锰、离子)替换为指定ft描述的不同实例数元素(来自FT行)取与指定元素;仅适用于数字ft desc(带有'#’); (参见第节FT线)加上(如果指定)“文本'如果找到1个以上的实例,则使用复数形式。例如2锰离子。如果忽略文本(和,),ftdesc本身将如果需要,可以多元化。
- @gn(ANYGENENAME)占位符/命令,用于通过正确的外壳和基因计数编号(根据条目分类法)。
- #{[Aaa-]POS[:template_name]}占位符将替换为映射的位置-从位置销售时点情报系统在匹配区域中或,在蛋白质规则模式,定义的输入模板-在目标序列,前缀为匹配的氨基酸(3个字母代码)。如果Aaa公司指定了氨基酸(3个字母代码),则会发出警告如果映射残留物与指定残留物不对应,则生成。如果模板名称则相应的序列模板将为用于映射(当有多个条目时,需要消除歧义模板!例如用于与多个定义的模板进行HAMAP对齐)
|
抄送-!-PTM:#{120}的磷酸化激活。。。抄送-!-PTM:CDK2在#{Ser-187:FEN1_HUMAN}处的磷酸化。。。抄送-!-PTM:#{Arg-101}的可逆ADP-核糖基化失活。。。
|
例如,后者变为:
|
抄送-!-PTM:Arg-112的可逆ADP核糖基化失活。。。。。。
|
3.5 DR线路
这个博士行的主要用法是触发“child”规则,以避免规则内容重复。这与“真正的”DR UniProtKB/Swiss-Prot没有太大关系注释行(在Anabelle中,DR注释仅对PROSITE执行图案)。DR线路的格式与TR线路的格式相似(参见第节TR线).
应用程序:
格式:
|
博士类型/dbname;功能名称;标识符;nbhits个; 触发器=[yes|strict|no]
|
例子:
|
DR PROSITE公司;PS00419;光系统_I_PSAAB;1; 触发器=否DR PROSITE公司;PS00010;ASX_HYDROXYL;0-1; 触发器=否DR General;信号;-;0-1; 触发器=严格DR General;跨膜;-;10-11; 触发器=是
|
|
- 这个类型/dbname字段指示数据库名称-例如“PROSITE”或“HAMAP”-或“General”(用于非数据库功能例如信号)或ADD_TOPO_DOMAIN(见下文)。
- 这个功能名称字段指示应为已使用(例如跨膜、基序加入号等)进行繁殖通过触发其关联规则进行注释。
- 这个标识符是主题的次要标识符(ID)空('-')在类型为'的触发器行中HAMAP公司'和'概述’(仅供参考,未选中/使用)。
- 这个nbhits个字段指示“子功能”是否是必需的,以及预期的(“点击”)功能数量。此字段的值可以是一个数字('1')或范围('0-1’). 表单中的范围'数-无限制的'表示匹配的数量是无限的。
如果预期功能的数量与检测到的功能的数量不匹配a警告(**HW SAM行)将出现在生成的注释中。
如果在必填项中发现PROSITE交叉引用(即哪里nbhits个不包含零)TR或DR线,但未找到匹配项,则DR线将为创建了包含状态限定符的错误(_NEG)’. 在的规则中数据类'蛋白质“还可以包括交叉引用具有状态限定符的行错误_操作系统'用于匹配规则没有引用。
如果nbhits个DR线的字段为'0-1',该功能适用于该结构域只存在于一些蛋白质中(如果没有发现,它不会“抱怨”)。在对于PROSITE图案,如果不匹配,则不会创建DR FALSE_NEG找到。
- 这个触发,必须设置为“对’, ‘严格的'或'不’.价值观'对'或'严格的'表示与关联的规则应该触发指定的特征来生成注释。使用“严格”,仅选择特征(由分析结果自动选择模块)。如果选择“是”,则还将使用选定的功能优先,但如果没有找到将使用指定的类型!
价值观'不'表示功能(重叠,如果父规则不是蛋白质类型规则,如果父规则是蛋白质类型)要素名称将不会用于生成注释。
笔记:
3.6KW线路
这个千瓦行包含UniProtKB/Swiss-Prot条目的所有适用关键字,每行一个。
3.7 GO线
这个GO(开始)该行包含所有适用的基因本体术语,每行一个。
应用程序:
格式:
例子:
|
GO-GO:0019104;F: DNA N-糖苷酶活性GO-GO:0006281;P: DNA修复
|
|
3.8 FT线路
这个英尺(功能表)行包含UniProtKB/Swiss-Prot条目的适用功能。这个特征位置由基于关于规则和母题的匹配位置。
应用程序:
格式:
|
FT起始:模板id(模板-账号)或图案的唯一标识符英尺钥匙 从 到 描述.[FT[可选;][组:n个;] [条件:图案]]
|
示例:
|
FT发件人:CARB_ECOLI(P00968)FT域第403号羧基磷酸合成域。FT自:PS00385FT站点6通过相似性。
|
|
3.8.1FT自线
这个FT自行必须位于FT功能行。它定义“模板”/“参考框架”以允许指定的规则要映射到目标序列坐标的坐标后来的FT功能线。模板必须是以下之一:“any”,是基序、蛋白质标识符或元基序。
格式:
|
FT起始:图案的唯一标识符[:正则表达式]FT起始:条目名称(访问编号)[:regexp]FT起始:元基序[:正则表达式]FT-From:任意[:regexp]
|
示例:
|
FT发件人:PS50234FT发件人:ACP_ECOLI(P02901)FT自:PS50021=7,91=PS50021FT自:任何FT发件人:PS50217:([KR])[^LI].*([KR)[^ LI]([LI]).*([LI])
|
|
如果给定(addition_number)=模板/参照系是UniProt蛋白=编号基于该蛋白,则随后的位置将映射到带注释的目标序列。
如果(accession_number)未给定=参考帧是触发器(motif)匹配区域。如果给定特定的模体标识符,则仅当当前触发器为指定类型时,才会传播后续的FT(当一个规则作为多个触发器时,这很有用……)。如果使用“any”,则不会按触发器名称进行筛选。
可选的regexp可以与后续FT中的1-9美元位置“键”结合使用,以注释浮动位置。
注意:如果模板是元基序,则必须在TR行中逐字显示。
3.8.2FT功能线
这个FT功能行定义了实际的FT行在成员条目中传播。
格式:
- 钥匙
-
UniProtKB/Swiss-Prot功能键。(注意,如果设置为“隐藏',则不会传播功能。只是为了给FT组添加约束或提升标签…)
- 从
- 到
-
特征位置采用以下格式之一:
- ‘1’
-
开始模板.
- ‘12’
-
相对于开始的位置模板.
- ‘8+1’
-
相对于模板,已移位相对于目标序列的一些残基(不总是与模板序列上的位置9,因为可能有插入)。
- ‘<1’
- ‘?251’
-
相对于开始的位置模板,使用UniProtKB/Swiss-Prot功能中使用的修饰符。
- ‘Nter公司’
- ‘Cter公司’
-
目标序列的第一个、最后一个残差。
- ‘从’
- ‘到’
-
的开始和结束模板延长了在部分配置文件匹配的情况下,需要生成完全匹配。这个要添加的残留物数量在“功能来源'和‘功能目标'GFF属性。
- ‘进入’
- ‘出口’
-
的开始和结束模板,部分情况下不扩展比赛。
- ‘$1’
-
匹配的FT From regexp捕获组的开始(1到9)
- 描述
-
功能描述。
示例:
|
FT CHAIN到+1 Cter<name>。FT LIPID 1 1 GPI-锚定酰胺化<resture_name>。FT域从到层粘连G-like#。FT TOPO_DOM Nter 6周质(电位)。FT域?8+1类EGF#。FT发件人:PS50217:([KR])[^LI].*([KR)[^ LI]([LI]).*([LI])FT REGION$1$2基本图案#。FT REGION$3$4亮氨酸拉链#。
|
|
占位符(在描述中)
- “<名称>'占位符将被蛋白质RecName(Full)(DE第1行元素)替换(在注释输出中)。
- “<基因名称>'占位符将替换为条目基因名称(GN name)。
- “@gn(任意名称)'占位符/命令,将替换为正确的外壳和基因计数编号(根据条目分类法)指定的基因名称。
|
FT区域101 124与@gn(ABC-1)交互所必需的。
|
- “<剩余名称>'占位符将替换为化学名称特征所在的序列剩余。因此,下面的行在UniRule中:
|
FT LIPID 1 1 GPI-锚定酰胺化<resture_name>。
|
可以通过samann.pl转换为以下UniProtKB/Swiss Prot行:
|
FT LIPID 300 300 GPI-氨基天冬氨酸锚定。
|
- #{[Aaa-]POS}占位符将替换为映射的位置-从位置销售时点情报系统在匹配区域中,或者在蛋白质规则模式中定义的当前条目模板(c.f.“FT From”)-到中的正确编号带注释的序列,前缀为匹配的氨基酸(一个字母代码)。如果指定了Aaa氨基酸(3个字母的代码),将生成警告如果映射的残差与指定的残差不对应。
|
FT CROSSLNK 238 264色氨酸-酪氨酸-甲硫氨酸(Tyr-Met)FT(带有#{Trp-90})(根据相似性)。
|
后者将生成例如:
|
FT CROSSLNK 240 266色氨酸-酪氨酸-甲硫氨酸(Tyr-Met)FT(带有W-92)(根据相似性)。
|
- 对于FT ACT_SITE描述:将显示方括号[]之间的文本仅适用于具有一种以上酶活性的条目(基于数字第页,共页'(EC编号'在条目DE行中找到字段)。如果条目有1或没有定义酶活性,整个文本(和括号)将不会被注释。
|
FT ACT_SITE 6 6[用于蛋白酶活性]根据相似性。
|
可由samann.pl转换为以下UniProtKB/Swiss-Prot行:如果条目有多个EC:
|
FT ACT_SITE 506 506蛋白酶活性(按相似性)。
|
请注意,如果添加了文本,则将限定符(按相似性)置于括号(因为它不是唯一的)。
如果条目只有一种酶活性:
|
FT ACT_SITE 506 506根据相似性。
|
- “#'占位符可用于在描述字段。如果功能在出现占位符,占位符将替换为后续占位符数字。
- “#n个'占位符,其中n个是从1开始的数字,应该当需要引用同名的不同配体时使用。例如,以下虚构规则:
|
FT域从到Foobar#。FT METAL 87 87铁#1(通过相似性)。FT METAL 118 118 1号铁(根据相似性)。FT METAL 118 118 2号铁(根据相似性)。FT METAL 180 180 2号铁(根据相似性)。
|
在一个单一匹配的蛋白质中会产生以下注释:
|
FT域1 200 Foobar。FT METAL 87 87铁1(根据相似性)。FT METAL 118 118铁1(通过相似性)。FT METAL 118 118铁2(根据相似性)。FT METAL 180 180铁2(根据相似性)。
|
下面是一个带有两个匹配项的蛋白质的注释:
|
FT域1 200 Foobar 1。FT域201 400 Foobar 2。FT METAL 87 87铁1(根据相似性)。FT METAL 118 118铁1(根据相似性)。FT METAL 118 118铁2(根据相似性)。FT METAL 180 180铁2(根据相似性)。FT METAL 287 287铁3(根据相似性)。FT METAL 318 318铁3(根据相似性)。FT METAL 318 318铁4(根据相似性)。FT METAL 380 380铁4(根据相似性)。
|
3.8.3FT约束线
这个FT约束线(也称为FT条件线路)在其正上方的FT线上给出约束。
格式:
|
FT[标签:标记名[,标记名]…;] [可选;][组:n个;][条件:图案]
|
要素线通常受序列上的图案约束(在如果需要更复杂的规则,则使用case语句(请参阅第节案例陈述)应该使用。
例子:
|
FT结合37 37磷戊烷(按相似性)。FT标记:磷酸化;条件:S
|
|
“图案'在中指定PROSITE模式格式添加了
角色'*'可用于指定不受约束的范围,例如‘C-x*-C’. 对应于特性必须与此模式完全匹配。
为了注释的一致性,应应用多个FT行要么全部组合在一起,要么根本不组合在一起组’,以限制所有站点的公共存在。该组可以被引用通过案例声明,例如在相关KW和CC线路中取决于功能的存在。
例子:
|
案例<FTGroup:1>KW GTP绑定终端盒XX年案例<OC:细菌>FT发件人:IF2_ECOLI(P02995)FT域392 540 G-域。FT组:1FT NP_BIND 398 405 GTP(按相似性)。FT组:1;条件:G-H-V-D-H-G-K-TFT NP_BIND 444 448 GTP(通过相似性)。FT组:1;条件:D-T-P-G-HFT NP_BIND 498 501 GTP(按相似性)。FT组:1;条件:N-K-[LIVCM]-D最终案例
|
注:一个FT行可以是多个FTGroup的一部分。如果其中至少有一个组完成后,FT行通过其FTGroup约束(隐式OR)。
例子:
|
FT DISULFID 25 31根据相似性。FT组:1;组:2;条件:C-x*-C
|
“可选'标签可用于指示缺少功能不应将其视为注释程序中警告的触发器。只有在“条件'提供了模式。
例子:
|
FT结合37 37磷戊烷(按相似性)。FT可选;条件:S
|
A’标记可以为特征指定名称(或多个)(注意:不同的特征可以具有相同的标记名),以便针对特定功能使用case(带案例<FTTag:tagname>)请参阅一节案例陈述.
例子:
|
FT DISULFID 48 51氧化还原活性(按相似性)。FT标签:disself,redox;条件:C-x*-C
|
4.计算部分
这个计算部分与注释部分其中,行标识符不再限于2个字母。这个信息从行标识符的行开始,如下行缩进1个空格。
通用格式:
|
行标识符1:行1中的信息下列行缩进行标识符2:行1中的信息下列行缩进…
|
|
并非所有线型都与任何数据类相关(参见第节直流线路).
4.1警戒线
指定使用规则时应生成的警告自动注释。最常用于案例陈述中,以表明发生规则无法解决的不一致,或者一些注释应该由管理员手动完成。SAM模块将警告行文本传输到**硬件'节UniProtKB/Swiss-Prot条目的。
4.2斩波线
为了注释而可以截断域边界的范围以完全连续的方式连续的域。此行只能使用如果可以注释域的完整大小,则由程序执行;一般来说无法将其与仅覆盖部分域。
应用程序:
格式:
|
印章:编号=最大; Cter公司=最大;[X(X)特(动机)=最大;]*
|
示例:
|
印章:编号=0;Cter=3;印章:Nter=1;Cter=无限制;印章:编号=0;Cter=0;Nter(信号)=50;
|
|
- 最大表示N端子的最大位置数或C端子可能被修剪,以便能够注释相邻的相同(按名称)略微重叠的域。最大可以是0之一(默认情况下)、正值或单词“无限制的’.
- ‘编号'和'Cter公司'表示可能的位置数量当触发图案与任何其他相同图案相邻时进行修剪(名字)图案。此外,允许修剪的特定相邻图案也可以例如,用大括号表示主题名称‘编号(信号)’.
4.3尺寸线
这个大小线表示与蛋白质家族或基序相关的大小。对于数据类的条目蛋白质',的最小和最大大小列出了符合规则的蛋白质。对于数据类的条目‘域',此行包含完整域的大小范围以UniProtKB/Swish Prot进行注释。尺寸差异较大的构件可能是从范围中排除。尺寸可以指定为“无限制的’.
应用程序:
格式:
示例:
|
尺寸:176-239;尺寸:13-不限;大小:无限制;
|
|
4.4相关线路
列出已知顺序相似的UniRules以及生成风险交叉比赛。如果字符串'!'或'!!'追加到规则,这意味着“相关”行中列出的规则将取代当前规则规则,即如果匹配,则应忽略与当前规则的匹配使用列出的规则可以找到:‘!'在重叠区域;‘!!“蛋白质上的任何地方。
标记'!当存在两个不同的规则时同一蛋白质的“短”和“长”版本(如HAMAP中有时出现的情况家族)。”Long'蛋白将匹配这两个剖面;在这种情况下“longer”UniRule应包含“!'标记以取代更短的UniRule。
应用程序:
格式:
|
相关:无;相关:蛋白质[!][!];[蛋白质[!][!];]…
|
例子:
|
相关:MF_00492;MF_00493;MF_00494;相关:MF_00344!;相关:ANA00003!!;
|
|
4.5重复线
UniProtKB/Swiss-Prot中观察到的域或站点重复次数条目。数字可以指定为“无限制的’.
应用程序:
格式:
|
重复次数:价值;[无关键字;]重复次数:最小值-最大;
|
可选属性'无关键字'表示该类型规则的多个副本域'不应触发添加关键字'重复'(参见第节关键字重复).
示例:
|
重复次数:1次;重复次数:2-4次;重复次数:无限制;无关键字;
|
|
4.6拓扑线
指定域或站点可能出现的亚细胞位置。
应用程序:
格式:
此主题的值限制为“未定义’, ‘细胞质的'或‘不是细胞质’.
例子:
|
4.7模板线
列出用于构建UniRule(注:仅供参考)。没有特征的蛋白质家族没有必须有一个模板,这被记为“模板:无;’. 请注意在许多情况下,传播的注释是特征条目。
应用程序:
格式:
|
模板:附加_编号;[加入编号;]…模板:无;模板:未定义;
|
示例:
|
4.8示例行
规则所针对的一个或多个示例条目。
4.9范围块
列出可能在其中找到规则匹配项的分类类。
应用程序:
格式:
|
范围:王国[;亚分类单元][除亚分类单元…][不在中税收代码[,税收代码]…]…
|
这个王国行缩进一个空格,而后续行缩进两个空格。
例子:
|
范围:细菌;变形杆菌属肠杆菌除外巴氏杆菌除外细菌;放线菌门古生菌不在ARCFU、HALN1、METTH、METJA、PYRAB、PYRHO、SULSO、SULTO、,西亚克、西沃Plastid公司
|
|
分类学分类由王国组成,可以选择后跟子分类单元的名称,以进一步限制UniRule的应用于分类学水平。的有效值王国是:'真核生物’,‘细菌’, ‘古生菌’, ‘病毒’, ‘噬菌体’,‘Plastid公司'和'线粒体’. 后两个值指定细胞器基因组中编码的蛋白质,但不是细胞核和靶向细胞器。
如果已确定UniRule未在以下内容中表示:
- 一个分类群,其名称可以在“除了'字段。
- 一个完整的蛋白质组,其分类代码可以在歪投球'字段。
注:质粒未定义为王国; 有一条单独的线类型(参见章节质粒系).
4.10熔合块
列出给定UniRule在某些情况下可能融合到的UniRule。
应用程序:
格式:
|
融合:NT:无CT:无融合:NT(新台币):蛋白质[;蛋白质]…计算机断层扫描:蛋白质[;蛋白质]…
|
蛋白质可以是UniRule加入,后跟标识符圆括号之间(例如‘MF_00222(aroE)'),或之间的名称尖括号(例如‘<硫氧还蛋白域>')如果没有可用的UniRule。
例子:
|
融合:NT:无CT:MF_00222(aroE)<未知>
|
|
4.11复线
列出触发规则的基序在多个副本中找到的生物体。
应用程序:
格式:
例子:
|
副本:ANASP、CAUCR、LACLA、RHILO、RHIME、STAAU、SYNY3
|
|
4.12质粒线
列出触发规则的基序编码在质粒上的生物体。
4.13评论栏
关于该规则的评论,应向公众公开。
5.控制声明
5.1案例陈述
格式:
|
箱子<条件>[和|或[未][已定义]<条件>]…else情况<条件>[和|或[未][已定义]<条件>]…其他的终端盒
|
“案例'和'其他情况'行包含必须满足的条件用于应用它下面的行,直到下一个'else情况’, ‘其他的’或'最终案例'语句。条件行(c!和c?,见下文)不打破最新的案例陈述。
注意:不能使用'案例'在中的语句'案例’语句,但可以使用条件行c!还是c?。
案例类型:
-
OS/OC/OG公司:关于分类和细胞器(OS、OC和OG系):
|
案例<OG:叶绿体>或<OC:蓝藻>案例不<OG:叶绿体>且不<OG:Cyanelle>案例<OC:Archaea>案例<OC:细菌>病例<OS:金黄色葡萄球菌>
|
生物名称条件注释('案例<OS:分类单元>'):生物名称也与亚种相匹配,即同名生物后跟空格,然后是任何文本。例如,“葡萄球菌金黄色葡萄球菌'匹配项'金黄色葡萄球菌RF122',但'伤寒沙门氏菌’不匹配'鼠伤寒沙门菌’.
-
英尺:在从规则传播的特征(FT块)上(必须是也可以指定与特征匹配的):
注:在FT行中,只有当目标FT本身不在FT[组]案例中时,才能使用此条件!
注:目标特征编号对应于其在FT块中的位置/顺序。警告:FT[Group]案例中的FT行也根据其相对位置进行编号在FT行中,但编号从1+FT元素的数量开始,而不是在FT[Group]情况下(因此,将这些FT元素放在FT行尾更简单)。。。
-
FT集团:在传播特征组的事实上:(<FT组:n>参见第节FT约束线)
|
案例<FTGroup:1>→如果组1中的所有功能都已传播,则为true
|
注:在FT行中,只有当目标FTGroup本身不在FT[Group]案例中时,才能使用此条件!
-
FTTag标签:如果传播了具有特定标记的功能:(标记:标记名参见第节FT约束线)
|
案例<FTTag:phospho→如果至少有一个功能具有“福绍'标记已传播
|
-
(任意)功能:如果GFF文件中存在功能:
|
案例<特征:PS50084>案例<AnyFeature:PS50084>案例<特征:跨膜>2>→功能必须存在两次以上
|
操作员‘>’,‘<’,‘==’,‘>=’,‘<=支持“”。
“功能'和'任何功能'如下所示。‘功能'仅指触发功能+与之重叠(至少50%)。”任何功能'表示所有功能匹配序列。
这些条件涉及选定和未选定的功能,除非运算符(>,<,==,>=,<=)存在:这里只检查选定的特征。例如,测试是否没有选定的Signal_anchor功能(位于序列),使用:
|
case<任意功能:Signal_anchor<1>→ 所选功能必须不存在
|
而如果没有操作符,则类似于:
|
case not<AnyFeature:Signal_anchor>→ 必须缺少功能(无论是否选中)
|
- 在GFF特征的特定位置匹配的图案上:
|
案例<功能:PS50084:5=E>案例<特征:PS99999:10-13=N-{P}(P)-[ST]-{P}>
|
- 由其他规则触发的规则:
- 代谢途径或特性(仅'='可以使用运算符):
|
案例<属性:膜=2>案例<属性:NITROGEN_FIXATION>case<属性:节点>案例不<属性:METHANOG>
|
注意(HAMAP“黑客”):如果属性:膜未知(如果生物体相应的蛋白质组完整),则视为等于1(因此,情况<属性:膜=1>,情况<性质:膜>为真)。
- 具有特定InterPro id的(motif)特征的存在
- 蛋白质大小
注意:ProRule黑客!“玩”域覆盖。。。
5.1.1三值逻辑
应使用三元逻辑计算UniRule条件,其中条件评估为三个值之一:真的,假,或不设防的.运算符的定义如下,与它们在Perl编程语言。请注意,某些规则是违反直觉的。
二进制运算符:'和'和'或’
我 |
j |
i和j |
i或j |
真的 |
真的 |
真的 |
真的 |
真的 |
假 |
假 |
真的 |
真的 |
不设防的 |
不设防的 |
真的 |
假 |
真的 |
假 |
真的 |
假 |
假 |
假 |
假 |
假 |
不设防的 |
假 |
不设防的 |
不设防的 |
真的 |
不设防的 |
真的 |
不设防的 |
假 |
不设防的 |
假 |
不设防的 |
不设防的 |
不设防的 |
不设防的 |
一元运算符:'不'和'定义’
我 |
不是我 |
定义的i |
真的 |
假 |
真的 |
假 |
真的 |
真的 |
不设防的 |
不设防的 |
假 |
运算符关联性和优先级
从最高到最低的优先顺序和关联性如下。
结合性 |
操作人员 |
正确的 |
定义 |
正确的 |
不 |
左边 |
和 |
左边 |
或 |
应用示例:如果膜的数量已知且等于2,则应用给定的注释项。否则,应用不太具体的注释项目。
|
案例定义的<属性:薄膜>和<属性:膜=2>抄送-!-亚细胞位置:内膜相关(通过相似性)。其他的抄送-!-亚细胞位置:膜相关(通过相似性)。终端盒
|
5.1.2条件线c!或c?
条件行c!或c?包含其他直线立即传播的约束该行的格式为:
哪里条件具有与中相同的语法案例行,或,在FT行之前,它还可以包括PROSITE模式表达式。
注:在FT行中,不能使用FT[组]条件(而是使用用例!)。
条件行不同于案例那条线
- 约束只影响下一行(只有一行!);
- 它不会打破前一个案例条件。
The condition of thec!行必须为true,否则错误为预期。建议使用使用UniRules的工具生成错误消息。
例子:
的条件c?行可以为真也可以为假,就像功能一样不会出现在UniRule的所有匹配项中。
例子:
|
c<特征:PS99999:10-13=N-{P}(P)-[ST]-{P}>和<OC:真核生物>FT碳水化合物10 13 N-连接(潜在)。
|
例外情况:参见第节隐藏的信息.
过渡:条件行应自动替换通过c!行,其中一些稍后由c?线。二硫化物的强制性条件应被抑制,可选条件替换为c?线。
6.隐藏信息
UniRules力求包含与图案相关的所有信息。然而,对于避免重复,我们没有包括以下信息,这是隐含的自动注释管道工具“已知”。
6.1关键词重复
关键字重复与数据类的所有规则相关域。当在中找到域或重复项时,此关键字适用在蛋白质中至少两次。该规则的相应部分是:
|
case<特征:当前规则访问编号>1>KW重复终端盒
|
可以通过使用属性“无关键字’在Repeats行中(请参阅第节重复行).
6.2FT约束功能键的行DISULFID公司
对于带有键的功能DISULFID公司,约束条件发件人和收件人两者都需要半胱氨酸的位置是隐含的。相应的行将是以下示例的第二行:
|
FT DISULFID 4 23根据相似性。FT条件:C-x*-C
|
A.UniAln公司
引言
UniAln是蛋白质序列比对的一种格式,它补充了UniRules收藏。一些UniRules是基于专业化的预测程序开发的数据库,如PROSITE。然而,其他UniRules是基于精心策划的比对构成UniAln系列的。这是HAMAP中使用的方法注释项目。
格式
UniAln比对的格式与CLUSTAL套件生成的格式类似共个程序。每条路线由以下部分组成:
- A类标题行以字符串“集群'或‘肌肉'或'T_咖啡’. 行的其余部分是自由文本,但特殊字符串是被程序识别(见下文)。
- 两个空白行.
- 对齐块,每个块后面都有一条共识线,用空白隔开线。
路线受以下约束:
- 文件的行末不能包含任何尾随空格。这个允许使用可能会抑制此类空格的文本编辑器进行安全编辑。
- 对齐中的序列只能包含大写字母(带有字母的例外O(运行)’, ‘U型’, ‘J型’, ‘B类’, ‘Z轴’),间隙字符'-'和特殊字符'<'和'>'到表示序列部分已切除到以下氨基酸或前一氨基酸的COOH侧,分别是。注:尽管字母“B类'和'Z轴'是在CLUSTAL允许的情况下,它们在内部保留以逃避特殊字符'<'和'>'当通过CLUSTAL计划。
- 共识行的换行和内容必须是对齐可以通过命令clustalw-转换'没有修改(转义字符后<'和'>',而不是考虑到由‘clustalw-转换’).
- 序列标识符必须是来自Swiss-Prot的有效标识符(ID行)。序列必须与Swiss-Prot中的序列相对应。然而,未对齐的序列部分可能会被策展人剪辑,并且替换为特殊字符'<'(用于N端子剪裁)或‘>'(用于C端子剪裁),或按顺序'><'(用于内部剪裁)。
对齐标题行
对齐的第一行必须以字符串“群集'或‘肌肉'或'T_咖啡’. 行的其余部分是自由文本,但特殊标记是被程序识别。标签可以重复。标签包括:
- ‘模板=标识符’
-
表示对齐是UniRule中的特征传播模板,该模板使用对齐。必须在对齐中指示模板序列允许在UniRules中进行基于对齐的特征传播。
- ‘配置文件方法=方法’
-
指示应该用于从对齐。允许的值方法是:
- ‘配置文件方法=pfmake’
-
(默认)应使用“脉冲宽度'和'pfmake品牌'来自PFTOOLS软件包。无需指明此方法,因为它是默认值。
- ‘profile_method=hmmbuild’
-
应使用“hmmbuild公司'来自HMMER包并使用“”转换为配置文件htop公司”。使用“”生成的配置文件pfmake品牌'通常比生成的更敏感带有“hmmbuild公司’. 在某些情况下,这意味着他们的歧视性较小。如果观察到默认方法导致误报,可以尝试使用使用“hmmbuild公司'方法来查看是否解决了问题。请参见HAMAP 2003论文进行讨论。
在一些HAMAP家庭中hmmbuild公司“能够避免误报负片,而'pfmake公司'不是:
- 密切相关的蛋白质家族;
- 对于某些非常短的蛋白质('pfmake品牌“得分很低)。
标题行示例:
|
集群CLUSTAL W(1.83)多序列比对模板=XYLA_ECOLI模板=XYLA_ACTMICLUSTAL W(1.83)多序列比对模板=XYLA_ECOLI profile_method=hmmbuild肌肉(3.52)多序列比对
|
B.UniRules条目示例
“域”UniRule示例
|
AC PRU00241;DC域;TR PROSITE公司;PS50903;RUBREDOXIN_类;1; 级别=0XX年名称:Rubredoxin-like域功能:参与电子传递过程。XX年抄送-!-相似性:包含#rubredoxin-like域。DR PROSITE公司;PS00202;RUBREDOXIN;0-1; 触发器=否案例<FTGroup:1>GO-GO:0009490;F: 单核铁电子载体转到:0006810;P: 运输GO-GO:0006118;P: 电子输运KW运输KW电子传输KW金属绑扎KW熨斗终端盒XX年FT自:PS50903FT域从到Rubredoxin-like#。FT METAL 6 6 1号铁(根据相似性)。FT组:1;条件:CFT METAL 9 9 1号铁(根据相似性)。FT组:1;条件:CFT METAL 38 38 1号铁(根据相似性)。FT组:1;条件:CFT METAL 41 41 1号铁(根据相似性)。FT组:1;条件:CXX年印章:编号=0;Cter=0;尺寸:34-54;相关:无;重复次数:2次;拓扑:细胞质;示例:Q9V099;范围:细菌古生菌//
|
“蛋白质”UniRule示例
|
交流电MF_00198;DC蛋白;汽车TR HAMAP;MF_00198;-;1; 级别=0XX年ID速度案例<OC:细菌>DE亚精胺合酶(酶代码EC2.5.1.16)(Putrescine氨基丙基转移酶)德国(PAPT)(SPDSY)。终端盒案例<OC:Archaea>DE可能亚精胺合酶(EC 2.5.1.16)(腐胺DE氨基丙基转移酶)(PAPT)(SPDSY)。最终案例GN名称=speE;XX年抄送-!-功能:催化腐胺生成亚精胺CC和脱羧S-腺苷蛋氨酸(dcSAM),其作用是CC是氨丙基供体(通过相似性)。抄送-!-催化活性:S-腺苷甲硫胺+腐胺=5'-S-CC甲基-5’-硫腺苷+精脒。抄送-!-途径:胺和多胺生物合成;精脒CC生物合成;腐胺中的亚精胺:步骤1/1。病例<OC:变形杆菌>抄送-!-亚单位:同二聚体(根据相似性)。其他情况<OC:Thermotogales>抄送-!-亚单位:均四聚体(根据相似性)。其他的抄送-!-亚单位:同二聚体或同四聚体(根据相似性)。终端盒抄送-!-相似性:属于亚精胺/精胺合酶家族。XX年Pfam博士;PF01564;精氨酸合成酶;1; 触发器=否DR TIGRFAM;TIGR00417;speE;1; 触发器=否DR PROSITE公司;PS01330;SPERMIDINE_SYNTHASE_1;1; 触发器=否DR PROSITE公司;PS51006;SPERMIDINE_SYNTHASE_2;1; 触发器=否XX年KW多胺生物合成KW精脒生物合成KW转移XX年GO-GO:0004766;F: 精脒合酶活性GO-GO:0008295;P: 精脒生物合成过程XX年FT发件人:SPEE_THEMA(Q9WZC2)FT区域152 153 S-腺苷甲硫氨酸结合(ByFT相似性)。FT条件:[DN]-[AGV]FT结合46 46 S-腺苷甲硫氨酸(按相似性)。FT条件:[QHNR]FT结合101 101 S-腺苷甲硫氨酸(按相似性)。FT条件:[DE]FT结合121 121 S-腺苷甲硫氨酸(按相似性)。FT条件:[ED]FT结合170 170 S-腺苷甲硫氨酸(按相似性)。FT条件:DFT结合173 173腐烂(根据相似性)。FT条件:[DE]XX年尺寸:261-366;相关:无;模板:P09158;第70998页;Q9WZC2;Q8U4G1;O25503;范围:细菌不在AGRT5、ANASP、BACTN、BORBR、BORBU、BORPA、BORPE、BRAJA、BRUME、,BRUSU、BUCBP、CAMJE、BLOFL、CAUCR、CHLCV、CHLMU、CHLPN、CHLTE、CHLTR、,CORGL、COXBU、DEIRA、ENTFA、FUSNN、GLOVI、HAEDU、HAEIN、HELHP、LACLA、,LACPL、LISIN、LISMO、MYCGA、MYCPE、MYCLE、MYPPE、MYCP、MYCPU、PASMU、,PORGI、PSEPK、RHILO、RHIME、RICCN、RICPR、STAAM、STAAN、STAAW、STAES、,STRA3、STRA5、STRMU、STRP3、STRP8、STRP1、SYNEL、SYNY3、TREPA、TROW8、,TROWT、UREPA、VIBCH、VIBPA、WIGBR古生菌不在HALSA、METAC、METKA、METMA、METTH融合:NT:<未知>CT:<未知>副本:AQUAE、BACAN、BACCR、LEPIN、PSEAE、RALSO、STRCO、THETN质粒:RALSO中注释:无**在Buchnera sp.中,只有speE和speD存在,来自鸟氨酸的途径都不存在**精氨酸的途径也不完整。//
|
目录
关于本文档
此文档是使用生成的texi2html 1.82.
导航面板中的按钮具有以下含义:
按钮 |
姓名 |
去 |
从1.2.3转到 |
[ < ] |
后退 |
阅读顺序中的上一节 |
1.2.2 |
[ > ] |
福沃德 |
阅读顺序中的下一节 |
1.2.4 |
[<<] |
快速后退 |
本章或上一章的开头 |
1 |
[向上] |
向上 |
上部分 |
1.2 |
[ >> ] |
快进 |
下一章 |
2 |
[顶部] |
顶部 |
文件封面(顶部) |
|
[目录] |
目录 |
目录 |
|
[索引] |
索引 |
索引 |
|
[ ? ] |
关于 |
关于(帮助) |
|
其中例子假设当前位置为一至二至三小节具有以下结构的文档:
- 1.第一节
- 1.1小节一对一
- 1.2第1-2小节
- 1.2.1子部分一对一
- 1.2.2一至二次变电站
- 1.2.3一至二至三子变电站<==当前位置
- 1.2.4一至四个子变电站
- 1.3第1-3小节
- 1.4第四小节