搜索和浏览>高级搜索
序列主题搜索
介绍
什么是序列基序?
什么是序列主题搜索?
为什么要运行序列Motif搜索?
定义序列基序的序列很短(因此基于相似性的搜索将无法有效工作) 序列基序的部分可能具有交替序列或根本不保守(因此,在查询中必须包括特定条件,以定义序列基序中的非邻接保守氨基酸/核苷酸)
运行搜索
查询选项
-
设置 序列类型 搜索 蛋白质 (氨基酸), DNA ,或 核糖核酸 序列。 -
设置 模式 将motif语法指定为 简单的 , PROSITE公司 ,或 正则表达式 . -
设置 数据源 在其中搜索 实验的 仅记录, 计算的 记录,或 二者都 .
序列类型
➤ 单字母代码表
| |
| |
| |
| |
| |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
|
简单模式
示例
-
XPPXP程序 (蛋白质):SH3结构域(any→脯氨酸→脯氨酸>any→proline) -
YYY年 (DNA): 3×胞嘧啶/胸腺嘧啶 -
<SSS : 任何序列 以开头 3×丝氨酸
PROSITE模式
原子类型
字面意义的 一个单字母代码(例如。, 一 ). 这正好匹配1个残留物。 任何一个( [] ) 中包含的一个或多个代码 [] ,例如 [空中交通管制] . 这正好与列出代码的1个残基匹配。 第个,共个( {} ) 中包含的一个或多个代码 {} ,例如 {空中交通管制} . 这正好匹配1个未列出代码的残留物。 N端( < ) N端标记, < ,指示序列的开始。 如果包含,这必须是第一个元素。 C端( > ) C端子标记, > ,表示序列结束。 如果包含,这必须是最后一个元素。 任意一个/C端子(例如。, [A>] ) 可变C端子元件,例如 [>空调] , [答>答] ,或 [AC>] (相当)。 这与序列的末尾匹配,或者与列表中的1匹配(但不是两者都匹配)。
量词
完全正确 A(2) 完全匹配AA。 最小值 A(2,) 在AA、AAA。 范围 A(2,4) 匹配AA、AAA和AAAA。
Regex模式
示例
-
西。 {7} G.公司。 {20} L(左) 匹配色氨酸→7×any→甘氨酸→20×any>赖氨酸。 -
C、。 {2,4}C。 {12} H。 {3,5}高 匹配在DNA结合域中结合锌的锌指基序。 -
^H(H)+$ 匹配N末端→1+组氨酸→C末端。 -
【阿拉伯海湾】。 {4} GK公司 【ST】 匹配与ATP或GTP结合的Walker(P loop)基序。
查看结果
搜索前检查表
运行搜索之前,请记住执行以下操作: 将结果返回选项更改为“聚合物”实体 决定是否包括 CSM公司 (默认) 或排除它们(通过关闭“搜索”按钮旁边的切换开关)。
结果选项
搜索示例
查询SH3域 –使用简单模式查询 XPPXP程序 ,其中 X(X) 是任何残留物和 P(P) 是脯氨酸。 查询特定的序列模式 –使用PROSITE模式查询 [AC]-x-V-x(4)-{ED} ,它转换为[Ala或Cys]-any-Val-any-any-any-anay-{any but Glu或Asp}。 查询Walker(P循环)主题 绑定ATP或GTP的-使用Regex模式查询 [AG]。。。。 GK[ST]公司 ,其中A或G后面是4个可变残数,然后是G和K,最后是S或T。
扩展(高级)信息
PROSITE模式详细信息
术语
原子 与1个残基或核苷酸匹配的PROSITE语法项。 文字(例如。, 一 ), 间隙( . )、任意(例如。, [重心] ),无(例如。, {自动变速箱} ,N端( < ), C端( > [>自动变速箱] ) 期限 原子及其量词(如果有)
非标准,但RCSB中允许
忽略案例。 一 和 一 都是一样的 X(X) 和 x个 . 范围限定符( (x,y) )可用于所有原子,而不仅仅是间隙( x个 ). 例如, A(1,4) 1到4个丙氨酸之间的匹配。 相比之下,标准PROSITE仅允许,例如, x(1,4) . 连字符( - )可以省略,即使使用一个字母的核苷酸代码,例如 B类 . 只要在有效位置使用连字符,就会忽略它们。
RCSB特定规则
空格(具有Unicode类别的字符 Z轴 )处于合理位置时被忽略。 例如, A T{1,3} 是允许的。 查询必须至少包含1个原子。 ( < , > , <> ,并且禁止使用空字符串。) 任何匹配项( [] )至少需要1个字符。 无匹配项( {} )不能包含每个单字母代码。 {自动变速箱} 对于DNA序列无效(并且永远无法匹配序列)。 精确量词 (n) 仅当且仅当 n≥1 . 范围量词 (m,n) 仅当且仅当 n≥m 和 m>0 .
形式语法
查询=开始*(['-']term)['-'结束]['.'] ; ^ ^ ^ ; 需要0或更多可选 start=术语/(interm非间隙术语)/(interm间隙) %要么:没有N项的项(1+元素) %OR:带非间隙项的N项(1+元素) %OR:单个间隙(1个元件;非重复) end=术语/(非间隙-术语/字符)/(间隙-字符) 术语=元素[计数/范围] 元素=代码/任意/无/间隙 non-gap-term=非间隙元素[计数/范围] non-gap-element=代码/任意/无 aa=“一个单字母代码” 间隙=“x” ; 匹配任何单一残留物 any-of='['1*aa']' ; 匹配[]中包含的任何单一残留物 ; 例如,[ACE]匹配A、C或E none-of='{'1*aa'}' ; 匹配{}中未包含的任何单个残留物 count='('天然')' ; 重复前面元素的准确次数 ; 例如,[AW](3)等同于[AW][AW][CW] range='('数字','自然')' ; 重复前面元素的最小和最大次数 ; 例如,A{1,3}匹配A、AA和AAA ; 注意:最小值必须小于最大值 interm=“<” ; 匹配序列开始(N端) 字符=字符-文字/字符-或任意 字符-文字=“>”= ; 匹配序列末端(C末端) 字符或任意字符=('['(1*aa'>'*aa)/(*aa'>'1**aa)']') ; 匹配序列末端(C末端), ; 或[]中包含的aa/{}中不包含的aa ; 例如,[A>]匹配序列结束或A。 ; 有效示例:[A>]、[>A]、[A、C]、[ACDE>] ; 无效示例:[A>>]、[A>C>]、[>]、[] 数字=1*数字 自然=非零*数字 非零=%x31-39
Regex模式详细信息
支持和不支持的构造
将被拒绝的查询
在组中使用非剥夺性、不精确量词的模式 匹配可变字符数的, n、 n>1 ; 在满足某些(其他)方式的组上使用量词的模式; 过度或以某种方式使用懒惰、不精确量词的模式; 过度或以特定方式使用旁观的模式; 具有非多项式最坏情况运行时或内存需求的模式; 和 总体复杂度过高的模式。
简化查询的提示
不要使用惰性量词。 避免旁观。 将量词应用于组时,确保组简单并且只使用贪婪 ? 或(最好)所有格量词。 尽可能使用所有格量词。 不要以开始或结束序列 .* , ^.* , .*$ ,或类似。