序列主题搜索

介绍

什么是序列基序?

序列基序是保守蛋白质或核酸序列的短片段,分别存在于许多蛋白质或基因中,并被认为具有特定的功能意义。
在某些情况下,序列中的整套氨基酸或核酸是保守的,需要它们来执行特定的功能。
在其他情况下,只有序列基序中特定位置的氨基酸或核酸可能是保守的,并且对功能有重要意义。

什么是序列主题搜索?

序列模体搜索选项允许您查询FASTA序列中的氨基酸或核苷酸序列片段,这些片段经常出现在3D结构中的聚合物中。

为什么要运行序列Motif搜索?

在蛋白质或核酸中发现特定的序列基序表明,它可能具有与基序相关的功能;也就是说,它可以用于预测函数。
运行序列基序搜索的另一个原因是它确实不同于常规的基于相似性的序列搜索(例如。,爆炸)有两种方式:

  • 定义序列基序的序列很短(因此基于相似性的搜索将无法有效工作)
  • 序列基序的部分可能具有交替序列或根本不保守(因此,在查询中必须包括特定条件,以定义序列基序中的非邻接保守氨基酸/核苷酸)

运行搜索

序列模式搜索选项可从高级搜索查询生成器中获得(图1).

图1:指定不同格式的蛋白质、DNA或RNA序列的序列模体搜索,并查找与查询匹配的聚合物实体的界面。如果合适,打开切换开关以在搜索中包含CSM。
图1:指定不同格式的蛋白质、DNA或RNA序列的序列模体搜索,并查找与查询匹配的聚合物实体的界面。如果合适,打开切换开关以在搜索中包含CSM。

查询选项

  • 设置序列类型搜索蛋白质(氨基酸),DNA,或核糖核酸序列。

  • 设置模式将motif语法指定为简单的,PROSITE公司,或正则表达式.

  • 设置数据源在其中搜索实验的仅记录,计算的记录,或二者都.

序列类型

在所有三种模式中,氨基酸残基(或核苷酸)类型使用单字母代码,由定义IUPAC公司.例如:对于氨基酸序列,R(右)是精氨酸;对于RNA序列,U型是尿嘧啶。核苷酸序列也支持所谓的模棱两可的代码;例如,S公司是胞嘧啶或鸟嘌呤。只有简单模式和PROSITE模式支持不明确的代码。以下是单字母代码的完整参考。

查询区分大小写对于所有三种模式:ATGC公司自动变速箱都是相同的。(这也适用于X(X)x个在简单和PROSITE模式下。)

单字母代码表 /U型
核苷酸代码
代码意思
腺嘌呤
C类胞嘧啶
G公司鸟嘌呤
T型 1胸腺嘧啶
U型 1尿嘧啶
B类 2C类/G公司/T型/U型
D类 2/G公司/T型/U型
H(H) 2/C类/T型/U型
K(K) 2G公司/T型
M(M) 2/C类
R(右) 2/G公司
S公司 2C类/G公司
V(V) 2/C类/G公司
W公司 2/T型/U型
Y(Y) 2C类/T型/U型
N个 2任何底座

1 T型仅限于DNA;U型仅限于RNA

Termed公司模棱两可的; 仅在简单和PROSITE模式下支持。

氨基酸代码
代码意思
丙氨酸
C类半胱氨酸
D类天冬氨酸
E类谷氨酸
F类苯丙氨酸
G公司甘氨酸
H(H)组氨酸
异亮氨酸
K(K)赖氨酸
L(左)亮氨酸
M(M)蛋氨酸
N个天冬酰胺
P(P)脯氨酸
谷氨酰胺
R(右)精氨酸
S公司丝氨酸
T型苏氨酸
V(V)缬氨酸
W公司色氨酸
Y(Y)酪氨酸

简单模式

输入一个或多个单字母代码的序列。模棱两可的支持核苷酸代码,通配符(X(X))可用于表示任何氨基酸或核苷酸。使用<>以分别匹配N-末端和C-末端。

示例

  • XPPXP程序(蛋白质):SH3结构域(any→脯氨酸→脯氨酸>any→proline)
  • YYY年(DNA):3×胞嘧啶/胸腺嘧啶
  • <SSS:任何序列以开头3×丝氨酸

PROSITE模式

复杂的查询可以使用PROSITE模式来表达。PROSITE模式由一个或多个组成原子,可以选择用连字符分隔(-).序列可选择终止一个周期(.).

X(X)可以代替任何氨基酸或核苷酸类型,以及不明确的核苷酸编码(例如。,B类)支持。

请注意,此语法是经典PROSITE的超集:搜索支持一些其他工具可能无法接受的模式,例如EXPASY ScanProsite公司.有关完整信息,请参阅PROSITE扩展信息.

原子类型

每个原子都是七种类型之一:

字面意义的
一个单字母代码(例如。,).这正好匹配1个残留物。
任何一个([])
中包含的一个或多个代码[],例如[空中交通管制].这正好与列出代码的1个残基匹配。
第个,共个({})
中包含的一个或多个代码{},例如{空中交通管制}.这正好匹配1个未列出代码的残留物。
N端(<)
N端标记,<,指示序列的开始。如果包含,这必须是第一个元素。
C端(>)
C端子标记,>,表示序列结束。如果包含,这必须是最后一个元素。
任意一个/C端子(例如。,[A>])
可变C端子元件,例如[>空调],[答>答],或[AC>](相当)。这与序列的末尾匹配,或者与列表中的1匹配(但不是两者都匹配)。

量词

每个文字、通配符、any-of和non-of元素后面可以跟一个限定符以匹配前面的元素若干次。量词包含在()并且可以是完全正确,最小值,或范围:

完全正确
A(2)完全匹配AA。
最小值
A(2,)在AA、AAA。
范围
A(2,4)匹配AA、AAA和AAAA。

Regex模式

还支持正则表达式(regex)。此选项比PROSITE更强大,程序员可能很熟悉。请注意,该服务可能拒绝处理某些查询.

正则表达式模式包含一个或多个原子,每个都有一个可选量词。|表示逻辑、和()将原子分组。

不支持模棱两可的核苷酸代码,也不支持X(X).使用.而不是X(X),和使用【CGT】(对于DNA)或【CGU】(用于RNA)而不是B类.

示例

  • 西。{7} G.公司。{20} L(左)匹配色氨酸→7×any→甘氨酸→20×any>赖氨酸。
  • C、。{2,4}C。{12} H。{3,5}高匹配在DNA结合域中结合锌的锌指基序。
  • ^H(H)+$匹配N末端→1+组氨酸→C末端。
  • 【阿拉伯海湾】。{4} GK公司【ST】匹配与ATP或GTP结合的Walker(P loop)基序。

查看结果

搜索前检查表

  • 运行搜索之前,请记住执行以下操作:
  • 将结果返回选项更改为“聚合物”实体
  • 决定是否包括CSM公司(默认)或排除它们(通过关闭“搜索”按钮旁边的切换开关)。

结果选项

搜索结果显示序列匹配区域的编号(对应于PDBx/mmCIF文件编号)(图2).
单击每个匹配结果的3D视图按钮,以在3D中交互查看结构。
可以仔细检查结果中指定的匹配区域。

图2:序列基序搜索的查询结果页面的一部分,显示了与红色框中的查询序列基序匹配的聚合物实体区域。点击标有红色箭头的3D视图,打开Mol*中的结构。
图2:序列基序搜索的查询结果页面的一部分,显示了与红色框中的查询序列基序匹配的聚合物实体区域。点击标有红色箭头的3D视图,打开Mol*中的结构。

搜索示例

  • 查询SH3域–使用简单模式查询XPPXP程序,其中X(X)是任何残留物和P(P)是脯氨酸。
  • 查询特定的序列模式–使用PROSITE模式查询[AC]-x-V-x(4)-{ED},它转换为[Ala或Cys]-any-Val-any-any-any-anay-{any but Glu或Asp}。
  • 查询Walker(P循环)主题绑定ATP或GTP的-使用Regex模式查询[AG]。。。。GK[ST]公司,其中A或G后面是4个可变残数,然后是G和K,最后是S或T。

扩展(高级)信息

PROSITE模式详细信息

术语

本文档使用以下定义。

原子
与1个残基或核苷酸匹配的PROSITE语法项。文字(例如。,),间隙(.)、任意(例如。,[重心]),无(例如。,{自动变速箱},N端(<),C端(>[>自动变速箱])
期限
原子及其量词(如果有)

非标准,但RCSB中允许

RCSB PROSITE比标准PROSITE更宽容;它在以下方面有所不同:
  • 忽略案例。都是一样的X(X)x个.
  • 范围限定符((x,y))可用于所有原子,而不仅仅是间隙(x个).例如,A(1,4)1到4个丙氨酸之间的匹配。相比之下,标准PROSITE仅允许,例如,x(1,4).
  • 连字符(-)可以省略,即使使用一个字母的核苷酸代码,例如B类.只要在有效位置使用连字符,就会忽略它们。

RCSB特定规则

PROSITE规范的某些部分可以用多种方式解释。RCSB PROSITE已决定这些规则:
  • 空格(具有Unicode类别的字符Z轴)处于合理位置时被忽略。例如,A T{1,3}是允许的。
  • 查询必须至少包含1个原子。(<,>,<>,并且禁止使用空字符串。)
  • 任何匹配项([])至少需要1个字符。
  • 无匹配项({})不能包含每个单字母代码。{自动变速箱}对于DNA序列无效(并且永远无法匹配序列)。
  • 精确量词(n)仅当且仅当n≥1.
  • 范围量词(m,n)仅当且仅当n≥mm>0.

形式语法

此语法使用副本请求5234ABNF公司.

查询=开始*(['-']term)['-'结束]['.'];  ^          ^           ^; 需要0或更多可选start=术语/(interm非间隙术语)/(interm间隙)%要么:没有N项的项(1+元素)%OR:带非间隙项的N项(1+元素)%OR:单个间隙(1个元件;非重复)end=术语/(非间隙-术语/字符)/(间隙-字符)术语=元素[计数/范围]元素=代码/任意/无/间隙non-gap-term=非间隙元素[计数/范围]non-gap-element=代码/任意/无aa=“一个单字母代码”间隙=“x”; 匹配任何单一残留物any-of='['1*aa']'; 匹配[]中包含的任何单一残留物; 例如,[ACE]匹配A、C或Enone-of='{'1*aa'}'; 匹配{}中未包含的任何单个残留物count='('天然')'; 重复前面元素的准确次数; 例如,[AW](3)等同于[AW][AW][CW]range='('数字','自然')'; 重复前面元素的最小和最大次数; 例如,A{1,3}匹配A、AA和AAA; 注意:最小值必须小于最大值interm=“<”; 匹配序列开始(N端)字符=字符-文字/字符-或任意字符-文字=“>”=; 匹配序列末端(C末端)字符或任意字符=('['(1*aa'>'*aa)/(*aa'>'1**aa)']'); 匹配序列末端(C末端),; 或[]中包含的aa/{}中不包含的aa; 例如,[A>]匹配序列结束或A。; 有效示例:[A>]、[>A]、[A、C]、[ACDE>]; 无效示例:[A>>]、[A>C>]、[>]、[]数字=1*数字自然=非零*数字非零=%x31-39

Regex模式详细信息

支持和不支持的构造

查询语法为IEEE POSIX扩展正则表达式.几乎所有标准都受支持,包括lookarounds和backreferences等高级构造。

然而,有一些东西不受支持。最值得注意的是,文字或字符类中不允许使用非单字母代码中的字符。例如,Z轴【A-Z】将导致错误。命名字符类,例如\秒\p{阿尔法}也不支持。

将被拒绝的查询

此外,该服务不允许可能严重降低性能的表达式。具体来说,这些表达式具有非多项式最坏情况运行时或空间复杂性。服务将拒绝:
  • 在组中使用非剥夺性、不精确量词的模式匹配可变字符数的,n、 n>1;
  • 在满足某些(其他)方式的组上使用量词的模式;
  • 过度或以某种方式使用懒惰、不精确量词的模式;
  • 过度或以特定方式使用旁观的模式;
  • 具有非多项式最坏情况运行时或内存需求的模式;
  • 总体复杂度过高的模式。
API用户还应该注意罕见的故障类型:服务范围限制(HTTP 503)、查询持续时间过长(504)和查询过度(429)。

简化查询的提示

遵循这些准则以避免查询被拒绝。

  • 不要使用惰性量词。
  • 避免旁观。
  • 将量词应用于组时,确保组简单并且只使用贪婪?或(最好)所有格量词。
  • 尽可能使用所有格量词。
  • 不要以开始或结束序列.*,^.*,.*$,或类似。
请注意,可以用一个或两个贪婪量词替换惰性量词的大多数用法。


请向报告任何遇到的断开链接info@rcsb.org
上次更新时间:2024年2月22日