快速扫描
ScanProsite的快速扫描模式对应于“选项1-提交”的简化版本蛋白质序列到将它们与PROSITE收集图案'可从PROSITE主页获得。在文本区输入或粘贴多达10个蛋白质序列。接受的输入是:
- UniProtKB访问,例如P98073或标识符,例如ENTK_HUMAN*
- PDB标识符,例如4DGJ
- FASTA格式的序列
*属于引用的条目的所有UniProtKB/Swiss-Prot访问/标识符和所有UniProtKB/TrEMBL访问/标识符蛋白质组被接受。
您的输入序列将针对所有PROSITE基序进行扫描,包括或不包括高概率出现的基序(请参阅排除出现概率高的图案选项)取决于选中(排除)或取消选中(包括)文本区域下方的复选框。扫描完成后,结果将显示在“图形视图'输出格式。
主要业务
提交蛋白质序列
您可以在文本区域中输入或粘贴蛋白质序列,也可以提交蛋白质数据库。如果选择在文本区域中输入序列,则接受的输入为:
- UniProtKB访问,例如P98073或标识符,例如ENTK_HUMAN*
- PDB标识符,例如4DGJ
- FASTA格式的序列
*属于引用的条目的所有UniProtKB/Swiss-Prot访问/标识符和所有UniProtKB/TrEMBL访问/标识符蛋白质组被接受。
如果你在“选项1”中(扫描所有PROSITE基序),你最多可以提交10个序列;如果您选择3’(根据指定的图案扫描)如果您提交1个图案,则可以输入的最大序列数为1’000,如果您提交图案的组合。
如果您希望对自己的序列数据库进行扫描,请输入数据库代码或在FASTA中提交文件(最大16MB)。上传文件后,您将收到一个代码,您可以使用该代码对刚刚提交的数据库进行重复扫描,数据库将在我们的服务器上保留一个月。
提交MOTIFS(输入MOTIF或MOTIFS组合)
在文本区域中输入图案或图案组合,支持的输入为:
- PROSITE登录,例如PS50240或标识符,例如TRYPSIN_DOM
- 您自己的模式,例如P-x(2)-g-e-S-g(2)-[AS]
- PROSITE添加/标识符的组合,例如PS50240和PS50068,例如PS50 240和否(PS00134或PS00135)
- PROSITE输入/标识符和您自己的模式的组合,例如PS50240和P-x(2)-g-e-S-g(2)-[AS]
然后您可以修改几个默认扫描参数(扫描选项)
模式语法
- 标准IUPAC氨基酸的单字母代码是用于PROSITE。
- 符号“x”用于接受任何氨基酸的位置。
- 通过在方括号“[]”之间列出给定位置的可接受氨基酸来表示歧义。例如:[ALT]代表Ala或Leu或Thr。
- 通过在一对花括号“{}”之间列出在给定条件下不被接受的氨基酸,也可以表示歧义位置。例如:{AM}代表除Ala和Met以外的所有氨基酸。
- 模式中的每个元素都由一个“-”分隔开。
- 图案元素的重复可以通过在该元素后面加上数值来表示,如果是间隙('x'),可以通过括号之间的数字范围。
示例:
- x(3)对应于x-x-x
- x(2,4)对应于x-x或x-x-x或x-x-x-x
- A(3)对应A-A-A
- 当一个模式被限制在序列的N或C端时,该模式分别以“<”符号或以“>”符号结尾。
在一些罕见的情况下(例如。PS00267型或PS00539),“>”也可以出现在方框内C端子元件的支架。”F-[GSTV]-P-R-L-[G>]”等同于“F-[GSTV]-P-RL-G”或“F-[GSM TV]-P-R-L>”。
注释:
- 范围只能与“x”一起使用,例如“A(2,4)”不是有效的模式元素。
- 除非限制,否则在模式的开头或结尾不接受“x”的范围/锚定的分别到序列的N或C端,例如“P-x(2)-G-E-S-G(2)-[AS]-x(0200)”不被接受,但‘P-x(2)-G-E-S-G(2)-[AS]-x(0200)>'是。
ScanProsite的扩展语法:
- 如果您的模式不包含任何不明确的残数,则不需要使用“-”指定分隔。
例子:M-A-S-K-E公司可以写为面具.
这意味着在这种情况下,您可以直接将肽序列复制/粘贴到文本字段中。
- 要搜索不包含特定氨基酸的所有序列,例如Cys,可以使用<{C}*>.
你可以使用该程序普拉特生成您自己的模式。
图案 |
解释 |
[AC]-x-V-x(4)-{ED} |
[Ala或Cys]-any-Val-any-any-any-anay-any--any-{除Glu或Asp}外的任何 |
<A-x-[ST](2)-x(0,1)-V |
序列N端的Ala-any-[Ser或Thr]-[Ser或Thr]-(任意或无)-Val |
<{C}*> |
N端到C端没有Cys 即不包含任何Cys的所有序列。 |
IIRIFHLRNI公司 |
Ile-Ile-Arg-Ils-Phe-His-Leu-Arg-Asn-Ile |
MOTIFS的组合
你可以同时提交多个主题。上限是蛋白质数据库扫描的8个基序(选项2-步骤1)和16个基序针对指定序列进行扫描(选项3-步骤2)。如果需要,可以使用带括号的逻辑运算符:“and”、“or”和“not”。
逻辑表达式示例 |
PS50240 PS50068 |
PS50240和PS50068 |
PS50240和P-x(2)-G-E-S-G(2)-[AS] |
PS50240而非PS50068 |
PS50240和(PS00134或PS00135) |
PS50240和否(PS00134或PS00135) |
- “or”是隐式的,这意味着例如“PS50240 PS50068”等效于“PS50240/PS50068”对于由PS50240和PS50068匹配的序列,必须使用“PS50240 and PS50068”。
- 首先处理(最里面的)括号。
- “not”是右关联的,这意味着“not”右边的内容在“not”之前求值。
- “and”和“or”是左关联的,这意味着“and”或“or”左边的内容在“and”之前计算或“或”。
- 不允许使用“not PS50240”中的根“not”,因为它会提供太多匹配项。
- 如果使用括号,请在每个括号前后加一个空格。例如,“PS50240而不是(PS00134或PS00135)”是正确,而“PS50240 and not(PS00134 or PS00135)”是错误的。
- 如果使用逻辑运算符,则所有表达式都必须是显式的,即不能使用空格表示“or”。对于实例“PS50240 and not(PS00134 or PS00135)”正确,而“PS50240and not”(PS00134-PS00135)错误。
选择蛋白质序列数据库
在这些蛋白质序列数据库中进行选择
*对于UniProtKB/TrEMBL,集合中只包括属于参考蛋白质组的条目。
如果您希望对自己的序列数据库进行扫描,请输入数据库代码或在FASTA中提交文件(最大16MB)。上传文件后,您将收到一个代码,用于对您刚刚提交的数据库进行重复扫描,数据库将在我们的服务器上保留一个月。
随机UniProtKB/Swiss-Prot
能够根据随机数据库搜索模式以评估其特异性通常很有用。这是可取的数据库不是完全随机的,但在氨基酸频率和本地方面与要扫描的数据库具有可比性成分偏差。ScanProsite可以使用以下两种方法之一随机化扫描的数据库:
- 反向:反向序列-通过取每个条目的反向序列创建。
- window20:洗牌序列-通过使用20个残数的窗口宽度对每个单独序列条目进行局部洗牌创建
反向序列法通常是推荐的,但它不适用于一种氨基酸高度富集的模式,例如。C-C-C-[LIV]或回文,例如M-L-L-M。
注释:扫描随机序列数据库仅对模式有意义。
过滤器
过滤器 |
用法 |
数据库应用程序 |
长度>=大于 |
指定最小长度 必须是正整数或零,例如150 |
UniProtKB(Swiss-Prot和TrEMBL)和PDB |
长度<=大于 |
指定最大长度 必须是正整数,例如500 |
UniProtKB(瑞士Prot和TrEMBL)和PDB |
分类学 |
输入分类术语,例如“智人”,例如“真菌;节肢动物'或相应的NCBI TaxID,例如9606,例如4751;6656'您可以从美国国立生物技术信息中心或UniProt公司分类数据库。 多个术语必须用分号分隔。 |
UniProtKB(Swiss-Prot和TrEMBL) |
扫描选项
排除出现概率高的图案
描述 |
默认值 |
不针对发生概率高的模式进行扫描。 仅关注模式。 |
打开 |
在大多数情况下,发生概率高的基序是在许多蛋白质序列中发现的模式。其中一些人描述例如,常见的翻译后修饰和其他一些成分偏向区域。虽然注意它们的存在通常很有用,但在某些情况下,某些程序可能希望忽略这些条目。为此条目在其CC行中用以下限定符表示:“/SKIP-FLAG=TRUE>;”,如以下条目所示:ID ASN_糖基化;图案。AC PS00001;DT APR-1990(创建);1990年4月(数据更新);1990年4月(信息更新)。DE N-糖基化位点。宾夕法尼亚州-{P}(P)-[ST]-{P}。CC/SITE=1,碳水化合物;CC/跳过标记=真;CC/版本=1;PR PRU00498;DO PDOC00001;//
如果输出结果是格式为“图形视图”。如果输出格式为“Simple view”或“Text”,则每个图案登录号都标记为“[频繁出现]”。
排除配置文件
描述 |
默认值 |
不根据配置文件进行扫描。 =>仅对图案进行扫描。
|
下车 |
以高灵敏度运行扫描
描述 |
默认值 |
在低级别运行扫描(显示弱匹配)。 仅关注点简介。 |
下车 |
PROSITE剖面通常使用两个截止水平,一个是可靠截止(LEVEL=0),另一个是低置信截止(LEVEL=-1)[更多].
在低置信限(LEVEL=-1)下运行扫描,因此显示低于可靠限值(LEVEL=0)的匹配项。如果输出格式为“图形视图”,则弱点击标记为“[警告:低置信度点击(-1)]”,如果输出格式是“[低置信度]”,则标记为“[low confidence]”输出格式为“简单视图”或“文本”。
每个匹配序列的最小点击数
描述 |
默认值 |
定义要显示匹配序列,序列中必须有多少次点击。 |
1 |
匹配模式
有三个参数可以微调模式匹配引擎的行为:
参数 |
行动 |
贪婪 |
扩展到最多可变长度的模式元素 |
重叠 |
允许部分重叠匹配 |
包括 |
允许彼此包含匹配项(表示重叠) |
默认行为是贪婪的,允许重叠但不包括匹配。这意味着如果有一个重叠匹配被拒绝完全包含在另一个里面。例如,考虑序列“ABACADAEAFA”和简单模式“A-x(1,3)-A”。开关的六种可能组合产生以下结果:
- greed=1,overlap=1,include=0(默认):4个匹配项
阿巴卡迪亚法哦哦。。。。。。……哦。。。。……噢。。……哦哦
- 贪婪=1,重叠=1,包含=1:5场比赛
阿巴卡迪亚法哦哦。。。。。。……哦。。。。……噢。。……哦哦……..哦
- greed=1,重叠=0:2个匹配项
阿巴卡迪亚法哦哦。。。。。。……哦哦
- greed=0,overlap=1,include=0或1:5匹配
阿巴卡迪亚法哦。。。。。。。。……噢。。。。。。……噢。。。。……哦。。……..哦
- greed=0,重叠=0:3个匹配项
阿巴卡迪亚法哦。。。。。。。。……哦。。。。……..哦
输出格式
图形视图
HTML视图,具有蛋白质点击的图形表示(作为可下载的图像)和功能预测(对于某些配置文件)内线比赛。
此Web工具显示蛋白质序列中的每个点击:点击序列、得分(针对个人资料的点击)、PROSITE描述和链接。此外,如果预测到;还指出了与每个匹配序列相关的生物学特征。结果被分为不同类型的点击:按“配置文件”、“出现概率高的配置文件”和“模式”进行的点击,'出现概率高的模式或'用户定义的模式'。在每个类别中,按蛋白质排序的点击数按他们的第三个位置,但对类似主题的多次点击被组合在一起。除了每个匹配的蛋白质外,一个可下载的png(便携式网络图形)图像形式的图形视图表示其所有匹配(上述类型)和检测到的特征。配置文件点击以彩色形状表示,并带有PROSITE名称;图案点击显示(分隔)为没有文本的彩色细条。如果匹配项与前一个匹配项重叠,则会显示在另一行上,或者如果重叠大小小于匹配大小的10%,匹配项将显示在同一行上,其重叠的开始部分将被截断并替换为垂直的红色条(表示有小重叠)。
生物学特征:
对于某些配置文件,定义了关于匹配内残留物的附加生物意义信息。此附加信息来源于将具有生物意义的残基映射到PROSITE剖面。它用于对以下各项进行功能/结构预测配置文件匹配更准确(因为配置文件对模式显示出更高的敏感性,但由于其宽松的严格性功能/结构鉴别性)。如果满足与域关联的功能和/或结构属性的某些预期条件,则属性为显示为“预测功能”。对于每个功能UniProtKB功能键显示位置/范围、特征描述(如果有)和触发检测的条件。条件可以是特定的氨基酸内击,组中的子条件在其中所有条件都必须为真,才能为组条件为真,不同子条件/组之间的情况等。。。与未满足条件相关的特征显示为“缺失特征”,与预测特征的显示方式相同,但以下情况除外这里的condition显示了未检测到该功能的原因(condition/case不为true和/或组不完整)。在图形视图中,功能显示在点击数的顶部;取决于它们的类型,如桥梁、水平杆、垂直销。
个人视图:
对于针对所有PROSITE图案的多个序列扫描(选项1),您可以单击图形显示旁边的“单个视图”以便只看到与所讨论的蛋白质序列的匹配。
查看序列中的所有PROSITE图案点击:
要针对特定图案扫描特定序列(选项3),您可以单击“查看序列上的所有PROSITE图案”,以便sea-all PROSITE基序与所讨论的蛋白质相匹配(除了那些发生概率高且有规律的基序配置文件匹配的敏感度级别)。
匹配/序列突出显示:当只显示一种蛋白质的点击数时,如果您有基于Mozilla的web浏览器(Mozilla,FireBird/Fox,Netscape 7),您将能够查看匹配和完整蛋白质序列上突出显示的特征残基(绿色表示预测特征,灰色表示缺失特征)(如果如图所示)。此外,如果显示了蛋白质的完整序列(如果单击“单个视图”或“查看序列中所有PROSITE基序的命中情况”,或者如果您只提交了一种蛋白质),即蛋白质中的匹配区域当您在图形视图或文本视图中将鼠标光标移到该匹配项上时,序列将以黄色突出显示。只要您不将光标移动到另一个匹配项/特征上,突出显示就会持续存在(请注意,左/右边距不会受到光标的影响移动)。
简单视图
结果的简单HTML视图,没有点击和功能预测的图形表示。
文本
纯文本视图(没有任何html链接)。
美国金融服务贸易协会
纯文本视图,在FASTA格式中,每个点击都显示为美国金融服务贸易协会序列其中序列头/名称为:[匹配的蛋白质]/[点击开始]-[点击停止]/[匹配的PROSITE基序]/分数(仅适用于配置文件)/置信水平(如果有)。注:如果选择“检索完整序列”,则完整的蛋白质序列将替换匹配的序列,并且每个匹配的序列只命中一次表示序列。
表
包含序列中每次点击的文本视图:[匹配的蛋白质][点击开始][点击停止][匹配的PROSITE基序][评分(仅适用于简档)][置信水平(如果有)][匹配区域]注:如果选择“检索完整序列”,则完整的蛋白质序列将替换匹配的序列,并且每个匹配的序列只命中一次表示序列。
匹配列表
匹配项列表(如果提交了UniProtKB访问或标识符,则为UniProt知识库访问;如果提交了PDB标识符,则是PDB标识符,如果您提交了FASTA序列,则为FASTA标题的第一个空格分隔的单词)。
微型配置文件
PROSITE模式点击通过自动生成的“迷你配置文件”进行验证,迷你配置文件为模式匹配分配状态。
大多数PROSITE模式都有关联的迷你配置文件。微型配置文件存储在评估员.dat其注册号(AC)与其来源模式相同,但将“PS”替换为“MP”。例如:“PS00134”的迷你配置文件是“MP00134”。当给定模式命中时,将根据模式的关联迷你配置文件扫描序列:如果迷你配置文件也匹配模式匹配的区域,将信用添加到模式匹配的相关性中。
下表显示了对于每种输出格式,当模式的命中也与模式的相关迷你配置文件。
输出格式 |
与miniprofile匹配 |
与微型配置文件不匹配 |
图形视图 |
置信水平:(0) |
置信水平:(-1) |
简单视图 |
置信水平:(0) |
置信水平:(-1) |
文本视图 |
置信水平:(0) |
置信水平:(-1) |
美国金融服务贸易协会 |
(0) |
(-1) |
表 |
(0) |
(-1) |
比赛选手 |
/ |
/ |
有关迷你配置文件的详细信息,请参阅“这个PROSITE 20年".
输出选项
显示的最大匹配数
输出中可以显示的不同匹配蛋白质的最大数量。默认情况下,此数字设置为10'000。如果您选择10万,结果将不会显示在您的web浏览器中,作为防止发送到浏览器的数据太多,您将不得不提交一个电子邮件地址,以便通过电子邮件将结果发送给您。
检索完整序列
将完整的蛋白质序列添加到每个匹配蛋白质的显示信息中。此选项将输出格式的选择限制为“简单视图”、“文本”、“FASTA”和“表格”;它还限制了显示的匹配项为“到1000。注:对于输出格式“FASTA”和“Table”,完整的蛋白质序列替换匹配的序列,每个匹配的序列只命中一次表示序列。
电子邮件和职务
通过电子邮件返回的结果将输出格式的选择限制为“文本”、“FASTA”、“表格”和“匹配列表”。如果选择的“最大显示匹配数”为1000,则必须通过电子邮件发送结果,然后需要有效的电子邮件地址。在其他情况下,ScanProsite会忽略您在电子邮件文本框中输入的内容,除非它是有效的电子邮件地址。
职位名称:如果您输入了有效的电子邮件地址并填写了此字段,“职务”将显示在电子邮件主题中你得到了那份工作。
编程访问:REST web服务
REST简介
REST:再现状态传输
REST最初指的是架构原则的集合,但现在这个缩写词经常被用来描述任何简单的基于web的通过HTTP使用XML(或YAML、JSON、纯文本)进行编程访问的接口,无需额外抽象基于MEP的方法比如web服务SOAP协议。不带任何信封的“裸”数据被检索为HTTP查询响应的内容。要执行的操作的选项是HTTP查询参数的一部分,目标URL表示正在访问的资源。REST(休息)哲学还意味着使用HTTP“动词”(PUT、GET、POST、DELETE)执行不同的操作(分别是:创建、,读取、更新、删除)。有关REST的更多信息,请参阅维基百科REST文章.
对于ScanProsite,由于它是一个扫描工具,一些资源由用户提供(序列或/和模式);尽量减少数量对于所需的查询/简化系统,该服务没有完全遵循上述REST原则(即例如普廷首先是服务器上的用户资源,然后获取扫描结果)。相反,用户直接POST/GET所有数据以获得扫描结果在响应中(n.b.direct系统;无票证/作业id:增加复杂查询的连接超时)。
注释:在ScanProsite服务中,POST不用于更新数据,但与GET一样,仅用于(传递输入数据和参数以及)读取扫描结果数据。
ScanProsite的REST用法
对服务进行HTTP GET或POST查询;检索HTTP响应内容中的扫描输出数据(XML或JSON格式)。
例如(GET)只查询:https://prosite.expasy.org/cgi-bin/prosite/scanprosite/PSScan.cgi?seq=ENTK_HUMAN&output=xml
服务url: https://prosite.expasy.org/cgi-bin/prosite/scanprosite/PSScan.cgi
参数:
GET或POST参数(名称、描述):
姓名 |
ScanProsite格式的通信) |
描述 |
序列 |
提交蛋白质序列
|
要扫描的序列:UniProtKB访问,例如P98073或标识符,例如ENTK_HUMAN*或PDB标识符,例如。4DGJ或FASTA格式的序列。 不要重复参数;可以通过用新行(url中的%0A)分隔多个序列来指定它们。 “seq”优先于“db”,也就是说,如果同时指定了这两个参数,“db“将被忽略。
*对于UniProtKB/TrEMBL材料和标识符,只有属于参考蛋白质组的条目是认可的。
违约:seq=“”(空)
示例:
|
数据库 |
选择蛋白质序列数据库
|
针对全蛋白数据库扫描基序的目标蛋白质数据库:“sp”(UniProtKB/Swiss-Prot)或“tr”(UniProtKB/TrEMBL参考蛋白质组序列)或“pdb”(pdb)。 “seq”优先于“db”,也就是说,如果同时指定了这两个参数,“db“将被忽略。
违约:db=sp(如果未指定“seq”和“db”,则对UniProKB/Swiss-Prot执行扫描)
示例:
|
varsplic公司 |
包括异构体
|
如果启用(varsplic=1):包括UniProtKB/Swiss-Prot拼接变体。 仅与针对UniProtKB/Swiss Prot的扫描相关。
违约:varsplic=0(关闭,不扫描UniProtKB/Swiss-Prot拼接变体)
示例:
|
信号 |
输入MOTIF或MOTIFS组合
|
要扫描的主题:PROSITE登录,例如PS50240或标识符,例如TRYPSIN_DOM或您自己的模式,例如。P-x(2)-G-E-S-G(2)-[AS]。也可以使用图案的组合。 如果未指定,则使用所有PROSITE图案。 不要重复参数;可以通过新行分隔多个图案(url中为%0A)。
违约:sig=“”(空)
示例:
|
血统 |
过滤器
|
任何分类术语,例如“智人”,例如“真菌%3节肢动物”或相应术语NCBI税号例如9606,例如“4751%3B6656” 用“%3B”分隔多个术语。 仅适用于针对UniProtKB/Swiss-Prot和UniProtKB/TrEMBL的扫描。
违约:沿袭=“”(空)
示例:
|
最大x |
扫描序列中可以由模式中的保守位置匹配的X个字符数
|
扫描序列中可以与模式中的保守位置匹配的X个字符的数量。 只有定义了“sig”并且是模式时才相关。
违约:max_x=0(扫描序列中没有可以与模式中的保守位置匹配的x字符) |
输出 |
输出格式
|
txt、xml、json、nice、html、plain、fasta、tabular、list
违约:输出=普通
示例:
|
跳过 |
排除扫描中出现概率高的图案
|
如果启用(已定义、非空、非零):排除出现概率高的图案。 只有在定义了“seq”而未定义“sig”时才相关,即针对所有PROSITE基序扫描特定序列。
违约:skip=1(on,PROSITE基序出现概率高,不在扫描范围内)
示例:
|
低得分 |
以高灵敏度运行扫描(显示配置文件的弱匹配)
|
如果启用(lowscore=1):显示低级别分数的匹配项。 仅与PROSITE配置文件相关。
违约:lowscore=0(关闭,PROSITE配置文件以0级截止线扫描)
示例:
|
无配置文件 |
从扫描中排除配置文件
|
如果启用(noprofile=1):不扫描配置文件。 只有在定义了“seq”而没有定义“sig”的情况下才有效,即对所有PROSITE基序的特定序列进行扫描。
违约:noprofile=0(关闭,PROSITE配置文件包含在扫描中)
示例:
|
小人物 |
每个匹配序列的最小点击数
|
每个匹配序列的最小点击数。 只有在定义了“sig”和“db”的情况下才有效,即根据特定的基序扫描蛋白质数据库。
违约:minhits=1(结果中报告了一个或多个匹配的扫描序列)
示例:
|