摘要

InterProScan[E.M.Zdobnov和R.Apweiler(2001)生物信息学,17,847–848]是一个结合了InterPro不同蛋白质特征识别方法的工具[N.J.Mulder,R.Apweiler,T.K.Attwood,a.Bairoch,a.Bateman,D.Binns,P.Bradley,P.Bork,P.Bucher,L.Cerutti. (2005)核酸研究.,33,D201–D205]联盟成员数据库整合到一个资源中。在撰写本文时,应用程序中有10个不同的公开可用数据库。可以分析蛋白质和DNA序列。学术和商业组织可从EBI访问基于web的版本(http://www.ebi.ac.uk/InterProScan/). 此外,独立的Perl版本和SOAP Web服务[J.Snell、D.Tidwell和P.Kulchenko(2001)]使用SOAP编程Web服务,第1版O'Reilly Publishers,加利福尼亚州塞巴斯托波尔,http://www.w3.org/TR/soap/]用户也可以使用。支持各种输出格式,包括文本表、XML文档以及各种图形,以帮助解释结果。

简介

在进行蛋白质序列分析时,目的是尽可能多地了解与其他序列的潜在关系以及表征其理化性质。第一步通常包括使用Blast将蛋白质序列与非冗余蛋白质序列数据库进行比较(1)或Fasta(2),这将显示哪些序列仅与查询序列相似。为了获得关于蛋白质特定功能的更多信息,需要对二级数据库(也称为模式或特征数据库)进行搜索。当这样的搜索返回重要的匹配或点击时,这些结果有助于为查询蛋白分配特定的功能或功能域。InterPro公司(http://www.ebi.ac.uk/interpro) (3)创建数据库是为了合并包含蛋白质家族、结构域和功能位点重叠信息的二级数据库(表1). InterPro条目根据蛋白质家族或签名所代表的域划分为组。如果一个蛋白质家族的结构和功能得到了很好的表征,那么对二级数据库的搜索为推断生物功能提供了一条快速通道。针对每个数据库进行单独搜索以获取最多信息是重复的、耗时的和劳动密集型的。要使用新的蛋白质序列搜索InterPro,需要使用工具InterProScan(4),已开发(http://www.ebi.ac.uk/InterProScan)将InterPro成员数据库的蛋白质功能识别方法结合到一个应用程序中。自创建以来,已有多个版本对其进行了改进,为系统添加了功能和新数据库。

InterProScan工具

这里,我们描述了EBI网站上基于web浏览器的InterProScan版本的使用http://www.ebi.ac.uk/InterProScan(图1). 这项服务对所有学术和商业组织都是免费的,并提供交互式以及电子邮件提交工作。直接电子邮件提交应发送至interproscan@ebi.ac.uk。向上述地址发送邮件时,如果邮件正文中包含“help”一词,则可以使用说明和文档。需要高吞吐量使用应用程序或希望使用其他数据库进行分析的用户可以从下载独立版本ftp://ftp.ebi.ac.uk/pub/databases/interpro/iprscan。需要对InterProScan进行编程访问的用户可以使用名为WSInterProScan-SOAP的基于SOAP的Web服务进行访问(5),在http://www.ebi.ac.uk/Tools/webservices/WSInterProScan.html网站所有这些都利用了InterProScan 4.0版的集中维护核心版本。

作业输入表单

输入表单的第一部分包括用户的电子邮件地址以及如何显示结果。用户在使用InterProScan提交表单时需要决定的第一件事(图1)是他/她希望看到结果的方式。这是通过在RESULTS(结果)菜单上进行选择来实现的。有两个选项可用:“交互式”(作业完成后将结果返回浏览器)和“电子邮件”(将结果返回到您的电子邮件文本对话框中指定的电子邮件)。

下一节有一组复选框,可以选择所有方法,也可以清除所有可用方法。每种方法都可以根据用户的要求进行选择。例如,仅对InterPro条目中描述的信号肽裂解位点或跨膜结构域感兴趣的用户可以单独选择相应的方法。

提交表单的第三部分是特定于DNA的序列输入。DNA序列将根据翻译表菜单中指定的翻译规则翻译成蛋白质。默认为标准代码。每个翻译都将在六个框架中生成肽序列,并将搜索所有肽序列。翻译后生成的开放阅读框的最小长度可以在最小开放阅读框尺寸菜单中指定。这表明只有高于所选值的肽才会被第二部分中选择的方法搜索。

输入表单的第四部分由序列输入面板组成。该面板的组件包括分子类型的选择菜单。这可能是DNA或蛋白质。默认值为蛋白质。选择DNA后,将启用表单第三部分中的翻译表菜单。单击帮助图像可获得帮助。这将打开一个新的浏览器窗口,其中包含有关InterProScan的全面信息。还有一个UPLOAD对话框,可以用来代替在输入窗口中剪切和粘贴序列。最后,还有提交和重置按钮。序列输入文本对话框将接受当今使用的任何标准序列格式的蛋白质或DNA序列。其中包括EMBL、SWISS、GenBank、NBRF/PIR、CODATA、Fasta、GCG和RAW文本。也可以使用数据库中蛋白质序列的主要或次要标识符(登录号或标识符)。在这种情况下,用户将键入数据库名称,后跟冒号和标识符。例如,“UNIPROT:INSR_HUMAN”。不可能同时提交10个以上的蛋白质输入序列。每个蛋白质序列必须至少有五个氨基酸长。一次只能使用一个核酸序列,该序列的长度必须≤5000个碱基。

InterProScan输出

在InterProScan启动每个蛋白质序列分析应用程序之前,它尽可能利用预先计算的结果。它为查询序列计算校验和(CRC64),并将其与名为IPRMATCHES的数据库中存在的蛋白质序列的校验和进行比较。这是一个数据库,列出UniProt/Swiss-Prot和UniProt/TrEMBL中与一个或多个InterPro条目匹配的所有条目。如果为查询序列计算的校验和与IPRMATCHES数据库中发现的任何校验和不匹配,则并行启动蛋白质序列分析应用程序;否则将返回IPRMATCHES条目。

一旦作业完成,每个应用程序的输出将被单独解析,以生成合并的结果文件。此文件采用制表符分隔格式。调用转换器动态生成用于生成HTML输出的XML文档。这包括两个视图:图片或图形视图(图2)显示序列的动画,其中突出显示了与InterPro数据库中的匹配项相对应的域或功能站点。每场比赛都包含指向InterPro数据库主要web资源以及各个成员数据库网站的超文本链接,在这些网站上,比赛将得到进一步描述。表格视图(图3)也可以通过单击“表视图”按钮来访问。这个由完整的数据库名称、超链接的匹配标识符、匹配发生的序列坐标(开始-停止对)、,E类-值和InterPro中匹配的状态(例如,“T”表示true,“?”表示unknown)。如果InterPro条目中存在父子关系,则会显示父子关系。如果可用,也会显示GO注释。HTML结果页面中的其他选项包括制表符分隔格式的原始输出、XML文档和用作输入的序列(原始序列)。每个作业的结果在EBI中存储至少24小时。

InterProScan的独立版本

对于希望自行安装InterProScan的用户,EBI的ftp服务器提供了一个免费的独立版本(ftp://ftp.ebi.ac.uk/pub/databases/interpro/iprscan/RELEASE/最新). 此版本可以从命令行运行,也可以通过web界面作为CGI运行。此版本开发的其他功能包括使用Perl索引库,该库对所有数据文件、输入序列和应用程序结果进行索引,以便轻松查询和检索主标识符、名称、作业结果及其状态。从结果页面,用户可以单独访问每个输入序列或完整的输入文件,还可以访问每个应用程序的原始输出。

InterProScan的独立版本设计为在单个计算机或计算机集群上运行。它支持使用各种排队系统,如LSF、OpenPBS和SGE。

独立版本由三个不同的包组成:

  • Perl核心包,包含运行InterProScan的所有脚本和模块。

  • 数据包,包含每个应用程序运行所需的所有数据(~4GB解压缩)。

  • 针对六种不同平台(Linux、OSF1、AIX、Sun、IRIX和MacOSX)预编译的二进制包。

结论

我们在这里描述了EBI InterProScan服务器的当前状态,以及它的许多独特灵活性,公众可以免费使用。鼓励用户提出问题、意见和建议,并可发送至网址:http://www.ebi.ac.uk/support/.

表1

数据库成员及其应用程序

数据库应用程序
ProDom公司(6)BlastProDom(Blastall)(4)
打印(7)指纹扫描(8)
智能(9)嗯,家庭农场(网址:http://hmmer.wustl.edu/)
TIGRFAM公司(10)嗯,家庭农场(http://hmmer.wustl.edu/)
Pfam公司(11)嗯,家庭农场(http://hmmer.wustl.edu/)
PROSITE公司(12)ScanRegExp+配置文件扫描(13)
PIRSF公司(14)嗯,家庭农场(http://hmmer.wustl.edu/)
超级家族(15)嗯,家庭农场(http://hmmer.wustl.edu/)
CATH公司(16)嗯,家庭农场(http://hmmer.wustl.edu/)
PANTHER公司(17)嗯搜索(http://hmmer.wustl.edu/)
信号PHMM信号PHMM(18)
跨膜TMHMM2.0型(19)
数据库应用程序
ProDom公司(6)BlastProDom(Blastall)(4)
打印(7)指纹扫描(8)
智能(9)嗯,家庭农场(http://hmmer.wustl.edu/)
TIGRFAM(10)嗯,家庭农场(http://hmmer.wustl.edu/)
Pfam公司(11)嗯,家庭农场(http://hmmer.wustl.edu/)
PROSITE公司(12)扫描RegExp+配置文件扫描(13)
皮尔斯夫(14)嗯,家庭农场(http://hmmer.wustl.edu/)
超级家族(15)嗯,家庭农场(http://hmmer.wustl.edu/)
CATH公司(16)嗯,家庭农场(http://hmmer.wustl.edu/)
PANTHER公司(17)嗯搜索(http://hmmer.wustl.edu/)
信号PHMM信号PHMM(18)
跨膜TMHMM2.0型(19)
表1

数据库成员及其应用程序

数据库应用程序
ProDom公司(6)BlastProDom(Blastall)(4)
打印(7)指纹扫描(8)
智能(9)嗯,家庭农场(http://hmmer.wustl.edu/)
TIGRFAM(10)嗯,家庭农场(http://hmmer.wustl.edu/)
Pfam公司(11)嗯,家庭农场(http://hmmer.wustl.edu/)
PROSITE公司(12)ScanRegExp+配置文件扫描(13)
PIRSF公司(14)嗯,家庭农场(http://hmmer.wustl.edu/)
超级家族(15)嗯,家庭农场(网址:http://hmmer.wustl.edu/)
阴极(16)嗯,家庭农场(http://hmmer.wustl.edu/)
PANTHER公司(17)嗯搜索(http://hmmer.wustl.edu/)
信号PHMM信号PHMM(18)
跨膜TMHMM2.0型(19)
数据库应用程序
ProDom公司(6)BlastProDom(Blastall)(4)
打印(7)指纹扫描(8)
智能(9)嗯,家庭农场(http://hmmer.wustl.edu/)
TIGRFAM(10)嗯,家庭农场(http://hmmer.wustl.edu/)
Pfam公司(11)嗯嗯(http://hmmer.wustl.edu/)
PROSITE公司(12)ScanRegExp+配置文件扫描(13)
PIRSF公司(14)嗯,家庭农场(http://hmmer.wustl.edu/)
超级家族(15)嗯,家庭农场(http://hmmer.wustl.edu/)
CATH公司(16)嗯,家庭农场(http://hmmer.wustl.edu/)
PANTHER公司(17)嗯搜索(http://hmmer.wustl.edu/)
信号PHMM信号PHMM(18)
跨膜TMHMM2.0毫米(19)

图1

EBI的InterProScan作业提交页面。

图2

InterProScan图形结果视图。

图3

InterProScan表格结果视图。

InterPro的资金来源于欧盟授予的赠款QLRI-CT-2000-00517,部分资金来源于RTD项目“生活质量和生活资源管理”下的欧盟赠款QLRI-CT-2001000015。InterPro是MRC资助的eFamily项目的成员数据库。欧洲分子生物学实验室(EMBL)为支付本文的开放获取出版费用提供了资金。

利益冲突声明。未声明。

参考文献

1

Altschul,S.F.,Madden,T.L.,Schaffer,A.A.,Zhang,J.,Z.,Miller,W.,Lipman,D.J。

1997
Gapped Blast和Psi-Blast:新一代蛋白质数据库搜索程序
核酸研究。
25
3389
–3402

2

皮尔逊,W.R.和利普曼,D.J。

1988
改进的生物序列分析工具
程序。美国国家科学院。科学。美国
85
2444
–2448

3

Mulder,N.J.、Apweiler,R.、Attwood,T.K.、Bairoch,A.、Bateman,A.、Binns,D.、Bradley,P.、Bork,P.,Bucher,P.和Cerutti,L.等人。

2005
InterPro,2005年的进展和状态
核酸研究。
33
D201型
–D205

4

Zdobnov,E.M.和Apweiler,R。

2001
InterProScan—一个用于InterPro中签名再识别方法的集成平台
生物信息学
17
847
–848

5

斯内尔,J.,蒂德维尔,D.,库尔琴科,P。

使用SOAP编程Web服务,第1版
2001
加州塞巴斯托波尔O'Reilly&Associates

6

Bru,C.、Courcelle,E.、Carrère,S.、Beausse,Y.、Dalmar,S.和Kahn,D。

2005
蛋白质结构域家族的ProDom数据库:更加强调3D
核酸研究。
33
2012年2月
–2015年2月

7

Attwood,T.K.,Bradley,P.,Flower,D.R.,Gaulton,A.,Maudling,N.,Mitchell,A.L.,Moulton,G.,Nordle,A.,Paine,K.,Taylor,P.等人。

2003
PRINTS及其自动补充,prePRINTS
核酸研究。
31
400
–402

8

Scordis,P.,Flower,D.R.,Attwood,T.K。

1999
指纹扫描:智能搜索指纹图案数据库
生物信息学
15
799
–806

9

Letunic,I.、Goodstadt,L.、Dickens,N.J.、Doerks,T.、Schultz,J.、Mott,R.、Ciccarelli,F.、Copley,R.R.、Ponting,C.P.、Bork,P。

2002
基于SMART域的序列注释资源的最新改进
核酸研究。
30
242
–244

10

Haft,D.H.,Selengut,J.D.,White,O。

2003
蛋白质家族的TIGRFAMs数据库
核酸研究。
31
371
–373

11

Bateman,A.,Coin,L.,Durbin,R.,Finn,R.D.,Hollich,V.,Griffiths-Jones,S,Khanna,A.,Marshall,M.,Moxon,S.,Sonnhammer,E.L.等人。

2004
Pfam蛋白质家族数据库
核酸研究。
32
D138号
–D141

12

Hulo,N.、Sigrist,C.J.、Le Saux,V.、Langendijk-Genevaux,P.S.、Bordoli,L.、Gattiker,A.、De Castro,E.、Bucher,P.、Bairoch,A。

2004
PROSITE数据库的最新改进
核酸研究。
32
第134天
–D137

13

汤普森,J.D.,希金斯,D.G.,吉布森,T.J。

1994
通过使用序列权重和间隙消除提高了轮廓搜索的灵敏度
计算。申请。Biosci公司。
10
19
–29

14

Wu,C.H.,Nikolskaya,A.,Huang,H.,Yeh,L.S.,Natale,D.A.,Vinayaka,C.R.,Hu,Z.Z.,Mazumder,R.,Kumar,S.,Kourtesis,P.等人。

2004
PIRSF:蛋白质信息资源的家族分类系统
核酸研究。
32
第112页
–D114

15

Gough,J.、Karplus,K.、Hughey,R.、Chothia,C。

2001
使用代表所有已知结构蛋白质的隐马尔可夫模型库分配基因组序列的同源性
分子生物学杂志。
313
903
–919

16

Pearl,F.M.,Lee,D.,Bray,J.E.,Sillitoe,I.,Todd,A.E.,Harrison,A.P.,Thornton,J.M.,Orengo,C.A。

2000
为CATH分配基因组序列
核酸研究。
28
277
–282

17

Mi,H.,Lazareva-Ulitsky,B.,Loo,R.,Kejariwal,A.,Vandergriff,J.,Rabkin,S.,Guo,N.,Muruganujan,A.,Doremieux,O.,Campbell,M.J.等人。

2005
蛋白质家族、亚家族、功能和途径的PANTHER数据库
核酸研究。
33
第284页
–D288型

18

J.D.本特森、H.尼尔森、G.冯·海因、S.布鲁纳克。

2004
改进的信号肽预测:SignalP 3.0
分子生物学杂志。
340
783
–795

19

Sonnhammer,E.L.,von Heijne,G.,Krogh,A。

1998
预测蛋白质序列跨膜螺旋的隐马尔可夫模型
程序。国际竞争情报。系统。分子生物学。
6
175
–182

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看更多通知。