跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
BMC生物信息学。2005; 6: 249.
2005年10月13日在线发布。 数字对象标识:10.1186/1471-2105-6-249
预防性维修识别码:PMC1276010项目
PMID:16221310

SPdb–信号肽数据库

摘要

背景

信号肽在原核细胞和真核细胞的蛋白质靶向和蛋白质移位中起着重要作用。这种短暂的短肽序列的功能类似于信封上的邮政地址,它将蛋白质作为靶向,以便分泌或转移到特定的细胞器进行进一步处理。了解信号肽的功能对于预测蛋白质的易位位置至关重要。为了支持这一理解,我们提出了SPdb信号肽数据库网址:http://proline.bic.nus.edu.sg/spdb,一个实验确定和计算预测的信号肽库。

结果

SPdb整合了两个来源的信息:(a)Swiss-Prot蛋白质序列数据库,该数据库现在是UniProt的一部分;(b)EMBL核苷酸序列数据库。数据库更新是半自动化的,人工检查和验证数据,以确保存储的数据的正确性。最新版本SPdb 3.2包含18146个条目,其中2584个条目是经过实验验证的信号序列;剩余的15562个条目要么是不符合我们的滤波标准的信号序列,要么是包含未经验证的信号序列的条目。

结论

SPdb是一个人工管理的数据库,用于支持对信号肽的理解和分析。SPdb跟踪两个基础主数据库的主要更新,从而确保其信息保持最新。

背景

Günter Blobel发现“蛋白质具有内在信号,控制其在细胞中的运输和定位”[1]. 核糖体(细胞质或粗面内质网)、线粒体或叶绿体合成的蛋白质被转运到其功能部位。这一过程被称为蛋白质靶向,它依赖靶向信号将蛋白质导向其特定位置。

有许多不同类别的目标信号。其中一种常见的信号是由短而短暂的肽(称为信号肽或先导序列)形成的,这些肽通常位于分泌蛋白的氨基末端。信号肽存在于原核细胞和真核细胞中,表明其古老的普遍起源。它们的功能类似于信封上的邮政地址标签,将蛋白质作为分泌的目标,或将蛋白质定位到特定的细胞器进行进一步处理。信号肽在到达目标位置时被切割并降解。有趣的是,并非所有蛋白质都具有信号肽[2,]这表明存在其他蛋白质靶向机制。

多年来,一些预测工具[4-10]已开发用于预测信号肽的裂解位点。这些预测工具需要训练和测试数据集。作为预测工作的准备步骤,研究人员通常花费大量时间筛选主要数据库,如Swiss-Prot[11]、EMBL[12]以及其他数据库来整理和构建自己的数据集。这种重复的过程可以也应该通过创建信号肽序列的集中存储库来消除。

通过流行搜索引擎搜索并查看核酸研究数据库列表[13]揭示了几个提供蛋白质亚细胞定位信息的数据库[14,15],核蛋白[16]和分泌蛋白[17]. 除SPD外,这些数据库不提供信号肽特定信息[17]. SPD或分泌蛋白数据库[17]是来自人类、小鼠和大鼠蛋白质组的蛋白质集合,源自TrEMBL等数据库[18]、合奏[19]和Refseq[20]. 它还包括来自分泌蛋白发现计划(SPDI)的数据集[21]这是一项大规模的工作,旨在鉴定新的人类分泌和跨膜蛋白;Riken小鼠分泌组和其他七个相关数据集[22]. SPD的目标是成为分泌蛋白的综合存储库,但它所提供的数据集可能仍然包含来自其底层数据源(例如TrEMBL)的许多错误注释,因此受到了影响。TrEMBL-是由自动管道生成的,尚未进行手动管理。此外,未根据出版物手动检查SPD中的条目。然后,还有一个问题是数据集没有更新。

除了提供可下载数据集的SPD之外,还有一些站点提供可下载的数据集,即SignalP数据集(1997)[10,23]以及Meene使用的数据集(2000年). [24,25]在他们对信号肽预测方法的评估中。最近,有一个由270种分泌的重组人蛋白组成的数据集,这些蛋白具有来自Zhang和Henzel的实验确定的切割位点[26,27]. 这些数据集通常要么大小有限,要么缺乏用于查询数据集的工具。此外,这些数据集虽然有价值,但往往已经过时[28]尤其是当GenBank/EBL、Swiss Prot和其他可公开访问的主数据库继续大量产生新的条目或序列时。

许多研究人员在获取最新数据时面临着类似的障碍,方法开发人员不允许公众获取这些数据[29,30]因此,我们坚信,迫切需要提供一个可公开访问、手动管理和定期更新的专门用于信号肽的数据库。这些数据集不仅对预测工作很重要,而且还将作为研究人员在对其他方法或程序进行基准测试时所需的通用数据集,没有这些数据集,我们认为很难对众多预测方法进行适当或公平的基准测试。

结构和内容

数据库的建设与实施

认识到需要一个精心策划、专业化和最新的数据库,我们开发了一个复合信号肽数据库SPdb[31]这为研究人员提供了一个放置信号肽注释的奇点。SPdb集成了Swiss-Prot(UniProt的一部分)的信息[18]和EMBL。当Swiss-Prot的主要版本发布时,它会进行更新。SPdb于2004年5月首次发布,最近升级到3.2版,以添加新功能并与其基础数据源的发布同步。

SPdb是使用MySQL数据库管理系统构建的关系数据库[32]并使用PERL/CGI[33]用于处理web表单。建立了一个易于导航的web界面,允许用户在数据库中进行搜索。一些网络功能是为了响应一些用户的请求而添加的,这些用户自我们的数据库创建以来就一直在使用我们的数据库。通过web界面,用户可以将返回的结果下载为FASTA格式的文件或以HTML网页形式查看结果。我们还提供了从搜索页面到Swiss-Prot ID跟踪器的链接,以验证条目是否已重命名,例如来自Zhang和Henzel数据集的ANL3_HUMAN[27],即现在的ANGL3_HUMAN。

我们部署了生物信息学管道,如所示(图(图1)1)构建SPdb。构建数据库的管道是半自动化的,带有特定的检查点,用于手动检查结果,以尽量减少数据库中的错误。

保存图片、插图等的外部文件。对象名为1471-2105-6-249-1.jpg

SPdb施工管线示意图。

施工方法

使用尼尔森提出的数据提取和冗余减少方法,对从Swiss-Prot获得的信号序列和编码序列(未考虑TrEMBL条目)进行初步过滤. [34]要将数据集分为两组(a)初步过滤设置和(b)未验证序列设置。泰国尼尔森公司. [34]已采用方法生成SignalP中使用的训练和测试数据[10,35]. 我们调整并省略了该方法提出的一些标准,因为我们的目标是建立一个具有尽可能多的相关和准确条目的信号肽库。我们发现,所提出的方法在过滤过程中仍然会出现许多不希望出现的条目。因此,我们在所提出方法的基础上构建了SPdb[34]并使用我们自己的标准和过滤规则对其进行了改进。

特征表FT字段中显示SIGNAL关键字的任何条目[36]瑞士Prot的条目被推测包含关于信号序列的信息。这个简单的选择过程产生了170140个Swiss-Prot条目中的18146个条目(版本46.1)。包含不确定性的条目,即带有诸如PROBABLE、POTENTIAL、BY SIMILARITY、HYPOTHETICAL等注释的条目,以及具有不明确裂解或信号肽位置的条目被标记为未验证序列然后,将信号序列长度小于11的条目降级为未验证序列设置。通常认为信号序列的长度为15至40。此初始步骤从初步过滤设置留下4445个条目。这些条目包括I型信号肽、II型信号肽(脂蛋白)和含TAT的信号肽。使用SIGNAL关键字,线粒体和叶绿体转运肽被排除在初步设置因为转运肽是由Swiss-Prot中的transit关键字标识的。

我们开始整合EMBL数据库中的信息。通过整合补充信息,除了提供Swiss-Prot中没有的额外信息外,我们还可以使用EMBL中的信息与Swiss-Pro进行交叉检查,从而发现错误的注释。使用其他数据源的补充信息的这种做法在数据评估中很有用[37].

EMBL数据库的第一个交叉引用条目用于相应的Swiss-Prot条目。基于发布说明中的EMBL数据分类[38],只考虑了来自真菌、人类、无脊椎动物、小鼠、细胞器、噬菌体、植物、原核生物、啮齿动物、病毒、哺乳动物和脊椎动物等数据组的序列。属于数据组的条目表达了序列标签、基因组调查序列、高通量基因组序列、由高通量测序生成的未完成DNA序列、专利序列、合成序列、连续序列和未分类的序列被省略。我们从EMBL中提取了相关注释,包括编码序列、信号序列及其长度、亚细胞位置、作者注释等。

注释,特别是sig_区域杂项在随后的步骤中,使用EMBL条目中的字段对初步过滤条目。该步骤再次过滤出许多不一致的条目,其中位置被任一来源错误引用,例如[Swiss-Prot:CD166_CHICK],其中Swiss-Pro引用了33的解理位置,而EMBL提供了32。因此,又删除了866个条目,在这个新筛选的条目中保留了3579个条目Swiss-Prot/EMBL公司设置。必须注意的是,在Swiss-Prot/EMBL公司设置时没有任何EMBL参考,例如[Swiss-Prot:APOE_CAVPO];或者EMBL条目中注释不足,例如[Swish Prot:17KD_RICAU];或其EMBL交叉引用用注释表示,如NOT_ANNOTATED_CDS,例如[Swiss-Prot:2B31_HUMAN],ALT_TERM,例如[Swiss-Prot:CD1E_HUMAN]ALT_INIT,例如[Swiss-Prot1A03_PANTR]和ALT_SEQ,例如[瑞士-Prot:17KD_RICPR]。在这些情况下,所有这些条目都被指定用于人工管理。这些术语“NOT_ANNOTATED_CDS”、“ALT_TERM”等称为状态标识符并且在Swiss Prot条目中的DR字段中可以找到它们。读者可以参考Swiss-Prot手册中的详细解释[39].

在此步骤之后Swiss-Prot/EMBL公司根据引用的发布手动检查集合。我们在Swiss-Prot注释和随附论文之间找到了许多在信号肽裂解位点上存在差异的条目,例如[Swiss-Prop:CECC_DROME,Swiss-Prod:AMCY_PARVE]。我们无法访问随附论文的条目,例如[Swiss-Prot:ZEAL_MAIZE]或我们无法在论文中找到其解理位点信息的条目,如[Swiss-Prot:GUX1_TRIRE];除了标签不充分或位置信息不一致的条目外,这些条目都被归入未验证序列设置。在这个手动管理步骤中,我们从Swiss-Prot/EMBL公司一组3579个条目。这995个条目是以下条目:(a)瑞士普罗特和引用的论文提供了相同的假定立场;(b)我们发现瑞士普罗特引用的立场与引用的论文不同;(c)我们无法访问引用的订阅论文或引用的论文是旧的,在某些情况下,没有论文或没有引用相关论文(d),我们无法找到或定位解理位点信息(表(表11).

表1

在手动管理步骤中过滤出的信号序列的分布

描述条目/序列数
瑞士保险公司及其附属报纸引用了相同的假定立场311
Swiss-Prot和随附的论文引用了不同的立场;
引用的立场可能是确定的或假定的
100
未提供参考文献或相关参考文献;
无法访问某些仅限订阅的论文;
无法访问一些非常旧的文件
194
无法从文件中找到或获取位置信息390
总计995

数据库内容

过滤和手动管理条目的结果最终导致SPdb 3.2版的最新版本,共有18146个信号序列条目,其中2584个是过滤序列(表(表2)。2). 这些过滤序列,称为过滤后的序列集合包括成熟的内源性蛋白质,这些蛋白质在其N末端测序,并与随附的参考文献进行了核对,将其视为实验验证的位置。剩余的15562未验证序列包含假定的或实验上未验证的解理位点信号序列。这个未经核实集合还包含带有错误数据库注释的条目。值得注意的是未经核实集合可能包含一些经过实验验证的信号序列,因为我们可能无法访问随附的论文。

表2

根据古菌(AR)、细菌(BA)、病毒(VR)和真核生物(EU)在SPdb中的信号序列分布。

应收账文学士欧盟虚拟现实小计
已验证序列75401,945922,584
未验证序列1013,52811,23969415,562
总计1084,06813,18478618,146

由于整合了两个主要数据库,SPdb包含四个数据组,即古生菌、细菌、真核生物和病毒(表(表2)。2). SPdb提供关键提取信息(图(图2)2)如生物体来源、细胞器、亚细胞定位等伴随重要注释。对于完整注释,提供了到原始数据库的交叉引用链接。如果有此类信息,则明确标记信号肽裂解位点。信号肽序列和30个残基[40]按照RasMol氨基酸配色方案规定的惯例对切割位点进行颜色编码[41]这是基于传统氨基酸的特性。在手动整理3579个条目的过程中,我们为后来从该数据集中删除的995个条目添加了自己的注释。

保存图片、插图等的外部文件。对象名为1471-2105-6-249-2.jpg

SPdb条目信息包括蛋白质的简短描述、亲水性图和氨基酸属性等。(A) 每个条目都标记为已验证或未验证,并带有(B)“报告错误”链接,供用户通知我们与条目相关的任何错误或更新信息,以供我们更正/更新。(C) 用户可以将其信号序列存放在我们这里,并添加自己的注释。

实用程序和讨论

SPdb为用户提供了一个易于使用的web界面,用户可以灵活地选择一个条目或一组符合用户标准的条目,如有机体名称、数据组、信号序列长度、关键字搜索,更重要的是,还可以选择是否包含某些条目。我们采用的方法允许用户省略或过滤任何序列,因为每个用户可能对返回的结果有不同的要求。每个条目都将显示是否经过验证(图(图22).

在创建SPdb的过程中,我们意识到,尽管Swiss-Prot提供了更好的质量注释,但当我们比较Swiss-Pro与EMBL报告的信号序列的位置或长度时,它仍然包含错误或冲突的注释,例如[Swiss-Prop:A2AP_HUMAN,Swiss-Prod:BTD_HUMAN]。我们注意到,当存在多个引用时,通常会出现不一致。参考文件可能引用了不同的立场,因此这可能导致混淆。为了帮助解决这个问题,我们合并了来自-EMBL的注释,并成功地识别和过滤了许多这样的条目。EMBL中发现的信号肽注释大多是准确的,尽管也有错误报告信息的情况,例如[EMBL:M19077型]在[瑞士保护:CHR1_BOMO]中。在这方面,我们在每个条目中都包含了一个链接,以便用户在SPdb中遇到任何错误或差异时向我们报告。

除了刚才描述的错误和不一致之外,还有期刊出版物的实验支持问题。许多在信号序列位置或长度上有注释的条目被预测或认为是推定的或潜在的(表(表1)1)当研究人员在论文中报告他们的立场时。尽管如此,在Swiss-Prot条目中,这些条目并没有像之前假设的那样,使用POTENTIAL、BY SIMILARITY和PROBABLE等单词进行标记。我们了解到,许多参考论文使用预测或序列比对软件来识别或建议信号序列的裂解位点。因此,我们认为,如果在相关字段中也注明论文的参考文献,这样条目的任何用户都可以很容易地检查和阅读提到信号肽或任何其他特征的论文,这将是更合适和有用的。

所有这些问题使得SPdb的自动化建设非常困难,即使不是遥不可及。在手动整理条目之前,我们考虑过使用文本挖掘方法,但当我们发现许多摘要不包含解理位点信息,而信息是在论文正文中发现的,通常位于结果或讨论部分下时,我们最终放弃了这种方法。此外,用于表示位置信息的单词或短语也各不相同,很难作为提取规则来表达,例如在论文中[42]在条目[Swiss-Prot:PRRP_BOVIN]中引用,我们遇到了这样一句话“……其N末端部分在Ser-23之前显示了分泌信号肽的典型轮廓……”。还有一个问题是,许多论文都需要订阅,除非我们能够获得这些论文,否则提取程序将毫无用处。除非未来提交的每一篇论文都对所描述的蛋白质的特征进行了简短的说明,并提高了文本识别的准确性,否则我们将不得不求助于人工管理。

在SPdb中,数据集分为过滤后的序列未验证序列通过将条目分为这两类,研究人员可以将其用于机器学习方法的工作中,在这种方法中,数据集被用作信号肽裂解位点预测的训练和测试集。

除了便于测试数据集外,SPdb还提供了其他信息,如蛋白质的氨基酸组成,这些信息被认为与蛋白质的亚细胞定位相关[43]; 氨基酸残基性质(芳香族、非极性、极性、带电等)以图形形式显示,以直观地指示哪些残基具有这些性质;每个条目还附有基于Kyte和Doolittle的亲水图[44]斯威特和艾森伯格[45],艾森伯格. [46]信号序列和信号序列分裂下游的序列。在EMBOSS的计算分析包中,使用pepinfo绘制曲线图[47],一个用于序列分析的开源软件套件。每个信号肽在序列水平上表现出三个不同的区域:n区域(正电荷区)h区域(疏水区域)和c区(极地和中性区)[9]. 水疗图有助于可视化和识别这些区域。

德吉尔. [48]表明信号识别粒子(SRP)对信号肽的处理需要序列下游的特定上下文线索。当新生的多肽链由核糖体合成时,SRP与N末端信号或信号锚定序列结合,最多约60个氨基酸残基。在这个长度上,这个片段很容易被暴露出来,当SRP从新生链中分离出来时,翻译将恢复。为了捕获共翻译易位机制的这一信息,SPdb包括信号肽序列和切割位点后的30个残基。

对于未来的发布,我们希望包括其他可能有用的信息,例如根据目标目的地对信号肽进行功能分类,以及各种生物体的信号肽图谱等。由于不同靶向的细胞器或位置在信号肽靶蛋白的一般主题上有差异,我们希望将这些不同的靶向信号纳入比较和研究。关于缺乏可裂解信号肽的分泌蛋白[49]例如卵清蛋白,一种分泌的糖蛋白和蛋清中的主要蛋白质,不含可裂解的信号肽[50],我们希望包括这些信息,并分析它们与具有可裂解信号肽的蛋白质的区别。

结论

信号肽在分泌蛋白的转运中起着重要作用。对信号肽识别和靶向、转运和转位机制的理解将在药物设计和医学领域释放出许多应用。我们提供了一个可自由访问的、手动管理的信号肽数据库,该数据库定期更新,并与两个主要数据库Swiss-Prot和EMBL的发布同步。通过整合这两个数据库的信息,SPdb能够消除一些差异,并将序列条目中发现的错误降至最低,从而提供质量更好的可下载数据集,供研究社区用于预测工作和其他研究。

可用性和要求

SPdb可通过网站免费访问网址:http://proline.bic.nus.edu.sg/spdb。我们提供了一个专用页面,允许用户根据用户可用的特定标准完整下载数据集。

作者的贡献

KHC构建了数据库管道和web界面。SR开发了信号肽项目,并就数据库的特点提供了意见和建议,而TWT则为数据库设计和手稿提供了帮助。

致谢

我们要感谢Vivek Gopalan(在NUS生物化学系)和匿名评论员的意见和建议。我们也感谢那些给我们发邮件提供支持、鼓励和评论的用户。

工具书类


文章来自BMC生物信息学由以下人员提供BMC公司