跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
数据库(牛津)。2011; 2011年:bar019。
2011年5月13日在线发布。 数字对象标识:10.1093/数据库/bar019
PMCID公司:项目经理3096321
PMID:21571812

实验衍生的进化保守翻译后修饰对多个基因组的自动注释

摘要

新一代测序技术已导致完整基因组数量显著增加。由于难以扩大现有实验技术的规模,通过高通量蛋白质组学等方法对这些基因组进行功能表征是一项重要但具有挑战性的任务。通过使用比较基因组学技术,可以将实验结果从一个基因组转移到另一个基因组,同时通过需要在多个基因组中发现来最小化错误。在这项研究中,蛋白质磷酸化是许多细胞过程的一个重要组成部分,利用磷酸化蛋白质组的大规模蛋白质组学分析数据进行研究。磷酸化位点来自智人,小家鼠黑腹果蝇磷酸肽数据集被映射到NCBI人工管理的保守域数据库(CDD)中的保守域。在这个亚群中,发现研究的三个物种之间有25个磷酸化位点在进化上保守。将这些保守位点的磷酸化注释转移到共享相同保守结构域的序列上,得到3253个来自体腔动物的蛋白质的磷酸化位点注释,体腔动物是一个跨物种的分类学分支智人,小MD.黑腹果蝇该方法可自动缩放,因此随着实验磷酸化蛋白质组学数据量的增加,可能会显示出更保守的磷酸化位点。

介绍

蛋白质磷酸化是一种共价翻译后修饰,在许多细胞过程中起着重要作用。许多真核生物蛋白质可以在重要的细胞过程中磷酸化,例如信号传导。几十年来,低吞吐量的生化实验一直被用于识别磷酸化位点,但通过体内与基于质谱的蛋白质组学等高通量方法相比,标记、2D凝胶电泳、抗磷酸抗体和其他方法的效率较低。在过去几年中,这些串联质谱法(1)虽然这些实验的错误率很难估计,但已用于大规模磷酸化位点的鉴定(2). 这些技术利用了IMAC或TiO等分离技术2色谱和气相离子化学,如电子转移离解(ETD)、电子捕获离解(ECD)和/或碰撞诱导离解(CID),允许在单个实验中分析数千个磷酸肽(3–10). MS/MS序列搜索算法(11–19)用于匹配串联质谱数据中的肽序列并识别磷酸化位点。虽然一些算法指定了识别磷酸肽的概率,但其他算法使用位点定位算法(20–22)赋予信心。

这些研究中的蛋白质组学数据越来越多地存储在各种公共存储库中,例如NCBI肽组(23),全球蛋白质组机器数据库(24),分期付款(25),自豪(26),人类蛋白质百科(27)和肽图谱(28). 这些数据的可用性有助于推动磷酸化进化生物学的几项研究(29,30). Boekhorst的真核生物研究等。(29)比较了六个不同物种的磷酸化蛋白质组,得出了物种间磷酸化位点的保守性高于预期的偶然性,表明了功能相关性。直到最近,还很少有证据表明细菌中S/T/Y磷酸化枯草芽孢杆菌(31)和大肠杆菌(32). 研究之前枯草杆菌对于这种模式的革兰氏阳性菌,在8种蛋白质中仅收集到16个磷酸化位点的证据。该研究在78个细胞中发现了103个磷酸化位点枯草杆菌蛋白质,是第一个大规模的细菌磷酸蛋白质组学研究(31). 同一组随后进行了一项关于大肠杆菌并在79个样本中鉴定出105个磷酸化位点大肠杆菌蛋白质(32). 两种细菌磷酸化蛋白质组的比较揭示了磷酸化分布、参与磷酸化的蛋白质类别和14种同源蛋白质的相似性,其中许多蛋白质参与糖酵解(32). 从对一组有限的细菌的初步研究中,作者还得出结论,磷酸化位点比未经修饰的位点更保守(32).

这些高通量蛋白质组学研究的一个问题是缺乏对磷酸化肽内磷酸化位点的验证。例如,研究表明,磷酸基团可以在碰撞诱导解离(CID)过程中重排,增加了磷酸化位点识别的模糊性(33). 此外,如果肽序列有多个可以磷酸化的位点,那么识别匹配的精确位置可能在计算上不明确。我们提出了一种使用高通量数据验证进化上保守的磷酸化位点的方法:如果有证据表明磷酸化位点位于不同的数据集中或来自其他物种的蛋白质中,这些蛋白质在分子进化中密切相关并具有保守功能,则更可能正确识别磷酸化位点。在进化相关物种中发现功能相似的序列需要算法来精确对齐蛋白质序列并检查保守性区域。为了进行分析,我们在NCBI的保护域数据库(CDD)的手动管理子集中使用了域模型。

蛋白质通常共享进化上保守的功能单元和3D结构域。一般来说,较小的蛋白质有1或2个结构域,而较大的蛋白质可能有两个以上的结构域。蛋白质结构域家族及其进化的详细描述可以在其他地方找到(34). 通过比较分析技术,如结构序列比对,然后创建系统发育树,将这些结构域识别并分类为蛋白质家族。这种分类和注释可以包括馆长指定的保守功能位点,包括本文中研究的一些磷酸化位点。

有许多蛋白质家族数据库可用于存储蛋白质结构域和整个蛋白质序列,如Pfam(35),智能(36),中心距(37),客户尽职调查(38). 一般来说,这些数据库是注释的多序列比对的集合,代表进化上保守的域。这些域模型可以使用RPS-BLAST等算法快速自动应用于基因组(39)和HMMER(40). 在我们的分析中,我们依赖于NCBI的保留域数据库中的域模型,这些模型由NCBI和RPS-BLAST算法策划。使用NCBI管理的结构域模型的一个优点是,它们通常将蛋白质结构域划分为功能特定的子家族,这可能与关注整体覆盖的其他结构域数据库(如Pfam)不同。即使在一个生物体内,一个特定的领域家族也可能具有截然不同的功能,尽管它们往往在生物化学上是相关的。每个CDD亚家族都意味着捕获一个已经保存了数亿年的特定功能。一个站点可能会在一个特定的域家族中迅速发展,如果是这样,将这样一个站点的注释转移到该家族中的所有序列是不正确的。特别是,磷酸化位点已被证明进化迅速(30)这意味着在蛋白质家族中可能需要非常精细的子家族分配,才能将这种注释正确地转移到相关基因组上。

NCBI策划模型的另一个优点是,只有在文献中有现场证据,或者可以从3D结构推断出现场时,它们才包括功能现场。如果一个功能位点局限于一个子家族,那么它只能被映射到对该子家族具有高得分(特定)命中率的蛋白质序列上。应用这样一组规则,就可以在多个基因组上注释位点,而不会产生大量错误赋值。然而,手动管理这些功能相关的网站是很费力的,需要广泛的文献搜索、可用3D结构的分析和管理者的专家判断。利用高通量蛋白质组学实验获得的数据,自动位点识别可以增强并显著加快策展过程。再加上通过诸如RPS-BLAST或HMMER等剖面搜索方法自动绘制位点,PTM位点可以在几分钟内通过计算注释到其他基因组上。随着基因组测序变得更便宜,这种能力尤其重要(41)测序的基因组数量以更高的速度增加。

有多种成熟的方法可用于预测磷酸化位点(42). 常用方法(43–45)基于短特征蛋白质序列基序的检测(46). 大多数蛋白激酶通过识别比要修饰的单个残基更广泛的位点来实现其蛋白靶点的特异性(47). 这种基序序列的集合对于预测特定序列中磷酸化位点的位置非常有用。然而,如果将模体的有限大小及其简并应用于大量蛋白质序列,则会产生许多假阳性。其他更通用的方法依赖于机器学习方法和统计特征(48,49)培训时间体内体外实验数据。他们试图捕获磷酸化位点的保守性和相互关系信息,但通常不考虑基于系统发育分析的家族分类。考虑到这种系统发育证据,如果在一个密切相关的蛋白质中的匹配位点观察到磷酸化,人们会期望在更大的可能性下观察到特定位点的磷酸化。这种类型的系统发育分析可能有助于避免错误分类,并可能提供一种将分类器应用于同一狭窄系统发育分支中的基因组的方法。此外,机器学习方法不能解决训练集中的假阳性问题,因为高通量蛋白质组学实验中报告的错误率差异很大。HAMAP公司(50)是一个注释系统,它使用手动管理的家族规则(基序、分类覆盖等)来确定哪些功能位点注释可能会传播到定义明确的家族和子家族中的其他序列。在这里概述的方法中,我们的目的是自动将分析限制在进化上保守的位点,然后自动将过滤的实验数据应用于手动管理的功能性亚家族,这使得我们能够在其他相关基因组中以高置信度注释磷酸化位点,而无需人工管理单个磷酸化位点。

结果

确定磷酸化位点的进化保守性需要将实验数据映射到稳定映射到基因组的蛋白质序列上。然后必须将序列排列成进化上保守的群,以比较不同物种的位点。

蛋白质及其保守结构域

智人,小家鼠黑腹果蝇蛋白质序列从RefSeq下载(51). RefSeq旨在成为一组全面且非冗余的蛋白质序列,为基因组注释提供稳定的参考。共有39172个人类、36422只小鼠和21779个果蝇序列。每个序列都用一个整数GI来标识。

为了比较基因组序列,我们使用了NCBI CDD数据库(2.22版)中的域模型。这些域由PSSM-ID(职位特定评分矩阵ID)标识。NCBI CDD中用于标记蛋白质结构域分配的严格性有两个级别(38)给定蛋白质序列。RPS-BLAST识别蛋白质序列中存在的蛋白质结构域的足迹。再次评估特定查询区域的最高评分分配(域模型),以查看分数是否高于预先计算的特定于域的分数阈值。这些高置信度任务,也称为特定命中率,表示查询蛋白序列属于同一蛋白质家庭作为序列用于创建领域模型并提供最准确的函数推断。如果没有特定命中率可以分配,RPS-BLAST默认表示域中的成员身份超级家庭.RPS-BLAST查询蛋白质序列的搜索结果如所示图1.

保存图片、插图等的外部文件。对象名称为bar019f1.jpg

蛋白质查询中注释的NCBI保守域。(a) RPS-BLAST用于使用丝氨酸-苏氨酸蛋白激酶作为蛋白质查询来查找域足迹和衍生功能位点(GI 110349738)。以红色显示的是一个特定的命中,即一个高置信度的蛋白质亚家族。(b条)表示CDD域的多序列比对(MSA)示例。可对齐区域(结构化块或块对齐)以大写块显示,而未对齐区域以小写和间隙显示。NCBI CDD还可以提供功能站点注释。哈希标记表示激活循环(A-loop)的注释。以“query”开头的行显示蛋白质查询(GI:110349738)以及起始和终止位点。

我们分析的第一步是确定特定命中率在这里研究的三种生物的每个蛋白质组中。给定GI序列标识符,对应于特定命中率对序列的结构域进行了识别。该信息是从CDART数据库中检索到的(52),存储蛋白质保守结构域的预先计算的RPS-BLAST点击。有12 929名人类GI至少有一个域分配被标识为“特定命中”。类似地,有11个603和7587只老鼠和苍蝇GI映射到至少一个“特定命中”。这些序列在人类、老鼠和苍蝇中的记录分别映射到2495次、2376次和1632次独特的“特定点击”。这三种生物共有1469次“特定点击”。

磷灰石的进化守恒

从Tan提供的补充信息中获得了实验人类磷灰石数据等。(30). 作者从两个在线数据库Phospho中获得并处理了人类磷酸肽数据集。榆树(53)和磷灰石(54),其存储从低吞吐量(LTP)、高通量(HTP)和细胞信号技术(CST)获得的磷酸化位点。总的来说,6456个ENSEMBL id蛋白中有23977个独特的人类磷酸化位点。果蝇磷酸肽组是从Gygi实验室提供的基于质谱的蛋白质组学数据中获得的(8),磷酸肽的大规模鉴定结果果蝇属胚胎。顺序(14)用于从MS/MS光谱中鉴定磷酸肽,随后又鉴定Ascore(21)用于为磷酸肽内的磷酸位点定位赋值置信度。根据LC-MS/MS分析D.黑腹果蝇,在2702个FlyBase-ids蛋白中鉴定出13720个独特的磷酸化位点。小鼠磷脂酶数据集来自两个不同的来源(6,7)其中5635个位点与2328个IPI蛋白相匹配,5433个位点与1808个IPI-蛋白相匹配。当Ascore用于其中一个鼠标数据集时(7)在苍蝇磷酸肽组中,我们需要95%的位点定位确定性。在其他鼠标数据集中(6),MaxQuant(55)使用吉祥物进行序列搜索后,用于指定磷酸化位点(15). 然后将所有磷酸肽数据映射到带有匹配分类标识符的RefSeq序列记录上,以获得GI和开始和停止位置。

给定GI和磷酸化位点位置,我们确定了域模型比对上的相应位置,这些位置通过特定点击映射到实验确定的磷酸化位点。域模型由对齐的块和这些块之间未对齐的区域组成,如所示图1b.由于域模型中的未对齐区域不能可靠地相互对齐,因此我们只检查了映射到结构化对齐块的磷位点的分布。

在人类蛋白质组中,2378个磷酸化位点可以被映射到853个特定结构域中的结构块上。一百六十九个果蝇磷酸化位点可以映射到99个特定域点击中的结构化块,196个小鼠磷酸化位点可映射到119个特定域命中中的结构块。在这些特定的点击中,有29个PSSM-ID在所有三种生物体中被发现。需要对磷酸化位点进行位置保护,得到26个独特的磷酸化位点,它们被映射到所有3种生物体的19个公共域模型(相同的PSSM-ID)。在这26个位点中,在RRM域中发现了1个位点,目前在CDD中没有详细的子家族层次结构。图2显示了映射到结构对齐块的人类、小鼠和苍蝇之间保守的磷酸化位点的数量。

保存图片、插图等的外部文件。对象名为bar019f2.jpg

进化上保守的磷酸化位点。将每个实验性磷酸肽数据集映射到保守的域特异性点击上,并检查域模型上的位点位置是否重叠。维恩图显示了每个物种之间以及所有三个物种之间重叠的地点数量。所有物种共有25个高度保守的磷酸化位点。

以这种方式识别的保守磷脂酶的数量可能很小,至少有两个原因:(i)首先,在特定点击中发现的来自苍蝇和老鼠数据集的磷脂酶数量很小,因为数据集不完整;(ii)其次,研究中3个基因组共享的特定域分配的总数为1469,这是每个基因组中蛋白质及其组成域总数的一小部分。然而,随着时间的推移,来自这些物种的实验数据量以及通过管理领域数据库可获得的特定任务数量应该会大幅增加。

要求对一个保守的磷酸化位点进行三次单独鉴定的理由是基于这样一个事实,即从高通量磷酸化蛋白质组学数据中鉴定的磷酸化位置存在一些模糊性(56). 这种位点定位模糊可能来自实验问题,例如不稳定的翻译后修饰,也可能来自计算方法,例如无法在磷酸化肽中指定磷酸化位点。来自一种以上生物体的磷酸酯酶证据应该有助于减少假阳性。为了了解这种影响,我们检测了50个在人类和苍蝇中保存的位点。其中,20个站点已经在CDD中进行了注释。也有证据表明,在已发表的文献中还有12个以上的网站。这排除了18个位点,其中3个位点在序列记录中被注释为基于质谱的大规模磷酸蛋白质组学实验中观察到的位点,与当前研究中使用的数据类似。其余15个位点(约占总位点的30%)的序列记录中没有磷酸化的证据。其中一些可能是新的保守性位点,而另一种生物的证据可能会证实它们。当我们需要3个物种来确认磷酸化位点时,共鉴定出25个位点。在这些网站中,有12个已经在CDD中进行了注释。在其余13个位点中,有12个位点的文献支持实验证据,而核糖体蛋白L11中确定的位点没有低通量实验证据,但注释为使用高通量方法确定。

磷灰石的大规模自动标注

目前,验证已鉴定的磷酸肽的方法包括手工处理()使用站点定位算法自动管理(8–10). 在这里,我们提出,如在三种不同的生物体中观察到的,在进化上保守的位置鉴定磷位点,为保守的、具有生物意义的磷酸化位点提供了有力证据。考虑到这一证据的强度,将保守位点注释转移到跨越这些生物体的整个分支的相应进化保守位置似乎是合理的。

利用人类、小鼠和果蝇之间似乎保守的位点,我们尝试对体腔数据中的多个基因组进行大规模自动注释,体腔数据是涵盖这三个物种的常见分类节点。目前,该分支包含来自RefSeq数据库的910530个独特蛋白质序列,跨越1869个不同的生物体。注释程序在53个不同物种的12068个序列记录中产生了18818个注释磷酸化位点。在真核生物中,蛋白质磷酸化通常发生在丝氨酸(S)、苏氨酸(T)或酪氨酸(Y)侧链上。当然,将磷酸化位点映射到不适合磷酸化的氨基酸上是没有意义的,并且限制这些位点包含丝氨酸、苏氨酸或酪氨酸,导致53种不同生物体9088个序列记录中的11755个磷酸化位点。有几个可能的原因导致了通过比对映射可以注释的假定磷酸化位点总数与实际适合磷酸化的结果位点数量之间的差异。CDD中蛋白质结构域家族的一小部分尚未在亚家族层次结构水平上完全表征,导致过度通用的“特定点击”,并导致磷酸化位点在相应蛋白质结构域家庭所涵盖的序列记录子集上的不正确映射。其中一个家族是RNA识别基序(RRM),它包含本分析中确定的一个保守位点。将该位点注释转移到体腔数据序列中,得到了总共15162个推定位点,并将这些位点限制为S/T/Y,得到8502个位点(56%)。这种相对较低的注释率可能表明RRM的一些亚家族不包含这种磷酸化位点,这也是为什么CDD中详细的亚家族层次结构可以用于定义蛋白质功能的一个例子。从分析结果中排除RRM位点后,在可能的3656个位点中,3253个位点包含S/T/Y,表明89%的位点易于磷酸化。这种更高的注释率突显了在领域分类中保持进化和功能亚家族的重要性,因为一些亚家族可能具有不同的生物功能,而这些生物功能并不具有或需要磷脂酶(57). 因此,我们的分析仅限于功能性子家族。

假定磷酸化位点被映射到不相容残基类型的另一个原因是,修饰注释到其他序列记录的自动转移取决于定义域的多重比对模型的准确性。为了估计比对模糊性的影响,我们分析了排除RRM后剩余的位点。尽管不可磷酸化的位点数量很小(总共403个),但我们检查了错位或位点模糊性对蛋白质家族多序列比对的影响。为此,我们检查了注释序列中感兴趣位点周围的氨基酸,并在相对于该位点的±1至±3对齐位置的偏移范围内寻找可能的磷酸化位点。随着偏移量的增加,有利于磷酸化的额外位点的数量减少。例如,±1AA的偏移导致119个位点可以被磷酸化,而对于±2AA,这是22个位点,对于±3AA,只有1个位点可以磷酸化。考虑到偏离±1AA到±2AA的位点仅占磷脂酶总数的3%,表明CDD内的排列具有位置特异性。因此,映射到功能亚家族的进化保守位点总数为25个,不包括RRM域,该域目前在CDD中没有详细的子家族层次结构。表1列出了具有保守站点的NCBI CDD数据库中的PSSM-ID和域模型的名称。

表1。

具有保守磷位点的蛋白质家族列表

PSSM-ID系统地点蛋白质家族(NCBI CDD)和描述
28 95732b条H4:组蛋白H4。
30 34633b条AMPKbeta_GBD_like:AMP激活的蛋白激酶β亚单位糖原结合域。
48 16143b条GroEL:类似GroEL的I型伴侣蛋白。
48 163234b条; 236; 241TPP_E1_PDC_ADC_BCADC:焦磷酸硫胺家族。
100 08844b条PGM3:磷酸葡萄糖变位酶3。
100 10126c(c)核糖体_L11:核糖体蛋白L11。
107 222107b条p23_hB-ind1_like:在人类(h)丁酸诱导转录物1(B-ind1)和类似蛋白质中发现的p23_like结构域。
132 80445b条PX_SNX3_like:筛选Nexin 3和相关蛋白的磷脂结合Phox同源结构域。
132 940157STKc_MST3_like:哺乳动物Ste20-like蛋白激酶3-样蛋白丝氨酸/苏氨酸激酶的催化域。
132 979174STKc_PAK_II:蛋白质丝氨酸/苏氨酸激酶的催化结构域,Ⅱ类p21活化激酶。
143 346154; 160STKc_CDK7:丝氨酸/苏氨酸激酶的催化结构域,细胞周期素依赖蛋白激酶7。
143 354167; 169STKc_ERK1_2_like:细胞外信号调节激酶1和2-样丝氨酸/苏氨酸激酶的催化域。
143 356173; 175STKc_p38:丝氨酸/苏氨酸激酶的催化结构域,p38有丝分裂原活化蛋白激酶。
173 660152b条STKc_AGC:AGC家族蛋白丝氨酸/苏氨酸激酶的催化域。
173 673295b条; 299STKc_RSK_N:蛋白丝氨酸/苏氨酸激酶的N末端催化结构域,90kDa核糖体蛋白S6激酶。
173 680302STKc_PKN:蛋白质丝氨酸/苏氨酸激酶的催化结构域,蛋白质激酶N。
173 75212b条; 13b条STKc_CDK1\euk:丝氨酸/苏氨酸激酶的催化结构域,细胞周期蛋白依赖性蛋白激酶1。
176 30150b条PH_Cool_PixCool像素序列同源性(PH)域。

CDD磷酸化注释。

b条文献(LTP)

c(c)没有证据。

进化保守磷酸化位点生物学重要性的一个例子

上述分析中确定的保守磷酸化位点之一是组蛋白H4中的Ser 47。组蛋白上的PTM通过改变结构和功能,在染色质的激活和失活中发挥重要作用。H4是一种高度保守的组蛋白,与核小体复合体中的许多其他组蛋白接触。H4 Ser 47位点在序列记录中被注释为DNA结合位点,但不是磷酸化位点(58). 对这个磷酸化位点的文献调查发现了一些关于寻找相应蛋白激酶的出版物(58–60). 磷酸化位点可能在组蛋白-组蛋白相互作用和染色质组装中发挥作用,但尚未进行详细研究(59). 研究CDD中的这个蛋白家族,发现Ser 47从人类到酵母都高度保守,即在约20亿年的进化过程中保持不变。相反,组蛋白H4上的Ser 1在许多序列记录中被注释为磷酸化,并已被深入研究(61–63). Ser 1参与芽殖酵母产孢过程中的细胞核致密化(61). 这些研究还表明,在孢子形成过程中,H4上的Ser1磷酸化需要一种丝氨酸/苏氨酸激酶SPS1(63). 在精子发生过程中也可以看到Ser1磷酸化D.黑腹果蝇在小鼠细胞中,显示了该位点的进化保守性(62). 虽然Ser1磷酸化的生殖功能在一个重要的进化阶段中并不完全相同,但很明显,Ser1在组蛋白H4的功能中起着重要作用。同样,Ser 47磷酸化的可比进化保守性表明,它在H4的功能中也发挥着重要作用,很可能是值得深入生化研究的目标。

方法

用于计算分析的脚本和程序是用c++、Matlab和SPlus编写的。

理论域及其分布

在分析时,RefSeq(第41版)包含了10567种生物体中近1000万个蛋白质序列。为了确定这些蛋白质中的“特定点击”,使用CDART数据库(52). 为了理解蛋白质组内的蛋白质域映射,我们使用RPS-BLAST和Fong描述的算法确定了所有至少映射到一个“特定命中”的序列记录等。(64). 我们还确定了这三个物种共有的“特定点击数”。

磷灰石的进化守恒

下面概述了将磷酸肽映射到RefSeq中的蛋白质序列,然后映射到蛋白质结构域(如果有)的步骤,包括结构域模型上磷酸化位点的位置。

识别蛋白质

给定磷酸肽序列和磷酸位点的位置,我们使用肽序列与蛋白质序列的字符串匹配来识别相应的RefSeq序列记录和位点。

确定特定的域命中率

给定序列记录,确定“特定点击”(如果有)。CDART数据库存储对具有E类-值等于或小于0.01。

绘制磷酸化位点

给定序列记录中的磷酸化位置,可以使用NCBI CDART数据库中的RPS-BLAST比对计算磷酸化位点相对于“特定命中”域模型的位置。

确定保存地点

如果一个蛋白质家族有一个磷酸化位点,从所有三种物种(人类、小鼠和苍蝇)中绘制,我们将该位点视为保守位点。该算法以流程图的形式给出图3.

保存图片、插图等的外部文件。对象名称为bar019f3.jpg

算法流程图。该流程图简要解释了如何从三个物种的实验磷酸肽数据集中获得保守位点。首先,一个磷酸肽被映射到它的蛋白质序列,然后被映射到特定的点击,如果有的话。如果这三个物种的磷酸化位点在特定的命中部位上映射到相同的位置,我们认为该位点是保守的。

自动功能站点注释

我们将保守磷酸化位点的注释转移到进化相关序列上。在NCBI分类数据库中,体腔数据是跨越人类、老鼠和苍蝇的常见分类节点。下载了体腔门分支中的所有蛋白质序列。使用RPS-BLAST和CDD域定义,将先前确定的保守磷位点从域模型映射到该分支的适用序列。通过迭代所有蛋白质序列记录(GI),我们存储了序列以及磷酸化位置,这些位置映射了特定点击上的保守位点。这些结果可在ftp://ftp.ncbi.nlm.nih.gov/pub/lewisg/data/sridhara10/.

结论

本文提出了一种新的方法,自动使用实验衍生的磷酸化数据来识别保守结构域中进化上保守的磷酸化位点,并将这些注释扩展到相关基因组。由于下一代测序技术的创新,这是一项越来越重要的任务,可通过以下方式实现:(i)使用人类、小鼠和果蝇的磷脂酶数据集将磷脂酶定位到保守结构域;(ii)发现这三个物种之间保守的磷酸位点;以及(iii)将这些进化上保守的磷酸化位点的注释转移到其他进化上相关的蛋白质序列上。我们发现3253个位点可以在分配给体腔动物分支的蛋白质序列上进行注释,体腔动物是人类、小鼠和苍蝇的常见分类节点。

随着时间的推移,序列记录上注释的域的数量和磷酸蛋白质组学研究的数量的增加,预计也会增加可通过所提议的方法检测到的进化保守位点的数量。此外,这种分析可能会产生新的进化保守的磷酸化位点,并且该方法可以扩展到其他翻译后修饰。

基金

美国国立卫生研究院院内研究计划,国家医学图书馆。资金包括开放存取费用。

利益冲突。未申报。

致谢

我们感谢Naigong Zhang提供了将保守结构域映射到蛋白质上的数据。我们还感谢NCBI信息工程部在本文中使用了大量软件。

工具书类

1Aebersold R,Mann M.基于质谱的蛋白质组学。自然。2003;422:198–207.[公共医学][谷歌学者]
2Arnott D、Gawinowicz MA、Grant RA等。ABRF-PRG03:磷酸化位点测定。《生物分子杂志》。技术。2003;14:205–215. [PMC免费文章][公共医学][谷歌学者]
三。Chi A、Huttenhower C、Geer LY等酿酒酵母电子转移离解(ETD)质谱法。程序。美国国家科学院。科学。美国。2007;104:2193–2198. [PMC免费文章][公共医学][谷歌学者]
4.Molina H,Horn DM,Tang N,等。利用电子转移解离串联质谱对磷酸肽进行全球蛋白质组分析。程序。美国国家科学院。科学。美国。2007;104:2199–2204. [PMC免费文章][公共医学][谷歌学者]
5Swaney DL、Wenger CD、Thomson JA等。电子转移解离串联质谱法揭示的人类胚胎干细胞磷酸蛋白质组。程序。美国国家科学院。科学。美国。2009;106:995–1000. [PMC免费文章][公共医学][谷歌学者]
6Pan C、Gnad F、Olsen JV等。小鼠肝细胞系的定量磷蛋白组分析揭示了磷酸酶抑制剂的特异性。蛋白质组学。2008;8:4534–4546.[公共医学][谷歌学者]
7Villen J、Beausoleil SA、Gerber SA等。小鼠肝脏的大规模磷酸化分析。程序。美国国家科学院。科学。美国。2007;104:1488–1493. [PMC免费文章][公共医学][谷歌学者]
8翟B,Villen J,Beausoleil SA,等。果蝇胚胎的磷蛋白组分析。蛋白质组研究杂志。2008;7:1675–1682. [PMC免费文章][公共医学][谷歌学者]
9Rinschen MM、Yu MJ、Wang G等。定量磷蛋白组学分析揭示了肾集合管细胞中血管加压素V2受体依赖的信号通路。程序。美国国家科学院。科学。美国。2010;107:3882–3887. [PMC免费文章][公共医学][谷歌学者]
10Sweet SM,Bailey CM,Cunningham DL等。利用电子捕获解离质谱法对蛋白质磷酸化进行大规模定位。分子细胞蛋白质组学。2009;8:904–912. [PMC免费文章][公共医学][谷歌学者]
11Craig R,Beavis RC。串联质谱:用串联质谱匹配蛋白质。生物信息学。2004;20:1466–1467.[公共医学][谷歌学者]
12Geer LY、Markey SP、Kowalak JA等。开放式质谱搜索算法。蛋白质组研究杂志。2004;:958–964.[公共医学][谷歌学者]
13.Tabb DL,Fernando CG,Chambers MC。MyriMatch:通过多元超几何分析进行高精度串联质谱肽鉴定。蛋白质组研究杂志。2007;6:654–661. [PMC免费文章][公共医学][谷歌学者]
14Yates JR,III,Eng JK,McCormack AL,等。将修饰肽的串联质谱与蛋白质数据库中的氨基酸序列关联的方法。分析。化学。1995;67:1426–1436.[公共医学][谷歌学者]
15.Perkins DN、Pappin DJ、Creasy DM等。利用质谱数据搜索序列数据库进行基于概率的蛋白质鉴定。电泳。1999;20:3551–3567.[公共医学][谷歌学者]
16Mann M,Wilm M.通过肽序列标签对序列数据库中的肽进行容错识别。分析。化学。1994;66:4390–4399.[公共医学][谷歌学者]
17Searle BC、Dasari S、Wilmarth PA等。使用MS/MS从头测序和OpenSea比对算法识别蛋白质修饰。蛋白质组研究杂志。2005;4:546–554.[公共医学][谷歌学者]
18Frank A,Pevzner P.PepNovo:通过概率网络建模进行从头测序。分析。化学。2005;77:964–973.[公共医学][谷歌学者]
19Tanner S,Shu H,Frank A,等。InsPecT:从串联质谱鉴定翻译后修饰肽。分析。化学。2005;77:4626–4639.[公共医学][谷歌学者]
20Bailey CM、Sweet SM、Cunningham DL等。SLoMo:ETD/ECD质谱修改的自动定位。蛋白质组研究杂志。2009;8:1965–1971.[公共医学][谷歌学者]
21Beausoleil SA、Villen J、Gerber SA等。高通量蛋白质磷酸化分析和位点定位的基于概率的方法。自然生物技术。2006;24:1285–1292.[公共医学][谷歌学者]
22Ruttenberg BE、Pisitkun T、Knepper MA等。PhosphoScore:MSn数据的开源磷酸化位点分配工具。蛋白质组研究杂志。2008;7:3054–3059. [PMC免费文章][公共医学][谷歌学者]
23Ji L,Barrett T,Ayanbule O,等。NCBI肽组:质谱蛋白质组学数据的新存储库。核酸研究。2010;38:D731–D735。 [PMC免费文章][公共医学][谷歌学者]
24Craig R、Cortens JP、Beavis RC。用于分析、验证和存储蛋白质鉴定数据的开源系统。蛋白质组研究杂志。2004;:1234–1242.[公共医学][谷歌学者]
25Hill JA、Smith BE、Papoulias PG等。ProteomeCommons.org与批次库集成的协作注释和项目管理资源。蛋白质组研究杂志。2010;9:2809–2811. [PMC免费文章][公共医学][谷歌学者]
26Jones P、Cote RG、Martens L等。PRIDE:蛋白质组学界蛋白质和肽鉴定的公共库。核酸研究。2006;34:D659–D663。 [PMC免费文章][公共医学][谷歌学者]
27.Kandasamy K、Keerthikumar S、Goel R等。《人类蛋白质大全:蛋白质组学研究的统一发现资源》。核酸研究。2009;37:D773–D781。 [PMC免费文章][公共医学][谷歌学者]
28Deutsch EW,Lam H,Aebersold R.PeptideAtlas:新兴靶向蛋白质组学工作流的靶向选择资源。EMBO代表。2008;9:429–434. [PMC免费文章][公共医学][谷歌学者]
29Boekhorst J、van Breukelen B、Heck A,Jr等。比较磷酸蛋白质组学揭示了真核生物磷酸化的进化和功能保护。基因组生物学。2008;9:R144。 [PMC免费文章][公共医学][谷歌学者]
30Tan CS、Bodenmiller B、Pasculescu A等。比较分析揭示了与多种疾病有关的保守蛋白磷酸化网络。科学。信号。2009;2:ra39。[公共医学][谷歌学者]
31Macek B、Mijakovic I、Olsen JV等。模型细菌的丝氨酸/苏氨酸/酪氨酸磷酸蛋白质组枯草芽孢杆菌.分子细胞。蛋白质组学。2007;6:697–707.[公共医学][谷歌学者]
32Macek B、Gnad F、Soufi B等大肠杆菌揭示了细菌Ser/Thr/Tyr磷酸化的进化保护。分子细胞。蛋白质组学。2008;7:299–307.[公共医学][谷歌学者]
33Palumbo AM,Reid GE。使用碰撞诱导解离-MS/MS和MS3评估蛋白质磷酸化位点分配的气相重排和竞争碎片反应。分析。化学。2008;80:9735–9747.[公共医学][谷歌学者]
34Chothia C,Gough J.蛋白质进化的基因组和结构方面。生物化学。J。2009;419:15–28.[公共医学][谷歌学者]
35Finn RD、Mistry J、Tate J等。Pfam蛋白质家族数据库。核酸研究。2010;38:D211–D222。 [PMC免费文章][公共医学][谷歌学者]
36Letunic I、Doerks T、Bork P.SMART 6:最新更新和新发展。核酸研究。2009;37:D229–D232。 [PMC免费文章][公共医学][谷歌学者]
37Tatusov RL、Fedorova ND、Jackson JD等。COG数据库:更新版本包括真核生物。BMC生物信息学。2003;4:41. [PMC免费文章][公共医学][谷歌学者]
38Marchler-Bauer A、Anderson JB、Chitsaz F等。CDD:保护域数据库的特定功能注释。核酸研究。2009;37:D205–D210。 [PMC免费文章][公共医学][谷歌学者]
39Marchler-Bauer A、Panchenko AR、Shoemaker BA等。CDD:保守域比对数据库,与域三维结构相关。核酸研究。2002;30:281–283. [PMC免费文章][公共医学][谷歌学者]
40Eddy SR.描述隐马尔可夫模型。生物信息学。1998;14:755–763.[公共医学][谷歌学者]
41Mardis ER。预测1000美元的基因组。基因组生物学。2006;7:112. [PMC免费文章][公共医学][谷歌学者]
42Miller ML,Blom N.激酶对蛋白质磷酸化位点的特异性预测。方法分子生物学。2009;527:299–310.[公共医学][谷歌学者]
43Oberauer JC、Cantley LC、Yaffe MB。Scansite 2.0:使用短序列基序对细胞信号相互作用进行蛋白质组预测。核酸研究。2003;31:3635–3641. [PMC免费文章][公共医学][谷歌学者]
44Sigrist CJ、Cerutti L、de CE等。PROSITE,用于功能表征和注释的蛋白质域数据库。核酸研究。2010;38:D161–D166。 [PMC免费文章][公共医学][谷歌学者]
45Amanchy R,Periaswamy B,Mathivanan S等。磷酸化基序的策划简编。自然生物技术。2007;25:285–286.[公共医学][谷歌学者]
46Doolittle射频。相似的氨基酸序列:偶然还是共同的祖先?科学。1981;214:149–159.[公共医学][谷歌学者]
47Ubersax JA,Ferrell JE.,Jr,蛋白质磷酸化的特异性机制。自然修订版分子细胞生物学。2007;8:530–541.[公共医学][谷歌学者]
48Blom N、Gammeltoft S、Brunak S。真核蛋白磷酸化位点的序列和基于结构的预测。分子生物学杂志。1999;294:1351–1362.[公共医学][谷歌学者]
49Gnad F、Ren S、Cox J等。磷酸化位点数据库:磷酸化位点的管理、结构和进化研究以及预测。基因组生物学。2007;8:R250。 [PMC免费文章][公共医学][谷歌学者]
50Lima T、Auchincloss AH、Coudert E等。HAMAP:UniProtKB/Swiss-Prot中完全测序的微生物蛋白质组集和手动筛选的微生物蛋白质家族的数据库。核酸研究。2009;37:D471–D478。 [PMC免费文章][公共医学][谷歌学者]
51Pruitt KD、Tatusova T、Klimke W等,《NCBI参考序列:现状、政策和新举措》。核酸研究。2009;37:D32–D36。 [PMC免费文章][公共医学][谷歌学者]
52.Geer LY、Domrachev M、Lipman DJ等。CDART:基于结构域的蛋白质同源性。基因组研究。2002;12:1619–1623. [PMC免费文章][公共医学][谷歌学者]
53Diela F、Gould CM、Chica C等。磷化氢。ELM:磷酸化位点数据库–2008年更新。核酸研究。2008;36:D240–D244。 [PMC免费文章][公共医学][谷歌学者]
54Hornbeck PV、Chabra I、Kornhauser JM等。磷位点:一种专门用于生理蛋白质磷酸化的生物信息学资源。蛋白质组学。2004;4:1551–1561.[公共医学][谷歌学者]
55Cox J,Mann M.蛋白质组学是新的基因组学吗?单元格。2007;130:395–398.[公共医学][谷歌学者]
56Farmer J、Colangelo C、Ivanov AR等。ABRFsPRG2010研究:蛋白质组学磷酸肽标准的多实验室评估。美国社会科学杂志质谱。2010;21:S31–S60。 [谷歌学者]
57Maris C、Dominguez C、Allain FH。RNA识别基序,一种用于调节转录后基因表达的塑料RNA结合平台。FEBS J公司。2005;272:2118–2131.[公共医学][谷歌学者]
58Hyland EM、Cosgrove MS、Molina H等。组蛋白H3和组蛋白H4核心可修饰残基在酿酒酵母.分子细胞生物学。2005;25:10060–10070. [PMC免费文章][公共医学][谷歌学者]
59Masaracchia RA、Kemp BE、Walsh DA。增殖淋巴细胞中的组蛋白4磷酸转移酶活性。Ser-47特异性酶的部分纯化和表征。生物学杂志。化学。1977;252:7109–7117.[公共医学][谷歌学者]
60Tahara SM,特拉华州。兔网织红细胞的环核苷酸依赖性蛋白激酶。通过蛋白水解激活的蛋白激酶的鉴定和表征。生物学杂志。化学。1981;256:11558–11564.[公共医学][谷歌学者]
61Govin J,Schug J,Krishnamoorthy T,等。组蛋白H4丝氨酸-1在孢子形成过程中磷酸化的全基因组定位酿酒酵母.核酸研究。2010;38:4599–4606. [PMC免费文章][公共医学][谷歌学者]
62Krishnamoorthy T,Chen X,Govin J,等。组蛋白H4 Ser1的磷酸化调节酵母中的孢子形成,并在苍蝇和小鼠精子发生中保守。基因发育。2006;20:2580–2592. [PMC免费文章][公共医学][谷歌学者]
63Wendt KD,Shilatifard A.为生殖细胞包装:组蛋白H4 Ser1磷酸化在染色质压实和生殖细胞发育中的作用。基因发育。2006;20:2487–2491.[公共医学][谷歌学者]
64Fong JH,Marchler-Bauer A.使用保守结构域数据库的蛋白质亚家族分配。BMC研究注释。2008;1:114. [PMC免费文章][公共医学][谷歌学者]

文章来自数据库:生物数据库与治疗杂志由提供牛津大学出版社