蛋白质组系统研究的最新进展迅速,从最初的定性蛋白质鉴定到更精确和定量的全球测量。目前,各种实验技术被用于全基因组蛋白质组定量(1–4)从基于亲和性和生物物理的方法到基于质谱的大量量化技术。由于表达的蛋白质组构成了细胞的“商业端”,因此这种测量可以说是最具生物学意义的功能基因组数据集之一;它们支持多种应用场景,包括基因组注释(5,6),生物标记物发现(7,8),翻译后修改检测(9)甚至环境研究(10,11).
已有几个专门用于质谱蛋白质组学数据的数据库和存储库(12–17)每一种都有不同的目的,旨在实现不同水平的再加工和meta-annotation。由于蛋白质组学技术的前沿发展,以及不同应用场景和实验协议的广泛应用,这些存储库所面临的挑战远远大于其他类型的数据(如DNA或转录组学数据)。工具范围的一端是Tranche/ProteomeCommons(16)这是一个分布式数据共享设施,专门用于处理保存主要实验数据和下游分析结果的超大文件。其次,PRIDE是一个存储库,主要用于提供数据的“提交者视图”(13). 它已经提供了更多的元信息,要求提交者遵循受控的词汇表和提交标准,并提供文件格式、转换器和相关工具。最后,GPMDB、PeptideAtlas和MOPED是以一致的方式重新处理提交的原始数据的存储库(14,15,17). 后一种资源基于这样一种假设,即蛋白质组学实验通常通过使用更新的搜索和统计算法进行后续的重新分析而变得更有价值。
目前存储在这些不同存储库中的数据集和实验涵盖了广泛的生物体、样品材料和制备协议,反映了各种蛋白质组学项目背后的不同研究动机。一些意见集中于特定的亚细胞器,一些则集中于培养细胞或特定体液(例如人类血浆)和其他正常或病变组织(例如肿瘤)。对描述每个样本的元信息进行系统注释的必要性对数据库存储库来说是一个独特的挑战,尽管其基础设施最近有了很大改进(特别是通过在蛋白质组学标准倡议中引入标准和受控词汇表(18)和自豪感(13)). 然而,元数据通常不是由提交者提供的,因此,将提交的各种数据直接集成到更高级别的组织中仍然具有挑战性(例如“合并所有核准备数据”或“聚合所有小鼠组织而非细胞系的数据”)。然而,这种集成通常是非常理想的:就整个蛋白质组而言,许多当前数据集仍然存在采样不足的问题,并且具有相对较高的技术噪音水平(特别是对于低丰度蛋白质)。因此,整合几个实验/数据集的数据将提供减少技术和生物噪音以及增加蛋白质组覆盖率的机会。此外,许多当前可用的蛋白质组学数据集最初不是作为蛋白质组量化,而仅仅是作为可检测蛋白质的定性描述。然而,这些数据集通常也包含可量化的信息(主要通过光谱计数(19–21)),这也是聚集大量样本的最佳方法。
蛋白质组定量可能聚集的所有可能水平(例如按组织、按细胞器、按细胞类型、按技术等),我们最初关注的是两个层面:a)器官范围的平均值,以及b)器官/组织范围的平均。整个生物体的平均水平是在整个生命树上最容易比较数据的水平。它也是可用的最大数据集的级别,因为它适用于单细胞生物,并且因为即使在多细胞生物中,许多实验工作也通过设计直接针对整个生物。通常,整个生物体的平均值本身就很有意义,特别是对于进化研究。蛋白质的典型表达水平主要由其功能决定,对其进化轨迹有着惊人的巨大影响,控制着其氨基酸序列的净化选择程度(22),其密码子用法(23),翻译制度(24),折叠精度(25,26)及其基因组组织(27,28)等等。由于给定蛋白质的所有表达状态都由相同的固定基因位点控制,因此全组织平均值很好地近似于该位点感受到的蛋白质丰度的进化影响。
我们数据聚合的第二个层次是器官/组织层次;它主要适用于更大、研究充分的模式生物。在这里,蛋白质组学数据的可用性仍然比较有限,但另一方面,组织数据在生物学上更直接相关。在组织蛋白质组学中仍存在空白的地方,在一定程度上可以通过广泛的转录组学收集来补充,这些转录组学也可以在组织分辨率上获得。
作为元资源,PaxDb的另一个重要关注点是提供直观的用户体验,例如通过包含简明的表格和视觉效果,以及通过直接集成附件信息。这允许无缝特别的蛋白质组学中的非专业用户浏览和查询数据库,并将生物学的不同方面结合起来进行高通量分析。该资源提供每个蛋白质的功能信息,包括序列特征、蛋白质域、功能注释和3D蛋白质结构数据。重要的是,PaxDb还提供了生命树中不同层次的预先计算的正形关系。这对于不同生物群的全球比较分析特别有用。它可以即时查看任何感兴趣的蛋白质家族,例如真核生物,详细说明迄今为止评估过的每个生物体和组织中家族成员的各种表达状态。
结果和讨论
PaxDb数据库(“P(P)蛋白质A类堤岸A铬oss Organisms”)目前涵盖了所有三个生命领域的12个模型物种,从单细胞古生物到复杂的真核生物。对于这些生物体中的每一种,PaxDb的目标是提供单独的(组织解析的)数据集,此外还提供所有可检测蛋白质的单一、综合丰度估计。后一个估计是指全组织蛋白质表达的平均值,汇总了所有可用的数据集(来自不同的环境条件和发育阶段)。在适用的情况下,还提供了特定组织的综合平均值,即只要给定组织有几个独立的数据集。概述了PaxDb每个新版本的基本流程图(当前版本是2.1)。除了最终的聚合平均值之外,每个导入的数据集也可以使用,因为在重新映射到各自模型生物基因组的通用最新版本之后。所有丰度数据均以相同的数值框架表示,即以分子计数表示平均稳态蛋白质丰度,标准化为“百万分之一”(ppm;见上文“实验程序”一节)。除了这些丰度估计之外,每个蛋白质都与关于注释的功能、序列和结构信息的辅助信息一起呈现,并且在已知或预测的功能相互作用伙伴的网络上下文中呈现。所有这些信息都是从STRING数据库导入的(54)PaxDb与之共享蛋白质名称空间和所有功能注释信息。除了以蛋白质为中心的信息外,PaxDb还包含描述每个数据集的汇总指标,例如其在整个蛋白质组中的丰度分布。此外,所有蛋白质都被归为直系族(“直系族”),这使得可以直接比较生物体内的丰度估计值。
PaxDb概述。对于PaxDb的每一个版本,蛋白质丰度信息都是从许多来源输入的,包括蛋白质组学知识库和已发表的研究。对所有数据进行预处理,对于原始MS/MS数据,通过光谱计数重新计算蛋白质丰度。其他信息从STRING数据库导入。数据的表示结构有三种不同的视图:1)关于单个蛋白质的信息,2)生物体内所有可检测蛋白质的丰度表,以及3)每个生物体的摘要页面,列出可用的数据集。在一个生物体存在多个数据集的情况下,PaxDb还提供了一个加权平均综合数据集,该数据集比单个数据集更全面,噪声更小。
由于蛋白质丰度的金标准基准/参考信息通常不可用,因此衡量PaxDb中单个数据集的质量绝非易事。在这里,我们采用两种不同的间接策略来获得对数据质量的粗略估计:一种是基于蛋白质相互作用信息,另一种是根据mRNA分子的丰度测量。蛋白质相互作用数据的使用基于这样的假设,即相互作用的蛋白质平均应具有大致相似的稳态丰度(另见上文“实验程序”)。如所示,这个假设充其量是一个过于简单的近似:酵母中两种相互作用蛋白的丰度中位数比率目前约为3:1。事实上,相互作用的蛋白质不一定要以相似的水平表达,特别是在短暂或调节相互作用的情况下。然而,观察到的3:1比率远小于可以偶然预计的10:1丰度比率(通过重复洗牌丰度数据进行评估),因此它确实提供了一个内在质量估计器。我们将此度量表示为来自随机分布的Z分数距离,并将其指定为“交互一致性分数”,使用mRNA丰度作为质量度量也是基于一个简化的假设:mRNA物种的平均稳态丰度应该是其编码蛋白稳态丰度的粗略预测值。当然,这并不一定适用于任何给定的转录物/蛋白质对,但总体相关性已被证明是非常显著的,并且随着测量准确性的提高,最近也有所改善(60). 与上述相互作用测试类似,这种mRNA相关性测试的优点是将大多数蛋白质都包含在样本中,并且与一般蛋白质定量几乎没有系统性技术偏差。以酵母为例,表明我们的评分确实揭示了不同蛋白质丰度数据集之间的巨大差异(另请参阅补充图S1和S2). 重要的是,PaxDb执行的数据整合(即贡献数据集的加权平均值)在这两个指标上得分最高,交互一致性得分约为23.8,与酵母中mRNA的Spearman秩相关约为0.64(,补充图S3). 相对于彼此,我们的两个一致性度量都表现出相当好的相关性(RS公司= 0.74,第页值<0.0005,补充图S4A类),从而使我们能够对数据质量/一致性提供至少一个初步的粗略估计。
数据集质量。PaxDb的质量评分系统基于这样的假设,即相互作用的蛋白质应该具有大致相似的丰度。A类,左:中的蛋白质复合物的两个示例酿酒酵母它们都参与复制,但丰度不同。赖特:所有相互作用蛋白质对的丰度比,绘制为直方图。乱序数据(红色)显示与实际数据(蓝色)相比,比率更高。B类,对于两个不同的数据集,显示了实际比率的中位数(蓝色)和从500×丰度洗牌获得的中位数分布(红色)。PaxDb分数对应于z变换距离。根据下面的RNAseq数据绘制相同的两个数据集。C类综合数据集的PaxDb评分越高,与mRNA丰度的相关性也越好,并且涵盖了更多的蛋白质。酵母mRNA定量数据来自参考(62).
PaxDb的网站(和; 和http://pax-db.org/)设计用于直观快速访问,允许对感兴趣的蛋白质家族进行特别查询,以及浏览和比较整个数据集。蛋白质查询是根据大量标识符名称空间集合来解决的,并且可以在一个查询中同时请求多个蛋白质。除了搜索已知标识符外,还使用快速全文搜索,根据PaxDb中所有蛋白质的注释搜索用户查询。对于PaxDb中的每个生物体,一个独特的摘要页面提供了有关数据来源、覆盖范围和估计质量的信息(). 本页还以直方图的形式提供了每个数据集的丰度值分布,并列出了生物体中最丰富的蛋白质。用户可以从该页面打开并浏览整个数据集,从这些数据集表中,他们可以直接进入蛋白质详细信息页面,如果是PeptideAtlas数据,也可以通过深度链接直接返回到潜在的肽信息。
有机体页面。该页面提供了有关所选生物体的一般信息,如数据集数量和蛋白质组覆盖率;它还提供了一个直方图,显示“集成”数据集中蛋白质丰度的分布。底部面板列出了选定物种的所有可用数据集。在PaxDb的每一页上顶部面板包含一个搜索框,允许用户搜索蛋白质名称和注释。
蛋白质页面。此页面显示单个蛋白质的信息。蛋白质的简短描述之后是所有可用数据集中的丰度表,以及相应的丰度等级。在下面的面板中,显示了其他物种中直系同源物的丰度。正交曲线的分辨率可以通过下拉菜单进行过滤。这个底部该面板包含从其他来源导入的其他信息,例如域结构、交互伙伴以及到相关数据库的链接(此处截断)。
PaxDb蛋白页面()最后构成所提供信息的核心。如UniProt上的注释所述,首先对所述蛋白质进行了鉴定,并根据其功能作用进行了简要描述(61)和/或专用模型生物数据库。然后分别列出每个可用数据集的估计丰度值,包括秩和分位数信息。对于构成PaxDb“最佳估计”的综合数据集,蛋白质在整个可检测蛋白质组中的相对位置随后在丰度直方图中可视化。接下来,该蛋白质显示在其他有机体中所有家族成员的上下文中,这些有机体具有丰富的信息。用户可以选择要显示的组织,以及控制直系亲属的系统发育深度;由于最后一个共同祖先被单独显示,但在每个生物体内也被相加,因此出现分歧的旁系的丰度。这种观点直接允许评估整个进化过程中存在问题的基因家族。最后,给出了关于该蛋白质的进一步辅助信息,包括相互作用伙伴、序列域和结构信息(如果可用)。后一信息直接与相关数据提供程序交联。
截至PaxDb的当前版本2.1,丰度估计的覆盖范围和通用性仍然受到数据可用性的极大限制。在一些生物体中,整个生物体的平均值受到相对较大的采样偏差的影响(尤其是在人类蛋白质数据中,血清样本的过度代表性很强)。此外,膜蛋白和其他“困难”亚群可能在系统上表现不足。然而,即使在这个早期阶段,核心蛋白质组的数量构成也开始出现。例如,当比较动物(人类、苍蝇、蠕虫)和其他真核生物(真菌、植物)时,真核核心蛋白质组的丰度相关性现在处于RS公司= 0.80 (55)考虑到全利润量化仍存在技术困难,这一点值得注意。考虑到蛋白质组学测量的增长和质量的提高,这种相关性可能很快会进一步上升。展望未来,PaxDb将继续专注于基于质谱数据的量化(包括不断增长的无标签方法),也将基于生物化学或分子生物学方法。PaxDb的未来释放还将利用meta-information的预期增加,并将提供更多感兴趣水平的聚集和量化,例如细胞内细胞器或特定细胞系,所有这些都是在通过直系图进行无缝跨物种比较的背景下进行的。