PaxDb, a Database of Protein Abundance Averages Across All Three Domains of Life

M. Wang; M. Weiss; M. Simonovic; G. Haertinger; S. P. Schrimpf; M. O. Hengartner; C. von Mering

doi:10.1074/mcp.O111.014704

分子细胞蛋白质组学。2012年8月；11(8): 492–500.

2012年4月24日在线发布。数字对象标识：10.1074/mcp。O111.014704号

预防性维修识别码：项目经理3412977

PMID：22535208

PaxDb，生命三个领域蛋白质丰度平均值数据库^*

王先生,^‡^§^‖ M.维斯,^‡^§^‖ 西莫诺维奇,^‡^§ G.海廷格,^‡^§ S.P.Schrimpf公司,^‡ M.O.Hengartner先生,^‡和C.冯·梅林^‡^§^¶

作者信息文章注释版权和许可信息 PMC免责声明

摘要

虽然蛋白质的表达在时间和空间上都受到调控，但大多数蛋白质都有一个内在的、“典型的”功能有效丰度范围。这些分子从每个细胞中用于信号蛋白的几个分子扩展到用于结构蛋白的数百万个分子。在解决与蛋白质进化、翻译和折叠相关的基本问题时，以及在常规实验室工作中，通常需要对生物体中每个可检测蛋白质的平均野生型丰度进行简单的粗略估计。在这里，我们介绍了一种用于整合绝对蛋白质丰度水平信息的meta-resource；我们特别强调深度报道、一致的后处理和不同生物体之间的可比性。公开可用的实验数据被映射到一个公共名称空间，在串联质谱数据的情况下，使用标准化的光谱计数管道进行重新处理。通过对各种样本、条件和单元类型进行聚合和平均，得到的集成数据集实现了更大的覆盖范围和更高的动态范围。我们通过评估外部提供的蛋白质网络信息的一致性来对每个贡献的单个数据集进行评分和排序，并证明我们的加权集成比单个数据集表现出更大的一致性。当前PaxDb-版本2.1（位于http://pax-db.org/)介绍了全有机体数据和组织解析数据，涵盖了12个模型有机体中的85000个蛋白质。所有值都可以通过预先计算的正形关系在生物体之间进行无缝比较。

蛋白质组系统研究的最新进展迅速，从最初的定性蛋白质鉴定到更精确和定量的全球测量。目前，各种实验技术被用于全基因组蛋白质组定量(1 –4)从基于亲和性和生物物理的方法到基于质谱的大量量化技术。由于表达的蛋白质组构成了细胞的“商业端”，因此这种测量可以说是最具生物学意义的功能基因组数据集之一；它们支持多种应用场景，包括基因组注释(5,6)，生物标记物发现(7,8)，翻译后修改检测(9)甚至环境研究(10,11).

已有几个专门用于质谱蛋白质组学数据的数据库和存储库(12 –17)每一种都有不同的目的，旨在实现不同水平的再加工和meta-annotation。由于蛋白质组学技术的前沿发展，以及不同应用场景和实验协议的广泛应用，这些存储库所面临的挑战远远大于其他类型的数据（如DNA或转录组学数据）。工具范围的一端是Tranche/ProteomeCommons(16)这是一个分布式数据共享设施，专门用于处理保存主要实验数据和下游分析结果的超大文件。其次，PRIDE是一个存储库，主要用于提供数据的“提交者视图”(13). 它已经提供了更多的元信息，要求提交者遵循受控的词汇表和提交标准，并提供文件格式、转换器和相关工具。最后，GPMDB、PeptideAtlas和MOPED是以一致的方式重新处理提交的原始数据的存储库(14,15,17). 后一种资源基于这样一种假设，即蛋白质组学实验通常通过使用更新的搜索和统计算法进行后续的重新分析而变得更有价值。

目前存储在这些不同存储库中的数据集和实验涵盖了广泛的生物体、样品材料和制备协议，反映了各种蛋白质组学项目背后的不同研究动机。一些意见集中于特定的亚细胞器，一些则集中于培养细胞或特定体液(例如人类血浆）和其他正常或病变组织(例如肿瘤）。对描述每个样本的元信息进行系统注释的必要性对数据库存储库来说是一个独特的挑战，尽管其基础设施最近有了很大改进（特别是通过在蛋白质组学标准倡议中引入标准和受控词汇表(18)和自豪感(13)). 然而，元数据通常不是由提交者提供的，因此，将提交的各种数据直接集成到更高级别的组织中仍然具有挑战性（例如“合并所有核准备数据”或“聚合所有小鼠组织而非细胞系的数据”）。然而，这种集成通常是非常理想的：就整个蛋白质组而言，许多当前数据集仍然存在采样不足的问题，并且具有相对较高的技术噪音水平（特别是对于低丰度蛋白质）。因此，整合几个实验/数据集的数据将提供减少技术和生物噪音以及增加蛋白质组覆盖率的机会。此外，许多当前可用的蛋白质组学数据集最初不是作为蛋白质组量化，而仅仅是作为可检测蛋白质的定性描述。然而，这些数据集通常也包含可量化的信息（主要通过光谱计数(19 –21))，这也是聚集大量样本的最佳方法。

蛋白质组定量可能聚集的所有可能水平(例如按组织、按细胞器、按细胞类型、按技术等），我们最初关注的是两个层面：a）器官范围的平均值，以及b）器官/组织范围的平均。整个生物体的平均水平是在整个生命树上最容易比较数据的水平。它也是可用的最大数据集的级别，因为它适用于单细胞生物，并且因为即使在多细胞生物中，许多实验工作也通过设计直接针对整个生物。通常，整个生物体的平均值本身就很有意义，特别是对于进化研究。蛋白质的典型表达水平主要由其功能决定，对其进化轨迹有着惊人的巨大影响，控制着其氨基酸序列的净化选择程度(22)，其密码子用法(23)，翻译制度(24)，折叠精度(25,26)及其基因组组织(27,28)等等。由于给定蛋白质的所有表达状态都由相同的固定基因位点控制，因此全组织平均值很好地近似于该位点感受到的蛋白质丰度的进化影响。

我们数据聚合的第二个层次是器官/组织层次；它主要适用于更大、研究充分的模式生物。在这里，蛋白质组学数据的可用性仍然比较有限，但另一方面，组织数据在生物学上更直接相关。在组织蛋白质组学中仍存在空白的地方，在一定程度上可以通过广泛的转录组学收集来补充，这些转录组学也可以在组织分辨率上获得。

作为元资源，PaxDb的另一个重要关注点是提供直观的用户体验，例如通过包含简明的表格和视觉效果，以及通过直接集成附件信息。这允许无缝特别的蛋白质组学中的非专业用户浏览和查询数据库，并将生物学的不同方面结合起来进行高通量分析。该资源提供每个蛋白质的功能信息，包括序列特征、蛋白质域、功能注释和3D蛋白质结构数据。重要的是，PaxDb还提供了生命树中不同层次的预先计算的正形关系。这对于不同生物群的全球比较分析特别有用。它可以即时查看任何感兴趣的蛋白质家族，例如真核生物，详细说明迄今为止评估过的每个生物体和组织中家族成员的各种表达状态。

实验程序

数据源

因为PaxDb是一种元再资源，它完全来自已发表的实验和在初级蛋白质组学数据仓库中完成的繁琐工作。PaxDb本身不接受任何作者提交的实验数据。对于当前版本2.1，我们导入了81个定量蛋白质组学数据集，每个数据集针对12个模型生物体中的一个特定器官/组织或整个可检测的蛋白质组。这些数据集要么直接来自已发表的文献(29 –52)（其中实际数据文件通常通过PRIDE检索），或从PeptideAtlas下载(15,53)，利用PeptideAtlas“构建”。PeptideAttlas构建是存储在PeptideAltas中的多个蛋白质组数据集聚合的结果，并且通过标准化的数据库搜索和肽评分对数据进行了重新处理（对于一些生物体，我们对两个可用的构建进行平均，以在覆盖率和严格性之间取得平衡）。从PeptideAtlas构建中，我们分析了实际的光谱计数信息-即在整个构建过程中，哪些肽被识别，识别频率如何。PaxDb数据导入的这一部分完全基于并依赖于PeptideAtlas实施的原始评分和质量截止值(15,53).

标识符重新映射和光谱计数

在PaxDb中，每个蛋白质丰度数据集都被重新映射到各自的模式生物基因组/蛋白质组的最新、一致注释版本。参考基因组从STRING数据库导入(54)在目前的版本中，它拥有1000多个完全测序的基因组。使用STRING的内置同义词表，源标识符首先映射到各自的基因组位点，然后从那里映射到每个位点编码的单个“典型”蛋白质。通过设计，PaxDb在基因位点水平聚集任何特异性丰度信息；目前尚未存储拼接形态特定丰度信息（因为它通常采样不足，在PaxDb提供的高集成水平上信息量不大）。

在MS-MS光谱搜索报告的已鉴定肽序列的情况下，我们根据序列匹配将每个肽重新映射到相应的蛋白质。重要的是，任何不能明确定位到单个位点的肽，即使在折叠替代剪接亚型后，也会“部分地”分配给所有匹配的位点。这有效地将肽计数与最近重复的基因并行数平均；请注意，例如，在基于同源群的生物体之间进行比较时，这种同源群通常具有至少广泛相似的分子功能，并且进一步聚集在PaxDb中。

蛋白质丰度值

接下来，我们使用一致的表达单位将每个数据集中的信息转换为蛋白质丰度估计值。为此，我们用“百万分之一”（ppm）表示所有丰度，而不是使用“摩尔浓度”或“每个细胞的分子数”，即每个蛋白质实体都是相对于样品中所有其他蛋白质分子进行计数的。我们认为，这具有不受细胞大小和其他因素影响的优点；此外，这个定义可以包括任意的细胞外结构、体积或稀释。以“ppm”表示的丰度基本上是一种描述每种蛋白质的方式，参考整个表达的蛋白质组，特别是其中最丰富的蛋白质；后者通常局限于翻译装置和代谢或细胞结构维持中的少数核心蛋白。这种计数方法的另一个优点是，它很容易在组织和细胞培养样本之间进行比较，当然，在细胞大小和组织结构截然不同的不同模型生物体之间也可以进行比较。

在生物化学、生物物理或无标签质谱定量的情况下，我们通过重新调整作者提供的丰度估计值的总和，直接计算ppm值。在光谱计数数据的情况下，我们估计了丰度值，如前所述(34,55). 简单地说，我们首先根据蛋白质的长度来估计检测到的可能性，对蛋白质中的每个预期肽进行称重（我们已经证明，目前这种可能性在不同的生物体和质谱仪中是相对一致的(55)). 然后，我们计算每个蛋白质的实际肽覆盖率（对于每个匹配的蛋白质，不明确的肽被少量计数），并通过蛋白质中预期的肽覆盖率将这些计数标准化。最后，将生物体的所有光谱计数相加，并按其总和重新标定。

数据集评分

对于许多生物体来说，没有蛋白质全丰度的基准信息。此外，针对同一生物体的独立数据集之间的一致性有限(55)暗示了大量的技术和生物噪音。对于PaxDb，我们开发了一种间接的、略为近似的数据质量估算方法。它基于这样一种假设，即共同参与共同功能的蛋白质（例如蛋白质复合体的成员）应该具有大致相似的蛋白质丰度水平。因此，我们系统地计算了功能相关的成对蛋白质的丰度比(即STRING数据库中交互得分至少为0.900(54)). 对于给定的数据集，这些比率的中位数是一个粗略的质量/一致性指标-中位数越接近1.0，数据集的一致性越好。为了将其转换为易于理解和一致的分数，我们还计算了相同数据集在打乱其丰度值后的中值；这样做了数百次，并将实际中位数与Z评分设置中随机中位数的分布进行了比较。我们将此指标称为“交互一致性得分”。我们认为，这种间接评分数据集质量的方法有几个优点：a）它适用于每个模型生物体，前提是它在STRING数据库中以蛋白质相互作用表示，b）分数不仅基于少量参考蛋白质，而是基于数据集中所有蛋白质的很大一部分，c）只要所有相互作用的蛋白质都在一起调节，受调控的表达变化就不会影响分数，d）依赖功能性蛋白质相互作用，我们选择了一个与丰度测量非常不同的参考值，因此可能与它有很少的技术偏差。

集成数据集

基于有机体中每个贡献数据集的个体交互一致性得分，计算出与数据集加权平均值相对应的综合数据集。在给定的数据集中，任何报告不可检测的蛋白质的丰度都为零。对于加权平均值，手动决定给每个数据集赋予什么权重（对于某些数据集，权重也可以为零）。首先，给最佳评分数据集赋予1.0的权重，然后为次佳数据集选择一个权重，使最终加权组合的得分最大化。重复此操作，直到添加另一个数据集不再增加集成数据集的总分。偶尔，数据集的添加不会提高总体得分，但会带来额外的蛋白质，从而增加总体覆盖率。在这种情况下，如果认为其质量可以接受，则包括在内。一般来说，权重的指定必然有点武断——我们想强调的是，它们不应被视为对数据质量的陈述。

层次矫形学

为了帮助用户比较不同生物体的蛋白质丰度，我们预先计算并存储PaxDb中各种生物体蛋白质之间的所有可检测的直系关系。这是通过一个“组-理论”框架来实现的，该框架在许多资源中使用，例如COG(56)，鸡蛋NOG(57)或OrthoDB(58). 群直系学的优点是将最近重复的同源基因捆绑到同一个群中，从而在不同生物体中提供了一个具有广泛相似功能的天然聚集物。因为直系和副系的定义取决于所考虑的最后一个共同祖先的选择，所以我们提供了不同分辨率的直系关系；例如，一个特定的人类蛋白质只能在灵长类、后生动物、真核生物或所有活生物体中通过其直系亲属来观察。时间越早，这种选择就越不具体，但所捕获的函数就越普遍。对于PaxDb，我们使用eggNOG管道计算直系群(57)我们专门针对PaxDb中包含的生物体进行定制。在每个同源群中，PaxDb提供了每个生物体中每个蛋白质的综合丰度估计，以便于比较，但它也提供了每个有机体中所有同源蛋白质成员的总和（以及该有机体中给定基因家族的总丰度）。

组织本体术语

对于每个蛋白质丰度数据集，PaxDb试图提供一个标准化的本体引用，以正式描述其组织/样本来源。由于目前没有跨生物体的解剖本体的单一、统一的提供者，我们使用了几个本体框架，其中大多数被“Uberon”项目交叉引用(59). 重要的是，PaxDb在适用的情况下还将这些本体术语跨生物体连接起来(例如通过声明“鼠脑”是一个可以与“人脑”进行有意义比较的概念）。在生物体内系统地构建这些参考是令人畏惧的，但对于蛋白质组学数据目前涵盖的有限数量的组织来说，这可以手动完成。

数据库实施

PaxDb基于一个半自动化的导入管道，可以为每个新版本重复执行。数据存储在面向文档的数据库后端(网址：http://www.mongodb.org/)，并通过基于Java和Google web Toolkit的web前端提供服务。在Creative Commons许可下，所有数据都可以通过可下载的扁平文件免费获得。

结果和讨论

PaxDb数据库（“P（P）蛋白质A类堤岸A铬oss Organisms”）目前涵盖了所有三个生命领域的12个模型物种，从单细胞古生物到复杂的真核生物。对于这些生物体中的每一种，PaxDb的目标是提供单独的（组织解析的）数据集，此外还提供所有可检测蛋白质的单一、综合丰度估计。后一个估计是指全组织蛋白质表达的平均值，汇总了所有可用的数据集（来自不同的环境条件和发育阶段）。在适用的情况下，还提供了特定组织的综合平均值，即只要给定组织有几个独立的数据集。图1概述了PaxDb每个新版本的基本流程图（当前版本是2.1）。除了最终的聚合平均值之外，每个导入的数据集也可以使用，因为在重新映射到各自模型生物基因组的通用最新版本之后。所有丰度数据均以相同的数值框架表示，即以分子计数表示平均稳态蛋白质丰度，标准化为“百万分之一”（ppm；见上文“实验程序”一节）。除了这些丰度估计之外，每个蛋白质都与关于注释的功能、序列和结构信息的辅助信息一起呈现，并且在已知或预测的功能相互作用伙伴的网络上下文中呈现。所有这些信息都是从STRING数据库导入的(54)PaxDb与之共享蛋白质名称空间和所有功能注释信息。除了以蛋白质为中心的信息外，PaxDb还包含描述每个数据集的汇总指标，例如其在整个蛋白质组中的丰度分布。此外，所有蛋白质都被归为直系族（“直系族”），这使得可以直接比较生物体内的丰度估计值。

在单独的窗口中打开

图1。

PaxDb概述。对于PaxDb的每一个版本，蛋白质丰度信息都是从许多来源输入的，包括蛋白质组学知识库和已发表的研究。对所有数据进行预处理，对于原始MS/MS数据，通过光谱计数重新计算蛋白质丰度。其他信息从STRING数据库导入。数据的表示结构有三种不同的视图：1）关于单个蛋白质的信息，2）生物体内所有可检测蛋白质的丰度表，以及3）每个生物体的摘要页面，列出可用的数据集。在一个生物体存在多个数据集的情况下，PaxDb还提供了一个加权平均综合数据集，该数据集比单个数据集更全面，噪声更小。

由于蛋白质丰度的金标准基准/参考信息通常不可用，因此衡量PaxDb中单个数据集的质量绝非易事。在这里，我们采用两种不同的间接策略来获得对数据质量的粗略估计：一种是基于蛋白质相互作用信息，另一种是根据mRNA分子的丰度测量。蛋白质相互作用数据的使用基于这样的假设，即相互作用的蛋白质平均应具有大致相似的稳态丰度（另见上文“实验程序”）。如所示图2，这个假设充其量是一个过于简单的近似：酵母中两种相互作用蛋白的丰度中位数比率目前约为3:1。事实上，相互作用的蛋白质不一定要以相似的水平表达，特别是在短暂或调节相互作用的情况下。然而，观察到的3:1比率远小于可以偶然预计的10:1丰度比率（通过重复洗牌丰度数据进行评估），因此它确实提供了一个内在质量估计器。我们将此度量表示为来自随机分布的Z分数距离，并将其指定为“交互一致性分数”，使用mRNA丰度作为质量度量也是基于一个简化的假设：mRNA物种的平均稳态丰度应该是其编码蛋白稳态丰度的粗略预测值。当然，这并不一定适用于任何给定的转录物/蛋白质对，但总体相关性已被证明是非常显著的，并且随着测量准确性的提高，最近也有所改善(60). 与上述相互作用测试类似，这种mRNA相关性测试的优点是将大多数蛋白质都包含在样本中，并且与一般蛋白质定量几乎没有系统性技术偏差。以酵母为例，图2表明我们的评分确实揭示了不同蛋白质丰度数据集之间的巨大差异（另请参阅补充图S1和S2). 重要的是，PaxDb执行的数据整合(即贡献数据集的加权平均值）在这两个指标上得分最高，交互一致性得分约为23.8，与酵母中mRNA的Spearman秩相关约为0.64(图2,补充图S3). 相对于彼此，我们的两个一致性度量都表现出相当好的相关性（R_S公司= 0.74,第页值<0.0005，补充图S4A类)，从而使我们能够对数据质量/一致性提供至少一个初步的粗略估计。

在单独的窗口中打开

图2。

数据集质量。PaxDb的质量评分系统基于这样的假设，即相互作用的蛋白质应该具有大致相似的丰度。A类，左：中的蛋白质复合物的两个示例酿酒酵母它们都参与复制，但丰度不同。赖特：所有相互作用蛋白质对的丰度比，绘制为直方图。乱序数据（红色）显示与实际数据（蓝色）相比，比率更高。B类，对于两个不同的数据集，显示了实际比率的中位数（蓝色）和从500×丰度洗牌获得的中位数分布（红色）。PaxDb分数对应于z变换距离。根据下面的RNAseq数据绘制相同的两个数据集。C类综合数据集的PaxDb评分越高，与mRNA丰度的相关性也越好，并且涵盖了更多的蛋白质。酵母mRNA定量数据来自参考(62).

PaxDb的网站(图3和和4；4; 和http://pax-db.org/)设计用于直观快速访问，允许对感兴趣的蛋白质家族进行特别查询，以及浏览和比较整个数据集。蛋白质查询是根据大量标识符名称空间集合来解决的，并且可以在一个查询中同时请求多个蛋白质。除了搜索已知标识符外，还使用快速全文搜索，根据PaxDb中所有蛋白质的注释搜索用户查询。对于PaxDb中的每个生物体，一个独特的摘要页面提供了有关数据来源、覆盖范围和估计质量的信息(图3). 本页还以直方图的形式提供了每个数据集的丰度值分布，并列出了生物体中最丰富的蛋白质。用户可以从该页面打开并浏览整个数据集，从这些数据集表中，他们可以直接进入蛋白质详细信息页面，如果是PeptideAtlas数据，也可以通过深度链接直接返回到潜在的肽信息。

在单独的窗口中打开

图3。

有机体页面。该页面提供了有关所选生物体的一般信息，如数据集数量和蛋白质组覆盖率；它还提供了一个直方图，显示“集成”数据集中蛋白质丰度的分布。底部面板列出了选定物种的所有可用数据集。在PaxDb的每一页上顶部面板包含一个搜索框，允许用户搜索蛋白质名称和注释。

在单独的窗口中打开

图4。

蛋白质页面。此页面显示单个蛋白质的信息。蛋白质的简短描述之后是所有可用数据集中的丰度表，以及相应的丰度等级。在下面的面板中，显示了其他物种中直系同源物的丰度。正交曲线的分辨率可以通过下拉菜单进行过滤。这个底部该面板包含从其他来源导入的其他信息，例如域结构、交互伙伴以及到相关数据库的链接（此处截断）。

PaxDb蛋白页面(图4)最后构成所提供信息的核心。如UniProt上的注释所述，首先对所述蛋白质进行了鉴定，并根据其功能作用进行了简要描述(61)和/或专用模型生物数据库。然后分别列出每个可用数据集的估计丰度值，包括秩和分位数信息。对于构成PaxDb“最佳估计”的综合数据集，蛋白质在整个可检测蛋白质组中的相对位置随后在丰度直方图中可视化。接下来，该蛋白质显示在其他有机体中所有家族成员的上下文中，这些有机体具有丰富的信息。用户可以选择要显示的组织，以及控制直系亲属的系统发育深度；由于最后一个共同祖先被单独显示，但在每个生物体内也被相加，因此出现分歧的旁系的丰度。这种观点直接允许评估整个进化过程中存在问题的基因家族。最后，给出了关于该蛋白质的进一步辅助信息，包括相互作用伙伴、序列域和结构信息（如果可用）。后一信息直接与相关数据提供程序交联。

截至PaxDb的当前版本2.1，丰度估计的覆盖范围和通用性仍然受到数据可用性的极大限制。在一些生物体中，整个生物体的平均值受到相对较大的采样偏差的影响（尤其是在人类蛋白质数据中，血清样本的过度代表性很强）。此外，膜蛋白和其他“困难”亚群可能在系统上表现不足。然而，即使在这个早期阶段，核心蛋白质组的数量构成也开始出现。例如，当比较动物（人类、苍蝇、蠕虫）和其他真核生物（真菌、植物）时，真核核心蛋白质组的丰度相关性现在处于R_S公司= 0.80 (55)考虑到全利润量化仍存在技术困难，这一点值得注意。考虑到蛋白质组学测量的增长和质量的提高，这种相关性可能很快会进一步上升。展望未来，PaxDb将继续专注于基于质谱数据的量化（包括不断增长的无标签方法），也将基于生物化学或分子生物学方法。PaxDb的未来释放还将利用meta-information的预期增加，并将提供更多感兴趣水平的聚集和量化，例如细胞内细胞器或特定细胞系，所有这些都是在通过直系图进行无缝跨物种比较的背景下进行的。

脚注

*PaxDb的研究得到了瑞士国家科学基金会、SystemsX.ch倡议以及苏黎世大学“系统生物学和功能基因组学”研究优先项目的资助。

本文包含补充图S1至S4.

参考文献

1Vaudel M.、Sickmann A.、Martens L.（2010年）肽和蛋白质定量：雷区地图.蛋白质组学 10, 650–670 [公共医学][谷歌学者]

2Wang D.，Bodovitz S.（2010）单细胞分析：“组学”的新前沿.趋势生物技术。 28, 281–290[PMC免费文章][公共医学][谷歌学者]

三。Nilsson T.、Mann M.、Aebersold R.、Yates J.R.，第三、Bairoch A.、Bergeron J.J.（2010）高通量蛋白质组学中的质谱学：为大时代做好准备.自然方法 7, 681–685 [公共医学][谷歌学者]

4Rees J.、Lilley K.（2011年）酵母蛋白质组分析的赋能技术.方法分子生物学。 759, 149–178 [公共医学][谷歌学者]

5Castellana N.，Bafna V.（2010年）蛋白质组学用于发现基因组的完整编码内容：计算视角.蛋白质组学杂志 73, 2124–2135[PMC免费文章][公共医学][谷歌学者]

6Krug K.、Nahnsen S.、Macek B.（2011年）蛋白质组学和基因组学界面的质谱学.分子生物晶体 7, 284–291 [公共医学][谷歌学者]

7Surinova S.、Schiess R.、Huttenhain R.、Cerciello F.、Wollscheid B.、Aebersold R.（2011）血浆蛋白生物标志物的研究进展.蛋白质组研究杂志。 10，5-16[公共医学][谷歌学者]

8Rifai N.、Gillette M.A.、Carr S.A.（2006年）蛋白质生物标记物的发现和验证：通往临床应用的漫长而不确定的道路.自然生物技术。 24, 971–983 [公共医学][谷歌学者]

9Zhao Y.，Jensen O.N.（2009）修饰特异性蛋白质组学：利用富集技术表征翻译后修饰的策略.蛋白质组学 9, 4632–4641[PMC免费文章][公共医学][谷歌学者]

10VerBerkmoes N.C.、Denef V.J.、Hettich R.L.、Banfield J.F.（2009）系统生物学：利用社区蛋白质组学对天然微生物群落进行功能分析.自然修订版微生物。 7, 196–205 [公共医学][谷歌学者]

11Keller M.、Hettich R.（2009）环境蛋白质组学：在分子水平上表征微生物活动的范式转变.微生物。分子生物学。版次。 73, 62–70[PMC免费文章][公共医学][谷歌学者]

12Vizcaino J.A.、Foster J.M.、Martens L.（2010年）蛋白质组学数据存储库：为您的数据提供一个安全的避难所，并充当进一步研究的跳板.蛋白质组学杂志 73, 2136–2146[PMC免费文章][公共医学][谷歌学者]

13Vizcaino J.A.、CótéR、Reisinger F.、Barsnes H.、Foster J.M.、Rameseter J.、Hermjakob H.、Martens L.（2010）蛋白质组学鉴定数据库：2010年更新.核酸研究。 38，D736–42[PMC免费文章][公共医学][谷歌学者]

14Craig R.、Cortens J.P.、Beavis R.C.（2004）用于分析、验证和存储蛋白质鉴定数据的开源系统.蛋白质组研究杂志。三, 1234–1242 [公共医学][谷歌学者]

15Deutsch E.W.、Lam H.、Aebersold R.（2008）PeptideAtlas：新兴靶向蛋白质组工作流程的靶向选择资源.EMBO代表。 9, 429–434[PMC免费文章][公共医学][谷歌学者]

16Smith B.E.、Hill J.A.、Gjukich M.A.、Andrews P.C.（2011）Tranche分布式存储库和ProteomeCommons.org.方法分子生物学。 696，123–145[公共医学][谷歌学者]

17Kolker E.、Higdon R.、Haynes W.、Welch D.、Broomall W.、Lancet D.、Stanberry L.、Kolker N.（2012）MOPED：模型生物蛋白表达数据库.核酸研究。 40，D1093–9[PMC免费文章][公共医学][谷歌学者]

18Orchard S.、Hermjakob H.（2011）HUPO-PSI的数据标准化：社区如何受益？方法分子生物学。 696：第149-60页[公共医学][谷歌学者]

19刘浩，萨迪戈夫R.G.，叶特斯J.R.，第3期，（2004）鸟枪蛋白质组学中随机抽样和相对蛋白质丰度估计模型.分析。化学。 76, 4193–4201 [公共医学][谷歌学者]

20Braisted J.C.、Kuntumalla S.、Vogel C.、Marcotte E.M.、Rodrigues A.R.、Wang R.、Huang S.、Ferlanti E.S.、Saeed A.I.、Fleischmann R.D.、Peterson S.N.、Pieper（2008）APEX定量蛋白质组学工具：从LC-MS/MS蛋白质组学结果生成蛋白质定量估计.BMC生物信息学 9, 529.[PMC免费文章][公共医学][谷歌学者]

21Ishihama Y.、Oda Y.、Tabata T.、Sato T.、Nagasu T.、Rappsilber J.、Mann M.（2005）指数修正蛋白质丰度指数（emPAI），用于通过每个蛋白质的测序肽数量估计蛋白质组学中的绝对蛋白质量.分子细胞。蛋白质组学 4, 1265–1272 [公共医学][谷歌学者]

22Drummond D.A.、Bloom J.D.、Adami C.、Wilke C.O.、Arnold F.H.（2005）为什么高表达蛋白质进化缓慢.程序。国家。阿卡德。科学。美国。 102, 14338–14343[PMC免费文章][公共医学][谷歌学者]

23Sharp P.M.、Emery L.R.、Zeng K.（2010）影响密码子偏向进化的力.菲洛斯。事务处理。R.Soc.伦敦。B类 365, 1203–1212[PMC免费文章][公共医学][谷歌学者]

24Tuller T.、Carmi A.、Vessigian K.、Navon S.、Dorfan Y.、Zaborske J.、Pan T.、Dahan O.、Furman I.、Pilpel Y.（2010）控制蛋白质翻译效率的进化保守机制.单元格 141, 344–354 [公共医学][谷歌学者]

25Drummond D.A.、Wilke C.O.（2008）翻译错误诱导的蛋白质错误折叠是编码序列进化的主要制约因素.单元格 134, 341–352[PMC免费文章][公共医学][谷歌学者]

26Powers E.T.、Balch W.E.（2008）代价高昂的错误：翻译不忠和蛋白质稳态.单元格 134, 204–206 [公共医学][谷歌学者]

27Castillo Davis C.I.、Mekhedov S.L.、Hartl D.L.、Koonin E.V.、Kondrashov F.A.（2002）高表达基因中短内含子的选择.自然遗传学。 31, 415–418 [公共医学][谷歌学者]

28Zaslaver A.、Baugh L.R.、Sternberg P.W.（2011年）后生动物操纵子加速从生长停滞状态中恢复.单元格 145, 981–992[PMC免费文章][公共医学][谷歌学者]

29Castellana N.E.、Payne S.H.、Shen Z.、Stanke M.、Bafna V.、Briggs S.P.（2008）蛋白基因组学对拟南芥基因的发现和修正.程序。国家。阿卡德。科学。美国。 105, 21034–21038[PMC免费文章][公共医学][谷歌学者]

30Baerenfaller K.、Grossmann J.、Grobei M.A.、Hull R.、Hirsch-Hoffmann M.、Yalovsky S.、Zimmermann P.、Grossniklaus U.、Gruissem W.、Baginsky S.（2008）基因组尺度蛋白质组学揭示拟南芥基因模型和蛋白质组动力学.科学类 320, 938–941 [公共医学][谷歌学者]

31Newman J.R.、Ghaemaghami S.、Ihmels J.、Breslow D.K.、Noble M.、DeRisi J.L.、Weissman J.S.（2006）酿酒酵母单细胞蛋白质组分析揭示了生物噪声的结构.自然 441, 840–846 [公共医学][谷歌学者]

32Ghaemmaghami S.、Huh W.K.、Bower K.、Howson R.W.、Belle A.、Dephoure N.、O'Shea E.K.、Weissman J.S.（2003）酵母蛋白质表达的整体分析.自然 425, 737–741 [公共医学][谷歌学者]

33de Godoy L.M.、Olsen J.V.、Cox J.、Nielsen M.L.、Hubner N.C.、Fröhlich F.、Walter T.C.、Mann M.（2008）基于质谱的单倍体与二倍体酵母蛋白质组综合定量.自然 455, 1251–1254 [公共医学][谷歌学者]

34Schrimpf S.P.、Weiss M.、Reiter L.、Ahrens C.H.、Jovanovic M.、Malmstrom J.、Brunner E.、Mohanty S.、Lercher M.J.、Hunziker P.E.、Aebersold R.、von Mering C.、Hengartner M.O.（2009）秀丽隐杆线虫和果蝇蛋白质组的比较功能分析.《公共科学图书馆·生物》。 7，e48。[PMC免费文章][公共医学][谷歌学者]

35Brunner E.、Ahrens C.H.、Mohanty S.、Baetschmann H.、Loevenich S.、Potthast F.、Deutsch E.W.、Panse C.、de Lichtenberg U.、Rinner O.、Lee H.、Pedrioli P.G.、Malmstrom J.、Koehler K.、Schrimpf S.、Krijgsveld J.、Kregenow F.、Heck A.J.、Hafen E.、Schlapbach R.、Aebersold R.（2007）果蝇蛋白质组的高质量目录.自然生物技术。 25, 576–583 [公共医学][谷歌学者]

36Kuntumalla S.、Braisted J.C.、Huang S.T.、Parmar P.、Clark D.J.、Alami H.、Zhang Q.、Donohue-Rolfe A.、Tzipori S.、Fleischmann R.D.、Peterson S.N.、Pieper R.（2009）应用于痢疾杆菌蛋白质组的APEX和2D凝胶电泳两种无标签全局定量方法的比较.蛋白质组科学。 7, 22.[PMC免费文章][公共医学][谷歌学者]

37Malmström J.、Beck m.、Schmidt A.、Lange V.、Deutsch E.W.、Aebersell R.（2009年）人类病原体问号钩端螺旋体的蛋白质组宽细胞蛋白浓度.自然 460, 762–765[PMC免费文章][公共医学][谷歌学者]

38Taniguchi Y.、Choi P.J.、Li G.W.、Chen H.、Babu M.、Hearn J.、Emili A.、Xie X.S.（2010）单细胞单分子敏感性大肠杆菌蛋白质组和转录组的定量.科学类 329, 533–538[PMC免费文章][公共医学][谷歌学者]

39Lewis N.E.、Hixson K.K.、Conrad T.M.、Lerman J.A.、Charusanti P.、Polpitiya A.D.、Adkins J.N.、Schramm G.、Purvine S.O.、Lopez-Ferrer D.、Weitz K.、Eils R.、Konig R.、Smith R.D.、Palsson B.O.（2010）进化大肠杆菌的Omic数据与基因组模型计算出的最佳生长相一致.摩尔系统。生物。 6, 390.[PMC免费文章][公共医学][谷歌学者]

40Kuhner S.、van Noort V.、Betts M.J.、Leo-Macias A.、Batisse C.、Rode M.、Yamada T.、Maier T.、Bader S.、Beltran-Alvarez P.、Castano-Diez D.、Chen W.H.、Devos D.、Guell M.、Norambena T.、Racke I.、Rybin V.、Schmidt A.、Yus E.、Aebersold R.、Herrmann R.、Botcher B.、Frangakis A.S.、Russell R.、Serrano L.、Bork P.、Gavin A.C.（2009）基因组减少细菌中的蛋白质组组织.科学类 326, 1235–1240 [公共医学][谷歌学者]

41Lu P.、Vogel C.、Wang R.、Yao X.、Marcotte E.M.（2007）绝对蛋白表达谱估计转录和翻译调控的相对贡献.自然生物技术。 25, 117–124 [公共医学][谷歌学者]

42Kislinger T.、Cox B.、Kannan A.、Chung C.、Hu P.、Ignatchenko A.、Scott M.S.、Gramolini A.O.、Morris Q.、Hallett M.T.、Rossant J.、Hughes T.R.、Frey B.、Emili A.（2006）小鼠器官和细胞器蛋白表达的全球调查：蛋白质组学和转录组学相结合的分析.单元格 125, 173–186 [公共医学][谷歌学者]

43Huttlin E.L.、Jedrychowski M.P.、Elias J.E.、Goswami T.、Rad R.、Beausoleil S.A.、Villen J.、Haas W.、Sowa M.E.、Gygi S.P.（2010）小鼠蛋白磷酸化和表达的组织特异图谱.单元格 143, 1174–1189[PMC免费文章][公共医学][谷歌学者]

44Krüger M.、Moser M.、Ussar S.、Thievessen I.、Luber C.A.、，。，Forner F.、Schmidt S.、Zanivan S.、Fassler R.、Mann M.（2008）用于定量蛋白质组学的SILAC小鼠发现kindlen-3是红细胞功能的必要因子.单元格 134, 353–364 [公共医学][谷歌学者]

45Martens L.、Müller M.、Stephan C.、Hamacher M.、Reidegeld K.A.、Meyer H.E.、Bluggel M.、Vandekerckhove J.、Gevaert K.、Apweiler R.（2006）HUPO脑蛋白质组项目试点与其他蛋白质组学研究的比较.蛋白质组学 6，5076–5086[公共医学][谷歌学者]

46王浩、钱伟杰、钦M.H.、佩特尤克V.A.、巴里R.C.、刘T.、格里森科M.A.、莫塔兹H.M.、摩尔R.J.、坎普D.G.、Ii、汗A.H.、史密斯D.J.、史密斯R.D.（2006）利用整体蛋白质组分析和半胱氨酸肽富集对小鼠脑蛋白质组进行表征.蛋白质组研究杂志。 5, 361–369[PMC免费文章][公共医学][谷歌学者]

47Waanders L.F.、Chwalek K.、Monetti M.、Kumar C.、Lammert E.、Mann M.（2009）单个胰岛的定量蛋白质组分析.程序。国家。阿卡德。科学。美国。 106, 18902–18907[PMC免费文章][公共医学][谷歌学者]

48郭欣，沈杰，夏姿，张瑞，张平，赵C.，邢J.，陈磊，陈伟，林M.，霍瑞，苏波，周姿，沙杰（2010）小鼠精子发生相关蛋白的蛋白质组学分析.蛋白质组研究杂志。 9, 1246–1256 [公共医学][谷歌学者]

49Aye T.T.、Scholten A.、Taouatas N.、Varro A.、Van Veen T.A.、Vos M.A.、Heck A.J.（2010）人类心脏中蛋白质组范围内的蛋白质浓度.分子生物晶体。 6, 1917–1927 [公共医学][谷歌学者]

50Kline K.G.、Frewen B.、Bristow M.R.、Maccoss M.J.、Wu C.C.（2008）人类心脏蛋白型肽的高质量目录.蛋白质组研究杂志。 7, 5055–5061[PMC免费文章][公共医学][谷歌学者]

51Abdul-Salam V.B.、Wharton J.、Cupitt J.、Berryman M.、Edwards R.J.、Wilkins M.R.（2010）肺动脉高压患者肺组织的蛋白质组分析.循环 122, 2058–2067 [公共医学][谷歌学者]

52Grobei M.A.、Qeli E.、Brunner E.、Rehrauer H.、Zhang R.、Roschitzki B.、Basler K.、Ahrens C.H.、Grossniklaus U.（2009）鸟枪蛋白质组学数据的确定性蛋白质推断为拟南芥花粉发育和功能提供了新的见解.基因组研究。 19, 1786–1800[PMC免费文章][公共医学][谷歌学者]

53Deutsch E.W.（2010）PeptideAtlas项目.方法分子生物学。 604, 285–296[PMC免费文章][公共医学][谷歌学者]

54Szklarczyk D.、Franceschini A.、Kuhn M.、Simonovic M.、Roth A.、Minguez P.、Doerks T.、Stark M.，Muller J.、Bork P.、Jensen L.J.、von Mering C.（2011）2011年的STRING数据库：蛋白质的功能相互作用网络，全球整合和评分.核酸研究。 39，D561-8[PMC免费文章][公共医学][谷歌学者]

55Weiss M.、Schrimpf S.、Hengartner M.O.、Lercher M.J.、von Mering C.（2010）来自多种生物的Shotgun蛋白质组学数据揭示了真核生物核心蛋白质组的显著数量保守性.蛋白质组学 10, 1297–1306 [公共医学][谷歌学者]

56Tatusov R.L.、Fedorova N.D.、Jackson J.D.、雅各布斯A.R.、Kiryutin B.、Koonin E.V.、Krylov D.M.、Mazumder R.、Mekhedov S.L.，Nikolskaya A.N.、Rao B.S.、Smirnov S.、Sverdlov A.V.、Vasudevan S.、Wolf Y.I.、Yin J.、Natale D.A.（2003）COG数据库：更新版本包括真核生物.BMC生物信息学 4, 41.[PMC免费文章][公共医学][谷歌学者]

57Muller J.、Szklarczyk D.、Julien P.、Letunic I.、Roth A.、Kuhn M.、Powell S.、von Mering C.、Doerks T.、Jensen L.J.、Bork P.（2010）eggNOG v2.0：用增强的非监督直系群、物种和功能注释扩展基因的进化谱系.核酸研究。 38，D190–5[PMC免费文章][公共医学][谷歌学者]

58Waterhouse R.M.、Zdobnov E.M.、Tegenfeldt F.、Li J.、Kriventseva E.V.（2011）OrthoDB：2011年真核生物同源序列的层次目录.核酸研究。 39，D283–8[PMC免费文章][公共医学][谷歌学者]

59Mungall C.J.、Torniai C.、Gkoutos G.V.、Lewis S.E.、Haendel M.A.（2012）Uberon，一个集成的多物种解剖本体.基因组生物学。 13，第5页。[PMC免费文章][公共医学][谷歌学者]

60Tuller T.、Kupiec M.、Ruppin E.（2007）酿酒酵母蛋白质丰度和翻译效率的决定因素.PLoS计算机。生物。三第248页。[PMC免费文章][公共医学][谷歌学者]

61Apweiler R.、Martin M.J.、O’Donovan C.、Magrane M.、Alam-Faruque Y.、Antunes R.、Barrell D.、Bely B.、Bingley M.、Binns D.、Bower L.、Browne P.、Chan W.M.、Dimmer E.、Eberhardt R.、Fazzini F.、Fedotov A.、Foulger R.、Garavelli J.、Castro L.G.、Huntley R.、Jacobsen J.，Kleen M.、Laiho K.、Legge D.、Lin Q.、Liu W.、Luo J.、Orchard S。，Pichler K.、Poggioli D.、Pontikos N.、Pruess M.、Rosanoff S.、Sawford T.、Sehra H.、Turner E.、Corbett M.、Donnelly M.、van Rensburg P.、Xenarios I.、Bouguellet L.、Auchincloss A.、Argoud-Puy G.、Axelsen K.、Bairoch A.、Baratin D.、Blatter M.C.、Boeckmann B.、Bolleman J.、Bollondi L.、Boutet E.、Quintaje S.B.、Breuza L.、Bridge A.、deCastro E.、。，Coudert E.、Cusin I.、Doche M.、Dornevil D.、Duvaud S.、Estreicher A.、Famiglietti L.、Feuermann M.、Gehant S.、Ferro S.、Gasteiger E.、Gateau A.、Gerritsen V.、Gos A.、Gruaz Gumowski N.、Hinz U.、Hulo C.、Hulo N.、James J.、Jimenez S.、Jungo F.、Kappler T.、Keller G.、Lara V.、Lemercier P.、Liebeherr D.、Martin X.、Masson P.、Moinat M。，Morgat A.、Paesano S.、Pedruzzi I.、Pilbout S.、Poux S.、Bozzato M.、Redaschi N.、Rivoire C.、Roechart B.、Schneider M.、Sigrist C.、Sonesson K.、Staehli S.、Stanley E.、Stutz A.、Sundaram S.、Tognolli M.、Verbregue L.、Veuthey A.、Wu C.H.、Arighi C.、Arminski L.、Barker W.C.、Chen C.、Chen Y.、Dubey P.、Huang H.、Mazumder R.、McGarvey P。，Natale D.A.、Natarajan T.G.、Nchoutmboube J.、Roberts N.V.、Suzek B.E.、Ugochukwu U.、Vinayaka C.R.、Wang Q.、Wang Y.、Yeh L.S.、Zhang J.（2011）Universal Protein Resource的当前和未来发展.核酸研究。 39，D214–9[PMC免费文章][公共医学][谷歌学者]

62Nagalakshmi U.、Wang Z.、Waern K.、Shou C.、Raha D.、Gerstein M.、Snyder M.（2008）RNA测序确定的酵母基因组转录图谱.科学类 320, 1344–1349[PMC免费文章][公共医学][谷歌学者]

文章来自分子和细胞蛋白质组学：MCP由以下人员提供美国生物化学和分子生物学学会

PaxDb，生命三个领域蛋白质丰度平均值数据库*

王先生

M.韦斯

西莫诺维奇

G.海廷格

S.P.Schrimpf公司

M.O.Hengartner先生

C.冯·梅林

摘要

实验程序

数据源

标识符重新映射和光谱计数

蛋白质丰度值

数据集评分

集成数据集

层次矫形学

组织本体术语

数据库实施

结果和讨论

脚注

参考文献

PaxDb，生命三个领域蛋白质丰度平均值数据库^*