跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
国家生物技术。作者手稿;PMC 2014年9月10日发布。
以最终编辑形式发布为:
预防性维修识别码:项目经理3986813
NIHMSID公司:美国国立卫生研究院549897
PMID:24727771

ProtomeXchange提供全球协调的蛋白质组学数据提交和传播

关联数据

补充资料

到编辑器

蛋白质组学数据的公开传播趋势日益明显,这有助于评估、重用、比较分析和从已发布数据中提取新发现1,2这一过程主要由期刊出版指南和资助机构推动。然而,需要更好地整合公共存储库,并协调共享表示基于质谱(MS)的蛋白质组学实验所需的所有信息。你2009年7月的社论《信贷逾期的信贷》揭示了蛋白质组学领域的情况,在该领域,全面数据披露仍然不常见。奥尔森和曼恩4在典型实验中识别出不同水平的信息,从原始数据开始,经过肽鉴定和定量、蛋白质鉴定和比率以及由此得出的生物学结论。所有这些水平都应该使用现有的MS蛋白质组学数据库来获取MS数据(原始数据、鉴定和量化结果)和元数据,并在公共数据库中进行适当注释,而产生的生物信息应该集成在蛋白质知识库中,如UniProt5。最近的一篇社论自然方法6再次强调需要一个稳定的MS蛋白质组学原始数据存储库。在这封信件中,我们报告了ProteomeXchange联盟的首次实施,这是一个提交和传播基于MS的蛋白质组学数据的综合框架。

在现有的MS蛋白质组学知识库中,PRIDE(蛋白质组学识别)数据库拥有广泛的目标受众7(欧洲生物信息学研究所,EBI,英国剑桥;http://www.ebi.ac.uk/pride)和肽阿特拉斯8(美国西雅图ISB系统生物学研究所;http://www.peptieatlas.org网站)是其中最突出的两个。两者都主要关注串联MS(MS/MS)数据存储。鉴于PRIDE代表了研究人员最初分析的信息(因此构成了一种主要资源),PeptideAtlas中的数据通过一个公共管道(跨蛋白质管道)进行重新处理,以提供对数据的统一分析视图,重点关注低蛋白假发现率(构成了一项次要资源)此外,ISB还为SRM数据建立了第一个存储库PASSEL9(PeptideAtlas SRM实验库,http://www.peptideatlas.org/passel网站/). 还有其他专用于存储MS蛋白质组学数据的资源,每个资源都具有不同的重点和功能,例如GPMDB(使用搜索引擎X!Tandem重新处理数据)10在更高的抽象层次上,UniProt和neXtProt等资源正在将蛋白质组学结果集成到来自许多不同来源的更广泛的功能注释上下文中,包括基于抗体的方法。

尽管所提到的大多数蛋白质组学资源已经存在很长时间了,但它们的作用是独立的,其活动的协调性有限。因此,数据提供者不清楚他们应该向哪个存储库提交数据集,以及以何种形式提交数据,选择范围从完整的原始数据到高度处理的标识和量化。此外,没有存储库可以同时存储原始数据和结果。数据消费者也遇到了类似的问题,他们无法始终在UniProt中找到支持蛋白质修改的数据,也无法知道PRIDE中的特定数据集是否已集成到PeptideAtlas中。

ProteomeXchange(PX)联盟(http://www.proteomexchange.org)成立于2006年(参考。11)为了克服这些挑战,从松散的合作发展成为该领域主要利益相关者的国际联盟,其中包括初级资源(PRIDE、PASSEL)和次级资源(PeptideAtlas、UniProt)、蛋白质组学生物信息学家、研究人员(包括参与HUPO人类蛋白质组项目的一些人员),和定期发表蛋白质组学数据的期刊代表(补充说明,第7节)。ProteomeXchange联盟的目标是通过定义和实施主要公共蛋白质组学知识库之间一致、协调、用户友好的数据沉积和交换程序,为蛋白质组学资源的合作提供一个通用框架和基础设施。

ProteomeXchange为多种MS数据类型提供了统一的数据提交,并提供了存放数据的不同“视图”,例如适合重新处理的原始数据、作者生成的标识以及UniProt等资源中的高度过滤复合结果,所有这些都通过通用共享标识符链接。作者能够引用其出版物中报告的数据集的ProteomeXchange登录号。因此,数据集(带有适当的元数据)正在变得可发布就其本身而言如果不同的消费者在不同的出版物中使用,则可以对其进行跟踪。

单个资源可以通过实施ProteomeXchange数据提交和发布指南以及元数据要求来加入ProteomeXchange。在当前版本中(http://www.proteomexchange.org/concept),强制性信息包括:(i)质谱仪输出文件(原始数据,二进制格式或标准开放格式,如mzML);(ii)处理后的识别结果(有两种提交模式,见下文);以及(iii)足够的元数据,以提供适当的生物和技术背景,包括方法信息,例如SRM数据的过渡列表。还可以提供其他类型的信息,如峰列表文件(鉴定过程中最常用的质谱处理版本)和量化结果。

现在完全支持两种主要的MS蛋白质组学工作流程:串联MS和SRM数据(图1补充图1). PRIDE是MS/MS数据的初始提交点,而PASSEL是SRM数据的初始交付点。预计在大多数情况下,一个ProteomeXchange数据集将对应于一个出版物中的数据,并将与之明确链接。然而,这一概念很灵活,并且还可以使用一种机制对不同的ProteomeXchange数据集中进行分组,例如用于大规模协作研究。目前,MS/MS数据有两种不同的提交模式:

保存图片、插图等的外部文件。对象名为nihms549897f1.jpg

表示用于MS/MS和SRM数据的ProteomeXchange工作流*原始数据表示质谱仪输出文件。

  1. -“完整提交”:这要求肽和蛋白质鉴定结果得到充分支持并集成到接收库中(目前为PRIDE)。因此,必须首先将搜索引擎输出文件(以及相关光谱)转换为PRIDE XML或mzIdentML格式(这是一个由一些流行且用户友好的工具支持的过程,补充说明,第5节)。完整的提交使数据完全可供查询,从而最大限度地提高了在MS中重复使用数据的潜力。这反过来又增加了相关出版物的可见性。每个数据集都分配了一个DOI(数字对象标识符),允许通过引文索引(如您的社论中所建议的)向提交者及其主要研究人员提供正式的信用.
  2. -“部分提交”:对于这些提交,肽或蛋白质鉴定结果无法集成在PRIDE中,因为尚未提供支持格式的数据转换器和导出器。在这种情况下,可以直接以原始格式提供搜索引擎输出文件。虽然部分提交可以通过元数据进行搜索,但不能通过蛋白质标识符等结果进行完全搜索,并且不会收到DOI。然而,部分提交很重要,因为它们允许将来自新实验方法的数据存储到ProteomeXchange资源中,而不必在工作流映射到PRIDE或另一个ProteomeXchange合作伙伴中的表示之前拒绝这些数据。

对于MS/MS数据集的提交,提供了一个独立的开源Java工具“ProteomeXchange提交工具”(http://www.proteomexchange.org/submission网站) (补充说明第5节,补充图2-10). 该工具允许交互式提交小型数据集以及大规模批量提交。

对于SRM数据集,web表单(http://www.peptideatlas.org/submit网站)可用于提交给PASSEL。与上述MS/MS数据集指南类似,PASSEL提交文件需要质谱仪输出文件、研究元数据、肽试剂、分析结果文件和实际SRM转换列表,这些信息驱动仪器数据采集。提交数据集后,管理员会对其进行检查,然后将其加载到主PASSEL数据库中,这有助于对数据和结果进行交互式探索。

提交的信息和文件可以在稿件同行评审期间选择性地提供给期刊编辑和审稿人。一旦手稿被接受出版或提交者直接通知接收库,数据将被公开发布(图1). 此时,数据集的可用性以及基本元数据将通过公共RSS提要进行传播(http://groups.google.com/group/proteomexchange/feed/rss_v2_0_msgs.xml). RSS提要包含指向XML消息(ProteomeXchange XML)的链接,该消息由接收存储库创建(补充说明,第3节),并可从所有公共ProteomeXchange数据集的门户ProteomeCentral获得(http://proteomecentral.proteomexchange.org) (补充说明,第2节)。诸如PeptideAtlas或GPMDB之类的存储库以及任何感兴趣的最终用户都可以订阅此RSS提要并触发操作,包括将数据并入本地资源、重新处理或生物分析。这种再处理已经在实践中进行。例如,两个ProteomeXchange数据集(PXD000134和PXD00157)已用于最新构建的肽Talas和PXD000013中的人类蛋白质组(参考文献。12)被GPMDB重新处理并提名为2012年的技术数据集(http://www.thegpm.org/dosotw_2012.html-201210071)。

ProteomeXchange于2012年6月开始接受定期提交。截至2013年8月初,已提交373个ProteomeXchange数据集(包括341个串联MS和32个SRM数据集,图2),总共约25 TB的数据。迄今为止提交的最大数据量(目前仍为私有)包括5 TB的数据。有关公共可用数据集的当前列表,请参阅http://proteomecentral.proteomexchange.org/.

保存图片、插图等的外部文件。对象名为nihms549897f2.jpg

ProteomeXchange提交的主要指标摘要(截至2013年8月)。数据集的数量表示提交类型、数据访问状态以及代表的顶级物种和国家。

总之,ProteomeXchange为蛋白质组学数据的高效可靠公共传播提供了基础设施,支持关键的验证、分析和重用。通过提供和链接数据的不同解释,我们旨在最大限度地提高数据集的可见性,以及它们对不同社区的潜在利益。可引用性和可追溯性通过分配DOI和公共标识符空间来解决。联合体对其他资源的参与持开放态度(补充说明,第9节)。尽管所有存储库都依赖于持续运作的持续资金,但ProteomeXchange核心存储库PRIDE和PeptideAtlas已经建立,2005年首次发布(参考文献。7,8),并有强大的机构支持(补充说明确保数据在可预见的未来保持可靠可用。我们相信,ProteomeXchange基础设施将支持蛋白质组学数据公共可用性的不断增长趋势,通过增加获取便利性、增强重新评估解释和提取进一步生物见解的能力,使其对科学界的利益最大化,提交者的引用率更高。

补充材料

1

单击此处查看。(420万,pdf)

致谢

我们感谢所有作为利益相关者参加ProteomeXchange会议的社区成员。这项工作得到了欧盟FP7赠款ProteomeXchange[赠款编号260558]的支持。JAV、AC、FR和DR也由Wellcome信托基金资助[赠款编号WT085949MA]。EWD、ZS和TF也部分由NIH/NIGMS拨款R01 GM087221、NSF MRI[拨款0923536]、卢森堡系统生物医学中心和卢森堡大学资助。ME由P.U.R.E.资助(网址:http://www.pure.rub.de,欧洲研究蛋白质单位),Nordrhein-Westfalen(德国)项目。LG得到了欧盟FP7 PRIME-XS项目的支持[赠款编号262067]。RW得到了BBSRC“PRIDE Converter”拨款的支持[参考BB/I024204/1]。

缩写

内政部数字目标标识符
EBI公司欧洲生物信息研究所
国际标准化银行系统生物学研究所
PASSEL(乘客)PeptideAtlaS SRM实验库
荣耀蛋白质组学识别
军中福利社蛋白质X变化
RSS(RSS)丰富网站摘要
SRM公司选定反应监测

脚注

竞争性金融利益

作者没有相互竞争的财务或商业利益。

作者贡献

JAV、HH和EWD领导了ProteomeXchange数据工作流、指南和相关软件的当前实施。RW开发了“ProteomeXchange提交工具”。其他作者以不同的方式为ProteomeXchange联盟的发展做出了贡献,例如,过去为最初的ProteomeXchange原型做出了贡献、开发了软件和数据标准,或者在不同方面为指南和数据工作流的实施做出了贡献。JAV、EWD和HH撰写了手稿。

所有作者都同意手稿中的所有内容,包括所提供的数据。

参考文献

1哈内·H、库斯特·B。分子细胞蛋白质组学。2012;11:1063–1069. [PMC免费文章][公共医学][谷歌学者]
2Matic I、Ahel I、Hay RT。自然方法。2012;9:771–772. [PMC免费文章][公共医学][谷歌学者]
三。国家生物技术。2009;27:579.编辑。[公共医学][谷歌学者]
4奥尔森合资公司,Mann M。科学信号。2011;4:pe7。[公共医学][谷歌学者]
5UniProt联盟。核酸研究。2012;40:D71–75。 [PMC免费文章][公共医学][谷歌学者]
6自然方法。2012;9:419.编辑。[公共医学][谷歌学者]
7Martens L等人。蛋白质组学。2005;5:3537–3545.[公共医学][谷歌学者]
8Deutsch EW等人。蛋白质组学。2005;5:3497–3500.[公共医学][谷歌学者]
9Farrah T等人。蛋白质组学。2012;12:1170–1175. [PMC免费文章][公共医学][谷歌学者]
10Craig R、Cortens JP、Beavis RC。蛋白质组研究杂志。2004;:1234–1242.[公共医学][谷歌学者]
11Hermjakob H,Apweiler R。蛋白质组学专家评论。2006;:1-3。[公共医学][谷歌学者]
12Vaudel M等人。蛋白质组研究杂志。2012;11:5072–5080.[公共医学][谷歌学者]