ProteomeXchange provides globally co-ordinated proteomics data submission and dissemination

Juan A. Vizcaíno; Eric W. Deutsch; Rui Wang; Attila Csordas; Florian Reisinger; Daniel Ríos; José A. Dianes; Zhi Sun; Terry Farrah; Nuno Bandeira; Pierre-Alain Binz; Ioannis Xenarios; Martin Eisenacher; Gerhard Mayer; Laurent Gatto; Alex Campos; Robert J. Chalkley; Hans-Joachim Kraus; Juan Pablo Albar; Salvador Martinez-Bartolomé; Rolf Apweiler; Gilbert S. Omenn; Lennart Martens; Andrew R. Jones; Henning Hermjakob

doi:10.1038/nbt.2839

国家生物技术。作者手稿；PMC 2014年9月10日发布。

以最终编辑形式发布为：

国家生物技术。2014年3月；32(3): 223–226.

数字对象标识：10.1038/nbt.2839

预防性维修识别码：项目经理3986813

NIHMSID公司：美国国立卫生研究院549897

PMID：24727771

ProtomeXchange提供全球协调的蛋白质组学数据提交和传播

胡安·A·维斯卡诺,^1,¹⁷ 埃里克·W·多伊奇,^2,¹⁷ 王瑞（Rui Wang）,¹ 阿提拉·索尔达斯,¹ 弗洛里安·赖辛格,¹ 丹尼尔·雷奥斯,¹ 何塞·A·戴安斯,¹ 智孙,² 特里·法拉,² 努诺·班德拉,^三皮尔雷·阿莱恩·宾兹,⁴ Ioannis Xenarios公司,^4,^5,⁶ 马丁·艾森纳赫,⁷ 格哈德·迈耶,⁷ 劳伦特·加托,⁸ 亚历克斯·坎波斯,⁹ 罗伯特·乔克利,¹⁰ 汉斯·约阿希姆·克劳斯,¹¹ 胡安·巴勃罗·阿尔巴尔,¹² 萨尔瓦多·马丁内斯·巴托洛姆,¹² 罗尔夫·阿普韦勒,¹ 吉尔伯特·S·奥曼,^2,¹³ 伦纳特·马滕斯,^14,¹⁵ 安德鲁·琼斯,¹⁶和Henning Hermjakob公司¹

胡安·维兹卡诺

¹欧洲生物信息学研究所（EMBL-EBI），欧洲分子生物学实验室，Wellcome Trust Genome Campus，Hinxton，Cambridge，CB10 1SD，UK

查找文章依据胡安·维兹卡诺

埃里克·W·多伊奇

²系统生物学研究所，401 Terry Avenue North，Seattle，WA 98109，USA

查找文章依据埃里克·W·多伊奇

王瑞（Rui Wang）

¹欧洲生物信息学研究所（EMBL-EBI），欧洲分子生物学实验室，Wellcome Trust Genome Campus，Hinxton，Cambridge，CB10 1SD，UK

查找文章依据王瑞（Rui Wang）

阿提拉·索尔达斯

¹欧洲生物信息学研究所（EMBL-EBI），欧洲分子生物学实验室，Wellcome Trust Genome Campus，Hinxton，Cambridge，CB10 1SD，UK

查找文章依据阿提拉·索尔达斯

弗洛里安·赖辛格

¹欧洲生物信息学研究所（EMBL-EBI），欧洲分子生物学实验室，Wellcome Trust Genome Campus，Hinxton，Cambridge，CB10 1SD，UK

查找文章依据弗洛里安·赖辛格

丹尼尔·雷奥斯

¹欧洲生物信息学研究所（EMBL-EBI），欧洲分子生物学实验室，威康信托基因组校区，剑桥，CB10 1SD，英国

查找文章依据丹尼尔·雷奥斯

何塞·A·戴安斯

¹欧洲生物信息学研究所（EMBL-EBI），欧洲分子生物学实验室，Wellcome Trust Genome Campus，Hinxton，Cambridge，CB10 1SD，UK

查找文章依据何塞·A·戴安斯

智孙

²系统生物学研究所，401 Terry Avenue North，Seattle，WA 98109，USA

查找文章依据智孙

特里·法拉

²系统生物学研究所，401 Terry Avenue North，Seattle，WA 98109，USA

查找文章依据特里·法拉

努诺·班德拉

^三美国加州大学圣地亚哥分校计算质谱中心

查找文章依据努诺·班德拉

皮尔雷·阿莱恩·宾兹

⁴瑞士生物信息学研究所瑞士普罗特集团，瑞士日内瓦4号米歇尔·塞维特街1号，邮编：1211

查找文章依据皮尔雷·阿莱恩·宾兹

Ioannis Xenarios公司

⁴瑞士生物信息学研究所瑞士普罗特集团，瑞士日内瓦4号米歇尔·塞维特街1号，邮编：1211

⁵瑞士洛桑大学和瑞士洛桑1005洛桑大学整合基因组学中心

⁶瑞士洛桑SIB瑞士生物信息研究所Vital-IT Group

查找文章依据Ioannis Xenarios公司

马丁·艾森纳赫

⁷波鸿鲁尔大学Medizinisches Proteom中心。德国波鸿D-44801 150号

查找文章依据马丁·艾森纳赫

格哈德·迈耶

⁷Medizinisches Proteom-Center，Ruhr-Universität Bochum，Universityätsstr。德国波鸿D-44801 150号

查找文章依据格哈德·梅耶尔

劳伦特·加托

⁸剑桥大学生物化学系剑桥蛋白质组学中心，英国剑桥大学网球场路，CB2 1QR

查找文章依据劳伦特·加托

亚历克斯·坎波斯

⁹Integromics SL，Santiago Grisolia，2，Tres Cantos，28760，西班牙马德里

查找文章依据亚历克斯·坎波斯

罗伯特·乔克利

¹⁰美国加利福尼亚大学旧金山分校药物化学系，加利福尼亚州94158

查找文章依据罗伯特·查克利

汉斯·约阿希姆·克劳斯

¹¹德国Weinheim Boschstraße 12，69469，Wiley-VCH Verlag

查找文章依据汉斯·约阿希姆·克劳斯

胡安·巴勃罗·阿尔巴尔

¹²ProteoRed-ISCIII，国家生物技术中心-CSIC，西班牙马德里

查找文章依据胡安·巴勃罗·阿尔巴尔

萨尔瓦多·马丁内斯·巴托洛姆

¹²ProteoRed-ISCIII，国家生物技术中心-CSIC，西班牙马德里

查找文章依据萨尔瓦多·马丁内斯·巴托洛姆

罗尔夫·阿普韦勒

¹欧洲生物信息学研究所（EMBL-EBI），欧洲分子生物学实验室，Wellcome Trust Genome Campus，Hinxton，Cambridge，CB10 1SD，UK

查找文章依据罗尔夫·阿普韦勒

吉尔伯特·S·奥曼

²系统生物学研究所，401 Terry Avenue North，Seattle，WA 98109，USA

¹³密歇根大学计算医学与生物信息学中心，密歇根州安娜堡，48109-2218，美国

查找文章依据吉尔伯特·S·奥曼

伦纳特·马滕斯

¹⁴比利时根特A.Baertsoenkaai 3 B-9000 VIB医学蛋白质研究部

¹⁵根特大学生物化学系，A.Baertsenkaai 3 B-9000根特，比利时

查找文章依据伦纳特·马滕斯

安德鲁·琼斯

¹⁶英国利物浦大学综合生物学研究所，L697ZB

查找文章依据安德鲁·R·琼斯

亨宁·赫姆贾科布

¹欧洲生物信息学研究所（EMBL-EBI），欧洲分子生物学实验室，Wellcome Trust Genome Campus，Hinxton，Cambridge，CB10 1SD，UK

查找文章依据亨宁·赫姆贾科布

作者信息版权和许可信息 PMC免责声明

关联数据

补充资料: 1
NIHMS549897-补充-1.pdf（420万）
GUID:A39EACF5-E7A2-46AD-9205-D74D68E13F7C

到编辑器

蛋白质组学数据的公开传播趋势日益明显，这有助于评估、重用、比较分析和从已发布数据中提取新发现^1,2这一过程主要由期刊出版指南和资助机构推动。然而，需要更好地整合公共存储库，并协调共享表示基于质谱（MS）的蛋白质组学实验所需的所有信息。你2009年7月的社论《信贷逾期的信贷》^三揭示了蛋白质组学领域的情况，在该领域，全面数据披露仍然不常见。奥尔森和曼恩⁴在典型实验中识别出不同水平的信息，从原始数据开始，经过肽鉴定和定量、蛋白质鉴定和比率以及由此得出的生物学结论。所有这些水平都应该使用现有的MS蛋白质组学数据库来获取MS数据（原始数据、鉴定和量化结果）和元数据，并在公共数据库中进行适当注释，而产生的生物信息应该集成在蛋白质知识库中，如UniProt⁵。最近的一篇社论自然方法⁶再次强调需要一个稳定的MS蛋白质组学原始数据存储库。在这封信件中，我们报告了ProteomeXchange联盟的首次实施，这是一个提交和传播基于MS的蛋白质组学数据的综合框架。

在现有的MS蛋白质组学知识库中，PRIDE（蛋白质组学识别）数据库拥有广泛的目标受众⁷（欧洲生物信息学研究所，EBI，英国剑桥；http://www.ebi.ac.uk/pride)和肽阿特拉斯⁸（美国西雅图ISB系统生物学研究所；http://www.peptieatlas.org网站)是其中最突出的两个。两者都主要关注串联MS（MS/MS）数据存储。鉴于PRIDE代表了研究人员最初分析的信息（因此构成了一种主要资源），PeptideAtlas中的数据通过一个公共管道（跨蛋白质管道）进行重新处理，以提供对数据的统一分析视图，重点关注低蛋白假发现率（构成了一项次要资源）此外，ISB还为SRM数据建立了第一个存储库PASSEL⁹（PeptideAtlas SRM实验库，http://www.peptideatlas.org/passel网站/). 还有其他专用于存储MS蛋白质组学数据的资源，每个资源都具有不同的重点和功能，例如GPMDB（使用搜索引擎X！Tandem重新处理数据）¹⁰在更高的抽象层次上，UniProt和neXtProt等资源正在将蛋白质组学结果集成到来自许多不同来源的更广泛的功能注释上下文中，包括基于抗体的方法。

尽管所提到的大多数蛋白质组学资源已经存在很长时间了，但它们的作用是独立的，其活动的协调性有限。因此，数据提供者不清楚他们应该向哪个存储库提交数据集，以及以何种形式提交数据，选择范围从完整的原始数据到高度处理的标识和量化。此外，没有存储库可以同时存储原始数据和结果。数据消费者也遇到了类似的问题，他们无法始终在UniProt中找到支持蛋白质修改的数据，也无法知道PRIDE中的特定数据集是否已集成到PeptideAtlas中。

ProteomeXchange（PX）联盟(http://www.proteomexchange.org)成立于2006年（参考。11)为了克服这些挑战，从松散的合作发展成为该领域主要利益相关者的国际联盟，其中包括初级资源（PRIDE、PASSEL）和次级资源（PeptideAtlas、UniProt）、蛋白质组学生物信息学家、研究人员（包括参与HUPO人类蛋白质组项目的一些人员），和定期发表蛋白质组学数据的期刊代表(补充说明，第7节）。ProteomeXchange联盟的目标是通过定义和实施主要公共蛋白质组学知识库之间一致、协调、用户友好的数据沉积和交换程序，为蛋白质组学资源的合作提供一个通用框架和基础设施。

ProteomeXchange为多种MS数据类型提供了统一的数据提交，并提供了存放数据的不同“视图”，例如适合重新处理的原始数据、作者生成的标识以及UniProt等资源中的高度过滤复合结果，所有这些都通过通用共享标识符链接。作者能够引用其出版物中报告的数据集的ProteomeXchange登录号。因此，数据集（带有适当的元数据）正在变得可发布就其本身而言如果不同的消费者在不同的出版物中使用，则可以对其进行跟踪。

单个资源可以通过实施ProteomeXchange数据提交和发布指南以及元数据要求来加入ProteomeXchange。在当前版本中(http://www.proteomexchange.org/concept)，强制性信息包括：（i）质谱仪输出文件（原始数据，二进制格式或标准开放格式，如mzML）；（ii）处理后的识别结果（有两种提交模式，见下文）；以及（iii）足够的元数据，以提供适当的生物和技术背景，包括方法信息，例如SRM数据的过渡列表。还可以提供其他类型的信息，如峰列表文件（鉴定过程中最常用的质谱处理版本）和量化结果。

现在完全支持两种主要的MS蛋白质组学工作流程：串联MS和SRM数据(图1和补充图1). PRIDE是MS/MS数据的初始提交点，而PASSEL是SRM数据的初始交付点。预计在大多数情况下，一个ProteomeXchange数据集将对应于一个出版物中的数据，并将与之明确链接。然而，这一概念很灵活，并且还可以使用一种机制对不同的ProteomeXchange数据集中进行分组，例如用于大规模协作研究。目前，MS/MS数据有两种不同的提交模式：

在单独的窗口中打开

图1

表示用于MS/MS和SRM数据的ProteomeXchange工作流*原始数据表示质谱仪输出文件。

-“完整提交”：这要求肽和蛋白质鉴定结果得到充分支持并集成到接收库中（目前为PRIDE）。因此，必须首先将搜索引擎输出文件（以及相关光谱）转换为PRIDE XML或mzIdentML格式（这是一个由一些流行且用户友好的工具支持的过程，补充说明，第5节）。完整的提交使数据完全可供查询，从而最大限度地提高了在MS中重复使用数据的潜力。这反过来又增加了相关出版物的可见性。每个数据集都分配了一个DOI（数字对象标识符），允许通过引文索引（如您的社论中所建议的）向提交者及其主要研究人员提供正式的信用^三.
-“部分提交”：对于这些提交，肽或蛋白质鉴定结果无法集成在PRIDE中，因为尚未提供支持格式的数据转换器和导出器。在这种情况下，可以直接以原始格式提供搜索引擎输出文件。虽然部分提交可以通过元数据进行搜索，但不能通过蛋白质标识符等结果进行完全搜索，并且不会收到DOI。然而，部分提交很重要，因为它们允许将来自新实验方法的数据存储到ProteomeXchange资源中，而不必在工作流映射到PRIDE或另一个ProteomeXchange合作伙伴中的表示之前拒绝这些数据。

对于MS/MS数据集的提交，提供了一个独立的开源Java工具“ProteomeXchange提交工具”(http://www.proteomexchange.org/submission网站) (补充说明第5节，补充图2-10). 该工具允许交互式提交小型数据集以及大规模批量提交。

对于SRM数据集，web表单(http://www.peptideatlas.org/submit网站)可用于提交给PASSEL。与上述MS/MS数据集指南类似，PASSEL提交文件需要质谱仪输出文件、研究元数据、肽试剂、分析结果文件和实际SRM转换列表，这些信息驱动仪器数据采集。提交数据集后，管理员会对其进行检查，然后将其加载到主PASSEL数据库中，这有助于对数据和结果进行交互式探索。

提交的信息和文件可以在稿件同行评审期间选择性地提供给期刊编辑和审稿人。一旦手稿被接受出版或提交者直接通知接收库，数据将被公开发布(图1). 此时，数据集的可用性以及基本元数据将通过公共RSS提要进行传播(http://groups.google.com/group/proteomexchange/feed/rss_v2_0_msgs.xml). RSS提要包含指向XML消息（ProteomeXchange XML）的链接，该消息由接收存储库创建(补充说明，第3节），并可从所有公共ProteomeXchange数据集的门户ProteomeCentral获得(http://proteomecentral.proteomexchange.org) (补充说明，第2节）。诸如PeptideAtlas或GPMDB之类的存储库以及任何感兴趣的最终用户都可以订阅此RSS提要并触发操作，包括将数据并入本地资源、重新处理或生物分析。这种再处理已经在实践中进行。例如，两个ProteomeXchange数据集（PXD000134和PXD00157）已用于最新构建的肽Talas和PXD000013中的人类蛋白质组（参考文献。12)被GPMDB重新处理并提名为2012年的技术数据集(http://www.thegpm.org/dosotw_2012.html-201210071）。

ProteomeXchange于2012年6月开始接受定期提交。截至2013年8月初，已提交373个ProteomeXchange数据集（包括341个串联MS和32个SRM数据集，图2)，总共约25 TB的数据。迄今为止提交的最大数据量（目前仍为私有）包括5 TB的数据。有关公共可用数据集的当前列表，请参阅http://proteomecentral.proteomexchange.org/.

在单独的窗口中打开

图2

ProteomeXchange提交的主要指标摘要（截至2013年8月）。数据集的数量表示提交类型、数据访问状态以及代表的顶级物种和国家。

总之，ProteomeXchange为蛋白质组学数据的高效可靠公共传播提供了基础设施，支持关键的验证、分析和重用。通过提供和链接数据的不同解释，我们旨在最大限度地提高数据集的可见性，以及它们对不同社区的潜在利益。可引用性和可追溯性通过分配DOI和公共标识符空间来解决。联合体对其他资源的参与持开放态度(补充说明，第9节）。尽管所有存储库都依赖于持续运作的持续资金，但ProteomeXchange核心存储库PRIDE和PeptideAtlas已经建立，2005年首次发布（参考文献。7^,8)，并有强大的机构支持(补充说明确保数据在可预见的未来保持可靠可用。我们相信，ProteomeXchange基础设施将支持蛋白质组学数据公共可用性的不断增长趋势，通过增加获取便利性、增强重新评估解释和提取进一步生物见解的能力，使其对科学界的利益最大化，提交者的引用率更高。

补充材料

1

单击此处查看。^{（420万，pdf）}

致谢

我们感谢所有作为利益相关者参加ProteomeXchange会议的社区成员。这项工作得到了欧盟FP7赠款ProteomeXchange[赠款编号260558]的支持。JAV、AC、FR和DR也由Wellcome信托基金资助[赠款编号WT085949MA]。EWD、ZS和TF也部分由NIH/NIGMS拨款R01 GM087221、NSF MRI[拨款0923536]、卢森堡系统生物医学中心和卢森堡大学资助。ME由P.U.R.E.资助(网址：http://www.pure.rub.de，欧洲研究蛋白质单位），Nordrhein-Westfalen（德国）项目。LG得到了欧盟FP7 PRIME-XS项目的支持[赠款编号262067]。RW得到了BBSRC“PRIDE Converter”拨款的支持[参考BB/I024204/1]。

缩写

内政部	数字目标标识符
EBI公司	欧洲生物信息研究所
国际标准化银行	系统生物学研究所
PASSEL（乘客）	PeptideAtlaS SRM实验库
荣耀	蛋白质组学识别
军中福利社	蛋白质X变化
RSS（RSS）	丰富网站摘要
SRM公司	选定反应监测

脚注

竞争性金融利益

作者没有相互竞争的财务或商业利益。

作者贡献

JAV、HH和EWD领导了ProteomeXchange数据工作流、指南和相关软件的当前实施。RW开发了“ProteomeXchange提交工具”。其他作者以不同的方式为ProteomeXchange联盟的发展做出了贡献，例如，过去为最初的ProteomeXchange原型做出了贡献、开发了软件和数据标准，或者在不同方面为指南和数据工作流的实施做出了贡献。JAV、EWD和HH撰写了手稿。

所有作者都同意手稿中的所有内容，包括所提供的数据。

参考文献

1哈内·H、库斯特·B。分子细胞蛋白质组学。2012;11:1063–1069. [PMC免费文章][公共医学][谷歌学者]

2Matic I、Ahel I、Hay RT。自然方法。2012;9:771–772. [PMC免费文章][公共医学][谷歌学者]

三。国家生物技术。2009;27:579.编辑。[公共医学][谷歌学者]

4奥尔森合资公司，Mann M。科学信号。2011;4：pe7。[公共医学][谷歌学者]

5UniProt联盟。核酸研究。2012;40：D71–75。 [PMC免费文章][公共医学][谷歌学者]

6自然方法。2012;9:419.编辑。[公共医学][谷歌学者]

7Martens L等人。蛋白质组学。2005;5:3537–3545.[公共医学][谷歌学者]

8Deutsch EW等人。蛋白质组学。2005;5:3497–3500.[公共医学][谷歌学者]

9Farrah T等人。蛋白质组学。2012;12:1170–1175. [PMC免费文章][公共医学][谷歌学者]

10Craig R、Cortens JP、Beavis RC。蛋白质组研究杂志。2004;三:1234–1242.[公共医学][谷歌学者]

11Hermjakob H，Apweiler R。蛋白质组学专家评论。2006;三：1-3。[公共医学][谷歌学者]

12Vaudel M等人。蛋白质组研究杂志。2012;11:5072–5080.[公共医学][谷歌学者]