国家生物技术。作者手稿;PMC 2014年9月10日发布。
以最终编辑形式发布为:
预防性维修识别码:项目经理3986813
NIHMSID公司:美国国立卫生研究院549897
ProtomeXchange提供全球协调的蛋白质组学数据提交和传播
,1,17 ,2,17 ,1 ,1 ,1 ,1 ,1 ,2 ,2 ,三 ,4 ,4,5,6 ,7 ,7 ,8 ,9 ,10 ,11 ,12 ,12 ,1 ,2,13 ,14,15 ,16和1
胡安·维兹卡诺
1欧洲生物信息学研究所(EMBL-EBI),欧洲分子生物学实验室,Wellcome Trust Genome Campus,Hinxton,Cambridge,CB10 1SD,UK
埃里克·W·多伊奇
2系统生物学研究所,401 Terry Avenue North,Seattle,WA 98109,USA
王瑞(Rui Wang)
1欧洲生物信息学研究所(EMBL-EBI),欧洲分子生物学实验室,Wellcome Trust Genome Campus,Hinxton,Cambridge,CB10 1SD,UK
阿提拉·索尔达斯
1欧洲生物信息学研究所(EMBL-EBI),欧洲分子生物学实验室,Wellcome Trust Genome Campus,Hinxton,Cambridge,CB10 1SD,UK
弗洛里安·赖辛格
1欧洲生物信息学研究所(EMBL-EBI),欧洲分子生物学实验室,Wellcome Trust Genome Campus,Hinxton,Cambridge,CB10 1SD,UK
丹尼尔·雷奥斯
1欧洲生物信息学研究所(EMBL-EBI),欧洲分子生物学实验室,威康信托基因组校区,剑桥,CB10 1SD,英国
何塞·A·戴安斯
1欧洲生物信息学研究所(EMBL-EBI),欧洲分子生物学实验室,Wellcome Trust Genome Campus,Hinxton,Cambridge,CB10 1SD,UK
智孙
2系统生物学研究所,401 Terry Avenue North,Seattle,WA 98109,USA
特里·法拉
2系统生物学研究所,401 Terry Avenue North,Seattle,WA 98109,USA
努诺·班德拉
三美国加州大学圣地亚哥分校计算质谱中心
皮尔雷·阿莱恩·宾兹
4瑞士生物信息学研究所瑞士普罗特集团,瑞士日内瓦4号米歇尔·塞维特街1号,邮编:1211
Ioannis Xenarios公司
4瑞士生物信息学研究所瑞士普罗特集团,瑞士日内瓦4号米歇尔·塞维特街1号,邮编:1211
5瑞士洛桑大学和瑞士洛桑1005洛桑大学整合基因组学中心
6瑞士洛桑SIB瑞士生物信息研究所Vital-IT Group
马丁·艾森纳赫
7波鸿鲁尔大学Medizinisches Proteom中心。德国波鸿D-44801 150号
格哈德·迈耶
7Medizinisches Proteom-Center,Ruhr-Universität Bochum,Universityätsstr。德国波鸿D-44801 150号
劳伦特·加托
8剑桥大学生物化学系剑桥蛋白质组学中心,英国剑桥大学网球场路,CB2 1QR
亚历克斯·坎波斯
9Integromics SL,Santiago Grisolia,2,Tres Cantos,28760,西班牙马德里
罗伯特·乔克利
10美国加利福尼亚大学旧金山分校药物化学系,加利福尼亚州94158
汉斯·约阿希姆·克劳斯
11德国Weinheim Boschstraße 12,69469,Wiley-VCH Verlag
胡安·巴勃罗·阿尔巴尔
12ProteoRed-ISCIII,国家生物技术中心-CSIC,西班牙马德里
萨尔瓦多·马丁内斯·巴托洛姆
12ProteoRed-ISCIII,国家生物技术中心-CSIC,西班牙马德里
罗尔夫·阿普韦勒
1欧洲生物信息学研究所(EMBL-EBI),欧洲分子生物学实验室,Wellcome Trust Genome Campus,Hinxton,Cambridge,CB10 1SD,UK
吉尔伯特·S·奥曼
2系统生物学研究所,401 Terry Avenue North,Seattle,WA 98109,USA
13密歇根大学计算医学与生物信息学中心,密歇根州安娜堡,48109-2218,美国
伦纳特·马滕斯
14比利时根特A.Baertsoenkaai 3 B-9000 VIB医学蛋白质研究部
15根特大学生物化学系,A.Baertsenkaai 3 B-9000根特,比利时
安德鲁·琼斯
16英国利物浦大学综合生物学研究所,L697ZB
亨宁·赫姆贾科布
1欧洲生物信息学研究所(EMBL-EBI),欧洲分子生物学实验室,Wellcome Trust Genome Campus,Hinxton,Cambridge,CB10 1SD,UK
1欧洲生物信息学研究所(EMBL-EBI),欧洲分子生物学实验室,Wellcome Trust Genome Campus,Hinxton,Cambridge,CB10 1SD,UK
2系统生物学研究所,401 Terry Avenue North,Seattle,WA 98109,USA
三美国加利福尼亚州拉霍亚加利福尼亚大学圣地亚哥分校计算质谱中心
4瑞士生物信息学研究所瑞士普罗特集团,瑞士日内瓦4号米歇尔·塞维特街1号,邮编:1211
5瑞士洛桑大学和瑞士洛桑1005洛桑大学整合基因组学中心
6瑞士洛桑SIB瑞士生物信息研究所Vital-IT Group
7Medizinisches Proteom-Center,Ruhr-Universität Bochum,Universityätsstr。德国波鸿D-44801 150号
8剑桥大学生物化学系剑桥蛋白质组学中心,英国剑桥大学网球场路,CB2 1QR
9Integromics SL,Santiago Grisolia,2,Tres Cantos,28760,西班牙马德里
10美国加利福尼亚大学旧金山分校药物化学系,加利福尼亚州94158
11Wiley VCH Verlag,Boschstraße 12,69469 Weinheim,德国
12ProteoRed-ISCIII,国家生物技术中心-CSIC,西班牙马德里
13密歇根大学计算医学与生物信息学中心,密歇根州安娜堡,48109-2218,美国
14比利时根特A.Baertsoenkaai 3 B-9000 VIB医学蛋白质研究部
15根特大学生物化学系,A.Baertsenkaai 3 B-9000根特,比利时
16英国利物浦大学综合生物学研究所,L697ZB
17两位作者对手稿的贡献相等。
到编辑器
蛋白质组学数据的公开传播趋势日益明显,这有助于评估、重用、比较分析和从已发布数据中提取新发现1,2这一过程主要由期刊出版指南和资助机构推动。然而,需要更好地整合公共存储库,并协调共享表示基于质谱(MS)的蛋白质组学实验所需的所有信息。你2009年7月的社论《信贷逾期的信贷》三揭示了蛋白质组学领域的情况,在该领域,全面数据披露仍然不常见。奥尔森和曼恩4在典型实验中识别出不同水平的信息,从原始数据开始,经过肽鉴定和定量、蛋白质鉴定和比率以及由此得出的生物学结论。所有这些水平都应该使用现有的MS蛋白质组学数据库来获取MS数据(原始数据、鉴定和量化结果)和元数据,并在公共数据库中进行适当注释,而产生的生物信息应该集成在蛋白质知识库中,如UniProt5。最近的一篇社论自然方法6再次强调需要一个稳定的MS蛋白质组学原始数据存储库。在这封信件中,我们报告了ProteomeXchange联盟的首次实施,这是一个提交和传播基于MS的蛋白质组学数据的综合框架。
在现有的MS蛋白质组学知识库中,PRIDE(蛋白质组学识别)数据库拥有广泛的目标受众7(欧洲生物信息学研究所,EBI,英国剑桥;http://www.ebi.ac.uk/pride)和肽阿特拉斯8(美国西雅图ISB系统生物学研究所;http://www.peptieatlas.org网站)是其中最突出的两个。两者都主要关注串联MS(MS/MS)数据存储。鉴于PRIDE代表了研究人员最初分析的信息(因此构成了一种主要资源),PeptideAtlas中的数据通过一个公共管道(跨蛋白质管道)进行重新处理,以提供对数据的统一分析视图,重点关注低蛋白假发现率(构成了一项次要资源)此外,ISB还为SRM数据建立了第一个存储库PASSEL9(PeptideAtlas SRM实验库,http://www.peptideatlas.org/passel网站/). 还有其他专用于存储MS蛋白质组学数据的资源,每个资源都具有不同的重点和功能,例如GPMDB(使用搜索引擎X!Tandem重新处理数据)10在更高的抽象层次上,UniProt和neXtProt等资源正在将蛋白质组学结果集成到来自许多不同来源的更广泛的功能注释上下文中,包括基于抗体的方法。
尽管所提到的大多数蛋白质组学资源已经存在很长时间了,但它们的作用是独立的,其活动的协调性有限。因此,数据提供者不清楚他们应该向哪个存储库提交数据集,以及以何种形式提交数据,选择范围从完整的原始数据到高度处理的标识和量化。此外,没有存储库可以同时存储原始数据和结果。数据消费者也遇到了类似的问题,他们无法始终在UniProt中找到支持蛋白质修改的数据,也无法知道PRIDE中的特定数据集是否已集成到PeptideAtlas中。
ProteomeXchange(PX)联盟(http://www.proteomexchange.org)成立于2006年(参考。11)为了克服这些挑战,从松散的合作发展成为该领域主要利益相关者的国际联盟,其中包括初级资源(PRIDE、PASSEL)和次级资源(PeptideAtlas、UniProt)、蛋白质组学生物信息学家、研究人员(包括参与HUPO人类蛋白质组项目的一些人员),和定期发表蛋白质组学数据的期刊代表(补充说明,第7节)。ProteomeXchange联盟的目标是通过定义和实施主要公共蛋白质组学知识库之间一致、协调、用户友好的数据沉积和交换程序,为蛋白质组学资源的合作提供一个通用框架和基础设施。
ProteomeXchange为多种MS数据类型提供了统一的数据提交,并提供了存放数据的不同“视图”,例如适合重新处理的原始数据、作者生成的标识以及UniProt等资源中的高度过滤复合结果,所有这些都通过通用共享标识符链接。作者能够引用其出版物中报告的数据集的ProteomeXchange登录号。因此,数据集(带有适当的元数据)正在变得可发布就其本身而言如果不同的消费者在不同的出版物中使用,则可以对其进行跟踪。
单个资源可以通过实施ProteomeXchange数据提交和发布指南以及元数据要求来加入ProteomeXchange。在当前版本中(http://www.proteomexchange.org/concept),强制性信息包括:(i)质谱仪输出文件(原始数据,二进制格式或标准开放格式,如mzML);(ii)处理后的识别结果(有两种提交模式,见下文);以及(iii)足够的元数据,以提供适当的生物和技术背景,包括方法信息,例如SRM数据的过渡列表。还可以提供其他类型的信息,如峰列表文件(鉴定过程中最常用的质谱处理版本)和量化结果。
现在完全支持两种主要的MS蛋白质组学工作流程:串联MS和SRM数据(和补充图1). PRIDE是MS/MS数据的初始提交点,而PASSEL是SRM数据的初始交付点。预计在大多数情况下,一个ProteomeXchange数据集将对应于一个出版物中的数据,并将与之明确链接。然而,这一概念很灵活,并且还可以使用一种机制对不同的ProteomeXchange数据集中进行分组,例如用于大规模协作研究。目前,MS/MS数据有两种不同的提交模式:
表示用于MS/MS和SRM数据的ProteomeXchange工作流*原始数据表示质谱仪输出文件。
-“完整提交”:这要求肽和蛋白质鉴定结果得到充分支持并集成到接收库中(目前为PRIDE)。因此,必须首先将搜索引擎输出文件(以及相关光谱)转换为PRIDE XML或mzIdentML格式(这是一个由一些流行且用户友好的工具支持的过程,补充说明,第5节)。完整的提交使数据完全可供查询,从而最大限度地提高了在MS中重复使用数据的潜力。这反过来又增加了相关出版物的可见性。每个数据集都分配了一个DOI(数字对象标识符),允许通过引文索引(如您的社论中所建议的)向提交者及其主要研究人员提供正式的信用三. -“部分提交”:对于这些提交,肽或蛋白质鉴定结果无法集成在PRIDE中,因为尚未提供支持格式的数据转换器和导出器。在这种情况下,可以直接以原始格式提供搜索引擎输出文件。虽然部分提交可以通过元数据进行搜索,但不能通过蛋白质标识符等结果进行完全搜索,并且不会收到DOI。然而,部分提交很重要,因为它们允许将来自新实验方法的数据存储到ProteomeXchange资源中,而不必在工作流映射到PRIDE或另一个ProteomeXchange合作伙伴中的表示之前拒绝这些数据。
对于MS/MS数据集的提交,提供了一个独立的开源Java工具“ProteomeXchange提交工具”(http://www.proteomexchange.org/submission网站) (补充说明第5节,补充图2-10). 该工具允许交互式提交小型数据集以及大规模批量提交。
对于SRM数据集,web表单(http://www.peptideatlas.org/submit网站)可用于提交给PASSEL。与上述MS/MS数据集指南类似,PASSEL提交文件需要质谱仪输出文件、研究元数据、肽试剂、分析结果文件和实际SRM转换列表,这些信息驱动仪器数据采集。提交数据集后,管理员会对其进行检查,然后将其加载到主PASSEL数据库中,这有助于对数据和结果进行交互式探索。
提交的信息和文件可以在稿件同行评审期间选择性地提供给期刊编辑和审稿人。一旦手稿被接受出版或提交者直接通知接收库,数据将被公开发布(). 此时,数据集的可用性以及基本元数据将通过公共RSS提要进行传播(http://groups.google.com/group/proteomexchange/feed/rss_v2_0_msgs.xml). RSS提要包含指向XML消息(ProteomeXchange XML)的链接,该消息由接收存储库创建(补充说明,第3节),并可从所有公共ProteomeXchange数据集的门户ProteomeCentral获得(http://proteomecentral.proteomexchange.org) (补充说明,第2节)。诸如PeptideAtlas或GPMDB之类的存储库以及任何感兴趣的最终用户都可以订阅此RSS提要并触发操作,包括将数据并入本地资源、重新处理或生物分析。这种再处理已经在实践中进行。例如,两个ProteomeXchange数据集(PXD000134和PXD00157)已用于最新构建的肽Talas和PXD000013中的人类蛋白质组(参考文献。12)被GPMDB重新处理并提名为2012年的技术数据集(http://www.thegpm.org/dosotw_2012.html-201210071)。
ProteomeXchange于2012年6月开始接受定期提交。截至2013年8月初,已提交373个ProteomeXchange数据集(包括341个串联MS和32个SRM数据集,),总共约25 TB的数据。迄今为止提交的最大数据量(目前仍为私有)包括5 TB的数据。有关公共可用数据集的当前列表,请参阅http://proteomecentral.proteomexchange.org/.
ProteomeXchange提交的主要指标摘要(截至2013年8月)。数据集的数量表示提交类型、数据访问状态以及代表的顶级物种和国家。
总之,ProteomeXchange为蛋白质组学数据的高效可靠公共传播提供了基础设施,支持关键的验证、分析和重用。通过提供和链接数据的不同解释,我们旨在最大限度地提高数据集的可见性,以及它们对不同社区的潜在利益。可引用性和可追溯性通过分配DOI和公共标识符空间来解决。联合体对其他资源的参与持开放态度(补充说明,第9节)。尽管所有存储库都依赖于持续运作的持续资金,但ProteomeXchange核心存储库PRIDE和PeptideAtlas已经建立,2005年首次发布(参考文献。7,8),并有强大的机构支持(补充说明确保数据在可预见的未来保持可靠可用。我们相信,ProteomeXchange基础设施将支持蛋白质组学数据公共可用性的不断增长趋势,通过增加获取便利性、增强重新评估解释和提取进一步生物见解的能力,使其对科学界的利益最大化,提交者的引用率更高。