跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
蛋白质组学杂志。作者手稿;2017年10月21日在PMC上提供。
以最终编辑形式发布为:
预防性维修识别码:PMC5079801型
NIHMSID公司:NIHMS787421
PMID:27132685

ProHits 4.0中的数据独立采集分析

关联数据

补充资料

摘要

亲和纯化与质谱联用(AP-MS)是一种鉴定和量化物理相互作用的强大技术。AP-MS需要仔细的实验设计、适当的控制选择和定量工作流程才能成功识别善意的大背景污染物之间的相互作用。我们之前介绍了ProHits,这是一种用于相互作用蛋白质组学的实验室信息管理系统,它可以跟踪质谱设备中的所有样本,启动数据库搜索,并为基于光谱计数的AP-MS方法提供可视化工具。最近,我们在ProHits中实施了INTeractome显著性分析(SAINT),以基于光谱计数提供交互作用评分。在此,我们对ProHits进行了更新,以支持数据独立采集(DIA),包括识别软件(DIA-Umpire和MSPLIT-DIA)、量化工具(通过DIA-Umpire或通过目标提取外部)、定量富集评估(通过mapDIA)和交互评分(通过SAINT密集度)。随着其他改进,特别是iProphet管道的支持,促进了沉积到ProteomeXchange存储库中,并增强了导出和查看功能,ProHits 4.0提供了一套全面的工具来促进亲和蛋白质组学研究。

关键词:实验室信息管理系统、质谱、数据独立采集、蛋白质相互作用、亲和纯化与质谱耦合、蛋白质组学

图形摘要

保存图片、插图等的外部文件。对象名称为nihms787421u1.jpg

质谱(MS)数据的管理、分析以及随后以简单直观的方式呈现给受众可能是一项挑战。MS数据必须存档、搜索、评分、比较和可视化,通常需要各种未连接的非标准化软件工具。随着数据相关采集(DIA)方法的日益使用,这些挑战变得更加复杂[19]以及更专业的应用,如相互作用蛋白质组学[1014].

2010年,我们推出了一个名为ProHits的开源实验室信息管理系统(LIMS)[15,16],旨在处理蛋白质组学设施中生成的数据,但也为分析AP-MS(一种流行的蛋白质组学应用程序)提供了专门的工具。ProHits安装在LINUX服务器上(防火墙后面);通过web界面,授权用户可以访问搜索引擎、分析工具和多种数据可视化选项。ProHits通过其数据管理模块自动备份质谱仪设备中采集的所有数据,将供应商特定文件转换为通用格式(通过ProteoWizard[17]或供应商软件),并使用免费开源工具(Comet)促进数据库搜索[18],MSGF+[19],X!串联[20])和商业搜索引擎Mascot[21]. 可以使用肽营养素评估搜索结果[22]和ProteinProphet[23]跨蛋白质组学管道(TPP)的组件[24]). ProHits的当前版本还支持使用iProphet[25]用于将多个搜索引擎的识别结果合并为单个输出(图1a;绿色方框).

保存图片、插图等的外部文件。对象名为nihms787421f1.jpg
ProHits组织和蛋白质相互作用评分

A)ProHits系统由两个主要模块组成数据管理模块和分析师模块。设施中的所有质谱仪都可以连接到ProHits:在文件转换和数据库搜索之后,执行质谱数据的定时备份。DIA识别由DIA-Umpire和光谱匹配工具MSPLIT-DIA支持。肽和蛋白质鉴定结果被解析为Analyst模块中定义的Sample。样本在项目→诱饵→实验→样本层次中定义。不同项目的权限在“管理”部分中分配给用户。B)通过ProHits使用SAINT进行蛋白质相互作用分析的示意性工作流程。在项目中,用户定义应该分析哪些样本,并指定哪些是控件。选择SAINT版本(SAINTexpress或标准SAINT)以及可选参数和样本压缩级别。SAINT使用定量矩阵推导相互作用的概率。使用SAINT进行分析后,数据可以可视化或存储在ProHits本身的存储库中。

为了启用样本跟踪,“Analyst”模块帮助用户将其数据组织到可以分配不同用户权限的项目中(图1a). 由于我们团队对亲和蛋白质组学的高度关注,每个项目中的流程都是根据“诱饵”蛋白质组织的。诱饵由其基因名称、物种、蛋白质加入数量和表位标签(视情况而定)定义。然而,请注意,该系统可用于任何类型的浓缩方法(例如,以核酸或化学化合物作为诱饵),甚至通过简单地将“诱饵”水平视为组织层次结构的一部分来进行更通用的分析(共有4层:“项目”→“诱饵“→“实验”→“样本”)。输入“诱饵”后,可以将“实验”与之关联,并使用基于文本的协议(通过下拉菜单访问)、受控词汇表和自由文本注释进行注释。在“实验”层次结构下,可以创建“样本”(图1a;橙色盒子). 每个样品都与一个唯一标识符相关联:首先在Analyst模块中创建“样品”,然后按照此命名法命名质谱采集计算机上的文件,以确保原始质谱数据和与样品描述相关的元数据之间的自动链接。

除了提供许多用于组织、浏览、搜索、比较和导出数据的通用功能外,ProHits还通过SAINT工具(标准SAINT[12,13]以及计算效率高的SAINTexpress[10]算法已启用;图1b). 直接通过界面或(下载后)通过发布质量可视化工具可视化SAINT结果[26]能够快速浏览数据。当有足够数量的控制实验不可用或需要替代评分和可视化时,用户可以下载与CRAPome兼容的[11]通过Analyst模块中的“导出函数”来创建文件,以便于重新分析数据。

我们重新设计了ProHits数据管理搜索功能,以简化标准数据相关采集(DDA)搜索(补充图1),并从DIA运行中启用肽识别(图1a;蓝色方框). 对于DIA,通过使用DIA Umpire从共洗脱MS1和MS2峰簇生成伪MS/MS光谱来进行非靶向鉴定[27],或用于直接从DIA数据识别肽的光谱匹配工具MSPLIT-DIA[28]. 可以使用ProHits本地实现中可用的所有搜索引擎(目前有三个开源工具X!Tandem[20],彗星[18]和MS-GF+[19]和商业工具吉祥物[21]支持),或者可以使用iProphet将搜索引擎组合成单个输出(补充图2-4). MSPLIT-DIA识别需要光谱库;这可以是预先构建的通用光谱集合,例如SWATHA特拉斯[29],或使用DDA文件在内部生成的库(当前,必须使用MSGFDB搜索这些文件[30]). ProHits支持这两种功能(搜索预先存在的库或构建自定义库),并且可以在单个搜索任务中进一步组合(补充图5,6). DIA-Umpire和MSPLIT-DIA支持固定或可变DIA窗口设计和通用文件格式(mzXML[31])在DIA-Unimpire的情况下,已经根据不同仪器供应商的数据进行了基准测试。DIA-Umpire和MSPLIT-DIA的搜索结果可以通过Analyst模块直接解析,就像DDA一样,ProHits现在支持将蛋白质结果转换为基因的能力(补充图7).

可以说,DIA最常见的优点是稳健的量化。ProHits也支持这一点。对于MSPLIT-DIA,除了提取光谱计数(与DDA相比,在DIA中更有意义,因为每个DIA窗口都有循环采集,没有排除列表[29]),输出准备通过OpenSWATH进行靶向提取,以量化肽[32],天际线[33]和PeakView[34] (图2a;补充图6). 在目标提取之前运行MSPLIT-DIA会通过提供实际保留时间和样本中预期的肽列表来限制搜索空间:最近的研究表明,这大大促进了这些目标提取工具的性能[29]. 对于DIA-英派尔[27]ProHits有助于选择样本进行有针对性的再提取,从而提高了定量的灵敏度(图2b;补充图4; 请注意,DIA-Ampire结果也可以在ProHits之外的Skyline中进行进一步分析)。在此模式下,可以通过ProHits的Analyst模块访问,可以在半目标DIA-Unimpire模式下查看选定的DIA-Unitre非目标搜索任务,并重新提取选定的数据文件。可以选择错误发现率(在肽和蛋白质水平)和待提取肽和片段的数量等参数,并启动有针对性的重新提取。DIA-mpire量化结果有多种格式,包括MS1和MS2级量化作为直接输出[27]. 或者,对于相互作用蛋白质组学研究,可以使用SAINT强度模型(最初为MS1数据建立)进一步分析结果[35]). MS1或MS2水平的SAINT量化结果(以DIA-U mpire手稿为基准[27])可以下载或在线查看。

保存图片、插图等的外部文件。对象名为nihms787421f2.jpg
处理ProHits中的DIA数据

A) ProHits中的MSPLIT-DIA工作流。在数据管理模块(绿色框)中,可以通过并行DDA运行构建光谱库(在当前版本中,仅支持MSGFDB生成库);一个设施内所有之前的分析都被整合到一个“档案”中。还启用了公共存储库(例如SWATHA特拉斯)。ProHits使用MSGFDB得分最高的光谱作为肽鉴定的库光谱。识别的肽可用于生成分析库,以输入ProHits以外的目标提取工具;或者,ProHits在ProHits Analyst模块(黄色框)中实现了一个简单的推理映射,将独特的肽映射到“基因”(此处标识为prot*),用于光谱计数和SAINT评分。B) DIA-ProHits中的编译工作流。非目标识别在数据管理模块中执行,而半目标重新提取在分析模块中执行。请注意,SAINT和SAINTexpress强度模型可用于分析DIA-Ampire结果;或者,可以通过mapDIA分析结果。C) ProHits中的mapDIA工作流。当前版本已完全实现了统计工具mapDIA,作为Umpire Quant进行后量化的下游分析工具;mapDIA还接受目标提取工具提取的数据。在ProHits中选择mapDIA分析参数和实验设计选项。mapDIA结果的可视化(此处显示了时间过程的示例)可以在ProHits-viz服务器上的ProHits之外执行(灰色框)。

为了在各种工作流程(包括时间过程实验)中提供差异丰富的肽和蛋白质的评分,我们还集成了最近引入的统计工具mapDIA[36],它与DIA-Unmpire量化工作流完全兼容。mapDIA可直接使用片段级定量数据用于差异蛋白表达的统计分析。ProHits中实现的图形用户界面允许用户指定应分组的样本以及选择分析参数(补充图8). 然后执行mapDIA的完整工作流程,包括片段级强度的标准化(保留时间空间中的总离子和或局部强度和)、离群值剔除、选择最佳片段和肽进行量化、,以及基于模型的特定样本组间蛋白质水平差异表达的统计显著性分析(图2c;补充图8). 结果作为标准mapDIA输出文件夹下载[36]虽然我们还实现了一些新的可视化工具,这些工具可以作为扩展的ProHits-viz工具套件的一部分用于图形生成([26]; Knight等人的手稿描述了ProHits-viz中的新功能准备中).

ProHits 4.0还引入了一些新功能,特别是方便了向ProteomeXchange提交数据集(包括频谱文件、元数据和处理结果)[37]通过MassIVE(MassIVE.ucsd.edu)(补充图9). 只需选择用于分析的文件(例如,SAINT任务中包含的所有文件,包括阴性对照)并选择通过ProHits FTP服务器将数据传输到MassIVE,即可将数据集打包到不同的文件夹中,即原始文件、峰值列表(mzML、mzXML)和结果文件(mzid),这些文件在MassIVE中以直接关联命名。选择与这些文件相关的FASTA文件(通过下拉菜单)将创建第四个文件夹(“其他”),该文件夹也将提交给MassIVE,以便于完整提交给ProteomeXchange。通过其他改进,包括与试剂管理系统OpenFreezer的链接[38],直接导出到定量交互存储库(ProHits-web.lunenfeld.ca)[39]和可自定义的导出功能(补充图10),ProHits 4.0提供了一个全面但用户友好的交互蛋白质组学实验室信息管理系统。

重要性

以透明的方式对蛋白质组学数据进行评分、注释和分析仍然具有挑战性。ProHits以前是作为LIMS引入的,用于存储、跟踪和分析标准AP-MS数据。在这一修订版本中,我们扩展了ProHits,以包括与基于数据独立采集(DIA)的许多识别和量化工具的集成。ProHits 4.0还促进了数据存储到公共存储库,以及将数据传输到新的可视化工具。

亮点

  • 蛋白质组学ProHits实验室信息系统升级
  • 通过DIA-Umpire、MSPLIT-DIA和mapDIA支持数据独立采集
  • 通过MassIVE促进蛋白质组交换中的沉积
  • 蛋白质组学数据的可视化和导出
  • 亲和纯化与质谱联用的分析管道

补充材料

补充

单击此处查看。(250万,pdf)

致谢

我们感谢Gingras实验室所有成员对ProHits和这份手稿的批判性反馈,感谢Jeremy Carver对MassIVE提交的帮助。我们感谢加拿大政府通过加拿大基因组生物信息学和计算生物学LAP计划(向A-C.G.、M.T.、A.I.N和H.C)、加拿大基因组创新(GIN)网络(通过安大略省基因组研究所OGI-069向A-C.G.)提供的资金和加拿大卫生研究院(基金会向A.-C.G.拨款143301);美国国立卫生研究院(致A.I.N.和A.-C.G.;5R01GM94231;致N.B.2 P41 GM103484-06A1;致M.T.R01RR024031);和新加坡教育部(致H.C.;Tier 2 R-608-000-088-112)。A.-C.G.是加拿大功能蛋白质组学研究主席,Lea Reichmann是癌症蛋白质组学主席;N.B.是Alfred P.Sloan研究员;B.R.是加拿大分子医学研究主席;M.T.是加拿大系统与合成生物学研究主席。J.-P.L.得到了Lunenfeld-Tanenbaum研究所TD Bank健康研究奖学金和癌症研究学会下一代科学家奖学金的支持。

脚注

出版商免责声明:这是一份未经编辑的手稿的PDF文件,已被接受出版。作为对客户的服务,我们正在提供这份早期版本的手稿。手稿在以最终可引用的形式出版之前,将经过编辑、排版和校对结果证明。请注意,在制作过程中可能会发现可能影响内容的错误,适用于该期刊的所有法律免责声明均适用。

工具书类

1Gillet LC、Navarro P、Tate S、Rost H、Selevsek N、Reiter L等。数据依赖性采集产生的MS/MS光谱的目标数据提取:一致准确蛋白质组分析的新概念。分子和细胞蛋白质组学:MCP。2012;11:O111 016717。 [PMC免费文章][公共医学][谷歌学者]
2Venable JD,Dong MQ,Wohlschlegel J,Dillin A,Yates JR。从串联质谱定量分析复杂肽混合物的自动化方法。自然方法。2004;1:39–45。[公共医学][谷歌学者]
三。Silva JC、Gorenstein MV、Li GZ、Vissers JP、Geromanos SJ。LCMSE对蛋白质的绝对定量:并行MS采集的优点。分子和细胞蛋白质组学:MCP。2006;5:144–56.[公共医学][谷歌学者]
4Panchaud A、Scherl A、Shaffer SA、von Haller PD、Kulasekara HD、Miller SI等。独立于离子计数的前体获取:如何深入蛋白质组海洋。分析化学。2009;81:6481–8. [PMC免费文章][公共医学][谷歌学者]
5Geiger T,Cox J,Mann M.使用全离子碎裂的Orbitrap台式质谱仪上的蛋白质组学。分子和细胞蛋白质组学:MCP。2010;9:2252–61. [PMC免费文章][公共医学][谷歌学者]
6Egertson JD、Kuehn A、Merrihew GE、Bateman NW、MacLean BX、Ting YS等。用于改进数据相关采集的多路复用MS/MS。自然方法。2013;10:744–6. [PMC免费文章][公共医学][谷歌学者]
7Distler U、Kuharev J、Navarro P、Levin Y、Schild H、Tenzer S。漂移特定时间碰撞能量支持深度平均数据依赖性采集蛋白质组学。自然方法。2014;11:167–70.[公共医学][谷歌学者]
8Purvine S,Eppel JT,Yi EC,Goodlett DR。使用飞行时间质量分析仪,Shotgun碰撞诱导肽解离。蛋白质组学。2003;:847–50。[公共医学][谷歌学者]
9Weisbrod CR、Eng JK、Hoopmann MR、Baker T、Bruce JE。准确的肽片段质量分析:多重肽的鉴定和定量。蛋白质组研究杂志。2012;11:1621–32. [PMC免费文章][公共医学][谷歌学者]
10Teo G,Liu G,Zhang J,Nesvizhskii AI,Gingras AC,Choi H.SAINTexpress:INTeractome软件显著性分析的改进和附加功能。蛋白质组学杂志。2014;100:37–43. [PMC免费文章][公共医学][谷歌学者]
11Mellacheruvu D、Wright Z、Couzens AL、Lambert JP、St-Denis NA、Li T等。CRAPome:亲和纯化质谱数据的污染物库。自然方法。2013;10:730–6. [PMC免费文章][公共医学][谷歌学者]
12Choi H,Liu G,Mellacheruvu D,Tyers M,Gingras AC,Nesvizhskii AI.利用SAINT亲和纯化质谱数据分析蛋白质相互作用。收录人:Baxevanis Andreas D等人,编辑。生物信息学的当前协议。第八单元第八章。2012年,第15页。[PMC免费文章][公共医学][谷歌学者]
13Choi H、Larsen B、Lin ZY、Breitkreutz A、Mellacheruvu D、Fermin D等。SAINT:亲和纯化质谱数据的概率评分。自然方法。2011;8:70–3. [PMC免费文章][公共医学][谷歌学者]
14Breitkreutz A、Choi H、Sharom JR、Boucher L、Neduva V、Larsen B等。酵母中的全球蛋白激酶和磷酸酶相互作用网络。科学。2010;328:1043–6. [PMC免费文章][公共医学][谷歌学者]
15Liu G,Zhang J,Larsen B,Stark C,Breitkreutz A,Lin ZY,等。项目:基于质谱的相互作用蛋白质组学集成软件。自然生物技术。2010;28:1015–7. [PMC免费文章][公共医学][谷歌学者]
16Liu G,Zhang J,Choi H,Lambert JP,Srikumar T,Larsen B,et al.使用ProHits存储、注释和分析亲和纯化质谱(AP-MS)数据。收录人:Baxevanis Andreas D等人,编辑。生物信息学的当前协议。第八单元第八章。2012年,第16页。[PMC免费文章][公共医学][谷歌学者]
17Chambers MC、Maclean B、Burke R、Amodei D、Ruderman DL、Neumann S等。质谱学和蛋白质组学的跨平台工具包。自然生物技术。2012;30:918–20. [PMC免费文章][公共医学][谷歌学者]
18Eng JK、Fischer B、Grossmann J、Maccoss MJ。一种快速SEQUEST互相关算法。蛋白质组研究杂志。2008年;7:4598–602.[公共医学][谷歌学者]
19Kim S,Pevzner PA。MS-GF+朝着蛋白质组学的通用数据库搜索工具迈进。自然通信。2014;5:5277. [PMC免费文章][公共医学][谷歌学者]
20Craig R,Beavis RC。串联质谱:用串联质谱匹配蛋白质。生物信息学。2004;20:1466–7.[公共医学][谷歌学者]
21Perkins DN、Pappin DJ、Creasy DM、Cottrell JS。通过使用质谱数据搜索序列数据库进行基于概率的蛋白质鉴定。电泳。1999;20:3551–67。[公共医学][谷歌学者]
22Keller A、Nesvizhskii AI、Kolker E、Aebersold R。估算通过MS/MS和数据库搜索进行肽鉴定准确性的经验统计模型。分析化学。2002;74:5383–92.[公共医学][谷歌学者]
23Nesvizhskii AI,Keller A,Kolker E,Aebersold R.通过串联质谱鉴定蛋白质的统计模型。分析化学。2003;75:4646–58.[公共医学][谷歌学者]
24Deutsch EW、Mendoza L、Shteynberg D、Farrah T、Lam H、Tasman N等。跨太平洋管道导游。蛋白质组学。2010;10:1150–9. [PMC免费文章][公共医学][谷歌学者]
25Shteynberg D、Deutsch EW、Lam H、Eng JK、Sun Z、Tasman N等。iProphet:鸟枪蛋白质组数据的多级综合分析提高了肽和蛋白质的识别率和误差估计。分子和细胞蛋白质组学:MCP。2011;10:M111 007690。 [PMC免费文章][公共医学][谷歌学者]
26Knight JD,Liu G,Zhang JP,Pasculescu A,Choi H,Gingras AC。可视化定量蛋白质相互作用数据的网络工具。蛋白质组学。2015;15:1432–6.[公共医学][谷歌学者]
27Tsou CC、Avtonomov D、Larsen B、Tucholska M、Choi H、Gingras AC等。DIA-Umpire:数据相关获取蛋白质组学的综合计算框架。自然方法。2015;12:258–64.第7页接第64页。[PMC免费文章][公共医学][谷歌学者]
28Wang J、Tucholska M、Knight JDR、Lambert JP、Tate S、Larsen B等。MSPLIT-DIA:数据独立采集的敏感肽鉴定。自然方法。2015新闻界。[PMC免费文章][公共医学][谷歌学者]
29Rosenberger G、Koh CC、Guo T、Rost HL、Kouvonen P、Collins BC等。通过SWATH-MS量化10000人类蛋白质的分析库。科学数据。2014;1:140031. [PMC免费文章][公共医学][谷歌学者]
30Kim S、Mischerikow N、Bandeira N、Navarro JD、Wich L、Mohammed S等。CID、ETD和CID/ETD串联质谱对的生成函数:在数据库搜索中的应用。分子和细胞蛋白质组学:MCP。2010;9:2840–52. [PMC免费文章][公共医学][谷歌学者]
31Pedrioli PG、Eng JK、Hubley R、Vogelzang M、Deutsch EW、Raught B等。质谱数据的通用开放表示及其在蛋白质组学研究中的应用。自然生物技术。2004;22:1459–66.[公共医学][谷歌学者]
32Rost HL、Rosenberger G、Navarro P、Gillet L、Miladinovic SM、Schubert OT等。OpenSWATH支持对数据相关采集MS数据进行自动化、有针对性的分析。自然生物技术。2014;32:219–23.[公共医学][谷歌学者]
33MacLean B、Tomazela DM、Shulman N、Chambers M、Finney GL、Frewen B等。Skyline:用于创建和分析目标蛋白质组学实验的开源文档编辑器。生物信息学。2010;26:966–8. [PMC免费文章][公共医学][谷歌学者]
34Lambert JP、Ivosev G、Couzens AL、Larsen B、Taipale M、Lin ZY等。通过亲和纯化结合数据相关质谱采集绘制差异相互作用体。自然方法。2013;10:1239–45. [PMC免费文章][公共医学][谷歌学者]
35Choi H,Glatter T,Gstaiger M,Nesvizhskii AI。SAINT-MS1:亲和纯化质谱实验中使用无标签强度数据的蛋白质相互作用评分。蛋白质组研究杂志。2012;11:2619–24. [PMC免费文章][公共医学][谷歌学者]
36Teo G,Kim S,Tsou CC,Collins B,Gingras AC,Nesvizhskii AI,et al.mapDIA:数据独立采集质谱定量蛋白质组数据的预处理和统计分析。蛋白质组学杂志。2015 [PMC免费文章][公共医学][谷歌学者]
37Vizcaino JA、Deutsch EW、Wang R、Csordas A、Reisinger F、Rios D等。ProteomeXchange提供全球协调的蛋白质组学数据提交和传播。自然生物技术。2014;32:223–6。 [PMC免费文章][公共医学][谷歌学者]
38Olhovsky M、Williton K、Dai AY、Pasculescu A、Lee JP、Goudreault M等。OpenFreezer:试剂信息管理软件系统。自然方法。2011;8:612–3.[公共医学][谷歌学者]
39Couzens AL、Knight JD、Kean MJ、Teo G、Weiss A、Dunham WH等。哺乳动物Hippo途径的蛋白质相互作用网络揭示了激酶-磷酸酶相互作用的机制。科学信号。2013;6:rs15。[公共医学][谷歌学者]