质谱(MS)数据的管理、分析以及随后以简单直观的方式呈现给受众可能是一项挑战。MS数据必须存档、搜索、评分、比较和可视化,通常需要各种未连接的非标准化软件工具。随着数据相关采集(DIA)方法的日益使用,这些挑战变得更加复杂[1–9]以及更专业的应用,如相互作用蛋白质组学[10–14].
2010年,我们推出了一个名为ProHits的开源实验室信息管理系统(LIMS)[15,16],旨在处理蛋白质组学设施中生成的数据,但也为分析AP-MS(一种流行的蛋白质组学应用程序)提供了专门的工具。ProHits安装在LINUX服务器上(防火墙后面);通过web界面,授权用户可以访问搜索引擎、分析工具和多种数据可视化选项。ProHits通过其数据管理模块自动备份质谱仪设备中采集的所有数据,将供应商特定文件转换为通用格式(通过ProteoWizard[17]或供应商软件),并使用免费开源工具(Comet)促进数据库搜索[18],MSGF+[19],X!串联[20])和商业搜索引擎Mascot[21]. 可以使用肽营养素评估搜索结果[22]和ProteinProphet[23]跨蛋白质组学管道(TPP)的组件[24]). ProHits的当前版本还支持使用iProphet[25]用于将多个搜索引擎的识别结果合并为单个输出(;绿色方框).
ProHits组织和蛋白质相互作用评分A)ProHits系统由两个主要模块组成数据管理模块和分析师模块。设施中的所有质谱仪都可以连接到ProHits:在文件转换和数据库搜索之后,执行质谱数据的定时备份。DIA识别由DIA-Umpire和光谱匹配工具MSPLIT-DIA支持。肽和蛋白质鉴定结果被解析为Analyst模块中定义的Sample。样本在项目→诱饵→实验→样本层次中定义。不同项目的权限在“管理”部分中分配给用户。B)通过ProHits使用SAINT进行蛋白质相互作用分析的示意性工作流程。在项目中,用户定义应该分析哪些样本,并指定哪些是控件。选择SAINT版本(SAINTexpress或标准SAINT)以及可选参数和样本压缩级别。SAINT使用定量矩阵推导相互作用的概率。使用SAINT进行分析后,数据可以可视化或存储在ProHits本身的存储库中。
为了启用样本跟踪,“Analyst”模块帮助用户将其数据组织到可以分配不同用户权限的项目中(). 由于我们团队对亲和蛋白质组学的高度关注,每个项目中的流程都是根据“诱饵”蛋白质组织的。诱饵由其基因名称、物种、蛋白质加入数量和表位标签(视情况而定)定义。然而,请注意,该系统可用于任何类型的浓缩方法(例如,以核酸或化学化合物作为诱饵),甚至通过简单地将“诱饵”水平视为组织层次结构的一部分来进行更通用的分析(共有4层:“项目”→“诱饵“→“实验”→“样本”)。输入“诱饵”后,可以将“实验”与之关联,并使用基于文本的协议(通过下拉菜单访问)、受控词汇表和自由文本注释进行注释。在“实验”层次结构下,可以创建“样本”(;橙色盒子). 每个样品都与一个唯一标识符相关联:首先在Analyst模块中创建“样品”,然后按照此命名法命名质谱采集计算机上的文件,以确保原始质谱数据和与样品描述相关的元数据之间的自动链接。
除了提供许多用于组织、浏览、搜索、比较和导出数据的通用功能外,ProHits还通过SAINT工具(标准SAINT[12,13]以及计算效率高的SAINTexpress[10]算法已启用;). 直接通过界面或(下载后)通过发布质量可视化工具可视化SAINT结果[26]能够快速浏览数据。当有足够数量的控制实验不可用或需要替代评分和可视化时,用户可以下载与CRAPome兼容的[11]通过Analyst模块中的“导出函数”来创建文件,以便于重新分析数据。
我们重新设计了ProHits数据管理搜索功能,以简化标准数据相关采集(DDA)搜索(补充图1),并从DIA运行中启用肽识别(;蓝色方框). 对于DIA,通过使用DIA Umpire从共洗脱MS1和MS2峰簇生成伪MS/MS光谱来进行非靶向鉴定[27],或用于直接从DIA数据识别肽的光谱匹配工具MSPLIT-DIA[28]. 可以使用ProHits本地实现中可用的所有搜索引擎(目前有三个开源工具X!Tandem[20],彗星[18]和MS-GF+[19]和商业工具吉祥物[21]支持),或者可以使用iProphet将搜索引擎组合成单个输出(补充图2-4). MSPLIT-DIA识别需要光谱库;这可以是预先构建的通用光谱集合,例如SWATHA特拉斯[29],或使用DDA文件在内部生成的库(当前,必须使用MSGFDB搜索这些文件[30]). ProHits支持这两种功能(搜索预先存在的库或构建自定义库),并且可以在单个搜索任务中进一步组合(补充图5,6). DIA-Umpire和MSPLIT-DIA支持固定或可变DIA窗口设计和通用文件格式(mzXML[31])在DIA-Unimpire的情况下,已经根据不同仪器供应商的数据进行了基准测试。DIA-Umpire和MSPLIT-DIA的搜索结果可以通过Analyst模块直接解析,就像DDA一样,ProHits现在支持将蛋白质结果转换为基因的能力(补充图7).
可以说,DIA最常见的优点是稳健的量化。ProHits也支持这一点。对于MSPLIT-DIA,除了提取光谱计数(与DDA相比,在DIA中更有意义,因为每个DIA窗口都有循环采集,没有排除列表[29]),输出准备通过OpenSWATH进行靶向提取,以量化肽[32],天际线[33]和PeakView[34] (;补充图6). 在目标提取之前运行MSPLIT-DIA会通过提供实际保留时间和样本中预期的肽列表来限制搜索空间:最近的研究表明,这大大促进了这些目标提取工具的性能[29]. 对于DIA-英派尔[27]ProHits有助于选择样本进行有针对性的再提取,从而提高了定量的灵敏度(;补充图4; 请注意,DIA-Ampire结果也可以在ProHits之外的Skyline中进行进一步分析)。在此模式下,可以通过ProHits的Analyst模块访问,可以在半目标DIA-Unimpire模式下查看选定的DIA-Unitre非目标搜索任务,并重新提取选定的数据文件。可以选择错误发现率(在肽和蛋白质水平)和待提取肽和片段的数量等参数,并启动有针对性的重新提取。DIA-mpire量化结果有多种格式,包括MS1和MS2级量化作为直接输出[27]. 或者,对于相互作用蛋白质组学研究,可以使用SAINT强度模型(最初为MS1数据建立)进一步分析结果[35]). MS1或MS2水平的SAINT量化结果(以DIA-U mpire手稿为基准[27])可以下载或在线查看。
处理ProHits中的DIA数据A) ProHits中的MSPLIT-DIA工作流。在数据管理模块(绿色框)中,可以通过并行DDA运行构建光谱库(在当前版本中,仅支持MSGFDB生成库);一个设施内所有之前的分析都被整合到一个“档案”中。还启用了公共存储库(例如SWATHA特拉斯)。ProHits使用MSGFDB得分最高的光谱作为肽鉴定的库光谱。识别的肽可用于生成分析库,以输入ProHits以外的目标提取工具;或者,ProHits在ProHits Analyst模块(黄色框)中实现了一个简单的推理映射,将独特的肽映射到“基因”(此处标识为prot*),用于光谱计数和SAINT评分。B) DIA-ProHits中的编译工作流。非目标识别在数据管理模块中执行,而半目标重新提取在分析模块中执行。请注意,SAINT和SAINTexpress强度模型可用于分析DIA-Ampire结果;或者,可以通过mapDIA分析结果。C) ProHits中的mapDIA工作流。当前版本已完全实现了统计工具mapDIA,作为Umpire Quant进行后量化的下游分析工具;mapDIA还接受目标提取工具提取的数据。在ProHits中选择mapDIA分析参数和实验设计选项。mapDIA结果的可视化(此处显示了时间过程的示例)可以在ProHits-viz服务器上的ProHits之外执行(灰色框)。
为了在各种工作流程(包括时间过程实验)中提供差异丰富的肽和蛋白质的评分,我们还集成了最近引入的统计工具mapDIA[36],它与DIA-Unmpire量化工作流完全兼容。mapDIA可直接使用片段级定量数据用于差异蛋白表达的统计分析。ProHits中实现的图形用户界面允许用户指定应分组的样本以及选择分析参数(补充图8). 然后执行mapDIA的完整工作流程,包括片段级强度的标准化(保留时间空间中的总离子和或局部强度和)、离群值剔除、选择最佳片段和肽进行量化、,以及基于模型的特定样本组间蛋白质水平差异表达的统计显著性分析(;补充图8). 结果作为标准mapDIA输出文件夹下载[36]虽然我们还实现了一些新的可视化工具,这些工具可以作为扩展的ProHits-viz工具套件的一部分用于图形生成([26]; Knight等人的手稿描述了ProHits-viz中的新功能准备中).
ProHits 4.0还引入了一些新功能,特别是方便了向ProteomeXchange提交数据集(包括频谱文件、元数据和处理结果)[37]通过MassIVE(MassIVE.ucsd.edu)(补充图9). 只需选择用于分析的文件(例如,SAINT任务中包含的所有文件,包括阴性对照)并选择通过ProHits FTP服务器将数据传输到MassIVE,即可将数据集打包到不同的文件夹中,即原始文件、峰值列表(mzML、mzXML)和结果文件(mzid),这些文件在MassIVE中以直接关联命名。选择与这些文件相关的FASTA文件(通过下拉菜单)将创建第四个文件夹(“其他”),该文件夹也将提交给MassIVE,以便于完整提交给ProteomeXchange。通过其他改进,包括与试剂管理系统OpenFreezer的链接[38],直接导出到定量交互存储库(ProHits-web.lunenfeld.ca)[39]和可自定义的导出功能(补充图10),ProHits 4.0提供了一个全面但用户友好的交互蛋白质组学实验室信息管理系统。