A repository of assays to quantify 10,000 human proteins by SWATH-MS

George Rosenberger; Ching Chiek Koh; Tiannan Guo; Hannes L. Röst; Petri Kouvonen; Ben C. Collins; Moritz Heusel; Yansheng Liu; Etienne Caron; Anton Vichalkovski; Marco Faini; Olga T. Schubert; Pouya Faridi; H. Alexander Ebhardt; Mariette Matondo; Henry Lam; Samuel L. Bader; David S. Campbell; Eric W. Deutsch; Robert L. Moritz; Stephen Tate; Ruedi Aebersold

doi:10.1038/sdata.2014.31

科学数据。2014; 1: 140031.

2014年9月16日在线发布。数字对象标识：10.1038/数据2014.31

PMCID公司：项目经理4322573

PMID：25977788

通过SWATH-MS量化10000人类蛋白质的分析库

乔治·罗森伯格,^1,² 青竹角,^1,^三郭天南,¹ 汉内斯·洛斯特,^1,² 佩特里·库沃宁,¹ 本·C·柯林斯,¹ 莫里茨·海塞尔,^1,⁴ 刘燕生（Yansheng Liu）,¹ 艾蒂安·卡隆,¹ 安东·维查尔科夫斯基,¹ 马可·法尼,¹ 奥尔加·T·舒伯特,^1,² 波亚·法里迪,^1,⁵ 亚历山大·埃布哈特,¹ 马里埃特·马通多,¹ 亨利·林,⁶ 塞缪尔·巴德,⁷ 大卫·S·坎贝尔,⁷ 埃里克·W·多伊奇,⁷ 罗伯特·莫里茨,⁷ 斯蒂芬·泰特,⁸和吕迪·阿贝尔索德^a、，^1,⁹

乔治·罗森伯格

¹苏黎世理工学院分子系统生物学研究所生物系，瑞士苏黎世CH-8093

²苏黎世大学和苏黎世理工学院系统生物学博士项目，瑞士苏黎世CH-8093

查找文章依据乔治·罗森伯格

青竹角

¹苏黎世理工学院分子系统生物学研究所生物系，瑞士苏黎世CH-8093

^三德国海德堡Ruprecht Karls大学，DE-69117

查找文章依据青竹角

郭天南

¹苏黎世理工学院分子系统生物学研究所生物系，瑞士苏黎世CH-8093

查找文章依据郭天南

汉内斯·洛斯特

¹瑞士苏黎世联邦理工学院分子系统生物学研究所生物学系，邮编：CH-8093

²苏黎世大学和苏黎世理工学院系统生物学博士项目，瑞士苏黎世CH-8093

查找文章依据汉内斯·洛斯特

佩特里·库沃宁

¹瑞士苏黎世联邦理工学院分子系统生物学研究所生物学系，邮编：CH-8093

查找文章依据佩特里·库沃宁

本·C·柯林斯

¹苏黎世理工学院分子系统生物学研究所生物系，瑞士苏黎世CH-8093

查找文章依据本·C·柯林斯

莫里茨·海塞尔

¹苏黎世理工学院分子系统生物学研究所生物系，瑞士苏黎世CH-8093

⁴苏黎世大学系统生理学和代谢疾病能力中心（CC-SPMD）分子和转化生物医学博士项目，苏黎世理工学院，瑞士苏黎世CH-8093

查找文章依据莫里茨·海塞尔

刘燕生（Yansheng Liu）

¹苏黎世理工学院分子系统生物学研究所生物系，瑞士苏黎世CH-8093

查找文章依据刘燕生（Yansheng Liu）

艾蒂安·卡隆

¹苏黎世理工学院分子系统生物学研究所生物系，瑞士苏黎世CH-8093

查找文章依据艾蒂安·卡隆

安东·维查尔科夫斯基

¹苏黎世理工学院分子系统生物学研究所生物系，瑞士苏黎世CH-8093

查找文章依据安东·维查尔科夫斯基

马尔科·费尼

¹苏黎世理工学院分子系统生物学研究所生物系，瑞士苏黎世CH-8093

查找文章依据马可·法尼

奥尔加·T·舒伯特

¹苏黎世理工学院分子系统生物学研究所生物系，瑞士苏黎世CH-8093

²苏黎世大学和苏黎世理工学院系统生物学博士项目，瑞士苏黎世CH-8093

查找文章依据奥尔加·T·舒伯特

波亚·法里迪

¹苏黎世理工学院分子系统生物学研究所生物系，瑞士苏黎世CH-8093

⁵伊朗设拉子，71345-1583，设拉子医科大学药学院和药物科学研究中心，植物药物学系（传统药学）

查找文章依据波亚·法里迪

亚历山大·埃布哈特

¹苏黎世理工学院分子系统生物学研究所生物系，瑞士苏黎世CH-8093

查找文章依据亚历山大·埃布哈特

马里埃特·马通多

¹苏黎世理工学院分子系统生物学研究所生物系，瑞士苏黎世CH-8093

查找文章依据马里埃特·马通多

亨利·林

⁶中国香港清水湾香港科技大学生物医学工程系及化学与生物分子工程系

查找文章依据亨利·林

塞缪尔·巴德

⁷美国华盛顿州西雅图系统生物学研究所，邮编：98109-5234

查找文章依据塞缪尔·巴德

大卫·S·坎贝尔

⁷美国华盛顿州西雅图系统生物学研究所98109-5234

查找文章依据大卫·S·坎贝尔

埃里克·W·多伊奇

⁷美国华盛顿州西雅图系统生物学研究所，邮编：98109-5234

查找文章依据埃里克·W·多伊奇

罗伯特·莫里茨

⁷美国华盛顿州西雅图系统生物学研究所，邮编：98109-5234

查找文章依据罗伯特·莫里茨

斯蒂芬·泰特

⁸加拿大安大略省康科德市AB SCIEX L4K 4V8

查找文章依据斯蒂芬·泰特

吕迪·阿贝尔索德

¹苏黎世理工学院分子系统生物学研究所生物系，瑞士苏黎世CH-8093

⁹苏黎世大学科学院，瑞士苏黎世CH-8057

查找文章依据吕迪·阿贝尔索德

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

数据引用

Rosenberger G.2014年。蛋白质组变化。 PXD000953型
Rosenberger G.2014年。SWATHAtlas。 SAL00016-35号
Rosenberger G.2014年。蛋白质X变化。 PXD000954型

补充资料: 补充信息
sdata201431-s1.xls（9.5万）
GUID:0CD8CB8E-B5B5-4EAD-BA99-092526CFB6CC
sdata201431-isa1.zip（18千）
GUID:3D98AA7E-10F4-42AA-AAE3-7AFEFDA855DE

摘要

质谱是深入可靠地研究人类蛋白质组的首选方法。靶向质谱法可靠地检测和量化复杂生物基质中预先确定的蛋白质组，并用于依赖多个样品中蛋白质定量准确和可重复测量的研究。它需要一次性，先验的为每个靶蛋白生成特定的测量分析。SWATH-MS是一种质谱法，它结合了数据相关性采集（DIA）和靶向数据分析，与选择性反应监测（SRM）相比，极大地扩展了样品中靶向蛋白质的吞吐量。在这里，我们提供了一份涵盖10000多个人类蛋白质的高度特异性分析概要，并能够在从研究或临床样本中获得的SWATH-MS数据集中对其进行靶向分析。该资源支持对UniProtKB/Swiss-Prot注释的50.9%的所有人类蛋白质进行可靠检测和量化，因此有望在基础和临床研究中得到广泛应用。数据可通过ProteomeXchange（PXD000953-954）和SWATHAtlas（SAL00016-35）获得。

背景和摘要

科学很大程度上依赖于可重复性和定量准确的测量。在分子生命科学中，技术进步将构成活细胞的分子的大规模测量推向了前沿。例如，下一代测序（NGS）技术使许多实验室实现了对完整基因组和转录组的常规定量分析。相比之下，蛋白质是细胞功能效应分子的主要类别，其分析仍然具有挑战性，而且一般无法实现。

在大多数实验室中，复杂样品中的蛋白质通过免疫分析进行检测和定量，其中特定试剂（通常是抗体）用于生成信号，指示样品中特定蛋白质的存在和数量。大规模项目，以人类蛋白质图谱项目为例¹商业努力试图为每种人类蛋白质生成特定的亲和试剂，并使其广泛可用。毫无疑问，这些试剂的可用性有可能对生命科学研究产生重大影响。然而，目前只有蛋白质组的一个子集可以通过亲和试剂进行常规测量，因此，许多关于蛋白质的文献知识都集中在蛋白质组的相对较小的子集上，即亲和试剂容易获得的部分²此外，这些试剂中至少有一些质量未知且可疑^三，限制了所得结果的实用性。因此，生命科学研究将大大受益于人类蛋白质组经验证的高质量分析的普遍可用性。

质谱（MS）已成为深入可靠地研究人类蛋白质组的首选方法。特别是，以数据依赖采集模式（DDA）运行的液相色谱-耦合串联质谱（LC-MS/MS）在复杂样品中蛋白质的鉴定方面取得了显著进展。已实现人类细胞系的全蛋白鉴定和定量^{4–6,4–6,4–6}目前正在努力确定20300个蛋白编码基因中至少一个蛋白产物的特征。HUPO以染色体为中心的人类蛋白质组项目就是这样一个例子⁷到目前为止，它可以检测到约14000个蛋白质的至少一个肽⁸最近，Kim的两项独立研究等。⁹和威廉等。¹⁰报告了分别对2000和16800多个LC-MS/MS测量值进行的累积分析，得出了分别对应于17294和18097个人类蛋白编码基因的已识别肽图谱。然而，这些研究中实现的高蛋白质组覆盖率取决于MS分析之前的蛋白质或肽分馏技术，如强阴离子交换（SAX）或非凝胶电泳（OGE），以在若干仪器注射之间分配样品复杂性，并整合大量LC-MS/MS测量的结果。生成和分析深层蛋白质组数据集的高技术复杂性和成本以及众所周知的技术权衡¹¹迄今为止，已禁止将这项强大的技术分发给大量实验室¹²并限制了实验室内部和跨实验室生成的数据集的再现性^{13–15,13–15,13–15}从而限制了其影响的广度。

我们和其他人提出，靶向质谱具有使基于质谱的蛋白质组学民主化的潜力，即使大多数或所有蛋白质在大量实验室中可靠地检测和量化¹⁶.在HUPO人类蛋白质组项目的保护伞下¹⁷，我们启动了一个项目，使靶向技术和相关的测量分析普遍可用。在靶向蛋白质组学中，以典型的定量质谱技术-选择性反应监测（SRM）为例，也称为多重反应监测（MRM），通过必须生成的特定质谱分析准确量化预定的蛋白质组先验的每个靶蛋白一次。为了支持基于SRM的蛋白质定量，已经创建了广泛的分析库，在某些情况下，还创建了蛋白质组范围的分析库和对多个样本中相同分析的经验测量，以判断这些分析的性能^{18–21,18–21,18–21,18–21}并且可以自由访问(http://www.srmatlas.org,http://www.peptideatlas.org/passel网站/). 而SRM和相关方法的最新实现在高性能质谱仪上进行平行反应监测（PRM）²²它们仍然是性能最好的定量MS方法，但由于可在一次注射中定量的蛋白质数量相对较少（50–100），以及需要在数据采集之前为每个样品指定目标蛋白质这一事实，它们受到了限制。

最近，我们引入了SWATH-MS，这是一种新的质谱技术，它将数据相关采集（DIA）与高分辨率质谱仪上的目标数据提取相结合²³在DIA模式下，仪器在预定的质量荷电范围内对所有前体离子进行断片(米/秒)范围和获得复杂的产物离子光谱，包含所有同时碎片化前体的碎片离子。通过快速递归地扫描连续的相邻前体离子窗口（称为线束），可以获得完整的前体离子米/秒涵盖了胰蛋白酶化肽的范围，因此，在用户定义的保留时间（RT）内所有前体的片段离子光谱与米/秒窗口随时间而记录。这就产生了一个在片段离子强度和保留时间维度上都是连续的数据集，基本上代表了所分析蛋白质样品的数字记录。在这些数据中，可以通过应用目标数据提取策略来识别和量化特定肽，该策略产生的信号类似于SRM获得的信号，其中，在色谱时间内记录与目标肽唯一相关的片段离子信号集，并将结论峰群用作样品中目标肽的决定性鉴定和定量的证据。数据分析取决于先验的分析，从用于SWATH-MS采集的同一高分辨率仪器中最佳生成的目标肽片段离子光谱得出。与需要在数据采集之前确定靶向肽的SRM不同，SWATH-MS数据集是独立记录的，然后可以使用靶向分析策略永久地重新定义。使用免费或商用软件（OpenSWATH²⁴，天际线²⁵、PeakView（AB SCIEX，Concord，加拿大）或Spectronaut（Biognosys AG，Schlieren，瑞士））和蛋白质组特异性分析库SWATH-MS可用于在与SRM相当但吞吐量更高的性能指标下进行蛋白质定量^23,24.

迄今为止，大多数使用SWATH-MS的研究都依赖于生成样本特异性分析文库，这些文库是从分馏或浓缩样本中获得的，在采集SWATH-质谱之前，在DDA模式下操作的同一仪器上注射^{23,24,26–29,26–29,26–29,26–29}在这里，我们提出了一个通用的大规模人类分析库，以支持通过SWATH-MS进行蛋白质定量。它针对在AB SCIEX TripleTOF 5600+系统上获取的SWATH-质谱数据集的目标数据分析进行了优化。它由1164312个转换组成，识别139449个蛋白型肽和10316个蛋白质。它是由331个来自不同细胞系、组织和亲和力富集蛋白样品的组分的测量结果合并而成的。测定由前体离子和碎片离子组成米/秒标准化RT和相对离子强度，使该资源易于使用最先进的分析软件进行数据分析。我们进一步证明，使用组合分析库获得的结果和生物学结论与使用样本特异性分析库得到的结果和生物结论具有可比性，并且适用于实验室。我们预计，这一资源将为研究和实验室对人类蛋白质组样本的简化和可重复分析做出重大贡献。

方法

示例概述

为了获得人类蛋白质组的广泛代表性，我们分析了一系列人类细胞和组织类型的蛋白质样品。分析的具体样本类型总结如下表1（有关完整注释，请参见补充表1)包括人体细胞系、肾脏、肠道、单核细胞、中性粒细胞和人体血液等组织。为了增加低丰度蛋白质分析文库的内容，我们还添加了从亲和纯化蛋白质复合物获得的光谱。图1演示了实验工作流。

在单独的窗口中打开

图1

用于生成分析库的数据采集和数据分析工作流。(一)数据采集：对不同细胞系和组织类型进行采样，然后进行（可选）蛋白质分馏、蛋白水解消化（使用胰蛋白酶或使用PCT的lys-c/胰蛋白酶）、（可选）肽分馏和发现蛋白质组学模式下的LC-MS/MS分析。(b条)数据分析：使用四种不同的搜索引擎进行序列数据库搜索，并使用Trans-Proteomic Pipeline对结果进行统计评估和合并。使用MAYU进行错误发现率（FDR）控制。使用SpectraST将识别的肽用于生成一致的RT归一化光谱库。使用spectrast2tsv.py和OpenSWATH工具ConvertTSVToTraML选择分析。

表1

组合分析库内容的概述。

样品类型	蛋白质分馏	蛋白质水解	肽分馏	MS注射
CL表示细胞系，T表示组织，表示样本来源。中提供了完整的示例注释补充表1.
HEK293（CL）	AP（激酶）	胰蛋白酶	无	12
HEK293（CL）	AP（14-3-3）	胰蛋白酶	无	29
HEK293（CL）	秒	胰蛋白酶	无	81
HEK293（CL）	无	胰蛋白酶	OGE公司	11
HEK293（CL）	无	胰蛋白酶	无	1
U2OS（CL）	无	百分比	无	13
赫拉（CL）	无	百分比	无	9
U2OS和HeLa（CL）	无	胰蛋白酶	OGE公司	24
NCI60（CL）	无	百分比	无	13
NCI60（CL）	无	胰蛋白酶	OGE公司	24
CAL51（氯）	无	胰蛋白酶	无	5
CAL51（中心线）	无	胰蛋白酶	1D通用电气	2
THP1（氯）	无	胰蛋白酶	OGE公司	27
LNCaP（CL）公司	无	胰蛋白酶	SAX公司	6
LNCaP（CL）公司	无	胰蛋白酶	无	1
肾脏（T）	无	胰蛋白酶	1D通用电气	15
肾脏（T）	无	百分比	无	16
大肠（T）	无	胰蛋白酶	OGE公司	24
肌肉（T）	无	百分比	无	三
肺（T）	无	百分比	无	2
血浆（T）	无	胰蛋白酶	SAX公司	8
单核细胞（T）	无	胰蛋白酶	无	1
中性粒细胞（T）	无	胰蛋白酶	无	1
纯化血小板（T）	无	胰蛋白酶	无	三
总计	331

在单独的窗口中打开

细胞培养、组织采样和蛋白质水平分离

细胞培养

HEK293细胞样品基本上按照之前的描述生成³⁰.

HeLa和U2OS细胞从ATCC中获得，并在添加了100 U/ml青霉素、100μg/ml链霉素和10%胎牛血清的谷氨酸MAX-1（Invitrogen，Carlsbad，CA）的DMEM中在37°C、5%CO条件下生长₂，在加湿培养箱中。

NCI60和LNCaP细胞是从国家癌症研究所（NCI NIH）的发展治疗计划（DTP）中获得的冷冻、非活性细胞颗粒。

CAL51细胞在缺乏精氨酸和赖氨酸（Invitrogen）的RPMI 1640培养基中生长，并补充10%胎牛血清（Invit罗gen，26400-044）（FBS）。培养基中添加100 U/ml青霉素、100μg/ml链霉素和2 mM L-谷氨酰胺（Gibco）。如前所述生成THP1细胞系样本³¹.

患者标本

肾组织样本(n个=18）在手术时收集，由Silke Gillessen博士、Markus Joerger博士和Wolfram Jochum博士（瑞士圣加仑坎通斯皮塔尔）提供。

肠道组织样本(n个=18）由Marko Kalliomaki博士（芬兰图尔库大学医院）提供。样本是在诊断性结肠镜检查期间从9名患者中采集的。

肺组织样本(n个=12）由荷兰格罗宁根大学医学中心的Wim Timens博士及其同事提供。

肌肉组织样本(n个=12）由Carsten Jacobi博士（瑞士诺华制药公司）提供。

血浆样本取自32名健康女性献血者，在进一步处理之前混合在一起。根据制造商的协议，使用多重亲和去除系统（MARS Hu-14自旋盒；安捷伦科技）去除血浆中14种最丰富的血浆蛋白。用3000 Da分子量截止过滤器（Pall公司）交换耗尽的样品，并在用胰蛋白酶和LC-MS分析消化之前，在6 M尿素和0.1 M碳酸氢铵中变性。

单核细胞和中性粒细胞样本是从活动性肺结核患者中分离出来的，由Stefan Kaufmann教授（德国柏林马克斯·普朗克感染生物学研究所）提供。

来自健康捐赠者的纯化血小板由Ohad Medalia教授（瑞士苏黎世大学）提供。纯化和蛋白质消化基本上如前所述³².

所有临床标本均根据IRB批准和接受的方案获得。所有取活检样本的患者均获得书面知情同意。

亲和力纯化

包括之前发布的14-3-3β网络亲和纯化样品的数据集²⁷此外，为了生成光谱库，根据相同的协议生成并合并了人激酶毒饵下拉列表。

尺寸排除色谱法（SEC）

如前所述，对循环HEK 293 wt细胞进行基本裂解²⁷但裂解缓冲液中没有添加亲和素。通过15分钟的超速离心（100000×克在30 kDa分子量截止膜（Amicon Ultra-15，Millipore，MA，USA）上，将Beckman Coulter Optima TLX超离心机）和裂解缓冲液交换至SEC缓冲液（50 mM HEPES pH 7.5，150 mM NaCl），在1:2，1:5和1:5的三个稀释和再浓缩步骤中，比例为1:50。根据OD280判断，将蛋白质浓缩至25–30 mg/ml，然后在蛋白质水平分馏之前，在4°C下16.9 krcf（Eppendorf 5418R）离心5分钟，将蛋白质从沉淀物中清除。SEC在安捷伦1100毫升流量HPLC系统（安捷伦，加利福尼亚州，美国）上进行，该系统使用Yarra-SEC-4000色谱柱（孔径500？，尺寸300？.8 mm，Phenomenex，加州，美国），50 mm HEPES pH 7.5，150 mm NaCl，温度控制在4°C，流速为500 ul/min。1注射μg浓缩裂解液，将其分馏到注射后10–25分钟收集的80个组分中。将两次连续运行合并，得到最终组分，以便通过LC-MS/MS进行消化和分析。

质谱肽样品制备

为了最大化单个样本的蛋白质组覆盖率，使用不同的物理化学方法（如非凝胶电泳或离子交换色谱）对样本进行分级。在本研究中，我们包括来自HEK293细胞系的SEC和OGE分离样品、来自血浆和LNCaP细胞系的SAX分离样品以及来自THP1和NCI60细胞系的OGE分离样本。

蛋白质水解

蛋白质样品用5 mM TCEP还原，并在过夜胰蛋白酶化前用10 mM碘乙酰胺烷基化。使用压力循环技术（PCT）协议对一些样品进行胰蛋白酶解，如下所述（如表1). SEC组分中的蛋白质在69°C下孵育10分钟后变性，在1%（v/v）脱氧胆酸钠存在下还原、烷基化并消化过夜。通过将pH降低到2来灭活胰蛋白酶，并将肽固定在C18柱上。多次洗涤后，洗脱肽（50%乙腈/0.1%甲酸），并在SpeedVac离心机中蒸发溶剂。重新悬浮后，样品在MS分析之前进行短暂的超声波处理。

PCT辅助裂解和消化

压力循环技术（PCT）³³在环境和超高水平之间应用静水压循环来诱导细胞裂解，并实现对生物分子相互作用的精确热力学控制。使用Barocycler®NEP2320（PressureBioSciences，Inc，South Easton，MA）处理所有PCT处理过的样品。简而言之，在Barocycler程序下，组织或细胞系样品在含有8 M尿素、100 mM碳酸氢铵并辅以完整蛋白酶和磷酸酶抑制剂混合物的缓冲液中进行溶解（组织样品：50 s 45 kpsi和10 s 14.7 psi的60个循环；细胞系样品：在35°C下120个周期，20 s 45 kpsi和10 s 14.7 psi）。然后将整个细胞/组织裂解物在冰上超声25 s，间隔1 min，共4次。通过离心去除组织碎片或未破碎的细胞（如有）后，蛋白裂解物在蛋白水解消化之前被还原并烷基化。依次添加Lys-C（酶底物比1:50）和胰蛋白酶（1:30）以消化蛋白质。在50 s 25 kpsi和10 s 14.7 psi的PCT方案下加速消化（细胞系样品：25 s 25 kpsi，10 s 14.7psi，持续45分钟），在此条件下Lys-C和胰蛋白酶保持活性。Lys-C消化在6 M尿素中进行45个周期，而胰蛋白酶消化在进一步稀释的尿素（1.6 M）中进行90个周期（细胞系样品：24 s 25 kpsi，10 s 14.7 psi，90 min）。随后，在使用SEP-PAK C18滤筒（Waters Corp.，Milford，MA，USA）进行C18脱盐之前，将三氟乙酸（TFA）加入到约2的最终pH。

非凝胶电泳（OGE）

经过消化和脱盐步骤后，清洁的肽在OGE缓冲液中重新溶解，该缓冲液含有5%（v/v）甘油、0.7%ACN和1%（v/v）载体两性电解质混合物（IPG缓冲液pH 3.0–10.0，GE Healthcare）。在3100 OFFGEL（OGE）分馏器（安捷伦科技）上，使用24 cm pH 3–10的IPG条带（GE Healthcare）在最大8000 V、50μa和200 mW的电压下分离肽，直到达到50 kVhrs。回收所有馏分后，在C18反相MicroSpin柱（The Nest Group Inc.）上对其进行脱盐，并根据以下MS注射方案进行混合：

高铁293

池1（分数1-2）、池2（分数3）、池3（分数4）、池4（分数5）、池5（分数6-7）、池6（分数8-9）、池7（分数10-11）、池8（分数12-16）、池9（分数17-18）、池10（分数19-21）、库11（分数22-24）。

NCI60面板

池1（分数1-2）、池2（分数3）、池3（分数4）、池4（分数5）、池5（分数6-7）、池6（分数8-9）、池7（分数10-11）、池8（分数12-15）、池9（分数16-19）、池10（分数20-21）、池11（分数22）、池12（分数23-24）。

THP-1型

没有进行池操作。24个组分中的每一个组分注射一次，但第3、4、9和22组分注射两次。

1D凝胶电泳（1D GE）

根据蛋白质的分子量，使用SDS-PAGE将18个肾组织样本池分解为15个凝胶组分³⁴在使用标准方案进行质谱分析之前，这些组分在凝胶中单独消化³⁵.

强阴离子交换（SAX）

在基于吸管的阴离子交换器上分离出总共50μg肽，按照StageTip原理，将6层3 M Empore阴离子交换盘（Varian，1214−5012）堆叠到200μl微吸管尖端中，如前所述³⁶简单地说，平衡缓冲液由20 mM乙酸、20 mM磷酸和20 mM硼酸组成，用NaOH滴定至所需的pH值。肽在pH 11下加载，然后用pH 8、6、5、4和3的缓冲液分别通过7000×离心洗脱馏分克每次。流通部分和五个pH-洗脱部分均在C18 StageTips上捕获。

RT标准化肽

为了进行RT归一化和分析，根据供应商说明，在MS注射之前，将iRT试剂盒中的肽（瑞士纹影公司Biognosys AG）添加到所有样品中³⁷.

用于谱库生成的DDA质谱

为了生成光谱库，使用了AB SCIEX TripleTOF 5600+系统质谱仪。它的操作基本上如前所述^23,24：所有样品均在Eksigent纳米LC（AS-2/1Dplus或AS-2/2Dplus）系统和SWATH-MS启用的AB-SCIEX TripleTOF5600+系统耦合下进行分析。HPLC溶剂系统由缓冲液A（2%乙腈和0.1%甲酸在水中）和缓冲液B（2%水和0.1%乙酸在乙腈中）组成。样品在一个直径75μm的PicoTip发射器（新目标）中分离，该发射器装有20 cm的Magic 3μm，200μm C18 AQ材料（Bischoff色谱法）。以300 nl/min的流速从色谱柱中洗脱负载材料，洗脱梯度如下：线性2–35%B 120 min，线性35–90%B 1 min，等容性90%B 4 min，线性90–2%B 1 min和等容性2%溶剂B 9 min。质谱仪在DDA top20模式下操作，500和150MS1和MS2扫描的采集时间分别为毫秒，动态排除时间为20秒。碰撞能量扩散为15 eV的滚动碰撞能量用于破碎。

光谱和分析库生成

所有原始仪器数据（数据引用1）均按上述方法定心和处理^24,27。分析库是根据以下协议生成的：TPP³⁸（4.6.0）和SpectraST³⁹（5.0）用于鸟枪蛋白质组学分析。使用X！单独搜索数据集！串联⁴⁰（2011.12.01.1）带有k-score插件⁴¹、Myrimatch⁴²（2.1.138），OMSSA⁴³（2.1.8）和彗星⁴⁴（2013.02r2）针对UniProtKB/Swiss-Prot注释的完整非冗余规范人类基因组⁴⁵（2014_02），带有20 270个ORF和附加的iRT肽和诱饵序列。使用氨基甲基（C）作为固定修饰；氧化（M）是唯一的变量修饰。母体质量误差设置为±50 p.p.m.，碎片质量误差设为±0.1 Da。然后使用肽噬菌体对搜索标识进行合并并进行统计评分⁴⁶和iProphet⁴⁷TPP内部³⁸.马尤⁴⁸（1.07）用于选择iProphet临界值0.999354，导致蛋白质FDR为1.03%。SpectraST在库生成模式下使用CID-QTOF设置，并在导入时根据iRT Kit肽序列进行iRT标准化（-c_IRTirtkit.txt-c_IRR），并连续生成共识库⁴⁹脚本spectrast2tsv.py（msproteomicstools 0.2.2；https://pypi.python.org/pypi/msproteomicstools网站)然后使用建议的设置生成asay库：-l 3502000-s b，y-x 1,2-o 6-n 6-p 0.05-d-e-w swath32.txt-k openswath。OpenSWATH（OpenMS/develove，revision:03377b6）工具ConvertTSVToTraML将TSV文件转换为TraML，并使用OpenSWATH工具OpenSwathDecoyGenerator将诱饵附加到TraML分析库中，如前所述²⁴在相反模式下，相似阈值为0.05 Da，身份阈值为1。分析库（数据引用2）进一步转换为与OpenSWATH、PeakView、Skyline和Spectronaut兼容的表格格式。

DIA质谱法（SWATH-MS）

对于SWATH-MS数据采集（数据引用3），基本上按照之前所述操作相同的质谱仪和LC-MS/MS设置^23,24，使用有效隔离宽度为25 Da的32个窗口（窗口左侧额外重叠1 Da），停留时间为100 ms，以覆盖400–1200的质量范围米/秒在每个周期之前，采集MS1扫描，然后开始MS2扫描周期（400–425米/秒第一次扫描的前体隔离窗口，424–450米/秒第二次。。。1,174–1,200 米/秒最后一次扫描）。每个窗口的碰撞能量是使用以窗口中间为中心、扩散为15 eV的2+离子的碰撞能量来设置的。

SWATH-MS数据分析

OpenSWATH公司

OpenSWATH（OpenMS/develove，版本：03377b6）分析工作流（OpenSwathWorkflow）的改进开发版本(http://www.openswath.org)用于所有数据分析。参数的选择与之前描述的参数类似²⁴：min_rsq:0.95，min_coverage:0.6，min_upper_edge_dist:1，mz_extraction_window:0.05，rt_extracon_window:600，extra_rt_extriction_windows:100。

预言家（0.9.2）(https://pypi.python.org/pypi/pypeamotor)在OpenSwathWorkflow输出上运行，调整后包含前面描述的分数（xx_swath_prelim_score，bseries_score、洗脱模型fit_score、强度核心、同位素相关核心、同位素覆盖核心、库corr、库rmsd、log_sn_score和质量开发核心、质量开发核心加权、正常得分、xcorr_colation、xcorr洗脱加权、xcorr-shape和xcorr_shape_weighted.yseries_score）²⁴和蛋白型肽，仅支持MAYU输出和30倍半监督学习迭代。这产生了一个OpenSWATH肽鉴定列表，一个仅包含靶向肽和蛋白质以及假靶标：诱饵比率（无法检测到的靶标和诱饵的比率）的FASTA文库，用于MAYU的直接分析。

使用MAYU（1.07），最大mFDR为0.1200 mFDR步长，并计算假靶：诱饵比率，以计算与所选蛋白质FDR对应的分析水平q值（m_score）截止值。对每次单独分析和过滤的肽和蛋白质鉴定进行所有进一步分析。

峰值视图

如Lambert所述，使用PeakView（AB SCIEX）重新处理之前收集的AP-SWATH样本数据集等。²⁸基本上，原始数据是使用样本特定分析库或组合分析库进行处理的，提取峰面积并使用PeakView SWATH微型应用程序进行评分。提取并过滤峰面积，以去除所有肽，这些肽在所有测量中的FDR都不小于1%。

如前所述，通过最可能的比率归一化和折叠变化测定处理提取的峰面积²⁸。将样本特异性分析库的折叠变化分析结果与组合分析库的褶皱变化结果进行比较。

数据记录

数据记录1

用于生成组合分析文库的质谱发现蛋白质组学数据（仪器原始文件、质心mzXML和pepXML报告中确定的肽）已保存到ProteomeXchange Consortium(http://proteomecentral.proteomexchange.org)通过PRIDE合作伙伴存储库⁵¹数据集标识符为PXD000953（数据引用1）。

数据记录2

光谱库（SpectraST格式）和分析库（CSV、TraML）可用于SWATHA特拉斯的不同SWATH-MS数据分析工具，数据集标识符为SAL00016-35（数据引用2）。

数据记录3

用于验证样本特异性和联合分析文库的质谱SWATH-MS数据（仪器原始文件、mzXML和OpenSWATH报告中确定的肽）已存入ProteomeXchange Consortium(http://proteomecentral.proteomexchange.org)通过PRIDE合作伙伴存储库⁵⁰数据集标识符为PXD000954（数据引用3）。

技术验证

分析库饱和度分析

大规模基于MS-的蛋白质组学实验容易在肽和蛋白质水平上积累错误识别。因此，严格过滤这些数据集至关重要，尤其是为了生成分析库。我们应用了在马余实施的战略⁴⁸在蛋白质水平上将分析库调整为1%的FDR，从而产生iProphet⁴⁷概率截止值为0.999354。在这个截止点，真阳性蛋白鉴定的数量已经达到饱和(图2a). 这与真阳性肽鉴定的数量相反，真阳性肽的数量可能会进一步增加，但代价是接受更多的假阳性蛋白鉴定(图2b). 这一结果与其他大规模数据集的观察结果一致，在这些数据集中，真正可检测的蛋白质通常具有许多与同一蛋白质冗余匹配的相关肽。另一方面，假阳性识别并不显示这种冗余，因此需要非常严格地控制错误率，从而导致大量假阴性识别⁵¹.

在单独的窗口中打开

图2

联合分析库的统计数据以及与其他人类蛋白质组绘图工作的比较。(一)真阳性（红色）和所有蛋白质鉴定（蓝色）作为蛋白质FDR的功能。该图表明，真正阳性的蛋白质鉴定数量在蛋白质FDR截止值为0.05时饱和。在不太严格的FDR截止点的其他鉴定主要是假阳性蛋白鉴定。(b条)作为蛋白质FDR的函数的真阳性（红色）和所有肽鉴定（蓝色）。该图表明，真阳性肽鉴定的数量与肽鉴定的总数密切相关，并且在蛋白质FDR截止值的典型水平内未达到饱和。(c（c）)每个样本类型对分析库贡献的PSM数量。多个PSM可以构成一个一致谱，并在每次MS注射时单独计数。NCI60细胞系组的贡献最大，HEK293细胞、肠道组织和THP1细胞各占所有光谱的10%以上。(d日)UniProtKB/Swiss-Prot策划的人类蛋白质重叠，这是一个用蛋白质级证据注释的子集，以及提出的联合分析库（CAL）。在蛋白质水平上，分析库提供了68.2%的蛋白质覆盖率和证据，同时提供了额外802个蛋白质的分析。与UniProtKB/Swiss-Prot相比，分析库包含20264个蛋白质的50.9%。

从DDA数据集中识别的蛋白质数量在很大程度上取决于所搜索序列数据库的冗余度。具有高度序列冗余的数据库可能会扩大蛋白质鉴定，因为实质上相似或不可区分的蛋白质被视为单独的物种。因此，不建议使用UniprotKB/TrEMBL或国际蛋白质指数（IPI）等冗余蛋白质数据库来生成分析库，因为它们增加了生成随机单次命中识别的可能性^48,52在本研究中，我们使用UniprotKB/Swiss-Prot作为蛋白质注释的基础，该注释被认为是领先的通用精选蛋白质序列数据库^45,53并且只包含非冗余条目。

组合分析库（CAL）包含16种不同样品类型的进样，每个样品对一致性光谱库的相对贡献在1到37%之间。总的来说，NCI60细胞系小组、HEK293和THP1细胞系以及肠道和肾脏组织样本是主要的贡献者，在所有超过阈值的一致性肽谱匹配（PSM）中，它们共同占近90%(图2c). 这种大范围的覆盖主要是由于蛋白质和肽水平上的广泛分离以及每种样本类型的MS注射数量众多。

与蛋白质组发现现状的关系

近年来，一些研究和项目旨在绘制完整的人类蛋白质组，其中包括HUPO染色体中心人类蛋白质组项目（C-HPP）^7,8，它试图描述每个人类蛋白编码基因的至少一种蛋白产品的特征⁵⁴已经对几个人类细胞系的蛋白质组进行了详尽的鉴定^{4–6,4–6,4–6}最近，人类蛋白质组草图已经出版，占84%⁹或92%¹⁰注释过的人类基因组。

我们将联合分析文库中包含的蛋白质与UniProtKB/Swiss-Prot（2014_05版）注释的蛋白质进行了比较，并将其中注释的蛋白质与蛋白质水平的证据进行了比较⁵⁵。我们将UniProtKB/Swiss-Prot标识符的非冗余规范列表映射到组合分析库中包含的蛋白型肽识别的蛋白质。图2d表明在蛋白质水平上，我们的文库对13956个蛋白质的覆盖率达到了68.2%，并提供了额外802个蛋白质的分析。与UniProtKB/Swiss-Prot相比，组合分析库包含20264个蛋白质的50.9%。表2提供了组合分析库内容的概述。

表2

组合分析库的分析统计。

	蛋白质型	蛋白型+共享
描述了以蛋白质FDR 1%过滤的蛋白质、肽、前体和过渡的数量。联合分析库提供了所有靶点和诱饵分析，但所有下游分析只考虑了蛋白型分析。
蛋白质	10,316	11,588
肽类	139,449	146, 576
前驱体	194,052	204,545
过渡	1, 164, 312	1,227,270

在单独的窗口中打开

SWATH-MS靶向数据分析组合分析库的适用性

使用HeLa和U2OS细胞株的全细胞消化样本进行分析，以比较组合（CAL）和样本特异性分析库（ss-HeLa/ss-U2OS）的性能。首先，我们通过从三次重复注射未分离的肽样品中获取DDA数据集（也包含在组合分析库中），从各个细胞系的裂解液中生成样本特异性分析库。对于HeLa细胞，产生的样本特异性分析文库包含2583个蛋白质、16096个肽、18124个前体离子序列和108744个跃迁。对于U2OS细胞，该文库包含2610个蛋白质、15334个肽、17360个前体和104160个跃迁。对于这两种细胞系，数据被过滤到1%的蛋白质FDR，并且所有进一步的分析只考虑了蛋白质型分析。两种细胞系的肽和蛋白质水平与联合分析文库的重叠均超过99%(图3a). 两个样本特异性文库之间的重叠在肽水平上超过70%，在蛋白质水平上大约80%。这两个库分别用于分析使用OpenSWATH在DIA模式下采集的相同样本²⁴如上文所述，使用分析水平的q值阈值（m_score）来估计蛋白质FDR。

在单独的窗口中打开

图3

通过SWATH-MS使用不同的蛋白型分析文库进行的肽和蛋白质鉴定的数量。(一)描述了组合分析文库（CAL）和样本特异性分析文库中包含的蛋白型肽及其重叠。样本特异性文库之间的肽水平重叠超过70%，蛋白质水平重叠约80%。样本特异性文库中包含的239个肽不包括在CAL中，因为它们不符合CAL更严格的质量标准(b条)描述了肽FDR依赖性的真阳性肽识别数。使用组合文库，肽FDR低于1%（灰色虚线）时，真阳性肽鉴定的数量与样本特异性文库相匹配。(c（c）,d日)HeLa的真阳性蛋白鉴定数(c（c）)或U2OS(d日)描述了依赖于蛋白质FDR的单个、普通注射中的全细胞裂解物。蛋白质FDR截止值要么用于所有识别，要么用于非单一命中（NS）。与HeLa和U2OS的样本专用库相比，CAL在典型的错误率控制水平下提供了类似的灵敏度。CAL的非单一命中识别通常在较低的蛋白质FDR截止值下提供较高的灵敏度。灰色虚线表示蛋白质FDR截止值为1%。(e（电子）)肽FDR依赖性中肽鉴定的再现性。颜色表示3个技术复制品中的1个（绿色）、2个（蓝色）或3个（红色）的再现性。ss-HeLa（顶部）和CAL（底部）都能够在同一肽FDR的所有重复物中检测到相似数量的分析。CAL仅能在一个或两个重复中检测到更多低强度肽。(（f）)在1%肽FDR条件下，在所有三个重复中确定的前体总跃迁强度的变异系数（CV）分布。5%（U2OS）至10%（HeLa）的中位数变异系数与预期的技术变化非常吻合，并且在样本特异性和组合分析库之间非常相似。

在蛋白质FDR为1%的情况下，当使用整个组合分析文库或样本特异性分析文库时，样本中的真阳性蛋白质鉴定数量非常相似(图3c、d). 然而，与样品特异性测定文库鉴定的非单一命中数相比，联合测定文库提供了49-59%的蛋白质水平覆盖率(表3). 这种明显的差异可以通过使用组合分析库与样本特异性分析库相比较确定为真阳性的肽的数量来解决。因为组合分析库可以在肽FDR为1%的情况下检测超过35%的多肽(图3b)，排除单个点击可以检测更多蛋白质。总的来说，这些数据表明，在典型的FDR控制水平下，组合分析库以更高的灵敏度识别肽。

表3

组合和样本特异性分析库的识别统计。

	保护	激励	保护	激励	保护	激励	保护	激励
蛋白质FDR	卡尔·赫拉		ss希拉		校准U2OS		扩频U2OS
报告了使用组合（CAL）和样本特异性（ss）分析文库在常用蛋白质FDR截止值处HeLa和U2OS细胞系全细胞裂解物的SWATH-MS数据集中鉴定的蛋白型肽和蛋白质的数量。蛋白质FDR截止值要么用于所有识别，要么用于非单一命中（NS）。MAYU报告了联合分析文库和样本特异性分析文库的真阳性蛋白（prot）和肽（pep）鉴定结果。
1%	2,417	14,930	2,353	14, 635	2,617	15,608	2,452	14,360
2%	2,730	17,294	2, 467	15,416	2,989	18,321	2,541	14,982
5%	3,246	21,128	2,514	15,672	3,486	21,893	2,552	15,003
NS 1%	2,608	23,075	1,750	14, 999	2,803	24,009	1,763	14, 599
NS 2%	2,804	25,005	1,798	15,537	2,965	25,497	1,815	15,002
NS 5%	3,111	28,002	1,820	15,668	3,241	28, 442	1,819	14,999

在单独的窗口中打开

根据HeLa样品的肽FDR的依赖性，三个技术复制品中肽鉴定的再现性如所示图3e。在所有三个样本中识别的肽数量对于组合库和样本特异库都是相似的。然而，CAL仅在一个或两个重复中检测到更多的肽。对CAL和样本特异性文库在1%FDR下对这些肽的进一步评估表明，它们主要是低强度肽（CAL:1/3（在3个重复中的1个中检测到）33433±38083（每个前体片段离子强度总和的平均值±标准差），2/3（39504±39440），3/3（89935±140914）；黑拉酵母菌：1/3（35865±38467），2/3（39440±52346），3/3（97226±152470））。在所有三个重复中，这些低强度肽映射的大多数蛋白质（CAL:77.4%；ss-HeLa:82.0%）也被不同的高强度肽检测到。这表明，分析不会导致假阳性蛋白质鉴定，而是能够测量相同蛋白质的其他肽，并且CAL和样本特异性分析库的分析在靶向蛋白质组学实验中的鉴定再现性方面非常相似。由于样品的复杂性和DDA算法的局限性，这些分析不存在于特定于样品的分析库中，DDA算法只选择最强烈的前体进行裂解。

发现前体水平量化信号的变异系数（CV）与低于20%的重复之间的预期技术变异很好地对应²⁴(图3f). 此外，使用组合库和样本特异库的量化信号的CV对于两种细胞系非常相似，表明保守可靠的量化性能。

组合分析库对不同样本类型和实验室的可移植性

为了测试生成的分析库的可移植性，我们使用了来自组合分析库的特定蛋白质分析子集，用于重新分析Lambert的CDK4 AP-SWATH数据集等。²⁸。此数据集是在用于生成此处显示的分析库的同一类型仪器上生成的。然而，用于生成样本特定库的SWATH-MS数据和DDA数据是在不同的实验室、不同的时间点和使用不同的色谱条件获得的。使用原始样本特异性文库或此处报告的组合文库中包含的相应分析，我们测定了野生型和突变CDK4状态（R23C、R23H）之间蛋白质的折叠变化。图4显示了原始分析与使用组合库中的分析进行的重新分析的比较和重叠。不同测定文库之间的蛋白质折叠变化测量是可比较的。因此，数据表明，即使数据是在不同的时间和不同的实验室获得的，组合库中包含的分析也可以成功地用于进行蛋白质定量。对组合中的肽与作为原始出版物一部分创建的样本特异性分析文库中的肽进行对比研究表明，在大多数情况下，不同文库之间的蛋白质覆盖率相当。在如CD2A1和CDN2C中不同测定文库之间蛋白质表达谱不同的情况下，折叠变化的差异可归因于文库中存在的肽数量的差异。这些结果表明，此处显示的组合分析库中包含的分析可在不同的实验设置之间移植。

在单独的窗口中打开

图4

将组合分析库（CAL）应用于独立采集的数据集（CDK4 AP-SWATH，Lambert等。²⁸)并与样本特异性分析库（ss）进行比较。指出了用晶须进行标准差比较的野生型（WT）和突变体（R24C或R24H）的折叠变化。与样本特异性分析库相比，CD2A1和CDN2C组合库中包含的分析包含更少且不同的肽，因此折叠变化较小。结果表明，使用组合分析库可以从使用不同实验设置、数据采集和数据分析策略进行的SWATH-MS实验中检索到可比较的定性和定量结果。

使用说明

分析库在SWATH-MS数据中的应用

应用分析库搜索SWATH-MS数据集有两种不同的方法。第一种方法是选择性搜索预定的蛋白质组，第二种方法是使用整个库全面搜索SWATH-MS图谱。在第一种情况下，可选择感兴趣的肽或蛋白质作为先前的信息，例如来自早期蛋白质组学或转录组学测量或来自文献。因此可以相应地过滤组合的测定文库，使得查询转换列表仅包含针对这些靶向蛋白质或肽的测定。为了简化这一步骤，我们提供了SWATHA特拉斯上特定蛋白质和肽的联合分析库查询。这些分析可以在Skyline等软件中使用²⁵或PeakView进行数据分析和可视化。

在第二种情况下，没有预先选择目标肽或蛋白质，整个分析库用于通过OpenSWATH等自动化软件搜索SWATH-MS图²⁴。由于整个组合文库包含10000多个蛋白质的分析，典型的短梯度单SWATH-MS图谱通常可以识别2000–5000个蛋白质，因此整个分析文库针对的大多数蛋白质要么不存在于样品中，要么无法检测到。为了避免由于多重比较问题导致的假阳性，使用MAYU等工具根据肽或蛋白质FDR适当设置分数截止值至关重要⁴⁸此方法取决于目标经济方法的正确应用⁵⁶我们发现，特别是对于这里介绍的非常大的分析库，生成诱饵分析是至关重要的，这些诱饵分析保证与目标分析不同，并且代表完整样本。为了使即使是高度重复或回文肽序列也能产生诱饵跃迁，我们发现序列的完全反转满足这些要求。

通过将整个组合分析库应用于上述HeLa SWATH-MS数据集，说明了多重比较问题的效果。在分析中，MAYU测定的分析FDR约为0.0036%，导致蛋白质FDR为1%。相比之下，对于样本特异性文库，同样的蛋白质FDR达到了约0.6%的分析FDR。这种差异部分与鸟枪蛋白质组学数据库搜索中的观察结果有关，即搜索非常大的数据库，例如基因组数据库的六帧翻译，会增加随机PSM的可能性。然而，这种情况与序列数据库搜索不同，因为目标方法试图检测可变数量的实验观察离子色谱图中的特定信号组。

提供了OpenSWATH的更新版本(http://www.openswath.org)直接使用MAYU进行蛋白质FDR评估。

所提供的数据是在Eksigent nanoLC（AS-2/1Dplus或AS-2/2Dplus）系统与AB SCIEX TripleTOF 5600+系统耦合的情况下获得的，因此组合分析库针对这种仪器进行了优化。然而，该分析库也可以应用于其他高分辨率仪器上采集的DIA数据。在这种情况下，可检测分析的预期比例取决于仪器在破碎方法和液相色谱方面的相似性。特别地，当将qTOF-CID光谱（如本文所述）与离子阱HCD光谱进行比较时，片段模式的保守性很高，表明分析具有良好的可移植性^57,58此外，这里使用的标准化保留时间是一个无量纲值，可以使用峰值标准转换为不同的LC设置³⁷最后，mProphet采用的半监督学习方法⁵⁹以及相关软件，如OpenSWATH、Spectronaut和Skyline，调整了潜在的碎片减少或保留时间守恒对判别评分函数的影响，以保持真实和虚假检测分析的准确分离。

根据显示的数据生成自定义分析库

定制的分析库可以针对特定的样本类型、蛋白质组和蛋白质组背景进行优化。对于蛋白质组分析等特殊应用，可以通过额外搜索光谱数据以进行翻译后修饰（如磷酸化）或使用不同的蛋白质序列数据库（例如，包含蛋白质亚型的数据库）来生成自定义分析库。建议应用可扩展的分析库生成工作流，以控制错误率。作者（舒伯特，O.T.，吉列，L.C.，柯林斯，B.C.，纳瓦罗，P.，罗森伯格，G.，沃尔斯基，W.E.，拉姆，H.，阿莫迪，D.，麦克莱恩，B.，马利克，P.&艾伯索尔德，R.）正在准备一份为生成大规模分析库提供详细说明的手稿。特别是对于修改，需要评估并说明正确的现场分配的信心。60.

组合分析库的转换是根据一个协议选择的，该协议能够将定性和定量可比结果作为样本特定分析库(图3和和4）。4). 本研究中使用的软件工具可以自动检测具有许多干扰跃迁的分析，并影响灵敏度而非选择性，因此不会增加假阳性的数量²⁴。由于组合分析库包含对86.5%所有蛋白质的一个以上蛋白型肽的分析，因此在大多数情况下，可以使用不同的肽进行定量。然而，对于某些应用，特别是当分析非常复杂的人体样品或差异位点修饰的蛋白质组时，可以根据独特离子特征（UIS）概念改变过渡选择⁶¹.使用SRMCollider等工具⁶²，可以为给定的背景蛋白质组选择转换（例如，基于先前识别的蛋白质），以最小化与其他共洗脱肽的潜在干扰。此外，SWATH-MS能够使用对同一肽的不同分析进行迭代再分析，因此可以使用经验标准针对特定样本类型优化组合分析库。

人类化验库的扩展

这是合并的人类SWATH-MS分析库的第一版，将添加更多扩展。类似于HUPO人类蛋白质组项目和绘制人类蛋白质组的最新研究^9,10，满足SWATH-MS分析库生成要求的数据可以在ProteomeXchange等公共存储库中收集⁶³随着涵盖人类蛋白质组扩展部分的新数据集可用，可以定期生成新的分析库。如本研究所示，扩展不会影响分析库子集的结果，但可以对人类SWATH-MS数据集进行更完整和可比较的靶向分析。

其他信息

如何引用本文：罗森伯格（G.Rosenberger）。等。通过SWATH-MS量化10000人类蛋白质的分析库。科学。数据1:140031 doi:10.1038/sdata.2014.31（2014）。

补充材料

补充信息：

单击此处查看。^{（95K，xls）}

单击此处查看。^{（18K，拉链）}

鸣谢

G.R.由瑞士联邦技术与创新委员会CTI（13539.1 PFFLI-LS）资助。H.L.R.由苏黎世联邦理工学院资助（ETH-30 11-2）。P.K.得到了芬兰文化基金会的支持。E.C.得到了玛丽·居里欧洲内部奖学金的支持。M.F.得到了欧洲分子生物学组织长期奖学金的支持。M.M由TRIREME资助。H.L.由香港特别行政区政府研究资助委员会的一般研究基金（#602413）资助。S.L.B得到了瑞士国家科学基金会（PBZHP3 143482）的资助。R.L.M.、D.S.C.和E.W.D的部分支持来自《美国复苏和再投资法》的联邦资金，通过美国国家人类基因组研究所、美国国立卫生研究院、美国普通医学科学研究所的RC2 HG005805赠款，GM087221和S10RR027584。R.A.由欧洲研究委员会高级拨款Proteomics v3.0（ERC-2008-AdG_20080422）、SystemsX.ch的PhosphonetX项目和瑞士国家科学基金会（3100A0-107679）资助。我们要感谢Sharon Rashi Elkeles对CAL51细胞的产生，感谢苏黎世联邦理工学院ITS科学IT服务部门对实验室内部计算基础设施的支持和维护，感谢EBI的PRIDE团队对ProteomeXchange Consortium数据存储的支持。

脚注

S.T.是AB SCIEX的员工，该公司在本文所涵盖的领域开展业务。AB SCIEX为R.A.研究小组提供了部分支持，为其提供了原型仪器。R.A.持有Biogonosys AG的股份，该公司在本文涵盖的领域开展业务。其余作者声明没有竞争性的经济利益。

数据引用

Rosenberger G.2014年。蛋白质组变化。 PXD000953型
Rosenberger G.2014年。斯瓦塔特拉斯。 SAL00016-35号
Rosenberger G.2014年。蛋白质组变化。 PXD000954型

工具书类

乌伦·M。等。建立基于知识的人类蛋白质图谱.自然生物技术。 28, 1248–1250 (2010). [公共医学][谷歌学者]
爱德华兹A.M。等。没有走太多路.自然 470, 163–165 (2011). [公共医学][谷歌学者]
马克思五世。找到适合工作的抗体.自然方法 10, 703–707 (2013). [公共医学][谷歌学者]
贝克·M·。等。人类细胞系的定量蛋白质组.摩尔系统。生物。 7, 1–8 (2011).[PMC免费文章][公共医学][谷歌学者]
Geiger T.、Wehner A.、Schaab C.、Cox J.和Mann M。11种常见细胞系的比较蛋白质组学分析揭示了大多数蛋白质的普遍但不同的表达.分子细胞。蛋白质组学 11，M111.014050（2012）。[PMC免费文章][公共医学][谷歌学者]
莫加达斯·戈拉米A。等。NCI-60细胞系面板的全局蛋白质组分析.单元格代表。 4, 609–620 (2013). [公共医学][谷歌学者]
Omenn G.S.公司。HUPO人类蛋白质组项目的战略、组织和进展.J.蛋白质。 100, 3–7 (2014).[PMC免费文章][公共医学][谷歌学者]
Farrah T。等。通过PeptideAtlas查看的2013年人类蛋白质组状况：比较生物学和疾病驱动的人类蛋白质组项目的肾脏、尿液和血浆蛋白质组.蛋白质组研究杂志。 13, 60–75 (2014).[PMC免费文章][公共医学][谷歌学者]
金·M·S。等。人类蛋白质组草图.自然 509, 575–581 (2014).[PMC免费文章][公共医学][谷歌学者]
威廉·M·。等。基于质谱的人类蛋白质组草图.自然 509, 582–587 (2014). [公共医学][谷歌学者]
Domon B.和Aebersold R。选择定量蛋白质组学策略时的选项和注意事项.自然生物技术。 28, 710–721 (2010). [公共医学][谷歌学者]
贝尔·A·W。等。HUPO测试样本研究揭示了基于质谱的蛋白质组学的常见问题.自然方法 6, 423–430 (2009).[PMC免费文章][公共医学][谷歌学者]
表D.L。等。液相色谱-串联质谱法鉴定蛋白质组的重复性和再现性.蛋白质组研究杂志。 9, 761–776 (2010).[PMC免费文章][公共医学][谷歌学者]
保罗维奇·A·G。等。描述酵母性能标准的实验室间研究，用于对标LC-MS平台性能.分子细胞。Proteom公司。 9, 242–254 (2010).[PMC免费文章][公共医学][谷歌学者]
鲁德尼克P.A。等。蛋白质组学分析中液相色谱-串联质谱系统的性能指标.分子细胞。Proteom公司。 9, 225–241 (2010).[PMC免费文章][公共医学][谷歌学者]
Picotti P.、Bodenmiller B.和Aebersold R。蛋白质组学符合科学方法.自然方法 10, 24–27 (2012). [公共医学][谷歌学者]
埃伯索尔德·R。等。生物/疾病驱动的人类蛋白质组项目（B/D-HPP）：为生命科学界提供蛋白质研究.蛋白质组研究杂志。 12, 23–27 (2013). [公共医学][谷歌学者]
皮科蒂P。等。蛋白质和蛋白质组选择性反应监测分析的高通量生成.自然方法 7, 43–46 (2009). [公共医学][谷歌学者]
皮科蒂P。等。应用于定量性状分析的酵母蛋白质组的完整质谱图谱.自然 494, 266–270 (2013).[PMC免费文章][公共医学][谷歌学者]
舒伯特O.T。等。结核分枝杆菌蛋白质组文库：用于量化结核分枝杆菌完整蛋白质组的分析资源结核分枝杆菌 .宿主与微生物 13, 602–612 (2013).[PMC免费文章][公共医学][谷歌学者]
卡尔森·C·、马尔姆斯特罗姆·L·、艾伯索尔德·R·和马尔姆斯特拉姆·J·。人类病原体的蛋白质组选择性反应监测分析化脓性链球菌.国家公社。三, 1301 (2012).[PMC免费文章][公共医学][谷歌学者]
Peterson A.C.、Russell J.D.、Bailey D.J.、Westphall M.S.和Coon J.J。平行反应监测用于高分辨率和高质量精度定量、靶向蛋白质组学.分子细胞。Proteom公司。 11, 1475–1488 (2012).[PMC免费文章][公共医学][谷歌学者]
吉列有限责任公司。等。数据依赖获取产生的MS/MS谱的目标数据提取：一致和准确蛋白质组分析的新概念.分子细胞。Proteom公司。 11，O111.016717（2012）。[PMC免费文章][公共医学][谷歌学者]
Röst H.L.公司。等。OpenSWATH支持对依赖数据的采集MS数据进行自动化、有针对性的分析.自然生物技术。 32, 219–223 (2014). [公共医学][谷歌学者]
麦克莱恩B。等。Skyline：用于创建和分析目标蛋白质组学实验的开源文档编辑器.生物信息学 26, 966–968 (2010).[PMC免费文章][公共医学][谷歌学者]
刘毅（Liu Y.）。等。人血浆N-连接糖蛋白的SWATH-MS定量测定.Proteom公司。 13, 1247–1256 (2013). [公共医学][谷歌学者]
柯林斯B.C。等。SWATH质谱定量蛋白质相互作用动力学：在14-3-3系统中的应用.自然方法 10, 1246 (2013). [公共医学][谷歌学者]
兰伯特J.-P。等。通过亲和纯化结合数据相关质谱采集绘制差异相互作用体.自然方法 10, 1239–1245 (2013).[PMC免费文章][公共医学][谷歌学者]
Liu Y.、Hüttenhain R.、Collins B.和Aebersold R。用于生物标记物发现和临床研究的质谱蛋白质图谱.专家修订版分子诊断。 13, 811–825 (2013).[PMC免费文章][公共医学][谷歌学者]
Glatter T.、Wepf A.、Aebersold R.和Gstaiger M。绘制人类相互作用蛋白质组的集成工作流程：PP2A系统的见解.摩尔系统。生物。 5, 237 (2009).[PMC免费文章][公共医学][谷歌学者]
Kristensen A.R.、Gsponer J.和Foster L.J。蛋白质合成速率是分化过程中蛋白质表达的主要调节因子.摩尔系统。生物。 9, 689–689 (2013).[PMC免费文章][公共医学][谷歌学者]
伯克哈特·J·M。等。人类血小板蛋白质组成的首次全面定量分析允许对结构和功能途径进行比较分析.血液 120，e73–e82（2012）。[公共医学][谷歌学者]
舒马赫R.T。等。样品制备的自动化解决方案：使用压力循环技术（PCT）从细胞和组织中提取核酸和蛋白质.美国实验室。 34, 38–43 (2002).[谷歌学者]
施瓦格尔·H。蛋白质电泳.《国家协议》。 1, 16–22 (2006). [公共医学][谷歌学者]
舍甫琴科A.、托马斯H.、哈维利斯J.、奥尔森J.V.和曼M。凝胶内消化用于蛋白质和蛋白质组的质谱表征.《国家协议》。 1, 2856–2860 (2006). [公共医学][谷歌学者]
Wisniewski J.R.、Zougman A.和Mann M。结合FASP和基于StageTip的分馏可对海马膜蛋白质组进行深入分析.蛋白质组研究杂志。 8, 5674–5678 (2009). [公共医学][谷歌学者]
埃舍尔C。等。使用iRT，一个标准化的保留时间，以更具针对性地测量肽.Proteom公司。 12, 1111–1121 (2012).[PMC免费文章][公共医学][谷歌学者]
Keller A.、Eng J.、Zhang N.、Li X.-J.和Aebersold R。利用开放XML文件格式的统一蛋白质组学MS/MS分析平台.摩尔系统。生物。 1，2005.0017–E8（2005）。[PMC免费文章][公共医学][谷歌学者]
林浩（Lam H.）。等。质谱多肽鉴定谱库搜索方法的开发与验证.Proteom公司。 7, 655–667 (2007). [公共医学][谷歌学者]
Craig R.R.和Beavis R.C.R。一种减少蛋白质序列与串联质谱匹配所需时间的方法.快速通讯。质谱。 17, 2310–2316 (2002). [公共医学][谷歌学者]
MacLean B.、Eng J.K.、Beavis R.C.和McIntosh M。使用TANDEM搜索引擎开发和评估数据库评分算法的通用框架.生物信息学 22, 2830–2832 (2006). [公共医学][谷歌学者]
Tabb D.L.、Fernando C.G.和Chambers M.C。MyriMatch：通过多元超几何分析高精度串联质谱肽鉴定.蛋白质组研究杂志。 6, 654–661 (2007).[PMC免费文章][公共医学][谷歌学者]
吉尔·L·Y。等。开放式质谱搜索算法.蛋白质组研究杂志。三, 958–964 (2004). [公共医学][谷歌学者]
Eng J.K.、Jahan T.A.和Hoopmann M.R。Comet：一个开源MS/MS序列数据库搜索工具.Proteom公司。 13, 22–24 (2013). [公共医学][谷歌学者]
Magrane M.&联合体U。UniProt知识库：集成蛋白质数据中心.数据库（牛津），bar009–bar009（2011）。[PMC免费文章][公共医学][谷歌学者]
Keller A.、Nesvizhskii A.I.、Kolker E.和Aebersold R。估算MS/MS和数据库搜索肽鉴定准确性的经验统计模型.分析。化学。 74, 5383–5392 (2002). [公共医学][谷歌学者]
Shteynberg D。等。iProphet：鸟枪蛋白质组数据的多层次综合分析提高了肽和蛋白质的识别率和误差估计.分子细胞。Proteom公司。 10，M111.007690（2011）。[PMC免费文章][公共医学][谷歌学者]
赖特·L·。等。串联质谱产生的超大蛋白质组数据集的蛋白质识别错误发现率.分子细胞。Proteom公司。 8, 2405–2417 (2009).[PMC免费文章][公共医学][谷歌学者]
林浩（Lam H.）。等。构建蛋白质组学中肽鉴定的一致谱库.自然方法 5, 873–875 (2008).[PMC免费文章][公共医学][谷歌学者]
维兹卡诺J.A。等。Proteom公司。身份（PRIDE）数据库和相关工具：2013年状况.核酸研究。 41，D1063–D1069（2013）。[PMC免费文章][公共医学][谷歌学者]
克拉森·M。蛋白质鉴定的推断和验证.分子细胞。Proteom公司。 11, 1097–1104 (2012).[PMC免费文章][公共医学][谷歌学者]
格里斯·J·。等。国际蛋白质指数（IPI）数据库停用及其被UniProtKB“完整蛋白质组”集合取代的后果.Proteom公司。 11, 4434–4438 (2011).[PMC免费文章][公共医学][谷歌学者]
Apweiler R.、Bairoch A.和Wu C.H。蛋白质序列数据库.货币。操作。化学。生物。 8, 76–80 (2004). [公共医学][谷歌学者]
Marko-Varga G.、Omenn G.S.、Paik Y.-K.和Hancock W.S。人类蛋白质组全基因组表征的第一步.蛋白质组研究杂志。 12, 1–5 (2013). [公共医学][谷歌学者]
L巷。等。2013-2014年人类蛋白质组项目的指标和寻找缺失蛋白质的策略.蛋白质组研究杂志。 13, 15–20 (2014).[PMC免费文章][公共医学][谷歌学者]
Elias J.E.和Gygi S.P。提高大规模蛋白质质谱鉴定可信度的目标经济搜索策略.自然方法 4, 207–214 (2007). [公共医学][谷歌学者]
Toprak U.H.公司。等。保守肽片段作为质谱仪的基准工具和靶向蛋白质组学的鉴别特征.分子细胞。蛋白质组学 13, 2056–2071 (2014).[PMC免费文章][公共医学][谷歌学者]
de Graaf E.L.、Altelaar A.F.M.、van Breukelen B.、Mohammed S.和Heck A.J.R。改进SRM分析发展：三重四极杆、离子阱和高能CID肽裂解光谱的全球比较.蛋白质组研究杂志。 10, 4334–4341 (2011). [公共医学][谷歌学者]
赖特·L·。等。mProphet：大型SRM实验的自动化数据处理和统计验证.自然方法 8, 430–435 (2011). [公共医学][谷歌学者]
Chalkley R.J.和Clauser K.R。修改站点本地化评分：策略和性能.分子细胞。Proteom公司。 11, 3–14 (2012).[PMC免费文章][公共医学][谷歌学者]
Sherman J.、McKay M.J.、Ashman K.和Molloy M.P。独特的离子签名质谱法，一种确定肽身份的方法.分子细胞。Proteom公司。 8, 2051–2062 (2009).[PMC免费文章][公共医学][谷歌学者]
Röst H.、Malmström L.和Aebersold R。检测和避免选择性反应监测中冗余的计算工具.分子细胞。Proteom公司。 11, 540–549 (2012).[PMC免费文章][公共医学][谷歌学者]
维兹卡诺J.A。等。ProteomeXchange提供全球协调的蛋白质组学数据提交和传播.自然生物技术。 32, 223–226 (2014).[PMC免费文章][公共医学][谷歌学者]

文章来自科学数据由提供自然出版集团