什么是“jPOSTdb”?
jPOSTdb是一个包含重新分析结果的数据库,其原始数据的统一标准来自 jPOSTrepo公司 和其他 蛋白质组X变化 (PX)存储库。 它提供以下功能: -
按元数据筛选数据集 浏览已识别的肽、翻译后修饰(PTM)和其他数据 “切片”的创建和比较;, 用户筛选的数据集 特定“切片”的基本统计分析和可视化;
jPOSTdb存储每个数据集的肽谱匹配(PSM)信息和识别的肽信息。 根据这些信息,通过使用 Nesvizhskii,A.I.等人,2005年 (doi:10.1074/mcp.R500012-MCP200) jPOST数据库使用UniProt Reference Proteome数据集(带有附加的.fasta文件)进行肽鉴定。 数据集、推断蛋白质、识别肽和PSM等信息分层存储在jPOST数据库中。 整个数据集联合被命名为“ 地球仪 “从Globe中筛选出的检索到的部分数据集被命名为” 切片 ."
如何使用jPOSTdb
过滤“Globe” -
提供了诸如物种、样本类型和细胞系之类的固化元数据,用于过滤Globe、整个数据集联合以及简单的关键字搜索。 右侧的饼图可以用于指定物种和疾病元数据,只需单击目标即可。
如何制作“切片” -
单击Serch选项卡中的“New Slice”(新建切片)按钮或Slice选项卡中的+按钮。 选中您感兴趣的数据集复选框。 点击“创建”按钮。 因为Slice数据存储在浏览器的WebStorage中,所以您的数据不会泄漏到Internet。 您计算机中的不同浏览器不共享WebStorage。 因此,您需要导出和导入切片,以便在不同的位置(不同的浏览器)观察相同的数据集。
比较切片 -
可以比较两个选定的切片以进行统计和功能分析。 详情如下所述。
数据集、切片和蛋白质的信息页面
数据集和切片页面由“染色体信息”、“蛋白质存在”和“KEGG路径映射”组成,而蛋白质页面由“蛋白质浏览器”和“肽共享”组成。
染色体信息。
检测到的主要蛋白质直方图(蓝色)和每条染色体、线粒体和质粒的蛋白质总数(灰色)。 蛋白质计数是基于UniProt条目的计数(因此,蛋白质的总数并不意味着每个染色体中编码基因的确切数量)。 在人类数据集中,蛋白质计数是基于neXtPro条目的计数。
蛋白质的存在
支持蛋白质存在的证据类型饼图,如 neXtProt数据库 (针对人类)和 UniProt数据库 (对于其他人)。 -
(参考。 uniprot:蛋白质存在 )
使用下拉菜单或可点击的图例/图表列出分类为每种证据类型的蛋白质。
KEGG路径映射
蛋白质浏览器
蛋白质浏览器是蛋白质注释的查看器。 用户可以从下拉菜单将感兴趣的注释添加到查看器面板中。 -
“肽比对”显示检测到的肽映射到蛋白质序列。 肽条的颜色反映了PSM的数量,从红色到灰色变化(红色表示高,灰色表示低)。 “PTM位点”显示在蛋白质序列上检测到的PTM。 现场上方的垂直钢筋长度反映了PTM检测的数量。” 规范。” 通过包括站点在内的光谱计数显示归一化长度,“计数”显示实际计数。 “P位点连锁”显示肽上磷酸化位点的共存。 “UniProt注释”显示了UniProt中描述的PTM位点和单氨基酸变异。
-
使用滚轮/触摸板滚动进行放大/缩小 水平拖动移动
肽共享
肽共享显示共享肽映射到多个蛋白质。 相同颜色的肽条表示相同的肽。 肽条上的数值是PSM的编号。 用户可以使用路线下方的六个按钮切换显示。 -
名称:切换蛋白质名称的可见/不可见 颜色:切换着色:i)仅映射到参考蛋白质(顶部蛋白质)的肽被着色,而其他肽被着色为灰色。 ii)所有肽均着色。 胰蛋白酶:在蛋白质序列上显示胰蛋白酶的裂解位点。 非胰蛋白酶肽呈灰色。 外显子:显示蛋白质序列外显子的边界 引导:显示引导线 编辑:删除用户不需要的蛋白质
-
使用滚轮/触摸板滚动进行放大/缩小 水平拖动移动
切片比较
用户可以通过从下拉菜单中选择“切片”来比较两个切片。
差异表达分析
用户可以通过经验Bayes估计、Wilcoxon秩和检验和下拉菜单中平均值的倍数变化来比较两个切片之间的蛋白质表达水平。 量化基于光谱计数。 前两种方法使用R编程语言库。 这些方法在任一Slice中至少需要2个数据集。 在火山图中,用户可以通过移动x轴和y轴上的三角形标记来更改褶皱变化阈值和p值。 蛋白质平均表达水平的倍数变化如直方图所示。 不进行任何统计检验,因此不计算p值。 y轴显示伪频率,严格意义不大。 -
拖动三角形标记移动阈值栏
富集分析
差异表达分析中选定蛋白质的蛋白质集富集分析。 用户可以从KEGG路径类别和三个类别中选择目标 基因本体论 (GO)(生物过程、分子功能和细胞成分)。 结果由网络图和表显示。 网络中的节点显示KEGG或GO类别,丰富类别的节点颜色从黄色变为红色(p值<0.05,黄色表示高,红色表示低)。 蓝色节点表示网络的根类别。每个节点大小反映差异表达分析中选择的蛋白质数量。 然而,白色节点和根节点的大小限制为从黄色到红色的丰富节点的最大大小,以使网络布局更清晰。 -
使用滚轮/触摸板滚动进行放大/缩小 拖动移动
当目标是KEGG通路时,用户可以将蛋白质映射到KEGG途径图。 贴图框的颜色为蓝色到红色(蓝色表示表达式级别降低,红色表示增加)。 当一个框对应于多个蛋白质时,框的颜色反映了任何一个蛋白质(这是KEGG映射器的限制)。
词汇
数据库 -
Globe:原始数据重新分析的累积结果。 jPOSTdb中的所有数据集。 切片:数据集组,它是由全球数据库的元数据过滤的结果。 或合并了多个筛选结果的数据集组。
蛋白质类型 -
主导蛋白质:蛋白质组中的代表性蛋白质。 (参考。 PSI-MS_1002401标准 ) 光谱同性蛋白质:与主要蛋白质的光谱同性(PSM的同性)相匹配的蛋白质。 (参考。 PSI-MS_1001595磅/平方英寸 ) 光谱亚组蛋白:与主要蛋白质的亚组光谱相匹配的蛋白质。 (参考。 PSI-MS_1001597磅/平方英寸 ) 光谱不溶性蛋白质:光谱跨越两个或多个主要蛋白质的蛋白质。 (参考。 PSI-MS_1001599标准 )
肽类型 -
共享肽:多肽存在于多种蛋白质中。 显然,这不是唯一的肽。 独特的肽:肽只存在于一种蛋白质中。 -
MS级共享肽:当亮氨酸和异亮氨酸未区分时,该肽存在于多种蛋白质中。 这是氨基酸水平上唯一的肽,但在MS结果中不是唯一的。 MS水平的独特肽:该肽仅存在于一种蛋白质中,即使亮氨酸和异亮氨酸没有区分。 很明显,这是一种独特的肽。
参考
jPOST环境:集成蛋白质组学数据存储库和数据库 森谷由纪夫、申川野、大田硕二、渡边裕久、松本正树、高木友彦、小林大吉、山口吉森、荒木Norie、秋井C.吉泽昭、田田聪、岩崎妙久、杉山直树、田中佐治、后藤铃木、石山安树 编号。 《酸类研究》47(D1)。 doi:10.1093/nar/gky899