跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
数据库(牛津)。2013; 2013年:bat009。
在线发布2013年3月12日。 doi(操作界面):10.1093/数据库/bat009
PMCID公司:项目经理3594986
PMID:23482073

HUPO蛋白质组学标准倡议-质谱控制词汇

摘要

受控词汇表(CV),即描述建模领域的预定义术语集合,用于数据的语义注释,本体用于结构化数据格式和数据库中,以避免注释中的不一致,从而具有唯一性(最好是简短的)并为研究人员和计算机算法提供了更具表现力的数据语义注释的可能性。人类蛋白质组组织(HUPO)-蛋白质组学标准倡议(PSI)在其数据格式中广泛使用本体/CV。PSI-质谱(MS)CV包含PSI-MS相关数据标准中使用的所有术语。CV包含逻辑层次结构,以确保易于维护和开发使用复杂语义的软件。CV包含完整描述蛋白质组学中MS分析管道所需的术语,包括样品标记、消化酶、仪器部件和参数、用于肽/蛋白质识别和定量的软件以及用于确定其重要性的参数和分数。由于简历涵盖的主题范围广泛,有必要在几个PSI工作组之间进行协作开发,包括蛋白质组学研究组、仪器制造商和软件供应商。在本文中,我们描述了CV的总体结构、开发和维护CV的过程以及对其他本体的依赖性。

数据库URL:http://psidev.cvs.sourceforge.net/viewvc/psidev/psi/psi-ms/mzML/controlledVocabulary/psi-ms.obo

介绍

蛋白质组学是利用凝胶电泳和/或色谱结合基于质谱(MS)的方法来识别和量化复杂样品(例如血液或尿液)中的蛋白质,目的是提高我们对蛋白质及其功能、相互作用、表达控制和正常情况下的其他特性的了解,患病或其他情况。以这种方式获得的信息有助于识别新的生物标记物和/或药物靶点(1). 由于蛋白质组学高通量技术的建立,基于MS的蛋白质组学实验产生的数据量以及存储在公共存储库中的数据量迅速增长(2). HUPO-PSI(人类蛋白质组组织-蛋白质组学标准倡议)是一个蛋白质组学社区组织,为蛋白质组学中的数据表示定义标准格式,以促进数据比较、交换和验证。它开发了一组基于XML的标准格式,包括mzML()对于原始和处理的MS数据,TraML(4)用于所选反应监测的输入转换(5)(SRM),即靶向蛋白质组学方法,其中只有精确确定的m/z值才能通过精确指定前体-产物转换(即要搜索的成对已定义的肽和片段)进行检测,mzIdentML(6)肽和蛋白质鉴定数据和mzQuantML(Walzer等。,在制备中)用于蛋白质组学定量结果。

上述数据格式旨在表示蛋白质组学数据,以支持数据共享、重新分析、数据库沉积和在公共存储库中长期存储这些数据,如PRIDE(蛋白质识别数据库)(2)或肽图谱(7). 这些格式以标准化的方式使用来自不同本体的受控词汇表(CV)术语(请参阅表1)(梅耶等。,准备中),以允许标准的未来扩展性(9)以及捕获数据的真正语义,这是使用纯XML技术更难实现的。

表1

利用PSI-MS本体的蛋白质组学标准格式

标准格式(参考)描述
mzML(百万毫升)()原始MS光谱输出数据的编码格式。
mz标识ML(6)肽和蛋白质鉴定数据的格式。
mzQuantML(沃尔泽等。,准备中)MS量化信息的格式。
TraML(TraML)(4)用于指定SRM转换的格式。
PEFF公司(http://www.psidev。信息/peff)PSI扩展Fasta格式,蛋白质和核苷酸序列的统一格式。
imzML格式(8)MALDI成像数据的格式。
mzTab(网格等。,准备中)MS标识和量化信息的制表符分隔格式。

在设计和开发这样的简历时,应该确保每个建模的概念都由一个独特的首选术语表示,并且同义词包含在该术语的引用中。此外,可以定义关系来表示CV术语之间的层次关系或等价关系或其他关联。对于CV本身的存储,有几种格式(迈耶等。,准备中)。PSI-MS CV以OBO(Open Biomedical Ontology)平面文件文本格式存储,详见http://www.geneontology.org/GO.format.obo-1_4.shtml.

使用CV术语对数据进行注释也是确保已发布数据符合MIAPE(蛋白质组学实验的最低信息)的基础(10)和期刊指南(11). 实例数据文件中CV术语使用的语义有效性可以由基于PSI验证框架的语义验证器进行检查(12)由欧洲生物信息研究所(EBI)开发,可用于在本地或web环境中实现验证器。

在以下章节中,我们将PSI-MS CV描述为HUPO-PSI定义的当前蛋白质组学标准格式以及即将推出的用于MS量化信息的mzQuantML格式所使用的中心术语参考;mzTab(格栅等。(准备中),用于MS标识和量化信息的制表符分隔文件格式;PEFF(PSI扩展Fasta格式)(http://www.psidev.info/peff),蛋白质和核苷酸序列数据库的拟议统一格式,用于替代通用Fasta(13)格式;以及一些相关标准,如imzML(8)MS成像数据和mz5(14).

关于蛋白质组学中使用的本体论、CV术语与用于语义验证和MIAPE符合性检查的映射文件的使用、OBO格式以及用于处理OBO文件的相关工具的更多一般细节,请参见梅耶的一篇概述文章等。(准备中)。

PSI-MS小组首先在mzData中使用CV值进行语义验证的过程(15)格式,mzML的两个前身之一()标准格式,由mzData和mzXML统一而成(16)格式。最初,有两个单独的CV在使用:PSI:MS(对应于MS:1000000和MS:1000934之间的当前CV ID)和PSI:PI(对应于大于MS:1001000的当前CVID)。在发布mzIdentML之前,将它们合并为PSI-MS CV。

PSI-MS CV的结构

PSI-MS CV是以海外建筑运营管理局格式存储的手动管理的本体,由海外建筑运营管局编辑工作组定义(http://oboedit.org/?page=workinggroup(工作组))并且是开源OBO-Edit使用的格式(17)软件。有关海外建筑运营管理局格式的详细信息,请参阅http://www.geneontology.org/GO.format.obo-1_2.shtml.

PSI-MS CV分为八个主要分支,如图1并在中简要描述表2除了PSI-MS术语外,它还包含不同的SI前缀(国际单位制,http://physics.nist.gov/cuu/Units/prefixes.html)单位,以及PATO(表型属性特征本体)中使用的关系和术语的定义(http://oboforry.org/wiki/index.php/PATO:Main_Page)和单位(18)本体(请参阅“对其他本体的依赖”部分)。

保存图片、插图等的外部文件。对象名称为bat009f1p.jpg

PSI-MS本体,如海外建筑运营管理局编辑的屏幕截图所示(17)左软件:PSI-MS本体的八个主要分支,以及来自PATO(质量)和“单元”本体的术语和关系。中间:PSI-MS本体的“频谱生成信息”分支。右:PSI-MS本体的“光谱解释”分支。删除的术语表示过时的术语。

表2

PSI-MS本体的顶级分支

psi-ms.obo本体的顶级分支分支机构中附属术语类型的描述
化合物有关化合物、肽和蛋白质的化学式和属性的术语。
联系人属性关于研究人员、组织和其他角色和角色类型的联系数据(地址、电子邮件、传真、电话、URL)的术语。
外部引用标识符有关ID、登录号、URI(统一资源标识符)、散列、DOI(数字对象标识符)或其他引用数据库、存储库或web中对象的标识符的信息。
文件格式描述蛋白质组学中使用的专有或标准格式的术语。
软件关于不同类型软件的术语(特定于供应商、仪器或自由软件)。它分为不同的组,如采集、分析、数据处理和定量软件。
频谱生成信息包含描述频谱生成的所有术语的分支(请参阅“详细结构”部分)。
光谱解释包含描述光谱解释的所有术语的分支(参见“详细结构”一节)。
标准有关其他标准的术语,例如最低信息指南或保留时间标准。

PSI-MS CV的核心是“频谱生成信息”和“频谱解释”两个分支,如图1并在表3和4。4.文件格式mzML(),表示原始或处理的MS数据,主要使用第一个分支,而mzIdentML(6)和mzQuantML文件格式,它们表示基于MS数据的识别和量化结果,主要使用第二个分支。

表3

“频谱生成信息”下方的子分支

在“频谱生成信息”下方分支分支机构中附属术语类型的描述
色谱图表示检测器响应与保留时间的术语。
数据处理参数包含数据文件数据处理中使用的参数和阈值。
数据转换描述转换数据处理步骤的术语,例如文件格式转换、基线缩减、反褶积、去极化、强度归一化、峰值选取、保留时间校准和平滑操作。
仪器包含描述不同仪器型号及其属性的仪器专用术语的分支,以及描述MS仪器的源、离子光学、质量分析仪和检测器的通用术语。
测量方法在没有分析物的情况下记录检测器响应时的分辨率项属性。
对象属性包含描述样品制备、扫描和运行、色谱图、光谱、入口、仪器、隔离和窗口等属性术语的分支。
炼狱一种过时术语的前身。
原始数据文件描述原始数据文件的术语分支,例如校验和、数据文件内容和本地频谱标识符格式等。
样品样品描述术语的分支(样品编号、样品浓度、样品体积、样品状态、样品制备等)
扫描描述频谱记录的术语,如扫描极性、隔离和选择窗口等。
光谱包含有关光谱类型、光谱表示(质心或剖面模式)和其他光谱和峰值描述属性的光谱相关术语以及描述光谱数据二进制表示的术语的分支。
目标列表用于指定预期m/z坐标的目标列表CV术语(即包含或排除术语),以及用于肽或化合物特定MS检查的CV术语。
过渡描述SRM过渡实验的术语分支。
单位描述MS特定单元的术语,例如Th/s等。

表4

“频谱解释”下的子分支

“光谱解释”下方的分支分支机构中附属术语类型的描述
不明确的残留物描述不明确氨基酸残基和非标准氨基酸质量的术语。
体量表选项描述所用质量表来源的术语。
修改参数代谢标记实验中使用的修饰特异性、中性损失或修饰的术语。
肽修饰细节描述肽和蛋白质修饰的术语,例如PTM(翻译后修饰)。
量化数据处理定量蛋白质组学实验中数据处理步骤的描述术语,例如。t吨-测试、方差分析、归一化和校准步骤。
量化信息包含量化软件、量化数据类型和其他量化属性的术语;此外,“AnalysisSummary”元素中用于支持mzQuantML文件验证的术语。
搜索输入详细信息包含有关切割剂及其正则表达式的术语、所考虑的离子系列、关于质量评估的术语、搜索数据库详细信息、搜索容差规范、搜索类型[PMF(肽质量指纹)、PFF(肽片段指纹)、,从头开始以及软件和搜索引擎的通用和特定输入参数的术语。
光谱识别结果详细信息通用和搜索引擎术语-特定分数、错误发现率和其他肽和蛋白质结果(例如,蛋白质歧义组分配和分类)详细信息。

“光谱生成信息”分支包含用于描述样品、色谱图、所用仪器、扫描和光谱的CV术语(图1,中间部分)。它还包含用于描述采集参数和数据处理的参数,以及描述SRM中过渡的CV术语(19,20)实验,后者是TraML标准的组成部分(4)用于表示SRM分析。对于mzML,此分支中的术语需要生成有效的文件,除其他外,还需要在“原生光谱标识符”格式节点中为来自不同质谱仪的光谱提供一系列不同的标识符格式,这是将mzML文件中的光谱跟踪回原始原始数据的关键。

例如,“光谱解释”分支收集了描述同位素标记实验中使用替代质量表的术语(21). 这里汇集了其他术语,用于描述mzQuantML中使用的注释的量化信息和量化处理。此外,包含CV术语的搜索输入详细信息定义了软件和数据库搜索引擎的输入参数,以及频谱识别结果的详细信息[如分数、阈值和错误发现率值(22)]属于“频谱解释”分支(参见图1,右侧)。

此处显示了使用CV术语报告mzIdentML文件中肽识别结果分数的示例摘录,其中术语包含在cvParam XML元素中:

  • <SpectrumIdentificationResult spectraData_ref=“SID_1”spectrumID=“index=137”id=“SIR_1”>
  • <SpectrumIdentificationItem passThreshold=“false”rank=“1”peptide_ref=“RVDSGLHCPLLPDDR”calculatedMassToCharge=“582.954”experimentalMassToCharge=“5.82.931”chargeState=“3”id=“SII_1_1”>
  •    <肽证据参考肽证据_ref=“PE1_2_0”/>
  •     <cvParam accession=“MS:1001328”cvRef=“PSI-MS”value=“0.0561”name=“OMSSA:evalue”/>
  •     <cvParam accession=“MS:1001329”cvRef=“PSI-MS”value=“1.3475E-5”name=“OMSSA:pvalue”/>
  •     <cvParam accession=“MS:1001171”name=“吉祥物:分数”cvRef=“PSI-MS”value=“56.16”/>
  •     <cvParam accession=“MS:1001172”name=“吉祥物:期望值”cvRef=“PSI-MS”value=“2.4210e-006”/>
  • </SpectrumIdentificationItem>

此示例还显示了在重新分析中,原则上如何报告两个或多个不同搜索机(此处为OMSSA和Mascot)的得分值。然而,这里必须强调的是,不可能有一个指标来比较两个不同搜索机器的结果质量。简历允许用户记录使用过的搜索机器、它们的版本、用于搜索的参数以及它们的结果分数,以便其他人很容易复制它们。

以下示例说明了mzML文件中CV术语在指定选择窗口时的用法(指定m/z值的下限和上限以供检测):

  • <selectionWindowList count=“1”>
  • <选择窗口>
  •   <cvParam cvLabel=“MS”accession=“MS:1000501”name=“扫描m/z下限”value=“110.000000”/>
  •   <cvParam cvLabel=“MS”accession=“MS:1000500”name=“扫描m/z上限”value=“905.000000”/>
  • </selectionWindow>
  • </selectionWindowList>

下一个示例显示了TraML文件中CV术语的用法,通过指定前体和生成来指定转换:

  • <转换列表>
  • <过渡id=“AAQVAQDEEIAR.2y8-1”peptideRef=“AAQVAQDEEIAR.2”>
  •   <前驱体>
  •    <cvParam unitCvRef=“MS”unitName=“m/z”unitAccession=“MS:1000040”value=“650.8288”accession=”MS:1000827“name=”隔离窗口目标m/z“cvRef=”MS“/>
  •   </前驱体>
  •   <产品>
  •    <cvParam unitCvRef=“MS”unitName=“m/z”unitAccession=“MS:1000040”value=“931.4486”accession=”MS:1000827“name=”隔离窗口目标m/z“cvRef=”MS“/>
  •   </产品>

一些特殊情况

一个特例是切割剂术语的定义,因为它需要两个CV术语,一个用于酶本身,另一个用于正则表达式,酶CV术语中引用了“has_regexp”关系,如下例所示。此外,布伦达(23)数据库交叉引用('dbxref')将本体指定为酶的定义源(布伦达:3.4.21.37). 描述酶限制位点的正则表达式可用于消化蛋白质生物信息学,在蛋白质组学的搜索引擎中使用。

  • [期限]
  • 编号:MS:1001915
  • 名称:白细胞弹性蛋白酶
  • def:“酶白细胞弹性蛋白酶(酶代码EC3.4.21.37)。”[BRENDA:3.4.21.37]
  • is_a:MS:1001045!裂解剂名称
  • 关系:has_regexp MS:1001957!(?<=[ALIV])(?!P)

  • [期限]
  • 编号:MS:1001957
  • 名称:(?<=[ALIV])(?!P)
  • is_a:MS:1001180!Cleavage agent正则表达式

允许的“dbxref”术语列表在GO(基因本体)网站上提供,网址为http://www.geneontology.org/cgi-bin/xrefs.cgi目前,PSI-MS CV使用以下“dbxref”术语:BRENDA、DOI、http://…resp。https://…、PubChem_Compound和PMID。

对其他本体的依赖

为避免术语重复,PSI-MS CV本身指PATO中定义的术语(http://oboforry.org/wiki/index.php/PATO:Main_Page)、和单位(18)本体论。PATO(“quality.obo”)描述表型质量,“unit.obo“包含定义测量单位的通用术语。这两个本体通过PSI-MS标题部分的以下标签导入到文档标题中的PSI-MS CV中:

这里应该强调的是,通过这种参考机制,可以确保来自PATO和单元本体的术语的添加和更新在PSI-MS CV中自动可用,从而PSI-MS CV可以很容易地与所包含的PATO或单元本体的新发展保持同步。

使用PATO的一个示例是mzML中的映射规则,用于验证样本下允许的CV术语,其中术语“对象质量”(邮编:0001241)可用于描述样品质量:

  • <CvMappingRule id=“sample_may”cvElementPath=“/mzML/sampleList/sample/cvParam/@accession”requirementLevel=“may”scopePath=“/mzML/sample List/sample”cvTermsCombinationLogic=“OR”>
  • … … ..
  •   <CvTerm termAccession=“PATO:0001241”useTerm=“false”termName=“quality of an object”isRepeatable=“true”allowChildren=“true”cvIdentifierRef=“PATO”></CvTerm>
  • … … ..
  • </CvMappingRule>

这种映射规则是映射文件中的一个正式语句,它适用于每个HUPO-PSI标准格式,并定义了实例数据文件中某个CV项可以出现的位置和组合(Mayer等。,准备中)。

单位用于指定具有值的CV项的测量单位;例如,下面的示例说明样本体积的值必须以毫升为单位。

  • [期限]
  • 编号:MS:1000005
  • 名称:样品卷
  • def:“使用的溶液总量。”[PSI:MS]
  • xref:value-type:xsd\:float“此CV术语允许的值类型。”
  • is_a:MS:1000548!示例属性
  • 关系:has_units UO:000098!毫升

MS特有的测量单位,如“汤普森”,在PSI-MS CV中定义为“频谱生成信息”的“单位”分支下。目前,也有一些通用单位,它们已在unit.obo中定义,并在PSI-MS中反复重新定义。这主要是由于历史原因,这些术语正在被删除或废弃。

PSI-MS CV的基本统计数据

截至2012年11月,“psi-ms.obo”文件(3.40.0版)包含2130个术语,其中90个术语已过时,20个属于“炼狱”分支。海外建筑运营管理局关系本体中定义的“is_a”关系(24),使用2201次。此外,本体包含其他四种类型关系的定义:“has_units”(166个术语使用)、“part_of”(131个用法)、“has_regexp”(19个用法)和“has_ order”(1个用法)。请注意,一些本体术语可以包含多个“is_a”关系,因此“is_a”的用法比PSI-MS本体中的术语总数(2062)还要多。

大多数术语仅在HUPO-PSI标准蛋白质组数据文件中的<cvParam>元素中引用,没有指定值。然而,psi-ms.obo中的595个术语旨在与值一起使用;其中大多数是字符串(172项)、浮点(152项),双精度(118项)或布尔型(74项)(请参阅图2).

保存图片、插图等的外部文件。对象名称为bat009f2p.jpg

PSI-MS本体(版本3.40.0)中用作值类型的已使用XML模式类型的数量。注意,xsd:integer和xsd:int在XML模式中是不同的(http://www.w3.org/TR/xmlschema11-2/#build-在数据类型中),因为前者的值空间是无限集。

PSI-MS CV中总共包含202个同义词,其中179个为EXACT类型,22个为RELATED类型。

PSI-MS本体自2007年6月至2012年11月的增长情况详见图32009年新术语的大量出现可能是因为到了那一年,mzML 1.1.0规范已经颁布。

保存图片、插图等的外部文件。对象名称为bat009f3p.jpg

自2007年6月以来,PSI-MS本体中所有术语(包括过时术语和“炼狱”分支中包含的术语)数量的增长(参见。http://psidev.cvs.sourceforge.net/viewvc/psidev/psi/psi-ms/mzML/controlledVocabulary/psi-ms.obo?view=log)以及2007年6月至2012年11月期间PSI-MS本体每年新增的术语数量(入口)。

BioPortal报告的统计本体度量(25)如所示表5.

表5

根据BioPortal,PSI-MS本体的统计本体度量(3.40.0版)(25)网站(http://www.biontology.org/wiki/index.php/Ontology_Metrics网站)

根据BioPortal的统计指标编号
类的数量4640
个人数量0
属性的数量10
最大深度9
同级术语的最大数量157
平均兄弟姐妹数1
具有单个子类的类151
包含>25个子类的类23
没有定义的类991

请注意,这些数字包括导入PATO和Unit的计数(18)本体论。

PSI-MS CV的维护

PSI-MS CV随着时间的推移而发展,这得益于包括硬件和软件供应商在内的广泛社区的重要贡献,这对许多术语的高质量定义做出了很大贡献。PSI-MS CV的进一步开发是一个持续的过程。为此,HUPO-PSI工作组定义了一些CV开发指南(http://www.psidev.info/node/47). 此外,随着时间的推移,详细的维护过程不断推进,一些非正式的最佳实践也随之发展。以前,通过填写PSI-PI网站上的表格以及通过位于http://sourceforge.net/tracker/?group_id=65472&atid=848524。现在蛋白质组学社区中的每个人都可以免费订阅“psidev-ms-vocab”邮件列表,网址为https://lists.sourceforge.net/lists/listinfo/psidev-ms-vocab并就新条款或对现有“psi-ms.obo”条款的改进提出建议。此外,还可以请求重组本体的部分,例如,当出现当前术语的层次结构不太理想或由于新技术的发展需要重组时,但在所有这些情况下,由于过时的机制,已经存在的术语永远不会从本体论中删除。通常,在各PSI小组的电话会议上也会讨论提案,以便在收到此类请求后的~5个工作日内进行更新,前提是没有异议,并且对请求的条款达成共识。当前的维护程序现在描述为自2012年1月以来已应用于“psi-ms.obo”本体文件(参见图4).

保存图片、插图等的外部文件。对象名称为bat009f4p.jpg

PSI-MS维护程序的简化工作流程。

此维护工作由PSI本体协调器进行协调。他/她是蛋白质组学科学界的成员,通常在HUPO-PSI年度春季会议上当选,或在这些会议之间必须分配该职位的空缺时由指导委员会任命。在收到新CV术语的请求后,PSI本体协调员检查术语及其描述、数据类型、父术语和关系是否合理。如有必要,可通过咨询术语的提议者来澄清任何不一致之处。然后,本体协调器检查具有相同含义的术语是否已经存在于本体中,或者该术语是否完全必要。协调员还检查术语和同义词的命名是否符合国际纯粹和应用化学联合会(IUPAC)MS术语命名法(http://mass-spec.lsu.edu/msterms/index.php/Main_Page). 如果相应数据格式的模式中已经存在具有相同含义的属性,则通常不会添加CV术语,以避免信息重复。

如果术语与MALDI(矩阵辅助激光解吸电离)检查相关,则使用附加规则:该术语是否已存在于MALDI成像操作系统中(http://www.maldi-msi.org/download/imzml/imagingMS.obo)以及该术语是否更适合于该本体论。如果有关于化学物质的提案,例如用于基质溶液,则检查该物质是否已在生物兴趣化学实体(ChEBI)本体中定义(26). 在这种情况下,请求被拒绝,建议者被通知应考虑使用引用相应ChEBI条目的CV术语。如果没有,CV协调员可以要求ChEBI团队将该物质纳入其本体,前提是该物质符合纳入ChEBI的标准。如果没有,则检查该物质是否在PubChem中定义(27)数据库,PSI-MS CV中创建了一个新术语,该术语通过在def:tag行末尾指定相应的“dbxref”术语来引用此PubChem条目。

通过所有这些检查的术语将包含在obo文件的下一个候选版本中。然后将此候选版本发送到三个邮件列表,十、egrofecrous.stsil@bacov-sm-vedisp 十、egrofecrous.stsil@ved-ip-vedispten.egrofecuros.stsil@fed-sm-vedisp供公众讨论。为了在要求新的或更改的条款后及时更新简历,没有定期的时间表,因此,如果没有异议,发布候选的新条款将成为下一次正式发布的obo文件的一部分,该文件将在发布候选后的约5个工作日内公开。否则,邮件列表的订阅者将通过电子邮件通信或电话会议(如有必要)进一步讨论所讨论的术语,直到一切都得到澄清,并且社区对所讨论术语的确切定义达成共识,因此,应通过论据的力量达成共识。术语名称应尽可能通用和非专有。如果特定于供应商的术语不可避免,例如因为它们描述了专有软件或产品,则可以通过专有产品的前导标识来组合术语名称,后跟冒号和实际CV术语名称。这种命名机制也有助于防止竞争公司之间的利益冲突可能导致的封锁。然后,更新日期和版本,本体协调员首先使用obo-Edit的“验证管理器”检查其语法正确性,然后将其传输到SourceForge网站上的CVS(并发版本控制系统),从而正式发布新的obo文件(http://psidev.cvs.sourceforge.net/viewvc/psidev/psi/psi-ms/mzML/controlledVocabulary/psi-ms.obo?view=log). 然后向上述三个邮件列表宣布新版本的发布,并附上新的和/或更改的条款的小结。PSI-MS CV的版本号格式为“x.y.z”。x的增加意味着主要构建的发布,即根级术语发生了更改,而y的增加则意味着新术语的添加或术语的废弃,z的增加则表示只进行了较小的更改,如名称或定义的编辑。

在需要合并、拆分、替换或弃用本体术语的情况下,例如由于即将推出的新技术或工具或标准格式的更改,必须通过为旧术语分配“is_obsolete”关系来将其置为过时,但它们必须留在本体内部,以确保已经使用这些现已过时的术语的实例数据文件的向后兼容性。

未来的方向

除了HUPO-PSI组的蛋白质组标准格式的使用外,PSI-MS CV还用于其他六个项目(表6). 随着蛋白质组学标准格式的进一步发展和新方法、软件和仪器的出现,不要低估PSI标准在转换软件中的最终实现,PSI-MS CV随着时间的推移稳步增长(图3). 此外,植根于PSI-MS的历史,未来需要调整某些方面。例如,PSI-MS中定义了几个单位,这些单位也在“单位”本体中定义,因为这些术语早于单位本体的存在。另一个例子是炼狱分支。它也起源于PSI-MS开发过程的开始,当时标记术语没有“is_obsolute”关系,不应再使用。可以预计,这些术语中的大多数将来也将被标记为过时。

表6

使用PSI-MS本体的其他项目[改编自BioPortal(25)网站位于http://bioportal.bioontology.org/ontologies/1105]

项目(参考)描述
ISA软件套件(28) (http://isa-tools.org)开源软件套件,用于帮助注释和本地管理来自高通量研究的实验元数据。
NCBO(国家生物医学本体中心)注解器(29) (http://www.biontology.org/annotator-service网站)注释文本元数据(例如期刊摘要)的Web服务。
NCBO资源指数(30) (http://www.biontology.org/resources-index)NCBO资源索引是一个基于本体的生物医学数据注释和索引系统;该系统的关键功能是使用户能够定位与特定概念相关的生物医学数据资源。
OntoCAT上(31) (http://www.ontocat.org)提供与本体资源交互的高级抽象,包括标准OWL和OBO格式的本地本体文件以及公共本体库。
MeRy-B(代谢组学知识库波尔多)(32) (http://bioportal.bioontology.org/ontologies/1105)植物代谢组学知识库,用于存储和可视化植物的代谢谱。
OntoMaton公司(https://github.com/ISA-tools/OntoMaton网站)促进谷歌电子表格中的本体搜索和标记功能。现在是isa-tool的一部分。

这里证明了CV在蛋白质组学中的使用使得蛋白质组学标准格式更加独立于名称或术语定义的更改。obo文件还允许为即将到来的技术添加新术语,从而有助于跟上技术进步的步伐。这有助于保持蛋白质组学格式的稳定性,并独立于使用的词汇术语集。这种方法也可以用于其他组学学科(基因组学、转录组学、蛋白质组学、相互作用组学、代谢组学、通量组学等),因此这些格式对CV的使用可以帮助整合所谓的多组学研究中的数据集,或者在元分析中匹配术语,以防单个分析在相同概念的命名方案中使用同义词,即使来自不同组学领域的本体的术语同步仍然是未来的挑战。

当然,也可以预计新技术的发展,如MSE类(33); 离子迁移率(34)(电离分子根据其在载气中的流动性而不是根据其质荷比进行分离的方法)和结合离子分离技术的混合多维离子分离方法;SWATH[一种DIA(数据独立采集)方法,其中必须指定一系列称为“线束”的隔离窗口);QITL(定量等压终端标记)(35),其中肽的C末端用16O或18O和N-末端与正常或d(2)甲醛反应,以允许肽的定量;GeLC-MS,基于凝胶和液相色谱-MS的蛋白质组学的组合(36); 或其他即将采用的方法将需要在PSI-MS CV中添加新术语。

另一个未来的方向是整合代表代谢信息的词汇,例如与标准气相色谱-代谢组学MS方法相关的词汇(37)(在代谢组学中,主要使用气相色谱-质谱而不是液相色谱-MS,因为通过衍生化(即化学修饰)将低分子量代谢物转化为气态形式相对容易),用于mzML文件或其他标准格式。此外,COSMOS(代谢组学标准的协调,http://www.cosmos-fp7.eu/wp2)代谢组学标准倡议(MSI)项目(38)用于存储核磁共振波谱数据(39)可以想象利用PSI-MS CV并为其提供新术语,例如描述化学位移,化学位移取决于氢原子核局部化学环境对外部磁场的屏蔽,并可用于检测和解释分子结构。

尽管预计通过上述所有技术和其他新技术,PSI-MS CV将随时间增长,但我们并不期待出现指数增长,例如在测序领域。相反,我们更希望术语的数量在未来只会适度增长。这是因为CV的增长(图3)过去主要是由HUPO-PSI的各种蛋白质组数据格式的定义驱动的。这些格式现在已经定义,由于PSI-MS CV的使用,它们相对独立于所用术语的变化,因此相对稳定。因此,我们并不认为有必要进行彻底的重新设计,这也与简历的理念相矛盾,即过时的术语必须永远保留在简历中,以便所有现有的数据文件仍然保持可复制性。当然,由于技术的发展,可能有必要拆分分支或术语,例如在医学领域,非甲非乙型肝炎的术语已经过时,必须由C、D和E病毒引起的肝炎形式取代。在这种情况下,这当然意味着由公共存储库的软件程序各自管理员来解释和处理相应的问题。在现有的数据文件或数据库中正确更新这些过时的术语,因为这无法自动完成。

基金

G.M.、J.A.V.、A.R.J.和P.A.B.由欧盟项目ProteomeXchange资助(http://www.proteomexchange.org,欧盟FP7批准号260558). J.A.V.也得到了Wellcome信托基金的支持(授予编号WT085949MA型). P.A.B.也由瑞士联邦政府通过联邦教育和科学办公室提供资金。M.E.由P.U.R.E.资助(网址:http://www.pure.rub.de(欧洲研究蛋白质单位),德国联邦州Nordrhein-Westfalen的项目。F.L.由瑞典研究委员会通过BILS基础设施提供支持。A.R.J.也承认英国BBSRC的资助(BB/I000909/1号; BB/H024654/1号). E.W.D.部分由NIGMS拨款资助R01 GM087221; 第50页GM076547/系统生物学中心,以及卢森堡系统生物医学中心和卢森堡大学。

利益冲突。未申报。

致谢

纪念Andreas Bertsch是PSI-PI小组的前本体论协调员,他过早去世。我们还要感谢多年来PSI-MS CV的所有前任协调员和贡献者。

工具书类

1Yang Y,Adelstein SJ,Kassis AI.数据挖掘方法中的目标发现。药物研发。今天。2012;17(补充):S16–S23。[公共医学][谷歌学者]
2Vizcaíno JA、CotéR、Reisinger F等。蛋白质组学鉴定数据库:2010年更新。核酸研究。2010;38:D736–D742。 [PMC免费文章][公共医学][谷歌学者]
三。Martens L、Chambers M、Sturm M等。mzML——质谱数据的社区标准。分子细胞蛋白质组学。2011;10:R110000133。 [PMC免费文章][公共医学][谷歌学者]
4.Deutsch EW、Chambers M、Neumann S等。TraML——交换选定反应监测过渡清单的标准格式。分子细胞蛋白质组学。2012;11:R111.015040。 [PMC免费文章][公共医学][谷歌学者]
5Holman SW、Sims PF、Eyers CE。定量蛋白质组学中选择性反应监测的应用。生物分析。2012;4:1763–1786.[公共医学][谷歌学者]
6Jones AR、Eisenacher M、Mayer G等。基于质谱的蛋白质组学结果的mzIdentML数据标准。分子细胞蛋白质组学。2012;11:M111.014381。 [PMC免费文章][公共医学][谷歌学者]
7德国东部。PeptideAtlas项目。方法分子生物学。2010;604:285–296. [PMC免费文章][公共医学][谷歌学者]
8Schramm T、Hester A、Klinkert I等。imzML是一种通用的数据格式,用于灵活交换和处理质谱成像数据。蛋白质组学杂志。2012;75:5106–5110.[公共医学][谷歌学者]
9Jones AR,Paton西北。功能基因组数据的可扩展建模分析。BMC生物信息学。2005;6:235. [PMC免费文章][公共医学][谷歌学者]
10Taylor CF、Paton NW、Lilley KS等。蛋白质组学实验(MIAPE)的最低信息自然生物技术。2007;25:887–893.[公共医学][谷歌学者]
11Rodriguez H、Snyder M、Uhlen M等,《2008年蛋白质组学数据发布和共享政策国际峰会的建议:阿姆斯特丹原则》。蛋白质组研究杂志。2009;8:3689–3692. [PMC免费文章][公共医学][谷歌学者]
12Montecchi Palazzi L,Kerrien S,Reisinger F等。PSI语义验证器:一个检查蛋白质组学数据MIAPE依从性的框架。蛋白质组学。2009;9:5112–5119.[公共医学][谷歌学者]
13.皮尔逊WR。利用FASTA3程序包进行灵活的序列相似性搜索。方法分子生物学。2000;132:185–219.[公共医学][谷歌学者]
14Wilhelm M、Kirchner M、Steen JA、Steen H.mz5:质谱数据集的时空高效存储。分子细胞蛋白质组学。2012;11:O111.011379。 [PMC免费文章][公共医学][谷歌学者]
15.Orchard S、Jones P、Taylor C等。蛋白质组数据交换和存储:对通用标准和公共存储库的需求。方法分子生物学。2007;367:261–270.[公共医学][谷歌学者]
16Pedrioli PG、Eng JK、Hubley R等。质谱数据的通用开放表示及其在蛋白质组学研究中的应用。自然生物技术。2004;22:1459–1466.[公共医学][谷歌学者]
17Day-Richter J、Harris MA、Haendel M、Lewis S.OBO-Edit,生物学家本体论编辑。生物信息学。2007;23:2198–2200.[公共医学][谷歌学者]
18Gkoutos GV,Schofield PN,Hoehndorf R.单位本体:一种整合科学测量单位的工具。数据库(牛津)2012;2012:bas033。 [PMC免费文章][公共医学][谷歌学者]
19Gallien S、Duriez E、Domon B。蛋白质组学中的选择性反应监测。J.质谱。2011;46:298–312.[公共医学][谷歌学者]
20Kiyonami R,Domon B.选择性反应监测应用于定量蛋白质组学。方法分子生物学。2010;658:155–166.[公共医学][谷歌学者]
21Geiger T,Wisniewski JR,Cox J,et al.将细胞培养中氨基酸的稳定同位素标记用作定量蛋白质组学的尖峰标准。国家协议。2011;6:147–157.[公共医学][谷歌学者]
22.Dudoit S、Shaffer JP、Boldrick JC。微阵列实验中的多重假设检验。统计科学。2003;18:71–103. [谷歌学者]
23Scheer M、Grote A、Chang A等。BRENDA,2011年酶信息系统。核酸研究。2011;39:D670–D676。 [PMC免费文章][公共医学][谷歌学者]
24Smith B、Ceusters W、Klagges B等。生物医学本体论中的关系。基因组生物学。2005;6:R46。 [PMC免费文章][公共医学][谷歌学者]
25Noy NF、Shah NH、Whetzel PL等。生物门户:鼠标点击时的本体论和集成数据资源。核酸研究。2009;37:W170–W173。 [PMC免费文章][公共医学][谷歌学者]
26Degtyarenko K、de Matos P、Ennis M等。ChEBI:生物感兴趣的化学实体的数据库和本体。核酸研究。2008;36:D344–D350。 [PMC免费文章][公共医学][谷歌学者]
27.王毅,肖杰,苏泽克·TO,等。公共化学:一个分析小分子生物活性的公共信息系统。核酸研究。2009;37:W623–W33。 [PMC免费文章][公共医学][谷歌学者]
28Rocca-Serra P、Brandizi M、Maguire E等。ISA软件套件:支持符合标准的实验注释并支持社区级的管理。生物信息学。2010;26:2354–2356. [PMC免费文章][公共医学][谷歌学者]
29Jonquet C,Shah NH,Musen MA。开放式生物医学解说员。翻译峰会。生物信息。2009;2009:56–60. [PMC免费文章][公共医学][谷歌学者]
30Jonquet C、Lependu P、Falconer S等。NCBO资源索引:基于本体的生物医学资源搜索和挖掘。Web Semant。2011;9:316–324. [PMC免费文章][公共医学][谷歌学者]
31Adamusiak T、Burdett T、Kurbatova N等。OntoCAT——Java、R和REST/JavaScript中的简单本体搜索和集成。BMC生物信息学。2011:12. [PMC免费文章][公共医学][谷歌学者]
32Ferry-Dumazet H,Gil L,Deborde C,et al.MeRy-B:一个用于存储、可视化、分析和注释植物核磁共振代谢组学剖面的网络知识库。BMC植物生物学。2011;11:104. [PMC免费文章][公共医学][谷歌学者]
33Plumb RS、Johnson KA、Rainville P等,UPLC/MSE;一种用于生物标志物结构解释的分子片段信息生成新方法(vol 20,pg 19892006)快速通讯。质谱。2006;20:2234–2234.[公共医学][谷歌学者]
34Holcapek M、Jirasko R、Lisa M。液相色谱-质谱及相关技术的最新发展。J.色谱法。答:。2012;1259:3–15.[公共医学][谷歌学者]
35杨素江,聂艾,张磊,等。一种新的等压末端标记定量蛋白质组学工作流程。蛋白质组学杂志。2012;75:5797–5806.[公共医学][谷歌学者]
36基于Roepstorff P.质谱的蛋白质组学,背景,现状和未来需求。蛋白质细胞。2012;:641–647. [PMC免费文章][公共医学][谷歌学者]
37Koek MM,Jellema RH,van der Greef J等。基于气相色谱-质谱的定量代谢组学:现状和展望。代谢组学。2011;7:307–328. [PMC免费文章][公共医学][谷歌学者]
38Sansone SA、Fan T、Goodacre R等。代谢组学标准倡议。自然生物技术。2007;25:846–848.[公共医学][谷歌学者]
39张安,孙华,王平,等。代谢组学分析中的现代分析技术。分析师。2012;137:293–300.[公共医学][谷歌学者]

文章来自数据库:《生物数据库与治疗杂志》由提供牛津大学出版社