数据库(牛津)。2013; 2013年:bat009。
HUPO蛋白质组学标准倡议-质谱控制词汇
,1 ,2 ,2 ,三 ,4 ,5 ,6 ,7 ,8 ,9 ,2 ,2 ,2 ,1,10 ,1和1,*代表HUPO-PSI集团
格哈德·迈耶
1德国波鸿D-44801,波鸿Ruhr-Universität Bochum,Medizinisches Proteom Center(MPC),2EMBL-EBI,英国剑桥CB10 1SD Hinxton Wellcome Trust Genome校区,三利物浦大学综合生物学研究所,利物浦L69 7ZJ,英国,4SIB瑞士生物信息研究所,瑞士-普罗特集团,Rue Michel-Servet 1,CH-1211 Geneva 4,Swiss-Prot group,5系统生物学研究所,401 Terry Avenue North,Seattle,WA 98109,USA,6美国田纳西州纳什维尔范德比尔特大学医学中心生物医学信息学系,邮编:37232-8575,7Bruker Daltonik GmbH,不来梅D-28359 Fahrenheitstraße 4,8BILS,隆德大学免疫技术系,瑞典隆德BMC D13,22184,9Thermo Fisher Scientific Inc.,美国加利福尼亚州圣何塞市河橡树大道355号,邮编:9513410Kairos GmbH,Universityätsstraße 136,D-44799波鸿,德国
路易莎·蒙泰奇·帕拉齐
1德国波鸿D-44801,波鸿Ruhr-Universität Bochum,Medizinisches Proteom Center(MPC),2EMBL-EBI,英国剑桥CB10 1SD Hinxton Wellcome Trust Genome校区,三利物浦大学综合生物学研究所,利物浦L69 7ZJ,英国,4SIB瑞士生物信息研究所,瑞士-普罗特集团,Rue Michel-Servet 1,CH-1211 Geneva 4,Swiss-Prot group,5系统生物学研究所,401 Terry Avenue North,Seattle,WA 98109,USA,6美国田纳西州纳什维尔范德比尔特大学医学中心生物医学信息学系,邮编:37232-8575,7Bruker Daltonik GmbH,不来梅D-28359 Fahrenheitstraße 4,8BILS,隆德大学免疫技术系,瑞典隆德BMC D13,22184,9Thermo Fisher Scientific Inc.,美国加利福尼亚州圣何塞市河橡树大道355号,邮编:9513410Kairos GmbH,Universityätsstraße 136,D-44799波鸿,德国
大卫·奥维利罗
1德国波鸿D-44801,波鸿Ruhr-Universität Bochum,Medizinisches Proteom Center(MPC),2EMBL-EBI,英国剑桥CB10 1SD Hinxton Wellcome Trust Genome校区,三英国利物浦大学综合生物学研究所L69 7ZJ,4SIB瑞士生物信息研究所,瑞士-普罗特集团,Rue Michel-Servet 1,CH-1211 Geneva 4,Swiss-Prot group,5系统生物学研究所,401 Terry Avenue North,Seattle,WA 98109,USA,6美国田纳西州纳什维尔范德比尔特大学医学中心生物医学信息学系37232-8575,7Bruker Daltonik GmbH,不来梅D-28359 Fahrenheitstraße 4,8BILS,隆德大学免疫技术系,BMC D13,22184隆德,瑞典,9Thermo Fisher Scientific Inc.,美国加利福尼亚州圣何塞市河橡树大道355号,邮编:9513410Kairos GmbH,Universityätsstraße 136,D-44799波鸿,德国
安德鲁·琼斯
1德国波鸿D-44801,波鸿Ruhr-Universität Bochum,Medizinisches Proteom Center(MPC),2EMBL-EBI,英国剑桥CB10 1SD Hinxton Wellcome Trust Genome校区,三利物浦大学综合生物学研究所,利物浦L69 7ZJ,英国,4SIB瑞士生物信息研究所,瑞士-普罗特集团,Rue Michel-Servet 1,CH-1211 Geneva 4,Swiss-Prot group,5系统生物学研究所,401 Terry Avenue North,Seattle,WA 98109,USA,6美国田纳西州纳什维尔范德比尔特大学医学中心生物医学信息学系,邮编:37232-8575,7Bruker Daltonik GmbH,不来梅D-28359 Fahrenheitstraße 4,8BILS,隆德大学免疫技术系,瑞典隆德BMC D13,22184,9Thermo Fisher Scientific Inc.,美国加利福尼亚州圣何塞市河橡树大道355号,邮编:9513410Kairos GmbH,Universityätsstraße 136,D-44799波鸿,德国
皮尔雷·阿莱恩·宾兹
1德国波鸿D-44801,波鸿Ruhr-Universität Bochum,Medizinisches Proteom Center(MPC),2EMBL-EBI,英国剑桥CB10 1SD Hinxton Wellcome Trust Genome校区,三利物浦大学综合生物学研究所,利物浦L69 7ZJ,英国,4SIB瑞士生物信息研究所,瑞士-普罗特集团,Rue Michel-Servet 1,CH-1211 Geneva 4,Swiss-Prot group,5系统生物学研究所,401 Terry Avenue North,Seattle,WA 98109,USA,6美国田纳西州纳什维尔范德比尔特大学医学中心生物医学信息学系,邮编:37232-8575,7Bruker Daltonik GmbH,不来梅D-28359 Fahrenheitstraße 4,8BILS,隆德大学免疫技术系,瑞典隆德BMC D13,22184,9Thermo Fisher Scientific Inc.,美国加利福尼亚州圣何塞市河橡树大道355号,邮编:9513410Kairos GmbH,Universityätsstraße 136,D-44799波鸿,德国
埃里克·W·多伊奇
1德国波鸿D-44801,波鸿Ruhr-Universität Bochum,Medizinisches Proteom Center(MPC),2EMBL-EBI,英国剑桥CB10 1SD Hinxton Wellcome Trust Genome校区,三利物浦大学综合生物学研究所,利物浦L69 7ZJ,英国,4SIB瑞士生物信息研究所,瑞士-普罗特集团,Rue Michel-Servet 1,CH-1211 Geneva 4,Swiss-Prot group,5系统生物学研究所,401 Terry Avenue North,Seattle,WA 98109,USA,6美国田纳西州纳什维尔范德比尔特大学医学中心生物医学信息学系,邮编:37232-8575,7Bruker Daltonik GmbH,不来梅D-28359 Fahrenheitstraße 4,8BILS,隆德大学免疫技术系,瑞典隆德BMC D13,22184,9赛默飞世尔科技公司,355 River Oaks Parkway,San Jose,CA 95134,美国和10Kairos GmbH,Universityätsstraße 136,D-44799波鸿,德国
马修·钱伯斯
1德国波鸿D-44801,波鸿Ruhr-Universität Bochum,Medizinisches Proteom Center(MPC),2EMBL-EBI,Wellcome Trust Genome Campus,Hinxton,Cambridge CB10 1SD,英国,三利物浦大学综合生物学研究所,利物浦L69 7ZJ,英国,4瑞士生物信息学研究所,瑞士Prot集团,Rue Michel Servet 1,CH-1211 Geneva 4,瑞士,5系统生物学研究所,401 Terry Avenue North,Seattle,WA 98109,USA,6美国田纳西州纳什维尔范德比尔特大学医学中心生物医学信息学系,邮编:37232-8575,7Bruker Daltonik GmbH,不来梅D-28359 Fahrenheitstraße 4,8BILS,隆德大学免疫技术系,瑞典隆德BMC D13,22184,9Thermo Fisher Scientific Inc.,美国加利福尼亚州圣何塞市河橡树大道355号,邮编:9513410Kairos GmbH,Universityätsstraße 136,D-44799波鸿,德国
马吕斯·卡尔哈德
1德国波鸿D-44801,波鸿Ruhr-Universität Bochum,Medizinisches Proteom Center(MPC),2EMBL-EBI,英国剑桥CB10 1SD Hinxton Wellcome Trust Genome校区,三利物浦大学综合生物学研究所,利物浦L69 7ZJ,英国,4SIB瑞士生物信息研究所,瑞士-普罗特集团,Rue Michel-Servet 1,CH-1211 Geneva 4,Swiss-Prot group,5系统生物学研究所,401 Terry Avenue North,Seattle,WA 98109,USA,6美国田纳西州纳什维尔范德比尔特大学医学中心生物医学信息学系,邮编:37232-8575,7Bruker Daltonik GmbH,不来梅D-28359 Fahrenheitstraße 4,8BILS,隆德大学免疫技术系,瑞典隆德BMC D13,22184,9Thermo Fisher Scientific Inc.,美国加利福尼亚州圣何塞市河橡树大道355号,邮编:9513410Kairos GmbH,Universityätsstraße 136,D-44799波鸿,德国
弗雷德里克·利万德
1德国波鸿D-44801,波鸿Ruhr-Universität Bochum,Medizinisches Proteom Center(MPC),2EMBL-EBI,英国剑桥CB10 1SD Hinxton Wellcome Trust Genome校区,三利物浦大学综合生物学研究所,利物浦L69 7ZJ,英国,4SIB瑞士生物信息研究所,瑞士-普罗特集团,Rue Michel-Servet 1,CH-1211 Geneva 4,Swiss-Prot group,5系统生物学研究所,401 Terry Avenue North,Seattle,WA 98109,USA,6美国田纳西州纳什维尔范德比尔特大学医学中心生物医学信息学系,邮编:37232-8575,7Bruker Daltonik GmbH,不来梅D-28359 Fahrenheitstraße 4,8BILS,隆德大学免疫技术系,瑞典隆德BMC D13,22184,9Thermo Fisher Scientific Inc.,美国加利福尼亚州圣何塞市河橡树大道355号,邮编:9513410Kairos GmbH,Universityätsstraße 136,D-44799波鸿,德国
詹姆斯·肖夫斯塔尔
1德国波鸿D-44801,波鸿Ruhr-Universität Bochum,Medizinisches Proteom Center(MPC),2EMBL-EBI,Wellcome Trust Genome Campus,Hinxton,Cambridge CB10 1SD,英国,三利物浦大学综合生物学研究所,利物浦L69 7ZJ,英国,4SIB瑞士生物信息研究所,瑞士-普罗特集团,Rue Michel-Servet 1,CH-1211 Geneva 4,Swiss-Prot group,5系统生物学研究所,401 Terry Avenue North,Seattle,WA 98109,USA,6美国田纳西州纳什维尔范德比尔特大学医学中心生物医学信息学系,邮编:37232-8575,7Bruker Daltonik股份有限公司,位于不来梅的Fahrenheitstraße 4,D-28359,8BILS,隆德大学免疫技术系,瑞典隆德BMC D13,22184,9Thermo Fisher Scientific Inc.,美国加利福尼亚州圣何塞市河橡树大道355号,邮编:9513410Kairos GmbH,Universityätsstraße 136,D-44799波鸿,德国
桑德拉果园
1德国波鸿D-44801,波鸿Ruhr-Universität Bochum,Medizinisches Proteom Center(MPC),2EMBL-EBI,英国剑桥CB10 1SD Hinxton Wellcome Trust Genome校区,三利物浦大学综合生物学研究所,利物浦L69 7ZJ,英国,4SIB瑞士生物信息研究所,瑞士-普罗特集团,Rue Michel-Servet 1,CH-1211 Geneva 4,Swiss-Prot group,5系统生物学研究所,401 Terry Avenue North,Seattle,WA 98109,USA,6美国田纳西州纳什维尔范德比尔特大学医学中心生物医学信息学系,邮编:37232-8575,7Bruker Daltonik GmbH,不来梅D-28359 Fahrenheitstraße 4,8BILS,隆德大学免疫技术系,瑞典隆德BMC D13,22184,9Thermo Fisher Scientific Inc.,美国加利福尼亚州圣何塞市河橡树大道355号,邮编:9513410Kairos GmbH,Universityätsstraße 136,D-44799波鸿,德国
胡安·安东尼奥·维兹卡诺
1德国波鸿D-44801,波鸿Ruhr-Universität Bochum,Medizinisches Proteom Center(MPC),2EMBL-EBI,英国剑桥CB10 1SD Hinxton Wellcome Trust Genome校区,三利物浦大学综合生物学研究所,利物浦L69 7ZJ,英国,4SIB瑞士生物信息研究所,瑞士-普罗特集团,Rue Michel-Servet 1,CH-1211 Geneva 4,Swiss-Prot group,5系统生物学研究所,401 Terry Avenue North,Seattle,WA 98109,USA,6美国田纳西州纳什维尔范德比尔特大学医学中心生物医学信息学系,邮编:37232-8575,7Bruker Daltonik GmbH,不来梅D-28359 Fahrenheitstraße 4,8BILS,隆德大学免疫技术系,瑞典隆德BMC D13,22184,9Thermo Fisher Scientific Inc.,美国加利福尼亚州圣何塞市河橡树大道355号,邮编:9513410Kairos GmbH,Universityätsstraße 136,D-44799波鸿,德国
亨宁·赫姆贾科布
1德国波鸿D-44801,波鸿Ruhr-Universität Bochum,Medizinisches Proteom Center(MPC),2EMBL-EBI,英国剑桥CB10 1SD Hinxton Wellcome Trust Genome校区,三利物浦大学综合生物学研究所,利物浦L69 7ZJ,英国,4SIB瑞士生物信息研究所,瑞士-普罗特集团,Rue Michel-Servet 1,CH-1211 Geneva 4,Swiss-Prot group,5系统生物学研究所,401 Terry Avenue North,Seattle,WA 98109,USA,6美国田纳西州纳什维尔范德比尔特大学医学中心生物医学信息学系,邮编:37232-8575,7Bruker Daltonik股份有限公司,位于不来梅的Fahrenheitstraße 4,D-28359,8BILS,隆德大学免疫技术系,瑞典隆德BMC D13,22184,9Thermo Fisher Scientific Inc.,美国加利福尼亚州圣何塞市河橡树大道355号,邮编:9513410Kairos股份有限公司,德国波鸿市D-44799大街136号
克里斯蒂安·斯蒂芬
1德国波鸿D-44801波鸿鲁尔大学Medizinisches Proteom中心,2EMBL-EBI,英国剑桥CB10 1SD Hinxton Wellcome Trust Genome校区,三利物浦大学综合生物学研究所,利物浦L69 7ZJ,英国,4SIB瑞士生物信息研究所,瑞士-普罗特集团,Rue Michel-Servet 1,CH-1211 Geneva 4,Swiss-Prot group,5系统生物学研究所,401 Terry Avenue North,Seattle,WA 98109,USA,6美国田纳西州纳什维尔范德比尔特大学医学中心生物医学信息学系,邮编:37232-8575,7Bruker Daltonik GmbH,不来梅D-28359 Fahrenheitstraße 4,8BILS,隆德大学免疫技术系,瑞典隆德BMC D13,22184,9Thermo Fisher Scientific Inc.,美国加利福尼亚州圣何塞市河橡树大道355号,邮编:9513410Kairos GmbH,Universityätsstraße 136,D-44799波鸿,德国
赫尔穆特·梅耶
1德国波鸿D-44801,波鸿Ruhr-Universität Bochum,Medizinisches Proteom Center(MPC),2EMBL-EBI,英国剑桥CB10 1SD Hinxton Wellcome Trust Genome校区,三利物浦大学综合生物学研究所,利物浦L69 7ZJ,英国,4SIB瑞士生物信息研究所,瑞士-普罗特集团,Rue Michel-Servet 1,CH-1211 Geneva 4,Swiss-Prot group,5系统生物学研究所,401 Terry Avenue North,Seattle,WA 98109,USA,6美国田纳西州纳什维尔范德比尔特大学医学中心生物医学信息学系,邮编:37232-8575,7Bruker Daltonik GmbH,不来梅D-28359 Fahrenheitstraße 4,8BILS,隆德大学免疫技术系,BMC D13,22184隆德,瑞典,9Thermo Fisher Scientific Inc.,美国加利福尼亚州圣何塞市河橡树大道355号,邮编:9513410Kairos GmbH,Universityätsstraße 136,D-44799波鸿,德国
马丁·艾森纳赫
1德国波鸿D-44801,波鸿Ruhr-Universität Bochum,Medizinisches Proteom Center(MPC),2EMBL-EBI,英国剑桥CB10 1SD Hinxton Wellcome Trust Genome校区,三利物浦大学综合生物学研究所,利物浦L69 7ZJ,英国,4SIB瑞士生物信息研究所,瑞士-普罗特集团,Rue Michel-Servet 1,CH-1211 Geneva 4,Swiss-Prot group,5系统生物学研究所,401 Terry Avenue North,Seattle,WA 98109,USA,6美国田纳西州纳什维尔范德比尔特大学医学中心生物医学信息学系,邮编:37232-8575,7Bruker Daltonik GmbH,不来梅D-28359 Fahrenheitstraße 4,8BILS,隆德大学免疫技术系,瑞典隆德BMC D13,22184,9Thermo Fisher Scientific Inc.,美国加利福尼亚州圣何塞市河橡树大道355号,邮编:9513410Kairos GmbH,Universityätsstraße 136,D-44799波鸿,德国
1德国波鸿D-44801波鸿鲁尔大学Medizinisches Proteom中心,2EMBL-EBI,英国剑桥CB10 1SD Hinxton Wellcome Trust Genome校区,三利物浦大学综合生物学研究所,利物浦L69 7ZJ,英国,4瑞士生物信息学研究所,瑞士Prot集团,Rue Michel Servet 1,CH-1211 Geneva 4,瑞士,5系统生物学研究所,401 Terry Avenue North,Seattle,WA 98109,USA,6美国田纳西州纳什维尔范德比尔特大学医学中心生物医学信息学系37232-8575,7Bruker Daltonik GmbH,不来梅D-28359 Fahrenheitstraße 4,8BILS,隆德大学免疫技术系,瑞典隆德BMC D13,22184,9Thermo Fisher Scientific Inc.,美国加利福尼亚州圣何塞市河橡树大道355号,邮编:9513410Kairos GmbH,Universityätsstraße 136,D-44799波鸿,德国
引文详情:Mayer,G.,Montecchi-Palazzi,L.,Ovelleiro,D。等。HUPO蛋白质组学标准启动质谱控制词汇。数据库(2013)卷2013:文章ID bat009;doi:10.1093/database/bat009
2012年11月30日收到;2013年1月28日修订;2013年2月19日验收。
摘要
受控词汇表(CV),即描述建模领域的预定义术语集合,用于数据的语义注释,本体用于结构化数据格式和数据库中,以避免注释中的不一致,从而具有唯一性(最好是简短的)并为研究人员和计算机算法提供了更具表现力的数据语义注释的可能性。人类蛋白质组组织(HUPO)-蛋白质组学标准倡议(PSI)在其数据格式中广泛使用本体/CV。PSI-质谱(MS)CV包含PSI-MS相关数据标准中使用的所有术语。CV包含逻辑层次结构,以确保易于维护和开发使用复杂语义的软件。CV包含完整描述蛋白质组学中MS分析管道所需的术语,包括样品标记、消化酶、仪器部件和参数、用于肽/蛋白质识别和定量的软件以及用于确定其重要性的参数和分数。由于简历涵盖的主题范围广泛,有必要在几个PSI工作组之间进行协作开发,包括蛋白质组学研究组、仪器制造商和软件供应商。在本文中,我们描述了CV的总体结构、开发和维护CV的过程以及对其他本体的依赖性。
数据库URL:http://psidev.cvs.sourceforge.net/viewvc/psidev/psi/psi-ms/mzML/controlledVocabulary/psi-ms.obo
介绍
蛋白质组学是利用凝胶电泳和/或色谱结合基于质谱(MS)的方法来识别和量化复杂样品(例如血液或尿液)中的蛋白质,目的是提高我们对蛋白质及其功能、相互作用、表达控制和正常情况下的其他特性的了解,患病或其他情况。以这种方式获得的信息有助于识别新的生物标记物和/或药物靶点(1). 由于蛋白质组学高通量技术的建立,基于MS的蛋白质组学实验产生的数据量以及存储在公共存储库中的数据量迅速增长(2). HUPO-PSI(人类蛋白质组组织-蛋白质组学标准倡议)是一个蛋白质组学社区组织,为蛋白质组学中的数据表示定义标准格式,以促进数据比较、交换和验证。它开发了一组基于XML的标准格式,包括mzML(三)对于原始和处理的MS数据,TraML(4)用于所选反应监测的输入转换(5)(SRM),即靶向蛋白质组学方法,其中只有精确确定的m/z值才能通过精确指定前体-产物转换(即要搜索的成对已定义的肽和片段)进行检测,mzIdentML(6)肽和蛋白质鉴定数据和mzQuantML(Walzer等。,在制备中)用于蛋白质组学定量结果。
上述数据格式旨在表示蛋白质组学数据,以支持数据共享、重新分析、数据库沉积和在公共存储库中长期存储这些数据,如PRIDE(蛋白质识别数据库)(2)或肽图谱(7). 这些格式以标准化的方式使用来自不同本体的受控词汇表(CV)术语(请参阅)(梅耶等。,准备中),以允许标准的未来扩展性(9)以及捕获数据的真正语义,这是使用纯XML技术更难实现的。
表1
标准格式(参考) | 描述 |
---|
mzML(百万毫升)(三) | 原始MS光谱输出数据的编码格式。 |
mz标识ML(6) | 肽和蛋白质鉴定数据的格式。 |
mzQuantML(沃尔泽等。,准备中) | MS量化信息的格式。 |
TraML(TraML)(4) | 用于指定SRM转换的格式。 |
PEFF公司(http://www.psidev。信息/peff) | PSI扩展Fasta格式,蛋白质和核苷酸序列的统一格式。 |
imzML格式(8) | MALDI成像数据的格式。 |
mzTab(网格等。,准备中) | MS标识和量化信息的制表符分隔格式。 |
在设计和开发这样的简历时,应该确保每个建模的概念都由一个独特的首选术语表示,并且同义词包含在该术语的引用中。此外,可以定义关系来表示CV术语之间的层次关系或等价关系或其他关联。对于CV本身的存储,有几种格式(迈耶等。,准备中)。PSI-MS CV以OBO(Open Biomedical Ontology)平面文件文本格式存储,详见http://www.geneontology.org/GO.format.obo-1_4.shtml.
使用CV术语对数据进行注释也是确保已发布数据符合MIAPE(蛋白质组学实验的最低信息)的基础(10)和期刊指南(11). 实例数据文件中CV术语使用的语义有效性可以由基于PSI验证框架的语义验证器进行检查(12)由欧洲生物信息研究所(EBI)开发,可用于在本地或web环境中实现验证器。
在以下章节中,我们将PSI-MS CV描述为HUPO-PSI定义的当前蛋白质组学标准格式以及即将推出的用于MS量化信息的mzQuantML格式所使用的中心术语参考;mzTab(格栅等。(准备中),用于MS标识和量化信息的制表符分隔文件格式;PEFF(PSI扩展Fasta格式)(http://www.psidev.info/peff),蛋白质和核苷酸序列数据库的拟议统一格式,用于替代通用Fasta(13)格式;以及一些相关标准,如imzML(8)MS成像数据和mz5(14).
关于蛋白质组学中使用的本体论、CV术语与用于语义验证和MIAPE符合性检查的映射文件的使用、OBO格式以及用于处理OBO文件的相关工具的更多一般细节,请参见梅耶的一篇概述文章等。(准备中)。
PSI-MS小组首先在mzData中使用CV值进行语义验证的过程(15)格式,mzML的两个前身之一(三)标准格式,由mzData和mzXML统一而成(16)格式。最初,有两个单独的CV在使用:PSI:MS(对应于MS:1000000和MS:1000934之间的当前CV ID)和PSI:PI(对应于大于MS:1001000的当前CVID)。在发布mzIdentML之前,将它们合并为PSI-MS CV。
PSI-MS CV的结构
PSI-MS CV是以海外建筑运营管理局格式存储的手动管理的本体,由海外建筑运营管局编辑工作组定义(http://oboedit.org/?page=workinggroup(工作组))并且是开源OBO-Edit使用的格式(17)软件。有关海外建筑运营管理局格式的详细信息,请参阅http://www.geneontology.org/GO.format.obo-1_2.shtml.
PSI-MS CV分为八个主要分支,如并在中简要描述除了PSI-MS术语外,它还包含不同的SI前缀(国际单位制,http://physics.nist.gov/cuu/Units/prefixes.html)单位,以及PATO(表型属性特征本体)中使用的关系和术语的定义(http://oboforry.org/wiki/index.php/PATO:Main_Page)和单位(18)本体(请参阅“对其他本体的依赖”部分)。
PSI-MS本体,如海外建筑运营管理局编辑的屏幕截图所示(17)左软件:PSI-MS本体的八个主要分支,以及来自PATO(质量)和“单元”本体的术语和关系。中间:PSI-MS本体的“频谱生成信息”分支。右:PSI-MS本体的“光谱解释”分支。删除的术语表示过时的术语。
表2
psi-ms.obo本体的顶级分支 | 分支机构中附属术语类型的描述 |
---|
化合物 | 有关化合物、肽和蛋白质的化学式和属性的术语。 |
联系人属性 | 关于研究人员、组织和其他角色和角色类型的联系数据(地址、电子邮件、传真、电话、URL)的术语。 |
外部引用标识符 | 有关ID、登录号、URI(统一资源标识符)、散列、DOI(数字对象标识符)或其他引用数据库、存储库或web中对象的标识符的信息。 |
文件格式 | 描述蛋白质组学中使用的专有或标准格式的术语。 |
软件 | 关于不同类型软件的术语(特定于供应商、仪器或自由软件)。它分为不同的组,如采集、分析、数据处理和定量软件。 |
频谱生成信息 | 包含描述频谱生成的所有术语的分支(请参阅“详细结构”部分)。 |
光谱解释 | 包含描述光谱解释的所有术语的分支(参见“详细结构”一节)。 |
标准 | 有关其他标准的术语,例如最低信息指南或保留时间标准。 |
PSI-MS CV的核心是“频谱生成信息”和“频谱解释”两个分支,如并在和.文件格式mzML(三),表示原始或处理的MS数据,主要使用第一个分支,而mzIdentML(6)和mzQuantML文件格式,它们表示基于MS数据的识别和量化结果,主要使用第二个分支。
表3
在“频谱生成信息”下方分支 | 分支机构中附属术语类型的描述 |
---|
色谱图 | 表示检测器响应与保留时间的术语。 |
数据处理参数 | 包含数据文件数据处理中使用的参数和阈值。 |
数据转换 | 描述转换数据处理步骤的术语,例如文件格式转换、基线缩减、反褶积、去极化、强度归一化、峰值选取、保留时间校准和平滑操作。 |
仪器 | 包含描述不同仪器型号及其属性的仪器专用术语的分支,以及描述MS仪器的源、离子光学、质量分析仪和检测器的通用术语。 |
测量方法 | 在没有分析物的情况下记录检测器响应时的分辨率项属性。 |
对象属性 | 包含描述样品制备、扫描和运行、色谱图、光谱、入口、仪器、隔离和窗口等属性术语的分支。 |
炼狱 | 一种过时术语的前身。 |
原始数据文件 | 描述原始数据文件的术语分支,例如校验和、数据文件内容和本地频谱标识符格式等。 |
样品 | 样品描述术语的分支(样品编号、样品浓度、样品体积、样品状态、样品制备等) |
扫描 | 描述频谱记录的术语,如扫描极性、隔离和选择窗口等。 |
光谱 | 包含有关光谱类型、光谱表示(质心或剖面模式)和其他光谱和峰值描述属性的光谱相关术语以及描述光谱数据二进制表示的术语的分支。 |
目标列表 | 用于指定预期m/z坐标的目标列表CV术语(即包含或排除术语),以及用于肽或化合物特定MS检查的CV术语。 |
过渡 | 描述SRM过渡实验的术语分支。 |
单位 | 描述MS特定单元的术语,例如Th/s等。 |
表4
“光谱解释”下方的分支 | 分支机构中附属术语类型的描述 |
---|
不明确的残留物 | 描述不明确氨基酸残基和非标准氨基酸质量的术语。 |
体量表选项 | 描述所用质量表来源的术语。 |
修改参数 | 代谢标记实验中使用的修饰特异性、中性损失或修饰的术语。 |
肽修饰细节 | 描述肽和蛋白质修饰的术语,例如PTM(翻译后修饰)。 |
量化数据处理 | 定量蛋白质组学实验中数据处理步骤的描述术语,例如。t吨-测试、方差分析、归一化和校准步骤。 |
量化信息 | 包含量化软件、量化数据类型和其他量化属性的术语;此外,“AnalysisSummary”元素中用于支持mzQuantML文件验证的术语。 |
搜索输入详细信息 | 包含有关切割剂及其正则表达式的术语、所考虑的离子系列、关于质量评估的术语、搜索数据库详细信息、搜索容差规范、搜索类型[PMF(肽质量指纹)、PFF(肽片段指纹)、,从头开始以及软件和搜索引擎的通用和特定输入参数的术语。 |
光谱识别结果详细信息 | 通用和搜索引擎术语-特定分数、错误发现率和其他肽和蛋白质结果(例如,蛋白质歧义组分配和分类)详细信息。 |
“光谱生成信息”分支包含用于描述样品、色谱图、所用仪器、扫描和光谱的CV术语(,中间部分)。它还包含用于描述采集参数和数据处理的参数,以及描述SRM中过渡的CV术语(19,20)实验,后者是TraML标准的组成部分(4)用于表示SRM分析。对于mzML,此分支中的术语需要生成有效的文件,除其他外,还需要在“原生光谱标识符”格式节点中为来自不同质谱仪的光谱提供一系列不同的标识符格式,这是将mzML文件中的光谱跟踪回原始原始数据的关键。
例如,“光谱解释”分支收集了描述同位素标记实验中使用替代质量表的术语(21). 这里汇集了其他术语,用于描述mzQuantML中使用的注释的量化信息和量化处理。此外,包含CV术语的搜索输入详细信息定义了软件和数据库搜索引擎的输入参数,以及频谱识别结果的详细信息[如分数、阈值和错误发现率值(22)]属于“频谱解释”分支(参见,右侧)。
此处显示了使用CV术语报告mzIdentML文件中肽识别结果分数的示例摘录,其中术语包含在cvParam XML元素中:
<SpectrumIdentificationResult spectraData_ref=“SID_1”spectrumID=“index=137”id=“SIR_1”>
<SpectrumIdentificationItem passThreshold=“false”rank=“1”peptide_ref=“RVDSGLHCPLLPDDR”calculatedMassToCharge=“582.954”experimentalMassToCharge=“5.82.931”chargeState=“3”id=“SII_1_1”>
<肽证据参考肽证据_ref=“PE1_2_0”/>
<cvParam accession=“MS:1001328”cvRef=“PSI-MS”value=“0.0561”name=“OMSSA:evalue”/>
<cvParam accession=“MS:1001329”cvRef=“PSI-MS”value=“1.3475E-5”name=“OMSSA:pvalue”/>
<cvParam accession=“MS:1001171”name=“吉祥物:分数”cvRef=“PSI-MS”value=“56.16”/>
<cvParam accession=“MS:1001172”name=“吉祥物:期望值”cvRef=“PSI-MS”value=“2.4210e-006”/>
</SpectrumIdentificationItem>
此示例还显示了在重新分析中,原则上如何报告两个或多个不同搜索机(此处为OMSSA和Mascot)的得分值。然而,这里必须强调的是,不可能有一个指标来比较两个不同搜索机器的结果质量。简历允许用户记录使用过的搜索机器、它们的版本、用于搜索的参数以及它们的结果分数,以便其他人很容易复制它们。
以下示例说明了mzML文件中CV术语在指定选择窗口时的用法(指定m/z值的下限和上限以供检测):
<selectionWindowList count=“1”>
<选择窗口>
<cvParam cvLabel=“MS”accession=“MS:1000501”name=“扫描m/z下限”value=“110.000000”/>
<cvParam cvLabel=“MS”accession=“MS:1000500”name=“扫描m/z上限”value=“905.000000”/>
</selectionWindow>
</selectionWindowList>
下一个示例显示了TraML文件中CV术语的用法,通过指定前体和生成来指定转换:
<转换列表>
<过渡id=“AAQVAQDEEIAR.2y8-1”peptideRef=“AAQVAQDEEIAR.2”>
<前驱体>
<cvParam unitCvRef=“MS”unitName=“m/z”unitAccession=“MS:1000040”value=“650.8288”accession=”MS:1000827“name=”隔离窗口目标m/z“cvRef=”MS“/>
</前驱体>
<产品>
<cvParam unitCvRef=“MS”unitName=“m/z”unitAccession=“MS:1000040”value=“931.4486”accession=”MS:1000827“name=”隔离窗口目标m/z“cvRef=”MS“/>
</产品>
一些特殊情况
一个特例是切割剂术语的定义,因为它需要两个CV术语,一个用于酶本身,另一个用于正则表达式,酶CV术语中引用了“has_regexp”关系,如下例所示。此外,布伦达(23)数据库交叉引用('dbxref')将本体指定为酶的定义源(布伦达:3.4.21.37). 描述酶限制位点的正则表达式可用于消化蛋白质生物信息学,在蛋白质组学的搜索引擎中使用。
允许的“dbxref”术语列表在GO(基因本体)网站上提供,网址为http://www.geneontology.org/cgi-bin/xrefs.cgi目前,PSI-MS CV使用以下“dbxref”术语:BRENDA、DOI、http://…resp。https://…、PubChem_Compound和PMID。
对其他本体的依赖
为避免术语重复,PSI-MS CV本身指PATO中定义的术语(http://oboforry.org/wiki/index.php/PATO:Main_Page)、和单位(18)本体论。PATO(“quality.obo”)描述表型质量,“unit.obo“包含定义测量单位的通用术语。这两个本体通过PSI-MS标题部分的以下标签导入到文档标题中的PSI-MS CV中:
这里应该强调的是,通过这种参考机制,可以确保来自PATO和单元本体的术语的添加和更新在PSI-MS CV中自动可用,从而PSI-MS CV可以很容易地与所包含的PATO或单元本体的新发展保持同步。
使用PATO的一个示例是mzML中的映射规则,用于验证样本下允许的CV术语,其中术语“对象质量”(邮编:0001241)可用于描述样品质量:
<CvMappingRule id=“sample_may”cvElementPath=“/mzML/sampleList/sample/cvParam/@accession”requirementLevel=“may”scopePath=“/mzML/sample List/sample”cvTermsCombinationLogic=“OR”>
… … ..
<CvTerm termAccession=“PATO:0001241”useTerm=“false”termName=“quality of an object”isRepeatable=“true”allowChildren=“true”cvIdentifierRef=“PATO”></CvTerm>
… … ..
</CvMappingRule>
这种映射规则是映射文件中的一个正式语句,它适用于每个HUPO-PSI标准格式,并定义了实例数据文件中某个CV项可以出现的位置和组合(Mayer等。,准备中)。
单位用于指定具有值的CV项的测量单位;例如,下面的示例说明样本体积的值必须以毫升为单位。
MS特有的测量单位,如“汤普森”,在PSI-MS CV中定义为“频谱生成信息”的“单位”分支下。目前,也有一些通用单位,它们已在unit.obo中定义,并在PSI-MS中反复重新定义。这主要是由于历史原因,这些术语正在被删除或废弃。
PSI-MS CV的基本统计数据
截至2012年11月,“psi-ms.obo”文件(3.40.0版)包含2130个术语,其中90个术语已过时,20个属于“炼狱”分支。海外建筑运营管理局关系本体中定义的“is_a”关系(24),使用2201次。此外,本体包含其他四种类型关系的定义:“has_units”(166个术语使用)、“part_of”(131个用法)、“has_regexp”(19个用法)和“has_ order”(1个用法)。请注意,一些本体术语可以包含多个“is_a”关系,因此“is_a”的用法比PSI-MS本体中的术语总数(2062)还要多。
大多数术语仅在HUPO-PSI标准蛋白质组数据文件中的<cvParam>元素中引用,没有指定值。然而,psi-ms.obo中的595个术语旨在与值一起使用;其中大多数是字符串(172项)、浮点(152项),双精度(118项)或布尔型(74项)(请参阅).
PSI-MS CV中总共包含202个同义词,其中179个为EXACT类型,22个为RELATED类型。
PSI-MS本体自2007年6月至2012年11月的增长情况详见2009年新术语的大量出现可能是因为到了那一年,mzML 1.1.0规范已经颁布。
BioPortal报告的统计本体度量(25)如所示.
表5
根据BioPortal的统计指标 | 编号 |
---|
类的数量 | 4640 |
个人数量 | 0 |
属性的数量 | 10 |
最大深度 | 9 |
同级术语的最大数量 | 157 |
平均兄弟姐妹数 | 1 |
具有单个子类的类 | 151 |
包含>25个子类的类 | 23 |
没有定义的类 | 991 |
未来的方向
除了HUPO-PSI组的蛋白质组标准格式的使用外,PSI-MS CV还用于其他六个项目(). 随着蛋白质组学标准格式的进一步发展和新方法、软件和仪器的出现,不要低估PSI标准在转换软件中的最终实现,PSI-MS CV随着时间的推移稳步增长(). 此外,植根于PSI-MS的历史,未来需要调整某些方面。例如,PSI-MS中定义了几个单位,这些单位也在“单位”本体中定义,因为这些术语早于单位本体的存在。另一个例子是炼狱分支。它也起源于PSI-MS开发过程的开始,当时标记术语没有“is_obsolute”关系,不应再使用。可以预计,这些术语中的大多数将来也将被标记为过时。
这里证明了CV在蛋白质组学中的使用使得蛋白质组学标准格式更加独立于名称或术语定义的更改。obo文件还允许为即将到来的技术添加新术语,从而有助于跟上技术进步的步伐。这有助于保持蛋白质组学格式的稳定性,并独立于使用的词汇术语集。这种方法也可以用于其他组学学科(基因组学、转录组学、蛋白质组学、相互作用组学、代谢组学、通量组学等),因此这些格式对CV的使用可以帮助整合所谓的多组学研究中的数据集,或者在元分析中匹配术语,以防单个分析在相同概念的命名方案中使用同义词,即使来自不同组学领域的本体的术语同步仍然是未来的挑战。
当然,也可以预计新技术的发展,如MSE类(33); 离子迁移率(34)(电离分子根据其在载气中的流动性而不是根据其质荷比进行分离的方法)和结合离子分离技术的混合多维离子分离方法;SWATH[一种DIA(数据独立采集)方法,其中必须指定一系列称为“线束”的隔离窗口);QITL(定量等压终端标记)(35),其中肽的C末端用16O或18O和N-末端与正常或d(2)甲醛反应,以允许肽的定量;GeLC-MS,基于凝胶和液相色谱-MS的蛋白质组学的组合(36); 或其他即将采用的方法将需要在PSI-MS CV中添加新术语。
另一个未来的方向是整合代表代谢信息的词汇,例如与标准气相色谱-代谢组学MS方法相关的词汇(37)(在代谢组学中,主要使用气相色谱-质谱而不是液相色谱-MS,因为通过衍生化(即化学修饰)将低分子量代谢物转化为气态形式相对容易),用于mzML文件或其他标准格式。此外,COSMOS(代谢组学标准的协调,http://www.cosmos-fp7.eu/wp2)代谢组学标准倡议(MSI)项目(38)用于存储核磁共振波谱数据(39)可以想象利用PSI-MS CV并为其提供新术语,例如描述化学位移,化学位移取决于氢原子核局部化学环境对外部磁场的屏蔽,并可用于检测和解释分子结构。
尽管预计通过上述所有技术和其他新技术,PSI-MS CV将随时间增长,但我们并不期待出现指数增长,例如在测序领域。相反,我们更希望术语的数量在未来只会适度增长。这是因为CV的增长()过去主要是由HUPO-PSI的各种蛋白质组数据格式的定义驱动的。这些格式现在已经定义,由于PSI-MS CV的使用,它们相对独立于所用术语的变化,因此相对稳定。因此,我们并不认为有必要进行彻底的重新设计,这也与简历的理念相矛盾,即过时的术语必须永远保留在简历中,以便所有现有的数据文件仍然保持可复制性。当然,由于技术的发展,可能有必要拆分分支或术语,例如在医学领域,非甲非乙型肝炎的术语已经过时,必须由C、D和E病毒引起的肝炎形式取代。在这种情况下,这当然意味着由公共存储库的软件程序各自管理员来解释和处理相应的问题。在现有的数据文件或数据库中正确更新这些过时的术语,因为这无法自动完成。
基金
G.M.、J.A.V.、A.R.J.和P.A.B.由欧盟项目ProteomeXchange资助(http://www.proteomexchange.org,欧盟FP7批准号260558). J.A.V.也得到了Wellcome信托基金的支持(授予编号WT085949MA型). P.A.B.也由瑞士联邦政府通过联邦教育和科学办公室提供资金。M.E.由P.U.R.E.资助(网址:http://www.pure.rub.de(欧洲研究蛋白质单位),德国联邦州Nordrhein-Westfalen的项目。F.L.由瑞典研究委员会通过BILS基础设施提供支持。A.R.J.也承认英国BBSRC的资助(BB/I000909/1号; 和BB/H024654/1号). E.W.D.部分由NIGMS拨款资助R01 GM087221; 和第50页GM076547/系统生物学中心,以及卢森堡系统生物医学中心和卢森堡大学。
利益冲突。未申报。
致谢
纪念Andreas Bertsch是PSI-PI小组的前本体论协调员,他过早去世。我们还要感谢多年来PSI-MS CV的所有前任协调员和贡献者。
工具书类
1Yang Y,Adelstein SJ,Kassis AI.数据挖掘方法中的目标发现。药物研发。今天。2012;17(补充):S16–S23。[公共医学][谷歌学者] 2Vizcaíno JA、CotéR、Reisinger F等。蛋白质组学鉴定数据库:2010年更新。核酸研究。2010;38:D736–D742。 [PMC免费文章][公共医学][谷歌学者] 三。Martens L、Chambers M、Sturm M等。mzML——质谱数据的社区标准。分子细胞蛋白质组学。2011;10:R110000133。 [PMC免费文章][公共医学][谷歌学者] 4.Deutsch EW、Chambers M、Neumann S等。TraML——交换选定反应监测过渡清单的标准格式。分子细胞蛋白质组学。2012;11:R111.015040。 [PMC免费文章][公共医学][谷歌学者] 5Holman SW、Sims PF、Eyers CE。定量蛋白质组学中选择性反应监测的应用。生物分析。2012;4:1763–1786.[公共医学][谷歌学者] 6Jones AR、Eisenacher M、Mayer G等。基于质谱的蛋白质组学结果的mzIdentML数据标准。分子细胞蛋白质组学。2012;11:M111.014381。 [PMC免费文章][公共医学][谷歌学者] 8Schramm T、Hester A、Klinkert I等。imzML是一种通用的数据格式,用于灵活交换和处理质谱成像数据。蛋白质组学杂志。2012;75:5106–5110.[公共医学][谷歌学者] 9Jones AR,Paton西北。功能基因组数据的可扩展建模分析。BMC生物信息学。2005;6:235. [PMC免费文章][公共医学][谷歌学者] 10Taylor CF、Paton NW、Lilley KS等。蛋白质组学实验(MIAPE)的最低信息自然生物技术。2007;25:887–893.[公共医学][谷歌学者] 11Rodriguez H、Snyder M、Uhlen M等,《2008年蛋白质组学数据发布和共享政策国际峰会的建议:阿姆斯特丹原则》。蛋白质组研究杂志。2009;8:3689–3692. [PMC免费文章][公共医学][谷歌学者] 12Montecchi Palazzi L,Kerrien S,Reisinger F等。PSI语义验证器:一个检查蛋白质组学数据MIAPE依从性的框架。蛋白质组学。2009;9:5112–5119.[公共医学][谷歌学者] 13.皮尔逊WR。利用FASTA3程序包进行灵活的序列相似性搜索。方法分子生物学。2000;132:185–219.[公共医学][谷歌学者] 14Wilhelm M、Kirchner M、Steen JA、Steen H.mz5:质谱数据集的时空高效存储。分子细胞蛋白质组学。2012;11:O111.011379。 [PMC免费文章][公共医学][谷歌学者] 15.Orchard S、Jones P、Taylor C等。蛋白质组数据交换和存储:对通用标准和公共存储库的需求。方法分子生物学。2007;367:261–270.[公共医学][谷歌学者] 16Pedrioli PG、Eng JK、Hubley R等。质谱数据的通用开放表示及其在蛋白质组学研究中的应用。自然生物技术。2004;22:1459–1466.[公共医学][谷歌学者] 17Day-Richter J、Harris MA、Haendel M、Lewis S.OBO-Edit,生物学家本体论编辑。生物信息学。2007;23:2198–2200.[公共医学][谷歌学者] 18Gkoutos GV,Schofield PN,Hoehndorf R.单位本体:一种整合科学测量单位的工具。数据库(牛津)2012;2012:bas033。 [PMC免费文章][公共医学][谷歌学者] 19Gallien S、Duriez E、Domon B。蛋白质组学中的选择性反应监测。J.质谱。2011;46:298–312.[公共医学][谷歌学者] 20Kiyonami R,Domon B.选择性反应监测应用于定量蛋白质组学。方法分子生物学。2010;658:155–166.[公共医学][谷歌学者] 21Geiger T,Wisniewski JR,Cox J,et al.将细胞培养中氨基酸的稳定同位素标记用作定量蛋白质组学的尖峰标准。国家协议。2011;6:147–157.[公共医学][谷歌学者] 22.Dudoit S、Shaffer JP、Boldrick JC。微阵列实验中的多重假设检验。统计科学。2003;18:71–103. [谷歌学者] 23Scheer M、Grote A、Chang A等。BRENDA,2011年酶信息系统。核酸研究。2011;39:D670–D676。 [PMC免费文章][公共医学][谷歌学者] 24Smith B、Ceusters W、Klagges B等。生物医学本体论中的关系。基因组生物学。2005;6:R46。 [PMC免费文章][公共医学][谷歌学者] 25Noy NF、Shah NH、Whetzel PL等。生物门户:鼠标点击时的本体论和集成数据资源。核酸研究。2009;37:W170–W173。 [PMC免费文章][公共医学][谷歌学者] 26Degtyarenko K、de Matos P、Ennis M等。ChEBI:生物感兴趣的化学实体的数据库和本体。核酸研究。2008;36:D344–D350。 [PMC免费文章][公共医学][谷歌学者] 27.王毅,肖杰,苏泽克·TO,等。公共化学:一个分析小分子生物活性的公共信息系统。核酸研究。2009;37:W623–W33。 [PMC免费文章][公共医学][谷歌学者] 28Rocca-Serra P、Brandizi M、Maguire E等。ISA软件套件:支持符合标准的实验注释并支持社区级的管理。生物信息学。2010;26:2354–2356. [PMC免费文章][公共医学][谷歌学者] 29Jonquet C,Shah NH,Musen MA。开放式生物医学解说员。翻译峰会。生物信息。2009;2009:56–60. [PMC免费文章][公共医学][谷歌学者] 30Jonquet C、Lependu P、Falconer S等。NCBO资源索引:基于本体的生物医学资源搜索和挖掘。Web Semant。2011;9:316–324. [PMC免费文章][公共医学][谷歌学者] 31Adamusiak T、Burdett T、Kurbatova N等。OntoCAT——Java、R和REST/JavaScript中的简单本体搜索和集成。BMC生物信息学。2011:12. [PMC免费文章][公共医学][谷歌学者] 32Ferry-Dumazet H,Gil L,Deborde C,et al.MeRy-B:一个用于存储、可视化、分析和注释植物核磁共振代谢组学剖面的网络知识库。BMC植物生物学。2011;11:104. [PMC免费文章][公共医学][谷歌学者] 33Plumb RS、Johnson KA、Rainville P等,UPLC/MSE;一种用于生物标志物结构解释的分子片段信息生成新方法(vol 20,pg 19892006)快速通讯。质谱。2006;20:2234–2234.[公共医学][谷歌学者] 34Holcapek M、Jirasko R、Lisa M。液相色谱-质谱及相关技术的最新发展。J.色谱法。答:。2012;1259:3–15.[公共医学][谷歌学者] 35杨素江,聂艾,张磊,等。一种新的等压末端标记定量蛋白质组学工作流程。蛋白质组学杂志。2012;75:5797–5806.[公共医学][谷歌学者] 36基于Roepstorff P.质谱的蛋白质组学,背景,现状和未来需求。蛋白质细胞。2012;三:641–647. [PMC免费文章][公共医学][谷歌学者] 37Koek MM,Jellema RH,van der Greef J等。基于气相色谱-质谱的定量代谢组学:现状和展望。代谢组学。2011;7:307–328. [PMC免费文章][公共医学][谷歌学者] 38Sansone SA、Fan T、Goodacre R等。代谢组学标准倡议。自然生物技术。2007;25:846–848.[公共医学][谷歌学者] 39张安,孙华,王平,等。代谢组学分析中的现代分析技术。分析师。2012;137:293–300.[公共医学][谷歌学者]