摘要
背景
结果
结论
背景
方法
第1部分:层次分类结构
组件2——化学类词典
组件3——分类算法
将其他分类模式和词汇映射到ClassyFire的分类法
分类过程
步骤1-创建和预处理化学实体
步骤2-特征提取
步骤3-基于规则的类别分配和类别缩减
第4步——选择直属母公司
培训和评估
结果和讨论
ClassyFire分类结果评估
比较自动注释和手动注释
限制
用例
示例1:PubChem数据库的分类
示例2:快速搜索和数据检索
示例3:自动化学注释
结论
缩写
CSV(共赢价值): -
逗号分隔的值 IUPAC公司: -
国际纯化学与应用化学联合会 JSON格式: -
JavaScript对象表示法 SDF(可持续发展基金): -
结构数据文件 微笑: -
简化分子输入线谱系统(SMILES)
工具书类
Fridman Noy N,Hafner CD(1997)本体设计的最新技术。 AI杂志18:53–74 Gruber TR(1995)关于用于知识共享的本体设计原则? Int J人类计算螺柱43(5-6):907–928 Hoehndorf R、Schofield PN、Gkoutos GV(2015)《本体论在生物和生物医学研究中的作用:功能视角》。 生物信息简介16(6):1069–1080 Cain AJ(1958)林奈分类学体系中的逻辑和记忆。 Linn Soc Lond程序169:114–163 英国地质调查局岩石分类计划(2016年) 网址:http://www.bgs.ac.uk/bgsrcs/ 。2013年4月20日查阅 Gell-Mann M,Ne'eman Y(1964)《八重路》。 W.A.Benjamin,纽约 Malyuto V,Shvelidze T(1989)使用逐步线性回归自动定量恒星光谱分类技术。 天体物理学空间科学155(1):71–83 Singh HP、Gulati RK、Gupta R(1998)《利用主成分分析和人工神经网络进行恒星光谱分类》。 Mon Not R Astron Soc蒙诺·拉斯顿学院295(2):312–318 解剖治疗化学(ATC)(2011)分类系统:结构和原理。 http://www.whocc.no/atc/structure_and_principles/ 。2013年4月20日查阅 Ashburner M、Ball CA、Blake JA、Botstein D、Butler H、Cherry JM等人(2000)《基因本体论:生物学统一的工具》。 《自然遗传学》25(1):25–29 Favre HA,Powell WH(eds)(2013)《有机化学命名》。 IUPAC建议和首选名称2013。 http://www.acdlabs.com/iupac/nomenclature/ed。 英国皇家化学学会; 2013 Weininger D(1988)SMILES,一种化学语言和信息系统。 1.方法和编码规则介绍。 化学信息与计算科学杂志28:31–36 Fahy E、Subramaniam S、Murphy RC、Nishijima M、Raetz CRH、Shimizu T等人(2009年)《脂质脂类脂类MAPS综合分类系统的更新》。 《脂质研究杂志》50:S9–S14 Fliri AF、Loging WT、Thadeio PF、Volkmann RA(2005)《生物光谱分析:将生物活性特征与分子结构联系起来》。 美国国家科学院院刊102(2):261–266 Hastings J、De Matos P、Dekker A、Ennis M、Harsha B、Kale N等人(2013)《生物相关化学的ChEBI参考数据库和本体:2013年增强》。 核酸研究41(D1):D456–D463 Rogers FB(1963)医学主题标题。 公牛医疗自由协会51:114–116 Moreno P、Beisken S、Harsha B、Muthukrishnan V、Tudose I、Dekker A等人(2015)BiNChE:基于ChEBI本体论的化学富集分析网络工具和库。 BMC生物信息16(1):56 Zhukova A,Sherman DJ(2014)代谢模型的基于知识的概括。 计算机生物学杂志21(7):534–547 Kim S、Thiessen PA、Bolton EE、Chen J、Fu G、Gindulyte A等(2016)PubChem物质和化合物数据库。 核酸研究44(D1):D1202–D1213 德温特世界专利索引参考信息(2016)。 http://ip-science.thomsonreuters.com/support/patents/dwpiref/ Bremser W(1978)Hose-一种新的子结构代码。 《Ana Chim Acta》103(4):355–365 Feldman HJ,Dumoniter M,Ling S,Haider N,Hogue CWV(2005)CO:用于识别功能群和小分子语义比较的化学本体。 FEBS快件579(21):4685–4691 Haider N(2016)checkmol/matchmol主页。 http://merian.pch.univie.ac.网址:/ ~nhaider/cheminf/cmm.html Bobach C,Böhme T,Laube U,Püschel A,Weber L(2012)使用化学本体的自动化合物分类。 化学信息学杂志4(12):40 Vargyas M,Papp J,Csizmadia F,Csepregi S,Pappsá,Vadász P(2008)基于最大公共子结构的层次聚类。 http://www.chemason.com/library/maximum-common-substructure-based-hierarchical-clustering-2/ Rahman SA、Bashton M、Holliday GL、Schrader R、Thornton JM(2009)小分子子图检测器(SMSD)工具包。 化学信息学杂志1(1):12 Ertl P,Schuffenhauer A,Renner S(2011)脚手架树:脚手架宇宙中的有效导航。 分子生物学方法672:245–260 Chepelev LL、Hastings J、Ennis M、Steinbeck C、Dumoniter M(2012)《生物化学相关小分子的自组织本体论》。 BMC生物信息13:3 Hastings J、Magka D、Batchelor C、Duan L、Stevens R、Ennis M等人(2012),化学中基于结构的分类和本体论。 化学信息学杂志4:8 Law V,Knox C,Djoumbou Y,Jewison T,Guo AC,Liu Y等(2014)DrugBank 4.0:药物代谢的新视角。 核酸研究42(D1):D1091–D1097 LIPID MAPS Lipidomics Gateway(2011)2016年由国家普通医学科学研究所赞助的免费资源。 http://www.lipidmaps.org/ Wishart DS、Jewison T、Guo AC、Wilson M、Knox C、Liu Y等人(2013)HMDB 3.0——2013年人类代谢组数据库。 核酸研究41(D1):D801–D807 Smith B、Ashburner M、Rosse C、Bard J、Bug W、Ceusters W等人(2007)《海外建筑运营管理局铸造:本体的协调进化以支持生物医学数据集成》。 国家生物技术25(11):1251–1255 Day-Richter J、Harris MA、Haendel M、Clark JI、Ireland A、Lomax J等人(2007)OBO-edit-生物学家本体编辑。 生物信息学23(16):2198–2200 Goodacre SC、Street LJ、Hallett DJ、Crawforth JM、Kelly S、Owens AP等(2006)咪唑啉[1,2-a]嘧啶作为功能选择性和口服生物可利用的GABAAa2/a3结合位点激动剂,用于治疗焦虑症。 医学化学杂志49(1):35–38 Markush Technology(2016)用于分析虚拟组合库和Markush结构的工具包。 https://www.chemason.com/products/markush-ip/ 国家普通医学科学研究所(2016) https://www.nigms.nih.gov/Pages/default.aspx 国家卫生研究所(2016) https://www.nih.gov/ Lowe DM、Corbett PT、Murray-Rust P、Glen RC(2011),结构的化学名称:OPSIN,一种开源解决方案。 化学信息杂志模型51(3):739–753 介绍JSON(2012)ECMA-404 JSON数据交换标准。 http://www.json.org Dalby A、Nourse JG、Douglas HounshellW、Gushrst AKI、Grier DL、Leland BA等人(1992)分子设计有限公司开发的计算机程序使用的几种化学结构文件格式的描述。 化学信息与计算科学杂志32(3):244–255 Shafranovich Y(2005)逗号分隔值(CSV)文件的通用格式和MIME类型。 http://www.ietf.org/rfc/rfc4180.txt第页 -1 Wishart DS(2014)《食品数据库:食品数据库》。 FooDB 1.0版。 网址:http://foodb.ca Wishart D、Arndt D、Pon A、Sajed T、Guo AC、Djoumbou Y等(2015)T3DB:有毒污染物数据库。 核酸研究43(D1):D928–D934 Kanehisa M、Sato Y、Kawashima M、Furumichi M、Tanabe M(2016)KEGG作为基因和蛋白质注释的参考资源。 核酸研究44(D1):D457–D462 Caspi R、Altman T、Dreher K、Fulcher CA、Subhraveti P、Keseler IM等人(2012)代谢途径和酶的MetaCyc数据库以及途径/基因组数据库的BioCyc集合。 核酸研究40(D1):D742–D753 PubMed Health[互联网](2011)Bethesda(医学博士):美国国家医学图书馆。 2011年1月1日。 http://www.ncbi.nlm.nih.gov/pubmedhealth网站/ 端到端搜索和分析平台(2015年),功能无限。 http://www.elasticsearch.org/overview/ Guo AC、Jewison T、Wilson M、Liu Y、Knox C、Djoumbou Y等(2013)ECMDB:大肠杆菌代谢组数据库。 核酸研究41(D1):D625–D630 Jewison T、Knox C、Neveu V、Djoumbou Y、Guo AC、Lee J等(2012)YMDB:酵母代谢组数据库。 核酸研究40:D815–D820
作者的贡献
致谢
竞争性利益
可用性和要求
-
项目名称:ClassyFire -
项目主页: -
操作系统:独立于Web服务器平台。 API-Windows、Linux、MacOS -
编程语言:Ruby、Ruby on Rails -
非学者免费使用的任何限制。在web服务器上运行或访问结果无需登录。
基金
作者信息
作者和附属机构
通讯作者
其他文件
13321_2016_174_MOESM6_ESM.pdf
权利和权限