跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2023年8月19日;14(1):5045.
doi:10.1038/s41467-023-40782-0。

DECIMER.ai:科学出版物中自动化光化学结构识别、分割和识别的开放平台

附属公司

DECIMER.ai:科学出版物中自动化光化学结构识别、分割和识别的开放平台

科胡兰·拉詹等。 国家公社. .

勘误表in

摘要

过去几十年来,描述化学结构的出版物数量稳步增加。然而,大多数已发布的化学信息目前无法在公共数据库中以机器可读的形式提供。以较少人工干预的方式自动化信息提取过程仍然是一个挑战,尤其是化学结构描述的挖掘。作为一个开源平台,DECIMER.ai(deep lLearning for Chemical IMagE Recognition)利用了深度学习、计算机视觉和自然语言处理方面的最新进展,致力于自动分割、分类和翻译印刷文献中的化学结构描述。分割和分类工具是同类产品中唯一公开可用的软件包,而光化学结构识别(OCSR)核心应用程序在所有基准数据集上都具有出色的性能。在这项工作中开发的源代码、经过训练的模型和数据集都是在许可证下发布的。DECIMER web应用程序的实例位于https://decimer.ai(英文) .

PubMed免责声明

利益冲突声明

A.Z.是德国多特蒙德GNWI-Gesellschaft für naturwissenschaftliche Informatik mbH的联合创始人。其余作者声明没有财务和非财务竞争利益。

数字

图1
图1。集成DECIMER工作流概述:科学文献中化学结构描述的检测、分割和解释。
科学出版物被转换为高分辨率PNG图像,分割工具从转换的图像中检测和分割化学结构描述,图像分类器检查分割的图像是否包含化学结构描述,最后检查机器可读结构(SMILES)使用Image Transformer从化学结构描述中创建。
图2
图2。表示训练和测试数据集以及域内测试结果中的图像类型。
A类没有增强的图像,B类带有增强的图像,C马库什结构的非增强描绘,D类马库什构造和E类域内测试结果:训练数据集包括对Markush结构的描述和各种图像增强(补充表1中的数据集pubchem_3)。在测试数据集中,分别评估这些特征以评估其对性能的影响。所有域内测试结果也显示在补充表2中。
图3
图3。开放式OCSR工具在所有基准数据集上的平均性能。
成功率用完美预测和平均Tanimoto相似性的比例来描述,而失败率用Tanimoton相似性为零的预测加上无效预测(灾难性)的百分比来衡量以及具有小于或等于0.3的低谷本相似性值的预测的百分比(严重)。A类无附加失真的数据集的成功率。B类具有附加畸变的数据集的成功率。C数据集的故障率,不增加失真。D类具有附加畸变的数据集的故障率。
图4
图4。手绘分子和合成手绘类图像的比较。
手工绘制的分子表示DECIMER手绘图像数据集(PubChem ID:31743[https://pubchem.ncbi.nlm.nih.gov/compound/31743],左)和使用RanDepict创建的相应合成手绘图像(中,右)。
图5
图5。已加载到DECIMER web应用程序中的Markush结构的示例图像(在左侧)。
生成分子的SMILES字符串表示(左上角),并在嵌入的Ketcher分子编辑器窗口(右侧)中进行描述。
图6
图6。DECIMER.ai在第17届德国化学信息学会议上通过智能手机使用。
破译的结构可以立即在PubChem中搜索,PubChem是最大的公开化学数据库。
图7
图7。评估培训数据中R组指标的表示效果。
测试在不做进一步修改的情况下使用SMILES字符串训练的模型(模型1)和使用替换的R组索引训练的SMILES串(模型2)的性能。

类似文章

引用人

  • 使用ChemSAM从文档中自动分割分子结构。
    唐B,牛Z,王X,黄J,马C,彭J,江Y,葛R,胡H,林L,杨G。 Tang B等人。 《化学杂志》。2024年3月12日;16(1):29. doi:10.1186/s13321-024-00823-2。 《化学杂志》。2024 PMID:38475916 免费PMC文章。
  • YoDe-Segmentation:从科学出版物中自动无噪音检索分子结构。
    周C、刘伟、宋X、杨M、彭X。 周C等。 《化学杂志》。2023年11月20日;15(1):111. doi:10.1186/s13321-023-00783-z。 《化学杂志》。2023 PMID:37986007 免费PMC文章。
  • 2024年IUPHAR/BPS药理学指南。
    Harding SD、Armstrong JF、Faccenda E、Southan C、Alexander SPH、Davenport AP、Speding M、Davies JA。 Harding SD等人。 《核酸研究》2024年1月5日;52(D1):D1438-D1449。doi:10.1093/nar/gkad944。 核酸研究2024。 PMID:37897341 免费PMC文章。
  • 化学信息学微服务:统一访问开放化学信息学工具包。
    Chandrasekhar V、Sharma N、Schaub J、Steinbeck C、Rajan K。 Chandrasekhar V等人。 《化学杂志》。2023年10月16日;15(1):98. doi:10.1186/s13321-023-00762-4。 《化学杂志》。2023 PMID:37845745 免费PMC文章。

工具书类

    1. Brinkhaus HO、Rajan K、Schaub J、Zielesny A、Steinbeck C.人工智能驱动的分子信息学开放科学的开放数据和算法。货币。操作。结构。生物.2023;79:102542. doi:10.1016/j.sbi.2023.102542。-内政部-公共医学
    1. Herres-Pawlis S、Liermann JC、Koepler O。化学研究数据——第一次NFDI4Chem社区调查的结果。Z.Anorg.Allg.公司。化学。2020年;646:1748–1757. doi:10.1002/zaac.202000339。-内政部
    1. Steinbeck C等人。NFDI4致力于在德国建立国家化学研究数据基础设施。Riogrande齿科。2020年;6:e55852。
    1. NFDI4化学。nmrXiv-Open、FAIR和Consensus-Driven核磁共振波谱数据存储库和分析平台。nmrXiv-Open、FAIR和Consensus-Driven核磁共振波谱数据仓库和分析平台。网址:https://nmrxiv.org/(2022).
    1. Kearnes SM等人。开放反应数据库。美国化学杂志。2021年夏季;143:18820–18826. doi:10.1021/jacs.1c09820。-内政部-公共医学