结晶数据

AsCA 2018年

MS15:数据库开发、验证和数据挖掘

新西兰奥克兰,2018年12月4日

在亚洲晶体学协会的会议上,首次举行了一次关于数据相关主题的微型专题讨论会,由剑桥晶体学数据中心的Amy Sarjeant和世界数据银行的日本合作伙伴PDBj的Genji Kurisu主持。会议很好地概述了一些主要晶体学研究数据库的当前发展,并提醒观众正确的数据管理和存档对执业科学家的重要性与日俱增。

[发言人]

演讲者和主席:艾米·萨杰恩(Co-Chair)、斯蒂芬·伯雷(Stephen Burley)、詹姆斯·海斯特(James Hester)、马修·莱特富特(Matthew Lightfoot)、珍妮特·纽曼(Janet Newman)、布莱恩·麦克马洪(Brian McMahon)、川端武(Takeshi Kawabata)、根吉·库里苏(Genji Kurisu)。

珍妮特·纽曼(Janet Newman)讨论了结晶条件和筛选数据库,该数据库可用于指导蛋白质和其他生物大分子的结晶活动。川端武介绍了PDBj正在开发的服务,以支持研究人员使用低温电子显微镜进行大分子结构研究。Stephen Burley报告了蛋白质数据库中改进配体结构验证的进展。Matthew Lightfoot介绍了剑桥结构数据库用户在沉积和访问方面的一些最近和正在进行的发展。会议以两篇文章结束,这两篇文章说明了IUCr密切参与数据管理和表征:James Hester讨论了开发软件的方法,用于在任何充分表征的数据集中自动验证和评估数据关系,而Brian McMahon介绍了过去三十年IUCr参与的数据项目。其中包括CIF项目,以及最近对常规沉积X射线衍射图像和其他实验原始数据的情况的考虑。

计划

2018年12月4日星期二

MS 15:数据库开发、验证和数据挖掘

14:00-14:15 詹姆斯·海丝特 什么是数据集? 摘要|演示 (9.4 MB)

[詹姆斯·海丝特]

詹姆斯·海丝特1
1ANSTO,Locked Bag 2001,Kirrawee DC,澳大利亚2232

现在有几个广为接受的标准,使得查找和引用数据集变得简单。然而,在找到数据集后,应用软件通常无法确定如何处理数据集或数据是否适合其任务,特别是考虑到数据可能以各种格式和安排存储,并进行分割或聚合。如果数据集是由几个独立的数字对象组成的,那么就没有标准的、基于计算的方法来描述它们与计算机的关系。这些问题和其他问题都很容易让人根据具体情况进行编程,但目前缺乏支持自动处理的通用框架。

任何数据集的内容都可以建模为关系表的集合[1]。这些表的列的一组机器可读的定义(例如CIF字典提供的定义)可以提供对数据集执行计算所需的所有信息。如果完成任务所需的列集可用或可以从其余数据中计算,则数据集是完整的。因此,特定的用例相当于列列表。

应用软件通过一个接口访问数据,该接口使用共享的标准本体以关系形式显示数据,以命名列。通过请求特定列,软件可以立即确定数据集是否适合其需要。集成多个不同的数据blob相当于在表中填充块。

[1] Hester,J.R.(2016)“一个稳健、形式无关的科学数据传输框架”,数据科学杂志 15,第12页DOIhttps://doi.org/10.5334/dsj-2016-012

(隐藏| 全部隐藏)
     
14:15-14:40 珍妮特·纽曼 结晶数据-答案遥不可及 摘要|演示 (370万)

[珍妮特·纽曼]

珍妮特·纽曼1文森特·法齐奥2,亚历克斯·卡萨波夫2、马可·里斯蒂克1尼古拉·罗莎1和卢克·托本1
1CSIRO生物医学制造公司,343 Royal Parade,Parkville,Vic 3054,澳大利亚
2澳大利亚维多利亚州3169克莱顿南部CSIRO科学计算私人包10

大多数使蛋白质(或任何大分子)结晶的尝试都是从将蛋白质置于一个或多个商用屏幕上开始的。结晶筛有很多供应商,每个供应商都销售许多不同的筛。浏览可用的内容和每个屏幕包含的内容是很有挑战性的,而且在供应商之间比较产品几乎是不可能的,因为没有关于如何描述具体化数据的标准。我们为结晶实验创建了一个明确的词汇表,并实现了两种结晶条件之间的“距离”概念。这使我们能够建立结晶条件和筛网的数据库,并搜索筛网、条件、化学品或相似性。可以通过网站访问此信息c6.csiro.au公司。该网络工具可用于指导结晶活动,包括初始搜索和优化实验,并将提供结晶过程中如何使用该工具的建议。

(隐藏| 全部隐藏)
     
14:40-14:55 马修·莱特福特 剑桥结构数据库-沉积和访问的发展 摘要|演示 (4.8 MB)

[Matthew Lightfoot]

马修·P·莱特福特1和苏珊娜·沃德1
1英国剑桥CB2 1EZ联合路12号剑桥晶体数据中心

在过去几年中,CCDC开发了各种服务,以尽可能方便地存储和访问小分子晶体结构数据,本演示将重点介绍其中的一些发展。我们存款服务的最新变化使存款人能够轻松存款、查看和管理其数据。本次演讲将详细介绍其中的一些变化,包括跨机构共享数据的能力和发展,以确保晶体学家的工作得到认可。以及这些最近的变化,我们将讨论我们寻求进一步发展这些服务的方式。

CCDC的一个重要领域是数据质量和完整性,我们将探索我们的验证检查和新的存款指导原则,旨在帮助存款人,并帮助提高存放在CCDC的数据的质量和完整。我们还将讨论越来越多地使用数据出版物,特别是CSD通信,作为直接共享数据的方式,以及我们如何确保数据出版物的增长不会对CSD的质量产生负面影响。

我们将通过强调最近为整合和链接其他数据资源所做的努力来结束本次演示,包括我们最近与FIZ Karlsruhe的合作,该合作促成了所有化学领域结晶数据的联合沉积和访问服务的启动。我们将展示这些新服务如何使研究人员能够通过单一沉积门户共享数据,并在全球范围内免费访问所有化学结构。

(隐藏| 全部隐藏)
     
14:55-15:20 斯蒂芬·伯利 蛋白质数据库配体验证 摘要|演示 (4.2 MB)

[Stephen K.Burley]

史蒂芬·K·伯里1,2
1RCSB PDB,美国新泽西州皮斯卡塔韦市新泽西州立大学罗格斯定量生物医学研究所,邮编08854
2RCSB PDB,美国加利福尼亚大学圣地亚哥分校斯卡格斯药学院和圣地亚哥超级计算机中心,加利福尼亚州拉霍亚市,邮编92093

蛋白质数据库(PDB)是生物大分子实验确定的3D结构的全球存储库。它由全球蛋白质数据库(wwPDB,网址:www.pdb.org). 除了生物聚合物结构数据外,PDB化学成分词典(CCD)还对小分子配体进行了分类,包括标准氨基酸和核苷酸的IUPAC原子命名法、立体化学分配、键序分配、实验模型和计算的理想坐标、系统名称和化学描述符。准确了解大分子和小配体之间的相互作用对于我们理解生物功能、药物作用、耐药性机制和药物相互作用至关重要。

wwPDB OneDep系统支持PDB数据沉积、验证和生物化。OneDep使用与专家工作组制定的标准生成验证报告。对于X射线结构,使用实际空间R因子(RSR和RSR Z分数)定量评估配体与电子密度差异图的匹配。在OneDep内,制作了三维电子密度差图,供专家审查。对于已发布的结构,可以从RCSB PDB结构摘要页面访问绑定配体的预计算电子密度差异图和wwPDB验证报告。

2015年配体验证研讨会产生了旨在进一步改进PDB配体结构验证的社区建议(Adams等。2016;结构 24, 502-508). 将报告这些建议的实施进展情况,以及对《CCD》和《wwPDB验证报告》的不断改进。

wwPDB成员包括RCSB PDB(由NSF、NIH和DOE支持)、PDBe(EMBL-EBI、Wellcome Trust、BBSRC、MRC和EU)、PDBj(NBDC-JST)和BMRB(NIGMS)。

(隐藏| 全部隐藏)
     
15:20-15:35 川端武 PDBj电子显微镜数据库和Web服务 摘要|演示 (5.0 MB)

[川端武]

川端武1,铃木博文1和Genji Kurisu1
1日本大阪大阪大学蛋白质研究所

近年来,低温电子显微术已成为解决原子三维结构的有力技术。日本蛋白质数据库(PDBj)为支持电子显微镜研究人员提供了几个WEB数据库和服务。数据库“EM navigator”提供了存储在EMDB(电子显微镜数据库)中的3D密度图的用户友好视图。“Omokage搜索”服务使我们能够通过用户提供的查询地图或模型搜索具有类似形状的3D地图或原子模型。“gmfit”服务通过WEB在3D地图和原子模型之间提供拟合计算。由于密度近似表示为高斯混合模型,因此计算速度很快。gmfit程序经过改进,可以使用掩蔽函数仅在3D地图的子空间中执行原子模型的部分拟合。使用高斯函数的螺旋线检测程序几乎可以打开了。最后,我们现在宣布EMPIAR数据库(电子显微镜公共档案)的镜像站点在日本开放(https://empiar.pdbj.org). EMPIAR是EMBL-EBI开发的二维电子显微镜图像的公共资源。一组二维图像是重建三维密度图的原始实验数据,其文件大小相当大:平均文件大小约为500 GB。尽管这些2D图像处理起来非常大,但它们对于验证3D地图、加强图像处理软件的开发以及教育和培训EM用户都是必要的。我们现在正准备开放位于PDBj的EMPIAR沉积场地。

(隐藏| 全部隐藏)
     
15:35-16:00 布莱恩·麦克马洪 信任的要素:验证和评估晶体学数据 摘要|演示 (4.9 MB)

[布莱恩·麦克马洪]

布莱恩·麦克马洪1约翰·赫利维尔(John R.Helliwell)2和詹姆斯·海斯特
1国际结晶学联合会,英国切斯特CH1 2HU修道院广场5号。电子邮箱:bm@iucr.org
2英国曼彻斯特M13 9PL曼彻斯特大学化学学院
澳大利亚核科技组织,澳大利亚新南威尔士州卢卡斯高地新伊拉瓦拉路2234号

IUCr鼓励数据管理方面的最佳实践,并通过自己的期刊和与结构数据库的合作进行数据验证。其结晶信息框架(CIF)提供了精确的数据定义,并导致了用于测试衍生结构模型合理性的自动标准(checkCIF)。许多期刊和数据库都使用这些小分子结构的程序。(反过来,PDB验证报告在IUCr生物期刊的审查过程中进行检查。)许多期刊和数据库还要求结构因子或其他基础数据,以便进行更详细的验证。注意力现在从处理过的实验数据转移到原始数据。IUCr的一个工作组探讨了定期沉积原始衍射图像的想法。存储如此庞大的数据量一度非常昂贵,但技术的改进克服了这一缺点。关于图像沉积的科学价值,目前仍存在争议,但研讨会和出版物通过对潜在科学效益的详细分析为讨论提供了信息(DDDWG,2017)。原始数据集的验证将涉及图像数据的特征描述(使用基于imgCIF的数据名称)和基本元数据的正式要求,以允许解释单个图像。在国际自然保护联盟数据和资本投资基金委员会(CommDat和COMCIFS)的支持下,正在努力实现这些要求。最近升级的CIF规范促进了DDLm,这是一种机器可读的数据项之间关系的描述,可以自动生成用于测试和评估这种关系的软件方法。这将进一步确保发布和保存的晶体数据的完整性。

参考:DDDWG(2017)。衍射数据沉积工作组的最终报告。http://forums.iucr.org/viewtopic.php?f=21&t=396

(隐藏| 全部隐藏)