结晶数据

关于的研讨会X射线衍射和其他结构技术原始数据的元数据

节目手册pdf格式

2015年8月22日星期六至8月23日星期日

克罗地亚罗文杰阿鲁皮努姆大厅酒店公园

这一为期两天的研讨会由DDD工作组(WG)组织,该工作组由IUCr执行委员会任命,以确定在X射线衍射和相关实验中常规沉积初级实验数据的必要性和实用性。它将采用第29届欧洲晶体学会议为期两天的卫星会议的形式,由晶体学从业人员、数据管理专家和标准维护人员进行讲座。

目标:作为IUCr衍射数据保存工作组持续活动的一部分,本研讨会将寻求定义需要与实验衍射图像一起捕获和保存的必要元数据,以便随后在更详细的科学研究中重新评估或重新使用这些原始数据。研讨会还将探讨晶体学家使用的其他结构实验技术的元数据要求。

有一个公共论坛,用于讨论本次研讨会涉及的问题http://forums.iucr.org(可在下面的“论坛”选项卡中查看)。

致谢:由于本次研讨会的范围已经从最初的概念扩大,我们非常感谢各研究机构和大学以及CODATA派遣其员工参加此次活动。我们非常感谢Dectris、IUC Journals、CODATA、剑桥晶体数据中心、Bruker、FIZ Karlsruhe/ICSD、Oxford Cryosystems和Wiley以及IUCr为技术服务和相关人员成本提供的支持。我们也非常感谢克罗地亚晶体学家协会在确保举办尽可能最好的研讨会以解决这一重要主题方面提供的积极帮助。

计划

8月22日星期六

10:00 正常开放

第一部分:介绍

10:00-10:05 John R.Helliwell和Brian McMahon 介绍和欢迎  
10:05-10:20 约翰·赫利维尔 IUCr衍射数据沉积工作组活动最新情况 摘要|演示 (1.26 MB)

[J.R.Helliwell]

约翰·赫利维尔1和Brian McMahon2
1英国曼彻斯特大学化学学院,M13 9PL。电子邮件:john.helliwell@manchester.ac.uk
2IUCr,5 Abbey Square,Chester CH1 2HU,UK。电子邮件:bm@iucr.org

本次研讨会是继2012年卑尔根衍射数据沉积研讨会之后的又一次研讨会(http://www.iucr.org/resources/data/dddwg/bergen-workshop)以及在ECM28(U.Warwick,UK;参见http://forums.iucr.org/viewtopic.php?t=332)和IUCr大会(加拿大蒙特利尔;http://forums.iucr.org/viewtopic.php?t=347). 卑尔根研讨会确定,需要对原始衍射数据的元数据的现行做法进行彻底审查,以及利用这种审查促进非衍射研究中改进元数据表征和处理的可能性。本次研讨会将满足这两个要求。

在更广泛的场景中,“开放数据”作为研究出版物的要求正在加速,无论是衍生、处理还是原始数据。晶体学作为一个领域,在实现“开放数据”方面与天文学和粒子物理学等其他领域相比很好,每个领域都发现原始数据归档具有挑战性,尤其是射电天文学中的平方公里阵列(SKA),因为原始数据显然是最丰富的。然而,单单销量并不是最大的挑战。必须正确描述存储的原始数据,以便评估和理解其价值和可靠性,并且无论是否与正式出版物相关,其他研究人员都必须能够发现和重用单个数据集。这就是元数据发挥关键作用的地方。

我们讨论了在卑尔根实现原始数据归档的技术选项,并支持数据集物理位置的灵活性,但关键是需要为每个原始数据集分配DOI。有趣的是,《自然》杂志于2015年7月9日强调,“云”和商业提供商是基因组数据存档的首选方法。例如,美国国家卫生研究院(NIH)对商业数据存储选项的安全性存在担忧,其态度的改变意义重大。

(隐藏| 全部隐藏)
     

第二部分:衍射图像-我们能得到什么?

10:20-11:00 主题演讲:Loes Kroon-Batenburg公司 原始衍射图像数据存档中对元数据的需求 摘要|演示 (4.43 MB)

[L.Kroon-Batenburg]

Loes M.J.Kroon-Batenburg先生&约翰·赫利维尔b条
荷兰乌得勒支大学Bijvoet生物分子研究中心晶体和结构化学
b条英国曼彻斯特大学工程与物理学院化学学院。

最近,国际晶体学联合会(IUCr)发起成立衍射数据沉积工作组,旨在制定与结构论文出版相关的原始衍射数据表示标准。DDDWG会议的报告和会议记录可在论坛.iucr.org原始数据存档有几个目标:改进科学记录、验证再现性并允许对科学数据进行详细检查、防止欺诈或允许使用未来改进的技术进行重新分析。

在关于“原始晶体学数据存档”的特别系列论文中(Terwilliger,2014),我们报告了我们传输和存档原始衍射数据的经验,以及在获取和解密足够的元数据时遇到的问题(Kroon-Batenburg&Helliwell,2014)。

为了能够处理原始数据,需要有关像素几何形状、应用的像素校正、光束偏振、波长和检测器位置等信息,这些信息理想地包含在图像标题中。我们将证明,人们通常需要预先了解如何读取(二进制)检测器格式,以及测角仪几何设置。这引起了人们对原始衍射数据长期存档的担忧。必须注意,将来可以获得明确的信息如果没有这些元数据细节,就不能简单地“存放原始数据”。

我们在乌得勒支大学提供了当地原始X射线衍射图像数据档案(rawdata.chem.uu.nl公司)随后在澳大利亚的Tardis原始衍射数据档案馆进行了镜像,并自2015年3月起通过曼彻斯特大学电子学院图书馆数据档案馆的数字对象标识符(doi)提供。自2013年以来,从我们的档案和一些由其他小组重新处理的数据集中检索了大约150 GB的数据。

Kroon-Batenburg,L.M.J.和Helliwell,J.R.(2014)《水晶学报》。D类70, 2502-2509.
Terwilliger,T.C.(2014)。《水晶学报》。D类70, 2500-2501.

(隐藏| 全部隐藏)
     
11:00-11:20 咖啡
11:20-11:45 瓦莱德·米诺尔 结晶原始数据:我们在NIH的计划和实施大数据到知识资源 摘要|演示 (6.45 MB)

[西小调]瓦莱德·米诺尔
弗吉尼亚大学分子生理学和生物物理系,美国弗吉尼亚州夏洛茨维尔市乔丹霍尔杰斐逊公园大道1340号4223室,邮编:22908

NIH试点项目“高分子晶体学再现性综合资源”将创建一个基于网络的衍射图像档案,这些衍射图像是从世界各地的高分子样品中收集的。该资源将增强和维持由蛋白质数据库(PDB)中大分子原子坐标的主要数据源组成的大分子衍射数据。该项目将开发工具,仅从图像中提取元数据,或从PDB矿床和衍射图像中获得的信息组合中提取元数据。将收集自动测定和重新测定大分子结构所需的所有元数据。目前,该项目有1500多个数据集和一个提取某些类型元数据的初步系统。开发的数据挖掘工具将允许分析单个实验,以及使用各种同步加速器和家用源进行的一组实验。衍射仪和元数据可从项目网站获取,网址为http://www.proteindiffraction.org,或通过RCSB PDB网站上PDB存款页面上的链接。本次演讲将介绍对存档执行的数据挖掘的初步结果。

(隐藏| 全部隐藏)
     
11:45-12:10 迈克尔·E·沃尔 充分利用蛋白质晶体的漫散射数据所需的元数据 摘要|演示 (3.17 MB)

【M.Wall】

迈克尔·E·沃尔
洛斯阿拉莫斯国家实验室,CCS-3 MS B256,洛斯阿拉莫斯,NM 87545,美国
技术版本号:LA-UR-15-23866

我将回顾使用漫反射X射线散射模拟晶体蛋白质运动的工作。这项工作需要分析原始衍射图像,这些图像在公共数据库中大多无法访问。这些研究中有大量潜在的元数据,包括有关分析方法、扩散强度测量和建模结果的信息。现在,将漫散射纳入传统晶体学的时机已经成熟:现代光束线和探测器正在实现更高质量的数据采集;以前无法进行的计算现在变得可行了;目前的蛋白质晶体结构测定方法已接近仅使用布拉格峰的极限。将原始图像和相关元数据存储在公共数据库中是对所有蛋白质晶体学研究进行扩散散射分析的关键步骤。

(隐藏| 全部隐藏)
     
12:10-12:35 Natalie Johnson和M.R.Probert X射线起源:保护还是偏执? 摘要|演示 (5.02 MB)

[N.约翰逊]

娜塔莉·约翰逊1和Michael R.Probert1
1英国NE1 7RU泰恩河畔纽卡斯尔大学贝德森大楼化学学院
电子邮件:N.Johnson5@newcastle.ac.uk


图1。两个衍射图像-哪个是真实的?

对晶体数据的刻意编造以前导致了虚假结构的发表,后来又从受人尊敬的科学期刊上撤回1-3。在这些情况下,已确定的肇事者对结构文件进行了非常简单的修改,例如手动更改单元大小和原子类型,以生成调整后的数据。幸运的是,他们被发现无法提供原始实验数据来支持他们的主张。Kroon-Batenburg和Helliwell4提出要求沉积原始晶体学数据可能是防止提交伪造结构的潜在方法。然而,我们可以证明,重新创建原始衍射图像不再困难,如果这还没有发生,那么为那些不太谨慎的人打开了利用的大门!

许多制造商的探测器帧格式都有很好的文档记录,可以对这些信息进行逆向工程,以编码合成衍射数据。这一过程作为优化电荷密度研究数据收集参数的研究成果被揭示出来。所选择的方法要求我们生成一种算法,该算法以集成的.raw文件中的数据为起点来创建实验图像的副本。对该代码的简单误用可能会获取完全合成化合物的结构因子,并生成衍射图像,处理后会返回人造结构。这些帧与实验确定的真实帧在视觉上无法区分,并且可以使用标准协议完全集成。作者发现这种情况可能令人担忧,需要立即关注。

从这些人工衍射图像处理的数据中提炼出的结构可以通过所有IUCr检查CIF5协议而不发出警报。我们将介绍这种结构、所用算法的全部细节,并提出可以防止这种方法未被检测到的方法。

1.T.刘等。(2010).《水晶学报》。电子66,e13-e14。
2.H.Zhong等。(2010).《水晶学报》。电子66,e11-e12。
3.国际结晶学联合会(2010年)。《水晶学报》。D类66, 222.
4.L.M.Kroon-Batenburg和J.R.Helliwell(2014)。《水晶学报》。D类70, 2502-2509.
5.A.L.Spek(2009)。《水晶学报》。D类65, 148-155.

关键词:数据、仿真、软件,

(隐藏| 全部隐藏)
     
12:35-13:00 安德烈亚斯·费尔斯特 EIGER HDF5数据和NeXus格式 摘要|演示 (2.06 MB)

【A.Foerster】

Andreas Förster和Marcus Müller,Dectris Ltd,Neuenhoferstrasse 107,5400 Baden,瑞士

HDF5是为大数据应用程序设计的容器格式。在其中,大量异构数据可以存储在少量易于管理的文件中。EIGER系列探测器将数千个大图像写入数据集到HDF5文件中,并记录数据处理所需的大部分元数据。元数据保存在一个主文件中,该文件与数据分开,但与数据链接。在本次演讲中,我将介绍HDF5格式和由EIGER检测器编写的一些元数据。我还将讨论处理所必需但探测器未知的元数据,并突出显示EIGER HDF5模板提供的空白字段,以便通过束线例程完成。赫伯特·J·伯恩斯坦(Herbert J.Bernstein)[1]的相关演讲将探索记录实验装置几何结构的方法。严格遵守NeXus委员会制定的标准将有助于软件开发、数据处理和有效存档。

[1] H.J.Bernstein“表征衍射图像的元数据:imgCIF和NeXus”,摘自《X射线衍射和其他结构技术原始数据元数据研讨会》,2015年8月22日至23日,克罗地亚罗文杰。

(隐藏| 全部隐藏)
     
13:00-14:00 午餐

会议三:衍射图像和其他实验方法的元数据

14:00-14:25 赫伯特·J·伯恩斯坦 imgCIF、HDF5和NeXus中的通用衍射图像元数据规范 摘要|演示 (109毫巴)

【H.J.伯恩斯坦】

赫伯特·J·伯恩斯坦
美国纽约州罗切斯特理工学院化学与材料科学学院

新一代快速像素阵列检测器的引入,如Dectris Eiger和Cornell-SLAC像素阵列检测器(CSPAD),要求我们重新审视和扩展过去用于表示数据的方法(衍射图像)以及元数据(重建收集数据的实验环境所需的信息)[1][2]。例如,imgCIF(image-supporting-CIF)字典中的轴描述已被证明能够有效地可靠地保存有关光束、晶体和探测器的逐帧相对位置的信息,并已映射到HDF5和NeXus的上下文中,以支持新的Eiger格式。有关Dectris Eiger特定HDF5/NeXus格式的讨论,请参阅Andreas Förster的演讲[3]。我们正在引入一种新的扩展模板方案,以允许每条波束线指定独特的特征,从而允许波束线的元数据指定为HDF5/NeXus文件或等效的CBF/imgCIF文件,从中将生成与运行特定数据和元数据合并的站点文件。为了方便起见,将提供站点模板的中央存储库。这种方法将有助于确保原始数据的易处理性,并有助于可靠地处理存档数据。

[1] H.J.Bernstein、J.M.Sloan、G.Winter、T.S.Richter、NIAC、COMCIFS,“应对大数据图像格式:CBF、NeXus和HDF5的集成”,计算晶体学新闻稿, 2014,5, 12-18.
[2] A.S.Brewster、J.Hattne、J.M.Parkhurst、D.G.Waterman、H.J.Bernstein、G.Winter、N.K.Sauter,“XFEL探测器和图像CIF”,计算晶体学时事通讯, 2014,5, 19-25.
[3] A.Förster,M.Mueller,“EIGER HDF5数据和NeXus格式”,《X射线衍射和其他结构技术原始数据元数据研讨会》,2015年8月22日至23日,克罗地亚罗文杰。

这项工作部分得到了Dectris和NIGMS的支持。

(隐藏| 全部隐藏)
     
14:25-14:50 安德鲁·戈茨 采用通用方法定义、组织和存储ESRF所有实验的元数据 摘要|演示 (3.31 MB)

[A.戈茨]安德鲁·戈茨
法国格勒诺布尔,38000,烈士大道71号,欧洲同步辐射设施

经过20多年的运行,ESRF元数据的情况在波束线之间仍然非常不同。分析原始数据所需的元数据的定义和收集方式在很大程度上取决于相关的波束线。方法多种多样,从在MX波束线上实现的全自动解决方案到自动和手动收集元数据的组合。本次演讲不会介绍MX的解决方案(更多信息,请参阅Gordon Leonard的演讲),但会介绍一种新的方法,用于自动收集和存储所有实验的定义良好的元数据。该解决方案基于ESRF构建的通用工具,该工具使用HDF5作为文件格式,使用Nexus作为定义(如果可能),使用ica作为元数据目录。演讲将介绍其在纳米断层扫描、荧光和放射治疗中的具体应用实例。正在进行的工作将如何扩展到小角度散射、相干衍射以及最终所有其他技术。演讲结束时将讨论元数据在数据政策和管理中的作用。

(隐藏| 全部隐藏)
     
14:50-15:15 约翰·卫斯布鲁克 PDB和实验数据 演示 (7.45 MB)
15:15-15:35 茶叶
15:35-16:00 汤姆·特威利格 实现Living PDB以及原始衍射数据及其元数据的帮助 摘要|演示 (57千字节)

【T.C.特威利格】

托马斯·特威利格1和杰勒德·布里科尼2
1洛斯阿拉莫斯国家实验室,Mailstop M888,Los Alamos,NM 87545,USA电子邮件:terwilliger@lanl.gov
2Global Phasing有限公司,英国剑桥城堡公园喜来登酒店,CB3 0AX。电子邮件:gb10@globalphasing.com

蛋白质数据库(PDB)是大分子结构信息的权威存储库。随着新的分析方法、新的生物信息和描述结构的新方法的可用,PDB中大多数条目的结构因子的可用性使得通过重新解释现有结构的主要数据,可以不断改进PDB中的模型。一旦与每个条目相关的衍射图像变得可访问,这种持续改进将更加强大。

关键因素是,沉积原始图像将促进集成和处理软件的改进,就像沉积合并X射线数据一样,极大地促进了精细化软件的进步。使用改进后的软件重新查看沉积图像将提供更准确的数据(尤其是不受目前对多个晶格污染处理不足的影响),以重新定义沉积结构本身。

随着对结构、原始结构因子和原始图像的初步解释,将有可能对结构进行广泛验证,并在新算法可用时应用新算法进行结构确定和分析,从而使结构的准确性和完整性不断提高。

关键词:结构质量;验证;PDB;自动化;结构测定;原始数据沉积

(隐藏| 全部隐藏)
     
16:00 关闭
 

8月23日星期日

09:00 正常开放

第四部分:更广阔世界中的数据——从实验室到数据库

09:00-09:25 西蒙·科尔斯 上下文中的衍射数据:元数据方法 摘要|演示 (3.62 MB)

【S.J.科尔斯】

西蒙·科尔斯
英国南安普顿大学自然与环境科学学院化学系英国国家晶体学服务中心副教授兼主任

衍射实验及其产生的结果必须经常放在特定的科学背景下-例如在化学晶体学中,它们通常是与合成和表征新化合物有关的研究的一部分。实验的背景,为什么要执行它,往往会丢失&尤其是在数据自行发布的情况下。

我将介绍一些方法,不仅将元数据归因于结晶学实验的结果,还将归因于导致这些结果的一般化学。建立支持这一点的模型的第一阶段工作已经发布——http://www.jcheminf.com/content/5/52。我将继续讨论两个项目的近期工作:(1)与五大制药公司、仪器制造商、电子实验室笔记本电脑供应商和皇家化学学会合作,以获取用于捕获执行实验“过程”的元数据;(2)项目(https://blog.soton.ac.uk/奶油/)旨在在进行研究的过程中积极使用元数据,而不仅仅是为了存档。最后,我将深入了解在归档和传播原始晶体学数据时,在这些项目中分配元数据的方法是如何重要的。

(隐藏| 全部隐藏)
     
09:25-09:50 苏珊娜·沃德 CCDC元数据计划 摘要|演示 (4.15 MB)

[S.沃德]

苏珊娜·沃德(Suzanna Ward)、伊恩·布鲁诺(Ian J.Bruno)、科林·R·格鲁姆(Colin R.Groom)和马修·莱特福特(Matthew Lightfoot)
剑桥晶体数据中心,12 Union Road,Cambridge,CB2 1EZ

 

半个世纪以来,剑桥晶体数据中心(CCDC)创建了剑桥结构数据库(CSD),使世界各地的科学家能够共享、搜索和重用小分子晶体结构数据。CSD中的条目通常被视为“只是”一组坐标,但相关元数据(描述和提供其他数据信息的数据)对于将条目上下文化至关重要。描述所研究物质、所进行实验和数据集整体的数据都至关重要。

本演示文稿的时间适逢CSD成立50周年,将探讨从CSD的发布到传播过程中元数据的使用方式。在展望未来之前,我们将了解围绕元数据的最新发展如何有针对性地提高晶体结构数据的可发现性、验证性和重用性。

(隐藏| 全部隐藏)
     
09:50-10:15 布莱恩·马修斯 支持STFC的数据管理工作流 摘要|演示 (2.66 MB)

[B.马修斯]

布莱恩·马修斯(Brian Matthews),科学计算,卢瑟福德·阿普尔顿实验室,科学与技术设施委员会,英国哈维尔牛津,迪德科特OX11 0QX

STFC开发了一种系统化的方法,用于管理和存档其大型分析设施产生的数据,ISIS中子源、金刚石光源和中央激光设施也在使用这种方法。这是围绕ICAT实验元数据目录展开的。ICAT作为一个核心中间件组件,记录和指导原始数据的存储以及数据的后续访问和重用;它已经发展成为一套可用于构建数据管理基础设施的工具。在这次演讲中,我将描述ICAT的现状。

设备产生的数据速率和数据量不断增加,实验科学变得更加复杂。这给用户社区在访问、处理和处理数据方面带来了挑战。我将描述解决这些问题的一些方法,并考虑我们如何在大型设施中探索对数据分析和发布工作流的进一步支持。最后,我将考虑如何开发元数据来捕获和跨社区共享这些信息。

(隐藏| 全部隐藏)
     
10:15-10:40 皮埃尔·阿勒 钻石元数据和原始数据编目概述 摘要|演示 (1.48 MB)

【P.Aller】

Pierre Aller和Alun Ashton,英国牛津郡迪科特科学部钻石光源

钻石光源作为一个相对较新的设施,已经能够捕获和编目其所有原始数据(现在超过3.6 PB)。此外,尽可能多的元数据和处理过的数据始终与原始数据进行比较,并捕获到两个数据库(ISPyB)中进行查询和快速访问,以及原始数据文件(imgCIF/CBF和NeXus)中。将介绍这些进展情况。

(隐藏| 全部隐藏)
     
10:40-11:05 布莱恩·麦克马洪 更广阔世界中的CODATA和(元数据)数据特征 摘要|演示 (2.74 MB)

[B.麦克马洪]

布莱恩·麦克马洪
IUCr,5 Abbey Square,Chester CH1 2HU,UK。电子邮件:bm@iucr.org

本研讨会专注于科学元数据及其在最大限度地提高科学数据的实用性、可信度和重用方面的重要性,特别是为进一步的研究途径,甚至新的科学见解打开大门。在更一般的情况下,“元数据”是对数据集进行分类、分类和收集的工具。本演示文稿将回顾一些对通用元数据以及不同学科或社区的元数据规范之间的互操作性感兴趣的组织。CODATA/VAMAS纳米材料描述工作组提供了一个在广泛的跨学科框架中整理不同专业元数据元素的好例子。将简要讨论通用和专业元数据系统之间的粒度不匹配。

 (隐藏| 全部隐藏)
     
11:05-11:25 咖啡

第五部分:需要哪些新的元数据项?

11:25-11:50 戈登·伦纳德 需要什么元数据才能使ESRF原始MX衍射数据对新用户来说清晰易懂? 摘要|演示 (5.65 MB)

[G.伦纳德]

戈登·伦纳德
结构生物学小组,欧洲同步辐射设施,CS40220,38043 Grenoble Cedex 9,France

在配备快速读出光子计数像素探测器的现代同步电子基高分子晶体学(MX)光束线上进行实验期间可以收集的衍射数据量及其收集速度意味着用户目前很难(或不可能)进行手动处理,在实验过程中,收集了所有数据集。为了帮助纠正这种情况,并提供成功实验有时需要的在线反馈,“自动处理”软件[1,2]通常与实验室信息管理系统(LIMS)中显示的单个数据集的自动集成、缩放合并和缩减结果一起部署例如ISPyB[3],也可以从中下载。

虽然“自动处理”方法有效(在绝大多数情况下,对原始衍射图像的实验后处理的需求越来越大。在这种情况下,每个数据集的正确元数据对于确保最佳结果至关重要。对于ESRF收集的MX衍射数据,该数据存储在ISPyB、原始数据图像本身的标题以及两个主要包(XDS和MOSFLM)的自动生成输入文件中,这两个包通常用于处理ESRF收集到的MX绕射数据。在我的演讲中,我将回顾ESRF MX实验期间当前记录的元数据,并期待在验证目的或测试新数据处理和分析协议时,常规向更广泛的科学界提供原始数据图像时,可能需要进一步的元数据。

[1] G.冬季等。(2013).《水晶学报》。D类69, 1260-1273. doi:10.1010/S0907444913015308
[2] 摩纳哥南部等。(2013).J.应用。克里斯特。 46, 804-810. doi:10.1107/S0021889813006195
[3] S.Delageniere(德拉吉尼埃)等。(2011).生物信息学,27, 3186-3192. doi:10.1093/bioinformatics/btr535。

(隐藏| 全部隐藏)
     
11:50-12:15 马修·布莱克利 需要什么元数据才能让劳厄-朗之万研究所的中子衍射原始数据为新用户所理解? 摘要|演示 (8.15 MB)

[布雷克利先生]

马修·布莱克利
法国格勒诺布尔38000号烈士大道71号劳埃-朗之万研究所

欧洲中子散射和同步辐射X射线源的中央设施正在合作,为在那里收集的数据开发和共享基础设施。这种合作应该让用户更容易、更高效地访问和处理其数据,并提供更安全的存储和检索手段。它还应该通过向更广泛的社区开放数据以进行进一步分析,并促进科学团体之间的新合作,来提高数据的科学价值。然而,随着这些发展,需要定义如何存储和访问原始数据,特别是包括哪些元数据,以便新用户能够理解衍射数据。为此,ILL数据策略(https://www.ill.eu/fr/users/ill-data-policy(网址:http://www.ill.eu/fr/users/ill-data-policiy)/)成立于2012年,许多工具(例如[i]https://data.ill.eu[二]https://logs.ill.eu)正在开发中。目前,这些系统允许远程查询和下载实验数据(由DOI识别),并最终允许(重新)处理和验证实验数据。

(隐藏| 全部隐藏)
     
12:15-12:40 卡米尔·久别克 高压晶体学中的元数据 摘要|演示 (1.13 MB)

[K.Dziubek]

Kamil F.Dziubek公司和Andrzej Katrusiakb条
LENS-意大利佛罗伦萨塞斯托欧洲非线性光谱实验室
b条波兰波兹南Adam Mickiewicz大学化学系

与晶体学实验所用特定技术相关的元数据的沉积可以通过制定其制备指南来简化。高压衍射研究是在晶体学研究领域迅速取得进展的实验技术之一。它们包括用于压力产生、压力校准等的附加设备。高压电池可能会干扰初级光束或衍射光束,从而污染衍射图案并导致反射强度误差。实验细节对于数据的评估和分析至关重要,因此元数据需要与原始衍射图像一起存储。

最基本的描述涉及:(1)压力传感器相对于入射光束和探测器的方向;(2) 粉末和单晶的样品制备和形状;(3) 参考高压容器,并针对独特的设备提供其相关部件的尺寸,如砧座设计、垫片厚度、腔室直径、背板类型;(4) 细胞部分的化学成分,例如砧座、垫片和垫板、传压介质;(5) 将样品固定在高压室内的方法(如使用);(6) 数据采集过程中压力传感器的定位方法;(7) 压力测量方法。此信息对于从原始数据中再现结构优化的结果或尝试其他优化方法来说是不可或缺的。由于压力传递介质可能与样品发生相互作用(例如渗透到孔隙中)或介质的静水压极限,压力传递介质会显著改变样品压缩。样本历史记录也会影响结果。如果样品再结晶就地在等温或等容条件下,从溶液或熔体中,应提供结晶方案的详细信息。简单的编辑规则和检查表可以大大简化元数据的存储并增加其信息价值。

作者代表IUCr高压委员会,AK是委员会主席。KFD感谢波兰科学和高等教育部通过“Mobilno希奇Plus”计划提供的财政支持。

(隐藏| 全部隐藏)
     
12:40-13:40 午餐

第六部分:元数据模式

13:40-14:05 詹姆斯·海丝特 创建和操作通用元数据定义 摘要|演示 (1.59 MB)

[J.R.海丝特]詹姆斯·海丝特
澳大利亚核科技组织,澳大利亚新南威尔士州卢卡斯高地新伊拉瓦拉路2234号

元数据讨论通常与特定格式密切相关。然而,关于自然界的事实不能依赖于传播这些事实的媒介。因此,我们能够在不依赖任何特定文件格式的情况下完整地描述元数据,并且无论使用何种特定格式,我们都可以从预先存在的数据传输框架中提取元数据定义。这个有希望的(如果显而易见的话)一般性结论并没有指定在我们的无格式元数据定义中需要提供什么信息。继Spivak和Kent(2012)之后,我认为元数据定义可以表示为将某个域映射到某个范围的函数就足够了。

本演讲将探讨此方法的一些含义,包括文件格式和元数据规范的独立性、不同格式的数据文件之间相互转换算法的规范、不同元数据项目的统一,以及生成完整元数据描述的简单步骤。

Spivak D.I.,Kent R.E.(2012)“奥洛格:知识表示的分类框架。”公共科学图书馆,7(1) :e24274。doi:10.1371/journal.pone.0024274

(隐藏| 全部隐藏)
     
14:05-14:30 布莱恩·麦克马洪 作为元数据库的结晶信息框架 摘要|演示 (2.50 MB)

[B.麦克马洪]

布莱恩·麦克马洪
IUCr,5 Abbey Square,Chester CH1 2HU,UK。电子邮件:bm@iucr.org

晶体信息文件(CIF)于1991年作为晶体学中的数据交换标准引入[1],并已嵌入到单晶和粉末衍射的实践中。CIF有描述大分子结构和衍射图像的版本[2],因此CIF可以在从图像捕获到发布的数据管道中的任何地方使用,这就是所谓的“相干信息流”(也称为CIF!)[3]。

在实践中,数据模型和文件格式的细微差异导致了CIF的“方言”,可以很好地共存。然而,在实现完全互操作性方面存在着一个随之而来的障碍。新版本的CIF格式[3]将允许开发新一代CIF“词典”(正式数据描述模式或“本体”)。这将允许以任何形式在现有CIF数据文件之间进行全自动转换,但还可以为任何类型的晶体信息提供描述性框架。形式上,CIF方法没有区分“数据”和“元数据”,因此可以任意适应并扩展到结构科学的任何领域或更远的领域。由于CIF格式具有非常简单的语法结构,使得内容非常容易阅读,因此CIF词典可以为非信息学专家的工作科学家开发新的元数据模式提供一个简单的模板。

[1] Hall,S.R.,Allen,F.H.&Brown,I.D.(1991年)。晶体学信息文件(CIF):一种新的晶体学标准档案文件。《水晶学报》。A类47, 655-685.
[2] Hall,S.R.和McMahon B.(编辑)(2005年)。国际结晶学表格,第G卷:结晶学数据的定义和交换。多德雷赫特:施普林格。更正重印(2010年)。奇切斯特:威利。
[3] McMahon,B.(2013)。结晶学中的相干信息流。在英国华威大学ECM28结晶信息和数据管理卫星研讨会上的演讲。另请参阅https://youtu.be/BiYETNUbfVo网站

(隐藏| 全部隐藏)
     
14:30-14:40 一般性讨论
14:40-15:00 茶叶
15:00-15:50   实践环节:构建元数据描述 演示文稿1 (148毫巴)| 演示文稿2 (2.87 MB)
16:00 关闭
18:00 ECM29开幕式
显示区

一、引言


布莱恩·麦克马洪(Brian McMahon):
介绍和欢迎
[布莱恩·麦克马洪]
(05分06秒)

约翰·海利维尔(John Helliwell):
IUCr衍射数据沉积工作组(DDDWG)活动的最新情况
[John Helliwell]
(29分52秒)

二、。衍射图像-我们能得到什么?


Loes Kroon-Batenburg:
原始衍射图像数据存档中对元数据的需求
[卢斯·克伦·巴滕伯格]
(39分11秒)

小Wladek:
结晶原始数据:我们在NIH的计划和实施大数据到知识资源
[Wladek小调]
(38分28秒)

迈克尔·沃尔(Michael Wall):
充分利用蛋白质晶体的漫散射数据所需的元数据
[迈克·沃尔]
(28分22秒)

娜塔莉·约翰逊:
X射线起源:保护还是偏执?
[纳塔莉·约翰逊]
(21分46秒)

安德烈亚斯·福斯特(Andreas Förster):
EIGER HDF5数据和NeXus格式
[安德烈亚斯·福斯特]
(30分22秒)

三、 衍射图像和其他实验方法的元数据


赫伯特·伯恩斯坦:
imgCIF、HDF5和NeXus中的通用衍射图像元数据规范
[赫伯特·伯恩斯坦]
(32分25秒)

安德鲁·戈茨(Andrew Götz):
采用通用方法定义、组织和存储ESRF所有实验的元数据
[安迪·戈茨]
(28分59秒)

约翰·韦斯特布鲁克:
PDB和实验数据
[约翰·韦斯特布鲁克]
(28分36秒)

汤姆·特威利格(Tom Terwilliger):
实现Living PDB以及原始衍射数据及其元数据的帮助
[汤姆·特威利格]
(41分38秒)

四、 更广阔世界中的数据——从实验室到数据库


西蒙·科尔斯:
上下文中的衍射数据:元数据方法
[西蒙·科尔斯]
(33分42秒)

苏珊娜·沃德:
CCDC元数据倡议
[苏珊娜·沃德]
(25分17秒)

布莱恩·马修斯(Brian Matthews):
支持STFC的数据管理工作流
[布莱恩·马修斯]
(30分03秒)

皮埃尔·阿勒:
钻石元数据和原始数据编目概述
[皮埃尔·阿勒]
(18分59秒)

布莱恩·麦克马洪(Brian McMahon):
更广阔世界中的CODATA和(元数据)数据特征
[布莱恩·麦克马洪]
(33分56秒)

五、需要哪些新的元数据项?


戈登·伦纳德:
需要什么元数据才能使ESRF原始MX衍射数据为新用户所理解?
[戈登·伦纳德]
(26分47秒)

马修·布莱克利:
需要什么元数据才能让劳厄-朗之万研究所的中子衍射原始数据为新用户所理解?
[马修·布莱克利]
(24分23秒)

卡米尔·久别克(Kamil Dziubek):
高压晶体学中的元数据
[卡米尔·久别克]
(23分44秒)

六、 元数据架构


詹姆斯·海斯特:
创建和操作通用元数据定义
[詹姆斯·海丝特]
(48分58秒)

布莱恩·麦克马洪(Brian McMahon):
作为元数据库的结晶信息框架
[布莱恩·麦克马洪]
(22分56秒)

一般性讨论
[横幅]
(11分15秒)

单击右侧列中的缩略图以查看录制的演示文稿。

车间报告

“感谢您组织这样一个鼓舞人心的研讨会,主题名义上相当枯燥。”安德烈亚斯·弗斯特(Andreas Förster),德崔斯

事实上,术语“元数据”——通常被描述为“关于数据的数据”或“帮助您理解数据的信息”——通常是一个枯燥的话题,对数字图书馆员和数据分析师来说很重要,但与科学的真正业务无关,甚至是一个障碍。2015年欧洲晶体学会议为期两天的卫星研讨会强调指出,这远非事实。来自欧洲、澳大利亚和美国的大约20位专家发言者(其中两位通过互联网远程演示)调查了详细和高质量元数据对解释、验证和使用实验数据的核心重要性。

[研讨会参与者]
研讨会参与者享受咖啡休息。

该研讨会由IUCr衍射数据沉积工作组(DDDWG)与克罗地亚晶体学家协会联合举办。约翰·海利威尔DDDWG主席解释了过去四年来,DDDWG如何分析常规沉积原始实验数据的前景,并意识到现代同步加速器和中子设施产生的大量原始数据的存储容量几乎是我们最不担心的。为了重新使用这些数据,必须记录和检索实验安排的所有细节——这就是“元数据”发挥作用的地方。 

Loes Kroon Batenburg公司瓦莱德·米诺尔除其他外,强调了在每个图像的标题中存储关于方向、曝光、振荡轴等的基本信息的标准化程度非常低。研讨会再次呼吁就应记录在每张图像中的最低限度元数据达成一致。赫伯特·伯恩斯坦安德烈亚斯·弗斯特说明了imgCIF字典中已经存在的必要定义,以及如何有效地传递到HDF5/NeXus文件中,这些文件正在成为高容量成像的标准。 

詹姆斯·海丝特布莱恩·麦克马洪两人都积极参与委员会维护IUCr CIF数据交换标准(COMCIFS),讨论了确定需要记录的概念的重要性,以及所选存储格式相对缺乏重要性。虽然多种格式实际上阻碍了互操作性,但创建协调和翻译工具来构建无缝数据管理系统并没有根本障碍,结晶学只是其中一个有贡献的学科。

描述了当前和发展中的数据采集和管理实践,涵盖了一系列容纳各种技术和科学的大型设施:欧洲同步加速器、ESRF(安迪·戈茨,戈登·伦纳德); 劳厄学院-朗之万(马修·布莱克利)卢瑟福实验室的英国STFC和钻石光源(布莱恩·马修斯皮埃尔·阿勒).西蒙·科尔斯谈到了家庭实验室和中等规模服务提供商(如英国国家晶体学服务)的数据管理挑战。在所有这些位置,实验中的所有数据都必须在资源管理、来源、验证和批量存储的环境中进行处理,所有这些都需要更多的元数据,这些元数据应符合广泛接受的标准。 

以下内容描述了在整个科学过程中携带大量元数据对数据库的重要性苏珊娜·沃德(CCDC)和约翰·卫斯布鲁克(PDB),而汤姆·特威利格制定了“活着的PDB”的主题,在那里可以根据新的科学发展对沉积结构进行修改、改进和不断更新。迈克·沃尔强调令人兴奋的新科学潜在地存在于图像中的漫反射散射中,当仅从布拉格峰推导结构时,这种散射在很大程度上被忽略了。卡米尔·久别克概述了对高压和其他非环境条件下收集的结构进行完整分析所需的附加元数据。

  
[演示文稿摘要]
Kamil Dziubek演讲中的幻灯片蒙太奇(插图由Ronald Miletich-Pawliczek提供,U.Vienna)。

在一次引人入胜的演讲中,娜塔莉·约翰逊证明可以制作出合理的衍射图像。原则上,这种人造图像可以用来支持虚假的实验结果。这里,同样,丰富的元数据描述了图像的完整出处和收集图像的背景,可以帮助对可疑数据进行法医学分析。事实上,除了对欺诈的担忧之外,可用于交叉比较的元数据越多,就越能分析(或重新分析)数据的一致性,也就越能信任使用数据的科学推断。 

同样的考虑鼓励了IUCr开发支票CIF作为发表晶体和分子结构的验证工具。在本次研讨会上,人们强烈感觉到,结晶学界研究类似的“checkCIF”机制以验证和评估实验数据的时机正在迅速到来——也许这是下一次DDDWG研讨会的主题? 

也许最值得注意的是,随着原始数据集在科学环境中越来越可用,DDDWG的工作变得更加紧迫。当这个研讨会最初计划时,很少有图片存储在公共访问平台上。现在,人们可能会在澳大利亚商店等存储库中找到原始数据集。同步加速器,位于NIH BD2K网站http://www.proteindiffraction.org/由Wladek Minor的小组在共享资源站点Zenodo和国际衍射数据中心维护的粉末图案数据库中运行。这种增长是否会变成衍射数据集的泛滥尚不清楚;可以肯定的是,这些数据集的最佳使用将取决于元数据的开发,例如在Rovinj的那两个阳光明媚的日子里探索的元数据。 

研讨会网站上提供了所有演示文稿的视频http://tinyurl.com/diffraction-metadata我们感谢所有发言者对讨论的出色介绍和贡献,感谢克罗地亚晶体学家协会主办这次活动,感谢国际晶体研究联合会和工业赞助商提供必要的资金。

布莱恩·麦克马洪
约翰·赫利维尔

本报告已在IUCr新闻稿.

关于我们的赞助商

我们感谢以下合作伙伴的慷慨财政支持。

Dectris公司是X射线检测技术的领导者。DECTRIS光子计数探测器改变了同步辐射光源、实验室和工业X射线应用的基础研究。DECTRIS旨在不断提高测量质量,从而实现新的科学发现。这项开创性的技术是一系列产品的基础,所有产品都能满足各种应用的需求。DECTRIS还为科学和工业X射线检测领域的客户开发提供解决方案。
DECTRIS荣获2010年瑞士经济奖的高科技生物技术类奖项,这是瑞士初创公司最负盛名的奖项。
这个国际晶体学联合会(国际货币联盟)是一个科学联盟,其目标是促进结晶学方面的国际合作,并为结晶学的各个方面的发展作出贡献。
IUCr通过发布高质量的晶体学研究九种主要科学期刊:结晶学报A辑:基础与进展;结晶学报B辑:结构科学、晶体工程和材料;结晶学报C辑:结构化学;结晶学学报D辑:生物结晶学;结晶学报E辑:结晶通讯;晶体学报F辑:结构生物学通讯;应用晶体学杂志;同步辐射杂志; 并为国际结晶学年推出,IUCrJ大学,一个黄金开放获取标题,在IUCr支持的所有科学和技术领域发表文章。
CODATA公司科学技术数据委员会是国际科学理事会(ICSU)的一个跨学科科学委员会,成立于1966年。其任务是通过促进改进科学和技术数据的管理和使用,加强国际科学,造福社会。CODATA致力于提高所有科学技术领域重要数据的质量、可靠性、管理和可访问性。CODATA为科学家和工程师提供了访问国际数据活动的途径,以提高认识、直接合作和新知识。它涉及科学和技术各个领域,包括物理科学、生物学、地质学、天文学、工程学、环境科学、生态学等领域的实验测量、观测和计算产生的所有类型的数据。特别强调了不同学科常见的数据管理问题,以及在产生这些问题的领域之外使用的数据。
布吕克50多年来,公司一直致力于为每项分析任务提供最佳的技术解决方案。
如今,全球有6000多名员工在各大洲的90多个地点从事这项永久性挑战的工作。Bruker系统涵盖了研发所有领域的广泛应用,并用于所有工业生产过程,以确保质量和过程可靠性。
Bruker继续以其广泛的产品和解决方案、广泛的安装系统基础以及在客户中的良好声誉为基础。作为世界领先的分析仪器公司之一,Bruker致力于进一步全面满足客户的需求,并继续为当今的分析问题开发最先进的技术和创新解决方案。
这个剑桥晶体数据中心(CCDC公司)致力于通过提供高质量的信息、软件和服务,为公众利益推动化学和结晶学的发展。世界各地学术机构和商业运作中的化学家依靠CCDC提供最全面、最严格的分子结构信息和对其研究的有力见解。
CCDC是一个非营利组织,也是一个注册慈善机构,完全由其许多用户的软件订阅支持。CCDC编译并发布剑桥结构数据库(CSD),该数据库是世界上实验确定的有机和金属有机晶体结构的存储库。它还开发了知识库和应用程序,使用户能够快速高效地从这种独特的资源中获得巨大价值。
FIZ卡尔斯鲁厄是国际领先的科学信息和服务提供商。我们的使命是为科学家和公司提供专业研究和专利信息,并开发创新信息服务。作为信息基础设施的关键参与者,我们致力于自己的研究项目,并与领先的大学和研究协会合作。
这个无机晶体结构数据库(ICSD)是世界上最大的全面评估和发布晶体结构数据的数据库。为科学和工业提供高质量的记录,为材料科学研究提供基础,例如识别未知物质。ICSD包含自1913年以来发表的165000多种无机物质的晶体结构。几年来,国际可持续发展委员会将金属纳入其中。与FIZ Karlsruhe的合作伙伴NIST(美国华盛顿特区国家科学技术研究所)合作,对金属结构进行了追溯性记录。
卡尔斯鲁厄大学是一家非营利性公司,也是德国最大的信息基础设施非大学机构。FIZ Karlsruhe是莱布尼茨协会的成员,莱布尼兹协会由近90家参与研究活动和/或科学基础设施开发的机构组成。
牛津冷冻系统公司是专业科学仪器和软件的市场领先制造商。该公司的起源在于1985年设计和制造的原始低温蒸汽冷却器,该冷却器立即成为X射线衍射实验中冷却样品的首选系统。在过去25年中,样品冷却用产品的范围已经扩大,包括无液系统、氦冷却器和用于粉末样品的特别改装系统。如今,该公司被认为是X射线衍射样品冷却领域的全球市场领导者。
威利的科学、技术、医疗和学术(STMS)业务,也称为Wiley-Blackwell,服务于世界研究和学术团体,是专业和学术团体的最大出版商。Wiley-Blackwell的项目包括以印刷和电子形式提供的期刊、书籍、主要参考文献、数据库和实验室手册。通过威利在线图书馆,我们可以在线访问广泛的STMS内容:1500种期刊、9000多种书籍以及许多参考文献和数据库中的400多万篇文章。摘要和搜索是免费的,完整的内容可以通过许可协议获得,大部分内容通过与HINARI、AGORA和OARE等组织的合作伙伴关系免费或以名义成本提供给发展中国家。