结晶数据

[IUCr标志]
[HUK标志]

X射线衍射和其他结构技术原始数据的元数据

克罗地亚罗文杰,2015年8月
www.iucr.org/resources/data/dddwg/rovinj-workshop

[幻灯片蒙太奇]Kamil Dziubek演示文稿中的幻灯片蒙太奇(插图由Ronald Miletich-Pawliczek提供,U.Vienna)。
“感谢您组织这样一个鼓舞人心的研讨会,主题名义上相当枯燥。”安德里亚斯·费尔斯特,德崔斯

事实上,术语“元数据”(通常被描述为“数据相关数据”或“帮助您理解数据的信息”)通常被认为是一个枯燥的话题,对数字图书馆员和数据分析师来说很重要,但与科学的真正业务无关,甚至是一个障碍。2015年欧洲晶体学会议为期两天的卫星研讨会强调指出,这远非事实。来自欧洲、澳大利亚和美国的大约20位专家发言者(其中两位通过互联网远程演示)调查了详细和高质量元数据对解释、验证和使用实验数据的核心重要性。

该研讨会由IUCr衍射数据沉积工作组(DDDWG)与克罗地亚晶体学家协会联合举办。DDDWG主席J.Helliwell解释了它在过去四年中是如何分析原始实验数据常规沉积的前景的,并意识到现代同步加速器和中子设施产生的大量原始数据的存储能力几乎是我们最不担心的。为了重新使用这些数据,必须记录和检索实验安排的所有细节——这就是“元数据”发挥作用的地方。

L.Kroon-Batenburg和W.Minor等人强调,在存储有关方向、曝光、振荡轴的基本信息时,标准化水平很低等。在每个图像的标题中。研讨会再次呼吁就应记录在每张图像中的最低限度元数据达成一致。H Bernstein和A.Förster举例说明了imgCIF字典中已经存在必要的定义,并且可以有效地转移到HDF5/NeXus文件中,这些文件正在成为高容量成像的标准。

J.Hester和B.McMahon都积极参与委员会维护IUCr CIF数据交换标准(COMCIFS),讨论了确定概念需要记录的内容,以及所选存储格式相对缺乏重要性。虽然多种格式实际上阻碍了互操作性,但创建协调和翻译工具来构建无缝数据管理系统并没有根本障碍,结晶学只是其中一个有贡献的学科。

在一系列大型设施中描述了当前和发展中的数据采集和管理实践,这些设施容纳了各种技术和科学:欧洲同步加速器ESRF(a.Götz,G.Leonard)、劳埃·朗格温(M.Blakeley)研究所,以及卢瑟福实验室的英国STFC和钻石光源(B。Matthews和P.Aller)。S.Coles谈到了家庭实验室和中等规模服务提供商(如英国国家晶体学服务公司)的数据管理挑战。在所有这些地点,实验中的所有数据都必须在资源管理、来源、验证和批量存储的背景下进行处理,所有这些都需要更多的元数据,这些元数据应符合广泛接受的标准。

[参与者]研讨会参与者享受咖啡休息。

S.Ward(CCDC)和J.Westbrook(PDB)描述了在整个科学过程中携带大量元数据对数据库的重要性,而T.Terwilliger开发了“活着的PDB”主题,在这里,可以根据新的科学发展修改、改进和持续更新沉积结构。M.Wall强调,令人兴奋的新科学潜在地存在于图像中的漫散射中,而当仅从布拉格峰推导结构时,这种散射在很大程度上被忽略了。K.Dziubek概述了对高压和其他非环境条件下收集的结构物进行完整分析所需的额外元数据。

在一次引人入胜的演示中,N.Johnson证明了可以制造出看似合理的衍射图像。原则上,这种人造图像可以用来支持虚假的实验结果。这里,同样,丰富的元数据描述了图像的完整出处和收集图像的背景,可以帮助对可疑数据进行法医学分析。事实上,除了对欺诈的担忧之外,可用于交叉比较的元数据越多,数据就越能被分析(或重新分析)以保持一致性,使用数据的科学推断就越可信。

同样的考虑鼓励了IUCr开发支票到岸价作为晶体和分子结构出版的验证工具。在这次研讨会上,大家强烈感觉到,结晶学界研究验证和评估实验数据的类似“checkCIF”机制的时间很快就要到来了——也许这是下一次DDDWG研讨会的主题?

也许最值得注意的是,随着原始数据集在科学环境中越来越可用,DDDWG的工作变得更加紧迫。当这个研讨会最初计划时,很少有图像存储在公共访问平台上。现在,人们可能会在澳大利亚商店等存储库中找到原始数据集。同步加速器,位于NIH BD2K网站网址:www.proteindiffraction.org/由W.Minor小组在共享资源站点Zenodo上运行,并在国际衍射数据中心维护的粉末图案数据库中运行。这种增长是否会变成衍射数据集的泛滥尚不清楚;可以肯定的是,这类数据集的最佳使用将取决于元数据的开发,比如在罗文杰那两个阳光明媚的日子里探索的元数据。

研讨会网站上提供了所有演示文稿的视频http://tinyurl.com/diffraction-metadata我们感谢所有发言者对讨论的出色介绍和贡献,感谢克罗地亚晶体学家协会主办这次活动,感谢国际晶体研究联合会和工业赞助商提供必要的资金。

Brian McMahon和John R.Helliwell