8月22日星期六
|
10:00 |
正常开放 |
第一部分:介绍
|
10:00-10:05 |
John R.Helliwell和Brian McMahon |
介绍和欢迎 |
|
10:05-10:20 |
约翰·赫利维尔 |
IUCr衍射数据沉积工作组活动最新情况 |
摘要|演示 (1.26 MB) |
约翰·赫利维尔1和Brian McMahon2
1英国曼彻斯特大学化学学院,M13 9PL。电子邮件:john.helliwell@manchester.ac.uk
2IUCr,5 Abbey Square,Chester CH1 2HU,UK。电子邮件:bm@iucr.org
本次研讨会是继2012年卑尔根衍射数据沉积研讨会之后的又一次研讨会(http://www.iucr.org/resources/data/dddwg/bergen-workshop)以及在ECM28(U.Warwick,UK;参见http://forums.iucr.org/viewtopic.php?t=332)和IUCr大会(加拿大蒙特利尔;http://forums.iucr.org/viewtopic.php?t=347). 卑尔根研讨会确定,需要对原始衍射数据的元数据的现行做法进行彻底审查,以及利用这种审查促进非衍射研究中改进元数据表征和处理的可能性。本次研讨会将满足这两个要求。
在更广泛的场景中,“开放数据”作为研究出版物的要求正在加速,无论是衍生、处理还是原始数据。晶体学作为一个领域,在实现“开放数据”方面与天文学和粒子物理学等其他领域相比很好,每个领域都发现原始数据归档具有挑战性,尤其是射电天文学中的平方公里阵列(SKA),因为原始数据显然是最丰富的。然而,单单销量并不是最大的挑战。必须正确描述存储的原始数据,以便评估和理解其价值和可靠性,并且无论是否与正式出版物相关,其他研究人员都必须能够发现和重用单个数据集。这就是元数据发挥关键作用的地方。
我们讨论了在卑尔根实现原始数据归档的技术选项,并支持数据集物理位置的灵活性,但关键是需要为每个原始数据集分配DOI。有趣的是,《自然》杂志于2015年7月9日强调,“云”和商业提供商是基因组数据存档的首选方法。例如,美国国家卫生研究院(NIH)对商业数据存储选项的安全性存在担忧,其态度的改变意义重大。 (隐藏| 全部隐藏)
|
第二部分:衍射图像-我们能得到什么?
|
10:20-11:00 |
主题演讲:Loes Kroon-Batenburg公司 |
原始衍射图像数据存档中对元数据的需求 |
摘要|演示 (4.43 MB) |
Loes M.J.Kroon-Batenburg先生一&约翰·赫利维尔b条
一荷兰乌得勒支大学Bijvoet生物分子研究中心晶体和结构化学
b条英国曼彻斯特大学工程与物理学院化学学院。
最近,国际晶体学联合会(IUCr)发起成立衍射数据沉积工作组,旨在制定与结构论文出版相关的原始衍射数据表示标准。DDDWG会议的报告和会议记录可在论坛.iucr.org原始数据存档有几个目标:改进科学记录、验证再现性并允许对科学数据进行详细检查、防止欺诈或允许使用未来改进的技术进行重新分析。
在关于“原始晶体学数据存档”的特别系列论文中(Terwilliger,2014),我们报告了我们传输和存档原始衍射数据的经验,以及在获取和解密足够的元数据时遇到的问题(Kroon-Batenburg&Helliwell,2014)。
为了能够处理原始数据,需要有关像素几何形状、应用的像素校正、光束偏振、波长和检测器位置等信息,这些信息理想地包含在图像标题中。我们将证明,人们通常需要预先了解如何读取(二进制)检测器格式,以及测角仪几何设置。这引起了人们对原始衍射数据长期存档的担忧。必须注意,将来可以获得明确的信息即如果没有这些元数据细节,就不能简单地“存放原始数据”。
我们在乌得勒支大学提供了当地原始X射线衍射图像数据档案(rawdata.chem.uu.nl公司)随后在澳大利亚的Tardis原始衍射数据档案馆进行了镜像,并自2015年3月起通过曼彻斯特大学电子学院图书馆数据档案馆的数字对象标识符(doi)提供。自2013年以来,从我们的档案和一些由其他小组重新处理的数据集中检索了大约150 GB的数据。
Kroon-Batenburg,L.M.J.和Helliwell,J.R.(2014)《水晶学报》。D类70, 2502-2509. Terwilliger,T.C.(2014)。《水晶学报》。D类70, 2500-2501. (隐藏| 全部隐藏)
|
11:00-11:20 |
咖啡 |
11:20-11:45 |
瓦莱德·米诺尔 |
结晶原始数据:我们在NIH的计划和实施大数据到知识资源 |
摘要|演示 (6.45 MB) |
瓦莱德·米诺尔 弗吉尼亚大学分子生理学和生物物理系,美国弗吉尼亚州夏洛茨维尔市乔丹霍尔杰斐逊公园大道1340号4223室,邮编:22908
NIH试点项目“高分子晶体学再现性综合资源”将创建一个基于网络的衍射图像档案,这些衍射图像是从世界各地的高分子样品中收集的。该资源将增强和维持由蛋白质数据库(PDB)中大分子原子坐标的主要数据源组成的大分子衍射数据。该项目将开发工具,仅从图像中提取元数据,或从PDB矿床和衍射图像中获得的信息组合中提取元数据。将收集自动测定和重新测定大分子结构所需的所有元数据。目前,该项目有1500多个数据集和一个提取某些类型元数据的初步系统。开发的数据挖掘工具将允许分析单个实验,以及使用各种同步加速器和家用源进行的一组实验。衍射仪和元数据可从项目网站获取,网址为http://www.proteindiffraction.org,或通过RCSB PDB网站上PDB存款页面上的链接。本次演讲将介绍对存档执行的数据挖掘的初步结果。 (隐藏| 全部隐藏)
|
11:45-12:10 |
迈克尔·E·沃尔 |
充分利用蛋白质晶体的漫散射数据所需的元数据 |
摘要|演示 (3.17 MB) |
迈克尔·E·沃尔 洛斯阿拉莫斯国家实验室,CCS-3 MS B256,洛斯阿拉莫斯,NM 87545,美国 技术版本号:LA-UR-15-23866
我将回顾使用漫反射X射线散射模拟晶体蛋白质运动的工作。这项工作需要分析原始衍射图像,这些图像在公共数据库中大多无法访问。这些研究中有大量潜在的元数据,包括有关分析方法、扩散强度测量和建模结果的信息。现在,将漫散射纳入传统晶体学的时机已经成熟:现代光束线和探测器正在实现更高质量的数据采集;以前无法进行的计算现在变得可行了;目前的蛋白质晶体结构测定方法已接近仅使用布拉格峰的极限。将原始图像和相关元数据存储在公共数据库中是对所有蛋白质晶体学研究进行扩散散射分析的关键步骤。 (隐藏| 全部隐藏)
|
12:10-12:35 |
Natalie Johnson和M.R.Probert |
X射线起源:保护还是偏执? |
摘要|演示 (5.02 MB) |
娜塔莉·约翰逊1和Michael R.Probert1
1英国NE1 7RU泰恩河畔纽卡斯尔大学贝德森大楼化学学院 电子邮件:N.Johnson5@newcastle.ac.uk
图1。两个衍射图像-哪个是真实的?
对晶体数据的刻意编造以前导致了虚假结构的发表,后来又从受人尊敬的科学期刊上撤回1-3。在这些情况下,已确定的肇事者对结构文件进行了非常简单的修改,例如手动更改单元大小和原子类型,以生成调整后的数据。幸运的是,他们被发现无法提供原始实验数据来支持他们的主张。Kroon-Batenburg和Helliwell4提出要求沉积原始晶体学数据可能是防止提交伪造结构的潜在方法。然而,我们可以证明,重新创建原始衍射图像不再困难,如果这还没有发生,那么为那些不太谨慎的人打开了利用的大门!
许多制造商的探测器帧格式都有很好的文档记录,可以对这些信息进行逆向工程,以编码合成衍射数据。这一过程作为优化电荷密度研究数据收集参数的研究成果被揭示出来。所选择的方法要求我们生成一种算法,该算法以集成的.raw文件中的数据为起点来创建实验图像的副本。对该代码的简单误用可能会获取完全合成化合物的结构因子,并生成衍射图像,处理后会返回人造结构。这些帧与实验确定的真实帧在视觉上无法区分,并且可以使用标准协议完全集成。作者发现这种情况可能令人担忧,需要立即关注。
从这些人工衍射图像处理的数据中提炼出的结构可以通过所有IUCr检查CIF5协议而不发出警报。我们将介绍这种结构、所用算法的全部细节,并提出可以防止这种方法未被检测到的方法。
1.T.刘等。(2010).《水晶学报》。电子66,e13-e14。 2.H.Zhong等。(2010).《水晶学报》。电子66,e11-e12。 3.国际结晶学联合会(2010年)。《水晶学报》。D类66, 222. 4.L.M.Kroon-Batenburg和J.R.Helliwell(2014)。《水晶学报》。D类70, 2502-2509. 5.A.L.Spek(2009)。《水晶学报》。D类65, 148-155.
关键词:数据、仿真、软件, (隐藏| 全部隐藏)
|
12:35-13:00 |
安德烈亚斯·费尔斯特 |
EIGER HDF5数据和NeXus格式 |
摘要|演示 (2.06 MB) |
Andreas Förster和Marcus Müller,Dectris Ltd,Neuenhoferstrasse 107,5400 Baden,瑞士
HDF5是为大数据应用程序设计的容器格式。在其中,大量异构数据可以存储在少量易于管理的文件中。EIGER系列探测器将数千个大图像写入数据集到HDF5文件中,并记录数据处理所需的大部分元数据。元数据保存在一个主文件中,该文件与数据分开,但与数据链接。在本次演讲中,我将介绍HDF5格式和由EIGER检测器编写的一些元数据。我还将讨论处理所必需但探测器未知的元数据,并突出显示EIGER HDF5模板提供的空白字段,以便通过束线例程完成。赫伯特·J·伯恩斯坦(Herbert J.Bernstein)[1]的相关演讲将探索记录实验装置几何结构的方法。严格遵守NeXus委员会制定的标准将有助于软件开发、数据处理和有效存档。
[1] H.J.Bernstein“表征衍射图像的元数据:imgCIF和NeXus”,摘自《X射线衍射和其他结构技术原始数据元数据研讨会》,2015年8月22日至23日,克罗地亚罗文杰。 (隐藏| 全部隐藏)
|
13:00-14:00 |
午餐 |
会议三:衍射图像和其他实验方法的元数据
|
14:00-14:25 |
赫伯特·J·伯恩斯坦 |
imgCIF、HDF5和NeXus中的通用衍射图像元数据规范 |
摘要|演示 (109毫巴) |
赫伯特·J·伯恩斯坦 美国纽约州罗切斯特理工学院化学与材料科学学院
新一代快速像素阵列检测器的引入,如Dectris Eiger和Cornell-SLAC像素阵列检测器(CSPAD),要求我们重新审视和扩展过去用于表示数据的方法(衍射图像)以及元数据(重建收集数据的实验环境所需的信息)[1][2]。例如,imgCIF(image-supporting-CIF)字典中的轴描述已被证明能够有效地可靠地保存有关光束、晶体和探测器的逐帧相对位置的信息,并已映射到HDF5和NeXus的上下文中,以支持新的Eiger格式。有关Dectris Eiger特定HDF5/NeXus格式的讨论,请参阅Andreas Förster的演讲[3]。我们正在引入一种新的扩展模板方案,以允许每条波束线指定独特的特征,从而允许波束线的元数据指定为HDF5/NeXus文件或等效的CBF/imgCIF文件,从中将生成与运行特定数据和元数据合并的站点文件。为了方便起见,将提供站点模板的中央存储库。这种方法将有助于确保原始数据的易处理性,并有助于可靠地处理存档数据。
[1] H.J.Bernstein、J.M.Sloan、G.Winter、T.S.Richter、NIAC、COMCIFS,“应对大数据图像格式:CBF、NeXus和HDF5的集成”,计算晶体学新闻稿, 2014,5, 12-18. [2] A.S.Brewster、J.Hattne、J.M.Parkhurst、D.G.Waterman、H.J.Bernstein、G.Winter、N.K.Sauter,“XFEL探测器和图像CIF”,计算晶体学时事通讯, 2014,5, 19-25. [3] A.Förster,M.Mueller,“EIGER HDF5数据和NeXus格式”,《X射线衍射和其他结构技术原始数据元数据研讨会》,2015年8月22日至23日,克罗地亚罗文杰。
这项工作部分得到了Dectris和NIGMS的支持。 (隐藏| 全部隐藏)
|
14:25-14:50 |
安德鲁·戈茨 |
采用通用方法定义、组织和存储ESRF所有实验的元数据 |
摘要|演示 (3.31 MB) |
安德鲁·戈茨 法国格勒诺布尔,38000,烈士大道71号,欧洲同步辐射设施
经过20多年的运行,ESRF元数据的情况在波束线之间仍然非常不同。分析原始数据所需的元数据的定义和收集方式在很大程度上取决于相关的波束线。方法多种多样,从在MX波束线上实现的全自动解决方案到自动和手动收集元数据的组合。本次演讲不会介绍MX的解决方案(更多信息,请参阅Gordon Leonard的演讲),但会介绍一种新的方法,用于自动收集和存储所有实验的定义良好的元数据。该解决方案基于ESRF构建的通用工具,该工具使用HDF5作为文件格式,使用Nexus作为定义(如果可能),使用ica作为元数据目录。演讲将介绍其在纳米断层扫描、荧光和放射治疗中的具体应用实例。正在进行的工作将如何扩展到小角度散射、相干衍射以及最终所有其他技术。演讲结束时将讨论元数据在数据政策和管理中的作用。 (隐藏| 全部隐藏)
|
14:50-15:15 |
约翰·卫斯布鲁克 |
PDB和实验数据 |
演示 (7.45 MB) |
15:15-15:35 |
茶叶 |
15:35-16:00 |
汤姆·特威利格 |
实现Living PDB以及原始衍射数据及其元数据的帮助 |
摘要|演示 (57千字节) |
托马斯·特威利格1和杰勒德·布里科尼2
1洛斯阿拉莫斯国家实验室,Mailstop M888,Los Alamos,NM 87545,USA电子邮件:terwilliger@lanl.gov
2Global Phasing有限公司,英国剑桥城堡公园喜来登酒店,CB3 0AX。电子邮件:gb10@globalphasing.com
蛋白质数据库(PDB)是大分子结构信息的权威存储库。随着新的分析方法、新的生物信息和描述结构的新方法的可用,PDB中大多数条目的结构因子的可用性使得通过重新解释现有结构的主要数据,可以不断改进PDB中的模型。一旦与每个条目相关的衍射图像变得可访问,这种持续改进将更加强大。
关键因素是,沉积原始图像将促进集成和处理软件的改进,就像沉积合并X射线数据一样,极大地促进了精细化软件的进步。使用改进后的软件重新查看沉积图像将提供更准确的数据(尤其是不受目前对多个晶格污染处理不足的影响),以重新定义沉积结构本身。
随着对结构、原始结构因子和原始图像的初步解释,将有可能对结构进行广泛验证,并在新算法可用时应用新算法进行结构确定和分析,从而使结构的准确性和完整性不断提高。
关键词:结构质量;验证;PDB;自动化;结构测定;原始数据沉积 (隐藏| 全部隐藏)
|
16:00 |
关闭 |
|
8月23日星期日
|
09:00 |
正常开放 |
第四部分:更广阔世界中的数据——从实验室到数据库
|
09:00-09:25 |
西蒙·科尔斯 |
上下文中的衍射数据:元数据方法 |
摘要|演示 (3.62 MB) |
西蒙·科尔斯 英国南安普顿大学自然与环境科学学院化学系英国国家晶体学服务中心副教授兼主任
衍射实验及其产生的结果必须经常放在特定的科学背景下-例如在化学晶体学中,它们通常是与合成和表征新化合物有关的研究的一部分。实验的背景,即为什么要执行它,往往会丢失&尤其是在数据自行发布的情况下。
我将介绍一些方法,不仅将元数据归因于结晶学实验的结果,还将归因于导致这些结果的一般化学。建立支持这一点的模型的第一阶段工作已经发布——http://www.jcheminf.com/content/5/52。我将继续讨论两个项目的近期工作:(1)与五大制药公司、仪器制造商、电子实验室笔记本电脑供应商和皇家化学学会合作,以获取用于捕获执行实验“过程”的元数据;(2)项目(https://blog.soton.ac.uk/奶油/)旨在在进行研究的过程中积极使用元数据,而不仅仅是为了存档。最后,我将深入了解在归档和传播原始晶体学数据时,在这些项目中分配元数据的方法是如何重要的。 (隐藏| 全部隐藏)
|
09:25-09:50 |
苏珊娜·沃德 |
CCDC元数据计划 |
摘要|演示 (4.15 MB) |
苏珊娜·沃德(Suzanna Ward)、伊恩·布鲁诺(Ian J.Bruno)、科林·R·格鲁姆(Colin R.Groom)和马修·莱特福特(Matthew Lightfoot) 剑桥晶体数据中心,12 Union Road,Cambridge,CB2 1EZ 半个世纪以来,剑桥晶体数据中心(CCDC)创建了剑桥结构数据库(CSD),使世界各地的科学家能够共享、搜索和重用小分子晶体结构数据。CSD中的条目通常被视为“只是”一组坐标,但相关元数据(描述和提供其他数据信息的数据)对于将条目上下文化至关重要。描述所研究物质、所进行实验和数据集整体的数据都至关重要。
本演示文稿的时间适逢CSD成立50周年,将探讨从CSD的发布到传播过程中元数据的使用方式。在展望未来之前,我们将了解围绕元数据的最新发展如何有针对性地提高晶体结构数据的可发现性、验证性和重用性。 (隐藏| 全部隐藏)
|
09:50-10:15 |
布莱恩·马修斯 |
支持STFC的数据管理工作流 |
摘要|演示 (2.66 MB) |
布莱恩·马修斯(Brian Matthews),科学计算,卢瑟福德·阿普尔顿实验室,科学与技术设施委员会,英国哈维尔牛津,迪德科特OX11 0QX
STFC开发了一种系统化的方法,用于管理和存档其大型分析设施产生的数据,ISIS中子源、金刚石光源和中央激光设施也在使用这种方法。这是围绕ICAT实验元数据目录展开的。ICAT作为一个核心中间件组件,记录和指导原始数据的存储以及数据的后续访问和重用;它已经发展成为一套可用于构建数据管理基础设施的工具。在这次演讲中,我将描述ICAT的现状。
设备产生的数据速率和数据量不断增加,实验科学变得更加复杂。这给用户社区在访问、处理和处理数据方面带来了挑战。我将描述解决这些问题的一些方法,并考虑我们如何在大型设施中探索对数据分析和发布工作流的进一步支持。最后,我将考虑如何开发元数据来捕获和跨社区共享这些信息。 (隐藏| 全部隐藏)
|
10:15-10:40 |
皮埃尔·阿勒 |
钻石元数据和原始数据编目概述 |
摘要|演示 (1.48 MB) |
|
Pierre Aller和Alun Ashton,英国牛津郡迪科特科学部钻石光源
钻石光源作为一个相对较新的设施,已经能够捕获和编目其所有原始数据(现在超过3.6 PB)。此外,尽可能多的元数据和处理过的数据始终与原始数据进行比较,并捕获到两个数据库(ISPyB)中进行查询和快速访问,以及原始数据文件(imgCIF/CBF和NeXus)中。将介绍这些进展情况。 (隐藏| 全部隐藏)
|
10:40-11:05 |
布莱恩·麦克马洪 |
更广阔世界中的CODATA和(元数据)数据特征 |
摘要|演示 (2.74 MB) |
布莱恩·麦克马洪 IUCr,5 Abbey Square,Chester CH1 2HU,UK。电子邮件:bm@iucr.org
本研讨会专注于科学元数据及其在最大限度地提高科学数据的实用性、可信度和重用方面的重要性,特别是为进一步的研究途径,甚至新的科学见解打开大门。在更一般的情况下,“元数据”是对数据集进行分类、分类和收集的工具。本演示文稿将回顾一些对通用元数据以及不同学科或社区的元数据规范之间的互操作性感兴趣的组织。CODATA/VAMAS纳米材料描述工作组提供了一个在广泛的跨学科框架中整理不同专业元数据元素的好例子。将简要讨论通用和专业元数据系统之间的粒度不匹配。 (隐藏| 全部隐藏)
|
11:05-11:25 |
咖啡 |
第五部分:需要哪些新的元数据项?
|
11:25-11:50 |
戈登·伦纳德 |
需要什么元数据才能使ESRF原始MX衍射数据对新用户来说清晰易懂? |
摘要|演示 (5.65 MB) |
戈登·伦纳德 结构生物学小组,欧洲同步辐射设施,CS40220,38043 Grenoble Cedex 9,France
在配备快速读出光子计数像素探测器的现代同步电子基高分子晶体学(MX)光束线上进行实验期间可以收集的衍射数据量及其收集速度意味着用户目前很难(或不可能)进行手动处理,在实验过程中,收集了所有数据集。为了帮助纠正这种情况,并提供成功实验有时需要的在线反馈,“自动处理”软件[1,2]通常与实验室信息管理系统(LIMS)中显示的单个数据集的自动集成、缩放合并和缩减结果一起部署例如ISPyB[3],也可以从中下载。
虽然“自动处理”方法有效(即在绝大多数情况下,对原始衍射图像的实验后处理的需求越来越大。在这种情况下,每个数据集的正确元数据对于确保最佳结果至关重要。对于ESRF收集的MX衍射数据,该数据存储在ISPyB、原始数据图像本身的标题以及两个主要包(XDS和MOSFLM)的自动生成输入文件中,这两个包通常用于处理ESRF收集到的MX绕射数据。在我的演讲中,我将回顾ESRF MX实验期间当前记录的元数据,并期待在验证目的或测试新数据处理和分析协议时,常规向更广泛的科学界提供原始数据图像时,可能需要进一步的元数据。
[1] G.冬季等。(2013).《水晶学报》。D类69, 1260-1273. doi:10.1010/S0907444913015308 [2] 摩纳哥南部等。(2013).J.应用。克里斯特。 46, 804-810. doi:10.1107/S0021889813006195 [3] S.Delageniere(德拉吉尼埃)等。(2011).生物信息学,27, 3186-3192. doi:10.1093/bioinformatics/btr535。 (隐藏| 全部隐藏)
|
11:50-12:15 |
马修·布莱克利 |
需要什么元数据才能让劳厄-朗之万研究所的中子衍射原始数据为新用户所理解? |
摘要|演示 (8.15 MB) |
|
12:15-12:40 |
卡米尔·久别克 |
高压晶体学中的元数据 |
摘要|演示 (1.13 MB) |
Kamil F.Dziubek公司一和Andrzej Katrusiakb条
一LENS-意大利佛罗伦萨塞斯托欧洲非线性光谱实验室
b条波兰波兹南Adam Mickiewicz大学化学系
与晶体学实验所用特定技术相关的元数据的沉积可以通过制定其制备指南来简化。高压衍射研究是在晶体学研究领域迅速取得进展的实验技术之一。它们包括用于压力产生、压力校准等的附加设备。高压电池可能会干扰初级光束或衍射光束,从而污染衍射图案并导致反射强度误差。实验细节对于数据的评估和分析至关重要,因此元数据需要与原始衍射图像一起存储。
最基本的描述涉及:(1)压力传感器相对于入射光束和探测器的方向;(2) 粉末和单晶的样品制备和形状;(3) 参考高压容器,并针对独特的设备提供其相关部件的尺寸,如砧座设计、垫片厚度、腔室直径、背板类型;(4) 细胞部分的化学成分,例如砧座、垫片和垫板、传压介质;(5) 将样品固定在高压室内的方法(如使用);(6) 数据采集过程中压力传感器的定位方法;(7) 压力测量方法。此信息对于从原始数据中再现结构优化的结果或尝试其他优化方法来说是不可或缺的。由于压力传递介质可能与样品发生相互作用(例如渗透到孔隙中)或介质的静水压极限,压力传递介质会显著改变样品压缩。样本历史记录也会影响结果。如果样品再结晶就地在等温或等容条件下,从溶液或熔体中,应提供结晶方案的详细信息。简单的编辑规则和检查表可以大大简化元数据的存储并增加其信息价值。
作者代表IUCr高压委员会,AK是委员会主席。KFD感谢波兰科学和高等教育部通过“Mobilno希奇Plus”计划提供的财政支持。 (隐藏| 全部隐藏)
|
12:40-13:40 |
午餐 |
第六部分:元数据模式
|
13:40-14:05 |
詹姆斯·海丝特 |
创建和操作通用元数据定义 |
摘要|演示 (1.59 MB) |
詹姆斯·海丝特 澳大利亚核科技组织,澳大利亚新南威尔士州卢卡斯高地新伊拉瓦拉路2234号
元数据讨论通常与特定格式密切相关。然而,关于自然界的事实不能依赖于传播这些事实的媒介。因此,我们能够在不依赖任何特定文件格式的情况下完整地描述元数据,并且无论使用何种特定格式,我们都可以从预先存在的数据传输框架中提取元数据定义。这个有希望的(如果显而易见的话)一般性结论并没有指定在我们的无格式元数据定义中需要提供什么信息。继Spivak和Kent(2012)之后,我认为元数据定义可以表示为将某个域映射到某个范围的函数就足够了。
本演讲将探讨此方法的一些含义,包括文件格式和元数据规范的独立性、不同格式的数据文件之间相互转换算法的规范、不同元数据项目的统一,以及生成完整元数据描述的简单步骤。
Spivak D.I.,Kent R.E.(2012)“奥洛格:知识表示的分类框架。”公共科学图书馆,7(1) :e24274。doi:10.1371/journal.pone.0024274 (隐藏| 全部隐藏)
|
14:05-14:30 |
布莱恩·麦克马洪 |
作为元数据库的结晶信息框架 |
摘要|演示 (2.50 MB) |
布莱恩·麦克马洪 IUCr,5 Abbey Square,Chester CH1 2HU,UK。电子邮件:bm@iucr.org
晶体信息文件(CIF)于1991年作为晶体学中的数据交换标准引入[1],并已嵌入到单晶和粉末衍射的实践中。CIF有描述大分子结构和衍射图像的版本[2],因此CIF可以在从图像捕获到发布的数据管道中的任何地方使用,这就是所谓的“相干信息流”(也称为CIF!)[3]。
在实践中,数据模型和文件格式的细微差异导致了CIF的“方言”,可以很好地共存。然而,在实现完全互操作性方面存在着一个随之而来的障碍。新版本的CIF格式[3]将允许开发新一代CIF“词典”(正式数据描述模式或“本体”)。这将允许以任何形式在现有CIF数据文件之间进行全自动转换,但还可以为任何类型的晶体信息提供描述性框架。形式上,CIF方法没有区分“数据”和“元数据”,因此可以任意适应并扩展到结构科学的任何领域或更远的领域。由于CIF格式具有非常简单的语法结构,使得内容非常容易阅读,因此CIF词典可以为非信息学专家的工作科学家开发新的元数据模式提供一个简单的模板。
[1] Hall,S.R.,Allen,F.H.&Brown,I.D.(1991年)。晶体学信息文件(CIF):一种新的晶体学标准档案文件。《水晶学报》。A类47, 655-685. [2] Hall,S.R.和McMahon B.(编辑)(2005年)。国际结晶学表格,第G卷:结晶学数据的定义和交换。多德雷赫特:施普林格。更正重印(2010年)。奇切斯特:威利。 [3] McMahon,B.(2013)。结晶学中的相干信息流。在英国华威大学ECM28结晶信息和数据管理卫星研讨会上的演讲。另请参阅https://youtu.be/BiYETNUbfVo网站 (隐藏| 全部隐藏)
|
14:30-14:40 |
一般性讨论 |
|
14:40-15:00 |
茶叶 |
15:00-15:50 |
|
实践环节:构建元数据描述 |
演示文稿1 (148毫巴)| 演示文稿2 (2.87 MB) |
16:00 |
关闭 |
18:00 |
ECM29开幕式 |