结晶数据

车间报告

出版中的数据科学技能:作者、编辑和审稿人

ECM32卫星研讨会

2019年8月18日奥地利TU Wien

总结

此次为期一天的研讨会是2017年海得拉巴IUCr大会上成立的IUCr数据委员会(CommDat)的第一项重大举措,旨在调查并向IUCr执行委员会报告数据管理的所有相关方面。根据委员会的广泛职责,讲习班包括来自化学和大分子晶体学和粉末衍射领域的贡献,并关注通过出版媒介和数据库沉积报告结构模型的质量。

这一天以以下人员的介绍开始约翰·赫利维尔CommDat主席。他解释说,当天主题的灵感来自IUCr化学期刊的评审过程,其中的文章叙述,支票CIF报告,以及基础处理的衍射数据和导出的坐标数据一起进行了评估,以得出研究的每个方面的记录版本。全天的一个持续主题是考虑这一示范性程序可以扩展到其他领域的程度,例如生物结晶学。 

本次研讨会是在衍射数据沉积工作组组织的关于原始衍射数据保存和再利用的早期研讨会之后举行的[1,2]。一些发言者详细讨论了原始数据存储的主题,反映了社区在支持原始数据可用性方面的重大转变,特别是生物数据(大分子)晶体学和粉末衍射。结构化学家也对获取原始数据的有用性和可取性进行了反思;这一方面将成为下一届IUCr2020大会零日通信研讨会的主题。X射线激光系列结晶学界也对类似的研讨会进行了调查,人们对数据的人工智能分析产生了浓厚的兴趣,这是结晶学其他科学领域中的一个日益增长的趋势,应对此进行详细研究。

第一部分:支票CIF范式

第一次会议回顾了化学晶体学领域的现有实践。安东尼·林登,以前的C学报部分编辑,描述了IUCr化学期刊采用的程序的细节,包括历史介绍。  

布莱恩·麦克马洪从一开始就参与了CIF作为出版和数据交换标准的开发,他梳理了支票CIF这是由基本的CIF设计原则促成的。他将这些确定为完整性(规范足够的元数据,以充分再现研究的实验和建模步骤),正确性或内部一致性(根据可用数据对模型进行描述的有效性),以及上下文(使用现有知识库与类似结构进行比较,以突出异常或异常行为)。这些成分在化学和生物结构验证中都是通用的。他登了广告公共生物,一种为IUCr期刊开发的创作工具,使作者更容易提供必要的实验元数据(尤其是在生物晶体样品制备领域)。  

Ton Spek公司完成了化学概述,并对一些提交的非常差的实践进行了详细的案例研究。他记录了特定原始数据可用性将解决某些情况的位置。

第二部分:超越化学晶体学

米盖尔·阿兰达强调了粉末衍射在原始数据保存和重用方面的潜力,并在他自己的研究中记录了这一点,使用Zenodo将他的原始数据与他最近的文章分享给水泥和混凝土研究他报告了在审查阶段分享其原始数据的非常积极的经验和富有成果的结果。 

在后期的计划更改中,凯·迪德里克斯介入了曼菲尔德·威斯,以前的F学报部分编辑,他们一起准备了关于衍射数据沉积和生物学出版的演讲。Kay使用研讨会说明书中突出显示的句子热情地描述了MX原始衍射数据在具有挑战性的案例中可能发挥的重要作用。 

Loes Kroon-Batenburg公司发表了一篇远程演讲,进一步发展了生物晶体学出版的原始数据机会这一主题。Loes围绕评估数据使用的公平原则(可查找、可访问、可互操作和可重用)及其当前的实际实施展开了演讲。她还推出了一种神奇的新工具,将作者提出的大分子模型的计算衍射图样从测量的衍射图像中减去,以查看还有什么需要解释。[研讨会参与者获悉,Loes已被CommDat选中,并经IUCr 2020国会计划委员会批准,在布拉格发表主题演讲,她已接受。]

第三次会议:加强化学记录

第三次会议审查了如何识别和纠正在过去验证工作中漏掉的问题,以及如何帮助确保作者能够继续根据自己和他人的经验制定最佳实践。 

西蒙·科尔斯苏珊娜·沃德致力于介绍卡尔·施瓦尔贝他在研讨会前不久去世,面临正确互变异构体测定的挑战。卡尔作为CCDC荣誉研究员进行的这项研究引发了如何最好地补救CSD中的这些案件的问题。

马吕斯·雅斯科尔斯基考虑了出版后同行审查的主题和生物领域补救的必要性。他记录了出版物和PDB沉积中描述的大量有问题甚至不存在配体的案例。他记录了PDB中12%的配体“明显错误”。他解决这个问题的方法是继续,甚至扩大,强调在大分子晶体学和验证方面的培训,以及“作者对配体放置的热情较低”。 

佩特拉·邦比奇,评论杂志编辑晶体学评论,描述了评论文章在此类培训中可以发挥的作用。她描述了一系列已发表的文章,这些文章讨论了诸如评估数据质量、估计经过处理的衍射强度方差和SAD定相中的弱信号等主题。她概述了一篇关于裁判数据科学技能的相关评论文章[3],并宣传了类似的文章,旨在为电子晶体学、粉末衍射、化学晶体学等裁判培训文章

第四次会议:未来展望

西蒙·比林,A学报Section Editor,通过描述机器学习的可能性和作为试点研究的测试,如用于对分布函数原始数据中的空间组确定,开启了最后一个前瞻性的会议。 

吉莉安·福尔摩斯,来自IUCr杂志,描述了IUCr数据目前专注于化学晶体结构的简短报告,希望扩展到生物数据报告领域。今年秋天,Loes Kroon-Batenburg将访问切斯特,开始规划一个涉及原始数据的新类别。 

在结束演讲中约翰·海利维尔描述了他20年来鼓励生物学研究模仿IUCr化学期刊的评审和编辑过程的努力。他记录说,他现在正在取得进展,在接受评论文章的邀请时,他始终坚持期刊向他提供基础数据集(处理的结构因子和坐标)以及文章叙述和PDB验证报告。他详细描述了他的报告的典型布局,如他引用的晶体学评论第[3]条。他能够详细地举一个裁判报告的例子自然通信在他和作者的同意下发表了[4]。他提到,到目前为止,他还没有要求任何原始数据集的DOI,但考虑到一整天对原始数据检查和重复使用的热情,以及最近IUCr期刊的一篇社论鼓励一般的原始数据共享,并要求在特定类型的文章中共享[5]–从现在起,他将在自己的裁判中实施这一点。如果期刊采用这一正式政策,那么生物学中改进的裁判实践将大大有助于减少发表后评论文章的数量。 

这一天以开放和广泛的讨论结束,讨论的主题包括:从晶体数据中提取信息和知识的开放同行评审、人工智能和机器学习,不断改进的同步辐射和X射线激光设施不断扩大的数据流,以及仍在进行的探测器增强。

[1] IUCr DDDWG衍射数据沉积研讨会报告和会议记录,挪威卑尔根,2012年8月。https://www.iucr.org/resources/data/dddwg/bergen-workshop
[2] IUCr DDDWG研究数据管理研讨会报告和会议记录,美国新奥尔良,2017年5月。https://www.iucr.org/resources/data/dddwg/new-orleans-workshop网站
[3] Helliwell,J.R.(2018)。裁判的数据科学技能:I生物X射线晶体学,晶体学评论,24,263-272,内政部:10.1080/0889311X.2018.1510878
[5] Helliwell,J.R.、Minor,W.、Weiss,M.S.、Garman,E.F.、Read,R.J.、Newman,J.、van Raaij,M.J.,Hajdu,J.和Baker,E.N.(2019年)。可找到的可互操作可重复使用(FAIR)衍射数据正在进入蛋白质晶体学。IUCrJ大学,6, 341-343. 内政部:10.1107/S2052252519005918