1.简介
1.1. 各种科学数据的重要性
这篇文章标题的含义似乎不言而喻。对于科学探究来说,“数据”是我们收集来探索自然、检验假设、提出新特性和机制以及做出“事实发现”的数据。然而,“数据”是一个非常宽泛的术语。在晶体结构实验中,它可能指“原始”数据,例如在衍射仪处收集的衍射图像(尽管即使这些图像也不是真正的“原始”图像,因为它们是根据探测器的电子和机械特性捕获的,具有该特定设备固有的任何限制或缺点)。它也可以指“处理过的”数据,例如合并的结构因素,这些数据是由原始图像的校准、还原和其他操作产生的,并且构成了结构解决方案和模型的材料精细化。术语“数据”也用于导出结构模型本身的逐项描述(如存储在结构数据库中的坐标集和各向异性位移参数)。
在所有这些类别中,晶体学都存在。通过原始衍射数据集,我们可以尽可能多地获取有关晶体原子的信息就地使用经过处理的衍射数据集,我们保留了晶体中结构单元的平均描述,但我们可能忽略了包含无序或大规模关联信息的扩散散射强度,或者我们可能忽略第二个晶格,就像在伪四面体的情况下孪生。当我们考虑衍生结构模型时,我们基本上已经将分子结构或“典型”原子环境理想化了。在每个步骤中,我们的抽象级别(通常)都适合手头的研究。然而,晶体学硬件和软件的成功有时会让我们产生一种错误的安全感,一种轻微的忘记自然界全部复杂性的倾向,这种复杂性可以通过对我们正在检查的衍射数据集进行更仔细的检查来分析出来。
晶体学有着强大的数据共享传统,不必过分强调实验数据的仔细和关键的再分析经常导致衍生结构模型的改进(例如,见Marsh等。, 2002
). 在化学晶体学领域,有一些典型的行为,例如结晶学报C辑由1993年至1999年编辑领导的悉尼大厅(CODATA 2014国际数据奖得主),为裁判员和编辑提供基础数据和提交的文章。因此,一篇被接受的文章将结构因素和坐标作为数据的“记录版本”附加在其上。随后,一种化学物质晶体结构数据库[例如剑桥结构数据库(CSD)、晶体学开放数据库(COD)、无机晶体结构数据库(ICSD),国际衍射数据中心(ICDD)]可以从裁判员和编辑的这种应有的关心和关注中获得巨大的利益,并获得这些版本的数据和文章记录。
2.一些定义和本文的范围
在单晶结构分析中,“原始”数据被理解为衍射图像,尽管在某种程度上这些图像已经过处理,例如校正畸变或漫射场。原始数据也可以称为“主要”数据,这是另一个完全可以接受的术语。通过对这些衍射图像的处理,可以预测布拉格反射拦截探测器的位置(布拉格点),并估计其强度;这一步包括,首先,确定晶体的单位-细胞参数。根据这些经过处理的衍射数据,确定并完善了分子模型。模型中原子的最终坐标和原子位移参数称为导出数据。在晶体结构分析、探针和方法涵盖了X射线、中子和电子的使用,上述描述符(原始数据、处理数据和衍生数据)适用于每种情况。
除了单晶外,还有其他类型的实验样品,即粉末、纤维、表面、无定形固体或液体或气体。在实践中,没有真实的晶体或其他材料样品符合理想化模型,衍射图案或其他结构实验数据集的解释必须注意不要丢弃描述实际样品但与理想化模型不一致的重要特征。就本文而言,由于没有经过中间处理的数据,这些非单晶衍射实验的实验“原始”衍射数据构成了“数据”,可能存在定义过于笼统的风险。整个衍射图像直接导致导出的分子模型及其结构动力学。如上文所述,这种原始数据有时被称为“主要”数据。在粉末衍射图案的情况下,在理想的样品情况下,全二维衍射图案可以还原为一维衍射轮廓。
`通过衍射研究的实际样品不必处于上述任何理想状态。因此,单晶可以有各种缺陷或动态,无论是在短范围内单位电池或跨越多个单元,导致布拉格峰下方或布拉格峰之间的“漫散射”。因此,显然,研究潜在无序和动力学需要原始衍射图像。Welberry&Weber(2016)对漫散射方法和“配对分布函数(PDF)”进行了最新的广泛综述
)和Billinge(2018年
)分别是。
本文的范围仅限于从衍射数据进行单晶和粉末结构分析。
4.科学案例研究
4.9. 物理晶体学的一个例子:X射线衍射的新理论
费斯特(2014
, 2016
)提出了一种新的X射线衍射理论;这个(我们引用)
X射线散射的新理论与粉末衍射特别相关。这一理论的基本概念是,晶体或微晶的散射分布在整个空间:这导致即使不满足“布拉格条件”,也可以在“布拉格位置”观察到增强散射。单晶或微晶在任何固定方向上的散射都具有同时产生许多“布拉格位置”的迷人特性。这也解释了为什么衍射峰是从微晶很少的样品中获得的,而这无法用传统理论解释……当应用于粉末散射时,该理论将评估完整的散射剖面,包括峰值宽度和“背景”……强度在布拉格条件外严重分散,因此散射功率也是如此。
通过大量样品对这一新理论的验证表明,理想情况下,将原始衍射数据作为衍射图像而不是一维剖面进行常规存档将是有益的。 6.总结
本文概述了原始衍射数据的保存。它通过一系列科学案例研究记录了利用数字档案在我们的活动中引发革命的潜力,这些研究是国际自然科学联合会各科学委员会的例证。高容量强健的存储归档是我们现在可以使用的一种极好的资源。
自IUCr执行委员会于2011年成立DDDWG以来,过去六年中,寻求原始衍射保存和再利用机会的动机背后的哲学和实践观点发生了有趣的变化。
当然,由于晶体学家使用的原始数据集的大小、他们在任何一年的研究活动中的典型数量,以及晶体学界相当大的事实(~152000人登记在IUCr世界结晶器名录中;https://www.iucr.org/people/wdc).
除ICDD外,如§
4.2,现有的晶体学数据档案不愿意承担这一挑战的规模,因为成本高,也因为缺乏社区共识。然而,令人高兴的是,晶体学数据库参与或建议了DDDWG,这是既定数据库组织的一个合理立场。尽管期刊可以看到将原始数据与出版物联系起来的哲学上令人信服的论点,但它们还是不愿意接受通过文章传输给它们的原始衍射数据的“机会”(斯特里克兰等。, 2008
). 他们担心的是存储容量和与功能扩展相关的网络带宽过载。一个例外是存在较小的数据集文件,例如小角度X射线散射(SAXS),其中数据附在文章上;有关示例,请参见Rhys等。(2011
). 作为历史背景的一部分,值得注意的是,在IUCr Journals早期,导出的结构因子数据表通常作为计算机生成的表的照片发布在每个晶体结构纸张。当时连处理过的数据都没有计算机存储!
资助机构在制定研究数据管理政策和向其资助的研究补助金持有人征税的同时,不希望负责支付数据档案费用。英国大学的观点是承担数据存档的责任。在这里,曼彻斯特大学作为主要的研究机构,是先驱者之一。这是一项重大的总体倡议,其愿景是开放,以利于改进和加快研究,造福社会(Moedas,2016年
)是上面描述的Zenodo档案。
总的来说,我们强调所有数据包括原始数据应该向科学文献的读者开放,使他们能够检查作者在给定研究中做出的所有决定。至少,科学在于数据!
致谢
我们非常感谢IUCr衍射数据沉积工作组的所有其他成员:Steve Androulakis(澳大利亚)、Sol Gruner(美国)、D.Marian Szebenyi(美国)和Tom Terwilliger(美国),Edgar Weckert(德国)、John Westbrook(美国)以及Heinz-Josef Weyer(不幸逝世,瑞士)。我们非常感谢STFC的克里斯·莫里斯(Chris Morris)和南安普顿大学的西蒙·科尔斯(Simon Coles)对这份手稿的早期草稿提出了非常有益的意见。我们还感谢一位匿名裁判建议将表1中的案例研究分类
根据它们对存放的数据集的依赖性。
工具书类
Billinge,S.J.L.(2018)。国际结晶学表,卷。H(H)第5.7章。在媒体上。 谷歌学者
布拉格·W·L(1913)。程序。R.Soc.伦敦Ser。A类,89, 248–277. 交叉参考 中国科学院 谷歌学者
Caruso,F.、Tanski,J.、Villegas-Estrada,A.和Rossi,M.J.(2004)。农业。食物。化学。 52, 7279–7285. 科学网 CSD公司 交叉参考 中国科学院 谷歌学者
Choi,J.、Chon,J.K.、Kim,S.和Shin,W.(2008年)。蛋白质,70, 1023–1032. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Christensen,E.M.、Patel,S.M.、Korasick,D.A.、Campbell,A.C.、Krause,K.L.、Becker,D.F.和Tanner,J.J.(2017)。生物学杂志。化学。 292, 7233–7243. 科学之网 交叉参考 中国科学院 公共医学 谷歌学者
Edwards,C.、Palmer,S.B.、Emsley,P.、Helliwell,J.R.、Glover,I.D.、Harris,G.W.和Moss,D.S.(1990)。《水晶学报》。A类46, 315–320. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Fewster,P.F.(2014)。《水晶学报》。A类70, 257–282. 科学网 交叉参考 IUCr日志 谷歌学者
Fewster,P.F.(2016)。《水晶学报》。A类72, 50–54. 科学网 交叉参考 IUCr日志 谷歌学者
Gillmor,S.A.、Villaseñor,A.、Fletterick,R.、Sigal,E.&Browner,M.F.(1997)。自然结构。生物。 4, 1003–1009. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
Grabowski,M.、Langner,K.M.、Cymborowski,M.、Porebski,P.J.、Sroka,P.、Zheng,H.、Cooper,D.R.、Zimmerman,M.D.、Elsliger,M.-A、Burley,S.K.和Minor,W.(2016)。《水晶学报》。D类72, 1181–1193. 科学网 交叉参考 IUCr日志 谷歌学者
Guss,J.M.和McMahon,B.(2014)。《水晶学报》。D类70, 2520–2532. 科学网 交叉参考 IUCr日志 谷歌学者
Hatti,K.、Mathiharan,Y.K.、Srinivasan,N.和Murthy,M.R.N.(2017年)。《水晶学报》。D类73, 609–617. 科学网 交叉参考 IUCr日志 谷歌学者
Helliwell,J.R.(2017)。arXiv公司:1704.08848.https://arxiv.org/abs/1704.08848. 谷歌学者
黄,Y.-H。等。(2015).自然(伦敦),517, 386–390. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
黄,Y.-H。等。(2016).自然(伦敦),536, 359. 科学网 交叉参考 公共医学 谷歌学者
国际标准化组织(2012)。ISO 26324:2012。信息和文件——数字对象识别系统.https://www.iso.org/iso/catalogie_detail.htm?csnumber=43506. 谷歌学者
Joosten,R.P.、Long,F.、Murshudov,G.N.和Perrakis,A.(2014)。IUCrJ大学,1, 213–220. 科学网 交叉参考 中国科学院 公共医学 IUCr日志 谷歌学者
Kabsch,W.(1988年)。J.应用。克里斯特。 21, 916–924. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Kroon-Batenburg,L.M.J.和Helliwell,J.R.(2014)。《水晶学报》。D类70, 2502–2509. 科学网 交叉参考 IUCr日志 谷歌学者
Kroon-Batenburg,L.M.J.、Helliwell,J.R.、McMahon,B.和Terwilliger,T.C.(2017)。IUCrJ大学,4, 87–99. 科学网 交叉参考 中国科学院 公共医学 IUCr日志 谷歌学者
Marsh,R.E.、Kapon,M.、Hu,S.和Herbstein,F.H.(2002)。《水晶学报》。B类58, 62–77. CSD公司 交叉参考 中国科学院 IUCr日志 谷歌学者
Meng,Z.、Lou,Z.,Liu,Z..、Li,M.、Zhao,X.、Bartlam,M.和Rao,Z.(2006)。分子生物学杂志。 359, 1364–1377. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Meyer,G.R.、Aragáo,D.、Mudie,N.J.、Caradoc-Davies,T.T.、McGowan,S.、Bertling,P.J.和Groenewegen,D.、Queette,S.M.、Bond,C.S.、Buckle,A.M.和Androulakis,S.(2014年)。《水晶学报》。D类70, 2510–2519. 科学网 交叉参考 IUCr日志 谷歌学者
迈耶,P.A。等。(2016).自然社区。 7, 10882. 科学网 交叉参考 谷歌学者
Minor,W.,Dauter,Z.,Helliwell,J.R.,Jaskolski,M.&Wlodawer,A.(2016)。结构,24, 216–220. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Moedas,C.(2016)。开放创新、开放科学和面向世界——欧洲愿景。卢森堡:欧洲联盟出版局。 谷歌学者
Niepötter,B.,Herbst-Irmer,R.&Stalke,D.(2015)。J.应用。克里斯特。 48, 1485–1497. 科学网 CSD公司 交叉参考 IUCr日志 谷歌学者
Oldham,M.L.、Brash,A.R.和Newcomer,M.E.(2005年)。生物学杂志。化学。 280, 39545–39552. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Pozharski,E.、Weichenberger,C.X.和Rupp,B.(2013)。《水晶学报》。D类69, 150–167. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Reid,J.R.、Kaduk,J.A.和Vickers,M.(2016)。粉末差异。 31, 205–210. 科学之网 CSD公司 交叉参考 中国科学院 谷歌学者
Rhys,N.H.、Wang,M.C.、Jowitt,T.A.、Helliwell,J.R.、Grossmann,J.G.和Baldock,C.(2011年)。J.同步辐射。 18, 79–83. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Rupp,B.、Wlodawer,A.、Minor,W.、Helliwell,J.R.和Jaskolski,M.(2016)。FEBS J公司。 283, 4452–4457. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Seng,C.O.、Magee,C.、Young,P.J.、Lorson,C.L.和Allen,J.P.(2015)。嗯,分子遗传学。 24, 2138–2146. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Shabalin,I.、Dauter,Z.、Jaskolski,M.、Minor,W.和Wlodawer,A.(2015)。《水晶学报》。D类71, 1965–1979. 科学网 交叉参考 IUCr日志 谷歌学者
Smart,O.S.和Bricogne,G.(2015年)。结晶术在现代药物发现中的多方面作用由G.Scapin、D.Patel和E.Arnold编辑,第165-181页。荷兰:斯普林格。https://doi.org/10.1007/978-94-017-9719-1_13. 谷歌学者
Strickland,P.、McMahon,B.和Helliwell,J.R.(2008)。学术出版物。 21, 63–72. 科学网 交叉参考 谷歌学者
Tanley,S.W.M.、Diederichs,K.、Kroon-Batenburg,L.M.J.、Levy,C.、Schreurs,A.M.和Helliwell,J.R.(2014)。《水晶学报》。F类70, 1135–1142. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Tanley,S.W.M.、Diederichs,K.、Kroon-Batenburg,L.M.J.、Schreurs,A.M.M.和Helliwell,J.R.(2013)。J.同步辐射。 20, 880–883. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Tanley,S.W.M.、Schreurs,A.M.M.、Helliwell,J.R.和Kroon-Batenburg,L.M.J.(2013)。J.应用。克里斯特。 46, 108–119. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Tanley,S.W.M.、Schrers,A.M.M.、Kroon Batenburg,L.M.J.和Helliwell,J.R.(2016)。《水晶学报》。F类72, 253–254. 科学网 交叉参考 IUCr日志 谷歌学者
Tanner,J.J.(2017)。回复:[ccp4bb]PDB中的结构不正确.https://www.mail-archive.com/ccp4bb@jiscmail.ac.uk/msg42167.html. 谷歌学者
Terwilliger,T.C.(2012)。ICSTI见解:活生生的出版物,第16-29页。巴黎:ICSTI。https://www.icsti.org/IMG/pdf/Living_publication_Final-2.pdf 谷歌学者
Terwilliger,T.C.(2014)。《水晶学报》。D类70, 2500–2501. 科学网 交叉参考 IUCr日志 谷歌学者
Terwilliger,T.C.和Bricogne,G.(2014)。《水晶学报》。D类70, 2533–2543. 科学网 交叉参考 IUCr日志 谷歌学者
汤姆森,M.K.(2017)。博士论文。丹麦奥胡斯大学谷歌学者
Weichenberger,C.X.,Pozharski,E.&Rupp,B.(2013)。《水晶学报》。F类69, 195–200. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Weiss,M.S.、Diederichs,K.、Read,R.J.、Panjikar,S.、Van Duyne,G.D.、Matera,A.G.、Fischer,U.和Grimm,C.(2016)。嗯,分子遗传学。 25, 4717–4725. 科学网 中国科学院 公共医学 谷歌学者
Welberry,T.R.和Weber,T.(2016)。结晶器。版次。 22, 2–78. 科学网 交叉参考 中国科学院 谷歌学者
J.扬。等。(2017).结构,25, 536–545. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Zadrozny,J.M.,Xiao,D.J.,Atanasov,M.,Long,G.J.,Grandjean,F.,Neese,F.&Long,J.R.(2013)。自然化学。 5, 577–581. 科学网 CSD公司 交叉参考 中国科学院 谷歌学者
Zarychta,B.、Gianopoulos,C.G.和Pinkerton,A.A.(2016)。生物有机医药化学。莱特。 26, 1416–1418. 科学网 CSD公司 交叉参考 中国科学院 公共医学 谷歌学者
编号:2052-2525
打开
访问