研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标的日志
同步加速器
辐射
国际标准编号:1600-5775

高级光子源材料物理和工程组束线的数据管理和处理工作流

十字标记_颜色_方形_文本.svg

先进光子源,美国伊利诺伊州莱蒙市阿贡国家实验室,邮编60439,b条美国纽约州伊萨卡市康奈尔大学应用与工程物理系,邮编:14853c(c)伊利诺伊大学厄本纳-香槟分校计算机科学系,美国伊利诺伊州厄本纳61801
*通信电子邮件:parkjs@anl.govsveseli@anl.gov

编辑:V.Favre-Nicolin,CEA和法国约瑟夫·傅里叶大学(2018年9月28日收到; 2019年1月10日接受; 2019年2月12日在线)

有效、高效和安全地存储、组织、处理和分发实验数据的能力对于高级光子源等大型用户设施尤为重要。本文描述了APS数据管理系统(DM)在APS的1-ID和6-BM波束线上的部署。这两条波束线支持广泛的实验技术,并以相对较高的速率生成数据,使其成为演示DM系统及其工具的部署和定制的理想候选对象。通过在这些波束线上的几个使用示例,描述了DM系统的各种功能。

1.简介

有效、高效、安全地存储、组织、处理和分发实验数据的能力尤为重要,因为高级光子源(APS)等用户设施容纳了越来越多的用户,开发了更复杂的实验技术套件,并生成了更大的实验数据量。在同步辐射源领域,探测器技术的进步推动了数据采集速度的显著提高光子通量光辉能够充分利用这些新型探测器的扫描技术的进步意味着,高效、安全的数据管理和处理系统对这些设施的成功和可持续运行至关重要。

虽然全面审查数据存储和归档系统的当前状态以及部署在各种同步加速器用户设施的数据处理实践超出了本工作的范围,但值得注意的是其他用户设施的一些发展。对于数据管理和归档解决方案,ICAT系统(https://icaproject.org/)已部署在钻石光源以管理实验数据(https://www.scd.stfc.ac.uk/Pages/Diamond-Light-Source.aspx网站). Paul Scherrer研究所的瑞士光源与瑞士国家超级计算中心合作,实施了一个大型数据存储系统(https://www.cs.ch/发布/压力释放/2018/589/). 最近,国家同步辐射光源II(NSLS-II)部署了一个全面的数据采集和管理系统(https://nsls-ii.github.io/index.html)(阿基利等。2017年[Arkilic,A.、Allan,D.B.、Caswell,T.、Li,L.、Lauer,K.和Abeykoon,S.(2017)。同步辐射。新闻,30(2),44-45。]). 这些解决方案通常通过数据处理或分析工作流管理系统进行增强。例如,软件包西基特-贝姆(https://www.bnl.gov/compsci/projects/structure-dynamics-software.php)或者数据分析工作台(巴沙姆等。, 2015【Basham,M.,Filik,J.,Wharmby,M.T.,Chang,P.C.Y.,El Kassaby,B.,Gerring; 菲利克等。2017年【Filik,J.、Ashton,A.W.、Chang,P.C.Y.、Chater,P.A.、Day,S.J.、Drakopoulos,M.、Gerring,M.W.、Hart,M.L.、Magdysyuk,O.V.、Michalik,S.、Smith,A.、Tang,C.、Terrill,N.J.,Wharmby,M.T.&Wilhelm,H.(2017)《应用结晶》第50卷,第959-966页。】)框架可以与数据采集和管理系统集成,以便进行实时数据分析并向实验者提供反馈。这些解决方案具有相似的目标,但都是为满足每个设施的独特需求而定制和开发的。还有一些活动可以在机构间加入这些类型的努力。例如,中子散射界已经开发了一个通用的分析和可视化框架(https://www.mantidproject.org/Main_Page网站)(阿诺德等。, 2014[Arnold,O.,Bilheux,J.,Borreguero,J.、Buts,A.、Campbell,S.、Chapon,L.、Doucet,M.、Draper,N.、Ferraz Leal,R.、Gigg,M.,Lynch,V.、Markvardsen,A.、Mikelson,D.、Mikkelson,R.,Miller,R.和Palmenvsky,J.(2014)。编号。仪器。方法物理学。决议A,764,156-166。])全世界许多机构都在使用这种方法。最近,欧洲主要用户设施提议建立适当的数据管理和存储基础设施,以便科学界能够更容易地访问和共享这些设施生成的科学数据并重新使用这些数据(https://panosc-eu.github.io/).

在本文中,我们介绍了APS数据管理系统(DM),重点介绍了最终用户体验。有关DM系统架构的详细信息在其他地方介绍(Veseli等。, 2018【Veseli,S.,Schwarz,N.&Schmitz,C.(2018),J.Synchrotron Rad.251574-1580.】); 在这里,我们重点关注APS的1-ID和6-BM光束线DM系统的部署和定制,其中包含使用高能X射线的广泛实验技术。实验技术包括高能衍射显微镜和高能显微计算机断层扫描(Park等。2017年【Park,J.-S.,Okasinski,J.,Chatterjee,K.,Chen,Y.&Almer,J.(2017)。同步辐射。新闻,30(3),9-16。】),并以相对较高的数据速率生成相当大的数据集,使这些波束线成为演示DM系统部署和最终用户体验的理想候选对象。

本文的结构如下。DM系统概述见§2[链接]在§3中[链接],我们概述了APS 1-ID和6-BM波束线支持的实验技术以及与这些技术相关的数据生成速率。通过描述DM系统部署之前如何管理实验数据,我们强调了对健壮数据管理工具的需求。然后,我们继续提供在这些波束线上部署DM系统的示例,特别强调从就地多个探测器同时工作的实验,如果不是同时工作的话(§3.1[链接]). 我们还描述了部署在用于自动化数据处理的1-ID波束线上的DM工作流系统的示例(§3.2[链接]). 在§4中[链接],我们总结了DM系统的影响,并概述了我们对未来的展望。

2.数据管理系统架构

作为美国能源部的一个用户设施,APS使用一套实验技术运行多个终端站,以在多个长度尺度上研究一组不同的材料系统。对于本文实验表示由任意名称表示的对象,该名称与在分配的波束时间块期间在特定波束线或端站生成的数据文件集合相关联。对于1-ID和6-BM光束线,使用主实验者的姓名和分配的光束时间生成实验的任意名称。条款APS用户用户与实验者互换使用;如果实验者是被授予束流时间的团队的一部分,则实验者与实验关联。这种区别对于控制实验者有权访问实验数据。

DM系统(Veseli等。, 2018【Veseli,S.,Schwarz,N.&Schmitz,C.(2018),J.Synchrotron Rad.251574-1580.】)APS开发了一个通用框架和一套工具,光束线可以围绕其构建数据采集、存储、分发和处理工作流。图1[链接]显示了系统的示意图。Veseli中提供了更详细的示意图,描述了每个服务的组件等。(2018【Veseli,S.,Schwarz,N.&Schmitz,C.(2018),J.Synchrotron Rad.251574-1580.】). 虽然DM系统由许多组件组成,但它可以大致分为两个主要功能部分——DM软件和DM存储。这些在图1中以绿色突出显示[链接]它们是为了与现有的APS系统进行交互而构建的,例如已经用于实验的数据采集(DAQ)系统(图1中以黄色突出显示[链接]).

[图1]
图1
APS DM系统示意图。Veseli给出了该图的更详细版本等。(2018[Veseli,S.,Schwarz,N.和Schmitz,C.(2018)。《同步辐射杂志》,251574-1580。]).

DM软件的组件可分为以下类别之一:

(i) APS全方位服务。这些服务包括中央DM数据库(DB),用于跟踪所有APS实验和实验者标识符。这些标识符可以通过一套管理工具进行管理。APS-wide服务还包括负责管理数据文件及其访问权限的存储管理服务。例如,当一个新文件被传输到DM Storage时,存储管理服务会确保该文件与正确的实验关联。它还确保对该文件应用适当的权限,从而允许授权用户远程访问该文件。

(ii)波束特定服务。这些服务包括数据采集(DAQ)服务、波束线元数据目录服务和工作流处理服务。DAQ服务负责监视指定的文件系统位置,并将新的或修改的数据文件传输到DM存储。波束线元数据目录服务跟踪与数据文件相关的元数据,例如文件大小、MD5校验和值以及在传输到DM存储器之前文件系统中的原始位置。该元数据目录目前不包括扫描或X射线照射相关信息。工作流处理服务管理和执行束线定义的工作流,其中工作流是一组处理步骤,用于减少或分析实验数据。它能够将作业提交给可用的计算资源并监视其进度。

(iii)监测服务。每个DM服务都有内置的监控接口,使外部应用程序能够更多地了解其状态(例如服务的操作状态、队列中的文件数)。这些接口由自定义Nagios使用(https://www.nagios.org/)为DM系统构建的插件。

(iv)用户界面。DM用户和管理员可以通过web门户、桌面图形用户界面(GUI)或全套命令行工具以及Python和Java应用程序编程接口(API)与DM系统进行交互。命令行工具可以用作构建块,以生成一组自定义工具,以满足特定梁线的需要。图2[链接]显示了DM Python API的使用示例。这里,Python脚本的任务是检索与名为t吨小时_第页第页18。有关这些接口选项的更多信息,请访问https://confluence.aps.anl.gov/display/DMGT/Data网站+管理在维塞利等。(2018【Veseli,S.,Schwarz,N.&Schmitz,C.(2018),J.Synchrotron Rad.251574-1580.】).

[图2]
图2
DM API用法示例。有关更多示例,请访问https://confluence.aps.anl.gov/display/DMGT/Data网站+管理.

DM软件是用Python(REST web服务和客户端)和Java(用户web门户)编写的。它是围绕现代开源数据库(MongoDB、,https://www.mongodb.com; PostresSQL,https://www.postgresql.org)、CherryPy web框架、,https://cherrypy.org网站)和API(Java Persistence API和JavaServer Faces,https://www.oracle.com/technetwork/java/javaee/overview/index.html带底漆,https://primefaces.org网站).

DM存储使用1.5PB(聚丁二烯)1具有高性能GPFS文件系统的Data Direct Networks(DDN)存储系统(Schmuck&Haskin,2002)[Schmuck,F.&Haskin,R.(2002)。《FAST 2002文件和存储技术会议论文集》,2002年1月28日至30日,美国加利福尼亚州蒙特雷,第231-244页。]). 存储系统已启用数据冗余。DM存储器有一个10具有两条冗余网络链路的Gbps网络带宽容量。只读数据访问通过aps#数据Globus Online(福斯特,2011年[Foster,I.(2011),IEEE互联网计算,15,70-73。]; 艾伦等。, 2012[Allen,B.,Pickett,K.,Tuecke,S.,Bresnahan,J.,Childers,L.,Foster,I.,Kandaswamy,G.,Kettimuthu,R.,Kordas,J.。Link,M.&Martin,S.(2012)。美国医学会委员会,55,81。])端点。用户身份验证由Globus Online MyProxy和轻型目录访问协议(LDAP)服务器处理。设想定期进行硬件更新,以跟上不断增长的数据速率;例如,DM存储将于2019年初更新为具有更大文件系统的系统(从1PB存储到4PB存储)和带宽容量。

用户访问实验数据文件的授权基于实验LDAP组成员身份。DM系统中的每个实验都与相应的LDAP组相关联,该组由通过以下方式访问实验数据的用户组成aps#数据Globus Online端点。DM光束线管理器可以使用APS实验安全授权表数据库、APS通用用户建议数据库或DM用户名的简单列表来控制实验的实验者成员身份。

3.在APS 1-ID和6-BM波束线上部署DM

APS材料物理与工程(MPE)小组操作1-ID和6-BM光束线2用于研究各种多晶材料(Park等。2017年【Park,J.-S.,Okasinski,J.,Chatterjee,K.,Chen,Y.&Almer,J.(2017)。同步辐射。新闻,30(3),9-16。】). 一维光束线提供高能单色X射线,以支持多种实验技术,如微型计算机断层扫描(µ-CT)、广角X射线散射(WAXS)、小角X射线衍射(SAXS)以及近场和远场高能衍射显微镜(NF-和FF-HEDM)(王等。, 2003[王,X.-L.,阿尔默,J.,刘,C.T.,王,Y.D.,赵,J.K.,斯托伊卡,A.D.,哈夫纳,D.R.和王,W.H.(2003).《物理评论稿》91,265501.]; 哈夫纳等。, 2005【Haeffner,D.,Almer,J.和Lienert,U.(2005)。材料科学与工程A,399,120-127。】; 苏特等。, 2006[Suter,R.M.,Hennessy,D.,Xiao,C.&Lienert,U.(2006),科学仪器评论77,123905.]; 利纳特等。, 2011[Lienert,U.,Li,S.F.,Hefferan,C.M.,Lind,J.,Suter,R.M.,Bernier,J.V.,Barton,N.R.,Brandes,M.C.,Mills,M.J.,Miller,M.P.,Jakobsen,B.&Pantleon,W.(2011),JOM,63,70-77.]). 6-BM光束线提供多色X射线以支持能量色散衍射(EDD)和µ-CT。除了EDD技术外,这些技术还使用了几种类型的面积探测器系统。表1[链接]总结了可用的检测器和近似数据速率。值得比较使用相同检测器的WAXS和FF-HEDM技术。衍射/散射层析成像等技术等。, 2008【Stock,S.R.,De Carlo,F.&Almer,J.(2008),《结构生物学杂志》161,144-150。】)WAXS主要是一种粒度平均技术,需要最少的样本旋转和数据。另一方面,FF-HEDM是一种颗粒分辨技术,需要大量的样本旋转和数据。因此,WAXS数据集通常小于FF-HEDM数据集。

表1
用于APS 1-ID和6-BM光束线实验技术的探测器系统概述。此处列出的软件是可用于相关技术的软件示例,绝非详尽无遗

实验技术 探测器特性 最大数据速率 示例分析工具
WAXS和FF-HEDM 四块409.6的面板毫米×409.6mm有效面积/2048×2048像素/14位像素 每个面板生成8个7时为MB赫兹(56MB(MB)−1)/四个面板生成327时为MB赫兹(224MB(MB)−1) 自定义脚本,适合2d(哈默斯利,1995年[Hammersley,A.P.(1995)。ESRF内部报告ESRF97HA02T。ESRF,法国格勒诺布尔。], 2016【Hammersley,A.P.(2016),《应用结晶杂志》,第49期,第646-652页。】),GSAS2(托比和冯·德雷勒,2013年【Toby,B.H.&Von Dreele,R.B.(2013),《应用结晶杂志》,第46期,第544-549页。】)和MAUD公司(卢特罗蒂,2010年[Lutterotti,L.(2010),《Nucl.Instrum.Methods Phys.Res.B》,268,334-340)对于WAXS;六角形(伯尼尔等。, 2011【Bernier,J.V.、Barton,N.R.、Lienert,U.和Miller,M.P.(2011)。《菌株分析与工程设计杂志》第46期,第527-547页。】),MIDAS公司(沙尔马等。, 2012【Sharma,H.、Huizenga,R.M.和Offerman,S.E.(2012a),《应用结晶杂志》第45期,第693-704页。】b条【Sharma,H.、Huizenga,R.M.和Offerman,S.E.(2012b),《应用结晶杂志》第45期,第705-718页。】)和寓言一揽子计划(施密特,2014【施密特·S(Schmidt,S.)(2014),《应用结晶杂志》,第47、276-284页。】)用于FF-HEDM
WAXS和FF-HEDM 一块290.8毫米×229.8mm有效面积/3888×3072像素/14位像素 2310时为MB赫兹(230MB(MB)−1) 自定义脚本,适合2d(哈默斯利,1995年[Hammersley,A.P.(1995)。ESRF内部报告ESRF97HA02T。ESRF,法国格勒诺布尔。], 2016【Hammersley,A.P.(2016),《应用结晶杂志》,第49期,第646-652页。】),GSAS2(托比和冯·德雷勒,2013年【Toby,B.H.&Von Dreele,R.B.(2013),《应用结晶杂志》,第46期,第544-549页。】)和MAUD公司(卢特罗蒂,2010年[Lutterotti,L.(2010),《Nucl.Instrum.Methods Phys.Res.B》,268,334-340)对于WAXS;六角形(伯尼尔等。, 2011【Bernier,J.V.、Barton,N.R.、Lienert,U.和Miller,M.P.(2011)。《菌株分析与工程设计杂志》第46期,第527-547页。】),MIDAS公司(沙尔马等。, 2012【Sharma,H.、Huizenga,R.M.和Offerman,S.E.(2012a),《应用结晶杂志》第45期,第693-704页。】b条[Sharma,H.,Huizenga,R.M.和Offerman,S.E.(2012b)。《应用晶体》杂志,第45705-718页。])和寓言一揽子计划(施密特,2014【施密特·S(Schmidt,S.)(2014),《应用结晶杂志》,第47、276-284页。】)用于FF-HEDM
SAXS公司 一块62块的面板毫米×25mm有效面积/1024×476像素/15位像素 0.8100时为MB赫兹(80MB(MB)−1) 自定义脚本和爱尔兰(Ilavsky&Jemian,2009年[Ilavsky,J.&Jemian,P.R.(2009),《应用结晶杂志》,第42期,第347-353页。])
NF-HEDM公司 一个3.03面板毫米×3.03mm有效面积/2048×2048像素/12位像素 84时为MB赫兹(32MB(MB)−1) 冰9(苏特等。, 2006[Suter,R.M.,Hennessy,D.,Xiao,C.&Lienert,U.(2006),科学仪器评论77,123905.])和MIDAS公司(沙尔马等。, 2012【Sharma,H.、Huizenga,R.M.和Offerman,S.E.(2012a),《应用结晶杂志》第45期,第693-704页。】b条【Sharma,H.、Huizenga,R.M.和Offerman,S.E.(2012b),《应用结晶杂志》第45期,第705-718页。】)
µ-CT 一个2.2的面板毫米×1.4mm有效面积/1920×1200像素/12位像素 4100时为MB赫兹(400MB(MB)−1) 自定义脚本(Khousary等。, 2013【Khousary,A.,Kenesei,P.,Collins,J.,Navrotski,G.&Nudell,J.(2013),《物理学报》第425期,第212015页。】),TomoPy公司(Gürsoy)等。, 2014【Gürsoy,D.,De Carlo,F.,Xiao,X.&Jacobsen,C.(2014),《同步辐射杂志》,第21期,第1188-1193页。】),Tomo­Recon游戏(河流,2012年【Rivers,M.L.(2012),SPIE程序,8506,85060U。】)

在每个波束线上,这些实验技术经常同时进行,以获得不同长度尺度下关于样本的互补信息。它们还经常与外部刺激相结合,例如热机械负荷,以研究样品的诱导变化(Colas等。, 2010【Colas,K.、Motta,A.、Almer,J.、Daymond,M.、Kerr,M.,Banchik,A.、Vizcaino,P.和Santisteban,J..(2010),《材料学报》第58期,第6575-6583页。】; 瓦利奥格鲁等。, 2010【Varlioglu,M.、Lienert,U.、Park,J.-S.和Jones,J.L.(2010)。《应力微观结构》文本。2010年,第1-10页。】; 阴影等。, 2015【Shade,P.A.,Blank,B.,Schuren,J.C.,Turner,T.J.,Kenesei,P.,Goetze,K.,Suter,R.M.,Bernier,J.V.,Li,S.F.,Lind,J.,Lienert,U.&Almer,J.(2015),《科学仪器评论》86,093902。】; 查特吉等。, 2016【Chatterjee,K.,Venkataraman,A.,Garbaciak,T.,Rotella,J.,Sangid,M.,Beaudoin,A.,Kenesei,P.,Park,J.-S.&Pilchak,A.(2016),《国际固体结构杂志》,94-95,35-49。】; 等。, 2016[张,X.,Almer,J.,Benda,E.,Kenesei,P.,Mashayekhi,A.,Park,J.-S.,Westferro,F.,Chen,Y.,Li,M.,Wang,L.&Xu,C.(2016).Rev.Sci.Instrum.88,015111.]). 表1[链接]还总结了适用于各个技术的一些数据分析工具。实验技术的复杂性、高数据速率以及不断扩大的用户群突出了对简化数据管理和处理工作流机制的需求。APS DM系统满足了这些需求;在以下各节中,我们将描述1-ID和6-BM波束线DM系统的部署和定制。我们在§3.1中描述了数据管理和数据处理工作流[链接]和§3.2[链接]分别是。

3.1. 1-ID和6-BM光束线的数据管理工作流

图3[链接]显示了2015年在1-ID波束线上部署DM系统之前特定实验的实验数据移动。2015年之前,来自探测器套件的数据直接存储到用于1-ID操作的光束线存储系统(约30TB大小)可通过具有底层备份系统的APS网络访问,该系统在数据在存储中创建时对数据进行增量备份。对于某些区域探测器(尤其是WAXS/FF-HEDM探测器),其数据速率被限制,以允许这种1-ID存储跟上数据生成速率。实验完成后,用户手动将数据复制到一组外部硬盘上。因为光束线存储大约为30TB的容量,用户数据也备份到MPE工作人员驻留的外部硬盘上。用户和波束线工作人员主要通过电子邮件和文件传输协议位置共享处理后的数据以进行评估和分析。

[图3]
图3
APS 1-ID波束线上的旧数据流示意图。

APS对探测器驱动程序、存储技术和网络基础设施的改进使1-ID用户能够以最大速率收集数据,特别是WAXS/FF-HEDM探测器阵列。在这种情况下,区域探测器数据暂时存储在探测器本地(固态)驱动器上(约1TB大小)。然后使用后台处理将数据文件移动到光束线存储系统。与区域探测器数据相关的元数据(例如扫描参数和对样品施加的刺激)也以表格形式存储在光束线存储系统中。

结合这些改进,DM系统于2015年首次部署在1-ID波束线上,以简化原始数据和处理数据的合并和分发,并创建这些数据的档案。图4[链接]显示了在1-ID波束线上部署DM系统后的数据流。实验开始时,在束线存储系统上创建与实验相关的数据目录。所有区域探测器数据都通过后台进程从各自的本地驱动器传输到此数据目录。波束线存储系统上的数据目录由DM数据采集服务监控。当新的区域探测器数据文件出现在该目录中时,它们将准实时上传到DM存储。在上传数据时,DM波束线元数据编目服务也会对其进行编目。如果用户在实验期间选择利用数据处理工作流,则还可以将预处理数据(例如强度与平面间距数据)上传到DM存储中(这些数据可能仍然很大,但明显小于原始区域探测器数据)。

[图4]
图4
APS 1-ID光束线处的新数据流示意图。

除了DM系统的标准功能外,在DM命令行工具之上还构建了一组用于1-ID和6-BM波束线的定制命令行脚本。它们具有以下功能,以满足1-ID和6-BM波束线的特定需求,并突出DM系统的灵活性:

(i) 在实验结束时,将最初存储在不同位置(本地驱动器)的数据合并到1-ID或6-BM束线存储器。

(ii)将合并数据集从波束线存储器上传到DM存储器。在用户实验期间,数据文件以准实时方式上传到DM Storage,而在实验结束时对完整数据集进行合并和上传,可以确保所有文件都被占用。

(iii)通过比较APS集中存储中的完整数据集(原始)和数据分发系统中上传的数据集(副本)来检查数据集的完整性,以便删除原始数据集,为下一组实验腾出空间。为了检查数据的完整性,将每个原始文件的MD5校验和值与DM目录中存储的副本的MD5检验和值进行比较。在极少数情况下,当原件和副本的MD5校验和值不同时,光束线工作人员会收到警报,以便在删除原件之前能够协调差异。

(iv)压缩数据集,以减少其在DM数据分发系统中的占用空间。这个b拉链2(https://www.sourceware.org/bzip2网站/)在对不同的压缩程序进行测试后,选择了压缩程序,以评估它们在1-ID束线收集的代表性实验数据集上的性能。使用该压缩程序,典型WAXS数据的文件大小大约减少了70%,SAXS数据减少了80%,FF-HEDM数据减少了75%,层析成像数据减少了60%。

自2015年部署DM系统以来,1-ID波束线增加了230多个用户实验,总计超过340个TB的用户实验数据。4对于6-BM波束线,自2017年部署DM系统以来,增加了大约40个用户实验;他们用了383GB和6662017年和2018年DM存储空间的GB。4随着2018年6-BM光束线的层析成像能力上线,预计未来将在6-BM束线收集更多数据。

对于1-ID波束线和6-BM波束线用户,大多数数据集是使用Globus Online访问的,其端点主要位于北美、欧洲和亚洲。DM系统在波束线上的部署简化了用户对其实验数据的访问。过去,一个用户组将数据(数TB大)复制到外部硬盘驱动器,以便随身携带或安排发货。这一过程缓慢、不安全,需要大量的人工干预和努力。此外,用户组会将副本复制到其所在机构用于分析的计算机上。如果一个用户组是多个机构的协作,则必须单独制作和发送原始数据的多个副本。

在波束线上安装新的DM系统后,用户可以通过DM系统(Veseli)以适当的权限访问实验数据等。, 2018【Veseli,S.,Schwarz,N.&Schmitz,C.(2018),J.Synchrotron Rad.251574-1580.】)和Globus Online。访问特定实验生成的数据文件需要三层身份验证和权限检查:

(i) 实验者需要通过机构认证或Globus ID认证访问Globus Online。

(ii)实验者还需要具有APS用户标识才能访问DM存储系统。这将提供给所有分配了APS束流时间并可以访问阿贡国家实验室的实验者。

(iii)实验者需要与生成数据文件的特定实验相关联。特定实验和实验者之间的关联由光束线工作人员使用APS通用用户建议数据库和APS实验安全评估表数据库进行控制。这些APS数据库保存着与特定实验相关的实验者的标识符。

当实验者满足所有三个条件时,实验者才能访问和下载数据;实验者不能更改DM存储系统中存储的数据。有了预先安排好的Globus Online端点,非现场实验者可以通过互联网访问数据进行可视化或分析。他们可以与现场实验者互动并参与实验。现场实验者还可以在离开APS之前启动数据下载,并在返回母校后在母校等待完整的数据集。值得注意的是,实验者可以利用各种Globus Online传输选项来满足他们的时间和安全需求。图5[链接]显示了用户访问DM存储中数据的实例。

[图5]
图5
用户使用Globus Online网站访问DM存储和数据的示例。用户只能浏览和下载其数据,访问权限由DM系统规定。

实验的DM目录可以为光束线工作人员和管理人员提供有用的信息。图6[链接]和7[链接]显示自2015日历年以来为1-ID波束线分配的用户组数量和数据存储使用情况。请注意,DM系统于2015年末首次在1-ID波束线上安装和测试,这两张图中的统计数据截至2018年8月。图6[链接]显示自2016年以来,每年约有60个用户组访问1-ID波束线。其中,大约55%的用户组进行了WAXS/SAXS类型的实验,大约45%的用户组执行了HEDM类型的实验。图7[链接]显示1-ID波束线收集了大约1202016年至2017年间,每年的数据量达到TB,2018年也很可能达到该水平。从这两张图来看,当我们考虑到HEDM实验和WAXS/SAXS实验的分配大致均匀时,HEDM实验产生的数据集相对较大。如§3所述[链接]WAXS技术的数据密集度不如FF-HEDM技术,尽管它们使用相同的检测器和图6中观察到的趋势[链接]和7[链接]与此期望一致。通过使用DM系统并结合DM数据库的适当可搜索关键字,可以提供此类定量信息。这样的信息的一个好处是,可以估计和规划未来波束线的计算基础设施和托管类似实验或技术的设施。

[图6]
图6
自2015日历年以来,从DM系统目录中获得的1-ID波束线分配的用户组数量。请注意,DM系统于2015年首次安装在1-ID波束线上。绘制的数据截至2018年8月,我们预计2018年的用户群数量与2017年类似。
[图7]
图7
自2015日历年以来,在从DM系统目录中获得的1-ID波束线上收集的实验数据量。请注意,DM系统于2015年首次安装在1-ID波束线上。绘制的数据截至2018年8月,我们预计2018年的数据水平与2017年类似。

3.2. 1-ID处WAXS的数据处理工作流

DM工作流定义为一组按顺序执行的处理步骤。每个步骤都涉及一个任意命令或脚本,可以包含输入和输出参数。只要可能,DM处理服务会自动并行执行这些步骤(Veseli等。, 2018【Veseli,S.,Schwarz,N.&Schmitz,C.(2018),J.Synchrotron Rad.251574-1580.】).

如表1所示,有许多分析软件和脚本可用于分析在1-ID波束线上收集的区域探测器数据[链接]DM工作流工具允许我们部署这些资源,以利用APS用户可用的各种计算资源,包括多核本地工作站、APS支持的本地高性能计算集群、全国可用的高性能计算资源、,包括Argonne Leadership Computing Facility的系统。DM工作流工具的目标不是(重新)发明另一种分析工具。如表1所示[链接],已经有许多适合各种实验技术的软件包。DM工作流工具的目标是提供一个接口,使现有的可脚本化分析工具能够进行排序和自动化,以读取必要的输入(例如探测器校准或实验配置信息),并在可用或分配的计算资源上执行。从这个意义上讲,我们采用的方法与EDNA框架(Incardona等。, 2009【Incardona,M.-F.,Bourenkov,G.P.,Levik,K.,Pieritz,R.A.,Popov,A.N.&Svensson,O.(2009),《同步辐射杂志》第16期,第872-879页。】),直接编程数据分析工具包(DPDAK)(Benecke等。, 2014【Benecke,G.,Wagermaier,W.,Li,C.,Schwartzkopf,M.,Flucke,G..,Hoerth,R.,Zizak,I.,Burghammer,M,Metwalli,E.,Müller-Buschbaum,P.,Trebbin,M..,Förster,S.,Paris,O.,Roth,S.V.&Fratzl,P.(2014),《应用密码》第47期,1797-1803页。】)和蛋白质晶体学束线信息系统(ISPyB)等。, 2011【Delagenire,S.、Brenchereau,P.、Launer,L.、Ashton,A.W.、Leal,R.、Veyrier,S.,Gabadinho,J.、Gordon,E.J.、Jones,S.D.、Levik,K.E.、McSweeney,S.和Monaco,S.;Nanao,M.、Spruce,D.、Svensson,O.、Walsh,M.和Leonard,G.A.(2011)。生物信息学,27,3186-3192。】)列举其他一些类似的发展。

我们演示了一组用于处理和分析WAXS数据的MATLAB脚本对DM工作流工具的使用。通常,使用以下步骤处理原始WAXS区域探测器数据(图8[链接]):

[图8]
图8
WAXS数据处理工作流示意图。

(i) 从区域检测器数据文件中提取单个帧,该文件在单个文件中包含多个帧。这些单独的帧可以求和以获得更好的统计信息,或者可以获取多达7个与时间相关的信息赫兹。

(ii)减去暗场并从每个帧中删除坏像素数据。

(iii)集成以生成强度与晶格间距数据。

(iv)使用合适的峰值轮廓函数拟合感兴趣的峰值。

这些步骤可以自动转换为工作流,计算作业可以提交给1-ID用户可用的计算资源。

在我们的WAXS工作流示例中,有一组用于这些过程的MATLAB脚本(https://github.com/junspark/matlab_tools网站)并被用于测量应变极图和择优晶体取向的各种实验(米勒等。, 2008[Miller,M.,Park,J.-S.,Dawson,P.&Han,T.-S.(2008),《材料学报》,第56期,第3927-3939页。]; 麦克内利斯等。, 2013【McNelis,K.,Dawson,P.&Miller,M.(2013),《机械物理固体杂志》,第61期,第428-449页。】; 公园等。, 2013【Park,J.-S.,Lienert,U.,Dawson,P.R.&Miller,M.P.(2013),《实验力学》第53期,第1491-1507页。】, 2016【Park,J.-S.,Ray,A.K.,Dawson,P.R.,Lienert,U.&Miller,M.P.(2016)。《菌株分析与工程设计杂志》第51期,第358-374页。】). 这些脚本需要一组参数(例如图像名称、相应的暗场文件名和探测器校准信息)。对于每个过程,都会生成具有以下功能的包装器命令行脚本:

(i) 收集并检查输入参数。

(ii)连接到用户可用的计算机(在这种情况下,是波束线上的高端工作站)。

(iii)启动MATLAB(或MATLAB运行时,如果指定计算机上没有MATLAB)。

(iv)根据参数运行作业。

用户使用图形用户界面生成参数并提交作业(图9[链接]). 每个作业提交都会获得一个唯一的字母数字标识符,以跟踪其进度。作业的成功或不成功完成由作业终止时的输出消息区分。对于每个作业提交,其进度、作业摘要和终止消息通过管道传输到一个文本文件,以满足调试或数据来源的需要。减少的数据输出(在这种情况下,区域检测器文件中不同帧的多个衍射图)包含以下内容,以跟踪数据来源:

[图9]
图9
WAXS数据处理工作流的GUI示例。

(i) 强度与平面间距数据。

(ii)X射线暴露条件,例如通过离子室或二极管测量的X射线入射和传出光束的暴露时间和强度。

(iii)用于减少数据和相关校准参数的脚本和工具。

(iv)样本的状态,例如应用的刺激信息。

(v) 平移和旋转信息示例。

虽然这是一个使用预先存在的MATLAB脚本的简单示例,但这里显示的思想可以扩展到数据处理或分析脚本或用任何编程语言编写的例程,这些脚本或例程可以从命令行启动,并可在所需的计算资源中使用。

4.总结和未来工作

在本文中,我们演示了APS DM系统在APS的1-ID和6-BM波束线上的部署。在§3.1中[链接],说明了数据管理和分发功能。DM系统与精心规划的基础设施和数据采集策略相结合,可以提供强大、高效的数据管理体系结构。DM系统的定制工具可用作构建块,以增强其功能并满足单个光束线的需求。只要使用适当的关键字-值对,就可以操纵DM系统的编目能力来提供各种统计数据。在§3.2中[链接],使用MATLAB中的一组现有WAXS数据缩减脚本演示了DM系统的工作流功能。通过添加简单的包装器脚本,可以通过DM工作流服务执行这些现有的MATLAB脚本,以将区域探测器数据减少为衍射图。

虽然DM系统在1-ID和6-BM波束线上的初始部署是成功的,但仍有几个方面需要改进。

(i) 部署其他数据简化和分析工具(表1中列出[链接])DM工作流服务。WAXS工作流示例如§3.2所示[链接].表1[链接]列出了一套其他实验技术以及相关的数据简化和分析工具。我们计划在不久的将来将这些数据简化和分析工具添加到DM数据处理工作流中。

(ii)使用DM工作流服务自动减少数据。使用实时数据分析(尽管是初步结果)获得结果的能力对于就地通常必须实时对应用的刺激作出决定的测量。这种能力对于高通量设置也很有用,例如在几个APS波束线处正在使用或计划的设置。在这些高通量设置中,数据采集被设想为自动化,以查询许多样本。这些设置成功的一个关键因素是如何有效地减少和分析大量原始数据。此外,这种能力提供了更标准化的数据简化和分析程序,从而降低了新用户的障碍,减少了对实验数据的误解或过度解释。

(iii)减少数据占用。区域探测器数据由表1中描述的许多技术生成[链接]是稀疏的。例如,在FF-HEDM的情况下,衍射点仅在满足衍射条件时出现,衍射点只在面积检测器上的特定位置出现。区域检测器中的其余像素通常不包含有用的数据。利用这一点,可以考虑使用各种数据压缩策略来减少数据占用。例如,使用暗场减法预处理WAXS区域检测器数据可以显著提高压缩比。在FF-HEDM的情况下,如果数据处理和分析工作流程稳健,也可以考虑仅存储与德拜-谢尔环相关的像素强度。

(iv)长期数据管理。仅仅向DM storage添加更多存储空间或压缩实验数据是不够的。我们正在研究一种分层方法,以便将较旧或已发布的数据存储在速度较慢但更经济高效的存储系统(如磁带驱动器系统)中,而将较新或未发布的数据保存在速度更快、可访问性更好的存储系统中。出版物中使用的数据集(包括原始数据集和处理/分析数据集)可以传输到其他存档系统,如材料数据设施(Blaiszik等。, 2016[Blaiszik,B.,Chard,K.,Pruyne,J.,Ananthakrishnan,R.,Tuecke,S.&Foster,I.(2016),JOM,68,2045-2052.]).

脚注

1截至2018年8月。

2对于6-BM光束线,MPE小组操作6-BM-A实验箱。

截至2018年8月,APS没有正式的数据保留政策。然而,DM系统能够提供某种形式的备份能力。我们预计,随着数据压缩和DM存储扩展,DM系统中的数据存储将保留至少一年甚至更长时间。当数据过时或未被积极使用时,可以将其传输到磁带存档。发布的数据可以通过诸如材料数据设施(Blaiszik等。, 2016[Blaiszik,B.、Chard,K.、Pruyne,J.、Ananthakrishnan,R.、Tuecke,S.和Foster,I.(2016)。JOM,682045-2052。]).

4截至2018年8月的信息。

致谢

作者承认,APS-IT小组正在幕后工作,以允许这些不同的系统无缝工作。JSP感谢APS 1-ID和6-BM用户社区过渡到新的DM系统,以及他们在过渡期间的耐心。

资金筹措信息

本研究的资金由美国能源部科学办公室提供(合同号DE-AC02-06CH11357)。

工具书类

第一次引用Allen,B.、Pickett,K.、Tuecke,S.、Bresnahan,J.、Childers,L.、Foster,I.、Kandaswamy,G.、Kettimuthu,R.、Kordas,J.和Link,M.&Martin,S.(2012年)。Commun公司。ACM公司55, 81. 交叉参考 谷歌学者
第一次引用Arkili,A.、Allan,D.B.、Caswell,T.、Li,L.、Lauer,K.和Abeykoon,S.(2017)。同步辐射。新闻30(2), 44–45. 交叉参考 谷歌学者
第一次引用Arnold,O.、Bilheux,J.、Borreguero,J.,Buts,A.、Campbell,S.、Chapon,L.、Doucet,M.、Draper,N.、Ferraz Leal,R.、Gigg,M.,Lynch,V.、Markvardsen,A.、Mikkelson,D.、Mikkelson,R.,Miller,R.;Palmen,K.、Parker,P.、Passos,G.、Perring,T.、Peterson,P.,Ren,S.,Reuter、Savici,A.、Taylor,J.;Taylor,W.&Zikovsky,J.(2014)。编号。仪器。方法物理学。决议A764, 156–166. 科学网 交叉参考 中国科学院 谷歌学者
第一次引用Basham,M.、Filik,J.、Wharmby,M.T.、Chang,P.C.Y.、El Kassaby,B.、Gerring,M.,Aishima,J.,Levik,K.、Pulford,B.C.A.、Sikharulidze,I.、Sneddon,D.、Webber,M.和Dhesi,S.S.、Maccherozzi,F.、Svensson,O.、Brockhauser,S.、Náray,G.和Ashton,A.W.(2015)。J.同步辐射。 22, 853–858. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Benecke,G.,Wagermaier,W.,Li,C.,Schwartzkopf,M.,Flucke,G..,Hoerth,R.,Zizak,I.,Burghammer,M,Metwalli,E.,Müller-Buschbaum,P.,Trebbin,M..,Förster,S.,Paris,O.,Roth,S.V.&Fratzl,P.(2014)。J.应用。克里斯特。 47, 1797–1803. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Bernier,J.V.、Barton,N.R.、Lienert,U.和Miller,M.P.(2011年)。J.应变分析。工程设计。 46, 527–547. 科学网 交叉参考 谷歌学者
首次引用Blaiszik,B.,Chard,K.,Pruyne,J.,Ananthakrishnan,R.,Tuecke,S.&Foster,I.(2016)。JOM公司68, 2045–2052. 交叉参考 谷歌学者
第一次引用Chatterjee,K.、Venkataraman,A.、Garbaciak,T.、Rotella,J.、Sangid,M.、Beaudoin,A.、Kenesei,P.、Park,J.-S.和Pilchak,A.(2016)。国际期刊。固体结构。 94–95, 35–49. 交叉参考 中国科学院 谷歌学者
第一次引用Colas,K.、Motta,A.、Almer,J.、Daymond,M.、Kerr,M.,Banchik,A.、Vizcaino,P.和Santisteban,J..(2010年)。《母亲学报》。 58, 6575–6583. 交叉参考 中国科学院 谷歌学者
第一次引用Delagenire,S.、Brenchereau,P.、Launer,L.、Ashton,A.W.、Leal,R.、Veyrier,S.,Gabadinho,J.、Gordon,E.J.、Jones,S.D.、Levik,K.E.、McSweeney,S.M.、Monaco,S.和Nanao,M.、Spruce,D.、Svensson,O.、Walsh,M.和Leonard,G.A.(2011年)。生物信息学27, 3186–3192. 谷歌学者
第一次引用Filik,J.、Ashton,A.W.、Chang,P.C.Y.、Chater,P.A.、Day,S.J.、Drakopoulos,M.、Gerring,M.W.、Hart,M.L.、Magdysyuk,O.V.、Michalik,S.、Smith,A.、Tang,C.、Terrill,N.J.,Wharmby,M.T.&Wilhelm,H.(2017)。J.应用。克里斯特。 50, 959–966. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Foster,I.(2011)。IEEE互联网计算。 15, 70–73. 交叉参考 谷歌学者
首次引用Gürsoy,D.、De Carlo,F.、Xiao,X.和Jacobsen,C.(2014)。J.同步辐射。 21, 1188–1193. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Haeffner,D.、Almer,J.和Lienert,U.(2005年)。马特。科学。工程师A399,120–127交叉参考 谷歌学者
第一次引用Hammersley,A.P.(1995)。ESRF内部报告ESRF97HA02T。ESRF,法国格勒诺布尔。 谷歌学者
第一次引用Hammersley,A.P.(2016)。J.应用。克里斯特。 49, 646–652. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Ilavsky,J.&Jemian,P.R.(2009年)。J.应用。克里斯特。 42, 347–353. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Incardona,M.-F.、Bourenkov,G.P.、Levik,K.、Pieritz,R.A.、Popov,A.N.和Svensson,O.(2009年)。J.同步辐射。 16, 872–879. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Khousary,A.、Kenesei,P.、Collins,J.、Navrotski,G.和Nudell,J.(2013)。《物理学杂志》。Conf.序列号。 425, 212015. 交叉参考 谷歌学者
第一次引用Lienert,U.,Li,S.F.,Hefferan,C.M.,Lind,J.,Suter,R.M.,Bernier,J.V.,Barton,N.R.,Brandes,M.C.,Mills,M.J.,Miller,M.P.,Jakobsen,B.&Pantleon,W.(2011年)。JOM公司63, 70–77. 科学之网 交叉参考 谷歌学者
第一次引用Lutterotti,L.(2010年)。编号。仪器。方法物理学。决议B268, 334–340. 科学网 交叉参考 中国科学院 谷歌学者
第一次引用McNelis,K.、Dawson,P.和Miller,M.(2013)。J.机械。物理学。固体61, 428–449. 交叉参考 谷歌学者
第一次引用Miller,M.、Park,J.-S.、Dawson,P.和Han,T.-S.(2008)。《母亲学报》。 56, 3927–3939. 交叉参考 中国科学院 谷歌学者
第一次引用Park,J.-S.,Lienert,U.,Dawson,P.R.和Miller,M.P.(2013)。实验机械。 53, 1491–1507. 交叉参考 谷歌学者
第一次引用Park,J.-S.、Okasinski,J.、Chatterjee,K.、Chen,Y.和Almer,J.(2017)。同步辐射。新闻30(3), 9–16. 交叉参考 谷歌学者
第一次引用Park,J.-S.、Ray,A.K.、Dawson,P.R.、Lienert,U.和Miller,M.P.(2016)。J.应变分析。工程设计。 51, 358–374. 交叉参考 谷歌学者
第一次引用Rivers,M.L.(2012)。程序。SPIE公司8506,85060件。 交叉参考 谷歌学者
第一次引用Schmidt,S.(2014)。J.应用。克里斯特。 47, 276–284. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Schmuck,F.&Haskin,R.(2002)。FAST 2002文件和存储技术会议记录,2002年1月28日至30日,美国加利福尼亚州蒙特雷,第231至244页谷歌学者
第一次引用Shade,P.A.、Blank,B.、Schuren,J.C.、Turner,T.J.、Kenesei,P.、Goetze,K.、Suter,R.M.、Bernier,J.V.、Li,S.F.、Lind,J.、Lienert,U.和Almer,J.(2015)。科学评论。仪器。 86, 093902. 科学网 交叉参考 公共医学 谷歌学者
第一次引用Sharma,H.、Huizenga,R.M.和Offerman,S.E.(2012年)).J.应用。克里斯特。 45, 693–704. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Sharma,H.、Huizenga,R.M.和Offerman,S.E.(2012年)b条).J.应用。克里斯特。 45, 705–718. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Stock,S.R.、De Carlo,F.和Almer,J.(2008)。J.结构。生物。 161, 144–150. 交叉参考 中国科学院 谷歌学者
第一次引用Suter,R.M.、Hennessy,D.、Xiao,C.和Lienert,U.(2006年)。科学评论。仪器。 77, 123905. 科学网 交叉参考 谷歌学者
第一次引用Toby,B.H.和Von Dreele,R.B.(2013)。J.应用。克里斯特。 46, 544–549. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
首次引用Varlioglu,M.、Lienert,U.、Park,J.-S.和Jones,J.L.(2010)。文本。应力微结构。 2010, 1–10. 交叉参考 谷歌学者
第一次引用Veseli,S.、Schwarz,N.和Schmitz,C.(2018年)。J.同步辐射。 25,1574年至1580年科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Wang,X.-L.,Almer,J.,Liu,C.T.,Wang,Y.D.,Zhao,J.K.,Stoica,A.D.,Haeffner,D.R.和Wang,W.H.(2003)。物理学。修订稿。 91, 265501. 科学网 交叉参考 公共医学 谷歌学者
第一次引用Zhang,X.,Almer,J.,Benda,E.,Kenesei,P.,Mashayekhi,A.,Park,J.-S.,Westferro,F.,Chen,Y.,Li,M.,Wang,L.&Xu,C.(2016)。科学评论。仪器。 88,015111交叉参考 谷歌学者

这是一篇根据知识共享署名(CC-BY)许可证它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

期刊徽标的日志
同步加速器
辐射
国际标准编号:1600-5775
遵循J.Synchrotron Rad。
注册电子通知
在推特上关注J.Synchrotron Rad
在脸书上关注我们
注册RSS订阅源