研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标的日志
同步加速器
辐射
国际标准编号:1600-5775

DOMAS:先进光源的数据管理软件框架

十字标记徽标

中国科技大学,安徽合肥230026,中华人民共和国,b条中国科学院高能物理研究所,北京100049,中华人民共和国,c(c)中国散裂中子源科学中心,广东省东莞市大朗中子园路1号,邮编:523803,d日上海理工大学,中华人民共和国上海市,邮编:201210e(电子)郑州大学,中国河南郑州
*通信电子邮件:huhao@ihep.ac.cn

编辑:A.Stevenson,澳大利亚同步加速器,澳大利亚(收到日期:2023年10月30日; 2024年1月2日接受; 在线2024年2月1日)

近年来,我国先进光源进入了快速建设和发展时期。随着现代X射线探测器和数据采集技术的进步,预计这些设施每年将产生大量数据,这对数据管理和利用提出了重大挑战。这些挑战包括数据存储、元数据处理、数据传输和用户数据访问。作为回应,数据组织管理访问软件(DOMAS)被设计为解决这些问题的框架。DOMAS封装了数据管理软件的四个基本模块,包括元数据目录、元数据获取、数据传输和数据服务。对于光源设施,构建数据管理系统只需要在DOMAS中进行参数配置和最少的代码开发。本文首先讨论了中国先进光源的发展以及相关的数据管理需求和挑战,促使对数据管理软件框架设计的重新思考。然后概述框架的体系结构,详细说明其组件和功能。最后,重点介绍了DOMAS在高能光子源(HEPS)和北京同步辐射设施(BSRF)中的应用进展和效果。

1.简介

1.1. 中国先进光源

先进光源,包括X射线自由电子激光器(Bilderback等。, 2020【Bilderback,D.,Brock,J.,Dale,D.,Finkelstein,K.,Pfeifer,M.&Gruner,S.(2020),《新物理杂志》,第12期,第035011页。】)以及基于衍射限制储存环的同步辐射光源(Hettel,2014【Hettel,R.(2014),J.同步加速器辐射21,843-855。】),具有高亮度,低发射度和高相干度(黄等。, 2021[Huang,N.,Deng,H.,Liu,B.,Wang,D.&Zhao,Z.(2021).创新,210097.]). 这些设备可以满足高通量、多模融合、超快频率、,就地动态加载。

先进的光源为材料科学、化学工程、能源环境、生物医学、航空航天、,为经济、社会和产业发展相关战略研究领域的突破性创新提供有力支持。

中国目前正处于先进光源的快速发展阶段。例如,上海XFEL光束线项目(SBP)和上海软X射线自由电子激光器设施(SXEFL)(赵等。, 2019[赵,Z,王,D,尹,L,顾,Q,方,G,顾,M,冷,Y,周,Q,刘,B,唐,C,黄,W,刘,Z,江,H,翁,Z(2019).中国激光,46,33-42.])已过渡到操作阶段。上海光源II(SSRF-II)(Xu&Xiao,2023)[Xu,H.&Xiao,T.(2023).复旦大学学报(自然科学版),62310-321.])已启动用户实验的试运行。高能光子源(HEPS)(焦)的建造等。, 2018[焦,余,余,徐,G.,崔,X.-H.,段,Z.,郭,Y.-Y.,何,P.,季,D.-H.,李,J.-Y,李,X.-Y,孟,C.,彭,Y.-M.,田,S.-K,王,J.-Q.,王,N.,魏,Y.-Y.,徐,H.-S.,严,F.,于,C.-H.,赵,Y.L.&秦,Q.(2018).J.Synchrotron Rad.25,1611-1618.]; 焦白,2022[Jiao,Y.&Bai,Z.(2022).高功率激光粒子束,34,104004.])和上海高重复率XFEL和极限光设施(SHINE)(赵和冯,2018[Zhao,Z.&Feng,C.(2018).物理学,47,481-490.])进展迅速。此外,合肥先进光源(HALF)(白和,2021【Bai,Z.H.,Feng,G.Y.,He,T.L.,Li,W.,Li。MOPAB112。])已正式获得国家批准开始施工阶段。与第一代和第二代光源相比,这些设施竣工和试运行后,预计产生的数据速率和数量将增加三到四个数量级。预计年数据吞吐量的增长标志着我们进入了“Exascale”时代(Dong等。, 2022[Dong,Y.、Li,C.、Zhang,Y.,Li,P.&Qi,F.(2022)。《自然物理学评论》第4期,第427-428页。]).

1.2. 挑战和动机

预计先进的光源每年将产生大量数据,达到PB级甚至数百PB。这代表着数据速率和总数据量的爆炸性增长。传统的数据管理方法已无法满足管理和处理如此大量数据的需求(Wang等。, 2018【Wang,C.,Steiner,U.和Sepe,A.(2018)。Small,14,1802291。】). 实验用户无法手动处理数据复制,也无法准备数据分析所需的软件环境和计算资源。因此,有必要改变数据管理模式,为实验用户提供涵盖科学数据生命周期的一站式自动化服务,包括数据采集、数据存储和管理、数据下载、数据处理和分析(Hu,Qi等。, 2021[胡、海、齐、福、张、海、田、海、罗(2021).同步加速器辐射杂志.28,169-175。]). 它将大大提高对先进光源进行科学研究的效率。

为了应对光子科学中大数据的挑战,HEPS已开始与SHINE、SSRF和HALF等设施合作,共同开发涵盖科学数据整个生命周期的科学软件和系统,包括控制和数据采集软件(Mamba)(Liu等。, 2022[刘,Y.,耿,Y.-D.,Bi,X.-X.,Li,X.,Tao,Y.;曹,J.-S.,Dong,Y.-H.&Zhang,Y.(2022).同步加速器辐射杂志.29,664-669.])、数据管理系统和数据分析集成软件系统(Daisy)(Hu,Li等。, 2021[胡,Y.,Li,L.,Tian,H.,Liu,Z.,Huang,Q.,Zhang,Y..,Hu,H.&Qi,F.(2021).EPJ网络会议251,04020.]). 作为最基本和最重要的部分,数据管理系统涉及实验的所有阶段——之前、期间和之后。它是高效数据访问和快速分析、开放共享和利用的基本前提。

在数据管理方面,一些相关的研究和发展值得注意:ICAT框架(https://icaproject.org/)由英国科学技术设施委员会(STFC)开发,并在钻石光源、哈维尔综合设施的ISIS中子设施和中央激光设施实施。ICAT系统旨在通过开发元数据数据库对数据进行编目,将研究生命周期的各个方面从提案到数据和文章发布连接起来,并允许用户方便地访问这些数据以进行数据评估。SciCat是由PSI(Paul Scherrer研究所)、ESS(欧洲散裂源)和MAX IV开发的开源软件(https://github.com/scicatproject网站)框架采用微服务架构和最新技术,旨在管理整个数据生命周期。国家同步加速器光源II(NSLS-II)部署了一个全面的数据采集和管理系统(https://nsls-ii.github.io/index.html)在不同的波束线上。

然而,我们发现这些开源数据管理框架并不适合在中国的光源中应用和推广。中国散裂中子源(CSNS)的第一阶段CSNS-I采用ICAT开发数据管理系统,但事实证明,关系数据库在管理多样化和复杂的元数据方面缺乏灵活性。SSRF基于SciCat开发了自己的数据管理系统,但发现二次开发需要更多的时间和精力来适应和部署框架,要求数据管理人员精通相关编程技术。我们认识到,光源不应重复投入人力开发数据管理,以使框架适应自身设施。我们需要一个更通用、更灵活的数据管理软件框架,能够以较低的人力成本适应每个设施。此外,这些框架忽视了数据传输模块在数据管理中的作用,没有将其纳入框架。

通过我们的研究,我们发现先进光源在数据管理方面既面临着共同的需求和挑战,也有自己独特的特点。因此,我们开发了数据管理软件框架DOMAS,负责自动化科学数据的组织、传输、存储和分发。DOMAS为数据管理提供了通用的基本模块和通用接口。只有在DOMAS中进行参数配置和最少的代码开发,才能为光源设施或光束线快速建立数据管理系统。

2.总体设计

2.1. 数据管理要求

跟踪和管理先进光源科学数据从采集到存储、传输、分析和发布的整个生命周期,主要任务包括:建立科学数据管理相关的标准和规范,形成数据管理工作的政策依据;从其他子系统获取元数据,包括数据采集系统(DAQ)、存储、用户服务、数据分析,.; 设计元数据目录,实现快速高效的元数据存储和检索;在文件系统上设计数据存储目录并设置访问控制;提供标准接口,以满足各种系统或模块的数据或元数据访问需求;CD数据传输工具,用于在不同存储介质之间移动数据;为实验用户提供数据服务,包括数据访问、下载、分析和跟踪。

2.2. 设计理念

从数据管理软件的功能需求来看,通用的核心模块包括:元数据目录、数据传输、元数据采集与处理、数据门户。我们设计了一个软件框架DOMAS,旨在设计、重构和封装这四个核心模块,以便每个模块都可以独立部署和运行,模块之间的耦合度低,使用标准接口,并进行配置,以满足各个设施在数据管理的不同阶段的不同需求。

(1) 元数据目录——负责将元数据存储到数据库中,并提供RESTful API来访问元数据。考虑到每个光源设施可能有不同的数据管理需求,导致元数据数据库的模式设计不同,我们的框架提供了一个可视化工具来生成RESTful API。此工具使数据管理开发人员能够通过网站设计元数据模型和结构,从而自动生成用于元数据访问的RESTful API。

(2) 数据传输–有助于在不同级别的存储介质之间自动迁移数据。由于先进光源产生大量数据,这些设施通常采用分层存储设计,以实现可靠的数据存储和存档。为了提供近实时数据下载和数据分析服务,数据传输模块需要设计为可靠高效,同时能够记录和返回数据传输状态。

(3) 元数据获取和处理–负责从数据管理涉及的不同阶段和系统中获取元数据,并将其集成到数据库中。如何获取元数据取决于元数据的呈现和提供方式。该模块需要支持从不同来源获取元数据,并通过统一的体系结构实现元数据获取、集成和存储功能。

(4) 数据服务–为用户提供用于数据访问、查看、下载和脱机分析的web门户。鉴于此模块通常与每个设施自己的用户服务系统集成,数据服务的设计需要充分考虑可配置性、可移植性和可集成性。该网站采用MVC设计模式,将数据和业务逻辑从显示中分离出来。通过简单的配置,可以适应各种数据源,快速完成数据服务网站的建设。

3.DOMAS概述

根据上述设计思路,DOMAS主要由四个功能模块组成:元数据编目、数据传输、元数据获取与处理、数据服务。通过对这四个核心模块进行配置和采用低代码开发,我们可以快速开发出适合每个光源具体需求的数据管理系统。

DOMAS架构图如图1所示[链接]从图中我们可以看到这四个模块是如何相互通信和协作的。框架的设计遵循每个设施的科学数据政策和波束线制定的数据格式约定。图中的元数据目录由元数据API服务器和元数据数据库组成。API服务器通过RESTful API提供元数据访问服务,这些API由元数据模型配置通过可视化工具自动生成。对API服务器的任何元数据访问都将自动转换为元数据数据库上相应的CURD(创建、更新、检索、删除)操作。考虑到元数据来自多个源,并且必须处理来自多个波束线的并发性,因此使用Kafka消息中间件来缓冲元数据。一旦来自DAQ系统或数据传输系统的元数据被发送到Kafka消息队列,元数据获取和处理模块就会消耗来自Kafka的元数据。一方面,它将所有需要的元数据集成在一起,并将元数据保存到数据库中。另一方面,它根据传输状态向传输模块发送任务。这指示数据传输模块将数据从源存储器移动到目标存储器,并通过Kafka将传输状态转回元数据采集和处理模块。最后,实验用户可以使用数据门户网站搜索、查看、下载和分析他们的数据。

[图1]
图1
DOMAS架构。

4.功能模块

4.1. 元数据目录(DOMAS-CAT)

DOMAS-CAT主要用于存储元数据并提供访问此元数据的接口。它使用MongoDB作为数据库有两个关键原因。首先,它具有存储多样化和复杂元数据结构的能力;其次,它在读写元数据(Győrödi)方面实现了高并发性和性能等。, 2022[Gyõrödi,C.A.,Dumşe-Bruscu,D.V.,Zmaranda,D.r.和Gyõrödi,r.(2022)。大数据认知计算。6,49.]). 此外,DOMAS-CAT提供了一个可视化工具,可以根据元数据模型设计自动生成元数据访问接口。

4.1.1. 功能体系结构

DOMAS-CAT由web界面和后端服务器组成,如图2所示[链接]web界面有助于元数据模型设计、API创建、API测试和激活。数据管理系统(DMS)开发人员可以通过引导页面高效地生成和发布必要的API。后端服务器包括模型引擎、API引擎和系统管理。模型引擎处理模型验证、注册和解析。API引擎处理API验证、注册、解析和调用。系统管理包括用户和授权管理、异常处理和日志记录等基本功能。

[图2]
图2
DOMAS-CAT的体系结构。

接下来,让我们深入研究子模块之间的交互流。整个设计基于元数据模型定义。首先,DMS开发人员通过网页设计元数据模型。然后将JSON格式的元数据模型发送到模型引擎进行验证。如果验证符合模型规范,则模型将在系统数据库中注册。接下来,DMS开发人员创建API,并将JSON格式的API发送到API引擎进行验证。如果符合API规范,则API已注册。随后,可以执行API测试,以确保激活前功能正确。最后,当其他应用程序调用API时,API引擎将验证参数,并将其转换为MQL以执行。整个调用过程包括在执行期间捕获异常并将结果返回给API调用方。

4.1.2. 元数据模型

元数据模型使用JSON格式定义元数据模式,如图3所示[链接]。它包括模型名称、模型描述、MongoDB中的集合名称和集合中的字段,以及与其他模型的关系。字段定义指定字段名称、字段类型、是否为必填字段(布尔值)、是否为索引字段以及描述。目前,只定义了一种与其他模型的关系:外部引用,将来可以根据使用需求进行扩展。

[图3]
图3
元数据模型的定义。

元数据模型不仅利用了非关系数据库提供的灵活性来存储复杂的结构化元数据,还支持定义元数据类型和不同元数据实体之间的关系。

4.1.3. 元数据模型的web界面和API设计

图4[链接]和5[链接]显示元数据模型设计的web界面。可以使用JSON树结构图添加和修改元数据模型。或者,也可以直接进行JSON编辑,并在保存模型之前执行语法验证。在API创建页面上,如图6所示[链接],您可以选择API类型(添加、选择、更新、删除)。对于更新、选择或删除API类型,可以设置API操作的条件。不同的数据类型对应不同的查询条件。

[图4]
图4
使用树状结构进行模型编辑的Web界面。
[图5]
图5
使用JSON格式编辑模型的Web界面。
[图6]
图6
用于创建API的Web界面。

4.2. 元数据获取和处理

高级光源所需的元数据包括行政元数据和科学元数据。这些元数据需要从数据采集、数据存储、数据传输、数据分析和数据发布的整个生命周期过程中涉及的各种子系统中提取。因此,元数据获取的挑战在于其来源的多样性,而获取方法与每个子系统中提供元数据的方式密切相关。因此,我们设计了一个多源元数据获取的体系结构,如图7所示[链接]此结构使用各种元数据获取插件从不同接口提取元数据,然后将其发送给Kafka代理。随后,对提取的元数据进行关联和集成,然后通过元数据目录提供的API保存到元数据数据库中。

[图7]
图7
元数据获取和处理的体系结构。
4.2.1. 元数据获取

众所周知,元数据可能来自不同的来源,例如不同探测器的DAQ系统、数据传输模块、数据文件或实验日志,这种体系结构允许元数据采集在子系统之间松散耦合。通常,我们可以通过Kafka作为消息传递接口来接收元数据。然而,如果没有,可以通过开发元数据摄取器来获取元数据。这些元数据摄取器将作为插件灵活运行(Schwarz等。, 2019【Schwarz,N.、Veseli,S.和Jarosz,D.(2019)。同步辐射。新闻,32(3),13-18。】). 目前,提供了两种类型的元数据摄取器:

(i) 基于文件的摄取器–从TXT、HDF5中的文件中提取元数据(HDF Group,2018[HDF Group(2018).HDF5,https://www.hdfgroup.org/HDF5/【2018年5月访问】)或NXS格式,如果探测器是没有相关接口的商业产品,并且元数据被收集并保存到这些文件中。

(ii)数据库摄取者——直接从其他子系统的数据库中获取元数据,如DAQ、数据传输或电子日志

4.2.2. 元数据处理

元数据处理功能旨在收集和集成来自不同数据源的元数据。例如,它可以从用户数据库、提案数据库或样本数据库等数据库中关联和集成用户信息、提案信息和样本相关信息。这确保了各种元数据之间的正确关联。

集成和关联元数据的具体方法将因每个设施或波束线站设计元数据存储的方式而异。因此,根据设施的数据管理系统设计,这部分工作需要更多的开发工作。

4.3. 数据传输

数据传输是先进光源数据管理软件框架的重要组成部分。它负责实现不同存储设备之间实验数据的近实时、高效、可靠和全自动迁移。

为了平衡存储设备的成本效益,实现数据存储的高可靠性,先进光源通常对实验数据采用分级存储和长期存档。以HEPS为例,设计了三层存储器,包括束线存储器、中央存储器和磁带(Cano等。, 2020【Cano,E.,Bahyl,V.,Caffy,C.,Cancio,G.,Davis,M.,Kotlyar,V.、Leduc,J.,Lin,T.&Murray,S.(2020)。EPJ网络会议。245,04013。】). 为了近实时地分析和下载数据,首先将波束线上探测器产生的数据保存到波束线存储器中。随后,数据传输模块自动将数据从波束线存储器移动到中央存储器,然后移动到磁带。此外,数据将根据用户的访问和分析要求自动高效地从磁带存储移动到中央存储。

4.3.1. 功能和部署体系结构

数据传输支持集群模式,以实现系统的高并发性和可扩展性,由一个控制节点和一个或多个传输节点组成。数据传输集群的功能和部署架构如图8所示[链接].

[图8]
图8
数据传输集群的功能和部署架构。

控制器节点包含用于传输任务发现的插件、消息队列(RabbitMQ),并为管理员提供web服务,以配置传输任务、查看传输状态和日志以及管理集群状态。传输节点负责使用不同协议传输文件,记录传输过程,通过消息接口与其他系统交互,并保留自己的配置文件。

在启动数据传输之前,需要通过控制节点的web服务配置一些相关参数,如传输任务发现插件、传输协议、传输进程编号和触发事件。

启动数据传输后,传输任务发现可以检测到需要传输的文件,并创建文件列表,然后将其发送到RabbitMQ。传输节点使用来自RabbitMQ的传输任务,并开始使用指定的传输协议或命令将数据从源路径传输到目标路径。

日志记录模块将详细的传输过程记录在文件中,并将成功或失败的状态写入控制节点中的数据库。此外,传输节点能够在传输后使用配置的消息接口发送消息,例如RabbitMQ或Kafka,以与其他系统交互。

4.3.2. 传输任务发现

支持两种发现传输任务的模式:目录监视和数据库轮询。

当数据采集系统将生成数据的元数据存储在DAQ数据库中时,通过定期轮询DAQ数据库来检测传输任务。通常,DAQ数据库包含生成的实验数据的记录,包括文件名、文件路径、数据文件的创建时间和校验和。所有元数据都被发送到RabbitMQ,用于后续进程。

当数据采集系统中没有DAQ数据库时,只能通过目录监视来获取传输任务。然而,目录监视面临两个困难。首先,很难准确确定文件是否已完全写入,以及在传输之前其句柄是否已关闭。其次,有大量目录需要监视,这会导致资源消耗高,监视效率低。通过以下优化,这两个挑战都得到了改善:

(i) 为了确保文件的完整性,最好在合理的时间段内比较文件大小和修改时间(mtime),以确定文件是否已完全写入。可选的时间段设置可能因每个波束线的不同数据写入模式而异。

(ii)通过配置多级目录匹配规则和文件类型设置,可以自定义监控目录。正则表达式用于定义扫描路径范围。此外,系统可以根据最近创建的目录的创建时间将监视范围限制为最近创建的,从而进一步减少要监视的目录数量。

4.3.3. 换乘

传输子模块根据配置启动传输过程,并使用相应的传输协议。多种传输协议集成为插件,包括rsync、scp、xrdcp和eoscp。对于光源设施,数据同步或传输通常在高度可靠和高带宽的内部网环境中进行;传输协议没有性能问题。然而,如果需要在有限带宽保证的广域网上传输数据,则可以集成其他开源、商业或自主开发的传输工具,以进一步提高数据传输效率。

在可靠性方面,传输子模块执行数据验证,并在出现故障时启动文件重新传输。通过执行校验和验证来验证文件的完整性。如果传输失败,文件将被放回传输消息队列以进行重新传输。如果文件传输失败五次以上,则会将其标记为异常文件,以便手动重新传输或进一步处理。

4.3.4. 记录和监控

数据传输的一个关键功能是记录和监控(见图9[链接]). 它记录文件传输的详细过程,包括文件名、传输的开始和结束时间、文件大小、校验和、源和目标路径。记录与传输失败和异常相关的信息尤其重要,例如失败的文件名、异常的原因以及失败的尝试次数。可以通过网页查询和显示这些日志详细信息,包括任务列表、传输状态和传输异常的文件列表。它有助于我们随时了解数据传输的状态,并使我们能够快速排除和诊断问题和故障。

[图9]
图9
传输日志的Web界面。

4.4. 数据服务

数据服务主要侧重于通过数据门户网站(Birkle等。, 2020【Birkle,C.、Pendlebury,D.、Schnell,J.和Adams,J.(2020年)。数量科学研究1,363-376。】). 这些功能包括数据检索、预览和下载等基本功能,以及其他服务,如数据授权、分析和查看实验日志的能力。通过使用数据门户网站,用户可以高效地访问、浏览和操作数据,同时确保数据安全,促进分析,提高研究活动的透明度(Corti等。, 2019[Corti,L.,Van den Eynden,V.,Bishop,L.&Woollard,M.(2019年)。管理和共享研究数据:良好实践指南。Sage出版物。]).

数据服务提供了一个具有基本功能的网站,旨在独立部署或与每个光源设施的用户服务系统无缝集成。该网站不仅允许灵活的功能配置,还为二次开发和定制提供了坚实的基础。

从图10[链接],我们可以看到数据服务的开发架构。该数据服务基于Cordwood,这是一个由IHEP开发的低代码网站开发平台,不久将开放源码。Cordwood使用前端和后端分离结构和微服务体系结构。后端是用JAVA开发的,基于SpringBoot2.5框架(Suryotrisongko等。, 2017【Suryotrisongko,H.、Jayanto,D.P.和Tjahyanto,A.(2017),《计算科学学报》第124期,第736-743页。】)包括用于安全的Spring Security和Apache Shiro,用于数据持久性的Mybatis-Plus,用于数据缓存的Redis,以及其他组件。前端使用了VUE 2.0和Element UI等技术。Cordwood为网站构建提供了基本功能,包括单点登录身份验证、用户角色和授权、菜单定制和数据源配置。

[图10]
图10
数据服务架构。

数据门户网站的核心功能包括数据搜索、数据下载、web文件浏览器和数据授权。实验用户可以通过元数据检索搜索数据或通过树目录结构浏览数据,如图所示。11[链接]和12[链接].

[图11]
图11
通过元数据检索进行数据集搜索的Web界面。
[图12]
图12
文件浏览器的Web界面。

鉴于数据下载是数据门户网站上最常用的功能,将提供HTTP下载和基于客户端的下载选项。然而,下载速度往往受到用户本地网络带宽的限制。在处理大数据量时,HTTP下载的速度是不令人满意和无法接受的。在这种情况下,建议进行基于客户端的高速下载。选择所有需要下载的文件后,单击“批量高速下载”按钮将启动客户端进行下载。用户可以查看文件列表、下载进度和下载速度,这些网页如图13所示[链接], 14[链接]和15[链接]。集成的高速下载客户端可以执行多个文件的并行传输,并集成无损压缩算法,实现最大带宽利用率并支持可恢复下载。我们在1000M网络环境中测试了四个4.49 GB文件的下载,耗时2分钟28秒,平均下载速度为839 Mbs−1。下载速度已经非常令人满意。然而,如果您想从数据门户网站下载非常大的数据,例如几十或数百TB,所需的时间可能无法忍受。在这种情况下,有必要考虑在设施上提供专用数据下载终端,供用户复制数据。

[图13]
图13
显示文件下载进度的网页。
[图14]
图14
显示下载文件列表的网页。
[图15]
图15
显示文件下载速度的网页。

此外,可以通过链接使用可扩展功能增强数据web门户。例如,(i)HDF5网络查看器,允许用户在网络上预览HDF5文件;(ii)数据分析的入口点,启动所需的计算资源和环境,使用户能够在虚拟云桌面或JupyterLab中执行数据分析;(iii)通过与电子日志系统集成,链接到实验日志,允许用户在访问实验数据时查看相关日志。

5.进展和应用

DOMAS的核心功能模块已经完成,我们正在逐步开放每个模块。DOMAS已应用于HEPS。基于DOMAS,结合HEPS具体的科学数据政策、标准化的数据文件格式和数据存储目录设计,我们完成了HEPS科学数据管理系统的开发。同时,该系统还实现了数据在三个存储级别(束线存储、中央存储和磁带)之间的全自动移动和管理。为确保HEPS数据管理系统在2024年进入试运行阶段时能够正常稳定运行,HEPS数据处理系统已经在北京同步辐射设施(BSRF)的多条光束线上进行了功能和过程验证,并在X射线荧光微分析束线站,为用户提供数据检索、查看、下载和分析服务。

在将DOMAS应用于HEPS的过程中,我们发现DOMAS仍需进一步优化。DOMAS-CAT在接口生成方面不够灵活。未来,我们希望通过接口设计包含多个CURD组合的接口,以实现更复杂的过程逻辑。数据传输模块可以通过优化传输协议进一步提高传输效率,并可以灵活嵌入一些数据压缩或数据格式转换算法,以减少海量数据归档时的存储空间。

6.结论和计划

针对我国先进光源科学数据管理的共同需求和挑战,我们将元数据目录、元数据采集与处理、数据传输和数据服务封装为通用模块,提供通用接口,形成科学数据管理软件框架DOMAS。DOMAS的应用使先进光源能够快速开发和部署数据管理系统,实现对实验数据的高效管理、跟踪和利用,同时为每个设施的科学数据管理开发节省时间和人力投资。

DOMAS已经完成了BSRF和HEPS的功能和过程验证,取得了重大进展。与此同时,SHINE和HALF的数据团队决定将DOMAS应用于各自科学数据管理系统的开发。我们未来的计划包括增强和扩展框架的功能,例如集成工作流模块。我们还希望将DOMAS的应用扩展到更广泛的大型科学设施,如中国散裂中子源(CSNS)和高能宇宙辐射探测设施(HERD)。其目标是建立DOMAS,作为国内大型科学设施数据管理的通用解决方案。

致谢

本文的所有作者感谢北京同步辐射装置(BSRF)的3W1、4W1B、4W1A和1W1A束线提供了软件测试束流时间。

资金筹措信息

获得以下资助:国家自然科学基金(批准号:12005247);中国科学院信息化计划(批准号:CAS-WX2023SF-0401)。

工具书类

第一次引用Bai,Z.H.,Feng,G.Y.,He,T.L.,Li,W.,Li。第十二届国际粒子加速器会议记录(IPAC2021)2021年5月24日至28日,巴西坎皮纳斯,第407-409页。MOPAB112谷歌学者
第一次引用Bilderback,D.、Brock,J.、Dale,D.、Finkelstein,K.、Pfeifer,M.和Gruner,S.(2020年)。新J.Phys。 12, 035011. 科学网 交叉参考 谷歌学者
第一次引用Birkle,C.、Pendlebury,D.、Schnell,J.和Adams,J.(2020年)。数量。科学。螺柱。 1, 363–376. 科学网 交叉参考 谷歌学者
第一次引用Cano,E.、Bahyl,V.、Caffy,C.、Cancio,G.、Davis,M.、Kotlyar,V.和Leduc,J.、Lin,T.和Murray,S.(2020年)。EPJ网络会议。 245, 04013. 谷歌学者
第一次引用Corti,L.、Van den Eynden,V.、Bishop,L.和Woollard,M.(2019年)。管理和共享研究数据:良好实践指南。Sage出版物。 谷歌学者
第一次引用Dong,Y.、Li,C.、Zhang,Y.,Li,P.和Qi,F.(2022)。自然科学版。 4, 427–428. 科学网 交叉参考 谷歌学者
第一次引用Győrödi,C.A.,Dumše-Burescu,D.V.,Zmaranda,D.r.&Gy೫rödi.r.(2022)。大数据认知计算。 6, 49. 谷歌学者
第一次引用HDF集团(2018年)。硬盘驱动器5,https://www.hdfgroup.org/HDF5/【2018年5月访问】。 谷歌学者
第一次引用Hettel,R.(2014)。J.同步辐射。 21, 843–855. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Hu,H.,Qi,F.,Zhang,H.、Tian,H.和Luo,Q.(2021)。J.同步辐射。 28, 169–175. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Hu,Y.,Li,L.,Tian,H.,Liu,Z.,Huang,Q.,Zhang,Y。EPJ网络会议。 251, 04020. 谷歌学者
第一次引用Huang,N.、Deng,H.、Liu,B.、Wang,D.和Zhao,Z.(2021)。创新,2, 100097. 科学网 公共医学 谷歌学者
第一次引用Jiao,Y.和Bai,Z.(2022)。高功率激光粒子束,34, 104004. 谷歌学者
第一次引用焦,Y.,Xu,G.,Cui,X.-H.,Duan,Z.,Guo,Y.-Y.,He,P.,Ji,D.-H.,Li,J.-Y。J.同步辐射。 25, 1611–1618. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Liu,Y.、Geng,Y.-D.、Bi,X.-X.、Li,X.、Tao,Y.,Cao,J.-S.、Dong,Y.-H.和Zhang,Y.(2022)。J.同步辐射。 29, 664–669. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Schwarz,N.、Veseli,S.和Jarosz,D.(2019年)。同步辐射。新闻,32(3), 13–18. 交叉参考 谷歌学者
第一次引用Suryotrisongko,H.、Jayanto,D.P.和Tjahyanto,A.(2017年)。程序。计算。科学。 124, 736–743. 交叉参考 谷歌学者
第一次引用Wang,C.、Steiner,U.和Sepe,A.(2018年)。小型,14, 1802291. 科学网 交叉参考 谷歌学者
第一次引用Xu,H.和Xiao,T.(2023)。复旦大学(自然科学),62, 310–321. 谷歌学者
第一次引用Zhao,Z.和Feng,C.(2018)。物理,47, 481–490. 谷歌学者
第一次引用赵,Z,王,D,尹,L,顾,Q,方,G,顾,M,冷,Y,周,Q,刘,B,唐,C,黄,W,刘,Z,江,H,翁,Z(2019)。下巴。J.激光,46, 33–42. 谷歌学者

这是一篇根据知识共享署名(CC-BY)许可证它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

期刊徽标的日志
同步加速器
辐射
国际标准编号:1600-5775
遵循J.Synchrotron Rad。
注册电子通知
在推特上关注J.Synchrotron Rad
在脸书上关注我们
注册RSS订阅源