2.方法
2.2. 框架设计MDW公司
由定义的通信实体MDW公司被称为工人。工人由三个不同的组成部分组成,如图2所示:源数据工作者、调度工作者和目标数据工作者。实验数据的采集、流式传输和在线处理分为两个独立的主要部分,即控制平面和数据平面。通过分离控制平面和数据平面,可以在不同的设备上执行它们,这反过来提高了系统的灵活性,并将在未来使用专用硬件实现快速处理。在控制平面中,可以通过图形用户界面(GUI)、命令行界面和其他方法执行数据平面中工作线程的配置。在数据平面中,ZeroMQ充当工作者之间的通信协议,所有数据当前都通过ZeroMQ套接字发送。
| 图2 的组件MDW公司,显示(一)数据平面和(b条)控制平面。 |
源数据工作者负责收集不同格式的数据和元数据[Tiff,HDF5(Folk等。, 2011),原始数据流]来自各种扫描模式下的测量设备。随后,源数据工作者通过ZeroMQ实时将数据流转发给调度工作者。调度工作人员负责根据中密度测井应用程序编程接口(API)或配置文件。数据流由目的地数据工作者接收,以满足同步辐射的各种应用要求。这些要求包括GUI和各种框架促进的实时数据可视化、根据波束线站定义的特定HDF5数据结构对多个数据流进行在线数据组装和写入,以及在线数据处理任务。目标工作线程由于其硬编码实现而展示了固有的功能,使其能够识别要采取的必要操作。每个目的地工作人员都有责任确定要对接收到的数据执行的特定操作。此外,还可以在采集过程中实时动态添加目的地。用户应该能够将配置消息传输到MDW公司通过MDW公司API,从而使调度工作者能够向新指定的目的地添加路由。随后,新添加的目标工作线程能够接收数据。
这个MDW公司框架层次结构如图3所示从下至上分为五层:内部内核层、通信模式层、事件接口层、编程接口和使用方法。
| 图3 MDW公司等级制度。 |
(i) 核心层MDW公司由三个模块组成:动态可重构数据管道调度、高吞吐量多流数据并行传输和高性能并行磁盘文件访问。这些模块旨在解决复杂的数据流调度问题,提高网络传输性能和磁盘文件访问性能。
(ii)中密度测井基于ZeroMQ管理数据流。通信模式层包括各种通信模式,如P2P、发布-订阅(PUB–SUB)、PIPELINE处理和QUEUE。各种通信模式将支持下游数据应用程序端的各种数据协商机制。
(iii)源数据工作者中的事件接口支持多种协议来获取不同类型的数据,如检测器API、ZeroMQ流、临时文件和HTTP流。它可以同时采集多种模态类型的数据。
(iv)MDW公司提供用于编程和扩展的编程接口,包括工作者配置接口、数据链路建立接口和实验处理序列配置接口等。
(v) 用户可以通过MDW公司编程界面,包含图形GUI、用户API、命令行界面、批处理脚本和控制平面中的其他常见使用方法。这有助于满足波束线站的不同需求。
图4阐明了MDW公司。动态可重构数据管道调度模块提供了探测器、存储服务器、计算集群和用户终端等光源系统之间实验数据管道的统一视图,并提供了实验数据流管道的灵活分布和调度。在建立实验数据管道的基础上,高吞吐量多流数据并行传输模块和高性能磁盘文件并行访问模块提高了实验数据传输和存储的性能。
| 图4 的三个内核模块之间的关系中密度测井. |
2.3。动态数据管道调度
为了满足不同束线的多样化和不断发展的实验数据管线,MDW公司提供了一个动态数据管道创建和调度模块。该模块旨在通过抽象负责数据分发和调度的实体,包括测量设备和实验阶段,来抽象不同数据管道的共同特征,等。每个实体的特定数据分配和调度机制隐藏在抽象层后面,从而能够在不同的应用场景中快速灵活地创建数据管道。动态数据管道调度对于用户交互和控制实验过程至关重要。此模块侦听来自其他工作者或用户编程接口的控制命令。然后,它解析这些控制命令,并根据命令的要求动态更改数据源和目标之间的拓扑路径。
为了让配置数据管道的体验更轻松、更流畅,基于橙色(德米沙尔等。, 2013)目前正在开发作为的前端MDW公司。用户可以通过在橙色帆布。每个小部件都是一个独立的工作程序,封装了界面显示、交互控制和一些数据处理功能。这将特别有利于多模式实验数据管道的编排。
2.4. 多流数据传输
高通量和多模数据采集的趋势要求提高数据传输吞吐量,以使多模数据类型能够以流的形式从源数据工作者传输到多个接收器。MDW公司使用JSON等标准Python库实现序列化。来自不同检测器的数据使用独立的数据流传输,以提高网络带宽利用率。在多模态实验中,数据量和结构在每种模态之间变化是常见的;因此,关于每个数据管道的带宽和计算复杂性将显著不同,异步数据流需要与元数据同步,原始数据和处理的数据最终需要相互关联;因此,开发可靠的数据对齐方案至关重要。
对于低和中数据吞吐量实验,如果数据是通过布鲁斯基其已经具有自己的数据对齐机制,MDW公司直接订阅布鲁斯基事件以获取随后发送到接收器的数据和元数据。这可以通过轮询或推送机制实现,具体取决于具体的用例。例如,在步骤扫描中,目标数据工作者可以轮询每个步骤的数据并逐点接收数据。然而,对于当前未处理的动态扫描布鲁斯基而是由PandABox(Li等。, 2023)和Xpress3(克劳福德等。, 2018),MDW公司具有通过源数据工作者附加相关字段的能力,例如每个数据帧的采集号,这可以进一步促进数据同步。这使MDW公司有效地实时读取并按顺序将一批数据绑定到块中,块的大小可以通过配置文件进行配置。对于涉及大面积探测器的高数据吞吐量实验,中密度测井必须直接从检测器获取原始数据流。数据流附带的基本元数据信息(如时间戳或索引)将用于在后续管道中对齐数据流。
2.6. 元数据参数配置
实验过程不仅涉及原始数据,还涉及丰富的元数据,如环境参数、样本、用户信息等。有几种机制可以将数据和元数据相互关联。与计划相关的主要实验数据和元数据是通过布鲁斯基的预组装文档。元数据也可以从千年发展目标或其他用户输入指定路径将分配到的信息,然后将包含路径的元数据发送到中密度测井,它基于路径关联数据和元数据。为了增强的参数化配置能力MDW公司每个波束线站可以根据自己的要求定制元数据格式、端口地址等参数。这避免了多余的开发工作,提高了开发效率。为了便于配置,我们专门为中密度测井系统:基于YAML的参数配置功能和前端GUI。图5演示了基于YAML的配置文件,该文件简化了数据和元数据的配置,例如MGS公司-相关参数、用户登录身份验证和检测器获取,通过易于理解的语法。
| 图5 灵活的配置,可将元数据的某些参数写入自定义数据结构HDF5。 |
4.结论
MDW公司是HEPS科学软件系统的关键组成部分,是数据采集、在线分析和存储中数据流通的主要动脉。其主要目的是建立一个基于多代和应用程序端的拓扑数据流管道,在整个实验过程中自动捕获元数据和原始数据,同时完成数据流处理任务,如压缩、采样、组装和去噪。MDW公司实现了高效的数据多路复用,解决了高吞吐量和多模式实验中异步在线数据处理的复杂性,从而提高了实验效率。经过两年的发展中密度测井即将完工。MDW公司已经证明,它具有鲁棒性和可靠性,能够支持跨多个BSRF波束线的各种实验方法。然而,真正的高通量和多模式数据采集场景尚未到来。为了解决HEPS未来的数据挑战MDW公司将继续完善。
致谢
本文的所有作者感谢北京同步辐射装置(BSRF)的3W1、4W1A和4W1B束线提供了软件测试束流时间。
资金筹措信息
该项目得到了国家自然科学基金青年基金(1200525312205328号)和中国科学院高能物理研究所技术创新计划(E25455U210号)的资助。
工具书类
Allan,D.、Caswell,T.A.、Campbell,S.和Rakitin,M.S.(2019年)。同步辐射。新闻,32,19–22交叉参考 谷歌学者
Alted,F.(2010)。计算。科学。工程师。 12, 68–71. 科学网 交叉参考 谷歌学者
Arkilic,A.、Allan,D.、Chabot,D.、Dalesio,L.R.和Lewis,W.(2015)。2015年加速器和大型实验物理控制系统国际会议记录(ICALEPCS2015)2015年10月17日至23日,澳大利亚墨尔本,第645-647页。WED3O02谷歌学者
Bartík,M.、Ubik,S.和Kubalik,P.(2015)。2015 IEEE国际电子、电路和系统会议(ICECS)2015年12月6日至9日,埃及开罗,第179-182页谷歌学者
巴加瓦,A.,蒙特阿古多,B.,库什瓦哈,P.,塞纳拉萨纳,J.,伦,Y.,里德尔,R.C.,阿加瓦尔,M.&巴沙克,A.P.(2022)。自然方法,19, 242–254. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Buurlage,J.-W.、Kohr,H.、Jan Palenstijn,W.和Joost Batenburg,K.(2018年)。测量。科学。Technol公司。 29, 064005. 科学网 交叉参考 谷歌学者
Crawford,A.M.,Sylvain,N.J.,Hou,H.,Hackett,M.J.,Pushie,M.J..,Pickering,I.J.,George,G.N.&Kelly,M.E.(2018年)。J.同步辐射。 25, 1780–1789. 科学网 交叉参考 IUCr日志 谷歌学者
Demšar,J.、Curk,T.、Erjavec,A.、Gorup,加利福尼亚州。,Hočevar,T.、Milutinović,M.、Moíina,M..、Polajnar,M.和Toplak,M.&Starić,A.(2013年)。J.马赫。学习。物件。 14, 2349–2353. 谷歌学者
Fischer,M.、Gastuber,M.,Giesler,A.、Hardt,M.和Meyer,J.、Prabhune,A.、Rigoll,F.、Schwarz,K.和Streit,A.(2017年)。《物理学杂志》。Conf.序列号。 898, 082026. 交叉参考 谷歌学者
Folk,M.、Heber,G.、Koziol,Q.、Pourmal,E.和Robinson,D.(2011年)。EDBT/ICDT 2011阵列数据库研讨会论文集(AD’11)2011年3月25日,瑞典乌普萨拉,第36-47页谷歌学者
Goubran,M.、Leuze,C.、Hsueh,B.、Aswendt,M.,Ye,L.、Tian,Q.、Cheng,M.Y.、Crow,A.、Steinberg,G.K.、McNab,J.A.、Deisseroth,K.和Zeineh,M.(2019年)。国家公社。 10, 5504. 科学网 交叉参考 公共医学 谷歌学者
焦,Y.,Xu,G.,Cui,X.-H.,Duan,Z.,Guo,Y.-Y.,He,P.,Ji,D.-H.,Li,J.-Y。J.同步辐射。 25,1611年至1618年科学网 交叉参考 IUCr日志 谷歌学者
Könnecke,M.,Akeroyd,F.A.,Bernstein,H.J.,Brewster,A.S.,Campbell,S.I.,Clausen,B.,Cottrell,S.,Hoffmann,J.U.,Jemian,P.R.,Männicke,D.,Osborn,R.,Peterson,P.F.,Richter,T.,Suzuki,J.,Watts,B.,Wintersberger,E.&Wuttke,J.(2015)。J.应用。克里斯特。 48, 301–305. 科学网 交叉参考 IUCr日志 谷歌学者
Li,P.-C.,Zhang,C.-L.,Zang,Y.-J.,Li,C.,Guo,Z.-Y.,Lei,G.,ZhangY.,Zhou,A.-Y.、Bi,X.-X.和Liu,Y.(2023)。辐射。检测。Technol公司。方法,https://doi.org/10.1007/s41605-023-00416-x. 谷歌学者
Liu,Y.、Geng,Y.-D.、Bi,X.-X.、Li,X.、Tao,Y.,Cao,J.-S.、Dong,Y.-H.和Zhang,Y.(2022)。J.同步辐射。 29, 664–669. 科学网 交叉参考 IUCr日志 谷歌学者
Rees,N.、Billich,H.、Götz,A.、Koziol,Q.、Pourmal,E.、Rissi,M.和Wintersberger,E.(2015)。2015年加速器和大型实验物理控制系统国际会议记录(ICALEPCS2015),2015年10月17日至23日,澳大利亚墨尔本,第845至848页。WEPGF063谷歌学者
Shah,A.和Sethi,M.(2019年)。EAI认可的上下文软件系统和应用程序交易,第6卷,第17号,e5谷歌学者
Solé,V.A.,Papillon,E.,Cotte,M.,Walter,P.&Susini,J.(2007)。在光谱。 62,63–68谷歌学者
Wilkinson,M.D.、Dumonier,M.、Albersberg,I.J.、Appleton,G.、Axton,M.,Baak,A.、Blomberg,N.、Boiten,J.-W.、da Silva Santos,L.B.、Bourne,P.E.、Bouwman,J.、Brookes,A.J.、Clark,T.、Crosas,M.和Dillo,I、Dumon,O.、Edmunds,S.、Evelo,C.T.、Finkers,R.、Gonzalez-Beltran,A.,Gray,A.J..G.、Groth,P.、Goble,C.、Grethe,J.S.、。,Heringa,J.、't Hoen,P.A.C.、Hooft,R.、Kuhn,t.、Kok,R.,Kok,J.,Lusher,S.J.、Martone,M.E.、Mons,A.、Packer,A.L.、Persson,B.、Rocca-Serra,P.、Roos,M.、van Schaik,R、Sansone,S.A.、Schultes,E.、Sengstag,t.,Slater,t。,Wittenburg,P.、Wolstencroft,K.、Zhao,J.和Mons,B.(2016)。科学。数据,三, 160018. 科学网 交叉参考 公共医学 谷歌学者
Yendell,G.D.,Pedersen,UK,Tartoni,N.,Williams,S.,Greer,A.&Nicholls,T.C.(2017)。第十六届加速器和大型实验控制系统国际会议论文集(ICALEPCS2017)2017年10月8日至13日,西班牙巴塞罗那,第966–969页。TUPHA212谷歌学者
| 的日志 同步加速器 辐射 |
国际标准编号:1600-5775
打开访问