跳到主要内容
研究论文

Globus自动化服务::跨时空连续体的研究过程自动化

出版:2023年5月1日 出版历史
  • 获取引文提醒
  • 摘要

    研究过程自动化——在科学仪器、计算机、数据存储和其他资源上可靠、高效和可复制地执行链接的操作集——已成为现代科学的一个基本要素。我们在此报告Globus研究数据管理平台中的新服务,这些服务能够将各种研究过程规范为可重用的操作集,流量以及在异构研究环境中执行此类流。为了支持具有广泛空间范围(例如,从科学仪器到远程数据中心)和时间范围(从几秒到几周)的流Globus自动化服务特点:(1)云托管,即使偶尔出现故障,也能可靠地执行较长生命周期的流;(2) 一个简单的规范和可扩展的异步动作提供程序API,用于定义和执行涉及异构资源的各种动作和流;(3) 事件驱动执行模型,用于响应任意事件自动执行流;以及(4)一个丰富的安全模型,支持授权委托机制,用于跨分布式资源安全执行长时间运行的操作。这些服务允许研究人员将一系列研究任务的管理外包给可靠、可扩展和安全的云平台并实现自动化。我们介绍了Globus自动化服务的用例,描述了它们的设计和实现,介绍了微基准研究,并回顾了在一系列应用程序中应用这些服务的经验。

    集锦

    定义了现代科学的基础研究过程自动化问题。
    提出了一种基于云承载服务的研究过程自动化方法。
    描述了实现这种方法的新Globus自动化服务
    报告了大型科学仪器的基准结果和经验。

    工具书类

    [1]
    Stach E.等人,《材料开发的自主实验系统:社区视角》,物质4 (9) (2021) 2702–2726,.
    [2]
    Leong C.J.等人,一个面向对象的框架,用于实现跨材料加速平台的工作流进化,物质5 (10) (2022) 3124–3134.
    [3]
    Liu Z.,et al.,Bridgeting data center AI systems with edge computing for actionable information retrieval,《利用边缘计算桥接数据中心人工智能系统,实现可操作信息检索》,载于:第三次极限规模循环计算实验研讨会IEEE,2021年,第15-23页,。
    [4]
    Trifan A.等人,《智能分辨率:将Cryo-EM与AI驱动的多分辨率模拟相结合,观察严重急性呼吸综合征冠状病毒-2复制转录机制的作用》,国际期刊高性能计算。申请。(2022),.
    [5]
    Barreto C.等人。,Web服务业务流程执行语言2.0版入门2007年,OASIS规范。
    [6]
    指挥可扩展的工作流程编排, 2022,https://conductor.netflix网站(2022年11月访问)。
    [7]
    D.Xin等人,《开发人员如何迭代机器学习工作流》,载于:KDD IDEA研讨会,2018年。
    [8]
    Chard K.等人,大数据的高效安全传输、同步和共享,IEEE云计算。1 (3) (2014) 46–55,.
    [9]
    亚马逊州语言, 2022,https://states-language.net网站/(2022年1月访问)。
    [10]
    Tuecke S.等人,Globus auth:一个研究身份和访问管理平台,收录于:第十二届IEEE电子科学国际会议2016年,第203–212页,。
    [11]
    Ananthakrishnan R.等人,用于协作科学应用的Globus平台即服务,同意。计算:实际。专家。27 (2) (2015) 290–305,.
    [12]
    Vescovi R.等人,《科学仪器与计算的联系:模式、技术和经验》,模式3 (10) (2022),.
    [13]
    Bicer T.等人,《利用联邦设施进行高性能ptychography重建》,载于:烟雾山计算科学与工程会议《施普林格》,2021年,第173-189页。https://arxiv.org/abs/2111.11330.
    [14]
    Blaiszik B.等人,支持材料科学中机器学习的数据生态系统,Commun女士。9 (4) (2019) 1125–1133,.
    [15]
    Charbonneau A.L.等人。,让共同基金的数据更容易被发现:促进数据生态系统, 2021,. BioRxiv,冷泉港实验室。
    [16]
    Sherrell D.A.等人,结构生物学中心的固定目标串行晶体学,J.同步辐射。29 (5) (2022) 1141–1151,.
    [17]
    Levental M.等人,自动化显微镜的超快聚焦检测,收录于:国际计算科学会议《施普林格》,2022年,第403-416页,。
    [18]
    Ali A.等人。,FairDMS:通过数据和模型重用进行快速模型训练, 2022,https://arxiv.org/abs/2204.09805.
    [19]
    Diederichs K.等人,串行同步辐射X射线晶体学(SSX),in:蛋白质结晶学,施普林格出版社,2017年,第239-272页。
    [20]
    Winter G.等人,《DIALS:新集成包的实施和评估》,《水晶学报》。截面图D74 (2) (2018) 85–97,.
    [21]
    Uervirojnangkoorn M.等人,利用X射线自由电子激光晶体学从有限数量的晶体挑战生物系统,埃利夫4 (2015).
    [22]
    Hidaytoglu M.等人,MemXCT:X射线断层成像的设计、优化、缩放和再现性,IEEE传输。平行配送系统。33 (9) (2021) 2014–2031,.
    [23]
    刘志安,等,托莫甘:低剂量同步辐射X射线断层成像与生成对抗网络,J.选项。Soc.Amer公司。A类37 (3) (2020) 422–434,.
    [24]
    Lehmkühler F.等人,《从飞秒到小时——用相干X射线测量超过18个数量级的动力学》,申请。科学。11 (13) (2021) 6179.
    [25]
    Maiden A.M.等人,通过眼科成像进行超分辨率成像,J.选择。Soc.Amer公司。A类28 (4) (2011) 604–612.
    [26]
    Pokharel R.,用于三维中尺度材料表征的高能X射线衍射显微镜(HEDM)概述,收录于:材料发现和设计《施普林格国际出版》,2018年,第167-201页,。
    [27]
    Dubochet J.,Cryo-EM-第一个三十年,显微镜杂志。245 (3) (2012) 221–224.
    [28]
    Huerta E.A.等人,通过深度学习实现实时多信使天体物理学发现,自然修订版物理。1 (10) (2019) 600–608,.
    [29]
    Bernier J.V.等人,《远场高能衍射显微镜:晶间取向和应变分析工具》,J.应变分析。工程设计。46 (7) (2011) 527–547.
    [30]
    MIDAS,使用衍射分析软件的显微结构成像, 2022,https://www.aps.anl.gov/Sience/Sientific-Software/MIDAS(2022年3月访问)。
    [31]
    Blaiszik B.等人,《材料数据设施:推进材料科学研究的数据服务》,JOM公司68 (8) (2016) 2045–2052,.
    [32]
    Chard R.等人,《DLHub:为科学服务的模型和数据》,载于:第33届IEEE国际并行和分布式处理研讨会2019年,第283-292页,。
    [33]
    Li Z.等人,DLHub:简化科学中机器学习模型的发布、发现和使用,J.平行分布计算。147 (2021) 64–76.
    [34]
    共同基金数据生态系统(CFDE),https://commonfund.nih.gov/data生态系统.
    [35]
    Allcock W.E.等人,Petrel:一种可编程访问的研究数据服务,收录于:高级研究计算的实践与经验,ACM,2019年,第1-7页,。
    [36]
    高级A.W.等人,利用深度学习潜力改进蛋白质结构预测,自然577 (7792) (2020) 706–710,.
    [37]
    Chard K.等人,《Globus Nexus:研究身份、简介和团队管理的平台即服务提供商》,未来一代。计算。系统。56 (2016) 571–583,.
    [38]
    Allen B.等人,《软件作为数据科学家的服务》,Commun公司。ACM公司55 (2) (2012) 81–88,.
    [39]
    Ananthakrishnan R.等人,数据发布的Globus平台服务,收录于:高级研究计算的实践与体会,ACM,2018年,第14:1–14:7页,。
    [40]
    Ananthakrishnan R.等人,《持久性标识符广泛使用的开放生态系统》,载于:高级研究计算的实践与经验ACM,2020年,第99–105页,。
    [41]
    Chard R.等人,FuncX:为科学结构服务的联邦功能,in:第29届高性能并行和分布式计算国际研讨会,2020年,第65-76页,。
    [42]
    Li Z.等人,FuncX:联邦功能作为科学服务,IEEE传输。平行配送系统。33 (12) (2022) 4948–4963,.
    [43]
    Alt J.等人,OAuth SSH与globus auth,in:高级研究计算的实践与经验ACM,2020年,第34-40页,。
    [44]
    Globus操作提供程序, 2022,https://docs.globus.org/api/flows/hosted-action-providers网站/(2022年8月访问)。
    [45]
    AWS步骤功能现代应用程序的可视化工作流, 2022,https://aws.amazon.com/step-functions网站(2022年1月访问)。
    [46]
    Wright A.等人。,JSON模式:描述JSON文档的媒体类型,互联网工程特别工作组,2020年,工作进展。
    [47]
    哈德·D·。,OAuth 2.0授权框架规范,编号6749,互联网工程特别工作组,2012年,http://tools.ietf.org/html/rfc6749.
    [48]
    Globus操作提供程序工具, 2022,https://action-provider-tools.readthedocs.io/(2022年8月访问)。
    [49]
    现有工作流系统, 2022,https://s.apache.org/existing-workflow-systems网站(2022年1月访问)。
    [50]
    Ludäscher B.等人,《科学工作流管理和开普勒系统》,同意。计算:实际。专家。18 (10) (2006) 1039–1065.
    [51]
    Goecks J.等人,《银河系:支持生命科学中可访问、可复制和透明计算研究的综合方法》,基因组生物学。11 (8) (2010) 1–13.
    [52]
    Deelman E.等人,Pegasus,科学自动化工作流管理系统,未来一代。计算。系统。46 (2015) 17–35.
    [53]
    M.Albrecht等人,《Makeflow:集群、云和网格上数据密集型计算的可移植抽象》,载于:第一届ACM SIGMOD可伸缩工作流执行引擎和技术研讨会,2012年,第1-13页。
    [54]
    Babuji Y.等人,《Parsl:Python中的普适并行编程》,收录于:第28届高性能并行和分布式计算国际研讨会,ACM,2019年,第25-36页,。
    [55]
    da Silva R.F.等人,《科学工作流研究与开发的社区路线图》,载于:IEEE支持大规模科学的工作流研讨会,2021,第81–90页,。
    [56]
    Liew C.S.等人,《科学工作流程:跨越范式》,ACM计算。Surv公司。49 (4) (2016) 1–39.
    [57]
    Krauter K.等人,《分布式计算网格资源管理系统的分类和调查》,软质-实际。支出。32 (2) (2002) 135–164.
    [58]
    Deelman E.等人,《工作流和电子科学:工作流系统特性和功能概述》,未来一代。计算。系统。25 (5) (2009) 528–540.
    [59]
    Wilde M.等人,《Swift:分布式并行脚本语言》,并行计算。37 (9) (2011) 633–652,.
    [60]
    Hull D.等人,Taverna:构建和运行服务工作流的工具,核酸研究。34(补充2)(2006)W729–W732。
    [61]
    Curbera F.等人,《解开Web服务网:SOAP、WSDL和UDDI简介》,IEEE互联网计算。6 (2) (2002) 86–93.
    [62]
    Alshuqayran N.等人,《微服务架构的系统映射研究》,载于:IEEE第九届面向服务的计算和应用国际会议IEEE,2016年,第44-51页。
    [63]
    Candela L.等人,研究电子基础设施的工作流语言,国际数据科学杂志。分析。11 (4) (2021) 361–376.
    [64]
    DAGman:有向非循环图管理器,http://www.cs.wisc.edu/condor/dagman.
    [65]
    通用工作流语言规范,v1.0.2, 2020,https://www.commonwl.org/v1.0/(2020年4月查阅)。
    [66]
    Emmerich W.等人,使用业务流程执行语言(BPEL)的网格服务编排,J.网格计算。3 (3) (2005) 283–304.
    [67]
    Tan W.等人,《在构建科学工作流中使用Taverna和BPEL的比较:caGrid的案例》,同意。计算:实际。专家。22 (9) (2010) 1098–1117.
    [68]
    Tan W.等人,《BPEL4Job:工作流程管理的错误处理设计》,载于:面向服务计算国际会议施普林格-柏林-海德堡出版社,2007年,第27–42页。
    [69]
    亚马逊简单工作流服务, 2022,https://docs.aws.amazon.com/amazonswf/latest/developerguide/swf-welcome.html(2022年1月访问)。
    [70]
    GitHub操作, 2022,https://github.com/features/actions网站/(2022年1月访问)。
    [71]
    AWS代码管道, 2022,https://aws.amazon.com/code管道/(2022年1月访问)。
    [72]
    Eugster P.T.等人,《发布/订阅的许多面》,ACM计算。Surv公司。35 (2) (2003) 114–131.
    [73]
    A.Alqaoud等人,《发布/订阅作为科学工作流互操作性的模型》,载于:《支持大规模科学的工作流第四次研讨会》,2009年,第1-10页。
    [74]
    Kamburugamuve S.等人,云中传感器数据实时处理框架,J.传感器2015 (2015).
    [75]
    Renart E.等人,《使用边缘资源进行内容驱动流处理的在线决策》,载于:第十三届国际电子科学会议IEEE,2017年,第384-392页。
    [76]
    实验物理与工业控制系统(EPICS), 2022,https://epics.anl.gov网站(2022年8月访问)。
    [77]
    M.Quigley等人,《ROS:开放源码机器人操作系统》,载于:ICRA开放源码软件研讨会,2009年第3卷,第5页。
    [78]
    Xu H.等,iRODS primer 2:集成面向规则的数据系统,合成。莱克特。信息概念检索。服务。9 (3) (2017) 1–131.
    [79]
    B.Ur等人,《智能家居中的实用触发操作编程》,载于:《计算机系统中的人为因素会议》,2014年,第803–812页。
    [80]
    B.Ur等人,《野外触发操作编程:200000个IFTTT食谱的分析》,载于:《计算机系统中的人为因素会议》,2016年,第3227-3231页。
    [81]
    Chard R.等人,《高通量神经解剖学和触发动作编程:研究自动化的案例研究》,收录于:第一届科学自主基础设施国际研讨会, 2018,.
    [82]
    Gossinski W.J.等人,《多模式澳大利亚科学成像和可视化环境(MASSIVE)高性能计算基础设施:在神经科学和神经信息学研究中的应用》,前面。神经信息。8 (2014) 30.
    [83]
    Plale B.等人,《CASA和LEAD:实时多尺度天气预报的自适应网络基础设施》,电脑类39 (11) (2006) 56–64.
    [84]
    Elias A.R.等人,熊在哪里使用物联网和边缘云系统自动化野生动物图像处理,包括:IEEE/ACM第二届物联网设计与实现国际会议IEEE,2017年,第247–258页。
    [85]
    Beckman P.等人,《SPRUCE:支持紧急高性能计算的系统》,载于:基于网格的问题解决环境,施普林格,2007年,第295–311页。
    [86]
    Altintas I.,《将动态数据驱动的网络基础设施用于下一代灾害情报》,载于:动态数据驱动应用系统国际会议《施普林格》,2020年,第18-21页。
    [87]
    Boccali T.等人,从欧洲核子研究中心到远程HPC数据中心的高速数据处理的动态分布,计算。柔和。大科学。5 (1) (2021) 1–13.
    [88]
    Wilkins-Diehr N.等人,TeraGrid科学网关及其对科学的影响,电脑类41 (11) (2008) 32–41.
    [89]
    Blaschke J.P.等人。,SLAC和NERSC的实时XFEL数据分析:新兴exascale实验数据分析的试运行, 2021,arXiv:2106.11469.
    [90]
    Cholia S.等人,《NEWT:构建高性能计算web应用程序的RESTful服务》,收录于:网关计算环境研讨会IEEE,2010年,第1-11页。
    [91]
    Stubbs J.等人,《Tapis:用于可复制分布式计算研究的API平台》,载于:信息与通信会议的未来《施普林格》,2021年,第878-900页。
    [92]
    Thain D.等人,《实践中的分布式计算:秃鹰的经验》,同意。计算:实际。专家。17 (2–4) (2005) 323–356.
    [93]
    Salim M.等人,Balsam:超级计算机上的近实时实验数据分析,in:第一届IEEE/ACM大规模循环计算实验研讨会IEEE,2019年,第26-31页。
    [94]
    Nickolay S.等人。,在HPC平台上适应实时作业, 2021,https://arxiv.org/abs/2103.13130.
    [95]
    Antypas K.B.等人,《通过跨设施工作流实现发现数据科学》,载于:IEEE国际大数据会议2021年,第3671–3680页,。
    [96]
    Bard D.等人。,LBNL超级设施项目报告, 2022,.
    [97]
    Bard D.J.等人,《使用NERSC超能力API进行数据驱动研究的自动化》,载于:高性能计算《施普林格国际出版》,查姆出版社,2021年,第333–345页。
    [98]
    Stansberry D.等人,《DataFed:通过联邦数据管理实现可再生研究》,载于:国际计算科学和计算智能会议IEEE,2019年,第1312-1317页。
    [99]
    Sparkes A.等人,面向自主科学发现的机器人科学家,自动化实验2 (1) (2010) 1–11.
    [100]
    Roch L.M.等人,《化学操作系统:协调自主实验》,科学机器人3(19)(2018)eaat5559。
    [101]
    Steiner S.等人,由化学编程语言驱动的模块化机器人系统中的有机合成,科学类363 (6423) (2019).
    [102]
    Burger B.等人,移动机器人化学家,自然583 (7815) (2020) 237–241.
    [103]
    Noack M.M.等人,大型同步加速器和中子设施自动数据采集的高斯过程,自然修订版物理。3 (10) (2021) 685–697.

    引用人

    查看全部

    建议

    评论

    信息和贡献者

    问询处

    发布于

    封面图片未来一代计算机系统
    未来一代计算机系统 第142卷,C期
    2023年5月
    410页
    ISSN公司:0167-739倍
    期刊目录

    出版商

    爱思唯尔科学出版社。

    荷兰

    出版历史

    出版:2023年5月1日

    作者标记

    1. 研究过程自动化
    2. Globus公司
    3. 高性能计算
    4. 分布式计算
    5. 科学计算
    6. 云计算

    限定符

    • 研究文章

    贡献者

    其他指标

    文献计量学和引文

    文献计量学

    文章指标

    • 下载量(最近12个月)0
    • 下载次数(最近6周)0

    其他指标

    引文

    引用人

    查看全部
    • (2024)globus计算数据集未来一代计算机系统2016年10月10日/j.未来2023.12.07153:C(558-574)在线发布日期:2024年5月16日
    • (2024)动态知识图的衍生信息框架及其在智能城市中的应用未来一代计算机系统2016年10月10日/j.未来2023.10.08152:C(112-126)在线发布日期:2024年3月1日
    • (2024)利用数据依赖性优化云科学工作流系统的数据再生和存储应用专家系统:国际期刊2016年10月10日/j.eswa.2023.121984238:PD在线发布日期:2024年3月15日
    • (2023)使用颜色匹配探索自我驾驶实验室的基准高性能计算、网络、存储和分析国际会议SC’23研讨会会议记录10.1145/3624062.3624615(2147-2152)在线发布日期:2023年11月12日
    • (2023)动态PicoProbe分析电子光学束线/显微镜与超级计算机的连接高性能计算、网络、存储和分析国际会议SC’23研讨会会议记录10.1145/3624062.3624614(2140-2146)在线发布日期:2023年11月12日
    • (2023)用Laue微衍射大规模演示跨设施数据处理高性能计算、网络、存储和分析国际会议SC’23研讨会会议记录10.1145/3624062.3624613(2133-2139)在线发布日期:2023年11月12日
    • (2023)跨不同集群以FaaS形式运行电子健康推断过程的性能体验2023年ACM/SPEC性能工程国际会议指南10.1145/3578245.3585023(289-295)在线发布日期:2023年4月15日

    视图选项

    查看选项

    获取访问权限

    登录选项

    完全访问权限

    媒体

    数字

    其他

    桌子

    分享

    分享

    共享此出版物链接

    在社交媒体上分享