计算机科学>分布式、并行和群集计算
标题: LBNL超级设施项目报告
摘要: 超级设施模型旨在利用HPC进行实验科学。 它不仅仅是一个连接实验、网络和HPC设施的模型; 它包括使互联设施易于使用所需的基础设施、软件、工具和专业知识的完整生态系统。 2019年启动了为期三年的劳伦斯伯克利国家实验室(LBNL)超级设施项目,以协调LBNL正在开展的工作,支持该模型,并提供一套连贯、全面的科学要求,推动现有和新的工作。 该项目的一个关键组成部分是与八个科学团队的深入合作,这八个团队代表了DOE科学办公室内具有挑战性的用例。 到项目结束时,我们实现了项目目标,使我们的科学应用程序能够演示大规模分析远程设施数据的自动化管道,而无需常规的人工干预。 在一些情况下,我们超越了演示,现在提供生产级服务。 为了实现这一目标,Superfacility团队开发了用于近实时计算支持的工具、基础设施和策略、动态高性能网络、数据管理和移动工具、API驱动的自动化、通过Jupyter的HPC-scale笔记本电脑、使用Federated Identity的身份验证以及支持的基于容器的边缘服务。 我们在这个项目中吸取的教训为未来大型、复杂、跨学科的合作提供了一个有价值的模型。 迫切需要跨国家设施建立一致的计算基础设施,LBNL的超级设施项目是成功应对跨多个科学领域在硬件、软件、政策和服务方面面临的挑战的独特模式。