主页

文件

提交文件

新闻

编辑委员会

开源软件

程序(PMLR)

交易(TMLR)

搜索

统计

登录

常见问题

联系我们



RSS源

TensorHive:分布式机器学习工作负载的独占GPU访问管理

Pawe Ro shi ciszewski、Micha Martyniak、Filip Schodowski; 22(215):1−5, 2021.

摘要

TensorHive是一种工具,用于组织研究和工程团队的工作,这些团队使用带有GPU的服务器进行机器学习工作负载。在一个全面的web界面中,它支持为独占使用、硬件监控以及配置、执行和排队分布式计算作业保留GPU。该工具专注于易于安装和简单配置,自动检测可用的计算资源并监控其利用率。基于灵活访问控制设置授予的预订由可插入的违规挂钩保护。作业执行模块包括用于TensorFlow和PyTorch等框架中的分布式神经网络训练作业的自动配置模板。项目页面上提供了文档、源代码、使用示例和问题跟踪:https://github.com/rocisz/TensorHive/

[腹肌][pdf格式][围兜]      [代码]
©JMLR公司2021(编辑,贝塔)