![]() |
![]() |
![]() |
你是一个 管理员 ,负责管理安装了功能强大的GPU的集群(或多个服务器)。
😠 用户多于资源,因此他们必须竞争 🎤 用户需要 独占访问 到GPU,而不是排队系统 🔮 您需要控制组织中哪些项目消耗的计算能力最大 🌊 其他流行的工具只是过火,目的不同,或者需要花费大量时间阅读文档、安装和配置(Grafana、Kubernetes、Slurm) 🐧 使用您的基础设施的人只需要一个界面来处理与管理计算基础设施相关的所有事情:监视、预订日历和调度分布式作业 💥 不能冒险通过在每台机器上安装软件来破坏敏感配置,而应该选择可以从一个位置进行管理的集中式解决方案
你是一个 独立用户 他可以访问分散在多台机器上的强大GPU。
〽️ 考虑到批量大小、主机到设备的数据传输等因素,您希望保持较高的GPU利用率,如 gpu实用程序 , 内存实用程序 , 已用内存(_U) 非常适合这个目的 📅 使用日历可视化培训实验的名称有助于跟踪项目进展情况 🐍 无论框架是什么,启动分布式培训对您来说都至关重要 😵 管理所有分布式训练实验的训练命令列表会让你抓狂 💤 记住在睡觉前手动启动训练不再有趣
所有节点都必须可以通过SSH访问,无需密码,使用SSH基于密钥的身份验证( 如何设置SSH密钥 -在中进行了解释 快速启动部分 ) 仅支持NVIDIA GPU(依赖于 英维迪亚·斯密 命令) 目前,TensorHive假定所有想要注册到系统中的用户必须在TensorHive管理员配置的所有节点上具有相同的UNIX用户名(与独立开发人员无关) (可选)我们建议在单独的用户帐户上安装TensorHive(例如 张量蜂窝 )并将此用户添加到 tty公司 系统组。
pip安装tensorhive
git克隆 https://github.com/rocisz/TensorHive.git && 光盘 TensorHive公司 pip安装-e .
张量蜂窝初始化
张量蜂窝试验
张量配置单元密钥
张量蜂窝
~/.config/TensorHive/hosts_config.ini ~/.config/TensorHive/main_config.ini ~/.config/TensorHive/mailbot_config.ini
(参见示例)
url_schema=https url_hostname=some服务器 url_port=443 url_prefix=张量蜂窝/api
位置/张量蜂窝{ proxy_set_header X-Real-IP$remote_addr; proxy_set_header主机$Host; proxy_set_header X-Forwarded-Host$Host:$server_port; proxy_set_header X-Forwarded-Server$host; $proxy_add_X_Forwarded_f的proxy_set_header X-Forwarded-For; add_header“Access-Control-Allow-Origin”“*”; add_header“Access-Control-Allow-Credentials”“true”; add_header“Access-Control-Allow-Methods”“GET,POST,OPTIONS”; add_header“Access-Control-Allow-Headers”“DNT,X-CustomHeader,Keep-Alive,User-Agent,X-Requested-With,If-Modified-Since,Cache-Control,Content-Type”; 代理程序(_P) http://localhost:5000/tensorhive ; proxy_set_header SCRIPT_NAME/tensorhive; } 位置/张量蜂窝/api{ proxy_set_header X-Real-IP$remote_addr; proxy_set_header主机$Host; proxy_set_header X-Forwarded-Host$Host:$server_port; proxy_set_header X-Forwarded-Server$host; $proxy_add_X_Forwarded_f的proxy_set_header X-Forwarded-For; add_header“Access-Control-Allow-Origin”“*”; add_header“Access-Control-Allow-Credentials”“true”; add_header“Access-Control-Allow-Methods”“GET,POST,OPTIONS”; add_header“Access-Control-Allow-Headers”“DNT,X-CustomHeader,Keep-Alive,User-Agent,X-Requested-With,If-Modified-Since,Cache-Control,Content-Type”; 代理程序(_P) http://localhost:1111 ; }
@文章 { JMLR:版本22:20-225 , 作者 = { Pawe Ro shi ciszewski和Micha Martyniak以及Filip Schodowski } , 标题 = { TensorHive:分布式机器学习工作负载的独占GPU访问管理 } , 杂志 = { 机器学习研究杂志 } , 年 = { 2021 } , 体积 = { 22 } , 数 = { 215 } , 页 = { 1-5 } , 网址 = { http://jmlr.org/papers/v22/20-225.html } }
保罗·西舍夫斯基 (@rocisz) MichałMartyniak(@micmarty) 菲利普·肖多夫斯基 (@filschod)
杰克·斯泽姆普林斯基 (@jszemplinski) 马特乌斯·彼得罗夫斯基 (@matpiotrowski) 马蒂娜·奥列兹基维奇 (@martyole) 托马斯·梅内特 (@tomenet) 巴托斯·扬科夫斯基 (@brtjank)