由于数据科学团队需要从探索性分析转向在生产中对其模型进行培训、服务和优化,因此他们需要构建一组MLOps工具来自动化其机器学习生命周期。 机器学习操作(Machine Learning Ops)是一个复杂的领域,需要大量的时间,而且通常需要一组独立的技能,从数据和系统工程(Data and System engineering)到云架构(Cloud architecture)。 将“数据科学”部署到生产中最多是一项挑战。
从2022年2月22日起,Pachyderm社区版在开放数据中心上线。 用户可以利用Pachyderm的Operator快速运行平台,降低MLOps的进入成本。
通过开放数据中心简化向MLOp的过渡。
对于那些不熟悉 开放数据中心(ODH)* ,ODH是一个开源项目,它为在 库伯内特斯 -基于 红帽OpenShift 以及Red Hat产品组合中的相关产品,如 Ceph对象存储。
Open Data Hub将不同的开源AI工具集成到一站式安装中。 单击按钮即可启动安装了Open Data Hub Operator的Red Hat OpenShift。 在该平台中,数据科学家可以使用Jupyter笔记本创建模型,并从流行的工具中选择用于开发和部署模型的工具。
因此,数据科学家可以使用Open data Hub节省建立稳定且可扩展的AL/ML环境的时间。 阅读 “Red Hat数据科学家如何使用开放数据中心并为其做出贡献” 并进一步了解开放数据中心为数据科学世界提供了什么。
* 请注意,ODH是一个开源社区项目,它为Red Hat OpenShift Data Science提供了灵感和技术基础。 Red Hat OpenShift Data Science是一项云服务,它提供了Open Data Hub中提供的技术的一个子集,但提供了Red Hats团队的额外支持。 Pachyderm与Red Hat合作,在RHODS上提供其企业版产品。
使用厚皮肌,您的MLOps堆栈不受未来影响
[厚皮动物]( http://pachyderm.com )为机器学习生命周期提供了数据基础。 它提供了驱动整个[ML循环]的数据层( jimmymwhitaker.medium.com/completing-the-chine-earning-loop-e03c784eaab4(jimmymwhitaker.medium.com/completing-the-chine-earning-loop-e03c784eaab4) )通过引入千兆字节级的数据版本控制和沿袭跟踪,以及完全自动缩放和数据驱动的管道。
将厚皮层作为现代MLOps堆栈的基础主干,可以让您:
将数据任务自动化为灵活的管道。 这些管道与代码和框架无关,因此您可以为特定的ML应用程序使用最佳工具。
针对大量非结构化和结构化数据进行扩展和优化。 Pachyderm中的所有内容都是一个文件,因此它可以处理任何类型的数据——图像、音频、CSV、JSON数据……它旨在自动并行化代码,以扩展到数十亿个文件。
以增量方式处理数据。 Pachyderm具有独特的功能,例如增量处理,它只处理数据的差异或更改,从而将处理时间减少了一个数量级。
对数据的所有更改进行版本控制 --包括元数据、工件和度量——提供端到端的再现性和不可变的数据沿袭。 这大大减少了调试问题的工作量,并有助于满足数据治理和审计要求。 请注意,Pachyderm的数据谱系是IMMUTABLE、ENFORCED和AUTOMATIC。 如果不记录血统,则无法运行厚皮动物进程。 这一切都是作为数据的基本属性在幕后进行跟踪的,ML团队不需要自己做任何事情。
Pachyderm Enterprise在其社区版的基础上构建,以提供其他功能,如控制台(Pachydem UI)、用户访问管理和Pachyderm团队的可靠支持。 有关更多信息,请联系Pachyderm info@pachyderm.io ,或订阅 红帽市场上的厚皮动物 .
厚皮人的高层建筑
在深入了解Pachyderm利用Pachyderm Operator的安装指南之前,让我们快速了解一下正在发挥作用的建筑层。
Open Data Hub Operator安装在OpenShift群集上。
Open Data Hub Operator安装Jupyterhub/Pachyderm Operator/Ceph Nano。
Ceph创建了一个新的对象存储(兼容S3存储桶)。
厚皮虫集群使用Ceph提供的对象存储。
Jupyter笔记本访问Pachyderm集群。
请注意,Open Data Hub集成了许多组件,包括Ceph Nano/JupyterHub,使得Pachyderm的部署相对容易。
按照安装指南了解更多详细信息,然后开始使用Pachyderm的标准入门演示。
其他资源: