Red Hat数据科学家如何使用开放数据中心并为其做出贡献

2021年4月14日Thanh Wong先生

标签：话题

人工智能（AI）和机器学习（ML）驱动着我们周围的世界，从手机上的应用程序到高速公路上的电动汽车。让这些事情尽可能准确地运行需要收集和理解大量数据。掌握这些关键信息的是数据科学家。那么，对于Red Hat的数据科学家来说，一天的工作是什么样子的呢？

首席数据科学家Don Chesworth在一段短视频中（恰当地命名为“红帽数据科学家的一天“）现在可以在我们的网站上找到。数据科学实习生Isabel Zimmerman在“作为红帽数据科学家使用开放数据中心。“我们将介绍这篇文章中的一些亮点。

数据科学家将数据转化为商业洞察力

哈佛商业分析已经过去近十年了将数据科学确定为21世纪最热门的工作之一支持人们担任这一角色的技术已经取得了长足进步。数据科学家不仅必须带着天生的好奇心来到会议桌前，还必须“设计自己的工具”来分析数据，并为利益相关者可视化数据。

如今，Open Data Hub和Red Hat OpenShift中提供的工具帮助数据专家专注于理解和分析数据，而不是管理基础设施。

齐默尔曼解释说，数据科学家不仅仅是训练模型的人，他们还将数据转化为商业洞察力。她说：“对于机器学习系统，企业没有一种一刀切的方法。”。

“架构良好的模型可能有助于深入了解数据，但通常为了获得业务价值，必须将模型部署为更大的智能应用程序的一部分，该应用程序不断从数据中学习并对动态数据流进行推断。”

数据科学家可以通过开放数据中心找到一个一站式端到端平台

开放数据中心是一个AI/ML平台，它将不同的开源AI工具集成到一站式安装中。单击按钮即可启动已安装Open Data Hub Operator的Red Hat OpenShift。

在该平台中，数据科学家可以使用Jupyter笔记本创建模型，并从Apache Spark等流行工具中选择用于开发模型。虽然数据科学工作流通常在模型构建和验证时结束，但监控模型以确保其保持健康仍然很重要。Prometheus是Open Data Hub中的另一个工具，它将数据转发给Grafana，以便数据科学家可以构建仪表盘来监视模型的运行状况和性能。

在她的视频中，Zimmerman演示了如何使用开放数据中心构建、部署和监控ML模型。开放数据中心还可以在Jupyter笔记本之外托管模型，以便数据科学家和团队其他成员（包括软件工程师或前端开发人员）轻松访问。

Open Data Hub上提供的工具可帮助Zimmerman等数据科学家部署模型，而无需成为前端开发人员，也无需启动通过可靠运营商部署模型的数据科学工作流。从数据摄取到模型创建、测试和可视化，开放数据中心使数据科学家的工作更加轻松。

开放数据中心还为数据科学家提供了一个上游贡献的机会

由于平台是开源的，任何人都可以贡献代码。Chesworth指出，作为Red Hat的数据科学家，令人兴奋的是“我们非常鼓励向上游贡献代码，并关注代码中的混合和容器化。”

他有一个推荐系统，并将该代码装箱。它是便携式的，可以在他的本地机器上运行裸机服务器、云计算和Red Hat OpenShift。他还使用Open Data Hub运行它。

他的代码设置方式可以使用CPU、GPU或多个GPU。切斯沃思请注意，在将ML容器化和分发时，容器被构建为灵活的。但正因为如此，容器上的共享内存空间非常少。他说：“为了增加共享内存的大小，你必须经历很多困难。”。

他与Open Data Hub团队合作，提交了关于跨多个GPU更改Red Hat OpenShift共享内存大小的改进。Chesworth解释道，“我曾与开放数据中心团队合作，他们做出了贡献CRI-O上游并进行了更改，使更改共享内存大小更加容易。这一变化进入了CRI-O 1.20，然后进入了Kubernetes 1.20。”

作为一家开源公司，许多Red Hatter致力于支持和贡献社区项目，如开放数据中心，它为我们的内部数据科学和AI平台奠定了基础。