微调e distributione di un modello di base开源con Red Hat OpenShift AI

标签：话题

Siamo entusiasti di presentare，偶尔射线峰会diquest'ano，lo在corso di realizzazione con中堆叠基础设施IBM研究，che包含雷e（电子）CodeFlare公司根据carichi di lavoro distribuiti con l'IA generativa。Le tecnologie sono state introdotte e svilluppate all’interno di community开源来了开放式数据中心第一个中心是一个遥远的地方红帽OpenShift AI，苏翠si basano anche i modelli di base diIBM watsonx.ai公司e IBM utilizzati数据Red Hat Ansible自动化平台Red Hat OpenShift AI是一个avvale di un’effication suite di instrumenti e tecnologie progettati per semplificare e rendere scalabiled efficient il processo di fine tuning e di distributione dei modelli di base。在前提chenel云上，未添加到una distributione coreenti dei modelli的请求仪器的格式。最后一部歌剧呈现了一个多样化的opzioni di fine tuning e distributione dei modelli di base e offre ai professionati specializati in data science e MLOps funzionalit a quality l’accesso in tempo reale alle risosse del cluster o La possibilityádi pianificare i carichi di lavoro per l laborazione分批的数据科学、MLOps Funzionatist a qualite’access。

Questo blog illustra come eseguire un fine tuning lineare，per-poi distributaire un modello HuggingFace问答博客插图来自eseguile un微调线路，根据poi分布un modello拥抱脸GPT-2级复合肥达137 milioni di parametri su un set di datiWikiText（维基文本）utilizzando Red Hat OpenShift AI。根据quanto riguarda la fase di微调，la porteremo a termine grazie allo堆栈分布式工作负载con KubeRay alla base per la parallelizzazizione e utilizzeremo lo堆栈K服务器/Caikit/TGIS在GPT-2基础上进行的每一次部署和模型监控都需要进行微调。

Lo-stack Distributed Workloadsècostituito da due elementi principali:低堆栈分布式工作负载

KubeRay：运营商Kubernetes per il deployment e la gestione di cluster Ray remoti che eseguono carichi di lavoro di elaborazione distributuiti；e（电子）
代码标识：Kubernetes che si occupata del deployment e della gestione del ciclo di vita di tre componenti：
- CodeFlare-SDK:strumento per la definizione e il controllo dell’infrastruttura e dei processi di elaborazione distributuiti in remoto。L'operatore CodeFlare distributuisce un笔记本电脑con CodeFlare-SDK。
- 多集群应用程序调度器（MCAD）：un controller Kubernetes在un ambiente composto da uno o pi ou集群中批量执行lagestione dei进程。
- InstaScale：在OpenShift con configurazione MachineSets（自动评估或管理，在AWS或Open Data Hub上提供Red Hat OpenShift）的质量版本中，按需调整聚合。

图1。分布式工作负载中的Interazioni tra i componentii e il flusso di lavoro dell'utente。

来插图nella Figura 1，在Red Hat OpenShift AI l'otimizizazione del modello di base inizia con CodeFlare中，un framework dinamico in grado di snellire e semplificare i processi di creazione，addestramento e perfezionment to dei modelli。Inolter puoi avvalerti delle potenzalitádi Ray，un framework di elaborazione distribuito，e utilizzare KubeRay per distribuire in modo efficient le attivitád i fine tuning，riducendo notevolmente i tempi di ottimizzazazione delle prestazioni del modello。Una volta definito il carico di lavoro di fining tuning，MCAD mette in coda il carico-di lavolo Ray finchénon risultano soddisfatti i requisition in termini di risosse e crea il cluster Ray soltanto quandoèpossibile pianificare tutti pod。

根据quanto riguarda la distribuzione，堆叠KServe/Caikit/TGISècomposto da：

KServe：在produzione che gestisce il ciclo di vita del deployment dei modelli中自定义资源定义Kubernetes per i modelli-di distributione
文本生成推断服务器（TGIS）：infrastruttura di backend o Server di distributione che carica i modelli e fornisce il motore inferenziale
Caikit:toolkit/runtime di IA che gestisce il ciclo di vita del processo TGIS e fornisce moduled endpoint inferenzialia per la gestione dei vari tipi di modelli工具集/运行时di IA che gesticce il ciclo di vita-del progresso TGIS e fornisce模块
OpenShift Serverless（operatore不可或缺）：si basa sul progetto开源Knative che permette agli sviluppatori di creare e distributuire applicazioni Serverless e guidate dagli eventi di livello enterprise
OpenShift Service Mesh（operatore insuensabile）：si basa sul progetto开源Istio che fornisce una piattaforma di analysis comportmentale e controlleo operative sui microservizi in rete all’interno di una Service Mesh。

图2。Interazioni tra i componentii e il flusso di lavoro dell'utente nello堆栈KServe/Caikit/TGIS。

Una volta完成了对模型的微调，有可能实现eseguirne il部署con il后端e il runtime di distributzione Caikit/TGIS，semplificando e snellendo le operazioni di scalabilit as e manutenzione con KServe，che offre un’infrastruttura di distrobuzione affidabile avanzata。在背景中，Red Hat OpenShift Serverless（Knative）占用了部署服务器的无服务器模型，Red帽子OpenShift Service Mesh（Istio）使用了流量管理（vedere Figura 2）。

配置dell'abiente

Questa demo预支持che sia stato installato o aggiunto come组件aggiuntivo un cluster OpenShift con l'operatorRed Hat OpenShift数据科学.La demo puóessere eseguita anche utilizzando开放式数据中心来比亚塔福拉基地。

每il微调del modello，devi安装程序OperatorHub中的l’operatore della社区CodeFlare显示。L'operatore CodeFlare installa MCAD，InstaScale，L'operator KubeRay e L'immagine del notebook CodeFlale con pacchetti come CodeFlare-sdk，pytorch e torchx inclusis公司。在caso di utilizzo di GPU，devono essere installati anche gli operatori英伟达GPUe（电子）节点功能发现.

根据巴斯塔·埃塞圭尔的quanto riguarda la distributione del modello请求每个安装的脚本都是tutti-gli operatori不可或缺的内部堆栈KServer/Caikit/TGIS。英帕斯塔目标操作员苏罗兹河.

Al momento le istruzioni per l’installazione degli stack分布式工作负载e KServe/Caikit/TGIS prevedono procedure pressochémanuali，ma entrambi saranno presto disponibili e supportati in Red Hat OpenShift AI。

LLM模型的微调

Red Hat OpenShift Data Science的笔记本电脑CodeFlare仪表板的一部分（图3）和克隆存储库演示contente il笔记本e gli altri文件每个la演示都需要。

图3。Immagine del笔记本CodeFlare mostrata nella dashboard di OpenShift Data Science。

All’inizio devi defineire i parametri per il tipo di cluster desiderato（ClusterConfiguration），con dettagli quali-nome del clusters，lo spazio dei nomi nel quale eseguire il deployment，le risose di CPU，GPU e memory necessarie，i tipi di machine se intendi usufruire della funzionalitádi scalabilitáautomatica di InstaScale。Se lavori in un ambiente on-premise，puoi ignorare il parametro公司计算机类型冒名顶替instascale=假在seguito si crea l’ogetto集群中，che viene poi invito每个attivare il集群的MCAD为Ray。

非appena il cluster Rayèpronto edèpossibile visualizane i dettagli con il comandocluster.details（）nel笔记本，puoi definitire il processo di fine tuning，indindo un nome，lo script da eseguire，gli eventuali argomenti e l’elenco delle librerie richieste，e invarlo al cluster Ray appena attivato。L'elenco degli argomenti specifica il modello GPT-2 da utilizzare e il set di dati WIkiText concui eseguire il微调del modello。CodeFlare SDK permette di monitorare comodamente lo stato，i log e altre informazioni tramite interfaccia a riga di comando o di visualizarli in una dashboard Ray。

Una volta终端il微调del modello，l’输出di作业状态（）分音成功e i log presentia i nella仪表板Ray indicano che il processoèstato completato（视频图4）。Con un worker Ray eseguito su una GPU NVIDIA T4 Con 2 CPU和8 GB内存，将GPT2的型号微调到大约45分钟。

图4。我记录下了nella仪表板Ray indicano che il processo di fine tuning del modelloèstato completato。

探索punto devi creare una nuova目录nel笔记本，salvarvi il modello e scaricarlo nell’abiente语言环境转换器seguito中的e非bucket MinIO中的caricarloTieni在questa demo stiamo utilizzando un bucket MinIO中演示che，ma puoi utilizzare un altro tipo di buckets S3，PVC o qualsiasi altro存储。

LLM模型分布

Una volta完成了对modello di base的微调，将momento di metterlo all'opera。Dallo stesso笔记本电脑在cuièstato eseguito il微调del modello，devi creare un nuovo spazio dei nomi中：

eseguire il部署del runtime di distributione Caikit+TGIS；
eseguire il部署della connessione dati S3；e（电子）
eseguire il部署del servizio di inferenza con puntamento al modello situato in un-bucket MinIO

联合国运行时分布式定制资源定义计划每创建一个环境，最终在产品中部署所有模型管理。根据需求，在不同形式的普通模型中，每个模型都有一个创建模型的空间，并根据推理的丰富程度提供服务。Eseguirai il部署del runtime di distributuione che同意di usufruire della scalabilitáverticale dei pod di runtium una volta rilevato un servizio di inferenza。根据l'inferenza viene utilizzata la porta 8085。

Un servizio di inferenzaèUn server che accetta i dati in ingresso，li passa al modello，esegue quest‘ultimo e restituisce l‘output dell’nferenza。Nell’InferenceService oggetto del deployment，devi specificale il runtime distributuito in prevenza，abilitare il percorso directo per l’inferenza gRPC e far puntare il server al bucket MinIO in cui si trova il modello sottopo进行微调。

Dopo aver verificato che il servizio di inferenza sia pronto，devi eseguire una chiamata di infraenza chiedendo al modello di completeare una frase a scelta（确认）。

OpenShift AI中的Terminata questa procedura，avrai complete to il fine tuning di un modello languatico di grandi dimensioni GPT-2 con lo stack Distributed Workloads e lo avrai distributuito con lo tack KServe/Caikit/TGIS

新法律

Innanitutto vorremmo ringraziare le community Open Data Hub e Ray per il loro支持。Questo博客展示了soltanto qualcuno dei potenzialia scenari di utilizzo di AI/ML con OpenShift AI。Per saperne di pisulle funzionalitádello stack CodeFlare，guarda il视频双介面maggiore dettaglio le parti diquesta demo riguardanti CodeFlare SDK中的che illustra，KubeRay e MCAD。

OpenShift Data Science e sviluppermo l’interfaccia utente per lo stack KServe/Caikit/TGIS中的Continua a seguirci percémolto presto integeremo gli operatori CodeFlare e KubeRay，利拉斯基亚托OpenShift数据科学最近的一个研究成果是一个可显示的极限数据。

萨勒奥托雷

塞尔比·努里耶娃

软件工程师

Selbi Nuryyeva是红帽OpenShift AI团队的软件工程师，专注于开放数据中心和红帽OpenShift数据科学产品。在目前的角色中，她负责启用和集成模型服务功能。她之前曾与CodeFlare、MCAD和InstaScale合作开发分布式工作负载，以及合作伙伴AI/ML服务生态系统的集成。Selbi原籍土库曼斯坦，在加入Red Hat之前，她毕业于加州大学洛杉矶分校（UCLA），获得计算化学博士学位，在那里她模拟了太阳能电池板中的化学。

阅读完整的个人简历