Kubeflow-chart是一款由灵雀云自主研发的开源MLOps 工具,它可以简化开源Kubeflow在Kubernetes上部署的步骤,帮助企业免去调研、部署、运维、 应用迁移、应用适配等成本,极大程度地降低企业应用Kubeflow的成本。
Kubeflow-chart使用Helm Chart方式定制了Kubeflow的安装方式,使用一个命令 (helm install) 即可完成Kubeflow和其依赖组件的安装,包括dex, cert-manager, istio, knative-serving 等。
此外,Kubeflow-chart将常见的配置项,如镜像地址,认证配置信息,默认账户,依赖组件安装开关等常用配置项抽出,只需要更改values.yaml文件, 即可完成kubeflow对不同K8s环境完成部署,同时提供values-cn.yaml免去在国内开发者对镜像下载的困扰。Kubeflow-chart可以帮助开发者轻松实 现在Kubernetes上快速方便地部署、学习、使用、管理当前最流行的机器学习软件。
灵雀云云原生MLOps以及其开源工具kubeflow-chart,致力于最大程度地降低企业应用AI能力的门槛,使企业获得高效、低成本、规范化、可追溯的AI应用开发以及上线流程,帮助企业快速应用云原生机器学习技术,构建高效、稳定、可扩展的MLOps平台。
灵雀云云原生MLOps相较于其他MLOps开源工具,具备以下亮点:
●非侵入开发模式:支持非侵入式的、可视化的工作流编排开发环境,不需要改造原先工程代码即可应用MLOps能力。 可视化分布式:支持在可视化工作流开发时,直接配置多种形式的分布式训练 多租户和配额:和ACP联动的可视化多租户资源配额(CPU, GPU, vGPU)管理能力
●虚拟GPU:支持使用GPUManager管理的虚拟GPU资源
●调度器:使用Volcano增强分布式训练任务的调度器(支持TFJob, PytorchJob, MPIJob, 和通用 Argo 工作流) 实验追踪:集成MLFlow代替 Kubeflow实验追踪和可视化实验比对
●数据标注:集成label studio联动S3存储完成可视化数据标注
●SQL训练:集成SQLFlow ,使用SQL语言完成模型训练和预测
●大模型:在数据存储、分布式训练、模型存储等MLOps关键环节,支持对大模型的存储和调用中文界面:支持中文界面
●国产硬件支持:支持 arm64 架构的各种国产CPU和部分国产GPU案例教程:内置大量中文案例和教程Notebook,快速上手
●高性能:内置IntelTensorflow,NeralCompressor,GPUManager,Triton等工具充分发挥训练、推理的性能 高可用:支持平台高可用,发布的推理服务高可用
企业级云原生MLOps在多种应用方向均可以发挥其功能,包括传统数据挖掘、机器学习、深度学习,甚至超大规模语言模型、对话AI等。目前平台包含了4个主要功能板块:
● 数据集管理
● 机器学习开发
● 模型训练
● 模型/推理服务