文档首页/ 云容器引擎 CCE/ 用户指南/ 云原生AI/ 云原生AI套件概述

更新时间：2025-11-05 GMT+08:00

查看PDF

云原生AI套件概述

云原生AI套件以华为云CCE服务为基础，为您提供开箱即用的AI训练与推理全流程的解决方案，涵盖AI资源管理、AI负载调度、AI任务管理、AI数据加速及AI服务部署等服务，提供端到端的全栈支持与优化。

图1 云原生AI套件架构图
点击放大

AI资源管理

CCE AI套件（NVIDIA GPU）和CCE AI套件（Ascend NPU）插件可以实现GPU、NPU、ROCE网卡等异构计算资源的标准化接入与高效调度，为AI、HPC等计算密集型负载提供底层硬件加速能力。

插件	描述
CCE AI套件（NVIDIA GPU）	该插件是用于管理和调度NVIDIA GPU硬件资源的核心组件，由多个子模块协同工作，确保GPU设备能被容器化应用高效、安全地使用。其核心作用是将物理GPU资源抽象为CCE可调度的计算单元，并为AI训练、图形渲染等高性能负载提供完整的加速支持。同时，该插件提供GPU虚拟化技术，能够实现对硬件资源的灵活切分与动态管理，有效提高资源利用率。
CCE AI套件（Ascend NPU）	该插件是用于管理和调度昇腾（Ascend）AI处理器的核心组件，与CloudMatrix生态深度结合，实现NPU设备上报、拓扑感知等核心功能，为AI训练/推理任务提供开箱即用的NPU加速能力。同时，支持NPU虚拟化，能够有效提升资源利用率。

插件

描述

CCE AI套件（NVIDIA GPU）

该插件是用于管理和调度NVIDIA GPU硬件资源的核心组件，由多个子模块协同工作，确保GPU设备能被容器化应用高效、安全地使用。其核心作用是将物理GPU资源抽象为CCE可调度的计算单元，并为AI训练、图形渲染等高性能负载提供完整的加速支持。同时，该插件提供GPU虚拟化技术，能够实现对硬件资源的灵活切分与动态管理，有效提高资源利用率。

CCE AI套件（Ascend NPU）

该插件是用于管理和调度昇腾（Ascend）AI处理器的核心组件，与CloudMatrix生态深度结合，实现NPU设备上报、拓扑感知等核心功能，为AI训练/推理任务提供开箱即用的NPU加速能力。同时，支持NPU虚拟化，能够有效提升资源利用率。

AI负载调度

通过Volcano调度器，为AI负载提供作业调度、作业管理、队列管理等多项功能，支持优先级调度，拓扑感知调度，队列资源管理调度等多种高阶调度能力，能够有效减少各节点空闲资源碎片，提高集群资源利用率。

插件	描述
Volcano调度器	Volcano是CNCF孵化的高性能批量任务调度器，专为Kubernetes设计，支持AI训练、大数据处理等批处理作业的智能调度与资源优化，提供队列管理、任务优先级和弹性伸缩等高级能力，显著提升集群资源利用率和任务执行效率。 Volcano调度器插件区别于社区版本，其与CCE组件及CloudMatrix生态深度集成优化，在GPU、NPU虚拟化调度以及CloudMatrix网络拓扑感知等方面性能得到显著提升。

插件

描述

Volcano调度器

Volcano是CNCF孵化的高性能批量任务调度器，专为Kubernetes设计，支持AI训练、大数据处理等批处理作业的智能调度与资源优化，提供队列管理、任务优先级和弹性伸缩等高级能力，显著提升集群资源利用率和任务执行效率。

Volcano调度器插件区别于社区版本，其与CCE组件及CloudMatrix生态深度集成优化，在GPU、NPU虚拟化调度以及CloudMatrix网络拓扑感知等方面性能得到显著提升。

AI任务管理

CCE深度融合了Kubeflow和Kuberay两大云原生AI引擎，提供全面的AI开发支持，能够有效地管理AI任务的整个生命周期，提高资源利用率和任务执行效率。

插件	描述
Kubeflow插件	该插件是基于Kubernetes的机器学习工作流编排系统，提供组件化、可扩展的AI流水线开发框架。其支持容器化部署TensorFlow/PyTorch等框架，实现数据预处理、模型训练、超参调优等环节的自动化串联，并提供高可靠、弹性伸缩的AI研发流水线，助力企业快速构建端到端的机器学习解决方案。
Kuberay	该插件是专为Kubernetes设计的Ray运算框架控制器，用于简化分布式AI任务部署，核心功能包括Ray集群自动化部署、节点资源隔离、弹性扩缩容及故障自愈。其与CCE集群无缝集成，用户可通过快速创建高可用Ray集群，实现大规模模型训练与实时推理，显著提升资源利用率与开发效率。

AI数据加速

AI数据加速引擎插件提供数据集抽象、数据编排和应用编排等能力，旨在通过透明的数据管理和优化调度，帮助AI和大数据应用高效利用任何存储的数据，而无需修改现有应用。

插件	描述
AI数据加速引擎插件	该插件作为数据加速引擎，通过声明式API实现数据缓存的自动化管理。其核心能力包括：智能识别热点数据并缓存至分布式缓存层（JuiceFS），显著降低I/O延迟。兼容Spark、Flink、TensorFlow等计算框架。动态扩缩容与多级缓存策略优化资源利用率。

插件

描述

AI数据加速引擎插件

该插件作为数据加速引擎，通过声明式API实现数据缓存的自动化管理。其核心能力包括：

智能识别热点数据并缓存至分布式缓存层（JuiceFS），显著降低I/O延迟。
兼容Spark、Flink、TensorFlow等计算框架。
动态扩缩容与多级缓存策略优化资源利用率。

AI服务部署

AI推理框架插件、AI推理网关插件、kagent插件联合组成了AI服务部署的框架。其中，AI推理服务框架使用API一键式拉起推理实例，具备弹性负载均衡、弹性扩缩容等关键能力，保障推理服务在云原生环境下高效运行。利用AI推理框架部署的推理实例，可通过AI推理网关（AI Gateway）对外提供推理服务轻松应对高并发推理请求，确保服务稳定性和高效性，充分满足实际应用场景需求。同时，kagent插件可集成AI推理框架提供开箱即用的agent开发体验。

插件	描述
AI推理框架插件	该插件是一款面向AI模型全生命周期管理的云原生插件，支持用户通过声明式API自定义注册、部署及调度AI大模型，并高效执行推理任务。
kagent插件	该插件是一个开源编程框架，将代理AI的强大功能引入云原生环境。kagent插件专为DevOps 和平台工程师构建，使AI代理能够直接在CCE集群中运行。
AI推理网关插件	该插件是Kubernetes社区基于Gateway API推出的推理流量治理解决方案，可根据“模型名称”、“推理优先级”以及“模型版本”等AI业务属性，灵活地进行流量分发与灰度发布，以满足日益多样化的业务需求

父主题：云原生AI

上一篇：云原生AI

下一篇：AI负载调度

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消