更新时间:2025-08-19 GMT+08:00

异构资源配置

GPU配置

  • GPU虚拟化:CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU量,提高GPU利用率。详情请参见GPU虚拟化概述
  • 集群默认驱动:集群中GPU节点默认使用的GPU驱动版本。如果选择“自定义驱动链接地址”,则需填写Nvidia驱动的下载链接,详情请参见公网地址
  • 节点池配置:若您不希望集群中的所有GPU节点使用相同的驱动,CCE支持以节点池为单位安装不同的GPU驱动。配置节点池自定义驱动后,节点池中节点优先使用当前节点池自定义驱动,未指定驱动的节点将使用集群默认驱动。
    • 系统将根据节点池指定的驱动版本进行安装,仅对节点池新建节点生效。
    • 更新驱动版本后,新建节点直接生效,存量节点需重启节点生效。
    • 安装2.7.2及以上版本的CCE AI套件(NVIDIA GPU)插件时,支持以节点池级别配置GPU虚拟化开关。

NPU配置

  • 自动安装驱动
    • 未开启时,从控制台创建NPU节点,控制台会自动补充NPU驱动(用户无法指定版本和类型)安装命令,并在安装完成后重启节点。如通过API或其他方式创建需要用户在安装后执行脚本中添加驱动安装命令。

      支持的NPU卡类型和对应的操作系统规格如下:

      表1 规格适配

      NPU卡类型

      支持的操作系统

      Snt3(ascend-snt3)

      EulerOS 2.5 x86、CentOS 7.6 x86、EulerOS 2.9 x86、EulerOS 2.8 arm

      说明:

      Snt3 ARM机型最高支持至EulerOS 2.8 arm,且该操作系统已EOS,具体请参见镜像停止服务与支持计划

      Standard/Turbo集群v1.28及以上版本不再支持EulerOS 2.8 arm,如需在v1.28及以上集群中使用NPU资源,请参考集群版本与操作系统对应关系NPU卡与操作系统对应关系,选择兼容的NPU资源,具体的购买流程请参见Lite Cluster使用流程

    • 开启时,NPU插件启动时将自动根据对应机型的驱动配置安装驱动。
  • NPU虚拟化:NPU虚拟化是指将通过资源虚拟化的方式将物理机中配置的NPU(昇腾AI产品)切分为多个虚拟NPU(vNPU),并挂载至容器中使用,以实现对硬件资源的灵活切分与动态管理。详情请参见自动实现NPU虚拟化(算力切分)