更新时间:2024-09-29 GMT+08:00

异构资源配置

GPU配置

GPU虚拟化

CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU量,提高GPU利用率。详情请参见GPU虚拟化概述

GPU驱动配置

  • 集群默认驱动:集群中GPU节点默认使用的GPU驱动版本。如果选择“自定义驱动链接地址”,则需填写Nvidia驱动的下载链接,详情请参见获取驱动链接-公网地址
  • 节点池自定义驱动:若您不希望集群中的所有GPU节点使用相同的驱动,CCE支持以节点池为单位安装不同的GPU驱动。配置节点池自定义驱动后,节点池中节点优先使用当前节点池自定义驱动,未指定驱动的节点将使用集群默认驱动。
    • 系统将根据节点池指定的驱动版本进行安装,仅对节点池新建节点生效。
    • 更新驱动版本后,新建节点直接生效,存量节点需重启节点生效。
    • 安装2.7.2及以上版本的GPU插件时,支持以节点池级别配置XGPU虚拟化开关。

NPU配置

当不开启驱动选择时,无法根据用户诉求指定驱动版本,无法依靠插件进行驱动维护。如从控制台创建NPU节点,控制台会自动补充NPU驱动(用户无法指定版本和类型)安装命令,并在安装完成后自动重启节点;如通过API或其他方式创建节点则需要用户在“安装后执行脚本”中添加驱动安装命令。

开启驱动选择后,NPU插件启动时将自动根据对应机型的驱动配置安装驱动,驱动维护更灵活。推荐使用默认的驱动版本,您也可以选择“自定义驱动”并填写完整的驱动地址。

支持的NPU卡类型和对应的操作系统规格如下:

NPU卡类型

支持的操作系统

D310

EulerOS 2.5 x86、CentOS 7.6 x86、EulerOS 2.9 x86、EulerOS 2.8 arm