不同机型对应的软件配套版本
由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源,不同机型的节点对应的操作系统、适用的CCE集群版本等不相同,为了便于您制作镜像、升级软件等操作,本文对不同机型对应的软件配套版本做了详细介绍。
CCE集群维护策略说明
ModelArts Lite Cluster使用的CCE集群归属于用户,用户拥有对CCE集群的完全控制权。
裸金属服务器的对应的软件配套版本
| 
        类型  | 
      
        卡类型  | 
      
        RDMA网络协议  | 
      
        操作系统  | 
      
        适用范围、约束  | 
      
        依赖插件  | 
     
|---|---|---|---|---|---|
| 
        NPU  | 
      
        ascend-snt9b  | 
      
        RoCE  | 
      
       
 
  | 
      
       
  | 
      
       
 插件版本匹配关系请见表3。  | 
     
| 
        RoCE  | 
      
       
  | 
      
       
  | 
     |||
| 
        ascend-snt9  | 
      
        RoCE  | 
      
       
 
 
  | 
      
       
  | 
     ||
| 
        GPU  | 
      
        gpu-ant8  | 
      
        RoCE  | 
      
       
  | 
      
       
 插件版本匹配关系请见表3。  | 
     |
| 
        gpu-ant1  | 
      
        RoCE  | 
      
       
  | 
      |||
| 
        gpu-vnt1  | 
      
        RoCE|IB  | 
      
       
  | 
      |||
       
  | 
     |||||
弹性云服务器的对应的软件配套版本
| 
        类型  | 
      
        卡类型  | 
      
        操作系统  | 
      
        适用范围  | 
      
        依赖插件  | 
     
|---|---|---|---|---|
| 
        NPU  | 
      
        ascend-snt3p-300i  | 
      
       
  | 
      
       
  | 
      
       
 
 插件版本匹配关系请见表3。  | 
     
       
  | 
      
       
  | 
     |||
| 
        ascend-snt3  | 
      
       
  | 
      
       
  | 
     ||
       
  | 
      ||||
| 
        ascend-snt9b  | 
      
       
  | 
      
       
  | 
     ||
| 
        GPU  | 
      
        gpu-vnt1  | 
      
       
  | 
      
       
  | 
      
       
 插件版本匹配关系请见表3。  | 
     
| 
        gpu-ant03  | 
      
       
  | 
      
       
  | 
     ||
| 
        gpu-ant1-pcie40  | 
      
       
  | 
      
       
  | 
     ||
| 
        gpu-tnt004  | 
      
       
 
  | 
      
       
  | 
     
驱动和插件版本与CCE集群版本适配关系
| 
        类别  | 
      
        驱动名称  | 
      
        驱动版本  | 
      
        适配CCE集群版本  | 
      
        适用范围、约束  | 
      
        插件功能描述  | 
     
|---|---|---|---|---|---|
| 
        npuDriver  | 
      
        npu-driver  | 
      
        7.1.0.9.220-23.0.6(推荐) 7.1.0.7.220-23.0.5 7.1.0.5.220-23.0.3  | 
      
        无约束  | 
      
        NPU(snt9b)  | 
      
        用于升级、回滚npu驱动。  | 
     
| 
        gpuDriver  | 
      
        gpu-driver  | 
      
        515.65.01(推荐) 510.47.03 470.182.03 470.57.02  | 
      
        无约束  | 
      
        GPU  | 
      
        用于升级、回滚gpu驱动,插件依赖gpu-beta版本。  | 
     
| 
        插件名称  | 
      
        插件版本  | 
      
        适配CCE集群版本  | 
      
        适用范围、约束  | 
      
        插件功能描述  | 
     
|---|---|---|---|---|
| 
        gpu-beta  | 
      
        2.7.63(推荐)  | 
      
        v1.(28|31).*  | 
      
       
        GPU  | 
      
        支持在容器中使用GPU显卡的设备管理插件。  | 
     
| 
        2.6.4  | 
      
        v1.28.*  | 
     |||
| 
        2.0.48  | 
      
        v1.(23|25).*  | 
     |||
| 
        huawei-npu  | 
      
        2.1.53(推荐)  | 
      
        v1.(23|25|28|31).*  | 
      
        NPU  | 
      
        支持容器里使用huawei NPU设备的管理插件。  | 
     
| 
        2.1.22  | 
      
        v1.(23|25|28).*  | 
     |||
| 
        volcano  | 
      
        1.16.8(推荐)  | 
      
        v1.(23|25|28|31).*  | 
      
        NPU  | 
      
        基于Kubernetes的批处理平台。  | 
     
| 
        1.15.8  | 
      
        v1.(23|25|28).*  | 
     |||
| 
        os-node-agent  | 
      
        7.0.0  | 
      
        无约束  | 
      
        无约束  | 
      
        OS插件,用于故障检测。  | 
     
| 
        icagent  | 
      
        default  | 
      
        CCE默认安装当前适配版本  | 
      
        无约束  | 
      
        CCE基础组件,用于日志和监控。  |