弹性集群资源池支持选择弹性裸金属或弹性云服务器作为节点资源。由于不同机型节点的操作系统和适用的CCE集群版本等存在差异,为方便您进行镜像制作、软件升级等操作,本文将详细介绍各机型对应的软件配套版本。
裸金属服务器的对应的软件配套版本
表1 裸金属服务器 类型 | 卡类型 | RDMA网络协议 | 操作系统 | 适用范围、约束 | 依赖插件 |
|---|
NPU | ascend-snt9b | RoCE | - 操作系统:EulerOS 2.10 64bit(推荐)
- 内核版本:4.19.90-vhulk2211.3.0.h1543.eulerosv2r10.aarch64
- 架构类型:aarch64
| - 集群类型:CCE Standard
- 集群版本:v1.23(v1.23.5-r0及以上版本)|v1.25|v1.28|v1.31(推荐)
- 集群规模:50|200|1000|2000
- 集群网络模式:容器隧道网络|VPC
- 集群转发模式:iptables|ipvs
| - huawei-npu
- npu-driver
- volcano
插件版本匹配关系请见表4。 |
RoCE | - 操作系统:Huawei Cloud EulerOS 2.0 64bit
- 内核版本:5.10.0-60.18.0.50.r865_35.hce2.aarch64
- 架构类型:aarch64
| - 集群类型:CCE Turbo
- 集群版本:v1.23|v1.25|v1.28|v1.31(推荐)
- 集群规模:50|200|1000|2000
- 集群网络模式:ENI
- 集群转发模式:iptables|ipvs
|
ascend-snt9 | RoCE | - 内核版本:4.19.36-vhulk1907.1.0.h619.eulerosv2r8.aarch64
| - 集群类型:CCE Standard|Turbo
- 集群版本:v1.23(v1.23.5-r0及以上版本)|v1.25|v1.28(推荐)
- 集群规模:50|200|1000|2000
- 集群网络模式:容器隧道网络|VPC|ENI
- 集群转发模式:iptables|ipvs
|
GPU | gpu-ant8 | RoCE | - 操作系统:EulerOS 2.10 64bit
- 内核版本:4.18.0-147.5.2.15.h1109.eulerosv2r10.x86_64
- 架构类型:x86
| - 集群类型:CCE Standard|Turbo
- 集群版本:v1.23|v1.25|v1.28|v1.31(推荐)
- 集群规模:50|200|1000|2000
- 集群网络模式:容器隧道网络|VPC
分布式训练时仅支持容器隧道网络 - 集群转发模式:iptables|ipvs
| - gpu-beta
- gpu-driver
- rdma-sriov-dev-plugin
插件版本匹配关系请见表4。 |
gpu-ant1 | RoCE | - 操作系统:EulerOS 2.10 64bit
- 4.18.0-147.5.2.15.h1109.eulerosv2r10.x86_64
- 架构类型:x86
| - 集群类型:CCE Standard|Turbo
- 集群版本:v1.23|v1.25|v1.28|v1.31(推荐)
- 集群规模:50|200|1000|2000
- 集群网络模式:容器隧道网络|VPC
分布式训练时仅支持容器隧道网络 - 集群转发模式:iptables|ipvs
|
gpu-vnt1 | RoCE|IB | - 操作系统:EulerOS 2.9 64bit(推荐)
- 内核版本:4.18.0-147.5.1.6.h841.eulerosv2r9.x86_64
- 架构类型:x86
| - 集群类型:CCE Standard|
- 集群版本:v1.23|v1.25|v1.28|v1.31(推荐)
- 集群规模:50|200|1000|2000
- 集群网络模式:容器隧道网络|VPC
分布式训练时仅支持容器隧道网络 - 集群转发模式:iptables|ipvs
|
- RDMA:Remote Direct Memory Access(RDMA)是一种直接内存访问技术,将数据直接从一台计算机的内存传输到另一台计算机。
- RoCE:RDMA over Converged Ethernet(RoCE)是一种网络协议,允许应用通过以太网实现远程内存访问。
- IB:InfiniBand (IB) 是一种高性能计算机网络通信协议,专为高性能计算和数据中心互连设计。
|
弹性云服务器的对应的软件配套版本
表2 弹性云服务器 类型 | 卡类型 | 操作系统 | 适用范围 | 依赖插件 |
|---|
NPU | ascend-snt3p-300i | - 操作系统:Huawei Cloud EulerOS 2.0 64bit
- 架构类型:x86、arm
| - 集群类型:CCE Standard
- 集群版本:v1.23(v1.23.5-r0及以上版本)|v1.25|v1.28|v1.31(推荐)
- 集群规模:50|200|1000|2000
- 集群网络模式:容器隧道网络|VPC
- 集群转发模式:iptables|ipvs
| - os-node-agent
- volcano
- huawei-npu
- npu-driver
插件版本匹配关系请见表4。 |
| - 集群类型:CCE Standard、CCE Turbo
- 集群版本:v1.23(v1.23.5-r0及以上版本)|v1.25|v1.28(推荐)
- 集群规模:50|200|1000|2000
- 集群网络模式:容器隧道网络|VPC|ENI
- 集群转发模式:iptables|ipvs
| 插件版本匹配关系请见表4。 |
ascend-snt3 | | - 集群类型:CCE Standard
- 集群版本:v1.23|v1.25
- 集群规模:50|200|1000|2000
- 集群网络模式:容器隧道网络|VPC
- 集群转发模式:iptables|ipvs
|
| - 集群类型:CCE Standard
- 集群版本:v1.23|v1.25
- 集群规模:50|200|1000|2000
- 集群网络模式:容器隧道网络|VPC
集群转发模式:iptables|ipvs
|
ascend-snt9b | - 操作系统:Huawei Cloud EulerOS 2.0 64bit
- 架构类型:arm
| - 集群类型:CCE Standard
- 集群版本:v1.23(v1.23.5-r0及以上版本)|v1.25|v1.28|v1.31(推荐)
- 集群规模:50|200|1000|2000
- 集群网络模式:容器隧道网络|VPC
- 集群转发模式:iptables|ipvs
|
GPU | gpu-vnt1 | | - 集群类型:CCE Standard
- 集群版本:v1.23|v1.25|v1.28|v1.31(推荐)
- 集群规模:50|200|1000|2000
- 集群网络模式:容器隧道网络|VPC
- 集群转发模式:iptables|ipvs
| - gpu-beta
- gpu-driver
- rdma-sriov-dev-plugin
插件版本匹配关系请见表4。 |
gpu-ant03 | | - 集群类型:CCE Standard
- 集群版本:v1.23|v1.25|v1.28|v1.31(推荐)
- 集群规模:50|200|1000|2000
- 集群网络模式:容器隧道网络|VPC
- 集群转发模式:iptables|ipvs
|
gpu-ant1-pcie40 | | - 集群类型:CCE Standard
- 集群版本:v1.23|v1.25|v1.28|v1.31(推荐)
- 集群规模:50|200|1000|2000
- 集群网络模式:容器隧道网络|VPC
- 集群转发模式:iptables|ipvs
|
gpu-tnt004 | | - 集群类型:CCE Standard
- 集群版本:v1.23|v1.25|v1.28|v1.31(推荐)
- 集群规模:50|200|1000|2000
- 集群网络模式:容器隧道网络|VPC
- 集群转发模式:iptables|ipvs
|
驱动和插件版本与CCE集群版本适配关系
表3 驱动与CCE集群版本适配关系 类别 | 插件名称 | 插件版本 | 适配CCE集群版本 | 适用范围、约束 | 插件功能描述 |
|---|
npuDriver | npu-driver | 7.5.0.5.220-24.1.0.3(推荐) 7.1.0.9.220-23.0.6 | 无约束 | NPU(snt9b) | 用于升级、回滚npu驱动。 |
gpuDriver | gpu-driver | 515.65.01(推荐) 510.47.03 470.182.03 470.57.02 | 无约束 | GPU | 用于升级、回滚gpu驱动,插件依赖gpu-beta版本。 |
表4 插件版本与CCE集群版本适配关系 插件名称 | 插件版本 | 适配CCE集群版本 | 适用范围、约束 | 插件功能描述 |
|---|
gpu-beta | 2.13.1(推荐) | v1.(28|29|30|31|32|33).* | GPU | 支持在容器中使用GPU显卡的设备管理插件。 |
2.8.4 | v1.(28|29|30|31|32).* |
2.7.63 | v1.(28|29|30|31).* |
2.7.58 | v1.(28|29|30|31).* |
huawei-npu | 2.1.53(推荐) | v1.(25|27|28|29|30|31).* | NPU | 支持容器里使用huawei NPU设备的管理插件。 |
2.1.47 | v1.(21|23|25|27|28|29|30|31).* |
volcano | 1.18.3(推荐) | v1.(27|28|29|30|31|32).* | NPU | 基于Kubernetes的批处理平台。 |
1.17.11 | v1.(25|27|28|29|30|31|32).* |
os-node-agent | 7.3.0 | 无约束 | 无约束 | OS插件,用于故障检测。 |
icagent | default | CCE默认安装当前适配版本 | 无约束 | CCE基础组件,用于日志和监控。 |