CCE推荐的GPU驱动版本列表
对于CCE集群,各系统推荐使用驱动版本如下表,若使用非CCE推荐驱动版本,需要您自行验证机型、系统及驱动版本间的配套兼容性。您可以根据您的应用所使用的CUDA Toolkit版本,对照CUDA Toolkit与NVIDIA驱动的版本兼容性列表,选择合适的NVIDIA驱动版本。
GPU驱动支持列表

- 当前GPU驱动支持列表仅针对1.2.28及以上版本的CCE AI套件(NVIDIA GPU)插件。
- 如果您需要安装最新版本的GPU驱动,请将您的CCE AI套件(NVIDIA GPU)插件升级到最新版本。
- 表3 GPU驱动支持列表中列出的操作系统、GPU驱动及GPU卡型号为经测试验证的兼容范围。为确保最佳性能与稳定性,建议在此范围内进行部署。在未验证环境进行部署时,请根据自身环境进行充分测试,以确保最终兼容性和稳定性。
- 对于已结束生命周期(EOL)的GPU驱动,NVIDIA官方将不再提供功能更新或安全补丁等服务,具体请参见驱动生命周期。例如,Production Branch从发布之日起提供1年的支持,LTSB(Long Term Support Branch)提供3年的长期支持。
对应该策略,对于已EOL的GPU驱动,CCE将不再提供相应的技术支持,包含驱动的安装、更新等服务。目前,已EOL的驱动包括:510.47.03、470.141.03、470.57.02。
- 在Ubuntu和CentOS系统上安装GPU驱动时,需要注意操作系统的版本号,具体请参见表3。更多信息,请参见NVIDIA Data Center GPU Driver Documentation。
GPU型号 | 支持集群类型 | 机型规格 | 操作系统 | ||||||
|---|---|---|---|---|---|---|---|---|---|
Huawei Cloud EulerOS 2.0 | Ubuntu 22.04 | CentOS Linux release 7.6 | EulerOS release 2.9 | EulerOS release 2.5 | Ubuntu 18.04(停止维护) | EulerOS release 2.3(停止维护) | |||
Tesla T4 | CCE Turbo集群 CCE Standard集群 | g6 pi2 | 570.86.15 535.216.03 535.161.08 535.54.03 510.47.03 470.57.02 | 570.86.15 535.216.03 535.161.08 535.54.03 | 535.216.03 535.161.08 535.54.03 510.47.03 470.141.03 470.57.02 | 535.54.03 470.141.03 | 535.54.03 470.141.03 | 470.141.03 | 470.141.03 |
Tesla V100 | CCE Turbo集群 CCE Standard集群 | p2s p2vs p2v | 570.86.15 535.216.03 535.161.08 535.54.03 510.47.03 470.57.02 | 570.86.15 535.216.03 535.161.08 535.54.03 | 535.216.03 535.161.08 535.54.03 510.47.03 470.141.03 470.57.02 | 535.54.03 470.141.03 | 535.54.03 470.141.03 | 470.141.03 | 470.141.03 |

