更新时间:2024-10-14 GMT+08:00
CCE AI套件(NVIDIA GPU)
插件简介
CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。
约束与限制
- 下载的驱动必须是后缀为“.run”的文件。
- 仅支持Nvidia Tesla驱动,不支持GRID驱动。
- 安装或重装插件时,需要保证驱动下载链接正确且可正常访问,插件对链接有效性不做额外校验。
- 插件仅提供驱动的下载及安装脚本执行功能,插件的状态仅代表插件本身功能正常,与驱动是否安装成功无关。
- 对于GPU驱动版本与您业务应用的兼容性(GPU驱动版本与CUDA库版本的兼容性),CCE不保证两者之间兼容性,请您自行验证。
- 对于已经安装GPU驱动的自定义操作系统镜像,CCE无法保证其提供的GPU驱动与CCE其他GPU组件兼容(例如监控组件等)。
安装插件
- 登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“插件中心”,在右侧找到CCE AI套件(NVIDIA GPU)插件,单击“安装”。
- 设置插件支持的“参数配置”。
- Nvidia驱动:填写Nvidia驱动的下载链接,集群下全部GPU节点将使用相同的驱动。
- 如果下载链接为公网地址,如nvidia官网地址(https://us.download.nvidia.com/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run),各GPU节点均需要绑定EIP。获取驱动链接方法请参考获取驱动链接-公网地址。
- 若下载链接为OBS上的链接,无需绑定EIP 。获取驱动链接方法请参考获取驱动链接-OBS地址。
- 请确保Nvidia驱动版本与GPU节点适配。
- 更改驱动版本后,需要重启节点才能生效。
- 驱动选择:若您不希望集群中的所有GPU节点使用相同的驱动,CCE支持以节点池为单位安装不同的GPU驱动。
- 插件将根据节点池指定的驱动版本进行安装,仅对节点池新建节点生效。
- 更新驱动版本后,节点池中新建节点可直接生效,存量节点需重启节点生效。
- Nvidia驱动:填写Nvidia驱动的下载链接,集群下全部GPU节点将使用相同的驱动。
- 单击“安装”,安装插件的任务即可提交成功。
卸载插件将会导致重新调度的GPU Pod无法正常运行,但已运行的GPU Pod不会受到影响。
验证插件
插件安装完成后,在GPU节点及调度了GPU资源的容器中执行nvidia-smi命令,验证GPU设备及驱动的可用性。
- GPU节点:
# 插件版本为2.0.0以下时,执行以下命令: cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi # 插件版本为2.0.0及以上时,驱动安装路径更改,需执行以下命令: cd /usr/local/nvidia/bin && ./nvidia-smi
- 容器:
cd /usr/local/nvidia/bin && ./nvidia-smi
若能正常返回GPU信息,说明设备可用,插件安装成功。
获取驱动链接-公网地址
- 登录CCE控制台。
- 创建节点,在节点规格处选择要创建的GPU节点,选中后下方显示的信息中可以看到节点的GPU显卡型号。
- 登录到https://www.nvidia.com/Download/Find.aspx?lang=cn网站。
- 如图1所示,在“NVIDIA驱动程序下载”框内选择对应的驱动信息。其中“操作系统”必须选Linux 64-bit。
- 驱动信息确认完毕,单击“搜索”按钮,会跳转到驱动信息展示页面,该页面会显示驱动的版本信息如图2,单击“下载”到下载页面。
- 获取驱动软件链接方式分两种:
- 方式一:如图3,在浏览器的链接中找到路径为url=/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run的路径,补齐全路径https://us.download.nvidia.com/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run该方式节点需要绑定EIP 。
- 方式二:如图3,单击“下载”按钮下载驱动,然后上传到OBS,获取软件的链接,该方式节点不需要绑定EIP。
获取驱动链接-OBS地址
- 将驱动上传到对象存储服务OBS中,并将驱动文件设置为公共读。
节点重启时会重新下载驱动进行安装,请保证驱动的OBS桶链接长期有效。
- 在桶列表单击待操作的桶,进入“概览”页面。
- 在左侧导航栏,单击“对象”。
- 单击目标对象名称,在对象详情页复制驱动链接。
组件说明
容器组件 |
说明 |
资源类型 |
---|---|---|
nvidia-driver-installer |
该容器运行在GPU节点上,负责安装NVIDIA驱动。 |
DaemonSet |
父主题: 云原生异构计算插件