文档首页/ 华为云UCS/ 用户指南/ UCS集群/ 单集群管理/ 插件管理/ gpu-device-plugin

更新时间：2024-12-18 GMT+08:00

查看PDF

gpu-device-plugin

插件简介

gpu-device-plugin插件是支持在容器中使用GPU显卡的设备管理插件，集群中使用GPU节点时必须安装本插件。

约束与限制

下载的驱动必须是后缀为“.run”的文件。
仅支持Nvidia Tesla驱动，不支持GRID驱动。
安装或重装插件时，需要保证驱动下载链接正确且可正常访问，插件对链接有效性不做额外校验。
gpu-device-plugin插件仅提供驱动的下载及安装脚本执行功能，插件的状态仅代表插件本身功能正常，与驱动是否安装成功无关。
gpu型号只支持T4、V100。
本地集群只支持华为云欧拉操作系统 2.0 x86系统架构类型。
纳管gpu节点前，请确保节点依赖libsecurec已安装。

前提条件

在集群中纳管支持GPU虚拟化的节点，具体操作步骤请参见纳管节点。
纳管成功后，给对应支持GPU虚拟化节点打上“accelerator: nvidia-{显卡型号}”标签，具体操作步骤请参见为节点添加标签/污点。

安装插件

登录UCS控制台，单击集群名称进入集群，在左侧导航栏中选择“插件中心”。
在“可安装插件”中找到gpu-device-plugin，单击“安装”。
在安装插件页面，填写插件配置。
- 插件规格：可配置“默认”或“自定义”规格，请根据实际情况选择。
- 容器：选择“自定义”规格时支持设置。
- Nvidia驱动：您可使用CCE提供的驱动地址或手动填写自定义Nvidia驱动的地址，集群下全部GPU节点将使用相同的驱动。
  GPU虚拟化功能仅支持470.57.02、510.47.03、535.54.03版本的GPU驱动。
  建议您使用CCE提供的驱动地址，以满足驱动版本的要求。
  如果下载链接为公网地址，例如地址为nvidia官网地址https://us.download.nvidia.com/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run，则各GPU节点均需要绑定EIP。获取驱动链接方法请参考获取驱动链接-公网地址。
  
  若下载链接为OBS上的链接，无需绑定EIP 。获取驱动链接方法请参考获取驱动链接-OBS地址。
  
  请确保Nvidia驱动版本与GPU节点适配。
  
  更改驱动版本后，需要重启节点才能生效。
  
  重启节点前需要排空节点中的Pod，在进行升级重启的操作。请注意预留GPU资源以满足节点排空过程中的Pod调度需求，防止资源不足导致Pod调度失败影响业务运行。
  
  对于linux 5.x内核系统，如华为云欧拉操作系统 2.0或ubuntu 22.04，建议使用470及以上版本驱动。
  图1 安装gpu-device-plugin
单击“安装”，安装gpu-device-plugin插件的任务即可提交成功。

验证插件

插件安装完成后，在GPU节点及调度了GPU资源的容器中执行nvidia-smi命令，验证GPU设备及驱动的可用性。

GPU节点

cd /usr/local/nvidia/bin &&./nvidia-smi

容器

nvidia-smi

能正常返回GPU信息，说明设备可用，插件安装成功。

获取驱动链接-公网地址

登录CCE控制台。
创建节点，在节点规格处选择要创建的GPU节点，选中后下方显示的信息中可以看到节点的GPU显卡型号。

登录到nvidia网站。
如图2所示，在“NVIDIA驱动程序下载”框内选择对应的驱动信息。其中“操作系统”必须选Linux 64-bit。

图2 参数选择
驱动信息确认完毕，单击“搜索”按钮，会跳转到驱动信息展示页面，该页面会显示驱动的版本信息如图3，单击“下载”到下载页面。

图3 驱动信息
获取驱动软件链接方式分两种：
- 方式一：如图4，在浏览器的链接中找到url=/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run的路径，补齐全路径为https://us.download.nvidia.com/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run，该方式节点需要绑定EIP 。
- 方式二：如图4，单击“下载”按钮下载驱动，然后上传到OBS，获取软件的链接，该方式节点不需要绑定EIP。
  图4 获取链接

获取驱动链接-OBS地址

将驱动上传到对象存储服务OBS中，并将驱动文件设置为公共读，方法请参见上传文件。

节点重启时会重新下载驱动进行安装，请保证驱动的OBS桶链接长期有效。
在OBS管理控制台左侧导航栏选择“对象存储”。
在桶列表单击待操作的桶，进入“概览”页面。
在左侧导航栏，单击“对象”。
找到目标对象，单击“更多>复制对象URL”，复制驱动链接。

图5 获取链接

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消