云容器引擎 CCE云容器引擎 CCE

更新时间:2021/08/31 GMT+08:00
分享

gpu-beta

插件简介

gpu-beta插件是支持在容器中使用GPU显卡的设备管理插件,仅支持Nvidia驱动。

约束与限制

 • 仅支持在v1.11及以上版本的CCE集群中安装本插件,暂不支持鲲鹏集群。
 • 集群中使用GPU节点时必须安装gpu-beta插件。
 • 下载的驱动必须是后缀为“.run”的文件。
 • 如果下载链接为公网地址,如nvidia官网地址https://us.download.nvidia.com/tesla/396.37/NVIDIA-Linux-x86_64-396.37.run,各GPU节点均需要绑定EIP。获取驱动链接方法请参考获取驱动链接-公网地址
 • 若下载链接为OBS上的链接,无需绑定EIP 。获取驱动链接方法请参考获取驱动链接-OBS地址
 • 请确保Nvidia驱动版本与GPU节点适配。
 • 更改驱动版本后,需要重启节点才能生效。

安装插件

 1. 登录CCE控制台,在左侧导航栏中选择“插件管理”。在“插件市场”页签下,单击gpu-beta插件下的“安装插件”。
 2. 在安装插件页面,选择安装的集群和插件版本,单击“下一步:规格配置”。
 3. 在规格配置页面,配置驱动链接地址。
 4. 单击“安装”,安装gpu-beta插件的任务即可提交成功。

  待插件安装完成后,单击“返回”,在“插件实例”页签下,选择对应的集群,可查看到运行中的实例,这表明该插件已在当前集群中各GPU节点上安装。

获取驱动链接-公网地址

 1. 登录到https://www.nvidia.cn/Download/Find.aspx?lang=cn网站。
 2. 图1所示,在“NVIDIA驱动程序下载”框内选择对应的驱动信息。其中“操作系统”必须选Linux 64-bit

  图1 参数选择

 3. 驱动信息确认完毕,单击“搜索”按钮,会跳转到驱动信息展示页面,该页面会显示驱动的版本信息如图2,单击“下载”到下载页面。

  图2 驱动信息

 4. 获取驱动软件链接方式分两种:

获取驱动链接-OBS地址

 1. 将驱动上传到对象存储服务OBS中,并将驱动文件设置为公共读,方法请参见上传文件
 2. 在OBS管理控制台左侧导航栏选择“对象存储”。
 3. 在桶列表单击待操作的桶,进入“概览”页面。
 4. 在左侧导航栏,单击“对象”。
 5. 选中目标对象,在对象详情页复制驱动链接。

升级插件

 1. 登录CCE控制台,在左侧导航栏中选择插件管理,在插件实例页签下,选择对应的集群,单击“gpu-beta”下的“升级”

  • 如果升级按钮处于冻结状态,则说明当前插件版本是最新的版本,不需要进行升级操作。
  • 升级“gpu-beta”插件时,会替换原先节点上的旧版本的“gpu-beta”插件,安装最新版本的“gpu-beta”插件以实现功能的快速升级。

 2. 在基本信息页面选择插件版本,单击“下一步”
 3. 参考安装插件中参数说明配置参数后,单击“升级”即可升级“gpu-beta”插件。
 4. 重启节点(必须)。

  在ECS控制台重启节点。登录华为云官网,选择“控制台”,选择弹性云服务器所在区域,选择“计算 > 弹性云服务器ECS”,在弹性云服务器列表中找到目标节点,并单击“操作”列下的“更多 > 重启”。

卸载插件

 1. 登录CCE控制台,在左侧导航栏中选择“插件管理”。在“插件实例”页签下,选择对应的集群,单击“gpu-beta”下的“卸载”
 2. 在弹出的窗口中,单击“是”,可卸载该插件。

  卸载gpu-beta插件不会卸载驱动。若重新安装了驱动,需重启所有GPU节点。

分享:

  相关文档

  相关产品