huawei-npu-device-plugin插件
插件简介
huawei-npu-device-plugin插件是支持容器里使用huawei NPU设备的管理插件。
安装本插件后,可支持使用NPU的节点,实现快速高效地处理推理和图像识别等工作。
前置条件
- 安装huawei-npu-device-plugin的节点需要添加标签“accelerator/huawei-npu”,标签值可为空。
- 使用npu插件在Ascend Snt9设备上运行,需要先安装volcano插件。
约束与限制
- 集群为v1.23.15及以上版本时,才支持此功能。
- 目前仅支持arm架构,HCE2.0操作系统。
- 目前支持的NPU资源型号为Ascend Snt9。
安装插件
- 登录UCS控制台,选择容器舰队,单击集群名称进入集群,在左侧导航栏中选择“插件中心”,在右侧找到huawei-npu-device-plugin插件,单击“安装”。
- 设置NPU参数,该插件推荐使用默认参数。插件提供的默认NPU参数可满足大多数的使用场景,您无需修改。
- 完成以上配置后,单击“安装”。
图1 安装huawei-npu-device-plugin插件
- 安装huawei-npu-device-plugin插件,需要确认已安装volcano插件。
- 驱动安装成功后需要重启节点才能生效,驱动安装成功确认方式请参见如何确认节点NPU驱动已安装完成。
- 插件卸载不会自动删除已安装的NPU驱动,如需卸载,卸载方式请参见NPU驱动卸载。
升级插件
- 登录UCS控制台,选择容器舰队,单击集群名称进入集群,在左侧导航栏中选择“插件中心”。
- 在“已安装插件”内找到huawei-npu-device-plugin插件,如果版本标签旁边显示“存在新版请升级”提示,表示该插件可升级。
- 在升级插件基本信息配置页面配置参数,并选择插件待升级的版本。
- 单击“升级”,即可升级huawei-npu-device-plugin插件。
卸载插件
- 登录UCS控制台,选择容器舰队,单击集群名称进入集群,在左侧导航栏中选择“插件中心”。
- 在“已安装插件”内找到huawei-npu-device-plugin插件,单击插件“卸载”按钮。
- 在弹出的“卸载插件”按钮中选择“是”,即可卸载该插件。
昇腾芯片驱动安装
请确保昇腾芯片已插入到节点上,确认设备型号,并从昇腾官方社区下载设备驱动,以及参考驱动安装指导进行安装:
安装完成后,执行以下命令,可查看节点的/dev目录下所有的芯片设备。
ls -l /dev/davinci*
执行如下命令,查看驱动加载是否成功。
npu-smi info
若出现如下回显信息,说明加载成功,具体回显信息请以实际情况为准。否则,说明加载驱动失败。请联系华为技术支持处理。
如何确认节点NPU驱动已安装完成
NPU驱动安装成功后需要重启节点才能生效,且重启节点前需要确认驱动已经安装完成,否则驱动将无法生效,NPU资源不可用。驱动安装完成确认方式如下:
UCS控制台,选择容器舰队,单击集群名称进入集群,在左侧导航栏中选择“插件中心”,单击插件名称查看插件“实例列表”,实例状态为“运行中”。
若在NPU驱动安装完成前就重启了节点,可能导致驱动安装失败,节点重启后集群“节点管理”页面对应的节点会显示“昇腾驱动未就绪”。此时需要先卸载该节点上的NPU驱动,再重启节点,才能重新安装NPU驱动,按上述步骤确认驱动安装完成后再重启节点。驱动卸载方式请参见NPU驱动卸载。
NPU驱动卸载
请登录节点,通过 /var/log/ascend_seclog/operation.log 获取驱动操作记录,确认最后一次安装的驱动 run 包;若该日志不存在,则一般是用 npu_x86_latest.run或 npu_arm_latest.run 驱动合一包安装的;找到驱动安装包后,执行 bash {run 包名称} --uninstall 命令即可卸载,卸载成功后根据提示决定是否重启节点。
- 登录需要卸载NPU驱动的节点,查看 /var/log/ascend_seclog/operation.log 是否存在。
- 若 /var/log/ascend_seclog/operation.log 日志存在,查看驱动安装日志,可查找到驱动安装记录。
若 /var/log/ascend_seclog/operation.log 日志不存在,则可能是通过 npu_x86_latest.run或 npu_arm_latest.run 驱动合一包安装的,可通过 /usr/local/HiAI/driver/ 路径是否存在进行确认。
NPU驱动合一包一般放在 /root/d310_driver 目录下,其他驱动安装包一般放在 /root/npu-drivers 目录下。
- 找到驱动安装包后,执行 bash {run 包路径} --uninstall 命令即可卸载,以 Ascend310-hdk-npu-driver_6.0.rc1_linux-x86-64.run 为例:
bash /root/npu-drivers/Ascend310-hdk-npu-driver_6.0.rc1_linux-x86-64.run --uninstall
- 根据提示信息确认是否需要重启节点(当前使用的NPU驱动安装和卸载都需要重启节点才能生效)。