CCE AI套件(Ascend NPU)
插件简介
CCE AI套件(Ascend NPU)是支持容器里使用huawei NPU设备的管理插件。
安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。
约束与限制
- 集群中使用“AI加速型”节点时必须安装CCE AI套件(Ascend NPU)插件。
- “AI加速型”节点迁移后会重置节点,需要手动重新安装。
安装插件
- 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”,在右侧找到CCE AI套件(Ascend NPU)插件,单击“安装”。
- 设置NPU参数,该插件默认使用如下参数。插件提供的默认NPU参数可满足大多数的使用场景,您无需修改。
{ "check_frequency_failed_threshold": 100, "check_frequency_fall_times": 3, "check_frequency_gate": false, "check_frequency_recover_threshold": 100, "check_frequency_rise_times": 2, "container_path": "/usr/local/HiAI_unused", "host_path": "/usr/local/HiAI_unused" }
- 单击“安装”。
组件说明
容器组件 |
说明 |
资源类型 |
---|---|---|
npu-driver-installer |
该容器运行在NPU节点上,负责安装NPU驱动。 |
DaemonSet |
如何确认节点NPU驱动已安装完成
NPU驱动安装成功后需要重启节点才能生效,且重启节点前需要确认驱动已经安装完成,否则驱动将无法生效,NPU资源不可用。驱动安装完成确认方式如下:
- 在集群 “插件中心”页面,单击插件名称查看插件“实例列表”。
- 查看该节点上部署的 npu-driver-installer 实例状态为“运行中”。
若在NPU驱动安装完成前就重启了节点,可能导致驱动安装失败,节点重启后集群“节点管理”页面对应的节点会显示“昇腾驱动未就绪”。此时需要先卸载该节点上的NPU驱动,再重启 npu-driver-installer Pod,才能重新安装NPU驱动,按上述步骤确认驱动安装完成后再重启节点。驱动卸载方式请参见NPU驱动卸载。
NPU驱动卸载
请登录节点,通过 /var/log/ascend_seclog/operation.log 获取驱动操作记录,确认最后一次安装的驱动 run 包;若该日志不存在,则一般是用 npu_x86_latest.run或 npu_arm_latest.run 驱动合一包安装的;找到驱动安装包后,执行 bash {run 包名称} --uninstall 命令即可卸载,卸载成功后根据提示决定是否重启节点。
- 登录需要卸载NPU驱动的节点,查看 /var/log/ascend_seclog/operation.log 是否存在。
- 若 /var/log/ascend_seclog/operation.log 日志存在,查看驱动安装日志,可查找到驱动安装记录。
若 /var/log/ascend_seclog/operation.log 日志不存在,则可能是通过 npu_x86_latest.run或 npu_arm_latest.run 驱动合一包安装的,可通过 /usr/local/HiAI/driver/ 路径是否存在进行确认。
NPU驱动合一包一般放在 /root/d310_driver 目录下,其他驱动安装包一般放在 /root/npu-drivers 目录下。
- 找到驱动安装包后,执行 bash {run 包路径} --uninstall 命令即可卸载,以 Ascend310-hdk-npu-driver_6.0.rc1_linux-x86-64.run 为例:
bash /root/npu-drivers/Ascend310-hdk-npu-driver_6.0.rc1_linux-x86-64.run --uninstall
- 根据提示信息确认是否需要重启节点(当前使用的NPU驱动安装和卸载都需要重启节点才能生效)。
版本记录
插件版本 |
支持的集群版本 |
更新特性 |
---|---|---|
2.1.5 |
v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 |
|
2.0.9 |
v1.21 v1.23 v1.25 v1.27 v1.28 |
修复进程级故障恢复和给工作负载添加注解偶现失败问题 |
2.0.5 |
v1.21 v1.23 v1.25 v1.27 v1.28 |
|
1.2.14 |
v1.19 v1.21 v1.23 v1.25 v1.27 |
支持NPU监控 |
1.2.6 |
v1.19 v1.21 v1.23 v1.25 |
支持NPU驱动自动安装 |
1.2.5 |
v1.19 v1.21 v1.23 v1.25 |
支持NPU驱动自动安装 |
1.2.4 |
v1.19 v1.21 v1.23 v1.25 |
适配CCE v1.25集群 |
1.2.2 |
v1.19 v1.21 v1.23 |
适配CCE v1.23集群 |
1.2.1 |
v1.19 v1.21 v1.23 |
适配CCE v1.23集群 |
1.1.8 |
v1.15 v1.17 v1.19 v1.21 |
适配CCE v1.21集群 |
1.1.2 |
v1.15 v1.17 v1.19 |
配置seccomp默认规则 |
1.1.1 |
v1.15 v1.17 v1.19 |
兼容CCE v1.15集群 |
1.1.0 |
v1.17 v1.19 |
适配CCE v1.19集群 |
1.0.8 |
v1.13 v1.15 v1.17 |
适配D310 C75驱动 |
1.0.6 |
v1.13 v1.15 v1.17 |
支持昇腾C75驱动 |
1.0.5 |
v1.13 v1.15 v1.17 |
支持容器里使用huawei NPU设备的管理插件 |
1.0.3 |
v1.13 v1.15 v1.17 |
支持容器里使用huawei NPU设备的管理插件 |