更新时间:2024-05-09 GMT+08:00

CCE AI套件(Ascend NPU)

插件简介

CCE AI套件(Ascend NPU)是支持容器里使用huawei NPU设备的管理插件。

安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。

约束与限制

  • 集群中使用“AI加速型”节点时必须安装CCE AI套件(Ascend NPU)插件。
  • “AI加速型”节点迁移后会重置节点,需要手动重新安装。

安装插件

  1. 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”,在右侧找到CCE AI套件(Ascend NPU)插件,单击“安装”
  2. 设置NPU参数,该插件默认使用如下参数。插件提供的默认NPU参数可满足大多数的使用场景,您无需修改。

    {
    	"check_frequency_failed_threshold": 100,
    	"check_frequency_fall_times": 3,
    	"check_frequency_gate": false,
    	"check_frequency_recover_threshold": 100,
    	"check_frequency_rise_times": 2,
    	"container_path": "/usr/local/HiAI_unused",
    	"host_path": "/usr/local/HiAI_unused"
    }

  3. 单击“安装”

组件说明

表1 huawei-npu组件

容器组件

说明

资源类型

npu-driver-installer

该容器运行在NPU节点上,负责安装NPU驱动。

DaemonSet

如何确认节点NPU驱动已安装完成

NPU驱动安装成功后需要重启节点才能生效,且重启节点前需要确认驱动已经安装完成,否则驱动将无法生效,NPU资源不可用。驱动安装完成确认方式如下:

  1. 在集群 “插件中心”页面,单击插件名称查看插件“实例列表”。

  2. 查看该节点上部署的 npu-driver-installer 实例状态为“运行中”。

    若在NPU驱动安装完成前就重启了节点,可能导致驱动安装失败,节点重启后集群“节点管理”页面对应的节点会显示“昇腾驱动未就绪”。此时需要先卸载该节点上的NPU驱动,再重启 npu-driver-installer Pod,才能重新安装NPU驱动,按上述步骤确认驱动安装完成后再重启节点。驱动卸载方式请参见NPU驱动卸载

NPU驱动卸载

请登录节点,通过 /var/log/ascend_seclog/operation.log 获取驱动操作记录,确认最后一次安装的驱动 run 包;若该日志不存在,则一般是用 npu_x86_latest.run或 npu_arm_latest.run 驱动合一包安装的;找到驱动安装包后,执行 bash {run 包名称} --uninstall 命令即可卸载,卸载成功后根据提示决定是否重启节点。

  1. 登录需要卸载NPU驱动的节点,查看 /var/log/ascend_seclog/operation.log 是否存在。
  2. 若 /var/log/ascend_seclog/operation.log 日志存在,查看驱动安装日志,可查找到驱动安装记录。

    若 /var/log/ascend_seclog/operation.log 日志不存在,则可能是通过 npu_x86_latest.run或 npu_arm_latest.run 驱动合一包安装的,可通过 /usr/local/HiAI/driver/ 路径是否存在进行确认。

    NPU驱动合一包一般放在 /root/d310_driver 目录下,其他驱动安装包一般放在 /root/npu-drivers 目录下。

  3. 找到驱动安装包后,执行 bash {run 包路径} --uninstall 命令即可卸载,以 Ascend310-hdk-npu-driver_6.0.rc1_linux-x86-64.run 为例:

    bash /root/npu-drivers/Ascend310-hdk-npu-driver_6.0.rc1_linux-x86-64.run --uninstall

  4. 根据提示信息确认是否需要重启节点(当前使用的NPU驱动安装和卸载都需要重启节点才能生效)。

版本记录

表2 CCE AI套件(Ascend NPU)插件版本记录

插件版本

支持的集群版本

更新特性

2.1.5

v1.21

v1.23

v1.25

v1.27

v1.28

v1.29

  • 适配CCE v1.29集群
  • 新增静默故障码

2.0.9

v1.21

v1.23

v1.25

v1.27

v1.28

修复进程级故障恢复和给工作负载添加注解偶现失败问题

2.0.5

v1.21

v1.23

v1.25

v1.27

v1.28

  • 适配CCE v1.28集群
  • 支持存活探针检查机制

1.2.14

v1.19

v1.21

v1.23

v1.25

v1.27

支持NPU监控

1.2.6

v1.19

v1.21

v1.23

v1.25

支持NPU驱动自动安装

1.2.5

v1.19

v1.21

v1.23

v1.25

支持NPU驱动自动安装

1.2.4

v1.19

v1.21

v1.23

v1.25

适配CCE v1.25集群

1.2.2

v1.19

v1.21

v1.23

适配CCE v1.23集群

1.2.1

v1.19

v1.21

v1.23

适配CCE v1.23集群

1.1.8

v1.15

v1.17

v1.19

v1.21

适配CCE v1.21集群

1.1.2

v1.15

v1.17

v1.19

配置seccomp默认规则

1.1.1

v1.15

v1.17

v1.19

兼容CCE v1.15集群

1.1.0

v1.17

v1.19

适配CCE v1.19集群

1.0.8

v1.13

v1.15

v1.17

适配D310 C75驱动

1.0.6

v1.13

v1.15

v1.17

支持昇腾C75驱动

1.0.5

v1.13

v1.15

v1.17

支持容器里使用huawei NPU设备的管理插件

1.0.3

v1.13

v1.15

v1.17

支持容器里使用huawei NPU设备的管理插件