使用CES监控Lite Server单节点NPU资源
场景描述
Lite Server的监控能力依赖于CES云监控服务。本文主要介绍如何对接CES云监控服务,对Lite Server上的资源和事件进行监控。
约束限制
- 监控需要到Agent插件,Agent有严格的资源占用限制,当资源占用超过阈值后出现Agent熔断情况,详细的资源占用说明请参考CES产品文档相关章节:CES Agent性能说明。
- 通过Ascend-dmi执行NPU压测命令可能会导致丢失部分NPU指标数据。
- 监控Agent已在Lite Server提供的公共镜像中经过充分测试,如果您使用自己的镜像,建议测试后再部署到生产环境,防止信息错误。
Lite Server监控方案介绍
详细监控方案介绍请参考BMS主机监控概述。除文档所列支持的镜像之外,目前还支持Ubuntu20.04。
监控指标采样周期为1分钟,请勿修改,否则可能导致功能不正常。当前监控指标项已经包含CPU、内存、磁盘、网络。在主机上安装加速卡驱动后,可以自动采集相关指标。
NPU相关指标采集功能运行依赖Linux系统工具lspci,部分事件依赖blkid、grub2-editenv系统工具,请确保这些工具功能正常。
工具名称 |
检查方法 |
安装方法 |
---|---|---|
lspci |
在shell环境中执行lspci,能够正常查询系统中的PCI设备,示例如下: $ sudo lspci 00:00.0 PCI bridge: Huawei Technologies Co., Ltd. HiSilicon PCIe Root Port with Gen4 (rev 21) 00:08.0 PCI bridge: Huawei Technologies Co., Ltd. HiSilicon PCIe Root Port with Gen4 (rev 21) 00:10.0 PCI bridge: Huawei Technologies Co., Ltd. HiSilicon PCIe Root Port with Gen4 (rev 21) |
lspci是用于显示PCI设备信息的工具,通常包含在pciutils软件包中。大多数Linux发行版默认安装了这个软件包,所以lspci通常是预装的。如果lspci未安装,可以使用包管理器安装pciutils。 在Debian/Ubuntu系统中: sudo apt-get update sudo apt-get install pciutils 在Red Hat/CentOS/EulerOS系统中: sudo yum install pciutils |
blkid |
在shell环境中执行blkid,能够查询系统中的块设备信息,示例如下: $ sudo blkid /dev/sda1: UUID="123e4567-e89b-12d3-a456-426614174000" TYPE="vfat" PARTUUID="56789abc-def0-1234-5678-9abcd3f2c0a1" /dev/sda2: UUID="a1b2c3d4-e5f6-789a-bcde-f0123456789a" TYPE="swap" PARTUUID="edcba98-7654-3210-fedc-ba9876543210" /dev/sda3: UUID="01234567-89ab-cdef-0123-456789abcdef" TYPE="ext4" PARTUUID="fedcba09-8765-4321-fedc-ba0987654321" |
blkid是Linux系统中用于显示块设备属性的工具,通常包含在util-linux软件包中。大多数Linux发行版默认安装了这个软件包,所以blkid通常是预装的。如果blkid未安装,可以使用包管理器安装util-linux。 在Debian/Ubuntu系统中: sudo apt-get update sudo apt-get install util-linux 在Red Hat/CentOS/EulerOS系统中: sudo yum install util-linux |
grub2-editenv(仅Red Hat、CentOS、EulerOS发行版需要) |
在shell环境中执行blkid,能够查询系统中的块设备信息,示例如下: 1 2 3 4 $ sudo grub2-editenv list timeout=5default=0saved_entry=Red Hat Enterprise Linux Server, with Linux 4.18.0-305.el8.x86_64 |
grub2-editenv是GRUB2的一部分,用于管理GRUB环境变量。大多数Linux发行版默认安装了GRUB2,所以grub2-editenv通常是预装的。如果grub2-editenv未安装,可以使用包管理器安装grub2-editenv: 在Debian/Ubuntu系统中: sudo apt-get update sudo apt-get install grub2 在Red Hat/CentOS/EulerOS系统中: sudo yum install grub2 |
安装CES Agent监控插件
通过在ECS或BMS中安装Agent插件,为用户提供服务器的系统级、主动式、细颗粒度监控服务。
- 当前账户需要给CES授权委托,请参考创建用户并授权使用云监控服务。如果在创建Server资源时,开启了“CES主机监控授权”,此处无需重复执行授权操作。
- 当前还不支持在CES界面直接一键安装监控,需要登录到服务器上执行以下命令安装配置Agent。其它region的安装请参考单台主机下安装Agent。
cd /usr/local && curl -k -O https://obs.cn-north-4.myhuaweicloud.com/uniagent-cn-north-4/script/agent_install.sh && bash agent_install.sh
安装成功的标志如下:
图1 安装成功提示 - 在CES界面查看具体的监控项,加速卡类的监控项必须在主机安装加速卡驱动后才会有相关指标。
图2 监控界面
至此,监控插件已经安装完成,相关指标的采集可以在UI界面直接查看或者根据指标值配置相关告警。
监控指标的命名空间
AGT.ECS和SERVICE.BMS
Lite Server监控指标介绍
此处表1仅展示NPU相关指标,其他指标项请参考CES Agent支持的指标列表。
序号 |
分类 |
指标名称 |
显示名 |
说明 |
单位 |
进制 |
取值范围 |
维度 |
支持机型 |
支持版本 |
---|---|---|---|---|---|---|---|---|---|---|
1 |
整体 |
npu_device_health |
NPU健康状况 |
NPU卡的健康状况 |
- |
不涉及 |
0:正常 1:一般告警 2:重要告警 3:紧急告警 |
instance_id,npu |
Snt3P 300IDuo Snt9b Snt9b23 |
telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 |
2 |
npu_driver_health |
NPU驱动健康状况 |
NPU卡的驱动的健康状况 |
- |
不涉及 |
0:正常 3:紧急告警 |
instance_id,npu |
|||
3 |
npu_power |
NPU功率 |
NPU卡功率 |
W |
不涉及 |
>0 |
instance_id,npu |
|||
4 |
npu_temperature |
NPU温度 |
NPU卡温度 |
°C |
不涉及 |
自然数 |
instance_id,npu |
|||
5 |
npu_voltage |
NPU电压 |
该指标描述NPU的电压 |
V |
不涉及 |
自然数 |
instance_id,npu |
|||
6 |
HBM |
npu_util_rate_hbm |
NPU的HBM占用率 |
该指标描述NPU的HBM占用率 |
% |
不涉及 |
0~100% |
instance_id,npu |
Snt9b Snt9b23 |
telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 |
7 |
npu_hbm_freq |
HBM频率 |
NPU卡HBM频率 |
MHz |
不涉及 |
>0 |
instance_id,npu |
|||
8 |
npu_freq_hbm |
HBM频率 |
NPU卡HBM频率 |
MHz |
不涉及 |
>0 |
instance_id,npu |
|||
9 |
npu_hbm_usage |
HBM使用量 |
NPU卡HBM使用量 |
MB |
不涉及 |
≥0 |
instance_id,npu |
|||
10 |
npu_hbm_temperature |
HBM温度 |
NPU卡HBM温度 |
°C |
不涉及 |
自然数 |
instance_id,npu |
|||
11 |
npu_hbm_bandwidth_util |
HBM带宽利用率 |
NPU卡HBM带宽利用率 |
% |
不涉及 |
0~100% |
instance_id,npu |
|||
12 |
npu_util_rate_hbm_bw |
HBM带宽利用率 |
NPU卡HBM带宽利用率 |
% |
不涉及 |
0~100% |
instance_id,npu |
|||
13 |
npu_hbm_mem_capacity |
NPU的HBM内存容量 |
该指标描述NPU的HBM内存容量 |
MB |
不涉及 |
≥0 |
instance_id,npu |
|||
14 |
npu_hbm_ecc_enable |
HBM ECC开关状态 |
NPU卡HBM ECC开关状态 |
- |
不涉及 |
0:ecc检测未使能 1:ecc检测使能 |
instance_id,npu |
|||
15 |
npu_hbm_single_bit_error_cnt |
HBM当前单bit错误数量 |
NPU卡HBM当前单bit错误数量 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
16 |
npu_hbm_double_bit_error_cnt |
HBM当前双bit错误数量 |
NPU卡HBM当前双bit错误数量 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
17 |
npu_hbm_total_single_bit_error_cnt |
HBM生命周期内单bit错误数量 |
NPU卡HBM生命周期内单bit错误数量 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
18 |
npu_hbm_total_double_bit_error_cnt |
HBM生命周期内双bit错误数量 |
NPU卡HBM生命周期内双bit错误数量 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
19 |
npu_hbm_single_bit_isolated_pages_cnt |
HBM单比特错误隔离内存页数量 |
NPU卡HBM单比特错误隔离内存页数量 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
20 |
npu_hbm_double_bit_isolated_pages_cnt |
HBM多比特错误隔离内存页数量 |
NPU卡HBM多比特错误隔离内存页数量 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
21 |
DDR |
npu_usage_mem |
NPU显存使用量 |
NPU卡的显存使用量 |
MB |
不涉及 |
≥0 |
instance_id,npu |
Snt3P 300IDuo |
telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 |
22 |
npu_util_rate_mem |
NPU显存使用率 |
NPU卡的显存使用率 |
% |
不涉及 |
0~100% |
instance_id,npu |
|||
23 |
npu_freq_mem |
NPU显存频率 |
NPU卡的显存频率 |
MHz |
不涉及 |
>0 |
instance_id,npu |
|||
24 |
npu_util_rate_mem_bandwidth |
NPU显存带宽使用率 |
NPU卡的显存带宽使用率 |
% |
不涉及 |
0~100% |
instance_id,npu |
|||
25 |
npu_sbe |
NPU单bit错误数量 |
NPU卡单比特错误数量 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
26 |
npu_dbe |
NPU双bit错误数量 |
NPU卡双比特错误数量 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
27 |
AI Core |
npu_freq_ai_core |
NPU卡AI核心频率 |
NPU卡的AI核心时钟频率 |
MHz |
不涉及 |
>0 |
instance_id,npu |
Snt3P 300IDuo Snt9b Snt9b23 |
telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 |
28 |
npu_freq_ai_core_rated |
NPU的AI核心额定频率 |
该指标描述NPU的AI核心额定频率 |
MHz |
不涉及 |
>0 |
instance_id,npu |
|||
29 |
npu_util_rate_ai_core |
NPU卡AI核心使用率 |
NPU卡的AI核心使用率 |
% |
不涉及 |
0~100% |
instance_id,npu |
|||
30 |
AI Vector |
npu_util_rate_vector_core |
NPU卡Vector核心使用率 |
NPU卡Vector核心使用率 |
% |
不涉及 |
0~100% |
instance_id,npu |
Snt3P 300IDuo Snt9b Snt9b23 |
telescope: 2.7.5.9及之后版本 |
31 |
AI CPU |
npu_aicpu_num |
NPU的AI CPU 数量 |
该指标描述NPU的AI CPU数量 |
count |
不涉及 |
≥0 |
instance_id,npu |
Snt3P 300IDuo Snt9b Snt9b23 |
telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 |
32 |
npu_util_rate_ai_cpu |
NPU卡AI CPU使用率 |
NPU卡的AI CPU使用率 |
% |
不涉及 |
0~100% |
instance_id,npu |
|||
33 |
npu_aicpu_avg_util_rate |
NPU的AI CPU平均使用率 |
该指标描述NPU的AI CPU平均使用率 |
% |
不涉及 |
0~100% |
instance_id,npu |
|||
34 |
npu_aicpu_max_freq |
NPU的AI CPU最大频率 |
该指标描述NPU的AI CPU最大频率 |
MHz |
不涉及 |
>0 |
instance_id,npu |
|||
35 |
npu_aicpu_cur_freq |
NPU的AI CPU频率 |
该指标描述NPU的AI CPU频率 |
MHz |
不涉及 |
>0 |
instance_id,npu |
|||
36 |
CTRL CPU |
npu_util_rate_ctrl_cpu |
NPU控制CPU使用率 |
该指标描述NPU卡的控制CPU使用率 |
% |
不涉及 |
0~100% |
instance_id,npu |
Snt3P 300IDuo Snt9b Snt9b23 |
telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 |
37 |
npu_freq_ctrl_cpu |
NPU的控制CPU频率 |
该指标描述NPU的控制CPU频率 |
MHz |
不涉及 |
>0 |
instance_id,npu |
|||
38 |
PCIE链路 |
npu_link_cap_speed |
NPU链路最大传输速度 |
该指标描述NPU设备支持的最大传输速度 |
GT/s |
不涉及 |
≥0 |
instance_id,npu |
310P 300IDuo Snt9b Snt9b23 |
telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 |
39 |
npu_link_cap_width |
NPU链路最大传输宽度 |
该指标描述NPU设备支持的最大传输宽度 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
40 |
npu_link_status_speed |
NPU链路当前传输速度 |
该指标描述NPU设备链路的实际传输速度 |
GT/s |
不涉及 |
≥0 |
instance_id,npu |
|||
41 |
npu_link_status_width |
NPU链路当前传输宽度 |
该指标描述NPU设备链路的实际传输宽度 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
42 |
RoCE网络 |
npu_device_network_health |
NPU网络健康情况 |
NPU卡的RoCE网卡的IP地址连通情况 |
- |
不涉及 |
0:网络健康状态正常 非0:网络状态异常 |
instance_id,npu |
Snt9b Snt9b23 |
telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 |
43 |
npu_network_port_link_status |
NPU网口link状态 |
NPU卡的对应网口link状态 |
- |
不涉及 |
0:UP 1:DOWN |
instance_id,npu |
|||
44 |
npu_roce_tx_rate |
NPU网卡上行速率 |
NPU卡内网卡的上行速率 |
MB/s |
不涉及 |
≥0 |
instance_id,npu |
|||
45 |
npu_roce_rx_rate |
NPU网卡下行速率 |
NPU卡内网卡的下行速率 |
MB/s |
不涉及 |
≥0 |
instance_id,npu |
|||
46 |
npu_mac_tx_mac_pause_num |
MAC发送pause帧总数 |
NPU卡对应MAC地址发送的pause帧总报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
47 |
npu_mac_rx_mac_pause_num |
MAC接收pause帧总数 |
NPU卡对应MAC地址接收的pause帧总报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
48 |
npu_mac_tx_pfc_pkt_num |
MAC发送pfc帧总数 |
NPU卡对应MAC地址发送的PFC帧总报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
49 |
npu_mac_rx_pfc_pkt_num |
MAC接收pfc帧总数 |
NPU卡对应MAC地址接收的PFC帧总报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
50 |
npu_mac_tx_bad_pkt_num |
MAC发送坏包总数 |
NPU卡对应MAC地址发送的坏包总数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
51 |
npu_mac_rx_bad_pkt_num |
MAC接收坏包总数 |
NPU卡对应MAC地址接收的坏包总数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
52 |
npu_roce_tx_err_pkt_num |
RoCE发送坏包总数 |
NPU卡内RoCE网卡发送的坏包总数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
53 |
npu_roce_rx_err_pkt_num |
RoCE接收坏包总数 |
NPU卡内RoCE网卡接收的坏包总数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
54 |
npu_roce_tx_all_pkt_num |
NPU RoCE发送总报文数 |
该指标描述NPU RoCE发送的总报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
telescope: 2.7.5.9及之后版本 |
||
55 |
npu_roce_rx_all_pkt_num |
NPU RoCE接收总报文数 |
该指标描述NPU RoCE接收的总报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
56 |
npu_roce_new_pkt_rty_num |
NPU RoCE的重传报文数 |
该指标描述NPU RoCE发送的重传的数量统计 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
57 |
npu_roce_out_of_order_num |
NPU RoCE接收的PSN异常报文数 |
该指标描述NPU RoCE接收的PSN>预期PSN的报文,或重复PSN报文数。乱序或丢包,会触发重传 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
58 |
npu_roce_rx_cnp_pkt_num |
NPU RoCE接收的CNP类型报文数 |
该指标描述NPU RoCE接收的CNP类型报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
59 |
npu_roce_tx_cnp_pkt_num |
NPU RoCE发送的CNP类型报文数 |
该指标描述NPU RoCE发送的CNP类型报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
60 |
RoCE光模块 |
npu_opt_temperature |
NPU光模块壳温 |
该指标描述NPU光模块壳温 |
°C |
不涉及 |
自然数 |
instance_id,npu |
Snt9b Snt9b23 |
telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 |
61 |
npu_opt_temperature_high_thres |
NPU光模块壳温上限 |
该指标描述NPU光模块壳温上限 |
°C |
不涉及 |
自然数 |
instance_id,npu |
|||
62 |
npu_opt_temperature_low_thres |
NPU光模块壳温下限 |
该指标描述NPU光模块壳温下限 |
°C |
不涉及 |
自然数 |
instance_id,npu |
|||
63 |
npu_opt_voltage |
NPU光模块供电电压 |
该指标描述NPU光模块供电电压 |
mV |
不涉及 |
自然数 |
instance_id,npu |
|||
64 |
npu_opt_voltage_high_thres |
NPU光模块供电电压上限 |
该指标描述NPU光模块供电电压上限 |
mV |
不涉及 |
自然数 |
instance_id,npu |
|||
65 |
npu_opt_voltage_low_thres |
NPU光模块供电电压下限 |
该指标描述NPU光模块供电电压下限 |
mV |
不涉及 |
自然数 |
instance_id,npu |
|||
66 |
npu_opt_tx_power_lane0 |
NPU光模块通道0发送功率 |
该指标描述NPU光模块通道0发送功率 |
mW |
不涉及 |
≥0 |
instance_id,npu |
|||
67 |
npu_opt_tx_power_lane1 |
NPU光模块通道1发送功率 |
该指标描述NPU光模块通道1发送功率 |
mW |
不涉及 |
≥0 |
instance_id,npu |
|||
68 |
npu_opt_tx_power_lane2 |
NPU光模块通道2发送功率 |
该指标描述NPU光模块通道2发送功率 |
mW |
不涉及 |
≥0 |
instance_id,npu |
|||
69 |
npu_opt_tx_power_lane3 |
NPU光模块通道3发送功率 |
该指标描述NPU光模块通道3发送功率 |
mW |
不涉及 |
≥0 |
instance_id,npu |
|||
70 |
npu_opt_rx_power_lane0 |
NPU光模块通道0接收功率 |
该指标描述NPU光模块通道0接收功率 |
mW |
不涉及 |
≥0 |
instance_id,npu |
|||
71 |
npu_opt_rx_power_lane1 |
NPU光模块通道1接收功率 |
该指标描述NPU光模块通道1接收功率 |
mW |
不涉及 |
≥0 |
instance_id,npu |
|||
72 |
npu_opt_rx_power_lane2 |
NPU光模块通道2接收功率 |
该指标描述NPU光模块通道2接收功率 |
mW |
不涉及 |
≥0 |
instance_id,npu |
|||
73 |
npu_opt_rx_power_lane3 |
NPU光模块通道3接收功率 |
该指标描述NPU光模块通道3接收功率 |
mW |
不涉及 |
≥0 |
instance_id,npu |
|||
74 |
npu_opt_tx_bias_lane0 |
NPU光模块通道0发射偏置电流 |
该指标描述NPU光模块通道0发射偏置电流 |
mA |
不涉及 |
≥0 |
instance_id,npu |
|||
75 |
npu_opt_tx_bias_lane1 |
NPU光模块通道1发射偏置电流 |
该指标描述NPU光模块通道1发射偏置电流 |
mA |
不涉及 |
≥0 |
instance_id,npu |
|||
76 |
npu_opt_tx_bias_lane2 |
NPU光模块通道2发射偏置电流 |
该指标描述NPU光模块通道2发射偏置电流 |
mA |
不涉及 |
≥0 |
instance_id,npu |
|||
77 |
npu_opt_tx_bias_lane3 |
NPU光模块通道3发射偏置电流 |
该指标描述NPU光模块通道3发射偏置电流 |
mA |
不涉及 |
≥0 |
instance_id,npu |
|||
78 |
npu_opt_tx_los |
NPU光模块TX Los |
该指标描述NPU光模块TX Los flag |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
79 |
npu_opt_rx_los |
NPU光模块RX Los |
该指标描述NPU光模块RX Los flag |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
80 |
npu_opt_media_snr_lane0 |
NPU光模块通道0光侧信噪比 |
该指标描述NPU光模块通道0的media侧(光侧)的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
telescope: 2.7.5.9及之后版本 |
||
81 |
npu_opt_media_snr_lane1 |
NPU光模块通道1光侧信噪比 |
该指标描述NPU光模块通道1的media侧(光侧)的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
82 |
npu_opt_media_snr_lane2 |
NPU光模块通道2光侧信噪比 |
该指标描述NPU光模块通道2的media侧(光侧)的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
83 |
npu_opt_media_snr_lane3 |
NPU光模块通道3光侧信噪比 |
该指标描述NPU光模块通道3的media侧(光侧)的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
84 |
HCCS Lane模式 |
npu_macro1_0lane_max_consec_sec |
NPU Macro1 0lane模式最大持续时长 |
该指标描述NPU Macro1在检测周期内处于0lane模式的最大持续时长 |
s |
不涉及 |
≥0 |
instance_id,npu |
Snt9b Snt9b23 |
telescope: 2.7.5.9及之后版本 |
85 |
npu_macro2_0lane_max_consec_sec |
NPU Macro2 0lane模式最大持续时长 |
该指标描述NPU Macro2在检测周期内处于0lane模式的最大持续时长 |
s |
不涉及 |
≥0 |
instance_id,npu |
|||
86 |
npu_macro3_0lane_max_consec_sec |
NPU Macro3 0lane模式最大持续时长 |
该指标描述NPU Macro3在检测周期内处于0lane模式的最大持续时长 |
s |
不涉及 |
≥0 |
instance_id,npu |
|||
87 |
npu_macro4_0lane_max_consec_sec |
NPU Macro4 0lane模式最大持续时长 |
该指标描述NPU Macro4在检测周期内处于0lane模式的最大持续时长 |
s |
不涉及 |
≥0 |
instance_id,npu |
|||
88 |
npu_macro5_0lane_max_consec_sec |
NPU Macro5 0lane模式最大持续时长 |
该指标描述NPU Macro5在检测周期内处于0lane模式的最大持续时长 |
s |
不涉及 |
≥0 |
instance_id,npu |
|||
89 |
npu_macro6_0lane_max_consec_sec |
NPU Macro6 0lane模式最大持续时长 |
该指标描述NPU Macro6在检测周期内处于0lane模式的最大持续时长 |
s |
不涉及 |
≥0 |
instance_id,npu |
|||
90 |
npu_macro7_0lane_max_consec_sec |
NPU Macro7 0lane模式最大持续时长 |
该指标描述NPU Macro7在检测周期内处于0lane模式的最大持续时长 |
s |
不涉及 |
≥0 |
instance_id,npu |
|||
91 |
npu_macro1_0lane_total_sec |
NPU Macro1 0lane模式持续总时长 |
该指标描述NPU Macro1在检测周期内处于0lane模式的持续总时长 |
s |
不涉及 |
≥0 |
instance_id,npu |
|||
92 |
npu_macro2_0lane_total_sec |
NPU Macro2 0lane模式持续总时长 |
该指标描述NPU Macro2在检测周期内处于0lane模式的持续总时长 |
s |
不涉及 |
≥0 |
instance_id,npu |
|||
93 |
npu_macro3_0lane_total_sec |
NPU Macro3 0lane模式持续总时长 |
该指标描述NPU Macro3在检测周期内处于0lane模式的持续总时长 |
s |
不涉及 |
≥0 |
instance_id,npu |
|||
94 |
npu_macro4_0lane_total_sec |
NPU Macro4 0lane模式持续总时长 |
该指标描述NPU Macro4在检测周期内处于0lane模式的持续总时长 |
s |
不涉及 |
≥0 |
instance_id,npu |
|||
95 |
npu_macro5_0lane_total_sec |
NPU Macro5 0lane模式持续总时长 |
该指标描述NPU Macro5在检测周期内处于0lane模式的持续总时长 |
s |
不涉及 |
≥0 |
instance_id,npu |
|||
96 |
npu_macro6_0lane_total_sec |
NPU Macro6 0lane模式持续总时长 |
该指标描述NPU Macro6在检测周期内处于0lane模式的持续总时长 |
s |
不涉及 |
≥0 |
instance_id,npu |
|||
97 |
npu_macro7_0lane_total_sec |
NPU Macro7 0lane模式持续总时长 |
该指标描述NPU Macro7在检测周期内处于0lane模式的持续总时长 |
s |
不涉及 |
≥0 |
instance_id,npu |
|||
98 |
HCCS Serdes SNR |
npu_macro1_serdes_lane0_snr |
NPU Macro1 Serdes Lane0的信噪比 |
该指标描述NPU Macro1 Serdes Lane0的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
Snt9b Snt9b23 |
telescope: 2.7.5.9及之后版本 |
99 |
npu_macro1_serdes_lane1_snr |
NPU Macro1 Serdes Lane1的信噪比 |
该指标描述NPU Macro1 Serdes Lane1的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
100 |
npu_macro1_serdes_lane2_snr |
NPU Macro1 Serdes Lane2的信噪比 |
该指标描述NPU Macro1 Serdes Lane2的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
101 |
npu_macro1_serdes_lane3_snr |
NPU Macro1 Serdes Lane3的信噪比 |
该指标描述NPU Macro1 Serdes Lane3的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
102 |
npu_macro2_serdes_lane0_snr |
NPU Macro2 Serdes Lane0的信噪比 |
该指标描述NPU Macro2 Serdes Lane0的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
103 |
npu_macro2_serdes_lane1_snr |
NPU Macro2 Serdes Lane1的信噪比 |
该指标描述NPU Macro2 Serdes Lane1的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
104 |
npu_macro2_serdes_lane2_snr |
NPU Macro2 Serdes Lane2的信噪比 |
该指标描述NPU Macro2 Serdes Lane2的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
105 |
npu_macro2_serdes_lane3_snr |
NPU Macro2 Serdes Lane3的信噪比 |
该指标描述NPU Macro2 Serdes Lane3的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
106 |
npu_macro3_serdes_lane0_snr |
NPU Macro3 Serdes Lane0的信噪比 |
该指标描述NPU Macro3 Serdes Lane0的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
107 |
npu_macro3_serdes_lane1_snr |
NPU Macro3 Serdes Lane1的信噪比 |
该指标描述NPU Macro3 Serdes Lane1的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
108 |
npu_macro3_serdes_lane2_snr |
NPU Macro3 Serdes Lane2的信噪比 |
该指标描述NPU Macro3 Serdes Lane2的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
109 |
npu_macro3_serdes_lane3_snr |
NPU Macro3 Serdes Lane3的信噪比 |
该指标描述NPU Macro3 Serdes Lane3的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
110 |
npu_macro4_serdes_lane0_snr |
NPU Macro4 Serdes Lane0的信噪比 |
该指标描述NPU Macro4 Serdes Lane0的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
111 |
npu_macro4_serdes_lane1_snr |
NPU Macro4 Serdes Lane1的信噪比 |
该指标描述NPU Macro4 Serdes Lane1的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
112 |
npu_macro4_serdes_lane2_snr |
NPU Macro4 Serdes Lane2的信噪比 |
该指标描述NPU Macro4 Serdes Lane2的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
113 |
npu_macro4_serdes_lane3_snr |
NPU Macro4 Serdes Lane3的信噪比 |
该指标描述NPU Macro4 Serdes Lane3的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
114 |
npu_macro5_serdes_lane0_snr |
NPU Macro5 Serdes Lane0的信噪比 |
该指标描述NPU Macro5 Serdes Lane0的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
115 |
npu_macro5_serdes_lane1_snr |
NPU Macro5 Serdes Lane1的信噪比 |
该指标描述NPU Macro5 Serdes Lane1的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
116 |
npu_macro5_serdes_lane2_snr |
NPU Macro5 Serdes Lane2的信噪比 |
该指标描述NPU Macro5 Serdes Lane2的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
117 |
npu_macro5_serdes_lane3_snr |
NPU Macro5 Serdes Lane3的信噪比 |
该指标描述NPU Macro5 Serdes Lane3的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
118 |
npu_macro6_serdes_lane0_snr |
NPU Macro6 Serdes Lane0的信噪比 |
该指标描述NPU Macro6 Serdes Lane0的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
119 |
npu_macro6_serdes_lane1_snr |
NPU Macro6 Serdes Lane1的信噪比 |
该指标描述NPU Macro6 Serdes Lane1的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
120 |
npu_macro6_serdes_lane2_snr |
NPU Macro6 Serdes Lane2的信噪比 |
该指标描述NPU Macro6 Serdes Lane2的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
121 |
npu_macro6_serdes_lane3_snr |
NPU Macro6 Serdes Lane3的信噪比 |
该指标描述NPU Macro6 Serdes Lane3的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
122 |
npu_macro7_serdes_lane0_snr |
NPU Macro7 Serdes Lane0的信噪比 |
该指标描述NPU Macro7 Serdes Lane0的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
123 |
npu_macro7_serdes_lane1_snr |
NPU Macro7 Serdes Lane1的信噪比 |
该指标描述NPU Macro7 Serdes Lane1的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
124 |
npu_macro7_serdes_lane2_snr |
NPU Macro7 Serdes Lane2的信噪比 |
该指标描述NPU Macro7 Serdes Lane2的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
125 |
npu_macro7_serdes_lane3_snr |
NPU Macro7 Serdes Lane3的信噪比 |
该指标描述NPU Macro7 Serdes Lane3的信噪比 |
db |
不涉及 |
自然数 |
instance_id,npu |
|||
126 |
HCCS收发包统计 |
npu_macro1_rx_cnt |
NPU Macro1接收报文数 |
该指标描述NPU Macro1在检测周期内接收的报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
Snt9b Snt9b23 |
telescope: 2.7.5.9及之后版本 |
127 |
npu_macro2_rx_cnt |
NPU Macro2接收报文数 |
该指标描述NPU Macro2在检测周期内接收的报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
128 |
npu_macro3_rx_cnt |
NPU Macro3接收报文数 |
该指标描述NPU Macro3在检测周期内接收的报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
129 |
npu_macro4_rx_cnt |
NPU Macro4接收报文数 |
该指标描述NPU Macro4在检测周期内接收的报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
130 |
npu_macro5_rx_cnt |
NPU Macro5接收报文数 |
该指标描述NPU Macro5在检测周期内接收的报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
131 |
npu_macro6_rx_cnt |
NPU Macro6接收报文数 |
该指标描述NPU Macro6在检测周期内接收的报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
132 |
npu_macro7_rx_cnt |
NPU Macro7接收报文数 |
该指标描述NPU Macro7在检测周期内接收的报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
133 |
npu_macro1_tx_cnt |
NPU Macro1发送报文数 |
该指标描述NPU Macro1在检测周期内发送的报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
134 |
npu_macro2_tx_cnt |
NPU Macro2发送报文数 |
该指标描述NPU Macro2在检测周期内发送的报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
135 |
npu_macro3_tx_cnt |
NPU Macro3发送报文数 |
该指标描述NPU Macro3在检测周期内发送的报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
136 |
npu_macro4_tx_cnt |
NPU Macro4发送报文数 |
该指标描述NPU Macro4在检测周期内发送的报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
137 |
npu_macro5_tx_cnt |
NPU Macro5发送报文数 |
该指标描述NPU Macro5在检测周期内发送的报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
138 |
npu_macro6_tx_cnt |
NPU Macro6发送报文数 |
该指标描述NPU Macro6在检测周期内发送的报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
139 |
npu_macro7_tx_cnt |
NPU Macro7发送报文数 |
该指标描述NPU Macro7在检测周期内发送的报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
140 |
HCCS重传统计 |
npu_macro1_retry_cnt |
NPU Macro1重传报文数 |
该指标描述NPU Macro1在检测周期内重传的报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
Snt9b Snt9b23 |
telescope: 2.7.5.9及之后版本 |
141 |
npu_macro2_retry_cnt |
NPU Macro2重传报文数 |
该指标描述NPU Macro2在检测周期内重传的报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
142 |
npu_macro3_retry_cnt |
NPU Macro3重传报文数 |
该指标描述NPU Macro3在检测周期内重传的报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
143 |
npu_macro4_retry_cnt |
NPU Macro4重传报文数 |
该指标描述NPU Macro4在检测周期内重传的报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
144 |
npu_macro5_retry_cnt |
NPU Macro5重传报文数 |
该指标描述NPU Macro5在检测周期内重传的报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
145 |
npu_macro6_retry_cnt |
NPU Macro6重传报文数 |
该指标描述NPU Macro6在检测周期内重传的报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
146 |
npu_macro7_retry_cnt |
NPU Macro7重传报文数 |
该指标描述NPU Macro7在检测周期内重传的报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
147 |
HCCS错包统计 |
npu_macro1_crc_error_cnt |
NPU Macro1接收错误报文数 |
该指标描述NPU Macro1在检测周期内接收的CRC错误报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
Snt9b Snt9b23 |
telescope: 2.7.5.9及之后版本 |
148 |
npu_macro2_crc_error_cnt |
NPU Macro2接收错误报文数 |
该指标描述NPU Macro2在检测周期内接收的CRC错误报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
149 |
npu_macro3_crc_error_cnt |
NPU Macro3接收错误报文数 |
该指标描述NPU Macro3在检测周期内接收的CRC错误报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
150 |
npu_macro4_crc_error_cnt |
NPU Macro4接收错误报文数 |
该指标描述NPU Macro4在检测周期内接收的CRC错误报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
151 |
npu_macro5_crc_error_cnt |
NPU Macro5接收错误报文数 |
该指标描述NPU Macro5在检测周期内接收的CRC错误报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
152 |
npu_macro6_crc_error_cnt |
NPU Macro6接收错误报文数 |
该指标描述NPU Macro6在检测周期内接收的CRC错误报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
153 |
npu_macro7_crc_error_cnt |
NPU Macro7接收错误报文数 |
该指标描述NPU Macro7在检测周期内接收的CRC错误报文数 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
154 |
npu_macro1_crc_error_rate |
NPU Macro1接收误码率 |
该指标描述NPU Macro1在检测周期内接收的CRC错误报文数占接收报文数的百分比 |
count |
不涉及 |
≥0 |
instance_id,npu |
|||
155 |
npu_macro2_crc_error_rate |
NPU Macro2接收误码率 |
该指标描述NPU Macro2在检测周期内接收的CRC错误报文数占接收报文数的百分比 |
% |
不涉及 |
≥0 |
instance_id,npu |
|||
156 |
npu_macro3_crc_error_rate |
NPU Macro3接收误码率 |
该指标描述NPU Macro3在检测周期内接收的CRC错误报文数占接收报文数的百分比 |
% |
不涉及 |
≥0 |
instance_id,npu |
|||
157 |
npu_macro4_crc_error_rate |
NPU Macro4接收误码率 |
该指标描述NPU Macro4在检测周期内接收的CRC错误报文数占接收报文数的百分比 |
% |
不涉及 |
≥0 |
instance_id,npu |
|||
158 |
npu_macro5_crc_error_rate |
NPU Macro5接收误码率 |
该指标描述NPU Macro5在检测周期内接收的CRC错误报文数占接收报文数的百分比 |
% |
不涉及 |
≥0 |
instance_id,npu |
|||
159 |
npu_macro6_crc_error_rate |
NPU Macro6接收误码率 |
该指标描述NPU Macro6在检测周期内接收的CRC错误报文数占接收报文数的百分比 |
% |
不涉及 |
≥0 |
instance_id,npu |
|||
160 |
npu_macro7_crc_error_rate |
NPU Macro7接收误码率 |
该指标描述NPU Macro7在检测周期内接收的CRC错误报文数占接收报文数的百分比 |
% |
不涉及 |
≥0 |
instance_id,npu |
Lite Server支持的事件列表
通过对接CES,可以将业务中的重要事件或对云资源的操作事件收集到CES云监控服务,并在事件发生时进行告警。Lite Server支持的事件来源主要是BMS和ECS,NPU涉及的具体事件列表如下,其它相关事件请参考CES事件监控说明。
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
支持机型 |
支持版本 |
---|---|---|---|---|---|---|---|---|---|
BMS/ECS |
SYS.BMS/SYS.ECS |
NPU: npu-smi info查询缺少设备 |
NPUSMICardNotFound |
重要 |
可能是由于昇腾驱动问题或NPU掉卡 |
联系运维人员协助处理 |
NPU卡无法正常使用 |
Snt3P 300IDuo Snt9b Snt9b23 |
telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 |
NPU: PCIe链路异常 |
PCIeErrorFound |
重要 |
lspci显示npu卡处于rev ff状态 |
联系运维人员协助处理 |
NPU卡无法正常使用 |
Snt3P 300IDuo Snt9b Snt9b23 |
telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 |
||
NPU: lspci查询缺少设备 |
LspciCardNotFound |
重要 |
一般是由于NPU掉卡 |
联系运维人员协助处理 |
NPU卡无法正常使用 |
Snt3P 300IDuo Snt9b Snt9b23 |
telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 |
||
NPU: 温度超过阈值 |
TemperatureOverUpperLimit |
重要 |
可能是由于DDR颗粒温度过高或过温软件预警 |
暂停业务,重启系统,查看散热系统,device复位 |
可能造成过温下电及device丢失 |
Snt3P 300IDuo Snt9b Snt9b23 |
telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 |
||
NPU: 存在不可纠正ECC错误 |
UncorrectableEccErrorWarning |
重要 |
NPU卡出现Uncorrectable ECC Error硬件故障 |
如果业务受到影响,转硬件换卡 |
业务可能受到影响终止 |
Snt3P 300IDuo |
telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 |
||
NPU: 需要重启实例 |
RebootVirtualMachine |
提示 |
当前故障很可能需要重启进行恢复 |
在收集必要信息后,重启以尝试恢复 |
重启可能中断客户业务 |
Snt3P 300IDuo Snt9b Snt9b23 |
telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 |
||
NPU: 需要复位SOC |
ResetSOC |
提示 |
当前故障很可能需要复位SOC进行恢复 |
在收集必要信息后,复位SOC以尝试恢复 |
复位SOC可能中断客户业务 |
Snt3P 300IDuo Snt9b Snt9b23 |
telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 |
||
NPU: 需要退出AI任务重新执行 |
RestartAIProcess |
提示 |
当前故障很可能需要客户退出当前的AI任务并尝试重新执行 |
在收集必要信息后,尝试退出当前AI任务并尝试重新执行 |
退出当前AI任务以便重新执行 |
Snt3P 300IDuo Snt9b Snt9b23 |
telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 |
||
NPU: errorcode告警 |
NPUErrorCodeWarning |
重要 |
这里涵盖了大量重要及以上的NPU错误码,您可以根据这些错误码进一步定位错误原因 |
对照《黑匣子错误码信息列表》和《健康管理故障定义》进一步定位错误 |
NPU当前存在故障,可能导致客户业务终止 |
Snt3P 300IDuo Snt9b Snt9b23 |
telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 |
||
NPU HBM多ECC错误信息 |
NpuHbmMultiEccInfo |
提示 |
NPU卡存在HBM的ECC错误,此事件上报相应错误信息 |
这是一个用于辅助其他事件进行判断的事件,无需单独定位处理 |
这是一个用于辅助其他事件进行判断的事件,无需单独定位处理 |
Snt9b Snt9b23 |
telescope: 2.7.5.9及之后版本 |
||
GPU: RoCE网卡配置错误 |
GpuRoceNicConfigIncorrect |
重要 |
GPU: RoCE网卡配置错误 |
联系运维人员协助处理 |
机器参数面网络异常,多机任务无法执行 |
GPU |
telescope: 2.7.5.9及之后版本 |
||
OS出现ReadOnly问题 |
ReadOnlyFileSystem |
严重 |
文件系统%s只读 |
请检查磁盘健康状态 |
无法对文件进行写和操作 |
- |
telescope: 2.7.5.3 2.7.5.9及之后版本 |
||
NPU:驱动固件不匹配 |
NpuDriverFirmwareMismatch |
重要 |
NPU驱动固件版本不匹配 |
请从昇腾官网获取匹配版本重新安装 |
无法正常使用NPU卡 |
Snt3P 300IDuo Snt9b Snt9b23 |
telescope: 2.7.5.3 2.7.5.9及之后版本 |
||
NPU:Docker容器环境检测 |
NpuContainerEnvSystem |
重要 |
Docker不可用 |
确认docker软件是否正常 |
无法使用docker软件 |
- |
telescope: 2.7.5.3 2.7.5.9及之后版本 |
||
重要 |
容器插件Ascend-Docker-Runtime未安装 |
安装容器插件Ascend-Docker-Runtime,否则影响容器使用昇腾卡 |
docker容器无法挂载NPU卡 |
Snt3P 300IDuo Snt9b Snt9b23 |
telescope: 2.7.5.3 2.7.5.9及之后版本 |
||||
重要 |
操作系统没有开启IP转发功能 |
请检查/etc/sysctl.conf文件中net.ipv4.ip_forward配置 |
docker容器无法正常网络通信 |
- |
telescope: 2.7.5.3 2.7.5.9及之后版本 |
||||
重要 |
容器共享内存过小 |
共享内存默认为64M,可按需修改。 方式一:修改/etc/docker/daemon.json配置文件default-shm-size字段。 方式二:docker run命令中使用--shm-size参数来设置单个容器的共享内存大小。 |
分布式训练时共享内存不足导致训练失败 |
- |
telescope: 2.7.5.3 2.7.5.9及之后版本 |
||||
NPU:RoCE网卡down |
RoCELinkStatusDown |
重要 |
NPU卡 %d RoCE Link状态Down |
请检查NPU Roce网口状态 |
NPU网卡不可用 |
Snt9b Snt9b23 |
telescope: 2.7.5.3 2.7.5.9及之后版本 |
||
NPU:RoCE网卡健康状态异常 |
RoCEHealthStatusError |
重要 |
NPU卡 %d RoCE网络健康状态异常 |
请检查NPU Roce网卡健康状态 |
NPU网卡不可用 |
Snt9b Snt9b23 |
telescope: 2.7.5.3 2.7.5.9及之后版本 |
||
NPU:Roce网卡配置文件/etc/hccn.conf不存在 |
HccnConfNotExisted |
重要 |
Roce网卡配置文件"/etc/hccn.conf"不存在 |
请检查/etc/hccn.conf网卡配置文件 |
Roce网卡不可用 |
Snt9b Snt9b23 |
telescope: 2.7.5.3 2.7.5.9及之后版本 |
||
GPU:GPU基本组件异常 |
GpuEnvironmentSystem |
重要 |
nvidia-smi命令异常 |
请检查GPU驱动是否正常 |
GPU卡驱动不可用 |
GPU |
telescope: 2.7.5.3 2.7.5.9及之后版本 |
||
重要 |
nvidia-fabricmanager版本和GPU驱动版本不一致 |
请检查GPU驱动版本和nvidia-fabricmanager版本 |
nvidia-fabricmanager无法正常工作,影响GPU的使用 |
||||||
重要 |
容器插件nvidia-container-toolkit未安装 |
安装容器插件nvidia-container-toolkit |
docker无法挂载GPU卡 |
||||||
本地磁盘挂载巡检 |
MountDiskSystem |
重要 |
/etc/fstab中有无效的UUID |
请检查/etc/fstab配置文件中UUID的正确性,否则可能会导致机器重启失败 |
挂载磁盘错误,导致机器重启异常 |
- |
telescope: 2.7.5.3 2.7.5.9及之后版本 |
||
GP:Ant系列机器动态路由配置错误 |
GpuRouteConfigError |
重要 |
Ant系列机器网卡%s动态路由未配置或配置错误,CMD [ip route]: %s | CMD [ip route show table all]: %s。 |
请正确配置RoCE网卡路由 |
NPU网络通信异常 |
GPU |
telescope: 2.7.5.3 2.7.5.9及之后版本 |
||
NPU:Roce端口未散列配置 |
RoCEUdpConfigError |
重要 |
RoCE UDP端口未散列配置 |
请检查NPU RoCE UDP端口配置情况 |
影响NPU卡通信性能 |
Snt9b Snt9b23 |
telescope: 2.7.5.9及之后版本 |
||
系统内核自动升级预警 |
KernelUpgradeWarning |
重要 |
系统内核自动升级预警,旧版本:%s,新版本:%s |
系统内核升级可能导致配套AI软件异常,请检查系统更新日志,避免机器重启 |
可能导致配套AI配套软件不可用 |
Snt3P 300IDuo Snt9b Snt9b23 |
telescope: 2.7.5.3 2.7.5.9及之后版本 |
||
NPU环境相关命令检测 |
NpuToolsWarning |
重要 |
hccn_tool不可用 |
请检查NPU驱动是否正常 |
无法配置RoCE网卡的IP、网关 |
Snt9b Snt9b23 |
telescope: 2.7.5.3 2.7.5.9及之后版本 |
||
重要 |
npu-smi不可用 |
请检查NPU驱动是否正常 |
无法正常使用NPU卡 |
Snt3P 300IDuo Snt9b Snt9b23 |
telescope: 2.7.5.3 2.7.5.9及之后版本 |
||||
重要 |
ascend-dmi不可用 |
请检查工具包ToolBox是否正常安装 |
无法使用ascend-dmi进行性能分析 |
Snt9b Snt9b23 |
telescope: 2.7.5.3 2.7.5.9及之后版本 |
||||
NPU: L1交换机端口局部功能失效 |
NpuL1SwitchPortPartialFunctionFailure |
重要 |
NPU的L1 1520交换机端口局部功能失效 |
转昇腾和硬件处理 |
业务可能受到影响终止 |
Snt9b23 |
telescope: 2.7.5.9及之后版本 lqdcmi: 2.1.0及之后版本 |
||
NPU: L1交换机故障 |
NpuL1SwitchFault |
重要 |
NPU的L1 1520交换机发生故障 |
转昇腾和硬件处理 |
业务可能受到影响终止 |
Snt9b23 |
telescope: 2.7.5.9及之后版本 lqdcmi: 2.1.0及之后版本 |
||
NPU:RoCE IP地址不匹配 |
NpuRoceIPAddressMismatch |
重要 |
RoCE网卡的实际IP地址与配置文件hccn.conf中的IP地址不一致 |
联系运维人员协助处理 |
机器参数面网络异常,多机任务无法执行 |
Snt9b Snt9b23 |
telescope: 2.7.5.9及之后版本 |