文档首页/ 裸金属服务器 BMS/ 用户指南/ 使用CES监控BMS/ BMS支持事件监控的事件说明
更新时间:2025-07-22 GMT+08:00

BMS支持事件监控的事件说明

功能说明

事件监控提供了事件类型数据上报、查询和告警的功能。方便您将业务中的各类重要事件或对云资源的操作事件收集到云监控服务,并在事件发生时进行告警。

命名空间

SYS.BMS

事件监控支持的事件列表

表1 裸金属服务器支持监控的事件

事件名称

事件ID

事件级别

事件说明

处理建议

事件影响

GPU SRAM存在 Uncorrectable ECC告警

SRAMUncorrectableEccError

重要

GPU卡SRAM出现Uncorrectable ECC Error硬件故障。

如果业务受损,请提交工单。

可能gpu硬件问题导致SRAM故障,导致业务异常退出。

主机重启

osReboot

重要

裸金属实例重启。包括:

  • 在管理控制台进行重启操作
  • 通过API接口下发重启指令
  • 业务应用做成高可用。
  • 主机恢复后,确认业务是否自动恢复。

业务中断

异常重启

serverReboot

重要

裸金属实例异常重启。包括:

  • 操作系统异常导致重启
  • 主机硬件故障导致重启
  • 业务应用做成高可用。
  • 主机恢复后,确认业务是否自动恢复。

业务中断

主机关机

osShutdown

重要

裸金属实例关机。包括:

  • 在管理控制台进行关机操作
  • 通过API接口下发关机指令
  • 业务应用做成高可用。
  • 主机恢复后,确认业务是否自动恢复。

业务中断

异常关机

serverShutdown

重要

裸金属实例异常关机。包括:

  • 主机异常下电
  • 主机硬件故障导致关机
  • 业务应用做成高可用。
  • 主机恢复后,确认业务是否自动恢复。

业务中断

网络中断

linkDown

重要

裸金属服务器网络中断。包括:

  • 主机异常关机、重启
  • 交换机故障引起的网络中断
  • 网关节点故障引起的中断
  • 业务应用做成高可用。
  • 主机恢复后,确认业务是否自动恢复。

业务中断

PCIE异常

pcieError

重要

裸金属服务器PCIe设备硬件故障。包括:

  • 主板故障
  • PCIe设备故障
  • 业务应用做成高可用。
  • 主机恢复后,确认业务是否自动恢复。

影响网络或硬盘读写业务

硬盘故障

diskError

重要

裸金属服务器磁盘故障。包括:

  • 硬盘背板故障
  • 硬盘本身故障
  • 业务应用做成高可用。
  • 主机恢复后,确认业务是否自动恢复。

影响数据读写业务或主机无法启动

云存储连接异常

storageError

重要

裸金属服务器云硬盘连接异常。包括:

  • SDI卡故障
  • 远端存储故障
  • 业务应用做成高可用。
  • 主机恢复后,确认业务是否自动恢复。

影响数据读写业务或主机无法启动

GPU存在infoROM告警

gpuInfoROMAlarm

重要

GPU卡的infoROM信息异常,ROM是GPU固件的重要存储区域,保存着启动时加载的关键数据。

业务可以继续使用该GPU卡,不敏感业务可以继续使用,敏感业务请提交工单处理。

  1. 重启虚拟机,确保问题不是暂时的缓存或者通信错误。
  2. 重启后还是持续出现,则可能是硬件问题,请提工单转硬件检测是否需要换卡。

对业务暂时没有影响,当GPU硬件出现ECC故障时,可能无法自动完成故障页隔离,导致业务受损

GPU发生double bit ECC告警

doubleBitEccError

重要

GPU的ECC内存中发生双比特错误,ECC无法校正这种错误,可能导致程序崩溃。

  1. 如果业务受损停止,则重启业务恢复
  2. 如果业务无法启动,建议尝试虚拟机重启虚拟机恢复业务
  3. 如果业务仍然无法恢复,请提交工单。

可能会造成业务中断,故障页隔离后业务可继续正常使用GPU

GPU隔离页过多告警

gpuTooManyRetiredPagesAlarm

重要

GPU硬件存在过多ECC隔离页。当显存页发生不可纠正的ECC错误时,GPU会标记这些隔离页。

如果业务受损,请提交工单。

GPU硬件存在过多ECC故障,可能频繁影响业务运行

  1. 被隔离页过多,显存容量下降太多可能会导致性能下降。
  2. 被隔离页过多,显存容量下降太多可能会导致系统运行不稳定。

GPU A100 硬件发生ECC告警

gpuA100EccAlarm

重要

GPU卡出现ECC硬件故障

  1. 如果业务受损停止,则重启业务恢复
  2. 如果业务无法启动,建议尝试虚拟机重启虚拟机恢复业务
  3. 如果业务仍然无法恢复,请提交工单。

可能会造成业务中断,故障也隔离后业务可继续正常使用gpu

GPU Ant1 硬件发生ECC告警

gpuAnt1EccAlarm

重要

GPU卡出现ECC硬件故障。

  1. 如果业务受损停止,则重启业务恢复。
  2. 如果业务无法启动,建议尝试重启虚拟机恢复业务。
  3. 如果业务仍然无法恢复,请提交工单。

可能会造成业务中断,故障页隔离后业务可继续正常使用GPU。

GPU ECC内存页隔离失败告警

eccPageRetirementRecordingFailure

重要

GPU硬件存在ECC故障,驱动自动隔离这些页时失败。

  1. 如果业务受损停止,则重启业务恢复。
  2. 如果业务无法启动,建议尝试虚拟机重启虚拟机恢复业务。
  3. 如果业务仍然无法恢复,请提交工单。

可能会造成业务中断,故障页隔离隔离失败,可能导致业务无法使用GPU。

GPU ECC页隔离告警

eccPageRetirementRecordingEvent

一般

存在ecc硬件错误,发生内存页自动隔离。

1、如果业务受损停止,则重启业务恢复。

2、如果业务无法启动,建议尝试虚拟机重启虚拟机恢复业务。

3、如果业务仍然无法恢复,请提交工单。

一般随ecc故障告警出现,单独出现不影响业务。

GPU single bit ECC过多告警

highSingleBitEccErrorRate

重要

GPU的ECC内存中发生单比特错误过多。

  1. 如果业务受损停止,则重启业务恢复。
  2. 如果业务无法启动,建议尝试虚拟机重启虚拟机恢复业务。
  3. 如果业务仍然无法恢复,请提交工单。

single bit的错误能够自动恢复,一般不影响GPU相关应用程序。

GPU驱动掉卡告警

gpuDriverLinkFailureAlarm

重要

GPU链路正常,nvidia驱动找不到GPU硬件。

1、建议尝试虚拟机重启虚拟机恢复业务。

2、如果业务仍然无法恢复,请提交工单。

一般驱动问题导致找不到对应位置的gpu卡。

GPU卡链路故障告警

gpuPcieLinkFailureAlarm

重要

GPU链路异常,通过lspci无法查看GPU硬件信息。

如果业务受损,请提交工单。

硬件问题导致gpu卡链路异常,驱动无法使用gpu。

虚拟机GPU丢卡告警

vmLostGpuAlarm

重要

虚拟机实际有的gpu卡数量比规格里应分配的GPU卡数量少。

如果业务受损,请提交工单。

虚拟机gpu卡丢失。

GPU显存页告警

gpuMemoryPageFault

重要

GPU显存页发生故障,故障可能由应用、驱动或硬件引起。

如果业务受损,请提交工单。

可能gpu硬件问题导致显存故障,导致业务异常退出。

GPU图像引擎异常告警

graphicsEngineException

重要

GPU图像引擎发生故障,可能由应用、驱动或硬件引起。

如果业务受损,请提交工单。

可能gpu硬件问题导致图像引擎故障,导致业务异常退出。

GPU温度过高告警

highTemperatureEvent

重要

GPU硬件温度过高。

如果业务受损,请提交工单。

gpu温度超过温度阈值,可能会引起GPU卡性能下降。

GPU NVLINK链路错误告警

nvlinkError

重要

nvlink的链路出现硬件故障。

如果业务受损,请提交工单。

nvlink链路故障,影响业务使用GPU nvlink能力。

系统运维问询中

system_maintenance_inquiring

重要

由于底层硬件、系统运维等影响,实例在计划时间维修,任务问询中

授权维修实例操作

系统运维等待执行

system_maintenance_scheduled

重要

由于底层硬件、系统运维等影响,实例在计划时间维修,任务等待执行

确认执行窗口对业务的影响

系统运维已取消

system_maintenance_canceled

重要

由于底层硬件、系统运维等影响,实例在计划时间维修,任务已取消

系统运维执行中

system_maintenance_executing

重要

由于底层硬件、系统运维等影响,实例在计划时间维修,任务执行中

等待维修结束,观察业务是否受到影响

业务中断

系统运维已完成

system_maintenance_completed

重要

由于底层硬件、系统运维等影响,实例在计划时间维修,任务已完成

等待运行状态恢复正常,确认业务是否恢复

业务恢复正常

系统运维失败

system_maintenance_failed

重要

由于底层硬件、系统运维等影响,实例在计划时间维修,任务失败

联系运维人员处理

业务中断

GPU存在通用Xid事件告警

commonXidError

重要

GPU卡出现Xid事件告警

如果业务受损,请提交工单。

gpu硬件、驱动、应用问题导致Xid事件,可能导致业务异常退出。

NPU: npu-smi info查询缺少设备

NPUSMICardNotFound

重要

可能是由于昇腾驱动问题或NPU掉卡

转昇腾和硬件处理

NPU卡无法正常使用

NPU: PCIe链路异常

PCIeErrorFound

重要

Lspci查询卡状态为rev ff

重启,转硬件处理

NPU卡无法正常使用

NPU: lspci查询缺少设备

LspciCardNotFound

重要

一般是由于NPU掉卡

转硬件处理

NPU卡无法正常使用

NPU: 温度超过阈值

TemperatureOverUpperLimit

重要

可能是由于DDR颗粒温度过高或过温软件预警

暂停业务,重启系统,查看散热系统,device复位

可能造成过温下电及device丢失

NPU: 存在不可纠正ECC错误

UncorrectableEccErrorCount

重要

NPU卡出现Uncorrectable ECC Error硬件故障

如果业务受到影响,转硬件换卡

业务可能受到影响终止

NPU: 需要重启实例

RebootVirtualMachine

提示

当前故障很可能需要重启进行恢复

在收集必要信息后,重启以尝试恢复

重启可能中断客户业务

NPU: 需要复位SOC

ResetSOC

提示

当前故障很可能需要复位SOC进行恢复

在收集必要信息后,复位SOC以尝试恢复

复位SOC可能中断客户业务

NPU: 需要退出AI任务重新执行

RestartAIProcess

提示

当前故障很可能需要客户退出当前的AI任务并尝试重新执行

在收集必要信息后,尝试退出当前AI任务并尝试重新执行

退出当前AI任务以便重新执行

NPU: errorcode告警

NPUErrorCodeWarning

重要

这里涵盖了大量重要及以上的NPU错误码,您可以根据这些错误码进一步定位错误原因

对照《黑匣子错误码信息列表》和《健康管理故障定义》进一步定位错误

NPU当前存在故障,可能导致客户业务终止

nvidia-smi命令卡住

nvidiaSmiHangEvent

重要

nvidia-smi命令超时,该命令可能卡住

如果业务受损,请提交工单。

可能是命令执行过程中,触发驱动问题,导致命令卡住,同时可能出现业务使用驱动报错问题。

NV Peer Memory加载到内核异常

NvPeerMemException

次要

Nvlink加载异常或nv_peer_mem加载异常

nv_peer_mem存在异常,建议尝试恢复或重新安装Nvlink

Nv peer mem无法正常使用

Nv-fabricmanager服务运行异常

NvFabricManagerException

次要

机器符合Nvlink使用条件,且安装Nvlink服务,但服务异常

Nvlink存在异常,建议尝试恢复或重新安装Nvlink

Nvlink无法正常使用

IB卡使用状态异常

InfinibandStatusException

重要

网卡状态或物理状态异常

转硬件处理

IB卡无法正常工作

GPU时钟降频告警

gpuClocksThrottleReasonsAlarm

提示

  1. 可能gpu功率超过最大可操作功率阈值(持续满载),时钟频率自动降低避免损坏gpu卡。
  2. 可能gpu温度超过最大可操作温度阈值(持续满载),时钟频率自动下降减少发热。
  3. 可能gpu一直处于空闲状态,时钟频率自动降低减少功耗。
  4. 可能出现硬件故障导致的时钟频率减低。

判断是否为硬件原因导致降频,如果是,转硬件同事处理。

GPU频率下降,算力下降。

GPU DRAM ECC页隔离待生效

gpuRetiredPagesPendingAlarm

重要

  1. 硬件出现ECC问题,需要隔离。
  2. 显存页发生了不可纠正的ECC错误需要进行隔离,但是当前状态处于挂起状态还没有进行隔离。
  1. 查看事件详细,确认retired_pages.pending的状态是否为yes。
  2. 重启GPU进行自动隔离。

GPU功能异常。

GPU DRAM ECC行重映射待生效

gpuRemappedRowsAlarm

重要

GPU显存中存在某些rows出现错误,需要被重新映射,需要将问题行映射到备用资源。

  1. 查看事件详细指标RemappedRow,确认是否存在重映射的行数。
  2. 重启GPU进行自动隔离。

GPU功能异常

GPU DRAM ECC行重映射剩余可用资源不足

gpuRowRemapperResourceAlarm

重要

  1. 存在于(安培及之后架构)的gpu上。
  2. GPU 的备用显存行资源耗尽,无法继续进行行重映射。

转硬件同事处理

GPU功能异常

GPU DRAM 可纠正ECC报错

gpuDRAMCorrectableEccError

重要

  1. 存在于(安培及之后架构)的gpu上。
  2. GPU的DRAM中发生了可纠正的ECC错误,但是ECC机制可以自动修复这个问题,不影响程序的正常运行。
  1. 查看事件详细指标ecc.errors.corrected.volatile,确认是否存在可纠正的ECC错误值。
  2. 重启GPU进行自动隔离。

GPU功能可能异常

GPU DRAM 不可纠正ECC报错

gpuDRAMUncorrectableEccError

重要

  1. 存在于(安培及之后架构)的gpu上。
  2. GPU的DRAM中发生了不可纠正的ECC错误,无法通过ECC机制自行修复这个问题,验证影响系统稳定性,可能导致程序崩溃。
  1. 查看事件详细指标ecc.errors.uncorrected.volatile,确认是否存在不可纠正的ECC错误值。
  2. 重启GPU进行自动隔离。

GPU功能可能异常

GPU当前内核版本和安装驱动时的内核版本不一致

gpuKernelVersionInconsistencyAlarm

重要

GPU当前内核版本和安装驱动时的内核版本不一致:

GPU驱动在安装的时候会基于当前内核进行编译,如果内核版本不一致说明自行设计了内核,这个时候驱动会变得不可用,需要重新安装驱动。

  1. 先尝试修复方案:

    rmmod nvidia_drm

    rmmod nvidia_modeset

    rmmod nvidia

    上述执行完成后再次执行nvidia-smi命令,如果回显正常,则修复完成。

  1. 如果上述修复方案失效,请参考GPU驱动不可用中的处理方法进行故障恢复。

GPU功能异常

GPU监控依赖不满足

gpuCheckEnvFailedAlarm

重要

插件不能识别到gpu驱动库路径

  1. 检查是否未安装驱动
  2. 检查是否自定义了驱动安装目录,需要安装到默认安装路径/usr/bin/目录下。

GPU监控指标无法采集

GPU监控驱动库初始化失败

gpuDriverInitFailedAlarm

重要

gpu驱动不可用

执行nvidia-smi确认驱动是否不可用,如果驱动不能用,请参考GPU驱动安装方法进行驱动重新安装。

GPU监控指标无法采集

GPU监控驱动库初始化超时

gpuDriverInitTAlarm

重要

gpu驱动初始化超时 > 10s

  1. 如果没有安装驱动,请参考GPU驱动安装方法进行驱动安装。
  2. 如果安装了驱动,请执行nvidia-smi确认驱动安装正常可用,如果不能用,请参考GPU驱动安装方法进行驱动重新安装。
  3. 如果驱动都安装正常,检查是否高性能模式未打开,P0是高性能模式,使用nvidia-smi -pm 1

GPU监控指标无法采集

gpu采集指标超时

gpuCollectMetricTimeoutAlarm

重要

gpu采集指标超时 > 10s

  1. 如果返回的是库接口超时,请执行nvidia-smi确认驱动安装正常可用,如果不能用,请参考GPU驱动安装方法进行驱动重新安装。
  2. 如果返回的是命令工具执行超时,请检查系统日志查看是否系统存在问题。

GPU监控指标点数据缺失,可能后续指标都采集不到

gpu卡句柄丢失

gpuDeviceHandleLost

重要

无法获取该gpu的指标信息,gpu卡可能掉卡。

  1. 执行nvidia-smi查看是否存在报错。
  2. 执行nvidia-smi -L查看GPU卡数量是否和服务器规格一致。
  3. 提工单联系oncall解决。

该GPU卡的指标全部丢失

gpu卡xid监听失败

gpuDeviceXidLost

重要

无法监听xid的指标信息

  1. 确认GPU卡是否存在掉卡或者损坏。
  2. 提工单联系oncall解决。

gpu卡无法获取xid相关指标

NPU HBM多ECC错误信息

NpuHbmMultiEccInfo

提示

NPU卡存在HBM的ECC错误,此事件上报相应错误信息

这是一个用于辅助其他事件进行判断的事件,无需单独定位处理

NPU功能可能异常

OS出现ReadOnly问题

ReadOnlyFileSystem

紧急

文件系统%s只读

请检查磁盘健康状态

无法对文件进行写操作

NPU:驱动固件不匹配

NpuDriverFirmwareMismatch

重要

NPU驱动固件版本不匹配

请从昇腾官网获取匹配版本重新安装

无法正常使用NPU卡

NPU:Docker容器环境检测

NpuContainerEnvSystem

重要

Docker不可用

确认docker软件是否正常

无法使用docker软件

重要

容器插件Ascend-Docker-Runtime未安装

安装容器插件Ascend-Docker-Runtime,否则影响容器使用昇腾卡

docker容器无法挂载NPU卡

重要

操作系统没有开启IP转发功能

请检查/etc/sysctl.conf文件中net.ipv4.ip_forward配置

docker容器无法正常网络通信

重要

容器共享内存过小

共享内存默认为64M,可按需修改

方式一:

修改/etc/docker/daemon.json配置文件default-shm-size字段

方式二:

docker run 命令中使用 --shm-size 参数来设置单个容器的共享内存大小

分布式训练时共享内存不足导致训练失败

NPU:RoCE网卡down

RoCELinkStatusDown

重要

NPU 卡 %d RoCE Link 状态Down

请检查NPU Roce网口状态

NPU网卡不可用

NPU:RoCE网卡健康状态异常

RoCEHealthStatusError

重要

NPU 卡 %d RoCE 网络健康状态异常

请检查NPU Roce网卡健康状态

NPU网卡不可用

NPU:Roce网卡配置文件/etc/hccn.conf不存在

HccnConfNotExisted

重要

Roce网卡配置文件"/etc/hccn.conf"不存在

请检查/etc/hccn.conf网卡配置文件

Roce网卡不可用

GPU:GPU基本组件异常

GpuEnvironmentSystem

重要

nvidia-smi命令异常

请检查GPU驱动是否正常

GPU卡驱动不可用

重要

nvidia-fabricmanager版本和GPU驱动版本不一致

请检查GPU驱动版本和nvidia-fabricmanager版本

nvidia-fabricmanager 无法正常工作,影响 GPU 的使用

重要

容器插件nvidia-container-toolkit未安装

安装容器插件nvidia-container-toolkit

docker无法挂载GPU卡

本地磁盘挂载巡检

MountDiskSystem

重要

/etc/fstab中有无效的UUID

请检查/etc/fstab配置文件中UUID的正确性,否则可能会导致机器重启失败

挂载磁盘错误,导致机器重启异常

GPU:Ant系列机器动态路由配置错误

GpuRouteConfigError

重要

Ant系列机器网卡%s动态路由未配置或配置错误,CMD [ip route]: %s | CMD [ip route show table all]: %s。

请正确配置RoCE网卡路由

NPU网络通信异常

NPU:Roce 端口未散列配置

RoCEUdpConfigError

重要

RoCE UDP端口未散列配置

请检查NPU RoCE UDP端口配置情况

影响NPU卡通信性能

系统内核自动升级预警

KernelUpgradeWarning

重要

系统内核自动升级预警,旧版本:%s,新版本:%s

系统内核升级可能导致配套AI软件异常,请检查系统更新日志,避免机器重启

可能导致配套AI配套软件不可用

NPU环境相关命令检测

NpuToolsWarning

重要

hccn_tool不可用

请检查NPU驱动是否正常

无法配置RoCE网卡的IP、网关

重要

npu-smi不可用

请检查NPU驱动是否正常

无法正常使用NPU卡

重要

ascend-dmi不可用

请检查工具包ToolBox是否正常安装

无法使用ascend-dmi进行性能分析

NPU驱动异常告警

NpuDriverAbnormalWarning

重要

NPU驱动异常

重装NPU驱动

无法正常使用NPU卡

GPU: RoCE网卡配置错误

GpuRoceNicConfigIncorrect

重要

GPU的RoCE网卡配置错误

联系运维人员协助处理

机器参数面网络异常,多机任务无法执行

本地盘换盘问询中

localdisk_recovery_inquiring

重要

因本地盘故障,更换本地盘问询中

授权本地盘换盘操作

本地盘不可用

本地盘换盘执行中

localdisk_recovery_executing

重要

因本地盘故障,更换本地盘任务执行中

等待本地盘换盘结束,观察本地盘功能是否正常

本地盘不可用

本地盘换盘已完成

localdisk_recovery_completed

重要

因本地盘故障,更换本地盘任务已完成

等待运行状态恢复正常,确认本地盘功能是否自动恢复

本地盘恢复正常

本地盘换盘失败

localdisk_recovery_failed

重要

因本地盘故障,更换本地盘任务失败

联系运维人员处理

本地盘不可用