BMS支持事件监控的事件说明

功能说明

事件监控提供了事件类型数据上报、查询和告警的功能。方便您将业务中的各类重要事件或对云资源的操作事件收集到云监控服务，并在事件发生时进行告警。

命名空间

SYS.BMS

事件监控支持的事件列表

表1 裸金属服务器支持监控的事件
事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
GPU SRAM存在 Uncorrectable ECC告警	SRAMUncorrectableEccError	重要	GPU卡SRAM出现Uncorrectable ECC Error硬件故障。	如果业务受损，请提交工单。	可能gpu硬件问题导致SRAM故障，导致业务异常退出。
主机重启	osReboot	重要	裸金属实例重启。包括：在管理控制台进行重启操作通过API接口下发重启指令	业务应用做成高可用。主机恢复后，确认业务是否自动恢复。	业务中断
异常重启	serverReboot	重要	裸金属实例异常重启。包括：操作系统异常导致重启主机硬件故障导致重启	业务应用做成高可用。主机恢复后，确认业务是否自动恢复。	业务中断
主机关机	osShutdown	重要	裸金属实例关机。包括：在管理控制台进行关机操作通过API接口下发关机指令	业务应用做成高可用。主机恢复后，确认业务是否自动恢复。	业务中断
异常关机	serverShutdown	重要	裸金属实例异常关机。包括：主机异常下电主机硬件故障导致关机	业务应用做成高可用。主机恢复后，确认业务是否自动恢复。	业务中断
网络中断	linkDown	重要	裸金属服务器网络中断。包括：主机异常关机、重启交换机故障引起的网络中断网关节点故障引起的中断	业务应用做成高可用。主机恢复后，确认业务是否自动恢复。	业务中断
PCIE异常	pcieError	重要	裸金属服务器PCIe设备硬件故障。包括：主板故障 PCIe设备故障	业务应用做成高可用。主机恢复后，确认业务是否自动恢复。	影响网络或硬盘读写业务
硬盘故障	diskError	重要	裸金属服务器磁盘故障。包括：硬盘背板故障硬盘本身故障	业务应用做成高可用。主机恢复后，确认业务是否自动恢复。	影响数据读写业务或主机无法启动
云存储连接异常	storageError	重要	裸金属服务器云硬盘连接异常。包括： SDI卡故障远端存储故障	业务应用做成高可用。主机恢复后，确认业务是否自动恢复。	影响数据读写业务或主机无法启动
GPU存在infoROM告警	gpuInfoROMAlarm	重要	GPU卡的infoROM信息异常，ROM是GPU固件的重要存储区域，保存着启动时加载的关键数据。	业务可以继续使用该GPU卡，不敏感业务可以继续使用，敏感业务请提交工单处理。重启虚拟机，确保问题不是暂时的缓存或者通信错误。重启后还是持续出现，则可能是硬件问题，请提工单转硬件检测是否需要换卡。	对业务暂时没有影响，当GPU硬件出现ECC故障时，可能无法自动完成故障页隔离，导致业务受损
GPU发生double bit ECC告警	doubleBitEccError	重要	GPU的ECC内存中发生双比特错误，ECC无法校正这种错误，可能导致程序崩溃。	如果业务受损停止，则重启业务恢复如果业务无法启动，建议尝试虚拟机重启虚拟机恢复业务如果业务仍然无法恢复，请提交工单。	可能会造成业务中断，故障页隔离后业务可继续正常使用GPU
GPU隔离页过多告警	gpuTooManyRetiredPagesAlarm	重要	GPU硬件存在过多ECC隔离页。当显存页发生不可纠正的ECC错误时，GPU会标记这些隔离页。	如果业务受损，请提交工单。	GPU硬件存在过多ECC故障，可能频繁影响业务运行被隔离页过多，显存容量下降太多可能会导致性能下降。被隔离页过多，显存容量下降太多可能会导致系统运行不稳定。
GPU A100 硬件发生ECC告警	gpuA100EccAlarm	重要	GPU卡出现ECC硬件故障	如果业务受损停止，则重启业务恢复如果业务无法启动，建议尝试虚拟机重启虚拟机恢复业务如果业务仍然无法恢复，请提交工单。	可能会造成业务中断，故障也隔离后业务可继续正常使用gpu
GPU Ant1 硬件发生ECC告警	gpuAnt1EccAlarm	重要	GPU卡出现ECC硬件故障。	如果业务受损停止，则重启业务恢复。如果业务无法启动，建议尝试重启虚拟机恢复业务。如果业务仍然无法恢复，请提交工单。	可能会造成业务中断，故障页隔离后业务可继续正常使用GPU。
GPU ECC内存页隔离失败告警	eccPageRetirementRecordingFailure	重要	GPU硬件存在ECC故障，驱动自动隔离这些页时失败。	如果业务受损停止，则重启业务恢复。如果业务无法启动，建议尝试虚拟机重启虚拟机恢复业务。如果业务仍然无法恢复，请提交工单。	可能会造成业务中断，故障页隔离隔离失败，可能导致业务无法使用GPU。
GPU ECC页隔离告警	eccPageRetirementRecordingEvent	一般	存在ecc硬件错误，发生内存页自动隔离。	1、如果业务受损停止，则重启业务恢复。 2、如果业务无法启动，建议尝试虚拟机重启虚拟机恢复业务。 3、如果业务仍然无法恢复，请提交工单。	一般随ecc故障告警出现，单独出现不影响业务。
GPU single bit ECC过多告警	highSingleBitEccErrorRate	重要	GPU的ECC内存中发生单比特错误过多。	如果业务受损停止，则重启业务恢复。如果业务无法启动，建议尝试虚拟机重启虚拟机恢复业务。如果业务仍然无法恢复，请提交工单。	single bit的错误能够自动恢复，一般不影响GPU相关应用程序。
GPU驱动掉卡告警	gpuDriverLinkFailureAlarm	重要	GPU链路正常，nvidia驱动找不到GPU硬件。	1、建议尝试虚拟机重启虚拟机恢复业务。 2、如果业务仍然无法恢复，请提交工单。	一般驱动问题导致找不到对应位置的gpu卡。
GPU卡链路故障告警	gpuPcieLinkFailureAlarm	重要	GPU链路异常，通过lspci无法查看GPU硬件信息。	如果业务受损，请提交工单。	硬件问题导致gpu卡链路异常，驱动无法使用gpu。
虚拟机GPU丢卡告警	vmLostGpuAlarm	重要	虚拟机实际有的gpu卡数量比规格里应分配的GPU卡数量少。	如果业务受损，请提交工单。	虚拟机gpu卡丢失。
GPU显存页告警	gpuMemoryPageFault	重要	GPU显存页发生故障，故障可能由应用、驱动或硬件引起。	如果业务受损，请提交工单。	可能gpu硬件问题导致显存故障，导致业务异常退出。
GPU图像引擎异常告警	graphicsEngineException	重要	GPU图像引擎发生故障，可能由应用、驱动或硬件引起。	如果业务受损，请提交工单。	可能gpu硬件问题导致图像引擎故障，导致业务异常退出。
GPU温度过高告警	highTemperatureEvent	重要	GPU硬件温度过高。	如果业务受损，请提交工单。	gpu温度超过温度阈值，可能会引起GPU卡性能下降。
GPU NVLINK链路错误告警	nvlinkError	重要	nvlink的链路出现硬件故障。	如果业务受损，请提交工单。	nvlink链路故障，影响业务使用GPU nvlink能力。
系统运维问询中	system_maintenance_inquiring	重要	由于底层硬件、系统运维等影响，实例在计划时间维修，任务问询中	授权维修实例操作	无
系统运维等待执行	system_maintenance_scheduled	重要	由于底层硬件、系统运维等影响，实例在计划时间维修，任务等待执行	确认执行窗口对业务的影响	无
系统运维已取消	system_maintenance_canceled	重要	由于底层硬件、系统运维等影响，实例在计划时间维修，任务已取消	无	无
系统运维执行中	system_maintenance_executing	重要	由于底层硬件、系统运维等影响，实例在计划时间维修，任务执行中	等待维修结束，观察业务是否受到影响	业务中断
系统运维已完成	system_maintenance_completed	重要	由于底层硬件、系统运维等影响，实例在计划时间维修，任务已完成	等待运行状态恢复正常，确认业务是否恢复	业务恢复正常
系统运维失败	system_maintenance_failed	重要	由于底层硬件、系统运维等影响，实例在计划时间维修，任务失败	联系运维人员处理	业务中断
GPU存在通用Xid事件告警	commonXidError	重要	GPU卡出现Xid事件告警	如果业务受损，请提交工单。	gpu硬件、驱动、应用问题导致Xid事件，可能导致业务异常退出。
NPU: npu-smi info查询缺少设备	NPUSMICardNotFound	重要	可能是由于昇腾驱动问题或NPU掉卡	转昇腾和硬件处理	NPU卡无法正常使用
NPU: PCIe链路异常	PCIeErrorFound	重要	Lspci查询卡状态为rev ff	重启，转硬件处理	NPU卡无法正常使用
NPU: lspci查询缺少设备	LspciCardNotFound	重要	一般是由于NPU掉卡	转硬件处理	NPU卡无法正常使用
NPU: 温度超过阈值	TemperatureOverUpperLimit	重要	可能是由于DDR颗粒温度过高或过温软件预警	暂停业务，重启系统，查看散热系统，device复位	可能造成过温下电及device丢失
NPU: 存在不可纠正ECC错误	UncorrectableEccErrorCount	重要	NPU卡出现Uncorrectable ECC Error硬件故障	如果业务受到影响，转硬件换卡	业务可能受到影响终止
NPU: 需要重启实例	RebootVirtualMachine	提示	当前故障很可能需要重启进行恢复	在收集必要信息后，重启以尝试恢复	重启可能中断客户业务
NPU: 需要复位SOC	ResetSOC	提示	当前故障很可能需要复位SOC进行恢复	在收集必要信息后，复位SOC以尝试恢复	复位SOC可能中断客户业务
NPU: 需要退出AI任务重新执行	RestartAIProcess	提示	当前故障很可能需要客户退出当前的AI任务并尝试重新执行	在收集必要信息后，尝试退出当前AI任务并尝试重新执行	退出当前AI任务以便重新执行
NPU: errorcode告警	NPUErrorCodeWarning	重要	这里涵盖了大量重要及以上的NPU错误码，您可以根据这些错误码进一步定位错误原因	对照《黑匣子错误码信息列表》和《健康管理故障定义》进一步定位错误	NPU当前存在故障，可能导致客户业务终止
nvidia-smi命令卡住	nvidiaSmiHangEvent	重要	nvidia-smi命令超时，该命令可能卡住	如果业务受损，请提交工单。	可能是命令执行过程中，触发驱动问题，导致命令卡住，同时可能出现业务使用驱动报错问题。
NV Peer Memory加载到内核异常	NvPeerMemException	次要	Nvlink加载异常或nv_peer_mem加载异常	nv_peer_mem存在异常，建议尝试恢复或重新安装Nvlink	Nv peer mem无法正常使用
Nv-fabricmanager服务运行异常	NvFabricManagerException	次要	机器符合Nvlink使用条件，且安装Nvlink服务，但服务异常	Nvlink存在异常，建议尝试恢复或重新安装Nvlink	Nvlink无法正常使用
IB卡使用状态异常	InfinibandStatusException	重要	网卡状态或物理状态异常	转硬件处理	IB卡无法正常工作
GPU时钟降频告警	gpuClocksThrottleReasonsAlarm	提示	可能gpu功率超过最大可操作功率阈值（持续满载），时钟频率自动降低避免损坏gpu卡。可能gpu温度超过最大可操作温度阈值（持续满载），时钟频率自动下降减少发热。可能gpu一直处于空闲状态，时钟频率自动降低减少功耗。可能出现硬件故障导致的时钟频率减低。	判断是否为硬件原因导致降频，如果是，转硬件同事处理。	GPU频率下降，算力下降。
GPU DRAM ECC页隔离待生效	gpuRetiredPagesPendingAlarm	重要	硬件出现ECC问题，需要隔离。显存页发生了不可纠正的ECC错误需要进行隔离，但是当前状态处于挂起状态还没有进行隔离。	查看事件详细，确认retired_pages.pending的状态是否为yes。重启GPU进行自动隔离。	GPU功能异常。
GPU DRAM ECC行重映射待生效	gpuRemappedRowsAlarm	重要	GPU显存中存在某些rows出现错误，需要被重新映射，需要将问题行映射到备用资源。	查看事件详细指标RemappedRow，确认是否存在重映射的行数。重启GPU进行自动隔离。	GPU功能异常
GPU DRAM ECC行重映射剩余可用资源不足	gpuRowRemapperResourceAlarm	重要	存在于（安培及之后架构）的gpu上。 GPU 的备用显存行资源耗尽，无法继续进行行重映射。	转硬件同事处理	GPU功能异常
GPU DRAM 可纠正ECC报错	gpuDRAMCorrectableEccError	重要	存在于（安培及之后架构）的gpu上。 GPU的DRAM中发生了可纠正的ECC错误，但是ECC机制可以自动修复这个问题，不影响程序的正常运行。	查看事件详细指标ecc.errors.corrected.volatile，确认是否存在可纠正的ECC错误值。重启GPU进行自动隔离。	GPU功能可能异常
GPU DRAM 不可纠正ECC报错	gpuDRAMUncorrectableEccError	重要	存在于（安培及之后架构）的gpu上。 GPU的DRAM中发生了不可纠正的ECC错误，无法通过ECC机制自行修复这个问题，验证影响系统稳定性，可能导致程序崩溃。	查看事件详细指标ecc.errors.uncorrected.volatile，确认是否存在不可纠正的ECC错误值。重启GPU进行自动隔离。	GPU功能可能异常
GPU当前内核版本和安装驱动时的内核版本不一致	gpuKernelVersionInconsistencyAlarm	重要	GPU当前内核版本和安装驱动时的内核版本不一致： GPU驱动在安装的时候会基于当前内核进行编译，如果内核版本不一致说明自行设计了内核，这个时候驱动会变得不可用，需要重新安装驱动。	先尝试修复方案： rmmod nvidia_drm rmmod nvidia_modeset rmmod nvidia 上述执行完成后再次执行nvidia-smi命令，如果回显正常，则修复完成。如果上述修复方案失效，请参考GPU驱动不可用中的处理方法进行故障恢复。	GPU功能异常
GPU监控依赖不满足	gpuCheckEnvFailedAlarm	重要	插件不能识别到gpu驱动库路径	检查是否未安装驱动检查是否自定义了驱动安装目录，需要安装到默认安装路径/usr/bin/目录下。	GPU监控指标无法采集
GPU监控驱动库初始化失败	gpuDriverInitFailedAlarm	重要	gpu驱动不可用	执行nvidia-smi确认驱动是否不可用，如果驱动不能用，请参考GPU驱动安装方法进行驱动重新安装。	GPU监控指标无法采集
GPU监控驱动库初始化超时	gpuDriverInitTAlarm	重要	gpu驱动初始化超时 > 10s	如果没有安装驱动，请参考GPU驱动安装方法进行驱动安装。如果安装了驱动，请执行nvidia-smi确认驱动安装正常可用，如果不能用，请参考GPU驱动安装方法进行驱动重新安装。如果驱动都安装正常，检查是否高性能模式未打开，P0是高性能模式，使用nvidia-smi -pm 1	GPU监控指标无法采集
gpu采集指标超时	gpuCollectMetricTimeoutAlarm	重要	gpu采集指标超时 > 10s	如果返回的是库接口超时，请执行nvidia-smi确认驱动安装正常可用，如果不能用，请参考GPU驱动安装方法进行驱动重新安装。如果返回的是命令工具执行超时，请检查系统日志查看是否系统存在问题。	GPU监控指标点数据缺失，可能后续指标都采集不到
gpu卡句柄丢失	gpuDeviceHandleLost	重要	无法获取该gpu的指标信息，gpu卡可能掉卡。	执行nvidia-smi查看是否存在报错。执行nvidia-smi -L查看GPU卡数量是否和服务器规格一致。提工单联系oncall解决。	该GPU卡的指标全部丢失
gpu卡xid监听失败	gpuDeviceXidLost	重要	无法监听xid的指标信息	确认GPU卡是否存在掉卡或者损坏。提工单联系oncall解决。	gpu卡无法获取xid相关指标
NPU HBM多ECC错误信息	NpuHbmMultiEccInfo	提示	NPU卡存在HBM的ECC错误，此事件上报相应错误信息	这是一个用于辅助其他事件进行判断的事件，无需单独定位处理	NPU功能可能异常
OS出现ReadOnly问题	ReadOnlyFileSystem	紧急	文件系统%s只读	请检查磁盘健康状态	无法对文件进行写操作
NPU：驱动固件不匹配	NpuDriverFirmwareMismatch	重要	NPU驱动固件版本不匹配	请从昇腾官网获取匹配版本重新安装	无法正常使用NPU卡
NPU：Docker容器环境检测	NpuContainerEnvSystem	重要	Docker不可用	确认docker软件是否正常	无法使用docker软件
		重要	容器插件Ascend-Docker-Runtime未安装	安装容器插件Ascend-Docker-Runtime，否则影响容器使用昇腾卡	docker容器无法挂载NPU卡
		重要	操作系统没有开启IP转发功能	请检查/etc/sysctl.conf文件中net.ipv4.ip_forward配置	docker容器无法正常网络通信
		重要	容器共享内存过小	共享内存默认为64M，可按需修改方式一：修改/etc/docker/daemon.json配置文件default-shm-size字段方式二： docker run 命令中使用 --shm-size 参数来设置单个容器的共享内存大小	分布式训练时共享内存不足导致训练失败
NPU：RoCE网卡down	RoCELinkStatusDown	重要	NPU 卡 %d RoCE Link 状态Down	请检查NPU Roce网口状态	NPU网卡不可用
NPU：RoCE网卡健康状态异常	RoCEHealthStatusError	重要	NPU 卡 %d RoCE 网络健康状态异常	请检查NPU Roce网卡健康状态	NPU网卡不可用
NPU：Roce网卡配置文件/etc/hccn.conf不存在	HccnConfNotExisted	重要	Roce网卡配置文件"/etc/hccn.conf"不存在	请检查/etc/hccn.conf网卡配置文件	Roce网卡不可用
GPU：GPU基本组件异常	GpuEnvironmentSystem	重要	nvidia-smi命令异常	请检查GPU驱动是否正常	GPU卡驱动不可用
		重要	nvidia-fabricmanager版本和GPU驱动版本不一致	请检查GPU驱动版本和nvidia-fabricmanager版本	nvidia-fabricmanager 无法正常工作,影响 GPU 的使用
		重要	容器插件nvidia-container-toolkit未安装	安装容器插件nvidia-container-toolkit	docker无法挂载GPU卡
本地磁盘挂载巡检	MountDiskSystem	重要	/etc/fstab中有无效的UUID	请检查/etc/fstab配置文件中UUID的正确性，否则可能会导致机器重启失败	挂载磁盘错误，导致机器重启异常
GPU：Ant系列机器动态路由配置错误	GpuRouteConfigError	重要	Ant系列机器网卡%s动态路由未配置或配置错误，CMD [ip route]: %s \| CMD [ip route show table all]: %s。	请正确配置RoCE网卡路由	NPU网络通信异常
NPU：Roce 端口未散列配置	RoCEUdpConfigError	重要	RoCE UDP端口未散列配置	请检查NPU RoCE UDP端口配置情况	影响NPU卡通信性能
系统内核自动升级预警	KernelUpgradeWarning	重要	系统内核自动升级预警，旧版本：%s，新版本：%s	系统内核升级可能导致配套AI软件异常，请检查系统更新日志，避免机器重启	可能导致配套AI配套软件不可用
NPU环境相关命令检测	NpuToolsWarning	重要	hccn_tool不可用	请检查NPU驱动是否正常	无法配置RoCE网卡的IP、网关
		重要	npu-smi不可用	请检查NPU驱动是否正常	无法正常使用NPU卡
		重要	ascend-dmi不可用	请检查工具包ToolBox是否正常安装	无法使用ascend-dmi进行性能分析
NPU驱动异常告警	NpuDriverAbnormalWarning	重要	NPU驱动异常	重装NPU驱动	无法正常使用NPU卡
GPU: RoCE网卡配置错误	GpuRoceNicConfigIncorrect	重要	GPU的RoCE网卡配置错误	联系运维人员协助处理	机器参数面网络异常，多机任务无法执行
本地盘换盘问询中	localdisk_recovery_inquiring	重要	因本地盘故障，更换本地盘问询中	授权本地盘换盘操作	本地盘不可用
本地盘换盘执行中	localdisk_recovery_executing	重要	因本地盘故障，更换本地盘任务执行中	等待本地盘换盘结束，观察本地盘功能是否正常	本地盘不可用
本地盘换盘已完成	localdisk_recovery_completed	重要	因本地盘故障，更换本地盘任务已完成	等待运行状态恢复正常，确认本地盘功能是否自动恢复	本地盘恢复正常
本地盘换盘失败	localdisk_recovery_failed	重要	因本地盘故障，更换本地盘任务失败	联系运维人员处理	本地盘不可用

父主题： 使用CES监控BMS

上一篇：裸金属服务器支持的监控指标（安装Agent）

下一篇：设置事件告警规则

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试