弹性云服务器支持事件监控的事件说明

功能说明

事件监控提供了事件类型数据上报、查询和告警的功能。方便您将业务中的各类重要事件或对云资源的操作事件收集到云监控服务，并在事件发生时进行告警。

本节定义了弹性云服务器支持事件监控的事件说明。

命名空间

SYS.ECS

事件监控支持的事件列表

表1 弹性云服务器支持监控的事件
事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
因系统故障触发重部署	startAutoRecovery	重要	弹性云服务器所在的主机出现故障时，系统会自动将弹性云服务器迁移至正常的物理机，迁移过程中系统会自动重启云服务器。	等待虚拟机迁移成功，状态恢复正常。	实例重部署开始。
因系统故障重部署已完成	endAutoRecovery	重要	当自动迁移完成后，弹性云服务器已恢复正常。	确认业务是否恢复。	实例重部署结束。
实例重部署超时	faultAutoRecovery	重要	迁移弹性云服务器至正常的物理机操作超时。	确认应用集群业务是否受损。	实例重部署失败。
删除虚拟机	deleteServer	重要	删除云服务器。包括：在管理控制台进行删除操作。通过API接口下发删除指令。	确认虚拟机是否删除成功。	实例资源删除。
删除虚拟机失败	faultDeleteServer	重要	云服务器删除失败。	检查虚拟机是否删除成功，如果未删除成功，删除虚拟机重试；如果重试仍然失败，联系运维人员处理。	云服务器删除失败
重启虚拟机	rebootServer	次要	云服务器重启。包括：在管理控制台进行重启操作。通过API接口下发重启指令。	确认业务是否恢复。	虚拟机重启。
关闭虚拟机	stopServer	次要	云服务器关机。包括：在管理控制台进行关机操作。通过API接口下发关机指令。说明： “关闭虚拟机”事件需要开启云审计后才生效。云服务器操作系统内部关机，不会生成事件。云服务器执行变更规格操作时授权自动关机不会上报关闭虚拟机事件，仅上报变更规格事件。	确认是否关机成功。	实例停机。
删除网卡	deleteNic	重要	云服务器删除网卡。包括：在管理控制台删除网卡。通过API接口下发删除网卡指令。	确认是网卡否删除成功。	网卡资源删除。
变更规格	resizeServer	次要	云服务器规格变更。包括：在管理控制台进行变更规格。通过API接口下发变更规格指令。	确认规格是否变更成功。	实例先停机后开机。
GuestOS系统层重启告警	RestartGuestOS	一般	GuestOS内部重启。	确认虚拟机是否重启成功。	实例重启。
系统故障导致虚拟机故障	VMFaultsByHostProcessExceptions	紧急	弹性云服务器所在的主机出现故障导致云服务器故障，系统会自动拉起弹性云服务器。	请检查云服务器和业务应用是否恢复正常。	实例故障。
开机失败	faultPowerOn	重要	云服务器开机失败。	确认应用集群业务是否受损。	实例开机失败。
宿主机存在宕机风险	hostMayCrash	重要	弹性云服务器所在的宿主机存在宕机风险，且由于一些原因，无法通过热迁移手段规避该风险。	确认应用集群业务是否受损。	实例有重启风险。
实例计划迁移已完成	instance_migrate_completed	重要	由于底层硬件、系统运维等影响，实例在计划时间迁移，任务已完成。	等待运行状态恢复正常，确认业务是否自动恢复。	业务存在中断的可能。
实例计划迁移执行中	instance_migrate_executing	重要	由于底层硬件、系统运维等影响，实例在计划时间迁移，任务执行中。	等待自动恢复事件结束，观察业务是否受到影响。	业务存在中断的可能。
实例计划迁移已取消	instance_migrate_canceled	重要	由于底层硬件、系统运维等影响，实例在计划时间迁移，任务已取消。	无	无
实例计划迁移失败	instance_migrate_failed	重要	由于底层硬件、系统运维等影响，实例在计划时间迁移，任务失败。	联系运维人员处理。	业务中断。
实例计划迁移等待执行	instance_migrate_scheduled	重要	由于底层硬件、系统运维等影响，实例在计划时间迁移，任务等待执行。	确认执行窗口对业务的影响。	实例等待执行迁移操作。
实例计划规格变更失败	instance_resize_failed	重要	实例在计划时间规格变更，任务失败。	联系运维人员处理。	业务中断。
实例计划规格变更已完成	instance_resize_completed	重要	实例在计划时间规格变更，任务已完成。	无	无
实例计划规格变更执行中	instance_resize_executing	重要	实例在计划时间规格变更，任务执行中。	等待自动恢复事件结束，观察虚拟机是否正常变更成功。	业务中断
实例计划规格变更已取消	instance_resize_canceled	重要	实例在计划时间规格变更，任务已取消。	无	无
实例计划规格变更等待执行	instance_resize_scheduled	重要	实例在计划时间规格变更，任务等待执行。	确认执行窗口对业务的影响。	实例等待执行规格变更操作。
实例计划重新部署等待执行	instance_redeploy_scheduled	重要	由于底层硬件、系统运维等影响，实例在计划时间重新部署到新主机，任务等待执行。	确认执行窗口对业务的影响。	实例等待执行重部署。
实例计划重启等待执行	instance_reboot_scheduled	重要	由于底层硬件、系统运维等影响，实例在计划时间重启，任务等待执行。	确认执行窗口对业务的影响。	实例等待执行重启。
实例计划停止等待执行	instance_stop_scheduled	重要	由于底层硬件、系统运维等影响，实例在计划时间停止，任务等待执行。	确认执行窗口对业务的影响。	实例中止等待。
GPU发生double bit ECC告警	doubleBitEccError	重要	GPU的ECC内存中发生双比特错误，ECC无法校正这种错误，可能导致程序崩溃。	如果业务受损停止，则重启业务恢复如果业务无法启动，建议尝试虚拟机重启虚拟机恢复业务如果业务仍然无法恢复，请提交工单。	可能会造成业务中断，故障页隔离后业务可继续正常使用GPU
GPU ECC内存页隔离失败告警	eccPageRetirementRecordingFailure	重要	GPU硬件存在ECC故障，驱动自动隔离这些页时失败	如果业务受损停止，则重启业务恢复如果业务无法启动，建议尝试虚拟机重启虚拟机恢复业务如果业务仍然无法恢复，请提交工单。	可能会造成业务中断，故障页隔离隔离失败，可能导致业务无法使用GPU。
GPU ECC页隔离告警	eccPageRetirementRecordingEvent	一般	存在ecc硬件错误，发生内存页自动隔离。	如果业务受损停止，则重启业务恢复。如果业务无法启动，建议尝试虚拟机重启虚拟机恢复业务。如果业务仍然无法恢复，请提交工单。	一般随ecc故障告警出现，单独出现不影响业务。
GPU single bit ECC过多告警	highSingleBitEccErrorRate	重要	GPU的ECC内存中发生单比特错误过多。	如果业务受损停止，则重启业务恢复。如果业务无法启动，建议尝试虚拟机重启虚拟机恢复业务。如果业务仍然无法恢复，请提交工单。	single bit的错误能够自动恢复，一般不影响GPU相关应用程序。
GPU显存页告警	gpuMemoryPageFault	重要	GPU显存页发生故障，故障可能由应用、驱动或硬件引起。	如果业务受损，请提交工单。	可能gpu硬件问题导致显存故障，导致业务异常退出。
GPU驱动掉卡告警	gpuDriverLinkFailureAlarm	重要	GPU链路正常，nvidia驱动找不到GPU硬件。	建议尝试虚拟机重启虚拟机恢复业务。如果业务仍然无法恢复，请提交工单。	一般驱动问题导致找不到对应位置的gpu卡。
GPU图像引擎异常告警	graphicsEngineException	重要	GPU图像引擎发生故障，可能由应用、驱动或硬件引起。	如果业务受损，请提交工单。	可能gpu硬件问题导致图像引擎故障，导致业务异常退出。
GPU NVLINK链路错误告警	nvlinkError	重要	nvlink的链路出现硬件故障。	如果业务受损，请提交工单。	nvlink链路故障，影响业务使用GPU nvlink能力。
GPU存在infoROM告警	gpuInfoROMAlarm	重要	GPU卡的infoROM信息异常，ROM是GPU固件的重要存储区域，保存着启动时加载的关键数据。	业务可以继续使用该GPU卡，不敏感业务可以继续使用，敏感业务请提交工单处理。重启虚拟机，确保问题不是暂时的缓存或者通信错误。重启后还是持续出现，则可能是硬件问题，请提工单转硬件检测是否需要换卡。	对业务暂时没有影响，当GPU硬件出现ECC故障时，可能无法自动完成故障页隔离，导致业务受损
GPU隔离页过多告警	gpuTooManyRetiredPagesAlarm	重要	GPU硬件存在过多ECC隔离页。当显存页发生不可纠正的ECC错误时，GPU会标记这些隔离页。	如果业务受损，请提交工单。	GPU硬件存在过多ECC故障，可能频繁影响业务运行被隔离页过多，显存容量下降太多可能会导致性能下降。被隔离页过多，显存容量下降太多可能会导致系统运行不稳定。
GPU A100 硬件发生ECC告警	gpuA100EccAlarm	重要	GPU卡出现ECC硬件故障	如果业务受损停止，则重启业务恢复如果业务无法启动，建议尝试虚拟机重启虚拟机恢复业务如果业务仍然无法恢复，请提交工单。	可能会造成业务中断，故障也隔离后业务可继续正常使用gpu
GPU卡链路故障告警	gpuPcieLinkFailureAlarm	重要	GPU链路异常，通过lspci无法查看GPU硬件信息。	如果业务受损，请提交工单。	硬件问题导致gpu卡链路异常，驱动无法使用gpu。
虚拟机GPU丢卡告警	vmLostGpuAlarm	重要	虚拟机实际有的gpu卡数量比规格里应分配的GPU卡数量少。	如果业务受损，请提交工单。	虚拟机gpu卡丢失。
GPU温度过高告警	highTemperatureEvent	重要	GPU硬件温度过高。	如果业务受损，请提交工单。	gpu温度超过温度阈值，可能会引起GPU卡性能下降。
FPGA链路故障	FPGALinkFault	紧急	弹性云服务器所在的主机上FPGA卡故障。包括： FPGA卡故障。 FPGA卡故障恢复中。	业务应用做成高可用。 FPGA卡故障恢复后，确认业务是否自动恢复。	业务中断。
GPU SRAM存在Uncorrectable ECC告警	SRAMUncorrectableEccError	重要	GPU卡SRAM出现Uncorrectable ECC Error硬件故障。	如果业务受损，请提交工单。	可能gpu硬件问题导致SRAM故障，导致业务异常退出。
GPU链路故障	GPULinkFault	紧急	弹性云服务器所在的主机上GPU卡故障。包括： GPU卡故障。 GPU卡故障恢复中。	业务应用做成高可用。 GPU卡故障恢复后，确认业务是否自动恢复。	业务中断。
实例计划重新部署问询中	instance_redeploy_inquiring	重要	由于底层硬件、系统运维等影响，实例在计划时间重新部署到新主机，任务问询中。	授权重新部署到新主机操作。	无
本地盘换盘取消	localdisk_recovery_canceled	重要	因本地盘故障，更换本地盘任务，任务已取消	无	无
本地盘换盘等待执行	localdisk_recovery_scheduled	重要	因本地盘故障，更换本地盘任务，任务等待执行	确认执行窗口对业务的影响	无
GPU存在通用Xid事件告警	commonXidError	重要	GPU卡出现Xid事件告警	如果业务受损，请提交工单。	gpu硬件、驱动、应用问题导致Xid事件，可能导致业务异常退出。
nvidia-smi命令卡住	nvidiaSmiHangEvent	重要	nvidia-smi命令超时，该命令可能卡住	如果业务受损，请提交工单。	可能是命令执行过程中，触发驱动问题，导致命令卡住，同时可能出现业务使用驱动报错问题。
NPU: 存在不可纠正ECC错误	UncorrectableEccErrorCount	重要	NPU卡出现Uncorrectable ECC Error硬件故障	如果业务受到影响，转硬件换卡	业务可能受到影响终止
实例计划重新部署已取消	instance_redeploy_canceled	重要	由于底层硬件、系统运维等影响，实例在计划时间重新部署到新主机。	无	无
实例计划重新部署执行中	instance_redeploy_executing	重要	由于底层硬件、系统运维等影响，实例在计划时间重新部署到新主机。	等待自动恢复事件结束，观察业务是否受到影响。	业务中断
实例计划重新部署已完成	instance_redeploy_completed	重要	由于底层硬件、系统运维等影响，实例在计划时间重新部署到新主机。	等待运行状态恢复正常，观察业务是否受到影响。	业务恢复正常
实例计划重新部署失败	instance_redeploy_failed	重要	由于底层硬件、系统运维等影响，实例在计划时间重新部署到新主机。	联系运维人员处理。	业务中断
本地盘换盘问询中	localdisk_recovery_inquiring	重要	本地盘故障	授权本地盘换盘操作。	本地盘不可用
本地盘换盘执行中	localdisk_recovery_executing	重要	本地盘故障	等待本地盘换盘结束，观察本地盘功能是否正常。	本地盘不可用
本地盘换盘已完成	localdisk_recovery_completed	重要	本地盘故障	等待运行状态恢复正常，确认本地盘功能是否自动恢复。	本地盘恢复正常
本地盘换盘失败	localdisk_recovery_failed	重要	本地盘故障	联系运维人员处理。	本地盘不可用
DAVP: vasmi查询缺少die设备节点	DAVPSMICardNotFound	重要	有可能是驱动故障或发生掉卡	重启虚拟机，仍无法加载设备需转硬件处理	DAVP卡无法正常使用
DAVP: lspci查询缺少设备	DAVPLspciCardNotFound	重要	一般是由于DAVP掉卡	转硬件处理	DAVP卡无法正常使用
DAVP: 温度超过85℃阈值	TemperatureOverDfLimit	重要	核心模块温度超过85℃引起降频	暂停业务，转硬件查看散热系统，device复位	会导致DAVP卡降频
DAVP: 温度超过105℃阈值	TemperatureOverSdLimit	重要	核心模块温度超过105℃引起高温告警	暂停业务，转硬件查看散热系统，device复位	触发断电保护，DAVP卡无法正常使用
DAVP: 设备节点核心单元出现异常	DeviceCoreAbnormal	重要	当前故障很可能需要客户对使用的Die设备节点进行重启	在收集必要信息后，重启Die以尝试恢复	重启Die可能中断客户业务
GPU时钟降频告警	gpuClocksThrottleReasonsAlarm	提示	可能gpu功率超过最大可操作功率阈值（持续满载），时钟频率自动降低避免损坏gpu卡。可能gpu温度超过最大可操作温度阈值（持续满载），时钟频率自动下降减少发热。可能gpu一直处于空闲状态，时钟频率自动降低减少功耗。可能出现硬件故障导致的时钟频率减低。	判断是否为硬件原因导致降频，如果是，转硬件同事处理。	GPU频率下降，算力下降。
GPU DRAM ECC页隔离待生效	gpuRetiredPagesPendingAlarm	重要	硬件出现ECC问题，需要隔离。显存页发生了不可纠正的ECC错误需要进行隔离，但是当前状态处于挂起状态还没有进行隔离。	查看事件详细，确认retired_pages.pending的状态是否为yes。重启GPU进行自动隔离。	GPU功能异常。
GPU DRAM ECC行重映射待生效	gpuRemappedRowsAlarm	重要	GPU显存中存在某些rows出现错误，需要被重新映射，需要将问题行映射到备用资源。	查看事件详细指标RemappedRow，确认是否存在重映射的行数。重启GPU进行自动隔离。	GPU功能异常
GPU DRAM ECC行重映射剩余可用资源不足	gpuRowRemapperResourceAlarm	重要	存在于（安培及之后架构）的gpu上。 GPU 的备用显存行资源耗尽，无法继续进行行重映射。	转硬件同事处理	GPU功能异常
GPU DRAM 可纠正ECC报错	gpuDRAMCorrectableEccError	重要	存在于（安培及之后架构）的gpu上。 GPU的DRAM中发生了可纠正的ECC错误，但是ECC机制可以自动修复这个问题，不影响程序的正常运行。	查看事件详细指标ecc.errors.corrected.volatile，确认是否存在可纠正的ECC错误值。重启GPU进行自动隔离。	GPU功能可能异常
GPU DRAM 不可纠正ECC报错	gpuDRAMUncorrectableEccError	重要	存在于（安培及之后架构）的gpu上。 GPU的DRAM中发生了不可纠正的ECC错误，无法通过ECC机制自行修复这个问题，验证影响系统稳定性，可能导致程序崩溃。	查看事件详细指标ecc.errors.uncorrected.volatile，确认是否存在不可纠正的ECC错误值。重启GPU进行自动隔离。	GPU功能可能异常
GPU当前内核版本和安装驱动时的内核版本不一致	gpuKernelVersionInconsistencyAlarm	重要	GPU当前内核版本和安装驱动时的内核版本不一致： GPU驱动在安装的时候会基于当前内核进行编译，如果内核版本不一致说明自行升级了内核，这个时候驱动会变得不可用，需要重新安装驱动。	先尝试修复方案： rmmod nvidia_drm rmmod nvidia_modeset rmmod nvidia 上述执行完成后再次执行nvidia-smi命令，如果回显正常，则修复完成。如果上述修复方案失效，请参考GPU驱动不可用中的处理方法进行故障恢复。	GPU功能异常
GPU监控驱动库初始化超时	gpuDriverInitTAlarm	重要	gpu驱动初始化超时 > 10s	如果没有安装驱动，请参考GPU驱动安装方法进行驱动安装。如果安装了驱动，请执行nvidia-smi确认驱动安装正常可用，如果不能用，请参考GPU驱动安装方法进行驱动重新安装。如果驱动都安装正常，检查是否高性能模式未打开，P0是高性能模式，使用nvidia-smi -pm 1	GPU监控指标无法采集
OS出现ReadOnly问题	ReadOnlyFileSystem	紧急	文件系统%s只读	请检查磁盘健康状态	无法对文件进行写操作
NPU：驱动固件不匹配	NpuDriverFirmwareMismatch	重要	NPU驱动固件版本不匹配	请从昇腾官网获取匹配版本重新安装	无法正常使用NPU卡
NPU：Docker容器环境检测	NpuContainerEnvSystem	重要	Docker不可用	确认docker软件是否正常	无法使用docker软件
		重要	容器插件Ascend-Docker-Runtime未安装	安装容器插件Ascend-Docker-Runtime，否则影响容器使用昇腾卡	docker容器无法挂载NPU卡
		重要	操作系统没有开启IP转发功能	请检查/etc/sysctl.conf文件中net.ipv4.ip_forward配置	docker容器无法正常网络通信
		重要	容器共享内存过小	共享内存默认为64M，可按需修改方式一：修改/etc/docker/daemon.json配置文件default-shm-size字段方式二： docker run 命令中使用 --shm-size 参数来设置单个容器的共享内存大小	分布式训练时共享内存不足导致训练失败
NPU：RoCE网卡down	RoCELinkStatusDown	重要	NPU 卡 %d RoCE Link 状态Down	请检查NPU Roce网口状态	NPU网卡不可用
NPU：RoCE网卡健康状态异常	RoCEHealthStatusError	重要	NPU 卡 %d RoCE 网络健康状态异常	请检查NPU Roce网卡健康状态	NPU网卡不可用
NPU：Roce网卡配置文件/etc/hccn.conf不存在	HccnConfNotExisted	重要	Roce网卡配置文件"/etc/hccn.conf"不存在	请检查/etc/hccn.conf网卡配置文件	Roce网卡不可用
GPU：GPU基本组件异常	GpuEnvironmentSystem	重要	nvidia-smi命令异常	请检查GPU驱动是否正常	GPU卡驱动不可用
		重要	nvidia-fabricmanager版本和GPU驱动版本不一致	请检查GPU驱动版本和nvidia-fabricmanager版本	nvidia-fabricmanager 无法正常工作,影响 GPU 的使用
		重要	容器插件nvidia-container-toolkit未安装	安装容器插件nvidia-container-toolkit	docker无法挂载GPU卡
本地磁盘挂载巡检	MountDiskSystem	重要	/etc/fstab中有无效的UUID	请检查/etc/fstab配置文件中UUID的正确性，否则可能会导致机器重启失败	挂载磁盘错误，导致机器重启异常
GPU：Ant系列机器动态路由配置错误	GpuRouteConfigError	重要	Ant系列机器网卡%s动态路由未配置或配置错误，CMD [ip route]: %s \| CMD [ip route show table all]: %s	请正确配置RoCE网卡路由	NPU网络通信异常
NPU：Roce 端口未散列配置	RoCEUdpConfigError	重要	RoCE UDP端口未散列配置	请检查NPU RoCE UDP端口配置情况	影响NPU卡通信性能
系统内核自动升级预警	KernelUpgradeWarning	重要	系统内核自动升级预警，旧版本：%s，新版本：%s	系统内核升级可能导致配套AI软件异常，请检查系统更新日志，避免机器重启	可能导致配套AI配套软件不可用
NPU环境相关命令检测	NpuToolsWarning	重要	hccn_tool不可用	请检查NPU驱动是否正常	无法配置RoCE网卡的IP、网关
		重要	npu-smi不可用	请检查NPU驱动是否正常	无法正常使用NPU卡
		重要	ascend-dmi不可用	请检查工具包ToolBox是否正常安装	无法使用ascend-dmi进行性能分析
NPU驱动异常告警	NpuDriverAbnormalWarning	重要	NPU驱动异常	重装NPU驱动	无法正常使用NPU卡
windows应用程序挂起	ApplicationHangEvent	重要	Windows弹性云服务器上的应用程序发生挂起。Agent在每个采集周期内查询Windows应用程序事件日志中Event ID为1002的记录，当检测到应用进程无响应（如主线程长时间未处理窗口消息）时，上报该事件。事件详情中包含挂起进程的PID、进程名、SessionId等信息。	查看事件详情中的进程信息，确认挂起的应用程序。检查该应用程序是否存在死锁、资源等待或长时间阻塞等问题。根据情况结束挂起进程并重新启动应用程序。	应用进程无响应，可能导致相关业务停滞。
windows应用程序崩溃	ApplicationErrorEvent	重要	Windows弹性云服务器上的应用程序发生崩溃。Agent在每个采集周期内查询Windows应用程序事件日志中Event ID为1000的记录，当检测到应用进程因未处理异常而异常终止时，上报该事件。事件详情中包含崩溃进程的PID、进程名、SessionId等信息。	查看事件详情中的进程信息，确认崩溃的应用程序。检查该应用程序的日志，定位崩溃原因（如访问违规、未处理异常等）。根据原因修复问题并重新启动应用程序。	应用进程异常退出，可能导致相关业务中断。