更新时间:2025-11-20 GMT+08:00

事件监控支持的事件说明

云服务支持事件上报的资源名称只能包含字母、中文、数字、下划线(_)、中划线(-)和点(.),字符长度不能超过128位,包含其他字符的资源名称可能导致事件无法正常上报到云监控服务。

表1 弹性云服务器

事件来源

命名空间

事件名称

事件ID

事件级别

事件说明

处理建议

事件影响

ECS

SYS.ECS

因系统故障触发重启

startAutoRecovery

重要

弹性云服务器所在的主机出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,迁移过程中系统会自动重启云服务器。

等待恢复成功,观察业务是否受到影响。

业务存在中断的可能。

因系统故障重启已完成

endAutoRecovery

重要

当自动迁移完成后,弹性云服务器已恢复正常。

当收到“恢复成功”时,云服务器已正常工作,可继续使用。

业务恢复正常。

恢复超时(后台处理中)

faultAutoRecovery

重要

迁移弹性云服务器至正常的物理机操作超时。

迁移业务至其他云服务器。

业务中断。

删除虚拟机

deleteServer

重要

删除云服务器。包括:

  • 在管理控制台进行删除操作。
  • 通过API接口下发删除指令。

确认删除操作是否为主动执行。

业务中断。

重启虚拟机

rebootServer

次要

云服务器重启。包括:

  • 在管理控制台进行重启操作。
  • 通过API接口下发重启指令。

确认操作是否为主动执行。

  • 业务应用做成高可用。
  • 云服务器开机后,确认业务是否自动恢复。

业务中断。

关闭虚拟机

stopServer

次要

云服务器关机。包括:

  • 在管理控制台进行关机操作。
  • 通过API接口下发关机指令。
说明:

“关闭虚拟机”事件需要开启云审计后才生效,详细请参见《云审计服务用户指南》。

  • 确认操作是否为主动执行。
  • 业务应用做成高可用。
  • 云服务器开机后,确认业务是否自动恢复。

业务中断。

删除网卡

deleteNic

重要

云服务器删除网卡。包括:

  • 在管理控制台删除网卡。
  • 通过API接口下发删除网卡指令。
  • 确认操作是否为主动执行。
  • 业务应用做成高可用。
  • 删除网卡后,确认业务是否自动恢复。

网卡被删除,存在业务中断的可能。

变更规格

resizeServer

次要

云服务器规格变更。包括:

  • 在管理控制台进行变更规格。
  • 通过API接口下发变更规格指令。
  • 确认操作是否为主动执行。
  • 业务应用做成高可用。
  • 变更规格后,确认业务是否自动恢复。

业务中断。

GuestOS系统层重启告警

RestartGuestOS

一般

GuestOS内部重启。

联系运维人员处理。

在系统重启场景下,可能导致业务中断。

系统故障导致虚拟机故障

VMFaultsByHostProcessExceptions

紧急

弹性云服务器所在的主机出现故障导致云服务器故障,系统会自动拉起弹性云服务器。

请检查云服务器和业务应用是否恢复正常。

云服务器故障。

开机失败

faultPowerOn

重要

云服务器开机失败。

重试开机,若仍开机失败,联系运维人员处理。

云服务器无法开机。

宿主机存在宕机风险

hostMayCrash

重要

弹性云服务器所在的宿主机存在宕机风险,且由于一些原因,无法通过热迁移手段规避该风险。

将该弹性云服务器上业务移除,并将该弹性云服务器删除或关机,等待运维人员处理完风险后再开机。

可能因为宿主机宕机而导致业务中断。

实例计划迁移已完成

instance_migrate_completed

重要

由于底层硬件、系统运维等影响,实例在计划时间迁移,任务已完成。

等待运行状态恢复正常,确认业务是否自动恢复。

业务存在中断的可能

实例计划迁移执行中

instance_migrate_executing

重要

由于底层硬件、系统运维等影响,实例在计划时间迁移,任务执行中。

等待自动恢复事件结束,观察业务是否受到影响。

业务存在中断的可能

实例计划迁移已取消

instance_migrate_canceled

重要

由于底层硬件、系统运维等影响,实例在计划时间迁移,任务已取消。

实例计划迁移失败

instance_migrate_failed

重要

由于底层硬件、系统运维等影响,实例在计划时间迁移,任务失败。

联系运维人员处理

业务中断

实例计划迁移等待执行

instance_migrate_scheduled

重要

由于底层硬件、系统运维等影响,实例在计划时间迁移,任务等待执行。

确认执行窗口对业务的影响

实例计划规格变更失败

instance_resize_failed

重要

实例在计划时间规格变更,任务失败。

联系运维人员处理

业务中断

实例计划规格变更已完成

instance_resize_completed

重要

实例在计划时间规格变更,任务已完成。

实例计划规格变更执行中

instance_resize_executing

重要

实例在计划时间规格变更,任务执行中。

等待自动恢复事件结束,观察虚拟机是否正常变更成功。

业务中断

实例计划规格变更已取消

instance_resize_canceled

重要

实例在计划时间规格变更,任务已取消。

实例计划规格变更等待执行

instance_resize_scheduled

重要

实例在计划时间规格变更,任务等待执行。

确认执行窗口对业务的影响。

实例计划重新部署等待执行

instance_redeploy_scheduled

重要

由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机,任务等待执行。

确认执行窗口对业务的影响。

实例计划重启等待执行

instance_reboot_scheduled

重要

由于底层硬件、系统运维等影响,实例在计划时间重启,任务等待执行。

确认执行窗口对业务的影响。

实例计划停止等待执行

instance_stop_scheduled

重要

由于底层硬件、系统运维等影响,实例在计划时间停止,任务等待执行。

确认执行窗口对业务的影响。

开始热迁移

liveMigrationStarted

重要

弹性云服务器所在的主机可能出现故障,提前对虚拟机进行热迁移,避免宕机后导致业务中断。

等待事件结束,观察业务是否受到影响。

业务可能出现1s以内的网络中断。

热迁移完成

liveMigrationCompleted

重要

热迁移已经结束,弹性云服务器已恢复正常。

观察业务是否正常运行。

无。

热迁移失败

liveMigrationFailed

重要

弹性云服务器热迁移出现问题,未热迁移成功。

观察业务是否正常运行。

小概率存在业务中断的可能。

FPGA链路故障

FPGALinkFault

紧急

弹性云服务器所在的主机上FPGA卡故障。包括:

  • FPGA卡故障。
  • FPGA卡故障恢复中。

业务应用做成高可用。

FPGA卡故障恢复后,确认业务是否自动恢复。

业务中断。

实例计划重新部署问询中

instance_redeploy_inquiring

重要

由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机,任务问询中。

授权重新部署到新主机操作。

本地盘换盘取消

localdisk_recovery_canceled

重要

因本地盘故障,更换本地盘任务,任务已取消

本地盘换盘等待执行

localdisk_recovery_scheduled

重要

因本地盘故障,更换本地盘任务,任务等待执行

确认执行窗口对业务的影响

nvidia-smi命令卡住

nvidiaSmiHangEvent

重要

nvidia-smi命令超时,该命令可能卡住

如果业务受损,请提交工单。

可能是命令执行过程中,触发驱动问题,导致命令卡住,同时可能出现业务使用驱动报错问题。

NPU: 存在不可纠正ECC错误

UncorrectableEccErrorCount

重要

NPU卡出现Uncorrectable ECC Error硬件故障

如果业务受到影响,转硬件换卡

业务可能受到影响终止

实例计划重新部署已取消

instance_redeploy_canceled

重要

由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。

实例计划重新部署执行中

instance_redeploy_executing

重要

由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。

等待自动恢复事件结束,观察业务是否受到影响。

业务中断

实例计划重新部署已完成

instance_redeploy_completed

重要

由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。

等待运行状态恢复正常,观察业务是否受到影响。

业务恢复正常

实例计划重新部署失败

instance_redeploy_failed

重要

由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。

联系运维人员处理。

业务中断

本地盘换盘问询中

localdisk_recovery_inquiring

重要

本地盘故障

授权本地盘换盘操作。

本地盘不可用

本地盘换盘执行中

localdisk_recovery_executing

重要

本地盘故障

等待本地盘换盘结束,观察本地盘功能是否正常。

本地盘不可用

本地盘换盘已完成

localdisk_recovery_completed

重要

本地盘故障

等待运行状态恢复正常,确认本地盘功能是否自动恢复。

本地盘恢复正常

本地盘换盘失败

localdisk_recovery_failed

重要

本地盘故障

联系运维人员处理。

本地盘不可用

NPU: npu-smi info查询缺少设备

NPUSMICardNotFound

重要

可能是由于昇腾驱动问题或NPU掉卡

转昇腾和硬件处理

NPU卡无法正常使用

NPU: PCIe链路异常

PCIeErrorFound

重要

可能是由于deskew_fifo溢出,symbol_unlock,deskew_unlock事件,phystatus超时等原因

转硬件处理

NPU卡无法正常使用

NPU: lspci查询缺少设备

LspciCardNotFound

重要

一般是由于NPU掉卡

转硬件处理

NPU卡无法正常使用

NPU: 温度超过阈值

TemperatureOverUpperLimit

重要

可能是由于DDR颗粒温度过高或过温软件预警

暂停业务,重启系统,查看散热系统,device复位

可能造成过温下电及device丢失

NPU: 需要重启实例

RebootVirtualMachine

提示

当前故障很可能需要重启进行恢复

在收集必要信息后,重启以尝试恢复

重启可能中断客户业务

NPU: 需要复位SOC

ResetSOC

提示

当前故障很可能需要复位SOC进行恢复

在收集必要信息后,复位SOC以尝试恢复

复位SOC可能中断客户业务

NPU: 需要退出AI任务重新执行

RestartAIProcess

提示

当前故障很可能需要客户退出当前的AI任务并尝试重新执行

在收集必要信息后,尝试退出当前AI任务并尝试重新执行

退出当前AI任务以便重新执行

NPU: errorcode告警

NPUErrorCodeWarning

重要

这里涵盖了大量重要及以上的NPU错误码,您可以根据这些错误码进一步定位错误原因

对照《黑匣子错误码信息列表》和《健康管理故障定义》进一步定位错误

NPU当前存在故障,可能导致客户业务终止

DAVP: vasmi查询缺少die设备节点

DAVPSMICardNotFound

重要

有可能是驱动故障或发生掉卡

重启虚拟机,仍无法加载设备需转硬件处理

DAVP卡无法正常使用

DAVP: lspci查询缺少设备

DAVPLspciCardNotFound

重要

一般是由于DAVP掉卡

转硬件处理

DAVP卡无法正常使用

DAVP: 温度超过85℃阈值

TemperatureOverDfLimit

重要

核心模块温度超过85℃引起降频

暂停业务,转硬件查看散热系统,device复位

会导致DAVP卡降频

DAVP: 温度超过105℃阈值

TemperatureOverSdLimit

重要

核心模块温度超过105℃引起高温告警

暂停业务,转硬件查看散热系统,device复位

触发断电保护,DAVP卡无法正常使用

DAVP: 设备节点核心单元出现异常

DeviceCoreAbnormal

重要

当前故障很可能需要客户对使用的Die设备节点进行重启

在收集必要信息后,重启Die以尝试恢复

重启Die可能中断客户业务

删除虚拟机失败

faultDeleteServer

重要

云服务器删除失败

确认应用集群业务是否受损

实例资源删除失败

云服务器删除失败

确认应用集群业务是否受损

自动恢复:弹性云服务器所在的硬件出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,该过程会导致云服务器重启。

表2 弹性公网IP

事件来源

事件名称

事件ID

事件级别

EIP

释放EIP

deleteEip

次要

表3 虚拟私有云

事件来源

命名空间

事件名称

事件ID

事件级别

虚拟私有云

SYS.VPC

删除VPC

deleteVpc

重要

修改VPC

modifyVpc

次要

删除Subnet

deleteSubnet

次要

修改Subnet

modifySubnet

次要

修改带宽

modifyBandwidth

次要

删除VPN

deleteVpn

重要

修改VPN

modifyVpn

次要

表4 云硬盘

事件来源

命名空间

事件名称

事件ID

事件级别

事件说明

处理建议

事件影响

EVS

SYS.EVS

更新磁盘

updateVolume

次要

更新一个云硬盘的名称和描述。

无需处理。

扩容磁盘

extendVolume

次要

对云硬盘进行扩容。

无需处理。

删除磁盘

deleteVolume

重要

删除一个云硬盘。

无需处理。

删除的磁盘将不能被恢复。

磁盘性能达到QoS上限

说明:

EVS已不支持该事件,云监控服务即将下线该事件相关内容。

reachQoS

重要

磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大。

磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大,意味该类型的磁盘可能无法满足当前业务需求,建议提升磁盘规格。

磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大,意味该类型的磁盘可能无法满足当前业务需求,建议提升磁盘规格

表5 统一身份认证服务

事件来源

命名空间

事件名称

事件ID

事件级别

IAM

SYS.IAM

用户登录

login

次要

用户登出

logout

次要

登录重置密码

changePassword

重要

创建用户

createUser

次要

删除用户

deleteUser

重要

修改用户

updateUser

次要

创建用户组

createUserGroup

次要

删除用户组

deleteUserGroup

重要

修改用户组

updateUserGroup

次要

创建idp

createIdentityProvider

次要

删除idp

deleteIdentityProvider

重要

修改idp

updateIdentityProvider

次要

更新metadata

updateMetadata

次要

更新账号登录策略

updateSecurityPolicies

重要

创建AK/SK

addCredential

重要

删除AK/SK

deleteCredential

重要

创建project

createProject

次要

更新project

updateProject

次要

冻结项目

suspendProject

重要

表6 密钥管理服务

事件来源

命名空间

事件名称

事件ID

事件级别

事件说明

处理建议

事件影响

KMS

SYS.KMS

禁用密钥

disableKey

重要

客户触发了禁用密钥的操作,密钥处于无法使用状态。

若客户因业务需要禁用密钥,无需处置。若客户误操作禁用了密钥,请登录DEW控制台重新启用密钥。

若密钥正在被客户业务使用,可能造成业务受损。

计划删除密钥

scheduleKeyDeletion

次要

客户触发了计划删除的操作,密钥处于无法使用状态。

若客户因业务需要删除密钥,无需处置。若客户误操作计划删除了密钥,请登录DEW控制台重新取消计划删除,并重新启用密钥。

若密钥正在被客户业务使用,可能造成业务受损。

退役授权

retireGrant

重要

客户触发了退役授权的操作,密钥处于无法使用的状态。

若客户因业务需要取消对密钥授权,无需处置。若客户误操作取消对密钥授权,请登录DEW控制台重新进行授权。

若密钥正在被客户业务使用,可能造成业务受损。

撤销授权

revokeGrant

重要

客户触发了撤销授权的操作,密钥处于无法使用的状态。

若客户因业务需要取消对密钥授权,无需处置。若客户误操作取消对密钥授权,请登录DEW控制台重新进行授权。

若密钥正在被客户业务使用,可能造成业务受损。

表7 对象存储服务

事件来源

命名空间

事件名称

事件ID

事件级别

OBS

SYS.OBS

删除桶

deleteBucket

重要

删除桶policy配置

deleteBucketPolicy

重要

设置桶的ACL

setBucketAcl

次要

设置桶的策略

setBucketPolicy

次要