更新时间:2024-04-03 GMT+08:00

事件监控支持的事件说明

表1 弹性云服务器

事件来源

事件名称

事件ID

事件级别

事件说明

处理建议

事件影响

ECS

因硬件故障触发重启

startAutoRecovery

重要

弹性云服务器所在的主机出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,迁移过程中系统会自动重启云服务器。

等待恢复成功,观察业务是否受到影响。

业务存在中断的可能。

因硬件故障重启已完成

endAutoRecovery

重要

当自动迁移完成后,弹性云服务器已恢复正常。

当收到“恢复成功”时,云服务器已正常工作,可继续使用。

业务恢复正常。

恢复超时(后台处理中)

faultAutoRecovery

重要

迁移弹性云服务器至正常的物理机操作超时。

迁移业务至其他云服务器。

业务中断。

GPU链路故障

GPULinkFault

紧急

弹性云服务器所在的主机上GPU卡故障。包括:

  • GPU卡故障。
  • GPU卡故障恢复中。

业务应用做成高可用。

GPU卡故障恢复后,确认业务是否自动恢复。

业务中断。

删除虚拟机

deleteServer

重要

删除云服务器。包括:

  • 在管理控制台进行删除操作。
  • 通过API接口下发删除指令。

确认删除操作是否为主动执行。

业务中断。

重启虚拟机

rebootServer

次要

云服务器重启。包括:

  • 在管理控制台进行重启操作。
  • 通过API接口下发重启指令。

确认操作是否为主动执行。

  • 业务应用做成高可用。
  • 云服务器开机后,确认业务是否自动恢复。

业务中断。

关闭虚拟机

stopServer

次要

云服务器关机。包括:

  • 在管理控制台进行关机操作。
  • 通过API接口下发关机指令。
说明:

“关闭虚拟机”事件需要开启云审计后才生效,详细请参见《云审计服务用户指南》。

  • 确认操作是否为主动执行。
  • 业务应用做成高可用。
  • 云服务器开机后,确认业务是否自动恢复。

业务中断。

删除网卡

deleteNic

重要

云服务器删除网卡。包括:

  • 在管理控制台删除网卡。
  • 通过API接口下发删除网卡指令。
  • 确认操作是否为主动执行。
  • 业务应用做成高可用。
  • 删除网卡后,确认业务是否自动恢复。

网卡被删除,存在业务中断的可能。

变更规格

resizeServer

次要

云服务器规格变更。包括:

  • 在管理控制台进行变更规格。
  • 通过API接口下发变更规格指令。
  • 确认操作是否为主动执行。
  • 业务应用做成高可用。
  • 变更规格后,确认业务是否自动恢复。

业务中断。

GuestOS系统层重启告警

RestartGuestOS

一般

GuestOS内部重启。

联系运维人员处理。

在系统重启场景下,可能导致业务中断。

主机进程异常导致虚拟机故障

VMFaultsByHostProcessExceptions

紧急

云服务器所在宿主机服务进程异常,导致云服务器故障。

联系运维人员处理

云服务器故障。

开机失败

faultPowerOn

重要

云服务器开机失败。

重试开机,若仍开机失败,联系运维人员处理。

云服务器无法开机。

宿主机存在宕机风险

hostMayCrash

重要

弹性云服务器所在的宿主机存在宕机风险,且由于一些原因,无法通过热迁移手段规避该风险。

将该弹性云服务器上业务移除,并将该弹性云服务器删除或关机,等待运维人员处理完风险后再开机。

可能因为宿主机宕机而导致业务中断。

实例计划迁移已完成

instance_migrate_completed

重要

由于底层硬件、系统运维等影响,实例在计划时间迁移,任务已完成。

等待运行状态恢复正常,确认业务是否自动恢复。

业务存在中断的可能

实例计划迁移执行中

instance_migrate_executing

重要

由于底层硬件、系统运维等影响,实例在计划时间迁移,任务执行中。

等待自动恢复事件结束,观察业务是否受到影响。

业务存在中断的可能

实例计划迁移已取消

instance_migrate_canceled

重要

由于底层硬件、系统运维等影响,实例在计划时间迁移,任务已取消。

实例计划迁移失败

instance_migrate_failed

重要

由于底层硬件、系统运维等影响,实例在计划时间迁移,任务失败。

联系运维人员处理

业务中断

实例计划迁移等待执行

instance_migrate_scheduled

重要

由于底层硬件、系统运维等影响,实例在计划时间迁移,任务等待执行。

确认执行窗口对业务的影响

实例计划规格变更失败

instance_resize_failed

重要

实例在计划时间规格变更,任务失败。

联系运维人员处理

业务中断

实例计划规格变更已完成

instance_resize_completed

重要

实例在计划时间规格变更,任务已完成。

实例计划规格变更执行中

instance_resize_executing

重要

实例在计划时间规格变更,任务执行中。

等待自动恢复事件结束,观察虚拟机是否正常变更成功。

业务中断

实例计划规格变更已取消

instance_resize_canceled

重要

实例在计划时间规格变更,任务已取消。

实例计划规格变更等待执行

instance_resize_scheduled

重要

实例在计划时间规格变更,任务等待执行。

确认执行窗口对业务的影响。

实例计划重新部署等待执行

instance_redeploy_scheduled

重要

由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机,任务等待执行。

确认执行窗口对业务的影响。

实例计划重启等待执行

instance_reboot_scheduled

重要

由于底层硬件、系统运维等影响,实例在计划时间重启,任务等待执行。

确认执行窗口对业务的影响。

实例计划停止等待执行

instance_stop_scheduled

重要

由于底层硬件、系统运维等影响,实例在计划时间停止,任务等待执行。

确认执行窗口对业务的影响。

开始热迁移

liveMigrationStarted

重要

弹性云服务器所在的主机可能出现故障,提前对虚拟机进行热迁移,避免宕机后导致业务中断。

等待事件结束,观察业务是否受到影响。

业务可能出现1s以内的网络中断。

结束热迁移

liveMigrationCompleted

重要

热迁移已经结束,弹性云服务器已恢复正常。

观察业务是否正常运行。

无。

热迁移失败

liveMigrationFailed

重要

弹性云服务器热迁移出现问题,未热迁移成功。

观察业务是否正常运行。

小概率存在业务中断的可能。

GPU SRAM存在Uncorrectable ECC告警

SRAMUncorrectableEccError

重要

GPU卡SRAM出现Uncorrectable ECC Error硬件故障

如果业务受损,请提交工单。

可能GPU硬件问题导致SRAM故障,导致业务异常退出

FPGA链路故障

FPGALinkFault

紧急

弹性云服务器所在的主机上FPGA卡故障。包括:

  • FPGA卡故障。
  • FPGA卡故障恢复中。

业务应用做成高可用。

FPGA卡故障恢复后,确认业务是否自动恢复。

业务中断。

实例计划重新部署问询中

instance_redeploy_inquiring

重要

由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机,任务问询中。

授权重新部署到新主机操作。

本地盘换盘取消

localdisk_recovery_canceled

重要

因本地盘故障,更换本地盘任务,任务已取消

本地盘换盘等待执行

localdisk_recovery_scheduled

重要

因本地盘故障,更换本地盘任务,任务等待执行

确认执行窗口对业务的影响

GPU存在通用Xid事件告警

commonXidError

重要

GPU卡出现Xid事件告警

如果业务受损,请提交工单。

gpu硬件、驱动、应用问题导致Xid事件,可能导致业务异常退出。

nvidia-smi命令卡住

nvidiaSmiHangEvent

重要

nvidia-smi命令超时,该命令可能卡住

如果业务受损,请提交工单。

可能是命令执行过程中,触发驱动问题,导致命令卡住,同时可能出现业务使用驱动报错问题。

NPU: 存在不可纠正ECC错误

UncorrectableEccErrorCount

重要

NPU卡出现Uncorrectable ECC Error硬件故障

如果业务受到影响,转硬件换卡

业务可能受到影响终止

实例计划重新部署已取消

instance_redeploy_canceled

重要

由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。

实例计划重新部署执行中

instance_redeploy_executing

重要

由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。

等待自动恢复事件结束,观察业务是否受到影响。

业务中断

实例计划重新部署已完成

instance_redeploy_completed

重要

由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。

等待运行状态恢复正常,观察业务是否受到影响。

业务恢复正常

实例计划重新部署失败

instance_redeploy_failed

重要

由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。

联系运维人员处理。

业务中断

本地盘换盘问询中

localdisk_recovery_inquiring

重要

本地盘故障

授权本地盘换盘操作。

本地盘不可用

本地盘换盘执行中

localdisk_recovery_executing

重要

本地盘故障

等待本地盘换盘结束,观察本地盘功能是否正常。

本地盘不可用

本地盘换盘已完成

localdisk_recovery_completed

重要

本地盘故障

等待运行状态恢复正常,确认本地盘功能是否自动恢复。

本地盘恢复正常

本地盘换盘失败

localdisk_recovery_failed

重要

本地盘故障

联系运维人员处理。

本地盘不可用

自动恢复:弹性云服务器所在的硬件出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,该过程会导致云服务器重启。

表2 弹性公网IP

事件来源

事件名称

事件ID

事件级别

EIP

释放EIP

deleteEip

次要

表3 弹性公网IP和带宽

事件来源

事件名称

事件ID

事件级别

弹性公网IP和带宽

删除VPC

deleteVpc

重要

修改VPC

modifyVpc

次要

删除Subnet

deleteSubnet

次要

修改Subnet

modifySubnet

次要

修改带宽

modifyBandwidth

次要

删除VPN

deleteVpn

重要

修改VPN

modifyVpn

次要

表4 云硬盘

事件来源

事件名称

事件ID

事件级别

事件说明

处理建议

事件影响

EVS

更新磁盘

updateVolume

次要

更新一个云硬盘的名称和描述。

无需处理。

扩容磁盘

extendVolume

次要

对云硬盘进行扩容。

无需处理。

删除磁盘

deleteVolume

重要

删除一个云硬盘。

无需处理。

删除的磁盘将不能被恢复。

磁盘性能达到QoS上限

reachQoS

重要

磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大。

磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大,意味该类型的磁盘可能无法满足当前业务需求,建议提升磁盘规格。

磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大,意味该类型的磁盘可能无法满足当前业务需求,建议提升磁盘规格

表5 统一身份认证服务

事件来源

事件名称

事件ID

事件级别

IAM

用户登录

login

次要

用户登出

logout

次要

登录重置密码

changePassword

重要

创建用户

createUser

次要

删除用户

deleteUser

重要

修改用户

updateUser

次要

创建用户组

createUserGroup

次要

删除用户组

deleteUserGroup

重要

修改用户组

updateUserGroup

次要

创建idp

createIdentityProvider

次要

删除idp

deleteIdentityProvider

重要

修改idp

updateIdentityProvider

次要

更新metadata

updateMetadata

次要

更新账号登录策略

updateSecurityPolicies

重要

创建AK/SK

addCredential

重要

删除AK/SK

deleteCredential

重要

创建project

createProject

次要

更新project

updateProject

次要

冻结项目

suspendProject

重要

表6 密钥管理服务

事件来源

事件名称

事件ID

事件级别

KMS

禁用密钥

disableKey

重要

计划删除密钥

scheduleKeyDeletion

次要

退役授权

retireGrant

重要

撤销授权

revokeGrant

重要

表7 对象存储服务

事件来源

事件名称

事件ID

事件级别

OBS

删除桶

deleteBucket

重要

删除桶policy配置

deleteBucketPolicy

重要

设置桶的ACL

setBucketAcl

次要

设置桶的策略

setBucketPolicy

次要