事件监控支持的事件说明
事件来源 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|
ECS |
因硬件故障触发重启 |
startAutoRecovery |
重要 |
弹性云服务器所在的主机出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,迁移过程中系统会自动重启云服务器。 |
等待恢复成功,观察业务是否受到影响。 |
业务存在中断的可能。 |
因硬件故障重启已完成 |
endAutoRecovery |
重要 |
当自动迁移完成后,弹性云服务器已恢复正常。 |
当收到“恢复成功”时,云服务器已正常工作,可继续使用。 |
业务恢复正常。 |
|
恢复超时(后台处理中) |
faultAutoRecovery |
重要 |
迁移弹性云服务器至正常的物理机操作超时。 |
迁移业务至其他云服务器。 |
业务中断。 |
|
GPU链路故障 |
GPULinkFault |
紧急 |
弹性云服务器所在的主机上GPU卡故障。包括:
|
业务应用做成高可用。 GPU卡故障恢复后,确认业务是否自动恢复。 |
业务中断。 |
|
删除虚拟机 |
deleteServer |
重要 |
删除云服务器。包括:
|
确认删除操作是否为主动执行。 |
业务中断。 |
|
重启虚拟机 |
rebootServer |
次要 |
云服务器重启。包括:
|
确认操作是否为主动执行。
|
业务中断。 |
|
关闭虚拟机 |
stopServer |
次要 |
云服务器关机。包括:
说明:
“关闭虚拟机”事件需要开启云审计后才生效,详细请参见《云审计服务用户指南》。 |
|
业务中断。 |
|
删除网卡 |
deleteNic |
重要 |
云服务器删除网卡。包括:
|
|
网卡被删除,存在业务中断的可能。 |
|
变更规格 |
resizeServer |
次要 |
云服务器规格变更。包括:
|
|
业务中断。 |
|
GuestOS系统层重启告警 |
RestartGuestOS |
一般 |
GuestOS内部重启。 |
联系运维人员处理。 |
在系统重启场景下,可能导致业务中断。 |
|
主机进程异常导致虚拟机故障 |
VMFaultsByHostProcessExceptions |
紧急 |
云服务器所在宿主机服务进程异常,导致云服务器故障。 |
联系运维人员处理 |
云服务器故障。 |
|
开机失败 |
faultPowerOn |
重要 |
云服务器开机失败。 |
重试开机,若仍开机失败,联系运维人员处理。 |
云服务器无法开机。 |
|
宿主机存在宕机风险 |
hostMayCrash |
重要 |
弹性云服务器所在的宿主机存在宕机风险,且由于一些原因,无法通过热迁移手段规避该风险。 |
将该弹性云服务器上业务移除,并将该弹性云服务器删除或关机,等待运维人员处理完风险后再开机。 |
可能因为宿主机宕机而导致业务中断。 |
|
实例计划迁移已完成 |
instance_migrate_completed |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间迁移,任务已完成。 |
等待运行状态恢复正常,确认业务是否自动恢复。 |
业务存在中断的可能 |
|
实例计划迁移执行中 |
instance_migrate_executing |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间迁移,任务执行中。 |
等待自动恢复事件结束,观察业务是否受到影响。 |
业务存在中断的可能 |
|
实例计划迁移已取消 |
instance_migrate_canceled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间迁移,任务已取消。 |
无 |
无 |
|
实例计划迁移失败 |
instance_migrate_failed |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间迁移,任务失败。 |
联系运维人员处理 |
业务中断 |
|
实例计划迁移等待执行 |
instance_migrate_scheduled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间迁移,任务等待执行。 |
确认执行窗口对业务的影响 |
无 |
|
实例计划规格变更失败 |
instance_resize_failed |
重要 |
实例在计划时间规格变更,任务失败。 |
联系运维人员处理 |
业务中断 |
|
实例计划规格变更已完成 |
instance_resize_completed |
重要 |
实例在计划时间规格变更,任务已完成。 |
无 |
无 |
|
实例计划规格变更执行中 |
instance_resize_executing |
重要 |
实例在计划时间规格变更,任务执行中。 |
等待自动恢复事件结束,观察虚拟机是否正常变更成功。 |
业务中断 |
|
实例计划规格变更已取消 |
instance_resize_canceled |
重要 |
实例在计划时间规格变更,任务已取消。 |
无 |
无 |
|
实例计划规格变更等待执行 |
instance_resize_scheduled |
重要 |
实例在计划时间规格变更,任务等待执行。 |
确认执行窗口对业务的影响。 |
无 |
|
实例计划重新部署等待执行 |
instance_redeploy_scheduled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机,任务等待执行。 |
确认执行窗口对业务的影响。 |
无 |
|
实例计划重启等待执行 |
instance_reboot_scheduled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重启,任务等待执行。 |
确认执行窗口对业务的影响。 |
无 |
|
实例计划停止等待执行 |
instance_stop_scheduled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间停止,任务等待执行。 |
确认执行窗口对业务的影响。 |
无 |
|
开始热迁移 |
liveMigrationStarted |
重要 |
弹性云服务器所在的主机可能出现故障,提前对虚拟机进行热迁移,避免宕机后导致业务中断。 |
等待事件结束,观察业务是否受到影响。 |
业务可能出现1s以内的网络中断。 |
|
结束热迁移 |
liveMigrationCompleted |
重要 |
热迁移已经结束,弹性云服务器已恢复正常。 |
观察业务是否正常运行。 |
无。 |
|
热迁移失败 |
liveMigrationFailed |
重要 |
弹性云服务器热迁移出现问题,未热迁移成功。 |
观察业务是否正常运行。 |
小概率存在业务中断的可能。 |
|
GPU SRAM存在Uncorrectable ECC告警 |
SRAMUncorrectableEccError |
重要 |
GPU卡SRAM出现Uncorrectable ECC Error硬件故障。 |
如果业务受损,请提交工单。 |
可能GPU硬件问题导致SRAM故障,导致业务异常退出。 |
|
FPGA链路故障 |
FPGALinkFault |
紧急 |
弹性云服务器所在的主机上FPGA卡故障。包括:
|
业务应用做成高可用。 FPGA卡故障恢复后,确认业务是否自动恢复。 |
业务中断。 |
|
实例计划重新部署问询中 |
instance_redeploy_inquiring |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机,任务问询中。 |
授权重新部署到新主机操作。 |
无 |
|
本地盘换盘取消 |
localdisk_recovery_canceled |
重要 |
因本地盘故障,更换本地盘任务,任务已取消 |
无 |
无 |
|
本地盘换盘等待执行 |
localdisk_recovery_scheduled |
重要 |
因本地盘故障,更换本地盘任务,任务等待执行 |
确认执行窗口对业务的影响 |
无 |
|
GPU存在通用Xid事件告警 |
commonXidError |
重要 |
GPU卡出现Xid事件告警 |
如果业务受损,请提交工单。 |
gpu硬件、驱动、应用问题导致Xid事件,可能导致业务异常退出。 |
|
nvidia-smi命令卡住 |
nvidiaSmiHangEvent |
重要 |
nvidia-smi命令超时,该命令可能卡住 |
如果业务受损,请提交工单。 |
可能是命令执行过程中,触发驱动问题,导致命令卡住,同时可能出现业务使用驱动报错问题。 |
|
NPU: 存在不可纠正ECC错误 |
UncorrectableEccErrorCount |
重要 |
NPU卡出现Uncorrectable ECC Error硬件故障 |
如果业务受到影响,转硬件换卡 |
业务可能受到影响终止 |
|
实例计划重新部署已取消 |
instance_redeploy_canceled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。 |
无 |
无 |
|
实例计划重新部署执行中 |
instance_redeploy_executing |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。 |
等待自动恢复事件结束,观察业务是否受到影响。 |
业务中断 |
|
实例计划重新部署已完成 |
instance_redeploy_completed |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。 |
等待运行状态恢复正常,观察业务是否受到影响。 |
业务恢复正常 |
|
实例计划重新部署失败 |
instance_redeploy_failed |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。 |
联系运维人员处理。 |
业务中断 |
|
本地盘换盘问询中 |
localdisk_recovery_inquiring |
重要 |
本地盘故障 |
授权本地盘换盘操作。 |
本地盘不可用 |
|
本地盘换盘执行中 |
localdisk_recovery_executing |
重要 |
本地盘故障 |
等待本地盘换盘结束,观察本地盘功能是否正常。 |
本地盘不可用 |
|
本地盘换盘已完成 |
localdisk_recovery_completed |
重要 |
本地盘故障 |
等待运行状态恢复正常,确认本地盘功能是否自动恢复。 |
本地盘恢复正常 |
|
本地盘换盘失败 |
localdisk_recovery_failed |
重要 |
本地盘故障 |
联系运维人员处理。 |
本地盘不可用 |
自动恢复:弹性云服务器所在的硬件出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,该过程会导致云服务器重启。
事件来源 |
事件名称 |
事件ID |
事件级别 |
---|---|---|---|
EIP |
释放EIP |
deleteEip |
次要 |
事件来源 |
事件名称 |
事件ID |
事件级别 |
---|---|---|---|
弹性公网IP和带宽 |
删除VPC |
deleteVpc |
重要 |
修改VPC |
modifyVpc |
次要 |
|
删除Subnet |
deleteSubnet |
次要 |
|
修改Subnet |
modifySubnet |
次要 |
|
修改带宽 |
modifyBandwidth |
次要 |
|
删除VPN |
deleteVpn |
重要 |
|
修改VPN |
modifyVpn |
次要 |
事件来源 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|
EVS |
更新磁盘 |
updateVolume |
次要 |
更新一个云硬盘的名称和描述。 |
无需处理。 |
无。 |
扩容磁盘 |
extendVolume |
次要 |
对云硬盘进行扩容。 |
无需处理。 |
无。 |
|
删除磁盘 |
deleteVolume |
重要 |
删除一个云硬盘。 |
无需处理。 |
删除的磁盘将不能被恢复。 |
|
磁盘性能达到QoS上限 |
reachQoS |
重要 |
磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大。 |
磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大,意味该类型的磁盘可能无法满足当前业务需求,建议提升磁盘规格。 |
磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大,意味该类型的磁盘可能无法满足当前业务需求,建议提升磁盘规格 |
事件来源 |
事件名称 |
事件ID |
事件级别 |
---|---|---|---|
IAM |
用户登录 |
login |
次要 |
用户登出 |
logout |
次要 |
|
登录重置密码 |
changePassword |
重要 |
|
创建用户 |
createUser |
次要 |
|
删除用户 |
deleteUser |
重要 |
|
修改用户 |
updateUser |
次要 |
|
创建用户组 |
createUserGroup |
次要 |
|
删除用户组 |
deleteUserGroup |
重要 |
|
修改用户组 |
updateUserGroup |
次要 |
|
创建idp |
createIdentityProvider |
次要 |
|
删除idp |
deleteIdentityProvider |
重要 |
|
修改idp |
updateIdentityProvider |
次要 |
|
更新metadata |
updateMetadata |
次要 |
|
更新账号登录策略 |
updateSecurityPolicies |
重要 |
|
创建AK/SK |
addCredential |
重要 |
|
删除AK/SK |
deleteCredential |
重要 |
|
创建project |
createProject |
次要 |
|
更新project |
updateProject |
次要 |
|
冻结项目 |
suspendProject |
重要 |
事件来源 |
事件名称 |
事件ID |
事件级别 |
---|---|---|---|
KMS |
禁用密钥 |
disableKey |
重要 |
计划删除密钥 |
scheduleKeyDeletion |
次要 |
|
退役授权 |
retireGrant |
重要 |
|
撤销授权 |
revokeGrant |
重要 |
事件来源 |
事件名称 |
事件ID |
事件级别 |
---|---|---|---|
OBS |
删除桶 |
deleteBucket |
重要 |
删除桶policy配置 |
deleteBucketPolicy |
重要 |
|
设置桶的ACL |
setBucketAcl |
次要 |
|
设置桶的策略 |
setBucketPolicy |
次要 |