事件监控支持的事件说明
云服务支持事件上报的资源名称只能包含字母、中文、数字、下划线(_)、中划线(-)和点(.),字符长度不能超过128位,包含其他字符的资源名称可能导致事件无法正常上报到云监控服务。
|
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
|---|---|---|---|---|---|---|---|
|
ECS |
SYS.ECS |
因系统故障触发重启 |
startAutoRecovery |
重要 |
弹性云服务器所在的主机出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,迁移过程中系统会自动重启云服务器。 |
等待恢复成功,观察业务是否受到影响。 |
业务存在中断的可能。 |
|
因系统故障重启已完成 |
endAutoRecovery |
重要 |
当自动迁移完成后,弹性云服务器已恢复正常。 |
当收到“恢复成功”时,云服务器已正常工作,可继续使用。 |
业务恢复正常。 |
||
|
恢复超时(后台处理中) |
faultAutoRecovery |
重要 |
迁移弹性云服务器至正常的物理机操作超时。 |
迁移业务至其他云服务器。 |
业务中断。 |
||
|
删除虚拟机 |
deleteServer |
重要 |
删除云服务器。包括:
|
确认删除操作是否为主动执行。 |
业务中断。 |
||
|
重启虚拟机 |
rebootServer |
次要 |
云服务器重启。包括:
|
确认操作是否为主动执行。
|
业务中断。 |
||
|
关闭虚拟机 |
stopServer |
次要 |
云服务器关机。包括:
说明:
“关闭虚拟机”事件需要开启云审计后才生效,详细请参见《云审计服务用户指南》。 |
|
业务中断。 |
||
|
删除网卡 |
deleteNic |
重要 |
云服务器删除网卡。包括:
|
|
网卡被删除,存在业务中断的可能。 |
||
|
变更规格 |
resizeServer |
次要 |
云服务器规格变更。包括:
|
|
业务中断。 |
||
|
GuestOS系统层重启告警 |
RestartGuestOS |
一般 |
GuestOS内部重启。 |
联系运维人员处理。 |
在系统重启场景下,可能导致业务中断。 |
||
|
系统故障导致虚拟机故障 |
VMFaultsByHostProcessExceptions |
紧急 |
弹性云服务器所在的主机出现故障导致云服务器故障,系统会自动拉起弹性云服务器。 |
请检查云服务器和业务应用是否恢复正常。 |
云服务器故障。 |
||
|
开机失败 |
faultPowerOn |
重要 |
云服务器开机失败。 |
重试开机,若仍开机失败,联系运维人员处理。 |
云服务器无法开机。 |
||
|
宿主机存在宕机风险 |
hostMayCrash |
重要 |
弹性云服务器所在的宿主机存在宕机风险,且由于一些原因,无法通过热迁移手段规避该风险。 |
将该弹性云服务器上业务移除,并将该弹性云服务器删除或关机,等待运维人员处理完风险后再开机。 |
可能因为宿主机宕机而导致业务中断。 |
||
|
实例计划迁移已完成 |
instance_migrate_completed |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间迁移,任务已完成。 |
等待运行状态恢复正常,确认业务是否自动恢复。 |
业务存在中断的可能 |
||
|
实例计划迁移执行中 |
instance_migrate_executing |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间迁移,任务执行中。 |
等待自动恢复事件结束,观察业务是否受到影响。 |
业务存在中断的可能 |
||
|
实例计划迁移已取消 |
instance_migrate_canceled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间迁移,任务已取消。 |
无 |
无 |
||
|
实例计划迁移失败 |
instance_migrate_failed |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间迁移,任务失败。 |
联系运维人员处理 |
业务中断 |
||
|
实例计划迁移等待执行 |
instance_migrate_scheduled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间迁移,任务等待执行。 |
确认执行窗口对业务的影响 |
无 |
||
|
实例计划规格变更失败 |
instance_resize_failed |
重要 |
实例在计划时间规格变更,任务失败。 |
联系运维人员处理 |
业务中断 |
||
|
实例计划规格变更已完成 |
instance_resize_completed |
重要 |
实例在计划时间规格变更,任务已完成。 |
无 |
无 |
||
|
实例计划规格变更执行中 |
instance_resize_executing |
重要 |
实例在计划时间规格变更,任务执行中。 |
等待自动恢复事件结束,观察虚拟机是否正常变更成功。 |
业务中断 |
||
|
实例计划规格变更已取消 |
instance_resize_canceled |
重要 |
实例在计划时间规格变更,任务已取消。 |
无 |
无 |
||
|
实例计划规格变更等待执行 |
instance_resize_scheduled |
重要 |
实例在计划时间规格变更,任务等待执行。 |
确认执行窗口对业务的影响。 |
无 |
||
|
实例计划重新部署等待执行 |
instance_redeploy_scheduled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机,任务等待执行。 |
确认执行窗口对业务的影响。 |
无 |
||
|
实例计划重启等待执行 |
instance_reboot_scheduled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重启,任务等待执行。 |
确认执行窗口对业务的影响。 |
无 |
||
|
实例计划停止等待执行 |
instance_stop_scheduled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间停止,任务等待执行。 |
确认执行窗口对业务的影响。 |
无 |
||
|
开始热迁移 |
liveMigrationStarted |
重要 |
弹性云服务器所在的主机可能出现故障,提前对虚拟机进行热迁移,避免宕机后导致业务中断。 |
等待事件结束,观察业务是否受到影响。 |
业务可能出现1s以内的网络中断。 |
||
|
热迁移完成 |
liveMigrationCompleted |
重要 |
热迁移已经结束,弹性云服务器已恢复正常。 |
观察业务是否正常运行。 |
无。 |
||
|
热迁移失败 |
liveMigrationFailed |
重要 |
弹性云服务器热迁移出现问题,未热迁移成功。 |
观察业务是否正常运行。 |
小概率存在业务中断的可能。 |
||
|
FPGA链路故障 |
FPGALinkFault |
紧急 |
弹性云服务器所在的主机上FPGA卡故障。包括:
|
业务应用做成高可用。 FPGA卡故障恢复后,确认业务是否自动恢复。 |
业务中断。 |
||
|
实例计划重新部署问询中 |
instance_redeploy_inquiring |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机,任务问询中。 |
授权重新部署到新主机操作。 |
无 |
||
|
本地盘换盘取消 |
localdisk_recovery_canceled |
重要 |
因本地盘故障,更换本地盘任务,任务已取消 |
无 |
无 |
||
|
本地盘换盘等待执行 |
localdisk_recovery_scheduled |
重要 |
因本地盘故障,更换本地盘任务,任务等待执行 |
确认执行窗口对业务的影响 |
无 |
||
|
nvidia-smi命令卡住 |
nvidiaSmiHangEvent |
重要 |
nvidia-smi命令超时,该命令可能卡住 |
如果业务受损,请提交工单。 |
可能是命令执行过程中,触发驱动问题,导致命令卡住,同时可能出现业务使用驱动报错问题。 |
||
|
NPU: 存在不可纠正ECC错误 |
UncorrectableEccErrorCount |
重要 |
NPU卡出现Uncorrectable ECC Error硬件故障 |
如果业务受到影响,转硬件换卡 |
业务可能受到影响终止 |
||
|
实例计划重新部署已取消 |
instance_redeploy_canceled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。 |
无 |
无 |
||
|
实例计划重新部署执行中 |
instance_redeploy_executing |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。 |
等待自动恢复事件结束,观察业务是否受到影响。 |
业务中断 |
||
|
实例计划重新部署已完成 |
instance_redeploy_completed |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。 |
等待运行状态恢复正常,观察业务是否受到影响。 |
业务恢复正常 |
||
|
实例计划重新部署失败 |
instance_redeploy_failed |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。 |
联系运维人员处理。 |
业务中断 |
||
|
本地盘换盘问询中 |
localdisk_recovery_inquiring |
重要 |
本地盘故障 |
授权本地盘换盘操作。 |
本地盘不可用 |
||
|
本地盘换盘执行中 |
localdisk_recovery_executing |
重要 |
本地盘故障 |
等待本地盘换盘结束,观察本地盘功能是否正常。 |
本地盘不可用 |
||
|
本地盘换盘已完成 |
localdisk_recovery_completed |
重要 |
本地盘故障 |
等待运行状态恢复正常,确认本地盘功能是否自动恢复。 |
本地盘恢复正常 |
||
|
本地盘换盘失败 |
localdisk_recovery_failed |
重要 |
本地盘故障 |
联系运维人员处理。 |
本地盘不可用 |
||
|
NPU: npu-smi info查询缺少设备 |
NPUSMICardNotFound |
重要 |
可能是由于昇腾驱动问题或NPU掉卡 |
转昇腾和硬件处理 |
NPU卡无法正常使用 |
||
|
NPU: PCIe链路异常 |
PCIeErrorFound |
重要 |
可能是由于deskew_fifo溢出,symbol_unlock,deskew_unlock事件,phystatus超时等原因 |
转硬件处理 |
NPU卡无法正常使用 |
||
|
NPU: lspci查询缺少设备 |
LspciCardNotFound |
重要 |
一般是由于NPU掉卡 |
转硬件处理 |
NPU卡无法正常使用 |
||
|
NPU: 温度超过阈值 |
TemperatureOverUpperLimit |
重要 |
可能是由于DDR颗粒温度过高或过温软件预警 |
暂停业务,重启系统,查看散热系统,device复位 |
可能造成过温下电及device丢失 |
||
|
NPU: 需要重启实例 |
RebootVirtualMachine |
提示 |
当前故障很可能需要重启进行恢复 |
在收集必要信息后,重启以尝试恢复 |
重启可能中断客户业务 |
||
|
NPU: 需要复位SOC |
ResetSOC |
提示 |
当前故障很可能需要复位SOC进行恢复 |
在收集必要信息后,复位SOC以尝试恢复 |
复位SOC可能中断客户业务 |
||
|
NPU: 需要退出AI任务重新执行 |
RestartAIProcess |
提示 |
当前故障很可能需要客户退出当前的AI任务并尝试重新执行 |
在收集必要信息后,尝试退出当前AI任务并尝试重新执行 |
退出当前AI任务以便重新执行 |
||
|
NPU: errorcode告警 |
NPUErrorCodeWarning |
重要 |
这里涵盖了大量重要及以上的NPU错误码,您可以根据这些错误码进一步定位错误原因 |
对照《黑匣子错误码信息列表》和《健康管理故障定义》进一步定位错误 |
NPU当前存在故障,可能导致客户业务终止 |
||
|
DAVP: vasmi查询缺少die设备节点 |
DAVPSMICardNotFound |
重要 |
有可能是驱动故障或发生掉卡 |
重启虚拟机,仍无法加载设备需转硬件处理 |
DAVP卡无法正常使用 |
||
|
DAVP: lspci查询缺少设备 |
DAVPLspciCardNotFound |
重要 |
一般是由于DAVP掉卡 |
转硬件处理 |
DAVP卡无法正常使用 |
||
|
DAVP: 温度超过85℃阈值 |
TemperatureOverDfLimit |
重要 |
核心模块温度超过85℃引起降频 |
暂停业务,转硬件查看散热系统,device复位 |
会导致DAVP卡降频 |
||
|
DAVP: 温度超过105℃阈值 |
TemperatureOverSdLimit |
重要 |
核心模块温度超过105℃引起高温告警 |
暂停业务,转硬件查看散热系统,device复位 |
触发断电保护,DAVP卡无法正常使用 |
||
|
DAVP: 设备节点核心单元出现异常 |
DeviceCoreAbnormal |
重要 |
当前故障很可能需要客户对使用的Die设备节点进行重启 |
在收集必要信息后,重启Die以尝试恢复 |
重启Die可能中断客户业务 |
||
|
删除虚拟机失败 |
faultDeleteServer |
重要 |
云服务器删除失败 确认应用集群业务是否受损 实例资源删除失败 |
云服务器删除失败 |
确认应用集群业务是否受损 |
自动恢复:弹性云服务器所在的硬件出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,该过程会导致云服务器重启。
|
事件来源 |
事件名称 |
事件ID |
事件级别 |
|---|---|---|---|
|
EIP |
释放EIP |
deleteEip |
次要 |
|
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
|---|---|---|---|---|
|
虚拟私有云 |
SYS.VPC |
删除VPC |
deleteVpc |
重要 |
|
修改VPC |
modifyVpc |
次要 |
||
|
删除Subnet |
deleteSubnet |
次要 |
||
|
修改Subnet |
modifySubnet |
次要 |
||
|
修改带宽 |
modifyBandwidth |
次要 |
||
|
删除VPN |
deleteVpn |
重要 |
||
|
修改VPN |
modifyVpn |
次要 |
|
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
|---|---|---|---|---|---|---|---|
|
EVS |
SYS.EVS |
更新磁盘 |
updateVolume |
次要 |
更新一个云硬盘的名称和描述。 |
无需处理。 |
无。 |
|
扩容磁盘 |
extendVolume |
次要 |
对云硬盘进行扩容。 |
无需处理。 |
无。 |
||
|
删除磁盘 |
deleteVolume |
重要 |
删除一个云硬盘。 |
无需处理。 |
删除的磁盘将不能被恢复。 |
||
|
磁盘性能达到QoS上限
说明:
EVS已不支持该事件,云监控服务即将下线该事件相关内容。 |
reachQoS |
重要 |
磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大。 |
磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大,意味该类型的磁盘可能无法满足当前业务需求,建议提升磁盘规格。 |
磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大,意味该类型的磁盘可能无法满足当前业务需求,建议提升磁盘规格 |
|
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
|---|---|---|---|---|
|
IAM |
SYS.IAM |
用户登录 |
login |
次要 |
|
用户登出 |
logout |
次要 |
||
|
登录重置密码 |
changePassword |
重要 |
||
|
创建用户 |
createUser |
次要 |
||
|
删除用户 |
deleteUser |
重要 |
||
|
修改用户 |
updateUser |
次要 |
||
|
创建用户组 |
createUserGroup |
次要 |
||
|
删除用户组 |
deleteUserGroup |
重要 |
||
|
修改用户组 |
updateUserGroup |
次要 |
||
|
创建idp |
createIdentityProvider |
次要 |
||
|
删除idp |
deleteIdentityProvider |
重要 |
||
|
修改idp |
updateIdentityProvider |
次要 |
||
|
更新metadata |
updateMetadata |
次要 |
||
|
更新账号登录策略 |
updateSecurityPolicies |
重要 |
||
|
创建AK/SK |
addCredential |
重要 |
||
|
删除AK/SK |
deleteCredential |
重要 |
||
|
创建project |
createProject |
次要 |
||
|
更新project |
updateProject |
次要 |
||
|
冻结项目 |
suspendProject |
重要 |
|
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
|---|---|---|---|---|---|---|---|
|
KMS |
SYS.KMS |
禁用密钥 |
disableKey |
重要 |
客户触发了禁用密钥的操作,密钥处于无法使用状态。 |
若客户因业务需要禁用密钥,无需处置。若客户误操作禁用了密钥,请登录DEW控制台重新启用密钥。 |
若密钥正在被客户业务使用,可能造成业务受损。 |
|
计划删除密钥 |
scheduleKeyDeletion |
次要 |
客户触发了计划删除的操作,密钥处于无法使用状态。 |
若客户因业务需要删除密钥,无需处置。若客户误操作计划删除了密钥,请登录DEW控制台重新取消计划删除,并重新启用密钥。 |
若密钥正在被客户业务使用,可能造成业务受损。 |
||
|
退役授权 |
retireGrant |
重要 |
客户触发了退役授权的操作,密钥处于无法使用的状态。 |
若客户因业务需要取消对密钥授权,无需处置。若客户误操作取消对密钥授权,请登录DEW控制台重新进行授权。 |
若密钥正在被客户业务使用,可能造成业务受损。 |
||
|
撤销授权 |
revokeGrant |
重要 |
客户触发了撤销授权的操作,密钥处于无法使用的状态。 |
若客户因业务需要取消对密钥授权,无需处置。若客户误操作取消对密钥授权,请登录DEW控制台重新进行授权。 |
若密钥正在被客户业务使用,可能造成业务受损。 |
|
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
|---|---|---|---|---|
|
OBS |
SYS.OBS |
删除桶 |
deleteBucket |
重要 |
|
删除桶policy配置 |
deleteBucketPolicy |
重要 |
||
|
设置桶的ACL |
setBucketAcl |
次要 |
||
|
设置桶的策略 |
setBucketPolicy |
次要 |