事件监控支持的事件说明
事件来源 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|
ECS |
因系统故障触发重启 |
startAutoRecovery |
重要 |
弹性云服务器所在的主机出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,迁移过程中系统会自动重启云服务器。 |
等待恢复成功,观察业务是否受到影响。 |
业务存在中断的可能。 |
因系统故障重启已完成 |
endAutoRecovery |
重要 |
当自动迁移完成后,弹性云服务器已恢复正常。 |
当收到“恢复成功”时,云服务器已正常工作,可继续使用。 |
业务恢复正常。 |
|
恢复超时(后台处理中) |
faultAutoRecovery |
重要 |
迁移弹性云服务器至正常的物理机操作超时。 |
迁移业务至其他云服务器。 |
业务中断。 |
|
GPU链路故障 |
GPULinkFault |
紧急 |
弹性云服务器所在的主机上GPU卡故障。包括:
|
业务应用做成高可用。 GPU卡故障恢复后,确认业务是否自动恢复。 |
业务中断。 |
|
删除虚拟机 |
deleteServer |
重要 |
删除云服务器。包括:
|
确认删除操作是否为主动执行。 |
业务中断。 |
|
重启虚拟机 |
rebootServer |
次要 |
云服务器重启。包括:
|
确认操作是否为主动执行。
|
业务中断。 |
|
关闭虚拟机 |
stopServer |
次要 |
云服务器关机。包括:
说明:
“关闭虚拟机”事件需要开启云审计后才生效。 |
|
业务中断。 |
|
删除网卡 |
deleteNic |
重要 |
云服务器删除网卡。包括:
|
|
网卡被删除,存在业务中断的可能。 |
|
变更规格 |
resizeServer |
次要 |
云服务器规格变更。包括:
|
|
业务中断。 |
|
GuestOS系统层重启告警 |
RestartGuestOS |
一般 |
GuestOS内部重启。 |
联系运维人员处理。 |
在系统重启场景下,可能导致业务中断。 |
|
系统故障导致虚拟机故障 |
VMFaultsByHostProcessExceptions |
紧急 |
云服务器所在宿主机服务进程异常,导致云服务器故障。 |
联系运维人员处理 |
云服务器故障。 |
|
开机失败 |
faultPowerOn |
重要 |
云服务器开机失败。 |
重试开机,若仍开机失败,联系运维人员处理。 |
云服务器无法开机。 |
|
宿主机存在宕机风险 |
hostMayCrash |
重要 |
弹性云服务器所在的宿主机存在宕机风险,且由于一些原因,无法通过热迁移手段规避该风险。 |
将该弹性云服务器上业务移除,并将该弹性云服务器删除或关机,等待运维人员处理完风险后再开机。 |
可能因为宿主机宕机而导致业务中断。 |
|
实例计划迁移已完成 |
instance_migrate_completed |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间迁移,任务已完成。 |
等待运行状态恢复正常,确认业务是否自动恢复。 |
业务存在中断的可能 |
|
实例计划迁移执行中 |
instance_migrate_executing |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间迁移,任务执行中。 |
等待自动恢复事件结束,观察业务是否受到影响。 |
业务存在中断的可能 |
|
实例计划迁移已取消 |
instance_migrate_canceled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间迁移,任务已取消。 |
无 |
无 |
|
实例计划迁移失败 |
instance_migrate_failed |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间迁移,任务失败。 |
联系运维人员处理 |
业务中断 |
|
实例计划迁移等待执行 |
instance_migrate_scheduled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间迁移,任务等待执行。 |
确认执行窗口对业务的影响 |
无 |
|
实例计划规格变更失败 |
instance_resize_failed |
重要 |
实例在计划时间规格变更,任务失败。 |
联系运维人员处理 |
业务中断 |
|
实例计划规格变更已完成 |
instance_resize_completed |
重要 |
实例在计划时间规格变更,任务已完成。 |
无 |
无 |
|
实例计划规格变更执行中 |
instance_resize_executing |
重要 |
实例在计划时间规格变更,任务执行中。 |
等待自动恢复事件结束,观察虚拟机是否正常变更成功。 |
业务中断 |
|
实例计划规格变更已取消 |
instance_resize_canceled |
重要 |
实例在计划时间规格变更,任务已取消。 |
无 |
无 |
|
实例计划规格变更等待执行 |
instance_resize_scheduled |
重要 |
实例在计划时间规格变更,任务等待执行。 |
确认执行窗口对业务的影响。 |
无 |
|
实例计划重新部署等待执行 |
instance_redeploy_scheduled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机,任务等待执行。 |
确认执行窗口对业务的影响。 |
无 |
|
实例计划重启等待执行 |
instance_reboot_scheduled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重启,任务等待执行。 |
确认执行窗口对业务的影响。 |
无 |
|
实例计划停止等待执行 |
instance_stop_scheduled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间停止,任务等待执行。 |
确认执行窗口对业务的影响。 |
无 |
|
开始热迁移 |
liveMigrationStarted |
重要 |
弹性云服务器所在的主机可能出现故障,提前对虚拟机进行热迁移,避免宕机后导致业务中断。 |
等待事件结束,观察业务是否受到影响。 |
业务可能出现1s以内的网络中断。 |
|
热迁移完成 |
liveMigrationCompleted |
重要 |
热迁移已经结束,弹性云服务器已恢复正常。 |
观察业务是否正常运行。 |
无。 |
|
热迁移失败 |
liveMigrationFailed |
重要 |
弹性云服务器热迁移出现问题,未热迁移成功。 |
观察业务是否正常运行。 |
小概率存在业务中断的可能。 |
|
GPU SRAM存在Uncorrectable ECC告警 |
SRAMUncorrectableEccError |
重要 |
GPU卡SRAM出现Uncorrectable ECC Error硬件故障。 |
如果业务受损,请提交工单。 |
可能GPU硬件问题导致SRAM故障,导致业务异常退出。 |
|
FPGA链路故障 |
FPGALinkFault |
紧急 |
弹性云服务器所在的主机上FPGA卡故障。包括:
|
业务应用做成高可用。 FPGA卡故障恢复后,确认业务是否自动恢复。 |
业务中断。 |
|
实例计划重新部署问询中 |
instance_redeploy_inquiring |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机,任务问询中。 |
授权重新部署到新主机操作。 |
无 |
|
本地盘换盘取消 |
localdisk_recovery_canceled |
重要 |
因本地盘故障,更换本地盘任务,任务已取消 |
无 |
无 |
|
本地盘换盘等待执行 |
localdisk_recovery_scheduled |
重要 |
因本地盘故障,更换本地盘任务,任务等待执行 |
确认执行窗口对业务的影响 |
无 |
|
GPU存在通用Xid事件告警 |
commonXidError |
重要 |
GPU卡出现Xid事件告警 |
如果业务受损,请提交工单。 |
gpu硬件、驱动、应用问题导致Xid事件,可能导致业务异常退出。 |
|
nvidia-smi命令卡住 |
nvidiaSmiHangEvent |
重要 |
nvidia-smi命令超时,该命令可能卡住 |
如果业务受损,请提交工单。 |
可能是命令执行过程中,触发驱动问题,导致命令卡住,同时可能出现业务使用驱动报错问题。 |
|
NPU: 存在不可纠正ECC错误 |
UncorrectableEccErrorCount |
重要 |
NPU卡出现Uncorrectable ECC Error硬件故障 |
如果业务受到影响,转硬件换卡 |
业务可能受到影响终止 |
|
实例计划重新部署已取消 |
instance_redeploy_canceled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。 |
无 |
无 |
|
实例计划重新部署执行中 |
instance_redeploy_executing |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。 |
等待自动恢复事件结束,观察业务是否受到影响。 |
业务中断 |
|
实例计划重新部署已完成 |
instance_redeploy_completed |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。 |
等待运行状态恢复正常,观察业务是否受到影响。 |
业务恢复正常 |
|
实例计划重新部署失败 |
instance_redeploy_failed |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。 |
联系运维人员处理。 |
业务中断 |
|
本地盘换盘问询中 |
localdisk_recovery_inquiring |
重要 |
本地盘故障 |
授权本地盘换盘操作。 |
本地盘不可用 |
|
本地盘换盘执行中 |
localdisk_recovery_executing |
重要 |
本地盘故障 |
等待本地盘换盘结束,观察本地盘功能是否正常。 |
本地盘不可用 |
|
本地盘换盘已完成 |
localdisk_recovery_completed |
重要 |
本地盘故障 |
等待运行状态恢复正常,确认本地盘功能是否自动恢复。 |
本地盘恢复正常 |
|
本地盘换盘失败 |
localdisk_recovery_failed |
重要 |
本地盘故障 |
联系运维人员处理。 |
本地盘不可用 |
自动恢复:弹性云服务器所在的硬件出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,该过程会导致云服务器重启。
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
BMS |
SYS.BMS |
GPU SRAM存在 Uncorrectable ECC告警 |
SRAMUncorrectableEccError |
重要 |
GPU卡SRAM出现Uncorrectable ECC Error硬件故障。 |
如果业务受损,请提交工单。 |
可能GPU硬件问题导致SRAM故障,导致业务异常退出 |
主机重启 |
osReboot |
重要 |
裸金属实例重启。包括:
|
|
业务中断 |
||
异常重启 |
serverReboot |
重要 |
裸金属实例异常重启。包括:
|
|
业务中断 |
||
主机关机 |
osShutdown |
重要 |
裸金属实例关机。包括:
|
|
业务中断 |
||
异常关机 |
serverShutdown |
重要 |
裸金属实例异常关机。包括:
|
|
业务中断 |
||
网络中断 |
linkDown |
重要 |
裸金属服务器网络中断。包括:
|
|
业务中断 |
||
PCIE异常 |
pcieError |
重要 |
裸金属服务器PCIe设备硬件故障。包括:
|
|
影响网络或硬盘读写业务 |
||
硬盘故障 |
diskError |
重要 |
裸金属服务器磁盘故障。包括:
|
|
影响数据读写业务或主机无法启动 |
||
云存储连接异常 |
storageError |
重要 |
裸金属服务器云硬盘链接异常。包括:
|
|
影响数据读写业务或主机无法启动 |
||
GPU存在infoROM告警 |
gpuInfoROMAlarm |
重要 |
GPU可能存在硬件问题,导致驱动读取不到inforom信息。 |
业务可以继续使用该GPU卡,不敏感业务可以继续使用,敏感业务请提交工单处理。 |
对业务暂时没有影响,当GPU硬件出现ECC故障时,可能无法自动完成故障页隔离,导致业务受损。 |
||
GPU发生double bit ECC告警 |
doubleBitEccError |
重要 |
GPU硬件存在double bit ECC故障。 |
|
可能会造成业务中断,故障页隔离后业务可继续正常使用GPU。 |
||
GPU隔离页过多告警 |
gpuTooManyRetiredPagesAlarm |
重要 |
GPU硬件存在过多ECC隔离页。 |
如果业务受损,请提交工单。 |
GPU硬件存在过多ECC故障,可能频繁影响业务运行。 |
||
GPU A100 硬件发生ECC告警 |
gpuA100EccAlarm |
重要 |
GPU卡出现ECC硬件故障。 |
|
可能会造成业务中断,故障页隔离后业务可继续正常使用GPU。 |
||
GPU ECC内存页隔离失败告警 |
eccPageRetirementRecordingFailure |
重要 |
GPU硬件存在ECC故障,驱动自动隔离这些页时失败。 |
|
可能会造成业务中断,故障页隔离隔离失败,可能导致业务无法使用GPU。 |
||
GPU ECC页隔离告警 |
eccPageRetirementRecordingEvent |
一般 |
存在ECC硬件错误,发生内存页自动隔离。 |
|
一般随ECC故障告警出现,单独出现不影响业务。 |
||
GPU single bit ECC过多告警 |
highSingleBitEccErrorRate |
重要 |
ECC硬件存在过高ECC single bit错误。 |
|
single bit的错误能够自动恢复,一般不影响GPU相关应用程序。 |
||
GPU驱动掉卡告警 |
gpuDriverLinkFailureAlarm |
重要 |
GPU链路正常,NVIDIA驱动找不到GPU硬件。 |
|
一般驱动问题导致找不到对应位置的GPU。 |
||
GPU卡链路故障告警 |
gpuPcieLinkFailureAlarm |
重要 |
GPU链路异常,通过lspci无法查看GPU硬件信息。 |
如果业务受损,请提交工单。 |
硬件问题导致GPU卡链路异常,驱动无法使用GPU。 |
||
虚拟机GPU丢卡告警 |
vmLostGpuAlarm |
重要 |
虚拟机实际有的GPU卡数量比规格里应分配的GPU卡数量少。 |
如果业务受损,请提交工单。 |
虚拟机GPU卡丢失。 |
||
GPU显存页告警 |
gpuMemoryPageFault |
重要 |
GPU显存页发生故障,故障可能由应用、驱动或硬件引起。 |
如果业务受损,请提交工单。 |
可能GPU硬件问题导致显存故障,导致业务异常退出 |
||
GPU图像引擎异常告警 |
graphicsEngineException |
重要 |
GPU图像引擎发生故障,可能由应用、驱动或硬件引起。 |
如果业务受损,请提交工单。 |
可能GPU硬件问题导致图像引擎故障,导致业务异常退出。 |
||
GPU温度过高告警 |
highTemperatureEvent |
重要 |
GPU硬件温度过高。 |
如果业务受损,请提交工单。 |
GPU温度超过温度阈值,可能会引起GPU卡性能下降 |
||
GPU NVLINK链路错误告警 |
nvlinkError |
重要 |
NVLINK的链路出现硬件故障。 |
如果业务受损,请提交工单。 |
NVLINK链路故障,影响业务使用GPU nvlink能力。 |
||
系统运维问询中 |
system_maintenance_inquiring |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间维修,任务问询中 |
授权维修实例操作 |
无 |
||
系统运维等待执行 |
system_maintenance_scheduled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间维修,任务等待执行 |
确认执行窗口对业务的影响 |
无 |
||
系统运维已取消 |
system_maintenance_canceled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间维修,任务已取消 |
无 |
无 |
||
系统运维执行中 |
system_maintenance_executing |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间维修,任务执行中 |
等待维修结束,观察业务是否受到影响 |
业务中断 |
||
系统运维已完成 |
system_maintenance_completed |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间维修,任务已完成 |
等待运行状态恢复正常,确认业务是否恢复 |
业务恢复正常 |
||
系统运维失败 |
system_maintenance_failed |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间维修,任务失败 |
联系运维人员处理 |
业务中断 |
||
GPU存在通用Xid事件告警 |
commonXidError |
重要 |
GPU卡出现Xid事件告警 |
如果业务受损,请提交工单。 |
gpu硬件、驱动、应用问题导致Xid事件,可能导致业务异常退出。 |
||
NPU: npu-smi info查询缺少设备 |
NPUSMICardNotFound |
重要 |
可能是由于昇腾驱动问题或NPU掉卡 |
转昇腾和硬件处理 |
NPU卡无法正常使用 |
||
NPU: PCIe链路异常 |
PCIeErrorFound |
重要 |
Lspci查询卡状态为rev ff |
重启,转硬件处理 |
NPU卡无法正常使用 |
||
NPU: lspci查询缺少设备 |
LspciCardNotFound |
重要 |
一般是由于NPU掉卡 |
转硬件处理 |
NPU卡无法正常使用 |
||
NPU: 温度超过阈值 |
TemperatureOverUpperLimit |
重要 |
可能是由于DDR颗粒温度过高或过温软件预警 |
暂停业务,重启系统,查看散热系统,device复位 |
可能造成过温下电及device丢失 |
||
NPU: 存在不可纠正ECC错误 |
UncorrectableEccErrorCount |
重要 |
NPU卡出现Uncorrectable ECC Error硬件故障 |
如果业务受到影响,转硬件换卡 |
业务可能受到影响终止 |
||
NPU: 需要重启实例 |
RebootVirtualMachine |
提示 |
当前故障很可能需要重启进行恢复 |
在收集必要信息后,重启以尝试恢复 |
重启可能中断客户业务 |
||
NPU: 需要复位SOC |
ResetSOC |
提示 |
当前故障很可能需要复位SOC进行恢复 |
在收集必要信息后,复位SOC以尝试恢复 |
复位SOC可能中断客户业务 |
||
NPU: 需要退出AI任务重新执行 |
RestartAIProcess |
提示 |
当前故障很可能需要客户退出当前的AI任务并尝试重新执行 |
在收集必要信息后,尝试退出当前AI任务并尝试重新执行 |
退出当前AI任务以便重新执行 |
||
NPU: errorcode告警 |
NPUErrorCodeWarning |
重要 |
这里涵盖了大量重要及以上的NPU错误码,您可以根据这些错误码进一步定位错误原因 |
对照《黑匣子错误码信息列表》和《健康管理故障定义》进一步定位错误 |
NPU当前存在故障,可能导致客户业务终止 |
||
nvidia-smi命令卡住 |
nvidiaSmiHangEvent |
重要 |
nvidia-smi命令超时,该命令可能卡住 |
如果业务受损,请提交工单。 |
可能是命令执行过程中,触发驱动问题,导致命令卡住,同时可能出现业务使用驱动报错问题。 |
||
NV Peer Memory加载到内核异常 |
NvPeerMemException |
次要 |
Nvlink加载异常或nv_peer_mem加载异常 |
nv_peer_mem存在异常,建议尝试恢复或重新安装Nvlink |
Nv peer mem无法正常使用 |
||
Nv-fabricmanager服务运行异常 |
NvFabricManagerException |
次要 |
机器符合Nvlink使用条件,且安装Nvlink服务,但服务异常 |
Nvlink存在异常,建议尝试恢复或重新安装Nvlink |
Nvlink无法正常使用 |
||
IB卡使用状态异常 |
InfinibandStatusException |
重要 |
网卡状态或物理状态异常 |
转硬件处理 |
IB卡无法正常工作 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
EIP |
SYS.EIP |
EIP带宽超限事件 |
EIPBandwidthOverflow |
重要 |
当前使用带宽已超过购买的带宽,可能会导致网络变慢或丢包发生。其中,该事件取值为周期内的最大值,而EIP的出入网带宽指标数据,取值为周期时间点的值。 其中: “egressDropBandwidth”为本周期内出云丢弃带宽值(Byte),“egressAcceptBandwidth”为本周期内出云通过带宽值(Byte),“egressMaxBandwidthPerSec”为本周期内出云带宽峰值(Byte/s),“ingressAcceptBandwidth”为本周期内入云通过带宽值(Byte),“ingressMaxBandwidthPerSec”为本周期内入云带宽峰值(Byte/s),“ingressDropBandwidth”为本周期内入云丢弃带宽值(Byte)。
说明:
EIP带宽超限事件当前仅在“华北-北京一”、“华北-北京四”、“华北-乌兰察布一”、“华东-上海一”、“华东-上海二”、“西南-贵阳一”和“华南-广州”区域上线。 |
检查EIP带宽是否一直增加,业务是否正常,并考虑扩容。 |
网络变慢或丢包发生 |
释放EIP |
deleteEip |
次要 |
EIP资源被删除。 |
检查是否误操作删除资源。 |
无法访问公网 |
||
EIP封堵 |
blockEIP |
紧急 |
带宽超过5GB就会封堵,相当于把流量直接丢弃。带宽严重超限或受到攻击,一般是受到了DDoS攻击。 |
更换EIP,避免业务受到影响。 同时查看事件中的封堵原因,进行相应处理。 |
业务受影响 |
||
EIP解封 |
unblockEIP |
紧急 |
EIP封堵已被解封。 |
换回原EIP,将被解封EIP重新使用,避免资源浪费。 |
无 |
||
EIP开始DDoS清洗 |
ddosCleanEIP |
严重 |
客户购买的EIP发生了DDoS清洗。 |
查看是否遭受攻击。 |
客户的业务可能受损。 |
||
EIP结束DDoS清洗 |
ddosEndCleanEip |
严重 |
客户购买的EIP结束了DDoS清洗。 |
查看是否遭受攻击。 |
客户的业务可能受损。 |
||
企业级Qos带宽超限事件 |
EIPBandwidthRuleOverflow |
重要 |
当前使用企业级Qos带宽已超过分配的带宽,可能会导致网络变慢或丢包发生。其中,该事件取值为周期内的最大值,而EIP的出入网带宽指标数据,取值为周期时间点的值。 其中:“egressDropBandwidth”为本周期内出云丢弃带宽值(Byte),“egressAcceptBandwidth”为本周期内出云通过带宽值(Byte),“egressMaxBandwidthPerSec”为本周期内出云带宽峰值(Byte/s),“ingressAcceptBandwidth”为本周期内入云通过带宽值(Byte),“ingressMaxBandwidthPerSec”为本周期内入云带宽峰值(Byte/s),“ingressDropBandwidth”为本周期内入云丢弃带宽值(Byte)。 |
检查EIP带宽是否一直增加,业务是否正常,并考虑扩容。 |
网络变慢或丢包发生。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
DDoS高防 |
SYS.DDOS |
DDoS攻击事件 |
ddosAttackEvents |
严重 |
客户购买的高防实例线路出现了DDoS攻击。 |
根据攻击流量和攻击类型判断对业务的影响,如果攻击流量超过客户购买的弹性带宽需要更换线路或提升规格。 |
客户的业务可能受损。 |
域名调度事件 |
domainNameDispatchEvents |
重要 |
域名对应的高防cname触发了调度,修改了解析记录到其他的高防IP上。 |
请关注该域名的业务情况。 |
一般情况下业务不受影响。 |
||
黑洞事件 |
blackHoleEvents |
重要 |
客户的高防实例攻击流量超出购买的防护阈值。 |
黑洞解封时间默认为30分钟,具体时长与当日黑洞触发次数和攻击峰值相关,最长可达24小时。如需提前解封,需要用户升级DDoS高防服务并联系技术支持。 |
客户的业务可能受损。 |
||
黑洞恢复 |
cancelBlackHole |
提示 |
客户的高防实例从黑洞状态恢复。 |
仅作提示,无需特殊处理。 |
客户的业务恢复。 |
||
IP调度事件 |
ipDispatchEvents |
重要 |
IP路由发生变化 |
请关注该IP的业务情况。 |
一般情况下业务不受影响。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
ELB |
SYS.ELB |
健康检查异常 |
healthCheckUnhealthy |
重要 |
一般是由于后端服务器服务离线导致。事件上报一定次数后,不再上报。 |
检查后端服务器的服务运行状态。 |
ELB不会往异常的后端转发流量,如果云服务器组下只有一个后端,则业务会中断。 |
健康检查恢复正常 |
healthCheckRecovery |
次要 |
后端服务器健康检查恢复正常。 |
无需处理。 |
负载均衡器到后端服务器流量恢复正常。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
CBR |
SYS.CBR |
创建备份失败 |
backupFailed |
紧急 |
创建备份失败 |
尝试手动创建备份或者联系技术支持 |
可能造成数据丢失 |
使用备份恢复资源失败 |
restorationFailed |
紧急 |
使用备份恢复资源失败 |
尝试使用其他备份恢复或者联系技术支持 |
可能造成数据丢失 |
||
备份删除失败 |
backupDeleteFailed |
紧急 |
备份删除失败 |
稍后重试删除或者联系技术支持 |
可能造成计费异常 |
||
存储库删除失败 |
vaultDeleteFailed |
紧急 |
储存库删除失败 |
稍后重试或联系技术支持 |
可能造成计费异常 |
||
复制失败 |
replicationFailed |
紧急 |
备份复制失败 |
稍后重试或联系技术支持 |
可能造成数据丢失 |
||
创建备份成功 |
backupSucceeded |
重要 |
创建备份成功 |
无 |
无 |
||
使用备份恢复资源成功 |
restorationSucceeded |
重要 |
使用备份恢复资源成功 |
观察数据是否已成功恢复。 |
无 |
||
备份删除成功 |
backupDeletionSucceeded |
重要 |
备份删除成功 |
无 |
无 |
||
存储库删除成功 |
vaultDeletionSucceeded |
重要 |
存储库删除成功 |
无 |
无 |
||
复制成功 |
replicationSucceeded |
重要 |
备份复制成功 |
无 |
无 |
||
客户端离线 |
agentOffline |
紧急 |
客户端离线 |
请确保客户端状态正常且能够正常连接华为云。 |
可能造成备份任务失败。 |
||
客户端上线 |
agentOnline |
重要 |
客户端上线 |
无。 |
无。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
RDS |
SYS.RDS |
创建实例业务失败 |
createInstanceFailed |
重要 |
创建实例失败产生的事件,一般是磁盘个数,配额大小不足,底层资源耗尽导致。 |
所选资源规格不足,请选择其他可用规格重试。 |
创建实例失败。 |
实例全量备份失败 |
fullBackupFailed |
重要 |
单次全量备份失败产生的事件,不影响以前成功备份的文件,但会对“恢复到指定时间点”的功能有一些影响,导致“恢复到指定时间点”时增量备份的恢复时间延长。 |
全量备份失败,请重新进行操作。 |
全量备份失败,影响备份恢复。 |
||
主备切换异常 |
activeStandBySwitchFailed |
重要 |
主备切换异常是由于网络、物理机有某种故障导致备机没有接管主机的业务,短时间内会恢复到原主机继续提供服务。 |
主备切换失败,请在业务低峰期重新进行操作。 |
主备切换失败。 |
||
复制状态异常 |
abnormalReplicationStatus |
重要 |
出现”复制状态异常“事件通常有两种情况: 1、主机与备机或只读实例之间复制时延太大(一般在写入大量数据或执行大事务的时候出现),在业务高峰期容易出现阻塞。 2、主机与备机或只读实例之间的网络中断,导致主机与备机或只读实例复制异常。 |
数据库复制状态异常,正在进行修复,修复后会第一时间通知您,谢谢。 |
复制状态异常。 |
||
复制状态异常已恢复 |
replicationStatusRecovered |
重要 |
即复制时延已回到正常范围内,或者主备之间的网络通信恢复。 |
数据库复制状态已恢复正常,请确认业务是否正常运行。 |
复制状态异常恢复。 |
||
实例运行状态异常 |
faultyDBInstance |
重要 |
由于灾难或者物理机故障导致单机或者主实例故障时会上报本事件,属于关键告警事件。 |
实例状态异常,正在进行修复,修复后会第一时间通知您,谢谢。 |
实例状态异常。 |
||
实例运行状态异常已恢复 |
DBInstanceRecovered |
重要 |
RDS单机实例灾难或物理机故障恢复,主备实例自动进行主备故障切换,完成后会上报本事件。 |
实例状态已恢复正常,请确认业务是否正常运行。 |
实例状态异常恢复。 |
||
单实例转主备实例失败 |
singleToHaFailed |
重要 |
创建备机时或备机创建完成后主备机之间配置同步发生故障时会产生此事件,一般是由于备节点所在数据中心资源不足导致。 |
单转主备实例失败,正在进行自动重试。 |
单实例转主备实例失败。 |
||
数据库进程重新启动 |
DatabaseProcessRestarted |
重要 |
一般是内存不足、负载过高导致数据库进程停止 |
数据库重启完成,请确认业务是否正常运行。 |
主节点数据库重启,业务短暂影响。 |
||
实例磁盘满 |
instanceDiskFull |
重要 |
一般是由于数据空间占用过大导致。 |
实例磁盘满,请进行扩容操作。 |
实例磁盘空间打满,影响业务继续写入。 |
||
实例磁盘满恢复 |
instanceDiskFullRecovered |
重要 |
实例磁盘状态恢复正常。 |
磁盘可用空间恢复正常,请确认业务是否正常运行。 |
实例磁盘空间可用量恢复正常。 |
||
kafka连接失败 |
kafkaConnectionFailed |
重要 |
一般是由于网络波动或kafka服务端出现异常等原因导致。 |
检查业务是否受到影响。 |
无。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
---|---|---|---|---|---|
RDS |
SYS.RDS |
重置数据库管理员密码 |
resetPassword |
重要 |
重置数据库管理员密码。 |
集群扩容等操作 |
instanceAction |
重要 |
磁盘扩容、规格变更。 |
||
删除集群下的实例 |
deleteInstance |
次要 |
删除集群下的实例。 |
||
修改备份策略 |
setBackupPolicy |
次要 |
修改备份策略。 |
||
修改参数组 |
updateParameterGroup |
次要 |
修改参数组。 |
||
删除参数组 |
deleteParameterGroup |
次要 |
删除参数组。 |
||
重置参数组 |
resetParameterGroup |
次要 |
重置参数组。 |
||
修改数据库端口号 |
changeInstancePort |
重要 |
修改数据库端口号。 |
||
实例主备切换 |
PrimaryStandbySwitched |
重要 |
实例主备切换。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
DDS |
SYS.DDS |
创建实例业务失败 |
DDSCreateInstanceFailed |
重要 |
创建文档数据库实例失败产生的事件,一般是由于磁盘个数、配额不足,底层资源耗尽导致。 |
检查磁盘个数、配额大小是否满足需求,并考虑释放资源后重新创建实例。 |
无法创建数据库实例。 |
复制状态异常 |
DDSAbnormalReplicationStatus |
重要 |
出现”复制状态异常“事件通常有两种情况: 1、主机与备机或只读实例之间复制时延太大(一般在写入大量数据或执行大事务的时候出现),在业务高峰期容易出现阻塞。 2、主机与备机或只读实例之间的网络中断,导致主机与备机或只读实例复制异常。 |
提交工单。 |
不会导致原来实例的读写中断,客户的应用是无感知的。 |
||
复制状态异常已恢复 |
DDSReplicationStatusRecovered |
重要 |
复制时延已回到正常范围内,或者主备之间的网络通信恢复。 |
不需要处理。 |
无 |
||
实例运行状态异常 |
DDSFaultyDBInstance |
重要 |
由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。 |
提交工单。 |
可能导致数据库服务不可用。 |
||
实例运行状态异常已恢复 |
DDSDBInstanceRecovered |
重要 |
针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 |
不需要处理。 |
无 |
||
节点运行状态异常 |
DDSFaultyDBNode |
重要 |
由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。 |
检查数据库服务是否可以正常使用,并提交工单。 |
可能导致数据库服务不可用。 |
||
节点运行状态异常已恢复 |
DDSDBNodeRecovered |
重要 |
针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 |
不需要处理。 |
无 |
||
实例主备切换 |
DDSPrimaryStandbySwitched |
重要 |
在手动触发的主备倒换或节点故障自动触发的故障倒换场景下,会上报该事件。 |
不需要处理。 |
无 |
||
数据盘空间不足 |
DDSRiskyDataDiskUsage |
重要 |
数据盘空间不足,产生此告警。 |
请参见对应服务用户指南中“扩容磁盘”的内容,进行磁盘扩容。 |
实例被设为只读模式,数据无法写入。 |
||
数据盘空间已扩容并恢复可写 |
DDSDataDiskUsageRecovered |
重要 |
数据盘空间已扩容并恢复可写,产生此事件。 |
无需处理。 |
无影响。 |
||
用户计划删除KMS密钥 |
DDSplanDeleteKmsKey |
重要 |
一般是由于用户计划删除kms的key导致。 |
计划删除kms的key后,及时恢复kms的key或者及时解密数据。 |
kms的key被删除后用户无法进行磁盘加密。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
NoSQL |
SYS.NoSQL |
创建实例业务失败 |
NoSQLCreateInstanceFailed |
重要 |
一般是由于实例配额不足或底层资源不足等原因导致。 |
先释放不再使用的实例再尝试重新发放,或者提交工单调整配额上限。 |
无法创建数据库实例。 |
变更规格失败 |
NoSQLResizeInstanceFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源再重试规格变更操作。 |
业务中断。 |
||
添加节点失败 |
NoSQLAddNodesFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源,删除添加失败的节点,重新尝试添加新节点。 |
无 |
||
删除节点失败 |
NoSQLDeleteNodesFailed |
重要 |
一般是由于底层释放资源失败导致。 |
重新尝试删除节点。 |
无 |
||
扩卷失败 |
NoSQLScaleUpStorageFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源再重试扩卷操作。 |
如果磁盘满,会导致业务中断。 |
||
重置密码失败 |
NoSQLResetPasswordFailed |
重要 |
一般是由于重置密码命令超时导致。 |
重新尝试重置密码操作。 |
无 |
||
修改参数组失败 |
NoSQLUpdateInstanceParamGroupFailed |
重要 |
一般是由于修改参数组命令超时导致。 |
重新尝试修改参数组操作。 |
无 |
||
设置备份策略失败 |
NoSQLSetBackupPolicyFailed |
重要 |
一般是由于数据库连接异常导致。 |
重新重试设置备份策略操作。 |
无 |
||
创建手动备份失败 |
NoSQLCreateManualBackupFailed |
重要 |
一般是备份文件导出失败或上传失败等原因导致。 |
提交工单让运维处理。 |
无法备份数据。 |
||
创建自动备份失败 |
NoSQLCreateAutomatedBackupFailed |
重要 |
一般是备份文件导出失败或上传失败等原因导致。 |
提交工单让运维处理。 |
无法备份数据。 |
||
实例运行状态异常 |
NoSQLFaultyDBInstance |
重要 |
由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。 |
提交工单。 |
可能导致数据库服务不可用。 |
||
实例运行状态异常已恢复 |
NoSQLDBInstanceRecovered |
重要 |
针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 |
不需要处理。 |
无 |
||
节点运行状态异常 |
NoSQLFaultyDBNode |
重要 |
由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。 |
检查数据库服务是否可以正常使用,并提交工单。 |
可能导致数据库服务不可用。 |
||
节点运行状态异常已恢复 |
NoSQLDBNodeRecovered |
重要 |
针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 |
不需要处理。 |
无 |
||
实例主备切换 |
NoSQLPrimaryStandbySwitched |
重要 |
在手动触发的主备倒换或节点故障自动触发的故障倒换场景下,会上报该事件。 |
不需要处理。 |
无 |
||
出现热点分区键 |
HotKeyOccurs |
重要 |
客观上是因为主键设置不合理,使得热点数据集中分布在一个分区。客户端不合理的应用程序设计,造成对某一key的频繁读写。 |
1. 选择合理的分区键。 2. 业务增加缓存,业务应用先从缓存中读取热点数据。 |
影响业务请求成功率,存在影响集群性能及稳定性的风险。 |
||
出现超大分区键 |
BigKeyOccurs |
重要 |
主键设计不合理,单个分区的记录数或数据量过大,引起了节点负载不均。 |
1. 选择合理的分区键 2. 基于现有分区键,增加分区键散列。 |
随着数据量增长,集群稳定性会下降。 |
||
数据盘空间不足 |
NoSQLRiskyDataDiskUsage |
重要 |
数据盘空间不足,产生此告警。 |
请参见对应服务用户指南中“扩容磁盘”的内容,进行磁盘扩容。 |
实例被设为只读模式,数据无法写入。 |
||
数据盘空间已扩容并恢复可写 |
NoSQLDataDiskUsageRecovered |
重要 |
数据盘空间已扩容并恢复可写,产生此事件。 |
无需处理。 |
无 |
||
创建索引失败 |
NoSQLCreateIndexFailed |
重要 |
业务负载超过实例规格瓶颈,此时再创建索引会耗费更多实例资源,导致响应变慢甚至卡顿,最终超时,引起索引创建失败。 |
1、根据业务负载,选择匹配的实例规格 2、在业务低峰期创建索引 3、使用后台方式创建索引 4、索引字段,结合业务进行合理选择。 |
索引创建失败或不完整,导致索引无效,需要删掉索引重新创建。 |
||
发生写入降速 |
NoSQLStallingOccurs |
重要 |
写入速度快,接近集群规模和实例规格范围允许最大写能力,从而触发数据库自身的限流机制,会发生请求失败情况 |
1. 根据业务的最大写请求速率,调整集群规模或者节点规格 2. 衡量业务的最大写请求速率,分散业务写峰值速率 |
影响业务的请求的成功率 |
||
发生写入停止 |
NoSQLStoppingOccurs |
重要 |
写入速度过快,达到集群规模和实例规格范围允许最大写能力,从而触发数据库自身的限流机制,会发生请求失败情况 |
1. 根据业务的最大写请求速率,调整集群规模或者节点规格 2. 衡量业务的最大写请求速率,分散业务写峰值速率 |
影响业务的请求的成功率 |
||
重启数据库失败 |
NoSQLRestartDBFailed |
重要 |
一般是由于实例状态异常等原因导致。 |
提交工单让运维处理。 |
数据库实例状态可能存在异常。 |
||
恢复到新实例失败 |
NoSQLRestoreToNewInstanceFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源,重新尝试添加新节点。 |
无法恢复到新的数据库实例。 |
||
恢复到已有实例失败 |
NoSQLRestoreToExistInstanceFailed |
重要 |
一般是由于备份文件下载或恢复失败等原因导致。 |
提交工单让运维处理。 |
当前数据库实例可能处于不可用状态。 |
||
删除备份文件失败 |
NoSQLDeleteBackupFailed |
重要 |
一般是由于备份文件从obs删除失败导致。 |
重新尝试删除备份文件。 |
无 |
||
切换慢日志明文开关失败 |
NoSQLSwitchSlowlogPlainTextFailed |
重要 |
一般是由于引擎不支持切换等原因导致。 |
请查阅NoSQL用户指南,确认引擎支持打开慢日志明文开关。提交工单让运维处理。 |
无 |
||
绑定EIP失败 |
NoSQLBindEipFailed |
重要 |
一般是由于节点状态不正常,节点已经绑定EIP或EIP非法等原因导致。 |
检查节点是否正常,EIP是否合法。 |
无法通过公网访问数据库实例。 |
||
解绑EIP失败 |
NoSQLUnbindEipFailed |
重要 |
一般是由于节点状态不正常,节点已经未绑定EIP等原因导致。 |
检查节点和EIP状态是否正常。 |
无 |
||
修改参数失败 |
NoSQLModifyParameterFailed |
重要 |
一般是由于参数取值非法等原因导致。 |
排查参数值是否符合在合法范围内,提交工单让运维处理。 |
无 |
||
参数组应用失败 |
NoSQLApplyParameterGroupFailed |
重要 |
一般是由于实例状态异常导致参数组无法应用等原因导致。 |
提交工单让运维处理。 |
无 |
||
开启或关闭SSL失败 |
NoSQLSwitchSSLFailed |
重要 |
一般是由于修改SSL命令超时导致。 |
重新提交一次或者提交工单处理,并先保持切换之前使用SSL的连接方式。 |
是否使用SSL连接。 |
||
单行数据量太大 |
LargeRowOccurs |
重要 |
用户单行数据量过大,可能会导致查询超时,进而节点OOM异常退出等各种故障发生。 |
1. 对每列和每行的写入长度做限制,遵从规范,使得单行的的key和value长度和不超过阈值。 2. 排查业务是否出现异常写入和异常编码,导致写入大row。 |
过大的单行记录,随着数据量增长,集群稳定性会下降。 |
||
用户计划删除KMS密钥 |
NoSQLplanDeleteKmsKey |
重要 |
一般是由于用户计划删除kms的key导致。 |
计划删除kms的key后,及时恢复kms的key或者及时解密数据。 |
kms的key被删除后用户无法进行磁盘加密。 |
||
查询墓碑数过多 |
TooManyQueryTombstones |
重要 |
查询墓碑数过多,可能会导致查询超时,影响查询性能。 |
使用合理的查询删除方式,避免大批次的范围查询 |
可能会导致查询超时,影响查询性能。 |
||
超大集合列 |
TooLargeCollectionColumn |
重要 |
当集合列元素个数太多时,会出现集合列查询失败。 |
|
会出现集合列查询失败。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
GaussDB(for MySQL) |
SYS.GAUSSDB |
实例增量备份业务失败 |
TaurusIncrementalBackupInstanceFailed |
重要 |
实例增量备份失败产生的事件,一般是管理节点到实例网络或者实例到OBS存储的网络异常,或者实例备份环境异常。 |
提交工单。 |
无法完成实例备份业务操作。 |
添加只读节点失败 |
addReadonlyNodesFailed |
重要 |
创建实例只读节点失败产生的事件,一般是底层资源耗尽导致。 |
检查并释放资源后重新创建。 |
无法创建数据库实例只读节点。 |
||
创建实例业务失败 |
createInstanceFailed |
重要 |
创建实例失败产生的事件,一般是配额大小不足,底层资源耗尽导致。 |
检查配额大小,释放资源后重新创建。 |
无法创建数据库实例。 |
||
主备切换异常 |
activeStandBySwitchFailed |
重要 |
主备切换异常主要是由于网络、物理机有某种故障导致只读节点没有接管主节点的业务,短时间内会恢复到原主节点继续提供服务。 |
提交工单。 |
无法完成主备切换(只读升主)。 |
||
规格变更业务失败 |
flavorAlterationFailed |
重要 |
规格变更失败产生的事件,一般是配额大小不足,底层资源耗尽导致。 |
提交工单。 |
无法完成规格变更。 |
||
实例运行状态异常 |
TaurusInstanceRunningStatusAbnormal |
重要 |
实例运行状态异常产生的事件,可能原因是实例进程故障,或者实例到DFV存储间通信问题。 |
提交工单。 |
实例异常,业务可能受损。 |
||
实例运行状态异常已恢复 |
TaurusInstanceRunningStatusRecovered |
重要 |
实例运行状态异常后恢复产生的事件。 |
观察业务运行情况。 |
无。 |
||
节点运行状态异常 |
TaurusNodeRunningStatusAbnormal |
重要 |
运行节点状态异常产生的事件,可能原因是节点进程故障,或者节点到DFV存储间通信问题。 |
观察实例状态和业务运行情况。 |
节点异常,可能触发只读升主。 |
||
节点运行状态异常已恢复 |
TaurusNodeRunningStatusRecovered |
重要 |
节点运行状态异常后恢复产生的事件。 |
观察业务情况。 |
无。 |
||
删除只读节点失败 |
TaurusDeleteReadOnlyNodeFailed |
重要 |
删除只读节点失败产生的事件,可能原因是管理面到实例节点通信异常或者请求IaaS删除虚机失败。 |
提交工单。 |
无法完成删除只读节点操作。 |
||
实例重置密码失败 |
TaurusResetInstancePasswordFailed |
重要 |
实例重置密码失败产生的事件,可能原因是管理面到实例通信异常或者实例状态异常件。 |
检查确认实例状态后重试,未解决则提交工单。 |
无法完成实例重置密码操作。 |
||
实例重启失败 |
TaurusRestartInstanceFailed |
重要 |
实例重启失败产生的事件,可能原因是管理面到实例通信异常或者实例状态异常件。 |
检查确认实例状态后重试,未解决则提交工单。 |
无法完成实例重启操作。 |
||
恢复到新实例失败 |
TaurusRestoreToNewInstanceFailed |
重要 |
恢复到新实例失败产生的事件,一般是新创建实例配额大小不足,底层资源耗尽导致或者数据恢复逻辑出错。 |
如果是新创建实例失败,检查配额大小,释放资源后重新恢复到新实例,其他情况提交工单。 |
无法完成恢复到新实例。 |
||
实例绑定EIP失败 |
TaurusBindEIPToInstanceFailed |
重要 |
实例绑定EIP失败产生的事件,绑定任务执行错误。 |
提交工单。 |
无法完成绑定EIP操作。 |
||
实例解绑EIP失败 |
TaurusUnbindEIPFromInstanceFailed |
重要 |
实例解绑EIP失败产生的事件,绑定任务执行错误。 |
提交工单。 |
无法完成解绑EIP操作。 |
||
实例修改参数失败 |
TaurusUpdateInstanceParameterFailed |
重要 |
实例修改参数失败产生的事件,一般是管理节点到实例网络异常,或者实例状态异常。 |
检查确认实例状态后重试,未解决则提交工单。 |
无法完成实例修改参数操作。 |
||
实例参数组应用失败 |
TaurusApplyParameterGroupToInstanceFailed |
重要 |
实例参数组应用失败产生的事件,一般是管理节点到实例网络异常,或者实例状态异常。 |
检查确认实例状态后重试,未解决则提交工单。 |
无法完成实例参数组应用操作。 |
||
实例全量备份业务失败 |
TaurusBackupInstanceFailed |
重要 |
实例全量备份失败产生的事件,一般是管理节点到实例网络或者实例到OBS存储的网络异常,或者实例备份环境异常。 |
提交工单。 |
无法完成实例备份业务操作。 |
||
实例发生主备倒换 |
TaurusActiveStandbySwitched |
重要 |
实例发生主备倒换,主要是由于主节点的网络,物理机以及数据库运行出现故障时,GaussDB HA系统会按照倒换优先级将1个只读节点升为主机,以持续提供服务。 |
|
倒换时业务连接会短时间中断,升主完成后可重新连接数据库。 |
||
数据库设置为只读模式 |
NodeReadonlyMode |
重要 |
数据库设置为只读状态,只支持查询类操作。 |
提交工单。 |
数据库设置只读状态后,所有写业务返回失败。 |
||
数据库设置为读写模式 |
NodeReadWriteMode |
重要 |
数据库设置为读写状态 |
提交工单。 |
无 |
||
实例容灾切换 |
DisasterSwitchOver |
重要 |
实例故障不可用,通过主备切换保证数据库继续对外提供服务。 |
联系技术支持团队处理。 |
访问数据库的业务出现闪断,高可用服务通过切换机制保证新机器升主继续对外提供服务。 |
||
数据库进程重新启动 |
TaurusDatabaseProcessRestarted |
重要 |
一般是内存不足、负载过高导致数据库进程停止。 |
通过云监控的数据,查看是否有内存飙升、CPU长期过高等的情况,可以选择提升CPU内存规格或者优化业务逻辑。 |
数据库进程挂掉的时候,该节点业务中断。高可用服务会自动拉起进程,尝试恢复业务。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
GaussDB |
SYS.GAUSSDBV5 |
进程状态告警 |
ProcessStatusAlarm |
重要 |
GaussDB关键进程退出,包括:CMS/CMA、ETCD、GTM、CN、DN。 |
等待进程自动恢复或者自动主备切换,观察业务是否恢复。如果业务未恢复,联系SRE。 |
主机进程故障,在主机上进行的业务将中断回滚。备机进程故障不影响业务。 |
组件状态告警 |
ComponentStatusAlarm |
重要 |
GaussDB关键组件无响应,包括:CMA、ETCD、GTM、CN、DN。 |
等待进程自动恢复或者自动主备切换,观察业务是否恢复。如果业务未恢复,联系SRE。 |
主机进程无响应,在主机上进行的业务将无响应。备机进程故障不影响业务。 |
||
集群状态告警 |
ClusterStatusAlarm |
重要 |
集群状态异常,包括: 集群只读、ETCD多数派故障、集群分布不均衡。 |
联系SRE。 |
集群只读: 业务只读。 ETCD多数派故障:集群不可用。 集群分布不均衡:集群性能/可靠性降低。 |
||
硬件资源告警 |
HardwareResourceAlarm |
重要 |
集群中出现严重的硬件故障,包括:磁盘损坏、GTM网络通信故障。 |
联系SRE。 |
业务部分/全部受损。 |
||
状态转换告警 |
StateTransitionAlarm |
重要 |
集群出现如下重要事件:DN build/build失败、DN强切、DN主备切换/failover、GTM主备切换/failover。 |
等待自动恢复,观察业务是否恢复。如果业务未恢复,联系SRE。 |
部分业务受损。 |
||
其他异常告警 |
OtherAbnormalAlarm |
重要 |
磁盘使用阈值告警等。 |
关注业务变化,及时计划扩容。 |
超过使用阈值,将无法扩容。 |
||
实例运行状态异常 |
TaurusInstanceRunningStatusAbnormal |
重要 |
由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。 |
提交工单。 |
可能导致数据库服务不可用。 |
||
实例运行状态异常已恢复 |
TaurusInstanceRunningStatusRecovered |
重要 |
针对灾难性的故障,GaussDB有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 |
不需要处理。 |
无 |
||
节点运行状态异常 |
TaurusNodeRunningStatusAbnormal |
重要 |
由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。 |
检查数据库服务是否可以正常使用,并提交工单。 |
可能导致数据库服务不可用。 |
||
节点运行状态异常已恢复 |
TaurusNodeRunningStatusRecovered |
重要 |
针对灾难性的故障,GaussDB有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 |
不需要处理。 |
无 |
||
创建实例业务失败 |
GaussDBV5CreateInstanceFailed |
重要 |
创建实例失败产生的事件,一般是配额大小不足,底层资源耗尽导致。 |
先释放不再使用的实例再尝试重新发放,或者提交工单调整配额上限。 |
无法创建数据库实例。 |
||
添加节点失败 |
GaussDBV5ExpandClusterFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源,删除添加失败的节点,重新尝试添加新节点。 |
无 |
||
存储扩容失败 |
GaussDBV5EnlargeVolumeFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源再重试扩容操作。 |
如果磁盘满,会导致业务中断。 |
||
重启失败 |
GaussDBV5RestartInstanceFailed |
重要 |
一般是由于网络问题等原因导致 |
重试重启操作或提交工单让运维处理。 |
可能导致数据库服务不可用。 |
||
全量备份失败 |
GaussDBV5FullBackupFailed |
重要 |
一般是备份文件导出失败或上传失败等原因导致。 |
提交工单让运维处理。 |
无法备份数据。 |
||
差量备份失败 |
GaussDBV5DifferentialBackupFailed |
重要 |
一般是备份文件导出失败或上传失败等原因导致。 |
提交工单让运维处理。 |
无法备份数据。 |
||
删除备份失败 |
GaussDBV5DeleteBackupFailed |
重要 |
无需实现。 |
- |
- |
||
绑定EIP失败 |
GaussDBV5BindEIPFailed |
重要 |
弹性公网IP已被占用或IP资源等原因导致。 |
提交工单让运维处理。 |
导致实例无法使用公网链接或访问 |
||
解绑EIP失败 |
GaussDBV5UnbindEIPFailed |
重要 |
网络故障或公网EIP服务故障等原因导致。 |
重新解绑Ip或提交工单让运维处理。 |
可能导致IP资源残留 |
||
参数组应用失败 |
GaussDBV5ApplyParamFailed |
重要 |
一般是由于修改参数组命令超时导致。 |
重新尝试修改参数组操作。 |
无 |
||
参数修改失败 |
GaussDBV5UpdateInstanceParamGroupFailed |
重要 |
一般是由于修改参数组命令超时导致。 |
重新尝试修改参数组操作。 |
无 |
||
备份恢复失败 |
GaussDBV5RestoreFromBcakupFailed |
重要 |
一般是由底层资源不足或备份文件下载失败等原因导致 |
提交工单。 |
可能导致在恢复失败期间数据库服务不可用 |
||
升级热补丁失败 |
GaussDBV5UpgradeHotfixFailed |
重要 |
一般是内核升级时报错导致。 |
查看工作流报错信息,重做跳过等。 |
无 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
DDM |
SYS.DDM |
创建实例失败 |
createDdmInstanceFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
释放资源后重新创建。 |
无法创建DDM实例。 |
变更规格失败 |
resizeFlavorFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
请工单联系运维在后台协调资源再重试规格变更操作。 |
部分节点业务中断 |
||
节点扩容失败 |
enlargeNodeFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
请工单联系运维后台协调资源,删除添加失败的节点,重新尝试添加节点 |
节点扩容失败 |
||
节点缩容失败 |
reduceNodeFailed |
重要 |
一般是由于底层释放资源失败等原因导致。 |
请工单联系运维后台处理资源。 |
节点缩容失败 |
||
重启实例失败 |
restartInstanceFailed |
重要 |
一般是由于底层关联数据库实例异常等原因导致。 |
建议先排查底层数据库实例是否异常,如果无异常请工单联系运维进行排查。 |
部分节点业务中断 |
||
创建逻辑库失败 |
createLogicDbFailed |
重要 |
一般是由于以下几种原因导致的: 1、数据库实例账号密码错误;2、DDM实例与底层数据库实例安全组设置错误,导致无法通信。 |
请排查: 1、数据库实例账号密码是否错误;2、DDM实例与底层数据库实例安全组是否设置正确等问题。 |
业务无法正常运行 |
||
绑定弹性公网IP失败 |
bindEipFailed |
重要 |
一般是由于EIP服务繁忙。 |
稍后重试,紧急情况下请联系运维排查问题。 |
无法通过公网访问服务 |
||
逻辑库扩容失败 |
migrateLogicDbFailed |
重要 |
一般是由于底层处理失败。 |
请工单联系运维处理。 |
无法实现逻辑库扩容 |
||
逻辑库扩容重试失败 |
retryMigrateLogicDbFailed |
重要 |
一般是由于底层处理失败。 |
请工单联系运维处理。 |
无法实现逻辑库扩容 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
CPH |
SYS.CPH |
主机关机 |
cphServerOsShutdown |
重要 |
云手机服务器关机。包括:
|
业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 |
业务中断。 |
异常关机 |
cphServerShutdown |
重要 |
云手机服务器异常关机。包括:
|
业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 |
业务中断。 |
||
主机重启 |
cphServerOsReboot |
重要 |
云手机服务器重启。包括:
|
业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 |
业务中断 |
||
异常重启 |
cphServerReboot |
重要 |
云手机服务器异常重启。包括:
|
业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 |
业务中断。 |
||
网络中断 |
cphServerlinkDown |
重要 |
云手机服务器网络中断。包括:
|
业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 |
业务中断。 |
||
PCIE异常 |
cphServerPcieError |
重要 |
云手机服务器PCIe设备硬件故障。包括:
|
业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 |
影响网络或硬盘读写业务 |
||
硬盘故障 |
cphServerDiskError |
重要 |
云手机服务器磁盘故障。包括:
|
业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 |
影响数据读写业务或主机无法启动 |
||
云存储连接异常 |
cphServerStorageError |
重要 |
云手机服务器云硬盘链接异常。包括:
|
业务应用做成高可用。 主机恢复后,确认业务是否自动恢复。 |
影响数据读写业务或主机无法启动 |
||
显卡掉线 |
cphServerGpuOffline |
重要 |
云手机服务器GPU显卡松动掉线 |
云手机服务器进行一次关机、开机操作 |
显卡掉线涉及的云手机出现运行故障,重启重置手机无法恢复 |
||
显卡TimeOut |
cphServerGpuTimeOut |
重要 |
云手机服务器GPU显卡TimeOut |
重启云手机服务器 |
显卡Timeout涉及的云手机出现运行故障,重启重置手机无法恢复 |
||
磁盘空间满 |
cphServerDiskFull |
重要 |
云手机服务器磁盘空间满 |
客户需要清理云手机里的业务数据,释放空间 |
云手机亚健康,容易出现故障无法启动 |
||
磁盘变只读 |
cphServerDiskReadOnly |
重要 |
云手机服务器磁盘变成只读 |
重启云手机服务器 |
云手机亚健康,容易出现故障无法启动 |
||
云手机元数据损坏 |
cphPhoneMetaDataDamage |
重要 |
云手机的容器元数据损坏 |
联系运维处理 |
云手机重启重置无法恢复 |
||
GPU故障 |
gpuAbnormal |
致命 |
GPU发生故障 |
提交工单转运维处理 |
业务中断 |
||
GPU恢复正常 |
gpuNormal |
提示 |
GPU从故障中恢复正常 |
无需处理 |
无 |
||
内核崩溃 |
kernelCrash |
致命 |
内核崩溃crash |
提交工单转运维处理 |
crash期间业务中断 |
||
内核OOM |
kernelOom |
重要 |
内核日志提示out of memory |
提交工单转运维处理 |
业务中断 |
||
硬件故障 |
hardwareError |
致命 |
内核日志报Hardware Error |
提交工单转运维处理 |
业务中断 |
||
PCIE故障 |
pcieAer |
致命 |
内核日志报PCIE Bus Error |
提交工单转运维处理 |
业务中断 |
||
SCSI故障 |
scsiError |
致命 |
内核日志报SCSI error |
提交工单转运维处理 |
业务中断 |
||
镜像存储只读故障 |
partReadOnly |
致命 |
镜像存储分区挂载属性变为readonly |
提交工单转运维处理 |
业务中断 |
||
镜像存储超级块损坏故障 |
badSuperBlock |
致命 |
镜像存储分区相关文件系统超级块损坏 |
提交工单转运维处理 |
业务中断 |
||
镜像存储sharedpath只读故障 |
isuladMasterReadOnly |
致命 |
镜像存储的/.sharedpath/master挂载属性只读 |
提交工单转运维处理 |
业务中断 |
||
云手机数据盘只读故障 |
cphDiskReadOnly |
致命 |
云手机数据盘挂载属性变为readonly |
提交工单转运维处理 |
业务中断 |
||
云手机数据盘超级块损坏故障 |
cphDiskBadSuperBlock |
致命 |
云手机数据盘相关文件系统超级块损坏 |
提交工单转运维处理 |
业务中断 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
L2CG |
SYS.ESW |
IP地址冲突 |
IPConflict |
重要 |
一般是由于线上(本端子网)与线下(远端网段)存在相关IP地址的主机导致。 |
通过查看ARP、交换机信息等措施,排查出具体IP冲突的主机,根据业务场景调整IP避免冲突。 |
可能导致冲突IP相关网络通信异常。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
---|---|---|---|---|
弹性公网IP和带宽 |
SYS.VPC |
删除VPC |
deleteVpc |
重要 |
修改VPC |
modifyVpc |
次要 |
||
删除Subnet |
deleteSubnet |
次要 |
||
修改Subnet |
modifySubnet |
次要 |
||
修改带宽 |
modifyBandwidth |
次要 |
||
删除VPN |
deleteVpn |
重要 |
||
修改VPN |
modifyVpn |
次要 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
EVS |
SYS.EVS |
更新磁盘 |
updateVolume |
次要 |
更新一个云硬盘的名称和描述。 |
无需处理。 |
无。 |
扩容磁盘 |
extendVolume |
次要 |
对云硬盘进行扩容。 |
无需处理。 |
无。 |
||
删除磁盘 |
deleteVolume |
重要 |
删除一个云硬盘。 |
无需处理。 |
删除的磁盘将不能被恢复。 |
||
磁盘性能达到QoS上限 |
reachQoS |
重要 |
磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大。 |
磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大,意味该类型的磁盘可能无法满足当前业务需求,建议提升磁盘规格。 |
磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大,意味该类型的磁盘可能无法满足当前业务需求,建议提升磁盘规格 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
---|---|---|---|---|
IAM |
SYS.IAM |
用户登录 |
login |
次要 |
用户登出 |
logout |
次要 |
||
登录重置密码 |
changePassword |
重要 |
||
创建用户 |
createUser |
次要 |
||
删除用户 |
deleteUser |
重要 |
||
修改用户 |
updateUser |
次要 |
||
创建用户组 |
createUserGroup |
次要 |
||
删除用户组 |
deleteUserGroup |
重要 |
||
修改用户组 |
updateUserGroup |
次要 |
||
创建idp |
createIdentityProvider |
次要 |
||
删除idp |
deleteIdentityProvider |
重要 |
||
修改idp |
updateIdentityProvider |
次要 |
||
更新metadata |
updateMetadata |
次要 |
||
更新账号登录策略 |
updateSecurityPolicies |
重要 |
||
创建AK/SK |
addCredential |
重要 |
||
删除AK/SK |
deleteCredential |
重要 |
||
创建project |
createProject |
次要 |
||
更新project |
updateProject |
次要 |
||
冻结项目 |
suspendProject |
重要 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
---|---|---|---|---|
KMS |
SYS.KMS |
禁用密钥 |
disableKey |
重要 |
计划删除密钥 |
scheduleKeyDeletion |
次要 |
||
退役授权 |
retireGrant |
重要 |
||
撤销授权 |
revokeGrant |
重要 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
---|---|---|---|---|
OBS |
SYS.OBS |
删除桶 |
deleteBucket |
重要 |
删除桶policy配置 |
deleteBucketPolicy |
重要 |
||
设置桶的ACL |
setBucketAcl |
次要 |
||
设置桶的策略 |
setBucketPolicy |
次要 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
---|---|---|---|---|---|---|
Cloud Eye |
SYS.CES |
插件故障事件 |
agentHeartbeatInterrupted |
重要 |
监控插件每1分钟发送1次心跳;当服务端3分钟收不到插件心跳时,“插件状态”显示为“故障”。 |
|
插件已恢复 |
agentResumed |
提示 |
客户端插件已恢复运行。 |
不需要处理。 |
||
插件已故障 |
agentFaulty |
重要 |
客户端插件运行故障,上报对应状态。 |
Agent进程故障,先尝试重启Agent。如果重启后状态还是故障,可能Agent相关文件被破坏,请尝试重新安装Agent。 请将Agent更新为最新版本。 |
||
插件已断联 |
agentDisconnected |
重要 |
监控插件每1分钟发送1次心跳;当服务端3分钟收不到插件心跳时,“插件状态”显示为“故障”。 |
查看Agent域名是否无法解析。 查看账号是否欠费。 Agent进程故障,先尝试重启Agent。如果重启后状态还是故障,可能Agent相关文件被破坏,请尝试重新安装Agent。 查看服务器内部时间和本地标准时间不一致。 使用的DNS非华为云DNS,请通过执行dig+目标域名获取到agent.ces.myhuaweicloud.com在华为云内网DNS下解析到的IP后再添加对应的hosts。请将Agent更新为最新版本。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
Data Space |
SYS.HWDS |
新增修订版本 |
newRevision |
次要 |
数据产品发布了新的修订版本。 |
收到事件通知后根据需要导出新的修订版本数据。 |
无。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
ESW |
SYS.ESW |
IP地址冲突 |
IPConflict |
重要 |
L2互联场景:一般是由于线上(本端子网)与线下(远端网段)存在相关IP地址的主机导致。 |
通过查看ARP、交换机信息等措施,排查出具体IP冲突的主机,根据业务场景调整IP避免冲突。 |
可能导致冲突IP相关网络通信异常。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
CSMS |
SYS.CSMS |
操作待删除凭据 |
operateDeletedSecret |
重要 |
用户调用接口操作计划删除状态凭据。 |
用户可以考虑取消删除该凭据。 |
到期删除的凭据无法恢复。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
DCS |
SYS.DCS |
在线迁移发生全量重试 |
migrationFullResync |
次要 |
在线迁移在重试时,因无法进行增量同步,而触发了全量同步。 |
确认是否发生反复的全量重试,需要检查到源端的网络连接是否正常,是否源端压力过大。如果反复全量重试,联系运维人员处理。 |
迁移任务与源实例发生中断,重新触发了全量同步,可能导致源实例CPU冲高。 |
实例主备切换(故障切换) |
masterStandbyFailover |
次要 |
Redis主节点异常,触发主从倒换机制,备节点升主。 |
检查业务是否自愈。如果应用未恢复,需要重启应用进行恢复。 |
实例长连接会中断。 |
||
Memcached主从倒换 |
memcachedMasterStandbyFailover |
次要 |
Memcached主节点异常,触发主从倒换机制,备节点升主。 |
检查业务是否自愈。如果应用未恢复,需要重启应用进行恢复。 |
实例长连接会中断。 |
||
Redis节点状态异常 |
redisNodeStatusAbnormal |
重要 |
Redis节点状态异常。 |
检查业务是否受影响 ,如果影响联系运维人员处理。 |
节点状态异常,主节点异常会自动主备切换。从节点异常,如果客户端直连从节点进行读写分离,读操作会出现异常。 |
||
Redis节点状态恢复正常 |
redisNodeStatusNormal |
重要 |
Redis节点从异常恢复正常。 |
检查业务是否恢复。如果应用未重连,需要重启应用进行恢复。 |
异常恢复事件。 |
||
数据迁移同步失败 |
migrateSyncDataFail |
重要 |
执行在线迁移任务时,迁移任务失败。 |
重新配置迁移任务重试迁移。如果仍然失败,联系运维人员处理。 |
数据迁移失败。 |
||
Memcached实例状态异常 |
memcachedInstanceStatusAbnormal |
重要 |
Memcached节点状态异常。 |
检查业务是否受影响 ,如果影响联系运维人员处理。 |
Memcached实例状态异常,实例可能无法访问。 |
||
Memcached实例状态异常恢复 |
memcachedInstanceStatusNormal |
重要 |
Memcached节点从异常恢复正常。 |
检查业务是否恢复。如果应用未重连,需要重启应用进行恢复。 |
异常恢复事件。 |
||
实例备份失败 |
instanceBackupFailure |
重要 |
DCS实例备份失败,一般可能是由于访问OBS失败等原因导致。 |
手动备份进行重试。 |
自动备份失败。 |
||
实例节点异常重启 |
instanceNodeAbnormalRestart |
重要 |
一般是由于DCS实例节点异常后重启导致。 |
检查业务是否自愈。如果应用未恢复,需要重启应用进行恢复。 |
实例长连接会中断。 |
||
终止超时lua脚本 |
scriptsStopped |
提醒 |
一般是由于lua脚本运行时间过长,自动终止脚本运行。 |
优化lua脚本,防止执行超时。 |
lua脚本执行时间超长,被强制中断。lua脚本执行时间过长,会阻塞整个实例。 |
||
节点自动重启 |
nodeRestarted |
提醒 |
一般是由于lua脚本运行时间过长,并且已执行写操作,自动重启节点终止脚本运行。 |
检查业务是否自愈。如果应用未恢复,需要重启应用进行恢复。 |
实例长连接会中断。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
ICA |
SYS.ICA |
BGP peer连接中断 |
BgpPeerDisconnection |
重要 |
BGP peer连接中断 |
登录网关设备,排查bgp peer断连原因 |
业务流量有可能会中断 |
BGP peer连接成功 |
BgpPeerConnectionSuccess |
重要 |
BGP peer连接成功 |
无 |
无 |
||
GRE隧道状态异常 |
AbnormalGreTunnelStatus |
重要 |
GRE隧道状态异常 |
登录网关设备,排查gre隧道状态异常原因 |
业务流量有可能会中断 |
||
GRE隧道状态正常 |
NormalGreTunnelStatus |
重要 |
GRE隧道状态正常 |
无 |
无 |
||
设备wan口上线 |
EquipmentWanGoingOnline |
重要 |
设备wan口上线 |
无 |
无 |
||
设备wan口下线 |
EquipmentWanGoingOffline |
重要 |
设备wan口下线 |
检查是否为人为操作或设备故障 |
设备无法正常使用 |
||
智能企业网关设备上线 |
IntelligentEnterpriseGatewayGoingOnline |
重要 |
智能企业网关设备上线 |
无 |
无 |
||
智能企业网关设备下线 |
IntelligentEnterpriseGatewayGoingOffline |
重要 |
智能企业网关设备下线 |
检查是否为人为操作或设备故障 |
设备无法正常使用 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
MAS |
SYS.MAS |
数据库状态异常 |
dbError |
重要 |
一般是由于MAS监控到用户数据库实例状态导致的。 |
用户登录MAS控制台查看原因及处理异常。 |
业务中断 |
数据库状态恢复 |
dbRecovery |
重要 |
数据库实例状态从异常恢复正常。 |
无。 |
业务中断 |
||
Redis状态异常 |
redisError |
重要 |
一般是由于MAS监控到用户Redis实例状态导致的。 |
用户登录MAS控制台查看原因及处理异常。 |
业务中断 |
||
Redis状态恢复 |
redisRecovery |
重要 |
Redis实例状态从异常恢复正常。 |
无。 |
业务中断 |
||
MongoDB状态异常 |
mongodbError |
重要 |
一般是由于MAS监控到用户MongoDB实例状态导致的。 |
用户登录MAS控制台查看原因及处理异常。 |
业务中断 |
||
MongoDB状态恢复 |
mongodbRecovery |
重要 |
API状态从异常恢复正常。 |
无。 |
业务中断 |
||
Elasticsearch状态异常 |
esError |
重要 |
一般是由于MAS监控到用户ElasticSearch实例状态导致的。 |
用户登录MAS控制台查看原因及处理异常。 |
业务中断 |
||
Elasticsearch状态恢复 |
esRecovery |
重要 |
ElasticSearch实例状态从异常恢复正常。 |
无。 |
业务中断 |
||
API接口状态异常 |
apiError |
重要 |
一般是由于MAS监控到用户API状态导致的。 |
用户登录MAS控制台查看原因及处理异常。 |
业务中断 |
||
API接口状态恢复 |
apiRecovery |
重要 |
API状态从异常恢复正常。 |
无。 |
业务中断 |
||
多活分区状态发生变化 |
netChange |
重要 |
MAS服务多活管理中心探测到多活分区状态发生变化 |
用户登录MAS控制台查看原因及处理异常。 |
可能导致多活分区网络的状态改变。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
Config |
SYS.RMS |
配置不合规通知 |
configurationNoncomplianceNotification |
重要 |
审计规则执行结果为不合规。 |
修改资源不合规的配置项,使其合规。 |
无。 |
配置合规通知 |
configurationComplianceNotification |
提示 |
审计规则执行结果变为合规。 |
无。 |
无。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
SecMaster |
SYS.SecMaster |
独享引擎创建失败 |
createEngineFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源再重试。 |
无法创建独享引擎。 |
独享引擎运行异常 |
engineException |
紧急 |
一般是由于流量过大或者恶意流程,插件导致。 |
|
无法执行实例。 |
||
剧本实例执行失败 |
playbookInstanceExecFailed |
一般 |
一般是由于剧本,流程配置出错导致。 |
通过实例监控查看失败原因,修改剧本,流程配置。 |
无。 |
||
剧本实例突增 |
playbookInstanceIncreaseSharply |
一般 |
一般是由于剧本,流程配置出错导致。 |
通过实例监控查看突增原因,修改剧本,流程配置。 |
无。 |
||
日志消息突增 |
logIncrease |
重要 |
上游服务产生大量日志,导致消息快速增加。 |
需要排查上游服务业务是否正常。 |
无。 |
||
日志消息突减 |
logsDecrease |
重要 |
上游服务产生日志突然变小。 |
需要排查上游服务业务是否正常 |
无。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
KPS |
SYS.KPS |
删除密钥对 |
KPSDeleteKeypair |
提示 |
成功删除密钥对,此操作不可逆。 |
当短时间内大量触发此事件时,要检查是否出现恶意删除的情况。 |
被删除密钥对无法恢复。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
HSS |
SYS.HSS |
企业主机安全服务Agent异常离线 |
hssAgentAbnormalOffline |
重要 |
一般是由于Agent与服务器通信异常,主机中的Agent进程异常等原因导致。 |
排查网络故障,待网络恢复正常后,若长时间Agent状态仍为“离线”,可能是Agent进程异常,需要登录主机,重启Agent进程。 |
业务中断。 |
企业主机安全服务Agent防护状态异常 |
hssAgentAbnormalProtection |
重要 |
一般是由于底层资源不足造成Agent工作模式异常等原因导致。 |
登录主机检查资源,如发现内存或者其他系统资源过高等情况,建议优先扩容处理。如果资源够用,重启Agent进程后还是异常,提交工单让运维处理 |
业务中断。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
IMS |
SYS.IMS |
创建镜像 |
createImage |
重要 |
用户创建私有镜像 |
无 |
镜像创建完成后,可使用该镜像创建云服务器。 |
更新镜像 |
updateImage |
重要 |
用户更新私有镜像元数据 |
无 |
更新镜像关键元数据可能导致该镜像创建云服务器失败。 |
||
删除镜像 |
deleteImage |
重要 |
用户删除私有镜像 |
无 |
不能使用该镜像创建云服务器。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
---|---|---|---|---|---|
CSG |
SYS.CSG |
网关进程状态异常 |
gatewayProcessStatusAbnormal |
重要 |
当云存储网关进程状态异常时,则触发进程状态异常事件。 |
网关连接状态异常 |
gatewayToServiceConnectAbnormal |
重要 |
当云存储网关连续5个周期无状态上报时,则触发连接异常事件。 |
||
网关与OBS连接状态异常 |
gatewayToObsConnectAbnormal |
重要 |
当云存储网关无法连接到OBS时,则触发该事件。 |
||
文件系统只读 |
gatewayFileSystemReadOnly |
重要 |
当云存储网关上的分区文件系统只读时,则触发该事件。 |
||
文件共享只读 |
gatewayFileShareReadOnly |
重要 |
当文件共享因缓存盘存储空间不足,文件共享只读时,则触发该事件。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
GA |
SYS.GA |
AIP封堵 |
blockAIP |
紧急 |
带宽超过5GB就会封堵,相当于把流量直接丢弃。带宽严重超限或受到攻击,一般是受到了DDoS攻击。 |
查看事件中的封堵原因,进行相应处理。 |
业务受影响。 |
AIP解封 |
unblockAIP |
紧急 |
AIP封堵已被解封。 |
查看加速资源是否可用。 |
无。 |
||
终端节点健康状态异常 |
healthCheckError |
重要 |
通过健康检查探测终端节点状态异常。 |
根据终端节点的健康检查结果异常如何排查?文档排查原因,未解决则提交工单。 |
当健康检查探测到您的终端节点异常时,不再向异常的终端节点转发流量,直到健康检查检测到终端节点恢复正常时,才会继续转发流量。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
EC |
SYS.EC |
设备wan口上线 |
EquipmentWanGoesOnline |
重要 |
设备wan口上线 |
无 |
无 |
设备wan口下线 |
EquipmentWanGoesOffline |
重要 |
设备wan口下线 |
检查是否为人为操作或设备故障 |
设备无法正常使用 |
||
BGP peer连接中断 |
BgpPeerDisconnection |
重要 |
BGP peer连接中断 |
检查是否为人为操作或设备故障 |
设备无法正常使用 |
||
BGP peer连接成功 |
BgpPeerConnectionSuccess |
重要 |
BGP peer连接成功 |
无 |
无 |
||
GRE隧道状态异常 |
AbnormalGreTunnelStatus |
重要 |
GRE隧道状态异常 |
检查是否为人为操作或设备故障 |
设备无法正常使用 |
||
GRE隧道状态正常 |
NormalGreTunnelStatus |
重要 |
GRE隧道状态正常 |
无 |
无 |
||
智能企业网关设备上线 |
IntelligentEnterpriseGatewayGoesOnline |
重要 |
智能企业网关设备上线 |
无 |
无 |
||
智能企业网关设备下线 |
IntelligentEnterpriseGatewayGoesOffline |
重要 |
智能企业网关设备下线 |
检查是否为人为操作或设备故障 |
设备无法正常使用 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
CCM |
SYS.CCM |
吊销证书 |
CCMRevokeCertificate |
重要 |
证书发起吊销,吊销后证书将不可使用 |
检查吊销证书是否在预期内,可以终止吊销行为。 |
证书吊销后,会导致业务中断。 |
自动部署证书失败 |
CCMAutoDeploymentFailure |
重要 |
自动部署证书任务发生失败 |
及时关注并且检查被替换证书的服务资源是否正常。 |
证书过期后未部署新证书,会导致业务中断。 |
||
证书过期 |
CCMCertificateExpiration |
重要 |
SSL证书过期 |
及时购买新证书。 |
证书过期后未部署新证书,会导致业务中断。 |
||
证书即将过期 |
CCMcertificateAboutToExpiration |
重要 |
SSL证书即将过期,与当前时间相隔一周,一个月,两个月的证书定义为即将到期的证书 |
及时续费或者购买新证书。 |
证书过期后未部署新证书,会导致业务中断。 |