更新时间:2025-12-15 GMT+08:00
分享

CES告警

具体配置操作请参见创建CES告警规则和关联主题通知文档,下表介绍关键的告警信息。

表1 节点指标类告警

序号

指标名称

显示名

说明

单位

取值范围

采集频率(分钟)

告警配置建议

处理建议

1

disk_inodesUsedPercent

inode已使用占比

该指标用于统计测量对象当前磁盘已使用的inode占比

%

0100%

1

|原始值|连续3|大于90|紧急|只告警1|

扩容、删文件

2

disk_ioUtils

(Agent) 磁盘I/O使用率

该指标用于统计测量对象处理I/O的时间占比

%

0100%

1

|原始值|连续3|大于90|紧急|只告警1|

扩容磁盘规格上线

3

disk_fs_rwstate

(Agent) 文件系统读写状态

该指标用于统计测量对象挂载文件系统的读写状态。状态分为:可读写(0/只读(1

-

0:可读写

1:只读

1

|原始值|连续2|等于1|紧急|只告警1|

修复文件系统和重新挂载

表2 节点事件类告警

事件名称

事件ID

事件级别

事件说明

处理建议

系统运维问询中

system_maintenance_inquiring

重要

由于底层硬件、系统运维等影响,实例在计划时间维修,任务问询中

调用ModelArts接口查询节点是否属于ModelArts,若节点属于ModelArts,调用ModelArts接口统一计划事件授权维修实例操作。

系统运维等待执行

system_maintenance_scheduled

重要

由于底层硬件、系统运维等影响,实例在计划时间维修,任务等待执行

确认执行窗口对业务的影响。

系统运维已取消

system_maintenance_canceled

重要

由于底层硬件、系统运维等影响,实例在计划时间维修,任务已取消

系统运维执行中

system_maintenance_executing

重要

由于底层硬件、系统运维等影响,实例在计划时间维修,任务执行中

等待维修结束,观察业务是否受到影响。

系统运维已完成

system_maintenance_completed

重要

由于底层硬件、系统运维等影响,实例在计划时间维修,任务已完成

等待运行状态恢复正常,确认业务是否恢复。

本地盘换盘问询中

localdisk_recovery_inquiring

重要

因本地盘故障,更换本地盘问询中

调用ModelArts接口查询节点是否属于ModelArts,若属于ModelArts,授权本地盘换盘操作。

本地盘换盘执行中

localdisk_recovery_executing

重要

因本地盘故障,更换本地盘任务执行中

等待本地盘换盘结束,观察本地盘功能是否正常。

本地盘换盘已完成

localdisk_recovery_completed

重要

因本地盘故障,更换本地盘任务已完成

等待运行状态恢复正常,确认本地盘功能是否自动恢复。

本地盘换盘失败

localdisk_recovery_failed

重要

因本地盘故障,更换本地盘任务失败

联系运维人员处理。

异常重启

serverReboot

重要

裸金属实例重启。包括:

在管理控制台进行重启操作

通过API接口下发重启指令

业务应用做成高可用。

主机恢复后,确认业务是否自动恢复。

异常关机

serverShutdown

重要

裸金属实例异常关机。包括:

主机异常下电

主机硬件故障导致关机

业务应用做成高可用。

主机恢复后,确认业务是否自动恢复。

相关文档