CES告警
具体配置操作请参见创建CES告警规则和关联主题通知文档,下表介绍关键的告警信息。
序号 | 指标名称 | 显示名 | 说明 | 单位 | 取值范围 | 采集频率(分钟) | 告警配置建议 | 处理建议 |
|---|---|---|---|---|---|---|---|---|
1 | disk_inodesUsedPercent | inode已使用占比 | 该指标用于统计测量对象当前磁盘已使用的inode占比 | % | 0~100% | 1 | |原始值|连续3次|大于90|紧急|只告警1次| | 扩容、删文件 |
2 | disk_ioUtils | (Agent) 磁盘I/O使用率 | 该指标用于统计测量对象处理I/O的时间占比 | % | 0~100% | 1 | |原始值|连续3次|大于90|紧急|只告警1次| | 扩容磁盘规格上线 |
3 | disk_fs_rwstate | (Agent) 文件系统读写状态 | 该指标用于统计测量对象挂载文件系统的读写状态。状态分为:可读写(0)/只读(1) | - | 0:可读写 1:只读 | 1 | |原始值|连续2次|等于1|紧急|只告警1次| | 修复文件系统和重新挂载 |
事件名称 | 事件ID | 事件级别 | 事件说明 | 处理建议 |
|---|---|---|---|---|
系统运维问询中 | system_maintenance_inquiring | 重要 | 由于底层硬件、系统运维等影响,实例在计划时间维修,任务问询中 | 调用ModelArts接口查询节点是否属于ModelArts,若节点属于ModelArts,调用ModelArts接口统一计划事件授权维修实例操作。 |
系统运维等待执行 | system_maintenance_scheduled | 重要 | 由于底层硬件、系统运维等影响,实例在计划时间维修,任务等待执行 | 确认执行窗口对业务的影响。 |
系统运维已取消 | system_maintenance_canceled | 重要 | 由于底层硬件、系统运维等影响,实例在计划时间维修,任务已取消 | 无 |
系统运维执行中 | system_maintenance_executing | 重要 | 由于底层硬件、系统运维等影响,实例在计划时间维修,任务执行中 | 等待维修结束,观察业务是否受到影响。 |
系统运维已完成 | system_maintenance_completed | 重要 | 由于底层硬件、系统运维等影响,实例在计划时间维修,任务已完成 | 等待运行状态恢复正常,确认业务是否恢复。 |
本地盘换盘问询中 | localdisk_recovery_inquiring | 重要 | 因本地盘故障,更换本地盘问询中 | 调用ModelArts接口查询节点是否属于ModelArts,若属于ModelArts,授权本地盘换盘操作。 |
本地盘换盘执行中 | localdisk_recovery_executing | 重要 | 因本地盘故障,更换本地盘任务执行中 | 等待本地盘换盘结束,观察本地盘功能是否正常。 |
本地盘换盘已完成 | localdisk_recovery_completed | 重要 | 因本地盘故障,更换本地盘任务已完成 | 等待运行状态恢复正常,确认本地盘功能是否自动恢复。 |
本地盘换盘失败 | localdisk_recovery_failed | 重要 | 因本地盘故障,更换本地盘任务失败 | 联系运维人员处理。 |
异常重启 | serverReboot | 重要 | 裸金属实例重启。包括: 在管理控制台进行重启操作 通过API接口下发重启指令 | 业务应用做成高可用。 主机恢复后,确认业务是否自动恢复。 |
异常关机 | serverShutdown | 重要 | 裸金属实例异常关机。包括: 主机异常下电 主机硬件故障导致关机 | 业务应用做成高可用。 主机恢复后,确认业务是否自动恢复。 |

