更新时间:2024-10-11 GMT+08:00

Storm健康检查指标项说明

工作节点数

指标项名称:Supervisor数

指标项含义:检查集群中可用的Supervisor数,若集群中可用的Supervisor数小于1,则认为不健康。

恢复指导:如果该指标项异常,进入Streaming服务实例页面,单击不可用Supervisor实例的“主机名”,在“概要信息”中查看主机的健康状态,若为“良好”,则参见“ALM-12007 进程故障”告警进行处理;若不为“良好”,则参见“ALM-12006 节点故障”告警进行处理。

空闲Slot数

指标项名称:空闲Slot数

指标项含义:检查集群中空闲的Slot数,若集群中空闲slot数目小于1,则认为不健康。

恢复指导:如果该指标项异常,进入Storm服务实例页面,查看Supervisor实例的“健康状态”,若均为“良好”,则需要扩容集群Core节点;若不为良好,则参见“ALM-12007 进程故障”告警进行处理。

服务健康状态

指标项名称:服务状态

指标项含义:检查Storm服务状态是否正常。如果状态不正常,则认为不健康。

恢复指导:如果该指标项异常,建议参见“ALM-26051 Storm服务不可用”告警进行处理。

检查告警

指标项名称:告警信息

指标项含义:检查服务是否存在未清除的告警。如果存在,则认为不健康。

恢复指导:如果该指标项异常,建议参见告警进行处理。