更新时间:2022-02-24 GMT+08:00
Storm健康检查指标项说明
工作节点数
指标项名称:Supervisor数
指标项含义:检查集群中可用的Supervisor数,若集群中可用的Supervisor数小于1,则认为不健康。
恢复指导:如果该指标项异常,进入Streaming服务实例页面,单击不可用Supervisor实例的“主机名”,在“概要信息”中查看主机的健康状态,若为“良好”,则参见“ALM-12007 进程故障”告警进行处理;若不为“良好”,则参见“ALM-12006 节点故障”告警进行处理。
空闲Slot数
指标项名称:空闲Slot数
指标项含义:检查集群中空闲的Slot数,若集群中空闲slot数目小于1,则认为不健康。
恢复指导:如果该指标项异常,进入Storm服务实例页面,查看Supervisor实例的“健康状态”,若均为“良好”,则需要扩容集群Core节点;若不为良好,则参见“ALM-12007 进程故障”告警进行处理。
服务健康状态
指标项名称:服务状态
指标项含义:检查Storm服务状态是否正常。如果状态不正常,则认为不健康。
恢复指导:如果该指标项异常,建议参见“ALM-26051 Storm服务不可用”告警进行处理。
检查告警
指标项名称:告警信息
指标项含义:检查服务是否存在未清除的告警。如果存在,则认为不健康。
恢复指导:如果该指标项异常,建议参见告警进行处理。
父主题: 健康检查管理