ALM-29016 Impalad实例亚健康
告警解释
MRS 3.1.5版本:系统每60秒周期性检测Impalad的Hive Server2 HTTP端口(28000)是否响应curl请求,当返回结果不正确(连续2次检测超过20秒)时产生该告警,当curl请求在20秒内正确响应时,告警恢复。
除MRS 3.1.5的其他版本:系统每60秒周期性检测Impalad是否能执行select 1,当返回结果不正确(连续2次检测超过20秒)时产生该告警,当SQL在20秒内正确执行时,告警恢复。
告警属性
告警ID |
告警级别 |
是否自动清除 |
---|---|---|
29016 |
次要 |
是 |
告警参数
类别 |
参数名称 |
参数含义 |
---|---|---|
定位信息 |
来源 |
产生告警的集群名称。 |
服务名 |
产生告警的服务名称。 |
|
角色名 |
产生告警的角色名称。 |
|
主机名 |
产生告警的主机名。 |
对系统的影响
Impalad不能执行sql或执行sql超时,会影响到数据的读写。
可能原因
该Impalad服务维护的查询数量过多。
处理步骤
- 登录FusionInsight Manager,然后选择“集群 > 服务 > Impala > Impalad Web UI”,单击任一个节点进入Web UI页面。
- 在Web UI页面,单击“/backends”,查看Impala列表,找到告警上报的实例,单击“Web UI”,进入亚健康节点的Web UI后,单击“/queries”,查看任务执行情况,是否存在执行缓慢的任务。
- 等待任务执行完成,查看告警是否清除。
- 是,操作结束。
- 否,执行4。
- 在FusionInsightManager首页,选择“集群 > Impala > 实例 > 告警上报的Impala实例 > 更多 > 重启实例”,查看告警是否清除。
- 是,操作结束。
- 否,执行5。
重启全部实例,服务不可用。重启单个实例,会导致当前实例节点正在执行的任务失败,服务可用。
收集故障信息
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
无