ALM-44004 Presto Coordinator资源组排队任务超过阈值

告警解释

系统通过jmx接口查询资源组的排队任务数即QueuedQueries指标，当检测到资源组排队数大于阈值时产生该告警。用户可通过"组件管理 > Presto > 服务配置（将“基础配置”切换为“全部配置”） >Presto > resource-groups " 配置资源组。用户可通过"组件管理 > Presto > 服务配置（将“基础配置”切换为“全部配置”） > Coordinator > 自定义 > resourceGroupAlarm " 配置每个资源组的阈值。

告警属性

告警ID	告警级别	可自动清除
44004	严重	是

告警参数

参数名称	参数含义
ServiceName	产生告警的服务名称。
RoleName	产生告警的角色名称。
HostName	产生告警的主机名。

对系统的影响

资源组排队超过阈值可能导致大量任务处于排队状态，presto任务时间超过预期，当资源组排队数超过该组最大排队数（maxQueued）时，会导致新的任务无法执行。

可能原因

资源组配置不合理或该资源组下提交的任务过多。

处理步骤

用户可通过“组件管理 > Presto > 服务配置（将“基础配置”切换为“全部配置”） >Presto > resource-groups”调整资源组的配置。
用户可通过“组件管理 > Presto > 服务配置（将“基础配置”切换为“全部配置”） > Coordinator > 自定义 > resourceGroupAlarm”修改每个资源组的阈值。
收集故障信息。
1. 根据故障信息中的HostName登录到集群节点，在presto客户端根据附加信息中的Reource Group查询排队数。
2. 根据故障信息中的HostName登录到集群节点，查看/var/log/Bigdata/nodeagent/monitorlog/monitor.log日志，搜索Resource group info可看到资源组监控采集信息。
3. 请联系运维人员，并发送已收集的故障日志信息。