文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-45329 Presto Coordinator资源组排队任务超过阈值
更新时间:2024-08-13 GMT+08:00
分享

ALM-45329 Presto Coordinator资源组排队任务超过阈值

本章节仅适用于MRS 3.1.5及之后版本。

告警解释

系统通过jmx接口查询资源组的排队任务数即QueuedQueries指标,当检测到资源组排队数大于阈值时产生该告警。

告警属性

告警ID

告警级别

可自动清除

45329

次要

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

Trigger Condition

系统当前指标取值满足自定义的告警设置条件。

对系统的影响

资源组排队超过阈值可能导致大量任务处于排队状态,Presto任务时间超过预期,当资源组排队数超过该组最大排队数(maxQueued)时,会导致新的任务无法执行。

可能原因

资源组配置不合理或该资源组下提交的任务过多。

处理步骤

  1. 选择“集群 > 待操作集群的名称 > 服务 > Presto > 配置 > 全部配置”,修改“resource-groups”的值调整资源组配置,修改“ resourceGroupAlarm (Coordinator > 自定义 > resourceGroupAlarm) ”的值调整每个资源组的阈值。
  2. 收集故障信息。

    1. 根据故障信息中的HostName登录到集群节点,在presto客户端根据附加信息中的Reource Group查询排队数。
    2. 根据故障信息中的HostName登录到集群节点,查看/var/log/Bigdata/nodeagent/monitorlog/monitor.log日志,搜索Resource group info可看到资源组监控采集信息。
    3. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

无。

相关文档