文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-45326 Presto Coordinator线程数超过阈值
更新时间:2024-08-13 GMT+08:00
分享

ALM-45326 Presto Coordinator线程数超过阈值

本章节仅适用于MRS 3.1.5及之后版本。

告警解释

系统会检查Presto Coordinator和Worker实例的线程使用情况,默认阈值为1024个。如果Presto Coordinator或Worker的线程数超过阈值,则发出告警。

告警属性

告警ID

告警级别

是否自动清除

45326

次要

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

对系统的影响

可能原因

  • Presto实例线程数量过大。
  • Presto并发执行的任务过多。

处理步骤

检查任务并发量

  1. 检查当前集群CPU负载是否正常,SQL并发量是否符合预期。

    • 是,执行2
    • 否,执行4

调整线程数告警触发阈值

  1. 在FusionInsight Manager 首页 ,单击“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Presto”,找到“线程数 (Coordinator)”或“线程数 (Worker)”配置,单击default后的“修改”,将阈值调大(如:增大原数值的20%)。
  2. 查看本告警是否恢复。

    • 是,操作结束。
    • 否,执行6

升级Coordinator规格或扩容Worker节点组

  1. 若Coordinator线程数过多,考虑升级Coordinator节点规格,提升CPU核数;若Worker线程数过多,考虑扩容Worker节点组。
  2. 查看本告警是否恢复。

    • 是,操作结束。
    • 否,执行6

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”框中勾选待操作集群的“Presto”。
  3. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

无。

相关文档