文档首页/ MapReduce服务 MRS/ 用户指南(安卡拉区域)/ 告警参考/ ALM-51203 LakeSearch实例进程垃圾回收(GC)时间超过阈值
更新时间:2024-11-29 GMT+08:00

ALM-51203 LakeSearch实例进程垃圾回收(GC)时间超过阈值

告警解释

系统每60秒周期性检测LakeSearch实例进程的垃圾回收(GC)占用时间,当检测到LakeSearch实例进程的垃圾回收(GC)时间超出阈值时(默认阈值30s),产生该告警。

平滑次数为1时,LakeSearch实例进程垃圾回收(GC)时间小于或等于阈值时,告警恢复。平滑次数大于1时,LakeSearch实例进程垃圾回收(GC)时间小于或等于阈值的90%时,告警恢复。

告警属性

告警ID

告警级别

告警类型

业务类型

是否可自动清除

51203

重要

业务质量告警

LakeSearch

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群名称。

服务名

产生告警的服务名称

角色名

产生告警的角色名称

主机名

产生告警的主机名

附加信息

Trigger Condition

系统当前指标取值满足自定义的告警设置条件。

对系统的影响

LakeSearch实例进程的垃圾回收时间过长,可能影响LakeSearch实例进程正常提供服务。

可能原因

该节点LakeSearch实例运行的业务负载高,堆内存配置不合理,导致进程GC频繁。

处理步骤

检查实例堆内存配置大小。

  1. 登录FusionInsight Manager,选择“运维 > 告警 > 告警”,展开告警“LakeSearch实例进程垃圾回收(GC)时间超过阈值”,查看“定位信息”中的“主机名”。
  2. 选择“集群 > 服务 > LakeSearch > 实例”,分别单击产生告警的主机名所对应的SearchServer和SearchFactory实例名称,进入产生告警的实例页面,查看图表区域的“SearchServer GC时间统计”和“SearchFactory GC时间统计”的GC时间是否持续大于阈值。若图表不存在,可单击图表区域时间编辑按钮后的小三角,选择“定制 > 垃圾回收”,勾选对应图表,单击“确定”。

    • 是,执行3
    • 否,执行11

  3. 选择“集群 > 服务 > LakeSearch > 配置 > 全部配置”。
  4. 在配置页面右上方搜索框搜索“GC_OPTS”,列出所有实例的“GC_OPTS”参数的配置项。
  5. 选中需要修改“GC_OPTS”值的实例,查看该实例值配置框后是否有查看差异化配置图标。

    • 是,执行6
    • 否,执行7

  6. 单击,在弹出的对话框中单击右侧,单击“确定”保存。
  7. 将“GC_OPTS”参数值中的“-Xms”和“-Xmx”的值可参考如下说明进行调整。

    LakeSearch实例的GC参数配置建议:

    • 将LakeSearch实例“GC_OPTS”参数值中的“-Xms”和“-Xmx”的值调整为8G。
    • 建议“-Xms”和“-Xmx”设置成相同的值,这样可以避免JVM动态调整堆内存大小时影响性能。

  8. 修改完成后,单击左上方“保存”,在弹出的对话框中单击“确定”保存配置。
  9. 单击“实例”,勾选配置状态为“配置过期”的实例,选择“更多 > 重启实例”根据界面提示重启受影响的实例。
  10. 等待1分钟,查看告警是否恢复。

    • 是,操作结束。
    • 否,执行11

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的“LakeSearch”。
  3. 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。