ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值

告警解释

系统每30s周期性采集Presto Coordinator进程的垃圾收集（GC）时间，当检测到GC时间超出阈值（连续3次检测超过5s）时产生该告警。用户可在FusionInsight Manager中通过“运维 > 告警 > 阈值配置 > Presto > 集群状态 > Coordinator进程GC时间”修改阈值。当 Coordinator进程GC时间小于或等于告警阈值时，告警清除。

告警属性

告警ID	告警级别	可自动清除
44005	严重	是

告警参数

参数名称	参数含义
ServiceName	产生告警的服务名称。
RoleName	产生告警的角色名称。
HostName	产生告警的主机名。

对系统的影响

Coordinator进程GC时间过长，会影响Coordinator进程运行的性能，甚至造成Coordinator进程不可用。

可能原因

该节点Coordinator进程堆内存使用率过大，或配置的堆内存不合理，导致进程GC频繁。

处理步骤

检查GC时间。
1. 登录MRS集群详情页面，选择“告警管理”。
2. 选中“告警ID”为“44005”的告警，查看“定位信息”中的角色名并确定实例的IP地址。
3. 单击“组件管理 > Presto > 实例 > Coordinator（对应上报告警实例IP地址） > 定制 > Presto进程GC时间”。单击“确定”，查看GC时间。
4. 查看Coordinator进程的GC时间是否大于5秒。
  - 是，执行1.e。
  - 否，执行步骤 2。
5. 单击“组件管理 > Presto > 服务配置 > 全部配置 > Presto > Coordinator”。将“JAVA_OPTS”参数中的最大堆内存-Xmx值根据实际情况调大。
6. 观察界面告警是否清除。
  - 是，处理完毕。
  - 否，执行步骤 2。
收集故障信息。
1. 在FusionInsight Manager界面，选择“运维 > 日志 > 下载”。
2. 在“服务”中勾选操作集群的“ Presto ”，单击“确定”。
3. 单击右上角的，设置日志收集的“开始时间”和“结束时间”，分别为告警产生时间的前后30分钟，单击“下载”
4. 请联系运维人员，并发送已收集的故障日志信息。