更新时间:2024-11-29 GMT+08:00
ALM-50209 生成元数据镜像文件失败的次数超过阈值
告警解释
系统每30秒周期性检查FE节点生成元数据镜像文件失败的次数,当检查到失败的次数超出阈值(默认值为1)时产生该告警。
当系统检查到FE节点生成元数据镜像文件失败的次数低于阈值时,告警清除。
告警属性
告警ID |
告警级别 |
告警类型 |
业务类型 |
是否可自动清除 |
---|---|---|---|---|
50209 |
紧急 |
处理错误告警 |
Doris |
是 |
告警参数
类别 |
参数名称 |
参数含义 |
---|---|---|
定位信息 |
来源 |
产生告警的集群或系统名称。 |
服务名 |
产生告警的服务名称。 |
|
角色名 |
产生告警的角色名称。 |
|
主机名 |
产生告警的主机名。 |
|
附加信息 |
Detail |
系统当前指标取值满足自定义的告警设置条件。 |
对系统的影响
非Master角色的FE节点不能接收到最新的元数据镜像文件,系统可靠性降低。
可能原因
Doris FE的checkpoint线程检测到FE内存使用超过75%后,判定此次写镜像文件失败。
处理步骤
检查Doris服务状态。
- 登录FusionInsight Manager,选择“运维 > 告警 > 告警”,查看“告警ID”为“50209”的“定位信息”中的角色名并确定实例的IP地址。
- 选择“集群 > 服务 > Doris > 实例”,单击告警上报的FE,进入实例“图表”页面。
左侧图表分类选择“CPU和内存”,查看“FE的内存使用率”是否超过75%。
- 选择“集群 > 服务 > Doris > 配置”,在搜索框中搜索“FE_GC_OPTS”参数,将该参数中“-Xmx”的值参考以下说明进行调大,默认值为8G:
- 如果该告警偶然发生,参数值按照0.5倍速率调大。如果该告警频繁发生,参数值按照1倍速率调大。
- 多业务量、高并发的情况可以考虑扩容实例。
- 单击“保存”保存配置。单击“实例”,勾选配置过期的FE实例,选择“更多 > 重启实例”。
- 实例重启成功后,观察该告警是否清除。
- 是,处理完毕。
- 否,执行6。
收集故障信息。
告警清除
此告警修复后,需要手动清除该告警。
参考信息
不涉及。
父主题: 告警参考