更新时间:2025-08-09 GMT+08:00
ALM-50209 Doris生成元数据镜像文件失败的次数超过阈值
告警解释
系统每30秒周期性检查FE节点生成元数据镜像文件失败的次数,当检查到失败的次数超出阈值(默认值为1)时产生该告警。
当系统检查到FE节点生成元数据镜像文件失败的次数低于阈值时,告警清除。
告警属性
告警ID |
告警级别 |
告警类型 |
业务类型 |
是否可自动清除 |
---|---|---|---|---|
50209 |
次要 |
处理错误告警 |
Doris |
是 |
告警参数
类别 |
参数名称 |
参数含义 |
---|---|---|
定位信息 |
来源 |
产生告警的集群或系统名称。 |
服务名 |
产生告警的服务名称。 |
|
角色名 |
产生告警的角色名称。 |
|
主机名 |
产生告警的主机名。 |
|
附加信息 |
Detail |
系统当前指标取值满足自定义的告警设置条件。 |
对系统的影响
非Master角色的FE节点不能接收到最新的元数据镜像文件,系统可靠性降低。
可能原因
Doris FE的checkpoint线程检测到FE堆内存使用超过75%(MRS 3.5.0-LTS及之后版本为70%)后,判定此次写镜像文件失败。
处理步骤
检查Doris服务状态。
- 登录FusionInsight Manager,选择“运维 > 告警 > 告警”,查看“告警ID”为“50209”的“定位信息”中的角色名并确定实例的IP地址。
- 选择“集群 > 服务 > Doris > 实例”,单击告警上报的FE,进入实例“图表”页面。
左侧图表分类选择“CPU和内存”,查看“FE节点堆内存的使用率”是否超过75%(MRS 3.5.0-LTS及之后版本为70%)。
- 选择“集群 > 服务 > Doris > 配置”,在搜索框中搜索“FE_GC_OPTS”参数,将该参数中“-Xmx”的值参考以下说明进行调大,默认值为8G:
- 如果该告警偶然发生,参数值按照0.5倍速率调大。如果该告警频繁发生,参数值按照1倍速率调大。
- 多业务量、高并发的情况可以考虑扩容实例。
- 单击“保存”保存配置。单击“实例”,勾选配置过期的FE实例,选择“更多 > 重启实例”。
在FE实例重启期间,运行在对应FE节点上的任务会失败,未进行重启的FE节点上的任务不受影响。
- 实例重启成功后,观察该告警是否清除。
- 是,处理完毕。
- 否,执行步骤 6。
收集故障信息。
告警清除
此告警修复后,需要手动清除该告警。
参考信息
不涉及。