ALM-50228 Doris租户内存使用率超过阈值
告警解释
系统每30秒周期性检查租户BE节点的内存使用率,当检查到该值超出阈值时产生该告警。
当检测到租户BE节点的内存使用率低于阈值时,告警恢复。
该告警仅适用于MRS 3.3.1及之后版本。
告警属性
告警ID |
告警级别 |
是否可自动清除 |
---|---|---|
50228 |
紧急(默认阈值为90%) 重要(默认阈值为85%) |
是 |
告警参数
类别 |
参数名称 |
参数含义 |
---|---|---|
定位信息 |
来源 |
产生告警的集群或系统名称。 |
服务名 |
产生告警的服务名称。 |
|
角色名 |
产生告警的角色名称。 |
|
主机名 |
产生告警的主机名。 |
|
附加信息 |
Detail |
系统当前指标取值满足自定义的告警设置条件。 |
对系统的影响
业务进程响应缓慢或不可用。
可能原因
租户查询数据过大,且未开启内存软隔离。
处理步骤
查看租户BE实际内存使用大小。
- 登录FusionInsight Manager,选择“运维 > 告警 > 告警”,选中“告警ID”为“50228”的告警,查看“定位信息”中的角色名并确定实例的IP地址。
- 单击“阈值设置”,选择“待操作的集群名称 > Doris > 租户资源 > 租户内存使用率超过阈值”,查看并记录该告警的阈值。
- 选择“集群 > 服务 > Doris > 实例”,选择上报告警的BE实例,单击“图表”,在“图表分类”中选择“租户资源”,查看“租户内存使用大小”图表中实际的内存使用大小是否大于2查看到的阈值,并记录内存使用大小超过阈值的租户名。
- 确认业务是否在告警时间段内查询了大量的大表数据。
- 选择“租户资源 > 租户资源管理”,在租户列表中单击2的租户名,选择“资源”页签,单击“资源详情”右侧的编辑按钮,查看“开启内存软隔离”按钮是否打开。
- 打开“开启内存软隔离”按钮,并单击“确定”。等待任务执行结束后,在告警列表中查看该告警是否清除。
- 是,操作结束。
- 否,执行7。
- 选择“运维 > 告警 > 阈值设置 > 待操作的集群名称 > Doris > 租户资源”,根据实际业务适当调大该告警的阈值和平滑次数。等待任务结束之后,在告警列表中查看该告警是否清除。
- 是,操作结束。
- 否,执行8。
收集故障信息
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。