ALM-50231 BE进程页表项使用内存占节点内存的比率超过阈值
告警解释
系统每30秒周期性检查BE进程页表项使用内存占节点内存的比率,当检查到该值超出阈值(默认值为15%)时产生该告警。当系统检测到BE进程页表项使用内存占节点内存的比率低于阈值时,告警清除。
页表是操作系统管理物理内存与虚拟内存映射关系的结构,每个进程都有独立的页表项。
该告警仅适用于MRS 3.6.0-LTS及之后版本。
告警属性
|
告警ID |
告警级别 |
是否可自动清除 |
|---|---|---|
|
50231 |
重要 |
是 |
告警参数
|
类别 |
参数名称 |
参数含义 |
|---|---|---|
|
定位信息 |
来源 |
产生告警的集群或系统名称。 |
|
服务名 |
产生告警的服务名称。 |
|
|
角色名 |
产生告警的角色名称。 |
|
|
主机名 |
产生告警的主机名。 |
|
|
附加信息 |
Detail |
系统当前指标取值满足自定义的告警设置条件。 |
对系统的影响
BE进程可用内存变少。
可能原因
用户业务分配了大量的虚拟内存,导致BE进程的页表项占用的内存不断增加。
处理步骤
查看BE进程的页表项占用的内存是否超过阈值。
- 登录Manager页面,选择“运维 > 告警 > 告警”,选中“告警ID”为“50231”的告警,查看“定位信息”中的角色名并确定实例的IP地址。
- 选择“阈值设置”,在阈值设置页面的左侧导航栏选择“Doris > CPU和内存 > BE页表项VmPTE占用节点内存比率 (BE)”,查看并记录该告警设置的阈值,默认为“15%”。
- 选择“主机”,在主机列表中查看上报告警的主机的最大内存,并乘以步骤 2查看到的告警阈值,即为BE进程的VmPTE的值。
- 选择“集群 > 服务 > Doris > 实例”,单击上报告警的BE实例,选择“图表”,在“图表分类”中选择“CPU和内存”,查看“BE内存使用情况”图表中“VmPTE”监控项的值是否超过步骤 3中BE进程的VmPTE值。
- 根据实际情况停止新增业务,重启BE进程。
- 业务运行一段时间后,选择“运维 > 告警 > 告警”,在告警列表中查看是否再次上报该告警。
- 是,执行步骤 7。
- 否,操作结束。
收集故障信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。