文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-50231 BE进程页表项使用内存占节点内存的比率超过阈值
更新时间:2025-12-11 GMT+08:00
分享

ALM-50231 BE进程页表项使用内存占节点内存的比率超过阈值

告警解释

系统每30秒周期性检查BE进程页表项使用内存占节点内存的比率,当检查到该值超出阈值(默认值为15%)时产生该告警。当系统检测到BE进程页表项使用内存占节点内存的比率低于阈值时,告警清除。

页表是操作系统管理物理内存与虚拟内存映射关系的结构,每个进程都有独立的页表项。

该告警仅适用于MRS 3.6.0-LTS及之后版本。

告警属性

告警ID

告警级别

是否可自动清除

50231

重要

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群或系统名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

附加信息

Detail

系统当前指标取值满足自定义的告警设置条件。

对系统的影响

BE进程可用内存变少。

可能原因

用户业务分配了大量的虚拟内存,导致BE进程的页表项占用的内存不断增加。

处理步骤

查看BE进程的页表项占用的内存是否超过阈值。

  1. 登录Manager页面,选择“运维 > 告警 > 告警”,选中“告警ID”为“50231”的告警,查看“定位信息”中的角色名并确定实例的IP地址。
  2. 选择“阈值设置”,在阈值设置页面的左侧导航栏选择“Doris > CPU和内存 > BE页表项VmPTE占用节点内存比率 (BE)”,查看并记录该告警设置的阈值,默认为“15%”。
  3. 选择“主机”,在主机列表中查看上报告警的主机的最大内存,并乘以步骤 2查看到的告警阈值,即为BE进程的VmPTE的值。
  4. 选择“集群 > 服务 > Doris > 实例”,单击上报告警的BE实例,选择“图表”,在“图表分类”中选择“CPU和内存”,查看“BE内存使用情况”图表中“VmPTE”监控项的值是否超过步骤 3中BE进程的VmPTE值。

  5. 根据实际情况停止新增业务,重启BE进程。
  6. 业务运行一段时间后,选择“运维 > 告警 > 告警”,在告警列表中查看是否再次上报该告警。

    • 是,执行步骤 7
    • 否,操作结束。

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选“Doris”,单击“确定”。
  3. 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

相关文档