文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-45479 Tserver进程tablet数量超过阈值
更新时间:2025-04-22 GMT+08:00
分享

ALM-45479 Tserver进程tablet数量超过阈值

告警解释

系统每60秒周期性检测Kudu的服务状态,当检测到Tserver进程tablet数量过高时,此时产生该告警。

Tserver进程tablet数量正常时,系统认为Kudu实例服务恢复,告警清除。

告警属性

告警ID

告警级别

是否自动清除

45479

次要

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

对系统的影响

Tablet数量高于预期时,Kudu引擎的查询性能会降低。

可能原因

Tserver使用率过高或Tserver负载不均衡。

处理步骤

处理Kudu实例异常

  1. 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”页面,查看是否有“ALM-45479 Tserver进程tablet数量超过阈值”告警。

  2. 在“运维 > 告警 > 阈值设置 > Kudu”,找到该告警的阈值,再对比集群Tserver进程tablet数量监控项,根据具体情况处理。

    • 阈值设定不合理:修改阈值,执行步骤 5
    • Tserver负载不均衡:执行步骤 3
    • Tserver使用率过高:删减废弃表或新增tserver节点,执行步骤 3

  3. 登录tablet数量超过阈值Kudu节点。
  4. 执行命令,再平衡集群,建议空闲时段执行。

    su omm

    cd /opt/Bigdata/FusionInsight_Kudu_xxx/install/FusionInsight-Kudu-xxx/kudu/bin

    ./kudu cluster rebalance <master_addresses> [-tables=<tables>]

    以上参数可以通过KuduMaster WebUI获取,tables参数非必填。

  5. 在“运维 > 告警 > 告警”页签,查看该告警是否恢复。

    • 是,处理完毕。
    • 否,执行步骤 6

收集故障信息

  1. 在FusionInsight Manager首页,单击“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的“Kudu”。
  3. 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

相关文档