文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-45480 Tserver进程tablet leader分布不均衡
更新时间:2025-08-09 GMT+08:00

ALM-45480 Tserver进程tablet leader分布不均衡

告警解释

系统每60秒周期性检测Kudu的服务状态,当检测到某个Tserver进程tablet leader数量和集群累计tablet leader数量的比值超过阈值时,此时产生该告警。

某个Tserver进程tablet leader数量 和 集群累计tablet leader数量的比值正常时,系统认为Kudu实例服务恢复,告警清除。

告警属性

告警ID

告警级别

是否自动清除

45480

次要

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

对系统的影响

Tserver tablet leader分布不均衡时,Kudu引擎的查询性能会降低。

可能原因

  • 新增Tserver实例或重启Tserver实例。
  • 阈值设置不合理。

处理步骤

处理tablet leader分布不合理问题

  1. 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”页面,查看是否有“ALM-45480 Tserver tablet leader分布不均衡”告警。

  2. 登录tablet leader超过阈值kudu节点。
  3. 执行命令,手动调整tablet leader的数量。

    su omm

    cd /opt/Bigdata/FusionInsight_Kudu_xxx/install/FusionInsight-Kudu-xxx/kudu/bin

    ./kudu tablet leader_step_down <master_addresses> <tablet_id> [-new_leader_uuid=<new_tablet_server_uuid>]

    • master_addresses:格式为“KuduMaster业务IP地址1:7051,KuduMaster业务IP地址2:7051,KuduMaster业务IP地址3:7051”。

      KuduMaster业务IP地址:可以登录FusionInsight Manager,选择“集群 > 服务 > Kudu > 实例”查看KuduMaster实例业务IP地址获取。

    • tablet_id:为待调整的Tablet ID。

      可以登录Manager页面,选择“集群 > 服务 > Kudu”,单击“KuduMaster WebUI”后的“KuduMaster(KuduMaster)”打开KuduMaster的WebUI页面。在菜单栏选择“Tables”,单击“Table Id”名称,在“Detail”中获取待调整的“Tablet ID”。

    • new_tablet_server_uuid:为目标Tablet Servers的ID。

      可以登录KuduMaster WebUI,在菜单栏选择“Tablet Servers”,查看“UUID”参数值获取。

    • new_leader_uuid建议填写tablet leader数量低的节点。

  4. 在“运维 > 告警 > 告警”页签,查看该告警是否恢复。

    • 是,处理完毕。
    • 否,执行步骤 5

修改阈值

  1. 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”页面,查看是否有“ALM-45480 Tserver tablet leader分布不均衡”告警。

  2. 在“集群 > Kudu > 配置 > 全部配置 > KuduMaster”,找到该告警的阈值配置项TABLET_LEADER_UNBALANCE_SCALE,修改配置项,并滚动重启所有kudu master。
  3. 在“运维 > 告警 > 告警”页签,查看该告警是否恢复。

    • 是,处理完毕。
    • 否,执行步骤 8

收集故障信息

  1. 在FusionInsight Manager首页,单击“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的“Kudu”。
  3. 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息