ALM-45480 Tserver进程tablet leader分布不均衡
告警解释
系统每60秒周期性检测Kudu的服务状态,当检测到某个Tserver进程tablet leader数量和集群累计tablet leader数量的比值超过阈值时,此时产生该告警。
某个Tserver进程tablet leader数量 和 集群累计tablet leader数量的比值正常时,系统认为Kudu实例服务恢复,告警清除。
告警属性
告警ID |
告警级别 |
是否自动清除 |
---|---|---|
45480 |
次要 |
是 |
告警参数
类别 |
参数名称 |
参数含义 |
---|---|---|
定位信息 |
来源 |
产生告警的集群名称。 |
服务名 |
产生告警的服务名称。 |
|
角色名 |
产生告警的角色名称。 |
|
主机名 |
产生告警的主机名。 |
对系统的影响
Tserver tablet leader分布不均衡时,Kudu引擎的查询性能会降低。
可能原因
- 新增Tserver实例或重启Tserver实例。
- 阈值设置不合理。
处理步骤
处理tablet leader分布不合理问题
- 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”页面,查看是否有“ALM-45480 Tserver tablet leader分布不均衡”告警。
- 登录tablet leader超过阈值kudu节点。
- 执行命令,手动调整tablet leader的数量。
su omm
cd /opt/Bigdata/FusionInsight_Kudu_xxx/install/FusionInsight-Kudu-xxx/kudu/bin
./kudu tablet leader_step_down <master_addresses> <tablet_id> [-new_leader_uuid=<new_tablet_server_uuid>]
- master_addresses:格式为“KuduMaster业务IP地址1:7051,KuduMaster业务IP地址2:7051,KuduMaster业务IP地址3:7051”。
KuduMaster业务IP地址:可以登录FusionInsight Manager,选择“集群 > 服务 > Kudu > 实例”查看KuduMaster实例业务IP地址获取。
- tablet_id:为待调整的Tablet ID。
可以登录Manager页面,选择“集群 > 服务 > Kudu”,单击“KuduMaster WebUI”后的“KuduMaster(KuduMaster)”打开KuduMaster的WebUI页面。在菜单栏选择“Tables”,单击“Table Id”名称,在“Detail”中获取待调整的“Tablet ID”。
- new_tablet_server_uuid:为目标Tablet Servers的ID。
- new_leader_uuid建议填写tablet leader数量低的节点。
- master_addresses:格式为“KuduMaster业务IP地址1:7051,KuduMaster业务IP地址2:7051,KuduMaster业务IP地址3:7051”。
- 在“运维 > 告警 > 告警”页签,查看该告警是否恢复。
- 是,处理完毕。
- 否,执行步骤 5。
修改阈值
- 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”页面,查看是否有“ALM-45480 Tserver tablet leader分布不均衡”告警。
- 在“集群 > Kudu > 配置 > 全部配置 > KuduMaster”,找到该告警的阈值配置项TABLET_LEADER_UNBALANCE_SCALE,修改配置项,并滚动重启所有kudu master。
- 在“运维 > 告警 > 告警”页签,查看该告警是否恢复。
- 是,处理完毕。
- 否,执行步骤 8。
收集故障信息
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
无