ALM-38010 存在单副本的Topic
告警解释
系统在Kafka的Controller所在节点上,每60秒周期性检测各个Topic的副本数,当检测到某个Topic的副本数为1时,产生该告警。
告警属性
告警ID |
告警级别 |
告警类型 |
业务类型 |
是否可自动清除 |
---|---|---|---|---|
38010 |
重要 |
业务质量告警 |
Kafka |
否 |
告警参数
类别 |
参数名称 |
参数含义 |
---|---|---|
定位信息 |
来源 |
产生告警的集群名称。 |
角色名 |
产生告警的角色名称。 |
|
主题名 |
产生告警的Topic名称列表。 |
对系统的影响
单副本的Topic存在单点故障风险,当副本所在节点异常时,会直接导致Partition没有leader,影响该Topic上的业务。
可能原因
Topic副本数配置不合理。
处理步骤
检查Topic副本数配置。
- 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,单击此告警所在行的,查看定位信息中上报告警的“主题名”列表。
- 确认发生告警Topic是否需要增加副本。
- 在FusionInsight客户端,对相关Topic的副本进行重新规划,在add-replicas-reassignment.json文件中描述该Topic的Partition分布信息,其中json文件中的内容格式为:{"partitions":[{"topic": "topicName","partition": 1,"replicas": [1,2] }],"version":1},并执行如下命令增加副本:
kafka-reassign-partitions.sh --zookeeper {zk_host}:{port}/kafka --reassignment-json-file {manual assignment json file path} --execute
例如:
/opt/client/Kafka/kafka/bin/kafka-reassign-partitions.sh --zookeeper 192.168.0.90:2181,192.168.0.91:2181,192.168.0.92:2181/kafka --reassignment-json-file add-replicas-reassignment.json --execute
- 执行如下命令进行确认任务执行进度:
kafka-reassign-partitions.sh --zookeeper {zk_host}:{port}/kafka --reassignment-json-file {manual assignment json file path} --verify
例如:
/opt/client/Kafka/kafka/bin/kafka-reassign-partitions.sh --zookeeper 192.168.0.90:2181,192.168.0.91:2181,192.168.0.92:2181/kafka --reassignment-json-file add-replicas-reassignment.json --verify
- 确认处理完成或者告警无影响后,可在FusionInsight Manager页面,手动清除该告警。
- 观察一段时间,检查告警是否清除或者告警无影响后,可在FusionInsight Manager页面,手动清除该告警。
- 是,操作结束。
- 否,执行7。
收集故障信息。
告警清除
确认告警已无影响,可手工清除告警。
参考信息
不涉及。