更新时间:2023-07-03 GMT+08:00

ALM-38010 存在单副本的Topic

告警解释

系统在Kafka的Controller所在节点上,每60秒周期性检测各个Topic的副本数,当检测到某个Topic的副本数为1时,产生该告警。

告警属性

告警ID

告警级别

是否自动清除

38010

重要

告警参数

参数名称

参数含义

来源

产生告警的集群名称。

角色名

产生告警的角色名称。

主题名

产生告警的Topic名称列表。

对系统的影响

单副本的Topic存在单点故障风险,当副本所在节点异常时,会直接导致Partition没有leader,影响该Topic上的业务。

可能原因

Topic副本数配置不合理。

处理步骤

检查Topic副本数配置。

  1. 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,单击此告警所在行的,查看定位信息中上报告警的“主题名”列表。
  2. 确认发生告警Topic是否需要增加副本。

    • 是,执行3
    • 否,执行5

  3. 在FusionInsight客户端,对相关Topic的副本进行重新规划,在add-replicas-reassignment.json文件中描述该Topic的Partition分布信息,其中json文件中的内容格式为:{"partitions":[{"topic": "topicName","partition": 1,"replicas": [1,2] }],"version":1},并执行如下命令增加副本:

    kafka-reassign-partitions.sh --zookeeper {zk_host}:{port}/kafka --reassignment-json-file {manual assignment json file path} --execute

    例如:

    /opt/client/Kafka/kafka/bin/kafka-reassign-partitions.sh --zookeeper 192.168.0.90:2181,192.168.0.91:2181,192.168.0.92:2181/kafka --reassignment-json-file add-replicas-reassignment.json --execute

  4. 执行如下命令进行确认任务执行进度:

    kafka-reassign-partitions.sh --zookeeper {zk_host}:{port}/kafka --reassignment-json-file {manual assignment json file path} --verify

    例如:

    /opt/client/Kafka/kafka/bin/kafka-reassign-partitions.sh --zookeeper 192.168.0.90:2181,192.168.0.91:2181,192.168.0.92:2181/kafka --reassignment-json-file add-replicas-reassignment.json --verify

  5. 确认处理完成或者告警无影响后,可在FusionInsight Manager页面,手动清除该告警。
  6. 观察一段时间,检查告警是否清除或者告警无影响后,可在FusionInsight Manager页面,手动清除该告警。

    • 是,操作结束。
    • 否,执行7

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的“Kafka”。
  3. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

确认告警已无影响,可手工清除告警。

参考信息

无。