ALM-38009 Broker磁盘IO繁忙

系统每60秒周期性检测Kafka各个磁盘的IO情况，当检测到某个Broker上的Kafka数据目录磁盘IO超出阈值（默认80%）时，产生该告警。

平滑次数为3，当该磁盘IO低于阈值（默认80%）时，告警恢复。

告警ID	告警级别	告警类型	业务类型	是否可自动清除
38009	重要	业务质量告警	Kafka	是

Partition所在的磁盘分区IO过于繁忙，产生告警的Kafka Topic上可能无法写入数据。

检查Topic副本数配置。

在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，单击此告警所在行的，查看定位信息中上报告警的“主机名”。
在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Kafka > KafkaTopic监控”，搜索发生告警的Topic，查看副本数量。
如果副本数量值大于3，则考虑减少该Topic的复制因子（减少为3）。

在FusionInsight客户端执行以下命令对Kafka Topic的副本进行重新规划：

kafka-reassign-partitions.sh --zookeeper {zk_host}:{port}/kafka --reassignment-json-file {manual assignment json file path} --execute

例如：

/opt/client/Kafka/kafka/bin/kafka-reassign-partitions.sh --zookeeper 10.149.0.90:2181,10.149.0.91:2181,10.149.0.92:2181/kafka --reassignment-json-file expand-cluster-reassignment.json --execute

在expand-cluster-reassignment.json文件中描述该Topic的Partition迁移到哪些Broker。其中json文件中的内容格式为：{"partitions":[{"topic": "topicName","partition": 1,"replicas": [1,2,3] }],"version":1}。
观察一段时间，看告警是否消失。如果告警没有消失，执行5。

检查Topic的Partition规划设置。

在“KafkaTopic监控”页面单击每一个Topic的“Topic的字节流量 > Topic输入的字节流量”，统计出“Topic输入的字节流量”值最大的Topic。查看该Topic有哪些Partition以及这些Partition所在的主机信息。
登录到5查询到的主机，执行iostat -d -x命令查看每个磁盘的最后一个指标“%util”：
- 各个磁盘的“%util”指标都超出阈值（默认值为80%），则考虑对Kafka磁盘进行扩容，扩容后，参考3，对Topic的Partition重新规划。
- 各个磁盘的“%util”指标差别较大，查看Kafka的磁盘分区配置信息。例如： ${BIGDATA_HOME}/FusionInsight_HD_8.1.0.1/1_14_Broker/etc/server.properties文件中的log.dirs配置值。
  执行如下命令查看命令输出的Filesystem信息：
  
  df -h log.dirs配置值
  
  执行结果如下：
- Filesystem所在的分区与“%util”指标比较高的分区相匹配，则考虑在空闲的磁盘上规划Kafka分区，并将log.dirs设置为空闲磁盘目录，然后参考3，对Topic的Partition重新规划，保证该Topic的Partition均匀分布到各个磁盘。
观察一段时间，检查告警是否清除。
- 告警清除，操作结束。
- 告警没有清除，重复执行5~6三次。重复执行次数达到上限，执行8。
观察一段时间，检查告警是否清除。
- 是，操作结束。
- 否，执行9。