ALM-38009 E/S ocupado de disco de Broker (Aplicable a versiones posteriores a MRS 3.1.0)
Esta sección se aplica a las versiones posteriores a MRS 3.1.0.
Descripción
El sistema comprueba el estado de E/S de cada disco de Kafka cada 60 segundos. Esta alarma se genera cuando la E/S de disco de un directorio de datos de Kafka en un broker supera el umbral (80% por defecto).
Su Trigger Count es 3. Esta alarma se borra cuando la E/S del disco es inferior al umbral (80% por defecto).
Atributo
ID de alarma |
Gravedad de la alarma |
Borrar automáticamente |
---|---|---|
38009 |
Importante |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
DataDirectoryName |
Especifica el nombre del directorio de datos de Kafka con E/S de disco frecuentes. |
Impacto en el sistema
La partición de disco tiene E/S frecuentes. Es posible que los datos no se escriban en el topic de Kafka para el que se genera la alarma.
Causas posibles
- Hay muchas réplicas configuradas para el topic.
- El parámetro para los mensajes del productor de escritura por lotes está configurado de forma inadecuada. El tráfico de servicio de este tema es demasiado pesado y la configuración de Partition actual no es apropiada.
Procedimiento
Comprobar el número de réplicas de topic.
- En FusionInsight Manager, seleccione O&M > Alarm > Alarms. Busque la fila que contiene esta alarma, haga clic en y vea el nombre de host de Location.
- En FusionInsight Manager, elija Cluster, haga clic en el nombre del clúster deseado, elija Services > Kafka > KafkaTopic Monitor, busque el tema para el que se genera la alarma y compruebe el número de réplicas.
- Reduzca los factores de replicación del topic (por ejemplo, reducir a 3) si el número de réplicas es mayor que 3.
Ejecute el siguiente comando en el cliente de FusionInsight para volver a planificar las réplicas de los topics de Kafka:
kafka-reassign-partitions.sh --zookeeper {zk_host}:{port}/kafka --reassignment-json-file {manual assignment json file path} --execute
Por ejemplo:
/opt/client/Kafka/kafka/bin/kafka-reassign-partitions.sh --zookeeper 10.149.0.90:2181,10.149.0.91:2181,10.149.0.92:2181/kafka --reassignment-json-file expand-cluster-reassignment.json --execute
En el archivo expand-cluster-reassignment.json, describa los brokers a los que se migran las Partitions del Topic en el siguiente formato: {"partitions":[{"topic": "topicName","partition": 1,"replicas": [1,2,3] }],"version":1}
- Observe durante un período de tiempo y compruebe si la alarma está desactivada. Si la alarma persiste, vaya a 5.
Comprobar el plan de Partition de Topic.
- En la página KafkaTopic Monitor, vea Topic Input Traffic en el área Topic Traffic de cada Topic, obtenga el Topic con el mayor valor y compruebe Partition de este Topic, así como la información sobre el host de estas Partitions.
- Inicie sesión en el host consultado en 5 y ejecute el comando iostat -d -x para comprobar el valor %util de cada disco.
- Si el valor %util de cada disco excede el umbral (80% predeterminado), expanda la capacidad del disco de Kafka. Después de la ampliación de capacidad, vuelva a planificar las particiones del tema haciendo referencia a 3.
- Si los valores %util de los discos varían mucho, compruebe la configuración de la partición de disco de Kafka. Por ejemplo, compruebe el valor de log.dirs en el archivo ${BIGDATA_HOME}/FusionInsight_HD_/1_14_Broker/etc/server.properties.
Ejecute el siguiente comando para ver la información Filesystem:
df -h log.dirs value
El resultado del comando es el siguiente.
- Si la partición donde se encuentra el sistema de archivos coincide con la partición con un valor %util alto, planifique particiones de Kafka en discos inactivos, configure log.dirs como un directorio de disco inactivo y vuelva a planificar Partition de Topic haciendo referencia a 3. Asegúrese de que Partition de topic estén distribuidas uniformemente en cada disco.
- Observe durante un período de tiempo y compruebe si la alarma está desactivada.
- Observe durante un período de tiempo y compruebe si la alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 9.
Recopilar información de fallas.
- En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
- Expanda la lista desplegable Service y seleccione Kafka para el clúster de destino.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con y proporcione los registros recopilados.
Eliminación de alarmas
Esta alarma se borra automáticamente después de rectificar la falla.
Información relacionada
Ninguna