ALM-38001 Capacidad de disco de Kafka insuficiente (para MRS 2.x o anterior)
Descripción
El sistema comprueba el uso del disco de Kafka cada 60 segundos y lo compara con el umbral. Esta alarma se genera si el uso del disco excede el umbral.
Para modificar el umbral, los usuarios pueden elegir
en MRS Manager.Esta alarma se borra si el uso del disco de Kafka es inferior o igual al umbral.
Atributo
ID de alarma |
Gravedad de alarma |
Borrar automáticamente |
---|---|---|
38001 |
Grave |
Sí |
Parámetros
Parámetro |
Descripción |
---|---|
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
PartitionName |
Especifica la partición de disco donde se genera la alarma. |
Trigger Condition |
Genera una alarma cuando el valor real del indicador excede el umbral especificado. |
Impacto en el sistema
Kafka no puede escribir datos en los discos.
Causas posibles
- Las configuraciones de disco de Kafka (como el número de discos y el tamaño del disco) son insuficientes para el volumen de datos.
- El período de retención de datos es largo y los datos históricos ocupan un gran espacio.
- Los servicios están mal planeados. Como resultado, los datos se distribuyen de manera desigual y algunos discos están llenos.
Procedimiento
- Vaya a la página de detalles del clúster de MRS y elija Alarms.
- En la lista de alarmas, haga clic en la alarma y vea el HostName y PartitionName de la alarma en Location de Alarm Details.
- En la página Hosts, haga clic en el nombre de host obtenido en 2.
- Compruebe si el área Disk contiene el PartitionName de la alarma.
- En caso afirmativo, vaya a 5.
- En caso negativo, borre manualmente la alarma y no se requiere ninguna acción adicional.
- En el área Disk, compruebe si el uso de la partición alarmada ha alcanzado el 100%.
- En Instance, seleccione . En la página Instance Configuration que se muestra, establezca Type en All y consulte el parámetro log.dirs del directorio de datos.
- Elija Kafka Instance que se muestra, detenga la instancia del Broker correspondiente a 2. A continuación, inicie sesión en el nodo alarmado y elimine manualmente el directorio de datos en 6. Una vez completadas todas las operaciones posteriores, inicie la instancia del Broker. . En la página
- Elija . Se muestra la página .
- Comprueba si disk.adapter.enable es true.
- Compruebe si el parámetro adapter.topic.min.retention.hours, que indica el período mínimo de retención de datos, está configurado correctamente.
Si el período de retención no se puede ajustar para ciertos temas, los temas se pueden agregar a disk.adapter.topic.blacklist.
- Espere 10 minutos y compruebe si se reduce el uso del disco.
- En caso afirmativo, espere hasta que se borre la alarma.
- Si no, vaya a 12.
- Vaya a la página Kafka Topic Monitor y consulte el período de retención de datos configurado para Kafka. Determine si es necesario acortar el período de retención en función de los requisitos de servicio y el volumen de datos.
- Encuentre los temas con grandes volúmenes de datos basados en la partición de disco obtenida en 2. Inicie sesión en el cliente de Kafka y acorte manualmente el período de retención de datos para estos temas mediante el siguiente comando:
kafka-topics.sh --zookeeper ZooKeeper address:24002/kafka --alter --topic Topic name --config retention.ms=Retention period
- Compruebe si las particiones están configuradas correctamente para los temas. Por ejemplo, si el número de particiones para un tema con un volumen de datos grande es menor que el número de discos, los datos pueden distribuirse de manera desigual a los discos y el uso de algunos discos alcanzará el límite superior.
- En el cliente de Kafka, agregue particiones a los temas.
kafka-topics.sh --zookeeper ZooKeeper address:24002/kafka --alter --topic Topic name --partitions=Number of new partitions
Se recomienda establecer el número de particiones nuevas en un múltiplo del número de discos Kafka.
Esta operación puede no borrar rápidamente la alarma. Los datos se equilibrarán gradualmente entre los discos.
- Compruebe si es necesario ampliar la capacidad del clúster.
- Espere un momento y compruebe si la alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 18.
- Recopile información de fallas.
- En MRS Manager, seleccione .
- Póngase en contacto con el personal de O&M y envíe los registros recopilados.
Información relacionada
N/A