Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2023-11-20 GMT+08:00

ALM-38001 Capacidad de disco de Kafka insuficiente (para MRS 2.x o anterior)

Descripción

El sistema comprueba el uso del disco de Kafka cada 60 segundos y lo compara con el umbral. Esta alarma se genera si el uso del disco excede el umbral.

Para modificar el umbral, los usuarios pueden elegir System > Threshold Configuration en MRS Manager.

Esta alarma se borra si el uso del disco de Kafka es inferior o igual al umbral.

Atributo

ID de alarma

Gravedad de alarma

Borrar automáticamente

38001

Grave

Parámetros

Parámetro

Descripción

ServiceName

Especifica el servicio para el que se genera la alarma.

RoleName

Especifica el rol para el que se genera la alarma.

HostName

Especifica el host para el que se genera la alarma.

PartitionName

Especifica la partición de disco donde se genera la alarma.

Trigger Condition

Genera una alarma cuando el valor real del indicador excede el umbral especificado.

Impacto en el sistema

Kafka no puede escribir datos en los discos.

Causas posibles

  • Las configuraciones de disco de Kafka (como el número de discos y el tamaño del disco) son insuficientes para el volumen de datos.
  • El período de retención de datos es largo y los datos históricos ocupan un gran espacio.
  • Los servicios están mal planeados. Como resultado, los datos se distribuyen de manera desigual y algunos discos están llenos.

Procedimiento

  1. Vaya a la página de detalles del clúster de MRS y elija Alarms.
  2. En la lista de alarmas, haga clic en la alarma y vea el HostName y PartitionName de la alarma en Location de Alarm Details.
  3. En la página Hosts, haga clic en el nombre de host obtenido en 2.
  4. Compruebe si el área Disk contiene el PartitionName de la alarma.

    • En caso afirmativo, vaya a 5.
    • En caso negativo, borre manualmente la alarma y no se requiere ninguna acción adicional.

  5. En el área Disk, compruebe si el uso de la partición alarmada ha alcanzado el 100%.

    • En caso afirmativo, vaya a 6.
    • Si no, vaya a 8.

  6. En Instance, seleccione Broker > Instance Configuration. En la página Instance Configuration que se muestra, establezca Type en All y consulte el parámetro log.dirs del directorio de datos.
  7. Elija Components > Kafka > Instances. En la página Kafka Instance que se muestra, detenga la instancia del Broker correspondiente a 2. A continuación, inicie sesión en el nodo alarmado y elimine manualmente el directorio de datos en 6. Una vez completadas todas las operaciones posteriores, inicie la instancia del Broker.
  8. Elija Components > Kafka > Service Configuration. Se muestra la página Kafka Configuration.
  9. Comprueba si disk.adapter.enable es true.

    • En caso afirmativo, vaya a 11.
    • Si no, cambie el valor a true y vaya a 10.

  10. Compruebe si el parámetro adapter.topic.min.retention.hours, que indica el período mínimo de retención de datos, está configurado correctamente.

    • En caso afirmativo, vaya a 12.
    • Si no, configúrelo en un valor adecuado y vaya a 12.

    Si el período de retención no se puede ajustar para ciertos temas, los temas se pueden agregar a disk.adapter.topic.blacklist.

  11. Espere 10 minutos y compruebe si se reduce el uso del disco.

    • En caso afirmativo, espere hasta que se borre la alarma.
    • Si no, vaya a 12.

  12. Vaya a la página Kafka Topic Monitor y consulte el período de retención de datos configurado para Kafka. Determine si es necesario acortar el período de retención en función de los requisitos de servicio y el volumen de datos.

    • En caso afirmativo, vaya a 13.
    • Si no, vaya a 14.

  13. Encuentre los temas con grandes volúmenes de datos basados en la partición de disco obtenida en 2. Inicie sesión en el cliente de Kafka y acorte manualmente el período de retención de datos para estos temas mediante el siguiente comando:

    kafka-topics.sh --zookeeper ZooKeeper address:24002/kafka --alter --topic Topic name --config retention.ms=Retention period

  14. Compruebe si las particiones están configuradas correctamente para los temas. Por ejemplo, si el número de particiones para un tema con un volumen de datos grande es menor que el número de discos, los datos pueden distribuirse de manera desigual a los discos y el uso de algunos discos alcanzará el límite superior.

    Para identificar temas con grandes volúmenes de datos, inicie sesión en los nodos relevantes que se obtienen en 2, vaya al directorio de datos (el directorio antes de modificar log.dirs en 6) y compruebe el espacio en disco ocupado por las particiones de los temas.

    • Si las particiones no están configuradas correctamente, vaya a 15.
    • Si las particiones están configuradas correctamente, vaya a 16.

  15. En el cliente de Kafka, agregue particiones a los temas.

    kafka-topics.sh --zookeeper ZooKeeper address:24002/kafka --alter --topic Topic name --partitions=Number of new partitions

    Se recomienda establecer el número de particiones nuevas en un múltiplo del número de discos Kafka.

    Esta operación puede no borrar rápidamente la alarma. Los datos se equilibrarán gradualmente entre los discos.

  16. Compruebe si es necesario ampliar la capacidad del clúster.

    • En caso afirmativo, agregue nodos al clúster y vaya a 17.
    • Si no, vaya a 17.

  17. Espere un momento y compruebe si la alarma está desactivada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 18.

  18. Recopile información de fallas.

    1. En MRS Manager, seleccione System > Export Log.
    2. Póngase en contacto con el personal de O&M y envíe los registros recopilados.

Información relacionada

N/A