Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Centro de ayuda> MapReduce Service> Guía del usuario> Referencia de alarma (aplicable a MRS 3.x)> ALM-45641 Excepción de sincronización de datos entre los nodos FlinkServer activo y en espera
Actualización más reciente 2023-11-20 GMT+08:00

ALM-45641 Excepción de sincronización de datos entre los nodos FlinkServer activo y en espera

Esta sección se aplica a MRS 3.2.0 o posterior.

Descripción

El sistema comprueba la sincronización de datos entre los nodos FlinkServer activo y en espera cada 60 segundos. Esta alarma se genera cuando el nodo FlinkServer en espera no puede sincronizar archivos con el nodo FlinkServer activo.

Esta alarma se borra cuando FlinkServer en espera sincroniza los archivos con FlinkServer activo.

Atributo

ID de alarma

Severidad de alarma

Borrar automáticamente

45641

Grave

Parámetros

Nombre

Significado

Source

Especifica el clúster o sistema para el que se genera la alarma.

ServiceName

Especifica el servicio para el que se genera la alarma.

RoleName

Especifica el rol para el que se genera la alarma.

HostName

Especifica el host para el que se genera la alarma.

Impacto en el sistema

Debido a que los archivos de configuración del FlinkServer en espera no se actualizan, algunas configuraciones se perderán después de una conmutación activa/en espera. FlinkServer y algunos componentes pueden no funcionar correctamente.

Causas posibles

  • Se interrumpe el enlace entre los nodos FlinkServer activo y en espera.
  • El archivo de sincronización no existe o se requiere el permiso del archivo.

Procedimiento

Comprobar si la red entre el FlinkServer activo y en espera se encuentra en estado normal.

  1. En FusionInsight Manager, elija Cluster > Services > ClickHouse > Instance. Vea y registre las direcciones IP de los FlinkServer activos y en espera.
  2. Inicie sesión en el nodo FlinkServer activo como usuario root.
  3. Ejecute el siguiente comando para comprobar si el FlinkServer en espera es accesible:

    ping IP address of the standby FlinkServer

    • En caso afirmativo, vaya a 6.
    • Si no, vaya a 4.

  4. Póngase en contacto con el administrador de la red para comprobar si la red es defectuosa.

    • En caso afirmativo, vaya a 5.
    • Si no, vaya a 6.

  5. Rectifique la falla de la red y compruebe si la alarma está borrada de la lista de alarmas.

    • En caso afirmativo, no es necesario hacer nada más.
    • Si no, vaya a 6.

Comprobar si el espacio de almacenamiento del directorio /srv/BigData/LocalBackup está lleno.

  1. Ejecute el siguiente comando para comprobar si el espacio de almacenamiento del directorio /srv/BigData/LocalBackup está lleno:

    df -hl /srv/BigData/LocalBackup
    • En caso afirmativo, vaya a 7.
    • Si no, vaya a 10.

  2. Ejecute el siguiente comando para borrar archivos de copia de respaldo innecesarios:

    rm -rf Directory to be cleared

    Los siguientes son dos ejemplos:

    rm -rf /srv/BigData/LocalBackup/0/default-oms_20191211143443

  3. En FusionInsight Manager, seleccione O&M > Backup and Restoration > Backup Management.

    En la columna Operation de la tarea de copia de respaldo, haga clic en Configure y cambie el valor de Maximum Number of Backup Copies para reducir el número de conjuntos de archivos de copia de respaldo.

  4. Espere 1 minuto y compruebe si la alarma se ha eliminado.

    • En caso afirmativo, no es necesario hacer nada más.
    • Si no, vaya a 10.

Comprobar si el archivo de sincronización existe y si el permiso del archivo es válido.

  1. Ejecute el siguiente comando para comprobar si existe el archivo de sincronización:

    find /srv/BigData/ -name "sed*"

    find /opt -name "sed*"

    • En caso afirmativo, vaya a 11.
    • Si no, vaya a 12.

  2. Ejecute el siguiente comando para comprobar la información del archivo de sincronización y los permisos consultados en 10:

    ll Path of the file you want to search for

    • Si el tamaño del archivo es 0 y todos los valores de la columna de permisos son -, el archivo es un archivo no deseado. Ejecute el siguiente comando para eliminarlo:

      rm -rf Files to be deleted

      Espere varios minutos y compruebe si la alarma está desactivada. Si la alarma persiste, vaya a 12.

    • Si el tamaño del archivo no es 0, vaya a 12.

  3. Vea el archivo de registro generado cuando se notifica la alarma.

    1. Ejecute el siguiente comando para ir a la ruta del archivo de registro de ejecución de HA del clúster actual:

      cd /var/log/Bigdata/flink/flinkserver/ha/runlog

    2. Descomprima el archivo de registro y vea los registros generados cuando se notifica la alarma.

      Por ejemplo, si el nombre del archivo es ha.log.2021-03-22_12-00-07.gz, ejecute el siguiente comando:

      gunzip ha.log.2021-03-22_12-00-07.gz

      vi ha.log.2021-03-22_12-00-07

      Compruebe si la información de error se muestra antes y después del tiempo de generación de alarmas en los registros.

      • Si se muestra, rectifique el error basándose en la información de error. Vaya a 13.

        Por ejemplo, si se muestra la siguiente información de error, se requiere el permiso de directorio. En este caso, obtenga el permiso de directorio que es el mismo que el permiso en un nodo normal.

      • Si no, vaya a 14.

  4. Espere unos 10 minutos y compruebe si la alarma está desactivada.

    • En caso afirmativo, no es necesario hacer nada más.
    • Si no, vaya a 14.

Recopilar información de fallas.

  1. En FusionInsight Manager, elija O&M > Log > Download.
  2. Seleccione la información de FlinkServer de Services y haga clic en OK.
  3. Expanda la lista desplegable Hosts. En el cuadro de diálogo Select Host que se muestra, seleccione los hosts a los que pertenece el rol y haga clic en OK.
  4. Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
  5. Póngase en contacto con y proporcione los registros recopilados.

Eliminación de alarmas

Esta alarma se borra automáticamente después de rectificar la falla.

Información relacionada

Ninguna