Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Centro de ayuda> MapReduce Service> Guía del usuario> Referencia de alarma (aplicable a MRS 3.x)> ALM-12011 Excepción de sincronización de datos de Manager entre los nodos activo y en espera
Actualización más reciente 2023-11-20 GMT+08:00

ALM-12011 Excepción de sincronización de datos de Manager entre los nodos activo y en espera

Descripción

El sistema comprueba la sincronización de datos entre los nodos de Manager activo y en espera cada 60 segundos. Esta alarma se genera cuando el Manager en espera no puede sincronizar archivos con el Manager activo.

Esta alarma se borra cuando el Manager en espera sincroniza los archivos con el Manager activo.

Atributo

ID de alarma

Gravedad de la alarma

Borrar automáticamente

12011

Crítica

Parámetros

Nombre

Significado

Source

Especifica el clúster o sistema para el que se genera la alarma.

ServiceName

Especifica el servicio para el que se genera la alarma.

RoleName

Especifica el rol para el que se genera la alarma.

HostName

Especifica el host para el que se genera la alarma.

Impacto en el sistema

Algunas configuraciones se perderán después de una conmutación activa/en espera porque los archivos de configuración del Manager en espera no están actualizados. Tal vez Manager y algunos componentes no se pueden ejecutar correctamente.

Causas posibles

  • El enlace entre los Managers activo y en espera se interrumpe o el espacio de almacenamiento del directorio /srv/BigData/LocalBackup está lleno.
  • El archivo de sincronización no existe o el permiso del archivo es incorrecto.

Procedimiento

Compruebe si la red entre el servidor de Manager activo y el servidor de Manager en espera es normal.

  1. En el portal del administrador FusionInsight, haga clic en O&M > Alarm > Alarms, haga clic en en la fila donde se encuentra la alarma y obtenga la dirección IP del servidor del Manager en espera (dirección IP del Peer Manager) en los detalles de la alarma.
  2. Inicie sesión en el servidor de Manager activo como usuario root.
  3. Ejecute el comando ping standby Manager IP address para comprobar si el servidor de Manager en espera es accesible.

    • En caso afirmativo, vaya a 6.
    • Si no, vaya a 4.

  4. Póngase en contacto con el administrador de la red para comprobar si la red es defectuosa.

    • En caso afirmativo, vaya a 5.
    • Si no, vaya a 6.

  5. Rectifique la falla de la red y compruebe si la alarma está borrada de la lista de alarmas.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 6.

Compruebe si el espacio de almacenamiento del directorio /srv/BigData/LocalBackup está lleno.

  1. Ejecute el siguiente comando para comprobar si el espacio de almacenamiento del directorio /srv/BigData/LocalBackup está lleno:

    df -hl /srv/BigData/LocalBackup

    • En caso afirmativo, vaya a 7.
    • Si no, vaya a 10.

  2. Ejecute el siguiente comando para borrar archivos de copia de respaldo innecesarios:

    rm -rf Directory to be cleared

    Ejemplo:

    rm -rf /srv/BigData/LocalBackup/0/default-oms_20191211143443

  3. En FusionInsight Manager, seleccione O&M > Backup and Restoration > Backup Management.

    En la columna Operation de la tarea de copia de respaldo que se va a realizar, haga clic en Configure y cambie el valor de Maximum Number of Backup Copies para reducir el número de conjuntos de archivos de copia de respaldo.

  4. Espere aproximadamente 1 minuto y compruebe si la alarma está desactivada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 10.

Compruebe si existe el archivo de sincronización y si el permiso del archivo es normal.

  1. Ejecute el siguiente comando para comprobar si existe el archivo de sincronización.

    find /srv/BigData/ -name "sed*"

    find /opt -name "sed*"

    • En caso afirmativo, vaya a 11.
    • Si no, vaya a 12.

  2. Ejecute el siguiente comando para ver la información del archivo de sincronización y el permiso obtenido en 10.

    ll path of the file to be found

    • Si el tamaño del archivo es 0 y la columna de permisos es de -, el archivo es un archivo no deseado. Ejecute el siguiente comando para eliminarlo.

      rm -rf files to be deleted

      Espere varios minutos y compruebe si la alarma está desactivada. Si la alarma persiste, vaya a 12.

    • Si el tamaño del archivo no es 0, vaya a 12.

  3. Vea los archivos de registro generados cuando se genera la alarma.

    1. Ejecute el siguiente comando para cambiar a la ruta del archivo de registro de ejecución de HA.

      cd /var/log/Bigdata/omm/oms/ha/runlog/

    2. Descomprima y vea los archivos de registro generados cuando se genera la alarma.

      Por ejemplo, si el nombre del archivo que se va a ver es ha.log.2021-03-22_12-00-07.gz, ejecute el siguiente comando:

      gunzip ha.log.2021-03-22_12-00-07.gz

      vi ha.log.2021-03-22_12-00-07

      Compruebe si la información de error se notifica antes y después del tiempo de generación de alarma.

      • En caso afirmativo, rectifique la falla basándose en la información de error. Entonces vaya a 13.

        Por ejemplo, si se muestra la siguiente información de error, el permiso de directorio es insuficiente. En este caso, cambie el permiso de directorio para que sea el mismo que en el nodo normal.

      • Si no, vaya a 14.

  4. Espere unos 10 minutos y compruebe si la alarma está desactivada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 14.

Recopilar información de fallas.

  1. En el FusionInsight Manager, elija O&M > Log > Download.
  2. Seleccione los siguientes nodos en el Service y haga clic en OK:

    • OmmServer
    • Controller
    • NodeAgent

  3. Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
  4. Póngase en contacto con el y envíe la información de registro recopilada.

Eliminación de alarmas

Después de rectificar la falla, el sistema borra automáticamente esta alarma.

Información relacionada

Ninguna