ALM-45641 Excepción de sincronización de datos entre los nodos FlinkServer activo y en espera
Esta sección se aplica a MRS 3.2.0 o posterior.
Descripción
El sistema comprueba la sincronización de datos entre los nodos FlinkServer activo y en espera cada 60 segundos. Esta alarma se genera cuando el nodo FlinkServer en espera no puede sincronizar archivos con el nodo FlinkServer activo.
Esta alarma se borra cuando FlinkServer en espera sincroniza los archivos con FlinkServer activo.
Atributo
ID de alarma |
Severidad de alarma |
Borrar automáticamente |
---|---|---|
45641 |
Grave |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster o sistema para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Impacto en el sistema
Debido a que los archivos de configuración del FlinkServer en espera no se actualizan, algunas configuraciones se perderán después de una conmutación activa/en espera. FlinkServer y algunos componentes pueden no funcionar correctamente.
Causas posibles
- Se interrumpe el enlace entre los nodos FlinkServer activo y en espera.
- El archivo de sincronización no existe o se requiere el permiso del archivo.
Procedimiento
Comprobar si la red entre el FlinkServer activo y en espera se encuentra en estado normal.
- En FusionInsight Manager, elija Cluster > Services > ClickHouse > Instance. Vea y registre las direcciones IP de los FlinkServer activos y en espera.
- Inicie sesión en el nodo FlinkServer activo como usuario root.
- Ejecute el siguiente comando para comprobar si el FlinkServer en espera es accesible:
ping IP address of the standby FlinkServer
- Póngase en contacto con el administrador de la red para comprobar si la red es defectuosa.
- Rectifique la falla de la red y compruebe si la alarma está borrada de la lista de alarmas.
- En caso afirmativo, no es necesario hacer nada más.
- Si no, vaya a 6.
Comprobar si el espacio de almacenamiento del directorio /srv/BigData/LocalBackup está lleno.
- Ejecute el siguiente comando para comprobar si el espacio de almacenamiento del directorio /srv/BigData/LocalBackup está lleno:
- Ejecute el siguiente comando para borrar archivos de copia de respaldo innecesarios:
rm -rf Directory to be cleared
Los siguientes son dos ejemplos:
rm -rf /srv/BigData/LocalBackup/0/default-oms_20191211143443
- En FusionInsight Manager, seleccione O&M > Backup and Restoration > Backup Management.
En la columna Operation de la tarea de copia de respaldo, haga clic en Configure y cambie el valor de Maximum Number of Backup Copies para reducir el número de conjuntos de archivos de copia de respaldo.
- Espere 1 minuto y compruebe si la alarma se ha eliminado.
- En caso afirmativo, no es necesario hacer nada más.
- Si no, vaya a 10.
Comprobar si el archivo de sincronización existe y si el permiso del archivo es válido.
- Ejecute el siguiente comando para comprobar si existe el archivo de sincronización:
find /srv/BigData/ -name "sed*"
find /opt -name "sed*"
- Ejecute el siguiente comando para comprobar la información del archivo de sincronización y los permisos consultados en 10:
ll Path of the file you want to search for
- Si el tamaño del archivo es 0 y todos los valores de la columna de permisos son -, el archivo es un archivo no deseado. Ejecute el siguiente comando para eliminarlo:
Espere varios minutos y compruebe si la alarma está desactivada. Si la alarma persiste, vaya a 12.
- Si el tamaño del archivo no es 0, vaya a 12.
- Si el tamaño del archivo es 0 y todos los valores de la columna de permisos son -, el archivo es un archivo no deseado. Ejecute el siguiente comando para eliminarlo:
- Vea el archivo de registro generado cuando se notifica la alarma.
- Ejecute el siguiente comando para ir a la ruta del archivo de registro de ejecución de HA del clúster actual:
- Descomprima el archivo de registro y vea los registros generados cuando se notifica la alarma.
Por ejemplo, si el nombre del archivo es ha.log.2021-03-22_12-00-07.gz, ejecute el siguiente comando:
gunzip ha.log.2021-03-22_12-00-07.gz
vi ha.log.2021-03-22_12-00-07
Compruebe si la información de error se muestra antes y después del tiempo de generación de alarmas en los registros.
- Espere unos 10 minutos y compruebe si la alarma está desactivada.
- En caso afirmativo, no es necesario hacer nada más.
- Si no, vaya a 14.
Recopilar información de fallas.
- En FusionInsight Manager, elija O&M > Log > Download.
- Seleccione la información de FlinkServer de Services y haga clic en OK.
- Expanda la lista desplegable Hosts. En el cuadro de diálogo Select Host que se muestra, seleccione los hosts a los que pertenece el rol y haga clic en OK.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con y proporcione los registros recopilados.
Eliminación de alarmas
Esta alarma se borra automáticamente después de rectificar la falla.
Información relacionada
Ninguna