ALM-19006 Error de sincronización de replicación de HBase
Descripción
El módulo de alarma comprueba el estado de sincronización de datos HBase DR cada 30 segundos. Cuando los datos de recuperación ante desastres (DR) no se sincronizan con un clúster en espera, se activa la alarma.
Cuando la sincronización de datos de DR tiene éxito, la alarma se borra.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrado automáticamente |
---|---|---|
19006 |
Crítica |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Trigger Condition |
Especifica el umbral que activa la alarma. Si el valor del indicador actual excede este umbral, se genera la alarma. |
Impacto en el sistema
Los datos de HBase en un clúster no se sincronizan con el clúster en espera, lo que provoca incoherencia de datos entre los clústeres activo y en espera.
Causas posibles
- El servicio HBase en el clúster en espera es anormal.
- Se produce una excepción de red.
Procedimiento
Observar si el sistema borra automáticamente la alarma.
- En el portal de FusionInsight Manager del clúster activo, haga clic en
- En la lista de alarmas, haga clic en la alarma para obtener el tiempo de generación de alarma a partir del Generated de la alarma. Compruebe si la alarma ha existido durante cinco minutos.
- Espere cinco minutos y compruebe si el sistema borra automáticamente la alarma.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 4.
Verificar el estado del servicio HBase del clúster en espera.
- Inicie sesión en el portal del FusionInsight Manager del clúster activo y haga clic en
- En la lista de alarmas, haga clic en la alarma para obtener HostName de Location.
- Acceda al nodo donde reside el cliente HBase del clúster activo como usuario omm.
Si el clúster utiliza un modo de seguridad, realice primero la autenticación de seguridad y, a continuación, acceda a la interfaz hbase shell como usuario hbase.
cd /opt/client
source ./bigdata_env
kinit hbaseuser
- Ejecute el comando status 'replication', 'source' para comprobar el estado de sincronización de DR del nodo defectuoso.
El estado de sincronización de DR de un nodo es el siguiente.
10-10-10-153: SOURCE: PeerID=abc, SizeOfLogQueue=0, ShippedBatches=2, ShippedOps=2, ShippedBytes=320, LogReadInBytes=1636, LogEditsRead=5, LogEditsFiltered=3, SizeOfLogToReplicate=0, TimeForLogToReplicate=0, ShippedHFiles=0, SizeOfHFileRefsQueue=0, AgeOfLastShippedOp=0, TimeStampsOfLastShippedOp=Mon Jul 18 09:53:28 CST 2016, Replication Lag=0, FailedReplicationAttempts=0 SOURCE: PeerID=abc1, SizeOfLogQueue=0, ShippedBatches=1, ShippedOps=1, ShippedBytes=160, LogReadInBytes=1636, LogEditsRead=5, LogEditsFiltered=3, SizeOfLogToReplicate=0, TimeForLogToReplicate=0, ShippedHFiles=0, SizeOfHFileRefsQueue=0, AgeOfLastShippedOp=16788, TimeStampsOfLastShippedOp=Sat Jul 16 13:19:00 CST 2016, Replication Lag=16788, FailedReplicationAttempts=5
- Obtenga PeerID correspondiente a un registro cuyo valor FailedReplicationAttempts es mayor que 0.
En la etapa anterior, los datos en el nodo 10-10-10-153 defectuoso no se sincronizan con un grupo de reserva cuyo PeerID es de abc1.
- Ejecute el comando list_peers para encontrar el clúster y la instancia HBase correspondiente al valor PeerID.
PEER_ID CLUSTER_KEY STATE TABLE_CFS abc1 10.10.10.110,10.10.10.119,10.10.10.133:2181:/hbase2 ENABLED abc 10.10.10.110,10.10.10.119,10.10.10.133:2181:/hbase ENABLED
En la información anterior, /hbase2 indica que los datos están sincronizados con la instancia HBase2 del clúster en espera.
- En la lista de servicios del FusionInsight Manager del clúster en espera, compruebe si el estado de ejecución de la instancia de HBase obtenida mediante 9 es de Normal.
- En la lista de alarmas, compruebe si se genera la alarma ALM-19000 Servicio HBase no disponible.
- Siga los procedimientos de solución de problemas de ALM-19000 Servicio HBase no disponible para corregir el fallo.
- Espere unos minutos y compruebe si la alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 14.
Verificar las conexiones de red entre RegionServers en clústeres activos y en espera.
- Inicie sesión en el portal del FusionInsight Manager del clúster activo y haga clic en
- En la lista de alarmas, haga clic en la alarma para obtener HostName de Location.
- Utilice la dirección IP obtenida en 15 para iniciar sesión en un nodo RegionServer defectuoso como usuario omm.
- Ejecute el comando ping para comprobar si las conexiones de red entre el nodo RegionServer defectuoso y el host donde reside el RegionServer del clúster en espera están en el estado normal.
- Póngase en contacto con el administrador de red para restaurar la red.
- Después de que la red esté funcionando correctamente, compruebe si la alarma está borrada en la lista de alarmas.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 20.
Recopilar información de fallas.
- En la interfaz del FusionInsight Manager de los clústeres activos y en espera, seleccione O&M > Log > Download.
- En el cuadro de lista desplegable Service, seleccione HBase en el clúster requerido.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con el y envíe los registros de fallas recopilados.
Eliminación de alarmas
Después de rectificar la falla, el sistema borra automáticamente esta alarma.
Información relacionada
Ninguna