Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.

Centro de ayuda/ MapReduce Service/ Guía del usuario/ Referencia de alarma (aplicable a MRS 3.x)/ ALM-19006 Error de sincronización de replicación de HBase

Actualización más reciente 2023-11-20 GMT+08:00

Ver PDF

ALM-19006 Error de sincronización de replicación de HBase

Descripción

El módulo de alarma comprueba el estado de sincronización de datos HBase DR cada 30 segundos. Cuando los datos de recuperación ante desastres (DR) no se sincronizan con un clúster en espera, se activa la alarma.

Cuando la sincronización de datos de DR tiene éxito, la alarma se borra.

Atributo

ID de alarma	Gravedad de la alarma	Borrado automáticamente
19006	Crítica	Sí

Parámetros

Nombre	Significado
Source	Especifica el clúster para el que se genera la alarma.
ServiceName	Especifica el servicio para el que se genera la alarma.
RoleName	Especifica el rol para el que se genera la alarma.
HostName	Especifica el host para el que se genera la alarma.
Trigger Condition	Especifica el umbral que activa la alarma. Si el valor del indicador actual excede este umbral, se genera la alarma.

Impacto en el sistema

Los datos de HBase en un clúster no se sincronizan con el clúster en espera, lo que provoca incoherencia de datos entre los clústeres activo y en espera.

Causas posibles

El servicio HBase en el clúster en espera es anormal.
Se produce una excepción de red.

Procedimiento

Observar si el sistema borra automáticamente la alarma.

En el portal de FusionInsight Manager del clúster activo, haga clic en O&M > Alarm > Alarms.
En la lista de alarmas, haga clic en la alarma para obtener el tiempo de generación de alarma a partir del Generated de la alarma. Compruebe si la alarma ha existido durante cinco minutos.
- En caso afirmativo, vaya a 4.
- Si no, vaya a 3.
Espere cinco minutos y compruebe si el sistema borra automáticamente la alarma.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 4.

Verificar el estado del servicio HBase del clúster en espera.

Inicie sesión en el portal del FusionInsight Manager del clúster activo y haga clic en O&M > Alarm > Alarms.
En la lista de alarmas, haga clic en la alarma para obtener HostName de Location.
Acceda al nodo donde reside el cliente HBase del clúster activo como usuario omm.

Si el clúster utiliza un modo de seguridad, realice primero la autenticación de seguridad y, a continuación, acceda a la interfaz hbase shell como usuario hbase.

cd /opt/client

source ./bigdata_env

kinit hbaseuser

Ejecute el comando status 'replication', 'source' para comprobar el estado de sincronización de DR del nodo defectuoso.

El estado de sincronización de DR de un nodo es el siguiente.

10-10-10-153: 
SOURCE: PeerID=abc, SizeOfLogQueue=0, ShippedBatches=2, ShippedOps=2, ShippedBytes=320, LogReadInBytes=1636, LogEditsRead=5, LogEditsFiltered=3, SizeOfLogToReplicate=0, TimeForLogToReplicate=0, ShippedHFiles=0, SizeOfHFileRefsQueue=0, AgeOfLastShippedOp=0, TimeStampsOfLastShippedOp=Mon Jul 18 09:53:28 CST 2016, Replication Lag=0, FailedReplicationAttempts=0 
SOURCE: PeerID=abc1, SizeOfLogQueue=0, ShippedBatches=1, ShippedOps=1, ShippedBytes=160, LogReadInBytes=1636, LogEditsRead=5, LogEditsFiltered=3, SizeOfLogToReplicate=0, TimeForLogToReplicate=0, ShippedHFiles=0, SizeOfHFileRefsQueue=0, AgeOfLastShippedOp=16788, TimeStampsOfLastShippedOp=Sat Jul 16 13:19:00 CST 2016, Replication Lag=16788, FailedReplicationAttempts=5

Obtenga PeerID correspondiente a un registro cuyo valor FailedReplicationAttempts es mayor que 0.

En la etapa anterior, los datos en el nodo 10-10-10-153 defectuoso no se sincronizan con un grupo de reserva cuyo PeerID es de abc1.
Ejecute el comando list_peers para encontrar el clúster y la instancia HBase correspondiente al valor PeerID.
```
PEER_ID CLUSTER_KEY STATE TABLE_CFS 
abc1 10.10.10.110,10.10.10.119,10.10.10.133:2181:/hbase2 ENABLED  
abc 10.10.10.110,10.10.10.119,10.10.10.133:2181:/hbase ENABLED 
```
En la información anterior, /hbase2 indica que los datos están sincronizados con la instancia HBase2 del clúster en espera.
En la lista de servicios del FusionInsight Manager del clúster en espera, compruebe si el estado de ejecución de la instancia de HBase obtenida mediante 9 es de Normal.
- En caso afirmativo, vaya a 14.
- Si no, vaya a 11.
En la lista de alarmas, compruebe si se genera la alarma ALM-19000 Servicio HBase no disponible.
- En caso afirmativo, vaya a 12.
- Si no, vaya a 14.
Siga los procedimientos de solución de problemas de ALM-19000 Servicio HBase no disponible para corregir el fallo.
Espere unos minutos y compruebe si la alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 14.

Verificar las conexiones de red entre RegionServers en clústeres activos y en espera.

Inicie sesión en el portal del FusionInsight Manager del clúster activo y haga clic en O&M > Alarm > Alarms.
En la lista de alarmas, haga clic en la alarma para obtener HostName de Location.
Utilice la dirección IP obtenida en 15 para iniciar sesión en un nodo RegionServer defectuoso como usuario omm.
Ejecute el comando ping para comprobar si las conexiones de red entre el nodo RegionServer defectuoso y el host donde reside el RegionServer del clúster en espera están en el estado normal.
- En caso afirmativo, vaya a 20.
- Si no, vaya a 18.
Póngase en contacto con el administrador de red para restaurar la red.
Después de que la red esté funcionando correctamente, compruebe si la alarma está borrada en la lista de alarmas.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 20.

Recopilar información de fallas.

En la interfaz del FusionInsight Manager de los clústeres activos y en espera, seleccione O&M > Log > Download.
En el cuadro de lista desplegable Service, seleccione HBase en el clúster requerido.
Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
Póngase en contacto con el y envíe los registros de fallas recopilados.