Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.

Centro de ayuda/ MapReduce Service/ Guía del usuario/ Guía de operación de MRS Manager (Aplicable a versiones 2.x y anteriores)/ Referencia de alarma (aplicable a versiones anteriores a MRS 3.x)/ ALM-19006 Error de sincronización de replicación de HBase (Para MRS 2.x o anterior)

Actualización más reciente 2023-11-20 GMT+08:00

Ver PDF

ALM-19006 Error de sincronización de replicación de HBase (Para MRS 2.x o anterior)

Descripción

Esta alarma se genera cuando los datos de recuperación ante desastres (DR) no se sincronizan con un clúster en espera.

Esta alarma se borra cuando la sincronización de datos de DR se realiza correctamente.

Atributo

ID de alarma	Severidad de alarma	Borrar automáticamente
19006	Grave	Sí

Parámetros

Parámetro	Descripción
ServiceName	Especifica el servicio para el que se genera la alarma.
RoleName	Especifica el rol para el que se genera la alarma.
HostName	Especifica el host para el que se genera la alarma.

Impacto en el sistema

Los datos de HBase en un clúster no se sincronizan con el clúster en espera, lo que provoca incoherencia de datos entre los clústeres activos y en espera.

Causas posibles

El servicio HBase en el clúster en espera es anormal.
Estado anormal de la red.

Procedimiento

Observe si el sistema borra automáticamente la alarma.
1. Vaya a la página de detalles del clúster y elija Alarms.
2. En la lista de alarmas, haga clic en la alarma para obtener el tiempo de generación de alarma a partir de Generated Time en Alarm Details. Compruebe si la alarma ha existido durante más de 5 minutos.
  - En caso afirmativo, vaya a 2.a.
  - Si no, vaya a 1.c.
3. Espere 5 minutos y compruebe si la alarma se borra automáticamente.
  - En caso afirmativo, no es necesario hacer nada más.
  - Si no, vaya a 2.a.
Compruebe el estado del servicio HBase del clúster en espera.
1. Vaya a la página de detalles del clúster y elija Alarms.
2. En la lista de alarmas, haga clic en la alarma y obtenga HostName de Location en Alarm Details.
3. Inicie sesión en el nodo donde se encuentra el cliente HBase del clúster activo. Ejecute los siguientes comandos para cambiar el usuario:
  sudo su - root
  
  su - omm
4. Ejecute el comando status 'replication', 'source' para comprobar el estado de sincronización del nodo defectuoso.
  El estado de sincronización de un nodo es el siguiente.
```
10-10-10-153: 
 SOURCE: PeerID=abc, SizeOfLogQueue=0, ShippedBatches=2, ShippedOps=2, ShippedBytes=320, LogReadInBytes=1636, LogEditsRead=5, LogEditsFiltered=3, SizeOfLogToReplicate=0, TimeForLogToReplicate=0, ShippedHFiles=0, SizeOfHFileRefsQueue=0, AgeOfLastShippedOp=0, TimeStampsOfLastShippedOp=Mon Jul 18 09:53:28 CST 2016, Replication Lag=0, FailedReplicationAttempts=0 
 SOURCE: PeerID=abc1, SizeOfLogQueue=0, ShippedBatches=1, ShippedOps=1, ShippedBytes=160, LogReadInBytes=1636, LogEditsRead=5, LogEditsFiltered=3, SizeOfLogToReplicate=0, TimeForLogToReplicate=0, ShippedHFiles=0, SizeOfHFileRefsQueue=0, AgeOfLastShippedOp=16788, TimeStampsOfLastShippedOp=Sat Jul 16 13:19:00 CST 2016, Replication Lag=16788, FailedReplicationAttempts=5
```
5. Obtenga PeerID correspondiente a un registro cuyo valor FailedReplicationAttempts es mayor que 0.
  En la etapa anterior, los datos en el nodo defectuoso 10-10-10-153 no pueden sincronizarse con un clúster en espera cuyo PeerID es de abc1.
6. Ejecute el comando list_peers para encontrar el clúster y la instancia de HBase correspondiente a PeerID.
```
PEER_ID CLUSTER_KEY STATE TABLE_CFS 
 abc1 10.10.10.110,10.10.10.119,10.10.10.133:24002:/hbase2 ENABLED  
 abc 10.10.10.110,10.10.10.119,10.10.10.133:24002:/hbase ENABLED 
```
  En la información anterior, /hbase2 indica que los datos están sincronizados con la instancia HBase2 del clúster en espera.
7. En la lista de servicios del clúster en espera, compruebe si el estado de salud de la instancia HBase obtenida en 2.f es Good.
  - En caso afirmativo, vaya a 3.a.
  - Si no, vaya a 2.h.
8. En la lista de alarmas, compruebe si existe la alarma ALM-19000 Servicio HBase no disponible.
  - En caso afirmativo, vaya a 2.i.
  - Si no, vaya a 3.a.
9. Rectifique la falla siguiendo los pasos proporcionados en ALM-19000 Servicio HBase no disponible.
10. Espere varios minutos y compruebe si la alarma está desactivada.
  - En caso afirmativo, no es necesario hacer nada más.
  - Si no, vaya a 3.a.
Compruebe la conexión de red entre RegionServers en clústeres activos y en espera.
1. Vaya a la página de detalles del clúster y elija Alarms.
2. En la lista de alarmas, haga clic en la alarma y obtenga HostName de Location en Alarm Details.
3. Inicie sesión en el nodo RegionServer defectuoso.
4. Ejecute el comando ping para comprobar si la conexión de red entre el nodo RegionServer defectuoso y el host donde reside el RegionServer del clúster en espera es normal.
  - En caso afirmativo, vaya a 4.
  - Si no, vaya a 3.e.
5. Póngase en contacto con el personal de O&M para restaurar la red.
6. Después de que la red se recupere, compruebe si la alarma está borrada.
  - En caso afirmativo, no es necesario hacer nada más.
  - Si no, vaya a 4.
Recopilar información de fallas.
1. En MRS Manager, seleccione System > Export Log.
2. Póngase en contacto con el personal de O&M y envíe los registros recopilados.

Referencia

Ninguna

Tema principal: Referencia de alarma (aplicable a versiones anteriores a MRS 3.x)

Tema anterior: ALM-19000 Servicio HBase no disponible (para MRS 2.x o anterior)

Tema siguiente: ALM-19007 HBase Merge Queue Exceeds the Threshold (for 2.x and Earlier Versions)

Comentarios

¿Le pareció útil esta página?

Sí No

Deje algún comentario

Muchas gracias por sus comentarios. Seguiremos trabajando para mejorar la documentación.

El sistema está ocupado. Vuelva a intentarlo más tarde.