ALM-19006 Error de sincronización de replicación de HBase (Para MRS 2.x o anterior)
Descripción
Esta alarma se genera cuando los datos de recuperación ante desastres (DR) no se sincronizan con un clúster en espera.
Esta alarma se borra cuando la sincronización de datos de DR se realiza correctamente.
Atributo
ID de alarma |
Severidad de alarma |
Borrar automáticamente |
---|---|---|
19006 |
Grave |
Sí |
Parámetros
Parámetro |
Descripción |
---|---|
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Impacto en el sistema
Los datos de HBase en un clúster no se sincronizan con el clúster en espera, lo que provoca incoherencia de datos entre los clústeres activos y en espera.
Causas posibles
- El servicio HBase en el clúster en espera es anormal.
- Estado anormal de la red.
Procedimiento
- Observe si el sistema borra automáticamente la alarma.
- Vaya a la página de detalles del clúster y elija Alarms.
- En la lista de alarmas, haga clic en la alarma para obtener el tiempo de generación de alarma a partir de Generated Time en Alarm Details. Compruebe si la alarma ha existido durante más de 5 minutos.
- Espere 5 minutos y compruebe si la alarma se borra automáticamente.
- En caso afirmativo, no es necesario hacer nada más.
- Si no, vaya a 2.a.
- Compruebe el estado del servicio HBase del clúster en espera.
- Vaya a la página de detalles del clúster y elija Alarms.
- En la lista de alarmas, haga clic en la alarma y obtenga HostName de Location en Alarm Details.
- Inicie sesión en el nodo donde se encuentra el cliente HBase del clúster activo. Ejecute los siguientes comandos para cambiar el usuario:
su - omm
- Ejecute el comando status 'replication', 'source' para comprobar el estado de sincronización del nodo defectuoso.
El estado de sincronización de un nodo es el siguiente.
10-10-10-153: SOURCE: PeerID=abc, SizeOfLogQueue=0, ShippedBatches=2, ShippedOps=2, ShippedBytes=320, LogReadInBytes=1636, LogEditsRead=5, LogEditsFiltered=3, SizeOfLogToReplicate=0, TimeForLogToReplicate=0, ShippedHFiles=0, SizeOfHFileRefsQueue=0, AgeOfLastShippedOp=0, TimeStampsOfLastShippedOp=Mon Jul 18 09:53:28 CST 2016, Replication Lag=0, FailedReplicationAttempts=0 SOURCE: PeerID=abc1, SizeOfLogQueue=0, ShippedBatches=1, ShippedOps=1, ShippedBytes=160, LogReadInBytes=1636, LogEditsRead=5, LogEditsFiltered=3, SizeOfLogToReplicate=0, TimeForLogToReplicate=0, ShippedHFiles=0, SizeOfHFileRefsQueue=0, AgeOfLastShippedOp=16788, TimeStampsOfLastShippedOp=Sat Jul 16 13:19:00 CST 2016, Replication Lag=16788, FailedReplicationAttempts=5
- Obtenga PeerID correspondiente a un registro cuyo valor FailedReplicationAttempts es mayor que 0.
En la etapa anterior, los datos en el nodo defectuoso 10-10-10-153 no pueden sincronizarse con un clúster en espera cuyo PeerID es de abc1.
- Ejecute el comando list_peers para encontrar el clúster y la instancia de HBase correspondiente a PeerID.
PEER_ID CLUSTER_KEY STATE TABLE_CFS abc1 10.10.10.110,10.10.10.119,10.10.10.133:24002:/hbase2 ENABLED abc 10.10.10.110,10.10.10.119,10.10.10.133:24002:/hbase ENABLED
En la información anterior, /hbase2 indica que los datos están sincronizados con la instancia HBase2 del clúster en espera.
- En la lista de servicios del clúster en espera, compruebe si el estado de salud de la instancia HBase obtenida en 2.f es Good.
- En la lista de alarmas, compruebe si existe la alarma ALM-19000 Servicio HBase no disponible.
- Rectifique la falla siguiendo los pasos proporcionados en ALM-19000 Servicio HBase no disponible.
- Espere varios minutos y compruebe si la alarma está desactivada.
- En caso afirmativo, no es necesario hacer nada más.
- Si no, vaya a 3.a.
- Compruebe la conexión de red entre RegionServers en clústeres activos y en espera.
- Vaya a la página de detalles del clúster y elija Alarms.
- En la lista de alarmas, haga clic en la alarma y obtenga HostName de Location en Alarm Details.
- Inicie sesión en el nodo RegionServer defectuoso.
- Ejecute el comando ping para comprobar si la conexión de red entre el nodo RegionServer defectuoso y el host donde reside el RegionServer del clúster en espera es normal.
- Póngase en contacto con el personal de O&M para restaurar la red.
- Después de que la red se recupere, compruebe si la alarma está borrada.
- En caso afirmativo, no es necesario hacer nada más.
- Si no, vaya a 4.
- Recopilar información de fallas.
- En MRS Manager, seleccione .
- Póngase en contacto con el personal de O&M y envíe los registros recopilados.
Referencia
Ninguna