Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2023-11-20 GMT+08:00

ALM-19006 Error de sincronización de replicación de HBase (Para MRS 2.x o anterior)

Descripción

Esta alarma se genera cuando los datos de recuperación ante desastres (DR) no se sincronizan con un clúster en espera.

Esta alarma se borra cuando la sincronización de datos de DR se realiza correctamente.

Atributo

ID de alarma

Severidad de alarma

Borrar automáticamente

19006

Grave

Parámetros

Parámetro

Descripción

ServiceName

Especifica el servicio para el que se genera la alarma.

RoleName

Especifica el rol para el que se genera la alarma.

HostName

Especifica el host para el que se genera la alarma.

Impacto en el sistema

Los datos de HBase en un clúster no se sincronizan con el clúster en espera, lo que provoca incoherencia de datos entre los clústeres activos y en espera.

Causas posibles

  • El servicio HBase en el clúster en espera es anormal.
  • Estado anormal de la red.

Procedimiento

  1. Observe si el sistema borra automáticamente la alarma.

    1. Vaya a la página de detalles del clúster y elija Alarms.
    2. En la lista de alarmas, haga clic en la alarma para obtener el tiempo de generación de alarma a partir de Generated Time en Alarm Details. Compruebe si la alarma ha existido durante más de 5 minutos.
      • En caso afirmativo, vaya a 2.a.
      • Si no, vaya a 1.c.
    3. Espere 5 minutos y compruebe si la alarma se borra automáticamente.
      • En caso afirmativo, no es necesario hacer nada más.
      • Si no, vaya a 2.a.

  2. Compruebe el estado del servicio HBase del clúster en espera.

    1. Vaya a la página de detalles del clúster y elija Alarms.
    2. En la lista de alarmas, haga clic en la alarma y obtenga HostName de Location en Alarm Details.
    3. Inicie sesión en el nodo donde se encuentra el cliente HBase del clúster activo. Ejecute los siguientes comandos para cambiar el usuario:

      sudo su - root

      su - omm

    4. Ejecute el comando status 'replication', 'source' para comprobar el estado de sincronización del nodo defectuoso.

      El estado de sincronización de un nodo es el siguiente.

      10-10-10-153: 
       SOURCE: PeerID=abc, SizeOfLogQueue=0, ShippedBatches=2, ShippedOps=2, ShippedBytes=320, LogReadInBytes=1636, LogEditsRead=5, LogEditsFiltered=3, SizeOfLogToReplicate=0, TimeForLogToReplicate=0, ShippedHFiles=0, SizeOfHFileRefsQueue=0, AgeOfLastShippedOp=0, TimeStampsOfLastShippedOp=Mon Jul 18 09:53:28 CST 2016, Replication Lag=0, FailedReplicationAttempts=0 
       SOURCE: PeerID=abc1, SizeOfLogQueue=0, ShippedBatches=1, ShippedOps=1, ShippedBytes=160, LogReadInBytes=1636, LogEditsRead=5, LogEditsFiltered=3, SizeOfLogToReplicate=0, TimeForLogToReplicate=0, ShippedHFiles=0, SizeOfHFileRefsQueue=0, AgeOfLastShippedOp=16788, TimeStampsOfLastShippedOp=Sat Jul 16 13:19:00 CST 2016, Replication Lag=16788, FailedReplicationAttempts=5
    5. Obtenga PeerID correspondiente a un registro cuyo valor FailedReplicationAttempts es mayor que 0.

      En la etapa anterior, los datos en el nodo defectuoso 10-10-10-153 no pueden sincronizarse con un clúster en espera cuyo PeerID es de abc1.

    6. Ejecute el comando list_peers para encontrar el clúster y la instancia de HBase correspondiente a PeerID.
      PEER_ID CLUSTER_KEY STATE TABLE_CFS 
       abc1 10.10.10.110,10.10.10.119,10.10.10.133:24002:/hbase2 ENABLED  
       abc 10.10.10.110,10.10.10.119,10.10.10.133:24002:/hbase ENABLED 

      En la información anterior, /hbase2 indica que los datos están sincronizados con la instancia HBase2 del clúster en espera.

    7. En la lista de servicios del clúster en espera, compruebe si el estado de salud de la instancia HBase obtenida en 2.f es Good.
      • En caso afirmativo, vaya a 3.a.
      • Si no, vaya a 2.h.
    8. En la lista de alarmas, compruebe si existe la alarma ALM-19000 Servicio HBase no disponible.
      • En caso afirmativo, vaya a 2.i.
      • Si no, vaya a 3.a.
    9. Rectifique la falla siguiendo los pasos proporcionados en ALM-19000 Servicio HBase no disponible.
    10. Espere varios minutos y compruebe si la alarma está desactivada.
      • En caso afirmativo, no es necesario hacer nada más.
      • Si no, vaya a 3.a.

  3. Compruebe la conexión de red entre RegionServers en clústeres activos y en espera.

    1. Vaya a la página de detalles del clúster y elija Alarms.
    2. En la lista de alarmas, haga clic en la alarma y obtenga HostName de Location en Alarm Details.
    3. Inicie sesión en el nodo RegionServer defectuoso.
    4. Ejecute el comando ping para comprobar si la conexión de red entre el nodo RegionServer defectuoso y el host donde reside el RegionServer del clúster en espera es normal.
      • En caso afirmativo, vaya a 4.
      • Si no, vaya a 3.e.
    5. Póngase en contacto con el personal de O&M para restaurar la red.
    6. Después de que la red se recupere, compruebe si la alarma está borrada.
      • En caso afirmativo, no es necesario hacer nada más.
      • Si no, vaya a 4.

  4. Recopilar información de fallas.

    1. En MRS Manager, seleccione System > Export Log.
    2. Póngase en contacto con el personal de O&M y envíe los registros recopilados.

Referencia

Ninguna