ALM-19019 El número de HBase HFiles que se van a sincronizar supera el umbral
Descripción
El sistema comprueba el número de HFiles a sincronizar por el RegionServer de cada instancia de servicio HBase cada 30 segundos. Este indicador se puede ver en la página de monitorización del rol de RegionServer. Esta alarma se genera cuando el número de HFiles a sincronizar en un RegionServer supera el umbral (superando 128 durante 20 veces consecutivas por defecto). Para cambiar el umbral, elija O&M > Alarm > Threshold Configuration > Name of the desired cluster > HBase. Esta alarma se borra cuando el número de HFiles a sincronizar es menor o igual que el umbral.
Atributo
ID de alarma |
Severidad de alarma |
Borrar automáticamente |
---|---|---|
19019 |
Grave |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Trigger Condition |
Especifica el umbral para activar la alarma. |
Impacto en el sistema
Si el número de HFiles a sincronizar por un RegionServer excede el umbral, el número de ZNodes utilizados por HBase excede el umbral, afectando el estado del servicio HBase.
Causas posibles
- Estado anormal de la red.
- La distribución de Region de RegionServer está desequilibrada.
- La escala de servicio HBase del clúster en espera es demasiado pequeña.
Procedimiento
Vea información de ubicación de alarma.
- Inicie sesión en FusionInsight Manager y elija O&M. En el panel de navegación de la izquierda, elija Alarm > Alarms. En la página que se muestra, busque la fila que contiene la alarma cuyo Alarm ID es de 19019 y vea la instancia de servicio y el nombre de host en Location.
Compruebe la conexión de red entre RegionServers en clústeres activos y en espera.
- Ejecute el comando ping para comprobar si la conexión de red entre el nodo RegionServer defectuoso y el host donde reside el RegionServer del clúster en espera es normal.
- Póngase en contacto con el administrador de red para restaurar la red.
- Después de que la red se recupere, compruebe si la alarma está borrada.
- En caso afirmativo, no es necesario hacer nada más.
- Si no, vaya a 5.
Compruebe la distribución de Region de RegionServer en el clúster activo.
- En FusionInsight Manager, elija Cluster > Name of the desired cluster > Services > HBase. Haga clic en HMaster(Active) para ir a la interfaz de usuario web de la instancia de HBase y comprobar si las regiones están distribuidas uniformemente en Region Server.
- Inicie sesión en el nodo de RegionServer como usuario omm.
- Ejecute los siguientes comandos para ir al directorio de instalación del cliente y establecer la variable de entorno:
cd Client installation directory
source bigdata_env
Si el clúster utiliza el modo de seguridad, realice la autenticación de seguridad. Ejecute el comando kinit hbase e introduzca la contraseña como se le solicite (obtenga la contraseña del administrador del clúster MRS).
- Ejecute los siguientes comandos para comprobar si la función de balanceo de carga está habilitada.
hbase shell
- Ejecute los siguientes comandos en HBase Shell para habilitar la función de balanceo de carga y comprobar si la función está habilitada.
balance_switch true
balancer_enabled
- Ejecute el comando balancer para activar manualmente la función de balanceo de carga.
Se recomienda habilitar y activar manualmente la función de balanceo de carga durante las horas no pico.
- Verifique si la alarma se ha borrado.
- En caso afirmativo, no es necesario hacer nada más.
- Si no, vaya a 12.
Compruebe la escala de servicio HBase del clúster en espera.
- Expanda el clúster HBase, agregue un nodo y agregue una instancia de RegionServer en el nodo. A continuación, realice 6 a 10 para habilitar la función de balanceo de carga y activarla manualmente.
- En FusionInsight Manager, elija Cluster > Name of the desired cluster > Services > HBase. Haga clic en HMaster(Active) para ir a la interfaz de usuario web de la instancia de HBase, actualizar la página y comprobar si las regiones están distribuidas uniformemente.
- Verifique si la alarma se ha borrado.
- En caso afirmativo, no es necesario hacer nada más.
- Si no, vaya a 15.
Recopilar información de fallas.
- En FusionInsight Manager del clúster en espera, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
- Expanda la lista desplegable Service y seleccione HBase para el clúster de destino.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con y proporcione los registros recopilados.
Eliminación de alarmas
Esta alarma se borra automáticamente después de rectificar la falla.
Información relacionada
Ninguna