ALM-12069 Excepción de recursos de AOS
Descripción
HA comprueba los recursos de AOS de Manager cada 81 segundos. Esta alarma se genera cuando HA detecta que los recursos de AOS son anormales durante dos veces consecutivas.
Esta alarma se borra cuando HA detecta que los recursos de AOS se vuelven normales.
Resource Type de AOS es Single-active. Activo/en espera se activará en caso de excepciones de recursos. Cuando se genera esta alarma, se completa la conmutación activa/en espera y se han habilitado nuevos recursos de AOS en el nuevo Manager activo. En este caso, esta alarma se borra. Esta alarma se utiliza para notificar a los usuarios de la causa de la conmutación del Manager activo/en espera.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrar automáticamente |
---|---|---|
12069 |
Importante |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster o sistema para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Impacto en el sistema
- Se produce el cambio de Manager activo/en espera.
- El proceso AOS se reinicia repetidamente, lo que puede causar un error de inicio de sesión del FusionInsight Manager.
Causas posibles
El proceso de AOS es anormal.
Procedimiento
Comprobar si el proceso AOS es normal.
- En la lista de alarmas del Administrador de FusionInsight, busque la fila que contiene la alarma y haga clic en para ver el nombre del host para el que se genera la alarma.
- Inicie sesión en el host de alarma como usuario root.
- Ejecute el comando sh ${BIGDATA_HOME}/om-server/OMS/workspace0/ha/module/hacom/script/status_ha.sh para comprobar si el estado de los recursos AOS gestionados por el HA es normal. En el sistema de nodo único, el recurso AOS está en el estado normal. En el sistema de nodo doble, el recurso AOS está en el estado normal en el nodo activo y en el estado detenido en el nodo de espera.
- Ejecute el comando vi $BIGDATA_LOG_HOME/omm/oms/ha/scriptlog/aos.log para comprobar si el registro de recursos AOS de HA contiene la palabra clave ERROR. En caso afirmativo, analice los registros para localizar la causa de la excepción de recurso y corrija la excepción.
- Después de 5 minutos, compruebe si la alarma está borrada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 6.
Recopilar información de fallas.
- En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
- En el área Services, seleccione Controller y OmmServer y haga clic en OK.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 1 hora antes y después del tiempo de generación de alarma, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con y proporcione los registros recopilados.
Eliminación de alarmas
Esta alarma se borra automáticamente después de rectificar la falla.
Información relacionada
Ninguna