ALM-12006 Falla de nodo
Descripción
El Controller comprueba el latido del corazón de NodeAgent cada 30 segundos. Si el Controller no recibe mensajes de latidos de un NodeAgent, intenta reiniciar el proceso de NodeAgent. Esta alarma se genera si el NodeAgent no se reinicia durante tres veces consecutivas.
Esta alarma se borra cuando el Controller puede recibir correctamente el informe de estado del NodeAgent.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrar automáticamente |
---|---|---|
12006 |
Importante |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster o sistema para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Impacto en el sistema
Los servicios del nodo no están disponibles.
Causas posibles
- La red está desconectada, el hardware está defectuoso o el sistema operativo se ejecuta lentamente.
- La memoria del proceso de NodeAgent es insuficiente.
Procedimiento
Compruebe si la red está desconectada, si el hardware está defectuoso o si el sistema operativo ejecuta los comandos con lentitud.
- En FusionInsight Manager, seleccione O&M > Alarm > Alarms. En la página que se muestra, haga clic en en la fila que contiene la alarma, haga clic en el nombre del host y vea la dirección IP del host para el que se genera la alarma.
- Inicie sesión en el nodo de gestión activo como usuario root.
Si el nodo defectuoso es el nodo de gestión activo y falla el inicio de sesión, la red del nodo de gestión activo puede estar defectuosa. En este caso, vaya a 4.
- Ejecute el comando ping IP address of the faulty host para comprobar si el nodo defectuoso es accesible.
- Póngase en contacto con el administrador de la red para comprobar si la red es defectuosa.
- Rectifique la falla de la red y compruebe si la alarma está borrada de la lista de alarmas.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 6.
- Póngase en contacto con el administrador de hardware para comprobar si el hardware (CPU o memoria) del nodo está defectuoso.
- Repare o reemplace los componentes defectuosos y reinicie el nodo. Verifique si la alarma se ha borrado.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 8.
- Si se notifica un gran número de fallas de nodo en el clúster, las direcciones IP flotantes pueden ser anormales. Como resultado, Controller no puede detectar el latido del corazón de NodeAgent.
Inicie sesión en cualquier nodo de gestión y vea el registro /var/log/Bigdata/omm/oms/ha/scriptlog/floatip.log para comprobar si los registros generados uno o dos minutos antes y después de que se produzcan los errores están completos.
Por ejemplo, un registro completo tiene el siguiente formato:
2017-12-09 04:10:51,000 INFO (floatip) Read from ${BIGDATA_HOME}/om-server_*/om/etc/om/routeSetConf.ini,value is : yes 2017-12-09 04:10:51,000 INFO (floatip) check wsNetExport : eth0 is up. 2017-12-09 04:10:51,000 INFO (floatip) check omNetExport : eth0 is up. 2017-12-09 04:10:51,000 INFO (floatip) check wsInterface : eRth0:oms, wsFloatIp: XXX.XXX.XXX.XXX. 2017-12-09 04:10:51,000 INFO (floatip) check omInterface : eth0:oms, omFloatIp: XXX.XXX.XXX.XXX. 2017-12-09 04:10:51,000 INFO (floatip) check wsFloatIp : XXX.XXX.XXX.XXX is reachable. 2017-12-09 04:10:52,000 INFO (floatip) check omFloatIp : XXX.XXX.XXX.XXX is reachable.
- Compruebe si el registro de omNetExport se imprime después de detectar wsNetExport o si el intervalo para imprimir dos registros supera los 10 segundos o más.
- Vea el archivo /var/log/message del sistema operativo para comprobar si sssd se reinicia con frecuencia o si se muestra información de excepción nscd cuando se produce el error. Para Red Hat, compruebe información de sssd. Para SUSE, compruebe la información de nscd.
ejemplo de reinicio de sssd
Feb 7 11:38:16 10-132-190-105 sssd[pam]: Shutting down Feb 7 11:38:16 10-132-190-105 sssd[nss]: Shutting down Feb 7 11:38:16 10-132-190-105 sssd[nss]: Shutting down Feb 7 11:38:16 10-132-190-105 sssd[be[default]]: Shutting down Feb 7 11:38:16 10-132-190-105 sssd: Starting up Feb 7 11:38:16 10-132-190-105 sssd[be[default]]: Starting up Feb 7 11:38:16 10-132-190-105 sssd[nss]: Starting up Feb 7 11:38:16 10-132-190-105 sssd[pam]: Starting up
Ejemplo de información de excepción de nscd
Feb 11 11:44:42 10-120-205-33 nscd: nss_ldap: failed to bind to LDAP server ldaps://10.120.205.55:21780: Can't contact LDAP server Feb 11 11:44:43 10-120-205-33 ntpq: nss_ldap: failed to bind to LDAP server ldaps://10.120.205.55:21780: Can't contact LDAP server Feb 11 11:44:44 10-120-205-33 ntpq: nss_ldap: failed to bind to LDAP server ldaps://10.120.205.92:21780: Can't contact LDAP server
- Compruebe si el nodo LdapServer es defectuoso, por ejemplo, la dirección IP del servicio es inalcanzable o la latencia de la red es demasiado alta. Si la falla se produce periódicamente, ubique y elimínelo y ejecute el comando top para comprobar si existe software anormal.
Compruebe si la memoria del proceso NodeAgent es insuficiente.
- Inicie sesión en el nodo defectuoso como usuario root y ejecute el siguiente comando para ver los registros del proceso de NodeAgent:
vi /var/log/Bigdata/nodeagent/scriptlog/agent_gc.log.*.current
- Compruebe si el archivo de registro contiene un error que indica que el tamaño del metaespacio o el tamaño de la memoria heap es insuficiente.
- En caso afirmativo, póngase en contacto con el personal de para cambiar el tamaño de la memoria.
- Si no, vaya a 14.
Recopilar información de fallas.
- En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
- Seleccione los siguientes nodos de Services y haga clic en OK.
- NodeAgent
- Controller
- OS
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con y proporcione los registros recopilados.
Eliminación de alarmas
Esta alarma se borra automáticamente después de rectificar la falla.
Información relacionada
Ninguna