Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.

Centro de ayuda/ MapReduce Service/ Guía del usuario/ Referencia de alarma (aplicable a MRS 3.x)/ ALM-12006 Falla de nodo

Actualización más reciente 2023-11-20 GMT+08:00

Ver PDF

ALM-12006 Falla de nodo

Descripción

El Controller comprueba el latido del corazón de NodeAgent cada 30 segundos. Si el Controller no recibe mensajes de latidos de un NodeAgent, intenta reiniciar el proceso de NodeAgent. Esta alarma se genera si el NodeAgent no se reinicia durante tres veces consecutivas.

Esta alarma se borra cuando el Controller puede recibir correctamente el informe de estado del NodeAgent.

Atributo

ID de alarma	Gravedad de la alarma	Borrar automáticamente
12006	Importante	Sí

Parámetros

Nombre	Significado
Source	Especifica el clúster o sistema para el que se genera la alarma.
ServiceName	Especifica el servicio para el que se genera la alarma.
RoleName	Especifica el rol para el que se genera la alarma.
HostName	Especifica el host para el que se genera la alarma.

Impacto en el sistema

Los servicios del nodo no están disponibles.

Causas posibles

La red está desconectada, el hardware está defectuoso o el sistema operativo se ejecuta lentamente.
La memoria del proceso de NodeAgent es insuficiente.

Procedimiento

Compruebe si la red está desconectada, si el hardware está defectuoso o si el sistema operativo ejecuta los comandos con lentitud.

En FusionInsight Manager, seleccione O&M > Alarm > Alarms. En la página que se muestra, haga clic en en la fila que contiene la alarma, haga clic en el nombre del host y vea la dirección IP del host para el que se genera la alarma.
Inicie sesión en el nodo de gestión activo como usuario root.

Si el nodo defectuoso es el nodo de gestión activo y falla el inicio de sesión, la red del nodo de gestión activo puede estar defectuosa. En este caso, vaya a 4.
Ejecute el comando ping IP address of the faulty host para comprobar si el nodo defectuoso es accesible.
- En caso afirmativo, vaya a 12.
- Si no, vaya a 4.
Póngase en contacto con el administrador de la red para comprobar si la red es defectuosa.
- En caso afirmativo, vaya a 5.
- Si no, vaya a 6.
Rectifique la falla de la red y compruebe si la alarma está borrada de la lista de alarmas.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 6.
Póngase en contacto con el administrador de hardware para comprobar si el hardware (CPU o memoria) del nodo está defectuoso.
- En caso afirmativo, vaya a 7.
- Si no, vaya a 12.
Repare o reemplace los componentes defectuosos y reinicie el nodo. Verifique si la alarma se ha borrado.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 8.

Si se notifica un gran número de fallas de nodo en el clúster, las direcciones IP flotantes pueden ser anormales. Como resultado, Controller no puede detectar el latido del corazón de NodeAgent.

Inicie sesión en cualquier nodo de gestión y vea el registro /var/log/Bigdata/omm/oms/ha/scriptlog/floatip.log para comprobar si los registros generados uno o dos minutos antes y después de que se produzcan los errores están completos.

Por ejemplo, un registro completo tiene el siguiente formato:

2017-12-09 04:10:51,000 INFO (floatip) Read from ${BIGDATA_HOME}/om-server_*/om/etc/om/routeSetConf.ini,value is : yes
2017-12-09 04:10:51,000 INFO (floatip) check wsNetExport : eth0 is up.
2017-12-09 04:10:51,000 INFO (floatip) check omNetExport : eth0 is up.
2017-12-09 04:10:51,000 INFO (floatip) check wsInterface : eRth0:oms, wsFloatIp: XXX.XXX.XXX.XXX.
2017-12-09 04:10:51,000 INFO (floatip) check omInterface : eth0:oms, omFloatIp: XXX.XXX.XXX.XXX.
2017-12-09 04:10:51,000 INFO (floatip) check  wsFloatIp : XXX.XXX.XXX.XXX is reachable.
2017-12-09 04:10:52,000 INFO (floatip) check  omFloatIp : XXX.XXX.XXX.XXX is reachable.

En caso afirmativo, vaya a 12.
Si no, vaya a 9.

Compruebe si el registro de omNetExport se imprime después de detectar wsNetExport o si el intervalo para imprimir dos registros supera los 10 segundos o más.
- En caso afirmativo, vaya a 10.
- Si no, vaya a 12.

Vea el archivo /var/log/message del sistema operativo para comprobar si sssd se reinicia con frecuencia o si se muestra información de excepción nscd cuando se produce el error. Para Red Hat, compruebe información de sssd. Para SUSE, compruebe la información de nscd.

ejemplo de reinicio de sssd

Feb  7 11:38:16 10-132-190-105 sssd[pam]: Shutting down
Feb  7 11:38:16 10-132-190-105 sssd[nss]: Shutting down
Feb  7 11:38:16 10-132-190-105 sssd[nss]: Shutting down
Feb  7 11:38:16 10-132-190-105 sssd[be[default]]: Shutting down
Feb  7 11:38:16 10-132-190-105 sssd: Starting up
Feb  7 11:38:16 10-132-190-105 sssd[be[default]]: Starting up
Feb  7 11:38:16 10-132-190-105 sssd[nss]: Starting up
Feb  7 11:38:16 10-132-190-105 sssd[pam]: Starting up

Ejemplo de información de excepción de nscd

Feb 11 11:44:42 10-120-205-33 nscd: nss_ldap: failed to bind to LDAP server ldaps://10.120.205.55:21780: Can't contact LDAP server
Feb 11 11:44:43 10-120-205-33 ntpq: nss_ldap: failed to bind to LDAP server ldaps://10.120.205.55:21780: Can't contact LDAP server
Feb 11 11:44:44 10-120-205-33 ntpq: nss_ldap: failed to bind to LDAP server ldaps://10.120.205.92:21780: Can't contact LDAP server

En caso afirmativo, vaya a 11.
Si no, vaya a 14.

Compruebe si el nodo LdapServer es defectuoso, por ejemplo, la dirección IP del servicio es inalcanzable o la latencia de la red es demasiado alta. Si la falla se produce periódicamente, ubique y elimínelo y ejecute el comando top para comprobar si existe software anormal.

Compruebe si la memoria del proceso NodeAgent es insuficiente.

Inicie sesión en el nodo defectuoso como usuario root y ejecute el siguiente comando para ver los registros del proceso de NodeAgent:

vi /var/log/Bigdata/nodeagent/scriptlog/agent_gc.log.*.current
Compruebe si el archivo de registro contiene un error que indica que el tamaño del metaespacio o el tamaño de la memoria heap es insuficiente.
- En caso afirmativo, póngase en contacto con el personal de para cambiar el tamaño de la memoria.
- Si no, vaya a 14.

Recopilar información de fallas.

En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
Seleccione los siguientes nodos de Services y haga clic en OK.
- NodeAgent
- Controller
- OS
Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
Póngase en contacto con y proporcione los registros recopilados.