ALM-25005 Excepción de servicio nscd
Descripción
El sistema comprueba el estado del servicio nscd cada 60 segundos. Esta alarma se genera cuando el proceso nscd no se consulta durante cuatro veces consecutivas (tres minutos) o los usuarios de LdapServer no se pueden obtener.
Esta alarma se borra cuando se restablece el proceso y se pueden obtener los usuarios de LdapServer.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrar automáticamente |
---|---|---|
25005 |
Importante |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
HostName |
Host para el que se genera la alarma. |
Impacto en el sistema
El nodo alarmado puede no ser capaz de sincronizar datos de LdapServer. El comando id puede no obtener los datos LDAP, lo que afecta a los servicios de capa superior.
Causas posibles
- El servicio nscd no se inicia.
- La red está defectuosa y no puede acceder al servidor LDAP.
- NameService es anormal.
- No se puede consultar a los usuarios porque el sistema operativo ejecuta los comandos con demasiada lentitud.
Procedimiento
Comprobar si se ha iniciado el servicio nscd.
- Inicie sesión en FusionInsight Manager y elija O&M > Alarm > Alarms. Registre la dirección IP de HostName en Location de la alarma como IP1 (si existen varias alarmas, registre las direcciones IP como IP1, IP2 y IP3 respectivamente).
- Póngase en contacto con el para acceder al nodo usando IP1 como usuario root. Ejecute el comando ps -ef | grep nscd en el nodo y compruebe si el proceso /usr/sbin/nscd está iniciado.
- Ejecute el comando service nscd restart como usuario root para reiniciar el servicio nscd. A continuación, ejecute el comando ps -ef | grep nscd para comprobar si se ha iniciado el servicio nscd.
- Espere 5 minutos y vuelva a ejecutar el comando ps -ef | grep nscd como usuario root. Compruebe si el servicio existe.
Comprobar si la red está defectuosa y si se puede acceder al servidor LDAP.
- Inicie sesión en el nodo con alarma como usuario root y ejecute el comando ping para comprobar si la conectividad de red entre este nodo y el nodo LdapServer es normal.
- En caso afirmativo, vaya a 6.
- Si no, póngase en contacto con los administradores de red para solucionar el problema.
Comprobar si el NameService es normal.
- Inicie sesión en el nodo con alarma como usuario root. Ejecute el comando cat /etc/nsswitch.conf para comprobar si el passwd, group, services, netgroup y el aliases de NameService están configurados correctamente.
Las configuraciones de parámetros correctas son las siguientes:
passwd: compat ldap; group: compat ldap; services: files ldap; netgroup: files ldap; aliases: files ldap
- Inicie sesión en el nodo con alarma como usuario root. Ejecute el comando cat /etc/nscd.conf para comprobar si enable-cache passwd, positive-time-to-live passwd, enable-cache group y positive-time-to-live group en el archivo de configuración están configurados correctamente.
Las configuraciones de parámetros correctas son las siguientes:
enable-cache passwd: yes; positive-time-to-live passwd: 600; enable-cache group: yes; positive-time-to-live group: 3600
- Ejecute los comandos /usr/sbin/nscd -i group y /usr/sbin/nscd -i passwd como usuario root. Espere 2 minutos y ejecute los comandos id admin y id backup/manager para comprobar si se pueden consultar los resultados.
- Ejecute el comando vi /etc/nsswitch.conf como usuario root. Corrija las configuraciones de 6 y guarde el archivo. Ejecute el comando service nscd restart para reiniciar el servicio nscd. Espere 2 minutos y ejecute los comandos id admin y id backup/manager para comprobar si se pueden consultar los resultados.
- Ejecute el comando vi /etc/nscd.conf como usuario root. Corrija las configuraciones de 7 y guarde el archivo. Ejecute el comando service nscd restart para reiniciar el servicio nscd. Espere 2 minutos y ejecute los comandos id admin y id backup/manager para comprobar si se pueden consultar los resultados.
- Inicie sesión en el portal del FusionInsight Manager. Espere 5 minutos y compruebe si la alarma nscd Service Exception está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 12.
Verificar si se congela el marco cuando se ejecuta un comando en el sistema operativo..
- Inicie sesión en el nodo defectuoso como usuario root, ejecute el comando id admin y compruebe si la ejecución del comando tarda mucho tiempo. Si la ejecución del comando tarda más de 3 segundos, se considera que la ejecución del comando es lenta.
- Ejecute el comando cat /var/log/messages para comprobar si el nscd se reinicia con frecuencia o si existe la información de error "Can't contact LDAP server".
Ejemplo de excepción nscd:
Feb 11 11:44:42 10-120-205-33 nscd: nss_ldap: failed to bind to LDAP server ldaps://10.120.205.55:21780: Can't contact LDAP server Feb 11 11:44:43 10-120-205-33 ntpq: nss_ldap: failed to bind to LDAP server ldaps://10.120.205.55:21780: Can't contact LDAP server Feb 11 11:44:44 10-120-205-33 ntpq: nss_ldap: failed to bind to LDAP server ldaps://10.120.205.92:21780: Can't contact LDAP server
- Ejecute el comando vi$BIGDATA_HOME/tmp/random_ldap_ip_order para modificar el número al final. Si el número original es un número impar, cámbielo a un número par. Si el número es un número par, cámbielo a un número impar.
Ejecute el comando vi /etc/ldap.conf para entrar en el modo de edición, presione Insert para comenzar a editar y, a continuación, cambie las dos primeras direcciones IP del elemento de configuración de URI.
Una vez completada la modificación, pulse Esc para salir del modo de edición y entrar en :wq! para guardar la configuración y salir.
Ejecute el comando service nscd restart para reiniciar el servicio nscd. Espere 5 minutos y vuelva a ejecutar el comando id admin. Compruebe si la ejecución del comando es lenta.
- En caso afirmativo, vaya a 15.
- Si no, inicie sesión en otros nodos defectuosos y repita 12 en 14 para comprobar si el primer nodo LdapServer en el URI antes de modificar /etc/ldap.conf es defectuoso. Por ejemplo, compruebe si la dirección IP del servicio es inalcanzable, si el retraso de la red es demasiado largo o si se despliega otro software anormal.
Recopilar información de fallas.
- En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
- Expanda la lista desplegable junto al campo Service. En el cuadro de diálogo Services que se muestra, seleccione LdapClient para el clúster de destino.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 1 hora antes y después del tiempo de generación de alarma, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con y proporcione los registros recopilados.
Eliminación de alarmas
Esta alarma se borra automáticamente después de rectificar la falla.
Información relacionada
Ninguna