ALM-18003 NodeManager en mal estado
Descripción
El sistema comprueba el número de nodos de NodeManager no saludables cada 30 segundos y compara el número con el umbral. El indicador de nodos no saludables tiene un umbral predeterminado. Esta alarma se genera cuando el valor del indicador de nodos no saludables excede el umbral.
Para cambiar el umbral, en FusionInsight Manager, elija Cluster > Name of the desired cluster > Services > Yarn. En la página mostrada, elija Configurations > All Configurations, y cambie el valor de yarn.nodemanager.unhealthy.alarm.threshold. No es necesario reiniciar Yarn para que el cambio surta efecto.
El umbral predeterminado es 0. La alarma se genera cuando el número de nodos no sanos excede el umbral, y se borra cuando el número de nodos no sanos es menor que el umbral.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrado automáticamente |
---|---|---|
18003 |
Importante |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Unhealthy Host |
Especifica la lista de hosts con nodos no saludables. |
Impacto en el sistema
- El nodo NodeManager defectuoso no puede proporcionar el servicio Yarn.
- El número de contenedores disminuye, por lo que el rendimiento del clúster se deteriora.
Causas posibles
- El espacio en disco duro del host donde reside el nodo de NodeManager es insuficiente.
- El usuario omm no tiene permiso para acceder a un directorio local en el nodo NodeManager.
Procedimiento
Comprobar el espacio en el disco duro del host.
- En el FusionInsight Manager, elija O&M >Alarm > Alarms. Haga clic en
antes de la alarma y obtenga nodos no saludables de Additional Information.
- Elija Cluster > Name of the desired cluster > Services > Yarn > Instance, seleccione la instancia de NodeManager correspondiente al host, elija Instance Configurations > All Configurations y vea los discos correspondientes al yarn.nodemanager.local-dirs y yarn.nodemanager.log-dirs.
- Elija O&M > Alarm > Alarms. En la lista de alarmas, compruebe si el disco relacionado tiene la alarma ALM-12017 Capacidad de disco insuficiente.
- Rectifique la falla del disco basado en ALM-12017 Capacidad de disco insuficiente y compruebe si la alarma está borrada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 7.
- Elija Hosts > Name of the desired host. En la página Dashboard, compruebe el uso del disco de la partición correspondiente. Compruebe si el porcentaje del espacio usado del disco montado excede el valor de yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage
- Reduzca el uso del disco a menos que el valor de yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage, espere de 10 a 20 minutos y compruebe si la alarma está borrada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 7.
Verificar el permiso de acceso del directorio local en cada nodo de NodeManager.
- Obtenga el directorio NodeManager visto en 2, inicie sesión en cada nodo de NodeManager como usuario root y vaya al directorio obtenido.
- Ejecute el comando ll para comprobar si el permiso de las carpetas localdir y containerlogs es 755 y si User:Group es omm:ficommon.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 9.
- Ejecute el siguiente comando para establecer el permiso para 755 y User:Group para omm:ficommon:
chmod 755 <folder_name>
chown omm:ficommon <folder_name>
- Espere de 10 a 20 minutos y compruebe si la alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 11.
Recopilar información de fallas.
- En el FusionInsight Manager del clúster activo, elija O&M > Log > Download.
- Seleccione Yarn en el clúster requerido en el Service.
- Haga clic en
en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con el y envíe los registros recopilados.
Eliminación de alarmas
Después de rectificar la falla, el sistema borra automáticamente esta alarma.
Información relacionada
Ninguna