ALM-18002 Latidos del corazón de NodeManager perdidos
Descripción
El sistema comprueba el número de nodos de NodeManager perdidos cada 30 segundos, y compara el número con el umbral. El indicador Número de nodos perdidos tiene un umbral predeterminado. La alarma se genera cuando el valor de Número de Nodos Perdidos excede el umbral.
Para cambiar el umbral, en FusionInsight Manager, elija Cluster > Name of the desired cluster > Services > Yarn. En la página mostrada, elija Configurations > All Configurations y cambie el valor de yarn.nodemanager.lost.alarm.threshold. No es necesario reiniciar Yarn para que el cambio surta efecto.
El umbral predeterminado es 0. La alarma se genera cuando el número de nodos perdidos excede el umbral, y se borra cuando el número de nodos perdidos es menor que el umbral.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrado automáticamente |
---|---|---|
18002 |
Importante |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Lost Host |
Especifica la lista de hosts con nodos perdidos. |
Impacto en el sistema
- El nodo NodeManager perdido no puede proporcionar el servicio Yarn.
- El número de contenedores disminuye, por lo que el rendimiento del clúster se deteriora.
Causas posibles
- NodeManager se elimina por la fuerza sin darse de baja.
- Todas las instancias NodeManager se detienen o el proceso NodeManager es defectuoso.
- El host donde reside el nodo NodeManager es defectuoso.
- La red entre el NodeManager y el ResourceManager está desconectada u ocupada.
Procedimiento
Comprobar el estado de NodeManager.
- En el FusionInsight Manager, elija O&M >Alarm > Alarms. Haga clic en antes de la alarma y obtenga los nodos perdidos de Additional Information.
- Compruebe si los nodos perdidos son hosts que se han eliminado manualmente sin darse de baja.
- Después de la configuración, elija Cluster > Name of the desired cluster > Services > Yarn. En la página mostrada, elija Configurations > All Configurations. Busque yarn.nodemanager.lost.alarm.threshold y cambie su valor por el número de hosts que no están fuera de servicio y que se eliminan de forma proactiva. Después de la configuración, compruebe si la alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 4.
- Borre la alarma manualmente. Tenga en cuenta que el desmantelamiento debe realizarse antes de eliminar los hosts.
- En el portal de FusionInsight Manager, elija Cluster > Hosts y compruebe si los nodos obtenidos en 1 están sanos.
- Rectifique la falla del nodo basado en el ALM-12006 Falla de nodo y verifique si la alarma está borrada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 7.
Comprobar el estado de proceso.
- En el FusionInsight Manager, seleccione Cluster > Name of the desired cluster > Services > Yarn > Instance y compruebe si NodeManager hay instancias cuyo estado no es Good.
- Compruebe si se ha eliminado la instancia NodeManager.
- Reinicie las instancias de ResourceManager activa y en espera y compruebe si la alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 13.
Comprobar el estado de instancia.
- Seleccione instancias de NodeManager cuyo estado de ejecución no sea Normal y reinícielas. Verifique si la alarma se ha borrado.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 11.
Comprobar el estado de red.
- Inicie sesión en el nodo de gestión, haga ping a la dirección IP del nodo de NodeManager perdido para comprobar si la red está desconectada u ocupada.
- Rectifique la red y compruebe si la alarma está borrada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 13.
Recopilar información de fallas.
- En el FusionInsight Manager del clúster activo, elija O&M > Log > Download.
- Seleccione Yarn en el clúster requerido en el Service.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con el y envíe los registros recopilados.
Eliminación de alarmas
Después de rectificar la falla, el sistema borra automáticamente esta alarma.
Información relacionada
Ninguna