ALM-17003 Servicio Oozie no disponible
Descripción
El sistema comprueba el estado del servicio de Oozie cada 5 segundos. Esta alarma se genera cuando Oozie o un componente del que depende Oozie no puede proporcionar servicios correctamente.
Esta alarma se borra automáticamente cuando el servicio Oozie se recupera.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrado automáticamente |
---|---|---|
17003 |
Crítica |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Impacto en el sistema
Oozie no se puede utilizar para enviar trabajos.
Causas posibles
- El servicio DBService es anormal o los datos de Oozie almacenados en DBService están dañados.
- El servicio HDFS es anormal o los datos de Oozie almacenados en HDFS están dañados.
- El servicio Yarn es anormal.
- El proceso Nodeagent es anormal.
Procedimiento
Consultar el código de estado de salud de servicio Oozie.
- En el portal del FusionInsight Manager, seleccione Cluster > Name of the desired cluster >Services > Oozie. Haga clic en oozie (cualquiera de ellos está bien) en el oozie WebUI. para ir a la WebUI de Oozie.
De forma predeterminada, el usuario admin no tiene los permisos para gestionar otros componentes. Si la página no se puede abrir o el contenido mostrado está incompleto al acceder a la interfaz de usuario nativa de un componente debido a la falta de permisos, puede crear manualmente un usuario con los permisos para gestionar ese componente.
- Agregue /servicehealth a la URL en el cuadro de direcciones del navegador y vuelva a acceder. El valor de statusCode es el código de estado de servicio actual de Oozie.
Por ejemplo, visite https://10.10.0.117:20026/Oozie/oozie/130/oozie/servicehealth. El resultado es el siguiente:
{"beans":[{"name":"serviceStatus","statusCode":0}]}
Si el código de estado de salud no se puede mostrar o el navegador no responde, el servicio puede no estar disponible debido a una falla en el proceso de Oozie. Vea 13 para rectificar la falla.
- Realice las operaciones basadas en el código de error. Para obtener más información, consulte Tabla 1.
Tabla 1 Código de estado de salud del servicio Oozie Código de estado
Descripción
Causa del error
Solución
0
El servicio está funcionando correctamente.
Ninguna
Ninguna
18002
El servicio DBService es anormal.
Oozie no puede conectarse a DBService o los datos almacenados en DBService están dañados.
Consulte 4.
18003
El servicio HDFS es anormal.
Oozie no puede conectarse a HDFS o los datos almacenados en HDFS están dañados.
Consulte 7.
18005
El MapReduce service es anormal.
El servicio Yarn es anormal.
Consulte 11.
Comprobar el servicio DBService.
- En el portal FusionInsight Manager, elija Cluster > Name of the desired cluster > Services y compruebe si el servicio DBService se está ejecutando correctamente.
- Resuelva el problema de DBService basándose en la ayuda de alarma y compruebe si la alarma de Oozie está borrada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 18.
- Inicie sesión en la base de datos de Oozie para comprobar si los datos están completos.
- Inicie sesión en el nodo DBService activo como usuario root.
En la página FusionInsight Manager, elija Cluster > Name of the desired cluster > Services > DBService > Instance para ver la dirección IP del nodo DBservice activo.
- Ejecute el siguiente comando para iniciar sesión en la base de datos de Oozie:
source ${BIGDATA_HOME}/FusionInsight_BASE_/install/FusionInsight-dbservice-2.7.0/.dbservice_profile
gsql -U Username -W Oozie database password -p 20051 -d Database name
- Una vez que el inicio de sesión se haya realizado correctamente, introduzca \d para comprobar si hay 15 tablas de datos.
El servicio Oozie tiene 15 tablas de datos por defecto. Si se eliminan estas tablas de datos o se modifica la estructura de la tabla, es posible que el servicio Oozie no esté disponible. Póngase en contacto con el para realizar una copia de respaldo de los datos y realizar la restauración.
- Inicie sesión en el nodo DBService activo como usuario root.
Comprobar el servicio HDFS.
- En el portal del FusionInsight Manager, elija Cluster > Name of the desired cluster > Services y compruebe si el servicio HDFS se está ejecutando correctamente.
- Resuelva el problema de HDFS basándose en la ayuda de alarma y compruebe si la alarma Oozie está borrada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 18.
- Inicie sesión en HDFS para comprobar si la estructura de directorios de archivos Oozie está completa.
- Descargue e instale un cliente HDFS..
- Inicie sesión en el nodo cliente como usuario root y ejecute los siguientes comandos para comprobar si /user/oozie/share existe.
Si el clúster utiliza el modo de seguridad, realice la autenticación de seguridad.
kinit admin
hdfs dfs -ls /user/oozie/share
- En el directorio de instalación del cliente Oozie, cargue manualmente el directorio compartido a /user/oozie en HDFS y compruebe si la alarma está borrada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 18.
Comprobar el servicio Yarn y MapReduce.
- En el portal del FusionInsight Manager, elija Cluster > Name of the desired cluster > Services y compruebe si los servicios de Yarn y MapReduce se están ejecutando correctamente.
- Resuelva el problema de Yarn y MapReduce basándose en la ayuda de alarma y compruebe si la alarma Oozie está borrada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 18.
Comprobar el proceso Oozie.
- Inicie sesión en cada nodo de Oozie como usuario root.
- Ejecute el comando ps -ef | grep oozie para comprobar si el proceso Oozie existe.
- Recopilar información de fallas en prestartDetail.log, oozie.log, y catalina.out en el directorio de registro de Oozie /var/log/Bigdata/oozie. Si la alarma no es causada por un mal funcionamiento manual, vaya a 16.
Comprobar el proceso Nodeagent.
- Inicie sesión en cada nodo de Oozie como usuario root. Ejecute el comando ps -ef | grep nodeagent para comprobar si existe el proceso Nodeagent.
- Ejecute el comando kill -9 The process ID of nodeagent, espere 10 minutos y compruebe si la alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 18.
- Póngase en contacto con el y envíe los registros recopilados.
Eliminación de alarmas
Después de rectificar la falla, el sistema borra automáticamente esta alarma.
Información relacionada
Ninguna