Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2023-11-20 GMT+08:00

ALM-17003 Servicio Oozie no disponible

Descripción

El sistema comprueba el estado del servicio de Oozie cada 5 segundos. Esta alarma se genera cuando Oozie o un componente del que depende Oozie no puede proporcionar servicios correctamente.

Esta alarma se borra automáticamente cuando el servicio Oozie se recupera.

Atributo

ID de alarma

Gravedad de la alarma

Borrado automáticamente

17003

Crítica

Parámetros

Nombre

Significado

Source

Especifica el clúster para el que se genera la alarma.

ServiceName

Especifica el servicio para el que se genera la alarma.

RoleName

Especifica el rol para el que se genera la alarma.

HostName

Especifica el host para el que se genera la alarma.

Impacto en el sistema

Oozie no se puede utilizar para enviar trabajos.

Causas posibles

  • El servicio DBService es anormal o los datos de Oozie almacenados en DBService están dañados.
  • El servicio HDFS es anormal o los datos de Oozie almacenados en HDFS están dañados.
  • El servicio Yarn es anormal.
  • El proceso Nodeagent es anormal.

Procedimiento

Consultar el código de estado de salud de servicio Oozie.

  1. En el portal del FusionInsight Manager, seleccione Cluster > Name of the desired cluster >Services > Oozie. Haga clic en oozie (cualquiera de ellos está bien) en el oozie WebUI. para ir a la WebUI de Oozie.

    De forma predeterminada, el usuario admin no tiene los permisos para gestionar otros componentes. Si la página no se puede abrir o el contenido mostrado está incompleto al acceder a la interfaz de usuario nativa de un componente debido a la falta de permisos, puede crear manualmente un usuario con los permisos para gestionar ese componente.

  2. Agregue /servicehealth a la URL en el cuadro de direcciones del navegador y vuelva a acceder. El valor de statusCode es el código de estado de servicio actual de Oozie.

    Por ejemplo, visite https://10.10.0.117:20026/Oozie/oozie/130/oozie/servicehealth. El resultado es el siguiente:

    {"beans":[{"name":"serviceStatus","statusCode":0}]}

    Si el código de estado de salud no se puede mostrar o el navegador no responde, el servicio puede no estar disponible debido a una falla en el proceso de Oozie. Vea 13 para rectificar la falla.

  3. Realice las operaciones basadas en el código de error. Para obtener más información, consulte Tabla 1.

    Tabla 1 Código de estado de salud del servicio Oozie

    Código de estado

    Descripción

    Causa del error

    Solución

    0

    El servicio está funcionando correctamente.

    Ninguna

    Ninguna

    18002

    El servicio DBService es anormal.

    Oozie no puede conectarse a DBService o los datos almacenados en DBService están dañados.

    Consulte 4.

    18003

    El servicio HDFS es anormal.

    Oozie no puede conectarse a HDFS o los datos almacenados en HDFS están dañados.

    Consulte 7.

    18005

    El MapReduce service es anormal.

    El servicio Yarn es anormal.

    Consulte 11.

Comprobar el servicio DBService.

  1. En el portal FusionInsight Manager, elija Cluster > Name of the desired cluster > Services y compruebe si el servicio DBService se está ejecutando correctamente.

    • En caso afirmativo, vaya a 6.
    • Si no, vaya a 5.

  2. Resuelva el problema de DBService basándose en la ayuda de alarma y compruebe si la alarma de Oozie está borrada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 18.

  3. Inicie sesión en la base de datos de Oozie para comprobar si los datos están completos.

    1. Inicie sesión en el nodo DBService activo como usuario root.

      En la página FusionInsight Manager, elija Cluster > Name of the desired cluster > Services > DBService > Instance para ver la dirección IP del nodo DBservice activo.

    2. Ejecute el siguiente comando para iniciar sesión en la base de datos de Oozie:

      su - omm

      source ${BIGDATA_HOME}/FusionInsight_BASE_/install/FusionInsight-dbservice-2.7.0/.dbservice_profile

      gsql -U Username -W Oozie database password -p 20051 -d Database name

    3. Una vez que el inicio de sesión se haya realizado correctamente, introduzca \d para comprobar si hay 15 tablas de datos.

      El servicio Oozie tiene 15 tablas de datos por defecto. Si se eliminan estas tablas de datos o se modifica la estructura de la tabla, es posible que el servicio Oozie no esté disponible. Póngase en contacto con el para realizar una copia de respaldo de los datos y realizar la restauración.

Comprobar el servicio HDFS.

  1. En el portal del FusionInsight Manager, elija Cluster > Name of the desired cluster > Services y compruebe si el servicio HDFS se está ejecutando correctamente.

    • En caso afirmativo, vaya a 9.
    • Si no, vaya a 8.

  2. Resuelva el problema de HDFS basándose en la ayuda de alarma y compruebe si la alarma Oozie está borrada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 18.

  3. Inicie sesión en HDFS para comprobar si la estructura de directorios de archivos Oozie está completa.

    1. Descargue e instale un cliente HDFS..
    2. Inicie sesión en el nodo cliente como usuario root y ejecute los siguientes comandos para comprobar si /user/oozie/share existe.

      Si el clúster utiliza el modo de seguridad, realice la autenticación de seguridad.

      kinit admin

      hdfs dfs -ls /user/oozie/share

    • En caso afirmativo, vaya a 18.
    • Si no, vaya a 10.

  4. En el directorio de instalación del cliente Oozie, cargue manualmente el directorio compartido a /user/oozie en HDFS y compruebe si la alarma está borrada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 18.

Comprobar el servicio Yarn y MapReduce.

  1. En el portal del FusionInsight Manager, elija Cluster > Name of the desired cluster > Services y compruebe si los servicios de Yarn y MapReduce se están ejecutando correctamente.

    • En caso afirmativo, vaya a 18.
    • Si no, vaya a 12.

  2. Resuelva el problema de Yarn y MapReduce basándose en la ayuda de alarma y compruebe si la alarma Oozie está borrada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 18.

Comprobar el proceso Oozie.

  1. Inicie sesión en cada nodo de Oozie como usuario root.
  2. Ejecute el comando ps -ef | grep oozie para comprobar si el proceso Oozie existe.

    • En caso afirmativo, vaya a 15.
    • Si no, vaya a 18.

  3. Recopilar información de fallas en prestartDetail.log, oozie.log, y catalina.out en el directorio de registro de Oozie /var/log/Bigdata/oozie. Si la alarma no es causada por un mal funcionamiento manual, vaya a 16.

Comprobar el proceso Nodeagent.

  1. Inicie sesión en cada nodo de Oozie como usuario root. Ejecute el comando ps -ef | grep nodeagent para comprobar si existe el proceso Nodeagent.

    • En caso afirmativo, vaya a 17.
    • Si no, vaya a 18.

  2. Ejecute el comando kill -9 The process ID of nodeagent, espere 10 minutos y compruebe si la alarma está desactivada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 18.

  3. Póngase en contacto con el y envíe los registros recopilados.

Eliminación de alarmas

Después de rectificar la falla, el sistema borra automáticamente esta alarma.

Información relacionada

Ninguna