Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2023-11-20 GMT+08:00

ALM-14010 El servicio NameService es anormal

Descripción

El sistema comprueba el estado del servicio NameService cada 180 segundos. Esta alarma se genera cuando el servicio NameService no está disponible.

Esta alarma se borra cuando se recupera el servicio NameService.

Atributo

ID de alarma

Gravedad de la alarma

Borrar automáticamente

14010

Importante

Parámetros

Nombre

Significado

Source

Especifica el clúster para el que se genera la alarma.

ServiceName

Especifica el servicio para el que se genera la alarma.

RoleName

Especifica el rol para el que se genera la alarma.

HostName

Especifica el host para el que se genera la alarma.

NameServiceName

Especifica el NameService para el que se genera la alarma.

Impacto en el sistema

HDFS no proporciona servicios para componentes de capa superior basados en el servicio NameService, como HBase y MapReduce. Como resultado, los usuarios no pueden leer ni escribir archivos.

Causas posibles

  • El servicio KrbServer es anormal.
  • El JournalNode es defectuosa.
  • El DataNode es defectuosa.
  • La capacidad del disco es insuficiente.
  • El NameNode entra en modo seguro.

Procedimiento

Comprobar el estado de servicio KrbServer.

  1. En FusionInsight Manager, elija Cluster > Name of the desired cluster > Services.
  2. Compruebe si el servicio KrbServer existe.

    • En caso afirmativo, vaya a 3.
    • Si no, vaya a 6.

  3. Haga clic en KrbServer.
  4. Haga clic en Instances. En la página de gestión del KrbServer, seleccione la instancia defectuosa y elija More > Restart Instance. Compruebe si la instancia se reinicia correctamente.

    • En caso afirmativo, vaya a 5.
    • Si no, vaya a 24.

  5. Elija O&M > Alarm > Alarms y compruebe si la alarma está desactivada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 6.

Comprobar el estado de instancia de JournalNode.

  1. En FusionInsight Manager, elija Cluster > Name of the desired cluster > Services.
  2. Elija HDFS > Instances.
  3. Comprueba si el Running Status del JournalNode es Normal.

    • En caso afirmativo, vaya a 11.
    • Si no, vaya a 9.

  4. Seleccione el JournalNode defectuoso y elija More > Restart Instance. Compruebe si el JournalNode se reinicia correctamente.

    • En caso afirmativo, vaya a 10.
    • Si no, vaya a 24.

  5. Elija O&M > Alarm > Alarms y compruebe si la alarma está desactivada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 11.

Comprobar el estado de instancia de DataNode.

  1. En FusionInsight Manager, elija Cluster > Name of the desired cluster > Services > HDFS.
  2. Haga clic en Instances y verifique si el Running Status de todos los DataNodes es Normal.

    • En caso afirmativo, vaya a 15.
    • Si no, vaya a 13.

  3. Haga clic en Instances. En la página de gestión del DataNode, seleccione la instancia defectuosa y elija More > Restart Instance. Compruebe si el DataNode se reinicia correctamente.

    • En caso afirmativo, vaya a 14.
    • Si no, vaya a 15.

  4. Elija O&M > Alarm > Alarms y compruebe si la alarma está desactivada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 15.

Comprobar estado de disco.

  1. En FusionInsight Manager, elija Cluster > Name of the desired cluster > Host.
  2. En la columna Disk, compruebe si el espacio en disco es insuficiente.

    • En caso afirmativo, vaya a 17.
    • Si no, vaya a 19.

  3. Amplíe la capacidad del disco.
  4. Elija O&M > Alarm > Alarms y compruebe si la alarma está desactivada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 19.

Comprobar si NameNode está en el modo seguro.

  1. En FusionInsight Manager, elija Cluster > Name of the desired cluster > Services > HDFS. Haga clic en NameNode(Active) del NameService anormal. Se muestra NameNode web UI.

    De forma predeterminada, el usuario admin no tiene los derechos de gestión de otros componentes. Si la página no se puede abrir o el contenido no se muestra completamente debido a un permiso insuficiente al acceder a la página nativa de un componente, puede crear manualmente un usuario con los derechos de gestión del componente correspondiente para iniciar sesión en el componente.

  2. En la NameNode web UI, compruebe si se muestra "Safe mode is ON."

    La información detrás de Safe mode is ON es información de alarma y se muestra en función de las condiciones reales.

    • En caso afirmativo, vaya a 21.
    • Si no, vaya a 24.
    Figura 1 Descripción

  3. Inicie sesión en el cliente como usuario root. Ejecute el comando cd para ir al directorio de instalación del cliente y ejecute el comando source bigdata_env. Si el clúster utiliza el modo de seguridad, realice la autenticación de seguridad. Ejecute el comando kinit hdfs e introduzca la contraseña como se le solicite. La contraseña se puede obtener del administrador del clúster MRS. Si el clúster utiliza el modo de no seguridad, inicie sesión como usuario omm y ejecute el comando. Asegúrese de que el usuario omm tiene el permiso de ejecución del cliente.
  4. Ejecute hdfs dfsadmin -safemode leave.
  5. Elija O&M > Alarm > Alarms y compruebe si la alarma está desactivada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 24.

Recopilar información de fallas.

  1. En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
  2. En el área Service, seleccione los siguientes nodos del clúster deseado.

    • ZooKeeper
    • HDFS

  3. Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
  4. Póngase en contacto con y proporcione los registros recopilados.

Eliminación de alarmas

Esta alarma se borra automáticamente después de rectificar la falla.

Información relacionada

Ninguna