Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Centro de ayuda> MapReduce Service> Guía del usuario> Referencia de alarma (aplicable a MRS 3.x)> ALM-45637 Task de FlinkServer está continuamente bajo presión de retorno
Actualización más reciente 2023-11-20 GMT+08:00

ALM-45637 Task de FlinkServer está continuamente bajo presión de retorno

Esta sección se aplica a MRS 3.1.2 o posterior.

Descripción

El sistema comprueba la duración de la contrapresión de tasks de FlinkServer basándose en el intervalo de comprobación de alarma configurado. Esta alarma se genera cuando la duración de la contrapresión de una task de FlinkServer alcanza el umbral configurado. Esta alarma se borra cuando se recupera la contrapresión de la task o el trabajo se reinicia correctamente.

Atributo

ID de alarma

Severidad de alarma

Borrar automáticamente

45637

Menor

Parámetros

Nombre

Significado

Source

Especifica el clúster para el que se genera la alarma.

ServiceName

Especifica el servicio para el que se genera la alarma.

JobName

Especifica el trabajo para el que se genera la alarma.

Impacto en el sistema

Esta alarma no tiene impacto en el sistema.

Causas posibles

Puede ver las causas en los registros específicos.

Procedimiento

  1. Inicie sesión en Manager como un usuario que tiene el permiso de gestión FlinkServer.
  2. Elija Cluster > Services > Yarn y haga clic en el enlace junto a ResourceManager WebUI para ir a la página de Yarn.
  3. Localice el trabajo que ha fallado basándose en su nombre mostrado en Location, busque y registre el ID de aplicación del trabajo que ha fallado y compruebe si los registros del trabajo están disponibles en la página Yarn.

    Figura 1 ID de aplicación de un trabajo

    En caso afirmativo, vaya a 4.

    Si no, vaya a 6.

  4. Haga clic en el ID de aplicación del trabajo que ha fallado para ir a la página de trabajo.

    1. Haga clic en Logs en la columna Logs para ver los registros de JobManager.
      Figura 2 Hacer clic en los registros
    2. Haga clic en el ID en la columna Attempt ID y haga clic en Logs en la columna Logs para ver los registros de TaskManager.
      Figura 3 Haga clic en el ID en la columna Attempt ID
      Figura 4 Hacer clic en los registros

      También puede iniciar sesión en Manager como un usuario que tiene el permiso de gestión FlinkServer, elija Cluster > Services > Flink, haga clic en el enlace junto a Flink WebUI. En la interfaz de usuario web de Flink mostrada, haga clic en Job Management y elija More > Job Monitoring en la columna Operation para ver los registros TaskManager.

  5. Vea los registros del trabajo fallido para rectificar el fallo, o póngase en contacto con el personal del y envíe los registros de fallas recopiladas. No se requiere ninguna otra acción.

Si los registros no están disponibles en la página Yarn, descargue los registros desde HDFS.

  1. En Administrador, elija Cluster > Services > HDFS, haga clic en el enlace junto a NameNode WebUI para ir a la página HDFS, seleccione Utilities > Browse the file system, y descargue los registros en el directorio /tmp/logs/User name/logs/Application ID of the failed job.
  2. Vea los registros del trabajo fallido para rectificar el fallo, o póngase en contacto con el personal del y envíe los registros de fallas recopiladas.

Eliminación de alarmas

Esta alarma se borra cuando se recupera la contrapresión de task de FlinkServer o se reinicia correctamente el trabajo.

Información relacionada

Ninguna