Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2023-11-20 GMT+08:00

Configuración del Umbral

Escenario

Puede configurar los umbrales de indicadores de supervisión para supervisar el estado de los indicadores en FusionInsight Manager. Si se producen datos anormales y se cumplen las condiciones preestablecidas, el sistema activa una alarma y muestra la información de alarma en la página de alarma.

Procedimiento

  1. Inicie sesión en FusionInsight Manager.
  2. Elija O&M > Alarm > Thresholds.
  3. Seleccione una métrica de supervisión para un host o servicio en el clúster.

    Figura 1 Configuración del umbral para una métrica
    Por ejemplo, después de seleccionar Host Memory Usage, se muestra la información acerca de este umbral de indicador.
    • Si el interruptor de envío de alarma se muestra como , se activa una alarma si se alcanza el umbral.
    • Alarm ID y Alarm Name: información de alarma activada contra el umbral
    • Trigger Count: FusionInsight Manager comprueba si el valor de una métrica de supervisión alcanza el umbral. Si el número de comprobaciones consecutivas alcanza el valor de Trigger Count se genera una alarma. Trigger Count es configurable.
    • Check Period (s): intervalo para que el sistema compruebe la métrica de monitorización.
    • Las reglas de la lista de reglas se utilizan para activar alarmas.

  4. Haga clic en Create Rule para agregar reglas utilizadas para los indicadores de supervisión.

    Tabla 1 Parámetros de la regla del indicador de supervisión

    Parámetro

    Descripción

    Valor de ejemplo

    Rule Name

    Nombre de una regla.

    CPU_MAX

    Severity

    Gravedad de la alarma

    • Critical
    • Major
    • Minor
    • Warning
    • Critical
    • Major
    • Minor
    • Warning

    Threshold Type

    Puede utilizar el valor máximo o mínimo de un indicador como umbral de activación de alarma. Si Threshold Type se establece en Max value, el sistema genera una alarma cuando el valor del indicador especificado es mayor que el umbral. Si Threshold Type se establece en Min value, el sistema genera una alarma cuando el valor del indicador especificado es menor que el umbral.

    • Max value
    • Min value

    Date

    Este parámetro se utiliza para establecer la fecha en la que la regla entra en vigor.

    • Daily
    • Weekly
    • Others

    Add Date

    Este parámetro solo está disponible cuando Date está establecido en Others. Puede establecer la fecha de entrada en vigor de la regla. Hay varias opciones disponibles.

    09-30

    Thresholds

    Este parámetro se utiliza para establecer el intervalo de tiempo cuando la regla entra en vigor.

    Start and End Time: 00:00–08:30

    Umbral de la métrica de supervisión de reglas

    Threshold: 10

    Puede hacer clic en o para agregar o eliminar umbrales de tiempo.

  5. Haga clic en OK para guardar las reglas.
  6. Busque la fila que contiene una regla agregada y haga clic en Apply en la columna Operation. El valor de Effective para esta regla cambia a Yes.

    Una nueva regla sólo se puede aplicar después de hacer clic en Cancel para una regla existente.

Referencia de métrica de monitoreo

Las métricas de supervisión de alarmas de FusionInsight Manager se clasifican como métricas de información de nodo y métricas de servicio de clúster. Tabla 2 describe las métricas para las que puede configurar umbrales en los nodos.

Tabla 2 Métricas de monitorización de nodos

Grupo métrico

Métrica

Descripción

Umbral predeterminado

CPU

Uso de la CPU del host

Este indicador refleja las capacidades de computación y control del clúster actual en un período de medición. Al observar el valor del indicador, puede comprender mejor el uso general de recursos del clúster.

90.0%

Disco

Uso de disco

Indica el uso del disco de un host.

90.0%

Uso de Inode de disco

Indica el uso de inode de disco en un período de medición.

80.0%

Memoria

Uso de memoria de host

Indica el uso promedio de memoria en el momento actual.

90.0%

Estado de host

Uso del handle de archivo de host

Indica el uso de handles de archivo del host en un período de medición.

80.0%

Uso de PID de host

Indica el uso de PID de un host.

90%

Estado de red

Uso del puerto efímero de TCP

Indica el uso de puertos TCP temporales del host en un período de medición.

80.0%

Lectura de red

Tasa de error de paquete de lectura

Indica la tasa de error de paquete de lectura de la interfaz de red en el host en un período de medición.

0.5%

Tasa de paquetes perdidos de lectura

Indica la tasa de paquetes perdidos de lectura de la interfaz de red en el host en un período de medición.

0.5%

Tasa de rendimiento de lectura

Indica el rendimiento de lectura promedio (en la capa MAC) de la interfaz de red en un período de medición.

80%

Escritura de red

Tasa de errores de paquetes de escritura

Indica la tasa de error de paquete de escritura de la interfaz de red en el host en un período de medición.

0.5%

Tasa de paquetes perdidos de escritura

Indica la tasa de paquetes perdidos de escritura de la interfaz de red en el host en un período de medición.

0.5%

Tasa de rendimiento de escritura

Indica el rendimiento promedio de escritura (en la capa MAC) de la interfaz de red en un período de medición.

80%

Proceso

Proceso de suspensión ininterrumpida

Número de procesos de estado D en el host en un período de medición

0

Uso del proceso omm

Uso del proceso de omm en un período de medición

90

Tabla 3 Indicadores de servicio de clúster

Servicio

Nombre de grupo de indicador de monitoreo

Nombre de indicador

Descripción

Umbral predeterminado

DBService

Base de datos

Uso del número de conexiones de base de datos

Indica el uso del número de conexiones de base de datos.

90%

Uso del espacio en disco del directorio de datos

Uso del espacio en disco del directorio de datos

80%

Flume

Agent

Calcular el uso de la memoria heap

Indica el uso de memoria heap de Flume.

95.0%

Estadísticas de uso de memoria directa de Flume

Indica el uso de memoria directa de Flume.

80.0%

Uso de memoria no heap de Flume

Indica el uso de memoria no heap de Flume.

80.0%

Duración total de GC del proceso de Flume

Indica el tiempo total de GC de Flume.

12000 ms

HBase

GC

Tiempo de GC para generación antigua

Tiempo total de GC de RegionServer

5000 ms

Tiempo de GC para generación antigua

Indica que el tiempo total de GC de HMaster.

5000 ms

CPU & memoria

Estadísticas de uso de memoria directa de RegionServer

Indica el uso de memoria directa de theRegionServerReg.

90%

Estadísticas de uso de memoria heap de RegionServer

Indica el uso de memoria de heap de RegionServer.

90%

Uso de memoria directa de HMaster

Indica el uso de memoria directa de HMaster.

90%

Estadísticas de uso de memoria heap de HMaster.

Indica el uso de memoria heap de HMaster.

90%

Servicio

Número de regiones en línea de un RegionServer

Número de regiones de un RegionServer

2000

Región en recuento de transacciones por encima del umbral

Número de regiones que están en el estado RIT y alcanzan la duración umbral

1

Replicación

Veces de error de sincronización de replicación (RegionServer)

Indica el número de veces que los datos de DR no se sincronizan.

1

Número de archivos de registro que se van a sincronizar en el clúster activo

Número de archivos de registro que se sincronizarán en el clúster activo

128

Número de HFiles que se van a sincronizar en el clúster activo

Número de HFiles que se van a sincronizar en el clúster activo

128

Cola

Tamaño de la cola de Compaction

Tamaño de la cola de Compaction

100

HDFS

Archivo y bloque

Bloques perdidos

Indica el número de copias en bloque de las que carece el HDFS.

0

Bloques bajo replicación

Número total de bloques que necesitan ser replicados por el NameNode

1000

RPC

Tiempo promedio de procesamiento de RPC de NameNode activo

Indica el tiempo promedio de procesamiento de RPC.

100 ms

Tiempo promedio de la cola RPC de NameNode activa

Indica el tiempo medio de cola de RPC.

200 ms

Disco

Uso de disco HDFS

Indica el uso del disco HDFS.

80%

Uso del disco DataNode

Indica el uso de disco de DataNodes en el HDFS.

80%

Porcentaje de espacio reservado para réplicas de espacio no utilizado

Indica el porcentaje del espacio en disco reservado de todas las copias con respecto al espacio en disco total no utilizado de DataNodes.

90%

Recurso

DataNodes defectuosos

Indica el número de DataNodes defectuosos.

3

Estadísticas de uso de memoria no heap de NameNode

Indica el porcentaje de uso de memoria no heap de NameNode.

90%

Estadísticas de uso de memoria directa de NameNode

Indica el porcentaje de memoria directa que utiliza NameNodes.

90%

Estadísticas de uso de memoria heap de NameNode

Indica el porcentaje de uso de memoria no heap de NameNode.

95%

Estadísticas de uso de memoria directa de DataNode

Indica el porcentaje de memoria directa que utiliza DataNodes.

90%

Estadísticas de uso de memoria heap de DataNode

Uso de memoria heap de DataNode

95%

Estadísticas de uso de memoria heap de DataNode

Indica el porcentaje de uso de memoria no heap de DataNode.

90%

Recolección de basura

Tiempo de GC (NameNode)/Tiempo de GC (DataNode)

Indica la duración de recolección de basura (GC) de NameNodes por minuto.

12000 ms

Tiempo de GC

Indica la duración de GC de DataNodes por minuto.

12000 ms

Hive

HQL

Porcentaje de sentencias HQL ejecutadas con éxito por Hive

Indica el porcentaje de sentencias HQL que Hive ejecuta correctamente.

90.0%

Fondo

Uso de subproceso de background

Uso de subprocesos de background

90%

GC

Tiempo total de GC de MetaStore

Indica el tiempo total de GC de MetaStore.

12000 ms

Tiempo total de GC en milisegundos

Indica el tiempo total de GC de HiveServer.

12000 ms

Capacidad

Porcentaje de espacio HDFS utilizado por Hive con respecto al espacio disponible

Indica el porcentaje de espacio HDFS utilizado por Hive con respecto al espacio disponible.

85.0%

CPU & memoria

Estadísticas de uso de memoria directa de MetaStore

Uso de memoria directa de MetaStore

95%

Estadísticas de uso de memoria no heap de MetaStore

Uso de memoria no heap de MetaStore

95%

Estadísticas de uso de memoria heap de MetaStore

Uso de memoria heap de MetaStore

95%

Estadísticas de uso de memoria directa de HiveServer

Uso de memoria directa de HiveServer

95%

Estadísticas de uso de memoria no heap de HiveServer

Uso de memoria no heap de HiveServer

95%

Estadísticas de uso de memoria heap de HiveServer

Uso de memoria heap de HiveServer

95%

Session

Porcentaje de Sessions conectadas al HiveServer con respecto al número máximo de Sessions permitidas por el HiveServer

Indica el porcentaje del número de sessions conectadas al HiveServer con respecto al número máximo de Sessions permitidas por el HiveServer.

90.0%

Kafka

Partición

Porcentaje de particiones que no están completamente sincronizadas

Indica el porcentaje de Partitions que no están completamente sincronizadas con el total de Partitions.

50%

Otros

Porcentaje de Partition no disponible

Porcentaje de Partitions no disponibles de cada topic de Kafka

40%

Uso de la conexión de usuario en Broker

Uso de conexiones de usuario en Broker

80%

Disco

Uso del disco de Broker

Indica el uso del disco del disco donde se encuentra el directorio de datos del Broker.

80.0%

Tasa de E/S de disco de un Broker

Uso de E/S del disco donde se encuentra el directorio de datos del Broker

80%

Proceso

Duración de GC de Broker por minuto

Indica la duración de GC del proceso del Broker por minuto.

12000 ms

Uso de memoria heap de Kafka

Indica el uso de memoria heap de Kafka.

95%

Uso de memoria directa de Kafka

Indica el uso de memoria directa de Kafka.

95%

Loader

Memoria

Calcular uso de memoria heap

Indica el uso de memoria heap de Loader.

95%

Uso de memoria directa de Loader

Indica el uso de memoria directa de Loader.

80.0%

Uso de memoria no heap de Loader

Indica el uso de memoria no heap de Loader.

80%

GC

Tiempo total de GC de Loader

Indica el tiempo total de GC de Loader.

12000 ms

MapReduce

Recolección de basura

Tiempo de GC

Indica el tiempo de GC.

12000 ms

Recurso

Estadísticas de uso de memoria directa de JobHistoryServer

Indica el uso de memoria directa de JobHistoryServer.

90%

Estadísticas de uso de memoria no heap de JobHistoryServer

Indica el uso de memoria no heap de JobHistoryServer.

90%

Estadísticas de uso de memoria heap de JobHistoryServer

Indica el uso de memoria no heap de JobHistoryServer.

95%

Oozie

Memoria

Calcular uso de memoria heap

Indica el uso de memoria heap de Oozie.

95.0%

Uso de memoria directa de Oozie

Indica el uso de memoria directa de Oozie.

80.0%

Uso de memoria no heap de Oozie

Indica el uso de memoria no heap de Oozie.

80%

GC

Duración total del GC de Oozie

Indica el tiempo total de GC de Oozie.

12000 ms

Spark2x

Memoria

Estadísticas de uso de memoria heap de JDBCServer2x

Uso de memoria heap de JDBCServer2x

95%

Estadísticas de uso de memoria directa de JDBCServer2x

Uso de memoria directa de JDBCServer2x

95%

Estadísticas de uso de memoria no heap de JDBCServer2x

Uso de memoria no heap de JDBCServer2x

95%

Estadísticas de uso de memoria directa de JobHistory2x

Uso de memoria directa de JobHistory2x

95%

Estadísticas de uso de memoria no heap de JobHistory2x

Uso de memoria no heap de JobHistory2x

95%

Estadísticas de uso de memoria heap de JobHistory2x

Uso de memoria heap de JobHistory2x

95%

Estadísticas de uso de memoria directa de IndexServer2x

Uso de memoria directa de IndexServer2x

95%

Estadísticas de uso de memoria heap de IndexServer2x

Uso de memoria heap de IndexServer2x

95%

Estadísticas de uso de memoria no heap de IndexServer2x

Uso de memoria no heap de IndexServer2x

95%

Recuento de GC

Número de Full GC de JDBCServer2x

Número total de GC de JDBCServer2x

12

Número de Full GC de JobHistory2x

Número total de GC de JobHistory2x

12

Número de Full GC de IndexServer2x

Número total de GC de IndexServer2x

12

Tiempo de GC

Tiempo total de GC en milisegundos

Tiempo total de GC de JDBCServer2x

12000 ms

Tiempo total de GC en milisegundos

Tiempo total de GC de JobHistory2x

12000 ms

Tiempo total de GC en milisegundos

Tiempo total de GC de IndexServer2x

12000 ms

Storm

Clúster

Número de supervisores disponibles

Indica el número de procesos de supervisor disponibles en el clúster en un período de medición.

1

Uso de Slot

Indica el uso de slot en el clúster en un período de medición.

80.0%

Nimbus

Calcular uso de memoria heap

Indica el uso de la memoria heap de Nimbus.

80%

Yarn

Recursos

Estadísticas de uso de memoria directa de NodeManager

Indica el porcentaje de memoria directa que utiliza NodeManagers.

90%

Estadísticas de uso de memoria heap de NodeManager

Indica el porcentaje de uso de memoria heap de NodeManager.

95%

Estadísticas de uso de memoria no heap de NodeManager

Indica el porcentaje de uso de memoria no heap de NodeManager.

90%

Estadísticas de uso de memoria directa de ResourceManager

Indica el uso de memoria directa de Kafka.

90%

Estadísticas de uso de memoria heap de ResourceManager

Indica el uso de memoria heap de ResourceManager.

95%

Estadísticas de uso de memoria no heap de ResourceManager

Indica el uso de memoria no heap de ResourceManager.

90%

Recolección de basura

Tiempo de GC

Indica la duración de GC de NodeManager por minuto.

12000 ms

Tiempo de GC

Indica la duración de GC de ResourceManager por minuto.

12000 ms

Otros

Aplicaciones fallidas de cola root

Número de tareas fallidas en la cola root

50

Aplicaciones terminadas de la cola root

Número de tareas eliminadas en la cola root

50

CPU & memoria

Memoria pendiente

Capacidad de memoria pendiente

83886080MB

Aplicación

Solicitudes pendientes

Tareas pendientes

60

ZooKeeper

Conexión

Uso de conexiones de ZooKeeper

Indica el porcentaje de las conexiones utilizadas con respecto al total de conexiones de ZooKeeper.

80%

CPU & memoria

Calcular uso de Directmemory

Indica el uso de memoria heap de ZooKeeper.

95%

Calcular uso de memoria heap

Indica el uso de memoria directa de ZooKeeper.

80%

GC

Duración de GC de ZooKeeper por minuto

Indica el tiempo de GC de ZooKeeper cada minuto.

12000 ms

meta

Operación de escritura de datos de OBS

Tasa de éxito para invocar a la API de escritura de OBS

Tasa de éxito para invocar a la API de lectura de datos de OBS

99.0%

Operaciones de metadatos de OBS

Tiempo promedio para invocar a la API de metadatos de OBS

Tiempo promedio para invocar a la API de metadatos de OBS

500ms

Tasa de éxito para invocar a la API de metadatos de OBS

Tasa de éxito para invocar a la API de metadatos de OBS

99.0%

Operación de lectura de datos de OBS

Tasa de éxito para invocar a la API de lectura de datos de OBS

Tasa de éxito para invocar a la API de lectura de datos de OBS

99.0%

Ranger

GC

Duración de GC de UserSync

Duración de la recolección de basura (GC) de UserSync

12000 ms

Duración de GC de RangerAdmin

Duración de GC de RangerAdmin

12000 ms

Duración de GC de TagSync

Duración de GC de TagSync

12000 ms

CPU & memoria

Uso de memoria no heap de UserSync

Uso de memoria no heap de UserSync

80.0%

Uso de memoria directa de UserSync

Uso de memoria directa de UserSync

80.0%

Uso de memoria heap de UserSync

Uso de memoria heap de UserSync

95.0%

Uso de memoria no heap de RangerAdmin

Uso de memoria no heap de RangerAdmin

80.0%

Uso de memoria heap de RangerAdmin

Uso de memoria heap de RangerAdmin

95.0%

Uso de memoria directa de RangerAdmin

Uso de memoria directa de RangerAdmin

80.0%

Uso de memoria directa de TagSync

Uso de memoria directa de TagSync

80.0%

Uso de memoria no heap de TagSync

Uso de memoria no heap de TagSync

80.0%

Uso de memoria heap de TagSync

Uso de memoria heap de TagSync

95.0%

ClickHouse

Cuota de clúster

Uso de la cuota de cantidad de servicio de Clickhouse en ZooKeeper

Cuota de los nodos de ZooKeeper utilizados por un servicio de ClickHouse

90%

Uso de la cuota de capacidad del servicio Clickhouse de ZooKeeper

Cuota de capacidad del directorio de ZooKeeper utilizado por el servicio ClickHouse

90%