Configuración del Umbral
Escenario
Puede configurar los umbrales de indicadores de supervisión para supervisar el estado de los indicadores en FusionInsight Manager. Si se producen datos anormales y se cumplen las condiciones preestablecidas, el sistema activa una alarma y muestra la información de alarma en la página de alarma.
Procedimiento
- Inicie sesión en FusionInsight Manager.
- Elija O&M > Alarm > Thresholds.
- Seleccione una métrica de supervisión para un host o servicio en el clúster.
Figura 1 Configuración del umbral para una métrica
Por ejemplo, después de seleccionar Host Memory Usage, se muestra la información acerca de este umbral de indicador.- Si el interruptor de envío de alarma se muestra como , se activa una alarma si se alcanza el umbral.
- Alarm ID y Alarm Name: información de alarma activada contra el umbral
- Trigger Count: FusionInsight Manager comprueba si el valor de una métrica de supervisión alcanza el umbral. Si el número de comprobaciones consecutivas alcanza el valor de Trigger Count se genera una alarma. Trigger Count es configurable.
- Check Period (s): intervalo para que el sistema compruebe la métrica de monitorización.
- Las reglas de la lista de reglas se utilizan para activar alarmas.
- Haga clic en Create Rule para agregar reglas utilizadas para los indicadores de supervisión.
Tabla 1 Parámetros de la regla del indicador de supervisión Parámetro
Descripción
Valor de ejemplo
Rule Name
Nombre de una regla.
CPU_MAX
Severity
Gravedad de la alarma
- Critical
- Major
- Minor
- Warning
- Critical
- Major
- Minor
- Warning
Threshold Type
Puede utilizar el valor máximo o mínimo de un indicador como umbral de activación de alarma. Si Threshold Type se establece en Max value, el sistema genera una alarma cuando el valor del indicador especificado es mayor que el umbral. Si Threshold Type se establece en Min value, el sistema genera una alarma cuando el valor del indicador especificado es menor que el umbral.
- Max value
- Min value
Date
Este parámetro se utiliza para establecer la fecha en la que la regla entra en vigor.
- Daily
- Weekly
- Others
Add Date
Este parámetro solo está disponible cuando Date está establecido en Others. Puede establecer la fecha de entrada en vigor de la regla. Hay varias opciones disponibles.
09-30
Thresholds
Este parámetro se utiliza para establecer el intervalo de tiempo cuando la regla entra en vigor.
Start and End Time: 00:00–08:30
Umbral de la métrica de supervisión de reglas
Threshold: 10
Puede hacer clic en o para agregar o eliminar umbrales de tiempo.
- Haga clic en OK para guardar las reglas.
- Busque la fila que contiene una regla agregada y haga clic en Apply en la columna Operation. El valor de Effective para esta regla cambia a Yes.
Una nueva regla sólo se puede aplicar después de hacer clic en Cancel para una regla existente.
Referencia de métrica de monitoreo
Las métricas de supervisión de alarmas de FusionInsight Manager se clasifican como métricas de información de nodo y métricas de servicio de clúster. Tabla 2 describe las métricas para las que puede configurar umbrales en los nodos.
Grupo métrico |
Métrica |
Descripción |
Umbral predeterminado |
---|---|---|---|
CPU |
Uso de la CPU del host |
Este indicador refleja las capacidades de computación y control del clúster actual en un período de medición. Al observar el valor del indicador, puede comprender mejor el uso general de recursos del clúster. |
90.0% |
Disco |
Uso de disco |
Indica el uso del disco de un host. |
90.0% |
Uso de Inode de disco |
Indica el uso de inode de disco en un período de medición. |
80.0% |
|
Memoria |
Uso de memoria de host |
Indica el uso promedio de memoria en el momento actual. |
90.0% |
Estado de host |
Uso del handle de archivo de host |
Indica el uso de handles de archivo del host en un período de medición. |
80.0% |
Uso de PID de host |
Indica el uso de PID de un host. |
90% |
|
Estado de red |
Uso del puerto efímero de TCP |
Indica el uso de puertos TCP temporales del host en un período de medición. |
80.0% |
Lectura de red |
Tasa de error de paquete de lectura |
Indica la tasa de error de paquete de lectura de la interfaz de red en el host en un período de medición. |
0.5% |
Tasa de paquetes perdidos de lectura |
Indica la tasa de paquetes perdidos de lectura de la interfaz de red en el host en un período de medición. |
0.5% |
|
Tasa de rendimiento de lectura |
Indica el rendimiento de lectura promedio (en la capa MAC) de la interfaz de red en un período de medición. |
80% |
|
Escritura de red |
Tasa de errores de paquetes de escritura |
Indica la tasa de error de paquete de escritura de la interfaz de red en el host en un período de medición. |
0.5% |
Tasa de paquetes perdidos de escritura |
Indica la tasa de paquetes perdidos de escritura de la interfaz de red en el host en un período de medición. |
0.5% |
|
Tasa de rendimiento de escritura |
Indica el rendimiento promedio de escritura (en la capa MAC) de la interfaz de red en un período de medición. |
80% |
|
Proceso |
Proceso de suspensión ininterrumpida |
Número de procesos de estado D en el host en un período de medición |
0 |
Uso del proceso omm |
Uso del proceso de omm en un período de medición |
90 |
Servicio |
Nombre de grupo de indicador de monitoreo |
Nombre de indicador |
Descripción |
Umbral predeterminado |
---|---|---|---|---|
DBService |
Base de datos |
Uso del número de conexiones de base de datos |
Indica el uso del número de conexiones de base de datos. |
90% |
Uso del espacio en disco del directorio de datos |
Uso del espacio en disco del directorio de datos |
80% |
||
Flume |
Agent |
Calcular el uso de la memoria heap |
Indica el uso de memoria heap de Flume. |
95.0% |
Estadísticas de uso de memoria directa de Flume |
Indica el uso de memoria directa de Flume. |
80.0% |
||
Uso de memoria no heap de Flume |
Indica el uso de memoria no heap de Flume. |
80.0% |
||
Duración total de GC del proceso de Flume |
Indica el tiempo total de GC de Flume. |
12000 ms |
||
HBase |
GC |
Tiempo de GC para generación antigua |
Tiempo total de GC de RegionServer |
5000 ms |
Tiempo de GC para generación antigua |
Indica que el tiempo total de GC de HMaster. |
5000 ms |
||
CPU & memoria |
Estadísticas de uso de memoria directa de RegionServer |
Indica el uso de memoria directa de theRegionServerReg. |
90% |
|
Estadísticas de uso de memoria heap de RegionServer |
Indica el uso de memoria de heap de RegionServer. |
90% |
||
Uso de memoria directa de HMaster |
Indica el uso de memoria directa de HMaster. |
90% |
||
Estadísticas de uso de memoria heap de HMaster. |
Indica el uso de memoria heap de HMaster. |
90% |
||
Servicio |
Número de regiones en línea de un RegionServer |
Número de regiones de un RegionServer |
2000 |
|
Región en recuento de transacciones por encima del umbral |
Número de regiones que están en el estado RIT y alcanzan la duración umbral |
1 |
||
Replicación |
Veces de error de sincronización de replicación (RegionServer) |
Indica el número de veces que los datos de DR no se sincronizan. |
1 |
|
Número de archivos de registro que se van a sincronizar en el clúster activo |
Número de archivos de registro que se sincronizarán en el clúster activo |
128 |
||
Número de HFiles que se van a sincronizar en el clúster activo |
Número de HFiles que se van a sincronizar en el clúster activo |
128 |
||
Cola |
Tamaño de la cola de Compaction |
Tamaño de la cola de Compaction |
100 |
|
HDFS |
Archivo y bloque |
Bloques perdidos |
Indica el número de copias en bloque de las que carece el HDFS. |
0 |
Bloques bajo replicación |
Número total de bloques que necesitan ser replicados por el NameNode |
1000 |
||
RPC |
Tiempo promedio de procesamiento de RPC de NameNode activo |
Indica el tiempo promedio de procesamiento de RPC. |
100 ms |
|
Tiempo promedio de la cola RPC de NameNode activa |
Indica el tiempo medio de cola de RPC. |
200 ms |
||
Disco |
Uso de disco HDFS |
Indica el uso del disco HDFS. |
80% |
|
Uso del disco DataNode |
Indica el uso de disco de DataNodes en el HDFS. |
80% |
||
Porcentaje de espacio reservado para réplicas de espacio no utilizado |
Indica el porcentaje del espacio en disco reservado de todas las copias con respecto al espacio en disco total no utilizado de DataNodes. |
90% |
||
Recurso |
DataNodes defectuosos |
Indica el número de DataNodes defectuosos. |
3 |
|
Estadísticas de uso de memoria no heap de NameNode |
Indica el porcentaje de uso de memoria no heap de NameNode. |
90% |
||
Estadísticas de uso de memoria directa de NameNode |
Indica el porcentaje de memoria directa que utiliza NameNodes. |
90% |
||
Estadísticas de uso de memoria heap de NameNode |
Indica el porcentaje de uso de memoria no heap de NameNode. |
95% |
||
Estadísticas de uso de memoria directa de DataNode |
Indica el porcentaje de memoria directa que utiliza DataNodes. |
90% |
||
Estadísticas de uso de memoria heap de DataNode |
Uso de memoria heap de DataNode |
95% |
||
Estadísticas de uso de memoria heap de DataNode |
Indica el porcentaje de uso de memoria no heap de DataNode. |
90% |
||
Recolección de basura |
Tiempo de GC (NameNode)/Tiempo de GC (DataNode) |
Indica la duración de recolección de basura (GC) de NameNodes por minuto. |
12000 ms |
|
Tiempo de GC |
Indica la duración de GC de DataNodes por minuto. |
12000 ms |
||
Hive |
HQL |
Porcentaje de sentencias HQL ejecutadas con éxito por Hive |
Indica el porcentaje de sentencias HQL que Hive ejecuta correctamente. |
90.0% |
Fondo |
Uso de subproceso de background |
Uso de subprocesos de background |
90% |
|
GC |
Tiempo total de GC de MetaStore |
Indica el tiempo total de GC de MetaStore. |
12000 ms |
|
Tiempo total de GC en milisegundos |
Indica el tiempo total de GC de HiveServer. |
12000 ms |
||
Capacidad |
Porcentaje de espacio HDFS utilizado por Hive con respecto al espacio disponible |
Indica el porcentaje de espacio HDFS utilizado por Hive con respecto al espacio disponible. |
85.0% |
|
CPU & memoria |
Estadísticas de uso de memoria directa de MetaStore |
Uso de memoria directa de MetaStore |
95% |
|
Estadísticas de uso de memoria no heap de MetaStore |
Uso de memoria no heap de MetaStore |
95% |
||
Estadísticas de uso de memoria heap de MetaStore |
Uso de memoria heap de MetaStore |
95% |
||
Estadísticas de uso de memoria directa de HiveServer |
Uso de memoria directa de HiveServer |
95% |
||
Estadísticas de uso de memoria no heap de HiveServer |
Uso de memoria no heap de HiveServer |
95% |
||
Estadísticas de uso de memoria heap de HiveServer |
Uso de memoria heap de HiveServer |
95% |
||
Session |
Porcentaje de Sessions conectadas al HiveServer con respecto al número máximo de Sessions permitidas por el HiveServer |
Indica el porcentaje del número de sessions conectadas al HiveServer con respecto al número máximo de Sessions permitidas por el HiveServer. |
90.0% |
|
Kafka |
Partición |
Porcentaje de particiones que no están completamente sincronizadas |
Indica el porcentaje de Partitions que no están completamente sincronizadas con el total de Partitions. |
50% |
Otros |
Porcentaje de Partition no disponible |
Porcentaje de Partitions no disponibles de cada topic de Kafka |
40% |
|
Uso de la conexión de usuario en Broker |
Uso de conexiones de usuario en Broker |
80% |
||
Disco |
Uso del disco de Broker |
Indica el uso del disco del disco donde se encuentra el directorio de datos del Broker. |
80.0% |
|
Tasa de E/S de disco de un Broker |
Uso de E/S del disco donde se encuentra el directorio de datos del Broker |
80% |
||
Proceso |
Duración de GC de Broker por minuto |
Indica la duración de GC del proceso del Broker por minuto. |
12000 ms |
|
Uso de memoria heap de Kafka |
Indica el uso de memoria heap de Kafka. |
95% |
||
Uso de memoria directa de Kafka |
Indica el uso de memoria directa de Kafka. |
95% |
||
Loader |
Memoria |
Calcular uso de memoria heap |
Indica el uso de memoria heap de Loader. |
95% |
Uso de memoria directa de Loader |
Indica el uso de memoria directa de Loader. |
80.0% |
||
Uso de memoria no heap de Loader |
Indica el uso de memoria no heap de Loader. |
80% |
||
GC |
Tiempo total de GC de Loader |
Indica el tiempo total de GC de Loader. |
12000 ms |
|
MapReduce |
Recolección de basura |
Tiempo de GC |
Indica el tiempo de GC. |
12000 ms |
Recurso |
Estadísticas de uso de memoria directa de JobHistoryServer |
Indica el uso de memoria directa de JobHistoryServer. |
90% |
|
Estadísticas de uso de memoria no heap de JobHistoryServer |
Indica el uso de memoria no heap de JobHistoryServer. |
90% |
||
Estadísticas de uso de memoria heap de JobHistoryServer |
Indica el uso de memoria no heap de JobHistoryServer. |
95% |
||
Oozie |
Memoria |
Calcular uso de memoria heap |
Indica el uso de memoria heap de Oozie. |
95.0% |
Uso de memoria directa de Oozie |
Indica el uso de memoria directa de Oozie. |
80.0% |
||
Uso de memoria no heap de Oozie |
Indica el uso de memoria no heap de Oozie. |
80% |
||
GC |
Duración total del GC de Oozie |
Indica el tiempo total de GC de Oozie. |
12000 ms |
|
Spark2x |
Memoria |
Estadísticas de uso de memoria heap de JDBCServer2x |
Uso de memoria heap de JDBCServer2x |
95% |
Estadísticas de uso de memoria directa de JDBCServer2x |
Uso de memoria directa de JDBCServer2x |
95% |
||
Estadísticas de uso de memoria no heap de JDBCServer2x |
Uso de memoria no heap de JDBCServer2x |
95% |
||
Estadísticas de uso de memoria directa de JobHistory2x |
Uso de memoria directa de JobHistory2x |
95% |
||
Estadísticas de uso de memoria no heap de JobHistory2x |
Uso de memoria no heap de JobHistory2x |
95% |
||
Estadísticas de uso de memoria heap de JobHistory2x |
Uso de memoria heap de JobHistory2x |
95% |
||
Estadísticas de uso de memoria directa de IndexServer2x |
Uso de memoria directa de IndexServer2x |
95% |
||
Estadísticas de uso de memoria heap de IndexServer2x |
Uso de memoria heap de IndexServer2x |
95% |
||
Estadísticas de uso de memoria no heap de IndexServer2x |
Uso de memoria no heap de IndexServer2x |
95% |
||
Recuento de GC |
Número de Full GC de JDBCServer2x |
Número total de GC de JDBCServer2x |
12 |
|
Número de Full GC de JobHistory2x |
Número total de GC de JobHistory2x |
12 |
||
Número de Full GC de IndexServer2x |
Número total de GC de IndexServer2x |
12 |
||
Tiempo de GC |
Tiempo total de GC en milisegundos |
Tiempo total de GC de JDBCServer2x |
12000 ms |
|
Tiempo total de GC en milisegundos |
Tiempo total de GC de JobHistory2x |
12000 ms |
||
Tiempo total de GC en milisegundos |
Tiempo total de GC de IndexServer2x |
12000 ms |
||
Storm |
Clúster |
Número de supervisores disponibles |
Indica el número de procesos de supervisor disponibles en el clúster en un período de medición. |
1 |
Uso de Slot |
Indica el uso de slot en el clúster en un período de medición. |
80.0% |
||
Nimbus |
Calcular uso de memoria heap |
Indica el uso de la memoria heap de Nimbus. |
80% |
|
Yarn |
Recursos |
Estadísticas de uso de memoria directa de NodeManager |
Indica el porcentaje de memoria directa que utiliza NodeManagers. |
90% |
Estadísticas de uso de memoria heap de NodeManager |
Indica el porcentaje de uso de memoria heap de NodeManager. |
95% |
||
Estadísticas de uso de memoria no heap de NodeManager |
Indica el porcentaje de uso de memoria no heap de NodeManager. |
90% |
||
Estadísticas de uso de memoria directa de ResourceManager |
Indica el uso de memoria directa de Kafka. |
90% |
||
Estadísticas de uso de memoria heap de ResourceManager |
Indica el uso de memoria heap de ResourceManager. |
95% |
||
Estadísticas de uso de memoria no heap de ResourceManager |
Indica el uso de memoria no heap de ResourceManager. |
90% |
||
Recolección de basura |
Tiempo de GC |
Indica la duración de GC de NodeManager por minuto. |
12000 ms |
|
Tiempo de GC |
Indica la duración de GC de ResourceManager por minuto. |
12000 ms |
||
Otros |
Aplicaciones fallidas de cola root |
Número de tareas fallidas en la cola root |
50 |
|
Aplicaciones terminadas de la cola root |
Número de tareas eliminadas en la cola root |
50 |
||
CPU & memoria |
Memoria pendiente |
Capacidad de memoria pendiente |
83886080MB |
|
Aplicación |
Solicitudes pendientes |
Tareas pendientes |
60 |
|
ZooKeeper |
Conexión |
Uso de conexiones de ZooKeeper |
Indica el porcentaje de las conexiones utilizadas con respecto al total de conexiones de ZooKeeper. |
80% |
CPU & memoria |
Calcular uso de Directmemory |
Indica el uso de memoria heap de ZooKeeper. |
95% |
|
Calcular uso de memoria heap |
Indica el uso de memoria directa de ZooKeeper. |
80% |
||
GC |
Duración de GC de ZooKeeper por minuto |
Indica el tiempo de GC de ZooKeeper cada minuto. |
12000 ms |
|
meta |
Operación de escritura de datos de OBS |
Tasa de éxito para invocar a la API de escritura de OBS |
Tasa de éxito para invocar a la API de lectura de datos de OBS |
99.0% |
Operaciones de metadatos de OBS |
Tiempo promedio para invocar a la API de metadatos de OBS |
Tiempo promedio para invocar a la API de metadatos de OBS |
500ms |
|
Tasa de éxito para invocar a la API de metadatos de OBS |
Tasa de éxito para invocar a la API de metadatos de OBS |
99.0% |
||
Operación de lectura de datos de OBS |
Tasa de éxito para invocar a la API de lectura de datos de OBS |
Tasa de éxito para invocar a la API de lectura de datos de OBS |
99.0% |
|
Ranger |
GC |
Duración de GC de UserSync |
Duración de la recolección de basura (GC) de UserSync |
12000 ms |
Duración de GC de RangerAdmin |
Duración de GC de RangerAdmin |
12000 ms |
||
Duración de GC de TagSync |
Duración de GC de TagSync |
12000 ms |
||
CPU & memoria |
Uso de memoria no heap de UserSync |
Uso de memoria no heap de UserSync |
80.0% |
|
Uso de memoria directa de UserSync |
Uso de memoria directa de UserSync |
80.0% |
||
Uso de memoria heap de UserSync |
Uso de memoria heap de UserSync |
95.0% |
||
Uso de memoria no heap de RangerAdmin |
Uso de memoria no heap de RangerAdmin |
80.0% |
||
Uso de memoria heap de RangerAdmin |
Uso de memoria heap de RangerAdmin |
95.0% |
||
Uso de memoria directa de RangerAdmin |
Uso de memoria directa de RangerAdmin |
80.0% |
||
Uso de memoria directa de TagSync |
Uso de memoria directa de TagSync |
80.0% |
||
Uso de memoria no heap de TagSync |
Uso de memoria no heap de TagSync |
80.0% |
||
Uso de memoria heap de TagSync |
Uso de memoria heap de TagSync |
95.0% |
||
ClickHouse |
Cuota de clúster |
Uso de la cuota de cantidad de servicio de Clickhouse en ZooKeeper |
Cuota de los nodos de ZooKeeper utilizados por un servicio de ClickHouse |
90% |
Uso de la cuota de capacidad del servicio Clickhouse de ZooKeeper |
Cuota de capacidad del directorio de ZooKeeper utilizado por el servicio ClickHouse |
90% |