Configuración de Umbrales para Alarmas
Los clústeres MRS proporcionan funciones alarmantes fáciles de usar con vistas métricas de monitorización intuitivas. Puede ver rápidamente estadísticas sobre las métricas clave de rendimiento (KPI) de un clúster y evaluar el estado del clúster. MRS le permite configurar umbrales de métricas para mantenerse informado del estado del clúster. Si se cumple un valor umbral, el sistema genera y muestra una alarma en el panel de métricas.
Si se comprueba que el impacto de algunas alarmas en los servicios puede ignorarse o que es necesario ajustar los umbrales de alarma, puede personalizar las métricas del clúster o enmascarar algunas alarmas según sea necesario.
Puede establecer umbrales para alarmas de métricas de información de nodo y métricas de servicio de clúster. Para obtener más información sobre estas métricas, sus impactos en el sistema y los umbrales predeterminados, consulte Referencia de métrica de monitoreo.
Estas alarmas pueden afectar a las funciones del clúster o a la ejecución del trabajo. Si desea enmascarar o modificar las reglas de alarma, evalúe los riesgos de operación con anticipación.
Modificación de reglas para alarmas con umbrales personalizados
- Inicie sesión en FusionInsight Manager del clúster MRS de destino haciendo referencia a Acceso a FusionInsight Manager (MRS 3.x o posterior) (MRS 3.x o posterior).
- Elija O&M > Alarm > Thresholds.
- Seleccione una métrica para un host o servicio en el clúster. Por ejemplo, seleccione Host Memory Usage.
Figura 1 Consulta de un umbral de alarma
- Switch: Si este interruptor está encendido, se activará una alarma cuando la métrica incumpla este umbral.
- Trigger Count: Manager comprueba si la métrica cumple con el valor umbral. Si el número de comprobaciones consecutivas donde falla la métrica es igual al valor de Trigger Count, se genera una alarma. El valor se puede personalizar. Si una alarma se notifica con frecuencia, puede ajustar Trigger Count a un valor mayor para reducir la frecuencia de las alarmas.
- Check Period (s): Intervalo entre cada dos comprobaciones
- Las reglas para activar alarmas se enumeran en la página.
- Modificar una regla de alarma.
- Agregar una nueva regla.
- Haga clic en Create Rule para agregar una regla que define cómo se activará una alarma. Para obtener más información, consulte Tabla 1.
- Haga clic en OK para guardar la regla.
- Busque la fila que contiene una regla que está en uso y haga clic en Cancel en la columna Operation. Si no hay ninguna regla en uso, omita este paso.
- Busque la fila que contiene la nueva regla y haga clic en Apply en la columna Operation. El valor de Effective para esta regla cambia a Yes.
- Modificar una regla existente.
- Haga clic en Modify en la columna Operation de la fila que contiene la regla de destino.
- Modifique los parámetros de regla haciendo referencia a Tabla 1.
- Haga clic en OK.
En la siguiente tabla se enumeran los parámetros de regla que debe establecer para activar una alarma de Host Memory Usage.
Tabla 1 Parámetros de reglas de alarma Parámetro
Descripción
Valor de ejemplo
Rule Name
Nombre de la regla
mrs_test
Severity
Gravedad de alarma. Las opciones son las siguientes:
- Critical
- Major
- Minor
- Warning
Major
Threshold Type
Valor máximo o mínimo de una métrica
- Max value: Se generará una alarma cuando el valor de la métrica sea mayor que este valor.
- Min value: Se generará una alarma cuando el valor de la métrica sea menor que este valor.
Max. Value
Date
Con qué frecuencia entra en vigor la regla
- Daily
- Weekly
- Others
Daily
Add Date
Fecha en que la regla entra en vigor. Este parámetro solo está disponible cuando Date está establecido en Others. Puede establecer varias fechas.
-
Thresholds
Start and End Time: Período en el que la regla entra en vigor.
00:00 - 23:59
Threshold: Valor umbral de alarma
85
- Agregar una nueva regla.
Alarmas especificadas de enmascaramiento
- Inicie sesión en FusionInsight Manager del clúster MRS de destino haciendo referencia a Acceso a FusionInsight Manager (MRS 3.x o posterior) (MRS 3.x o posterior).
- Elija O&M > Alarm > Masking.
- En la lista a la izquierda de la página mostrada, seleccione el servicio o módulo de destino.
- Haga clic en Mask en la columna Operation de la alarma que desea enmascarar. En el cuadro de diálogo que se muestra, haga clic en OK para cambiar el estado de enmascaramiento de la alarma a Mask.
Figura 2 Enmascarar una alarma
- Puede buscar las alarmas especificadas en la lista.
- Para cancelar el enmascaramiento de alarma, haga clic en Unmask en la fila de la alarma de destino. En el cuadro de diálogo que se muestra, haga clic en OK para cambiar el estado de enmascaramiento de alarma a Display.
- Si necesita realizar operaciones con varias alarmas a la vez, seleccione las alarmas y haga clic en Mask o Unmask en la parte superior de la lista.
Preguntas frecuentes
- ¿Cómo puedo ver las alarmas no confirmadas de un cluster?
- Inicie sesión en la consola de gestión de MRS.
- Haga clic en el nombre del clúster de destino y haga clic en la pestaña Alarms.
- Haga clic en Advanced Search, establezca Alarm Status en Uncleared, y haga clic en Search.
- Se muestran las alarmas borradas del clúster actual.
- ¿Cómo borro una alarma de clúster?
Puede manejar las alarmas haciendo referencia a la ayuda de alarma. Para ver el documento de ayuda, realice los siguientes pasos:
- Consola: Inicie sesión en la consola de gestión de MRS, haga clic en el nombre del clúster de destino, haga clic en la pestaña Alarms y haga clic en View Help en la columna Operation de la lista de alarmas. A continuación, borre la alarma haciendo referencia al procedimiento de manejo de alarmas.
- Manager: Inicie sesión en FusionInsight Manager, seleccione O&M > Alarm > Alarms, y haga clic en View Help en la columna Operation. A continuación, borre la alarma haciendo referencia al procedimiento de manejo de alarmas.
Referencia de métrica de monitoreo
Las métricas de monitoreo de FusionInsight Manager se clasifican como métricas de información de nodo y métricas de servicio de clúster. Tabla 2 enumera las métricas cuyos umbrales se pueden configurar en un nodo, y Tabla 3 enumera las métricas cuyos umbrales se pueden configurar para un componente.
Grupo métrico |
Métrica |
ID |
Alarma |
Impacto en el sistema |
Umbral predeterminado |
---|---|---|---|---|---|
CPU |
Uso de la CPU del host |
12016 |
El uso de la CPU excede el umbral |
Los procesos de servicio responden lentamente o no están disponibles. |
90.0% |
Disco |
Uso de disco |
12017 |
Capacidad de disco insuficiente |
Los procesos de servicio no están disponibles. |
90.0% |
Uso de Inode de disco |
12051 |
El uso del Inode de Disco Supera el Umbral |
Los datos no se pueden escribir correctamente en el sistema de archivos. |
80.0% |
|
Memoria |
Uso de memoria de host |
12018 |
El uso de la memoria excede el umbral. |
Los procesos de servicio responden lentamente o no están disponibles. |
90.0% |
Estado de host |
Uso del identificador de archivo de host |
12053 |
El uso del identificador de archivo de host supera el umbral |
Las operaciones de E/S, como abrir un archivo o conectarse a la red, no se pueden realizar y los programas son anormales. |
80.0% |
Uso de PID de host |
12027 |
El uso de PID del host supera el umbral |
No hay ningún PID disponible para los nuevos procesos y los procesos de servicio no están disponibles. |
90% |
|
Estado de la red |
Uso del puerto temporal TCP |
12052 |
El uso de puerto temporal TCP supera el umbral |
Los servicios en el host no pueden establecer conexiones con el externo y los servicios se interrumpen. |
80.0% |
Lectura de red |
Tasa de error de paquete de lectura |
12047 |
La tasa de error de paquetes de lectura supera el umbral |
La comunicación se interrumpe intermitentemente y los servicios expiran. |
0.5% |
Tasa de paquetes perdidos de lectura |
12045 |
La tasa de caída de paquetes de lectura supera el umbral |
El rendimiento del servicio se deteriora o el tiempo de espera de algunos servicios. |
0.5% |
|
Tasa de rendimiento de lectura |
12049 |
La tasa de rendimiento de lectura supera el umbral |
El sistema de servicio se ejecuta de forma anormal o no está disponible. |
80% |
|
Escritura de red |
Tasa de errores de paquetes de escritura |
12048 |
La tasa de error de paquete de escritura supera el umbral |
La comunicación se interrumpe intermitentemente y los servicios expiran. |
0.5% |
Tasa de paquetes perdidos de escritura |
12046 |
La tasa de escritura de paquetes caídos supera el umbral |
El rendimiento del servicio se deteriora o el tiempo de espera de algunos servicios. |
0.5% |
|
Tasa de rendimiento de escritura |
12050 |
La tasa de rendimiento de escritura supera el umbral |
El sistema de servicio se ejecuta de forma anormal o no está disponible. |
80% |
|
Proceso |
Número total de procesos en los estados D y Z |
12028 |
Número de procesos en el Estado D y Z en un host supera el umbral |
Se utilizan recursos excesivos del sistema y los procesos de servicio responden lentamente. |
0 |
Uso del proceso omm |
12061 |
El uso del proceso supera el umbral |
El cambio al omm de usuario falla. No se puede crear un nuevo proceso de omm. |
90 |
Servicio |
Métrica |
ID |
Nombre de la alarma |
Impacto en el sistema |
Umbral predeterminado |
---|---|---|---|---|---|
DBService |
Uso del número de conexiones de base de datos |
27005 |
El uso de conexión a base de datos supera el umbral |
Los servicios de capa superior pueden no conectarse a la base de datos de DBService, lo que afecta a los servicios. |
90% |
Uso del espacio en disco del directorio de datos |
27006 |
El uso de espacio en disco del directorio de datos supera el umbral |
Los procesos de servicio no están disponibles. Cuando el uso de espacio en disco del directorio de datos supera el 90%, la base de datos entra en el modo de solo lectura y se genera Database Enters the Read-Only Mode. Como resultado, se pierden datos de servicio. |
80% |
|
Flume |
Porcentaje de recursos de memoria heap |
24006 |
El uso de memoria heap del Flume Server supera el umbral |
El desbordamiento de la memoria heap puede causar una falla en el servicio. |
95.0% |
Estadísticas de uso de memoria directa |
24007 |
El uso de memoria directa del Flume Server supera el umbral |
El desbordamiento de la memoria directa puede provocar una falla en el servicio. |
80.0% |
|
Uso de memoria no heap |
24008 |
El uso de memoria no heap de Flume Server supera el umbral |
El desbordamiento de la memoria no heap puede provocar una falla en el servicio. |
80.0% |
|
Duración total del GC |
24009 |
La duración de Flume Server GC supera el umbral |
La eficiencia de transmisión de datos de Flume disminuye. |
12000ms |
|
HBase |
Duración de GC de generación Old |
19007 |
La duración de HBase GC supera el umbral |
Si la duración de GC de generación anterior excede el umbral, la lectura y escritura de datos de HBase se ven afectadas. |
5000ms |
Estadísticas de uso de memoria directa de RegionServer |
19009 |
El uso de memoria directa del proceso HBase supera el umbral |
Si la memoria directa HBase disponible es insuficiente, se produce un desbordamiento de memoria y el servicio se interrumpe. |
90% |
|
Estadísticas de uso de memoria heap de RegionServer |
19008 |
El uso de memoria heap del proceso HBase supera el umbral |
Si la memoria HBase disponible es insuficiente, se produce un desbordamiento de memoria y el servicio se interrumpe. |
90% |
|
Uso de memoria directa de HMaster |
19009 |
El uso de memoria directa del proceso HBase supera el umbral |
Si la memoria directa HBase disponible es insuficiente, se produce un desbordamiento de memoria y el servicio se interrumpe. |
90% |
|
Estadísticas de uso de memoria heap de HMaster. |
19008 |
El uso de memoria heap del proceso HBase supera el umbral |
Si la memoria HBase disponible es insuficiente, se produce un desbordamiento de memoria y el servicio se interrumpe. |
90% |
|
Número de regiones en línea de un RegionServer |
19011 |
Número de regions de RegionServer supera el umbral |
El rendimiento de lectura/escritura de datos de HBase se ve afectado cuando el número de regions en un RegionServer excede el umbral. |
2000 |
|
Región en el estado de RIT que alcanza el umbral de duración |
19013 |
La duración de regiones en el estado de RIT supera el umbral |
Algunos datos de la tabla se pierden o no están disponibles. |
1 |
|
Uso de handler de RegionServer |
19021 |
Número de handlers activos de RegionServer supera el umbral |
RegionServers y HBase no pueden proporcionar servicios correctamente. |
90% |
|
Errores de sincronización en la recuperación ante desastres |
19006 |
Error de sincronización de replicación de HBase |
Los datos de HBase en un clúster no se sincronizan con el clúster en espera, lo que provoca incoherencia de datos entre los clústeres activos y en espera. |
1 |
|
Número de archivos de registro que se sincronizarán en el clúster activo |
19020 |
El número de archivos WAL de HBase a sincronizar supera el umbral |
Si el número de archivos WAL a sincronizar por un RegionServer excede el umbral, el número de ZNodes utilizados por HBase excede el umbral, lo que afecta al estado del servicio HBase. |
128 |
|
Número de HFiles que se van a sincronizar en el clúster activo |
19019 |
El número de HFiles a sincronizar supera el umbral |
Si el número de HFiles a sincronizar por un RegionServer excede el umbral, el número de ZNodes utilizados por HBase excede el umbral, afectando el estado del servicio HBase. |
128 |
|
Tamaño de la cola de Compaction |
19018 |
El tamaño de la cola de compactación de HBase supera el umbral |
El rendimiento del clúster puede deteriorarse, lo que afecta a la lectura y escritura de datos. |
100 |
|
HDFS |
Bloques perdidos |
14003 |
Número de bloques HDFS perdidos supera el umbral |
Los datos almacenados en HDFS se pierden. HDFS puede entrar en el modo de seguridad y no puede proporcionar servicios de escritura. Los datos de bloques perdidos no se pueden restaurar. |
0 |
Bloques bajo replicación |
14028 |
El número de bloques a complementar supera el umbral |
Los datos almacenados en HDFS se pierden. HDFS puede entrar en el modo de seguridad y no puede proporcionar servicios de escritura. Los datos de bloques perdidos no se pueden restaurar. |
1000 |
|
Tiempo promedio de procesamiento de RPC de NameNode activo |
14021 |
El tiempo promedio de procesamiento de RPC de NameNode supera el umbral |
NameNode no puede procesar las solicitudes RPC de clientes HDFS, servicios de capa superior que dependen de HDFS y DataNode de manera oportuna. Específicamente, los servicios que acceden a HDFS se ejecutan lentamente o el servicio HDFS no está disponible. |
100ms |
|
Tiempo promedio de la cola NameNode RPC activa |
14022 |
El tiempo promedio de cola de NameNode RPC supera el umbral |
NameNode no puede procesar las solicitudes RPC de clientes HDFS, servicios de capa superior que dependen de HDFS y DataNode de manera oportuna. Específicamente, los servicios que acceden a HDFS se ejecutan lentamente o el servicio HDFS no está disponible. |
200ms |
|
Uso de disco HDFS |
14001 |
El uso del disco HDFS supera el umbral |
El rendimiento de la escritura de datos en HDFS se ve afectado. |
80% |
|
Uso del disco DataNode |
14002 |
El uso del disco DataNode supera el umbral |
La falta de espacio en disco afectará a la escritura de datos en HDFS. |
80% |
|
Porcentaje de espacio reservado para réplicas de espacio no utilizado |
14023 |
El porcentaje de espacio total en disco reservado para réplicas supera el umbral |
El rendimiento de la escritura de datos en HDFS se ve afectado. Si todo el espacio de DataNode no utilizado está reservado para réplicas, se produce un error al escribir datos de HDFS. |
90% |
|
Total de DataNodes defectuosos |
14009 |
Número de Dead DataNodes supera el umbral |
Los DataNodes defectuosos no pueden proporcionar servicios HDFS. |
3 |
|
Estadísticas de uso de memoria no heap de NameNode |
14018 |
El uso de memoria no heap de NameNode supera el umbral |
Si el uso de memoria no heap del HDFS NameNode es demasiado alto, el rendimiento de lectura/escritura de datos de HDFS se verá afectado. |
90% |
|
Estadísticas de uso de memoria directa de NameNode |
14017 |
El uso de memoria directa de NameNode supera el umbral |
Si la memoria directa disponible de las instancias de NameNode es insuficiente, puede producirse un desbordamiento de memoria y el servicio se interrumpe. |
90% |
|
Estadísticas de uso de memoria heap de NameNode |
14007 |
El uso de memoria heap de NameNode supera el umbral |
Si el uso de memoria heap de HDFS NameNode es demasiado alto, el rendimiento de lectura/escritura de datos de HDFS se verá afectado. |
95% |
|
Estadísticas de uso de memoria directa de DataNode |
14016 |
El uso de memoria directa de DataNode supera el umbral |
Si la memoria directa disponible de las instancias de DataNode es insuficiente, puede producirse un desbordamiento de memoria y el servicio se interrumpe. |
90% |
|
Estadísticas de uso de memoria heap de DataNode |
14008 |
El uso de memoria heap de DataNode supera el umbral |
El uso de la memoria heap de HDFS DataNode es demasiado alto, lo que afecta al rendimiento de lectura/escritura de datos del HDFS. |
95% |
|
Estadísticas de uso de memoria no heap de DataNode |
14019 |
El uso de memoria no heap de DataNode supera el umbral |
Si el uso de memoria no heap del HDFS DataNode es demasiado alto, el rendimiento de lectura/escritura de datos de HDFS se verá afectado. |
90% |
|
Estadísticas de duración de GC de NameNode |
14014 |
La duración de GC de NameNode supera el umbral |
Una larga duración de GC del proceso NameNode puede interrumpir los servicios. |
12000ms |
|
Estadísticas de duración de GC de DataNode |
14015 |
La duración de GC de DataNode supera el umbral |
Una larga duración GC del proceso DataNode puede interrumpir los servicios. |
12000ms |
|
Hive |
Tasa de éxito de ejecución de SQL de Hive (porcentaje) |
16002 |
La Tasa de Éxito de Ejecución SQL de Hive es inferior al Umbral |
La configuración y el rendimiento del sistema no pueden cumplir los requisitos de procesamiento del servicio. |
90.0% |
Uso de subprocesos de background |
16003 |
El uso de subprocesos de background supera el umbral |
Hay demasiados subprocesos de background, por lo que la tarea recién enviada no puede ejecutarse a tiempo. |
90% |
|
Duración total del GC de MetaStore |
16007 |
La duración de Hive GC supera el umbral |
Si la duración de GC excede el umbral, la lectura y escritura de los datos de Hive se verán afectados. |
12000ms |
|
Duración total del GC de HiveServer |
16007 |
La duración de Hive GC supera el umbral |
Si la duración de GC excede el umbral, la lectura y escritura de los datos de Hive se verán afectados. |
12000ms |
|
Porcentaje de espacio HDFS utilizado por Hive con respecto al espacio disponible |
16001 |
El uso del espacio en el almacén de Hive supera el umbral |
El sistema no puede escribir datos, lo que causa la pérdida de datos. |
85.0% |
|
Estadísticas de uso de memoria directa de MetaStore |
16006 |
El uso de memoria directa del proceso Hive supera el umbral |
Cuando el uso de memoria directa de Hive es excesivo, el rendimiento de la operación de tarea Hive se ve afectado. Además, puede producirse un desbordamiento de memoria para que el servicio Hive no esté disponible. |
95% |
|
Estadísticas de uso de memoria no heap de MetaStore |
16008 |
El uso de memoria no heap del servicio Hive supera el umbral |
Cuando el uso de memoria no heap de Hive es excesivo, el rendimiento de la operación de tarea Hive se ve afectado. Además, puede producirse un desbordamiento de memoria para que el servicio Hive no esté disponible. |
95% |
|
Estadísticas de uso de memoria heap de MetaStore |
16005 |
El uso de memoria heap del proceso Hive supera el umbral |
Cuando el uso de memoria heap de Hive es excesivo, el rendimiento de la operación de tarea de Hive se ve afectado. Además, puede producirse un desbordamiento de memoria para que el servicio Hive no esté disponible. |
95% |
|
Estadísticas de uso de memoria directa de HiveServer |
16006 |
El uso de memoria directa del proceso Hive supera el umbral |
Cuando el uso de memoria directa de Hive es excesivo, el rendimiento de la operación de tarea Hive se ve afectado. Además, puede producirse un desbordamiento de memoria para que el servicio Hive no esté disponible. |
95% |
|
Estadísticas de uso de memoria no heap de HiveServer |
16008 |
El uso de memoria no heap del servicio Hive supera el umbral |
Cuando el uso de memoria no heap de Hive es excesivo, el rendimiento de la operación de tarea Hive se ve afectado. Además, puede producirse un desbordamiento de memoria para que el servicio Hive no esté disponible. |
95% |
|
Estadísticas de uso de memoria heap de HiveServer |
16005 |
El uso de memoria heap del proceso Hive supera el umbral |
Cuando el uso de memoria heap de Hive es excesivo, el rendimiento de la operación de tarea de Hive se ve afectado. Además, puede producirse un desbordamiento de memoria para que el servicio Hive no esté disponible. |
95% |
|
Porcentaje de Sessions conectadas al HiveServer con respecto al número máximo de Sessions permitidas por el HiveServer |
16000 |
El porcentaje de Sessions conectadas al HiveServer al número máximo permitido supera el umbral |
Si se genera una alarma de conexión, se conectan demasiadas sessions al HiveServer y no se pueden crear nuevas conexiones. |
90.0% |
|
Kafka |
Porcentaje de Partitions que no están completamente sincronizadas |
38006 |
El porcentaje de particiones de Kafka que no están completamente sincronizadas supera el umbral |
Demasiadas particiones de Kafka que no están completamente sincronizadas afectan a la confiabilidad del servicio. Además, los datos pueden perderse cuando se conmutan Leader. |
50% |
Uso de la conexión de usuario en Broker |
38011 |
El uso de la conexión de usuario en el Broker supera el umbral |
Si el número de conexiones de un usuario es excesivo, el usuario no puede crear nuevas conexiones al Broker. |
80% |
|
Uso del disco de Broker |
38001 |
Capacidad insuficiente del disco Kafka |
Las operaciones de escritura de datos Kafka fallan. |
80.0% |
|
Tasa de E/S de disco de un Broker |
38009 |
E/S de disco de Broker ocupado |
La partición de disco tiene E/S frecuentes. Es posible que los datos no se escriban en el topic de Kafka para el que se genera la alarma. |
80% |
|
Duración de GC de Broker por minuto |
38005 |
La duración de GC del proceso de Broker supera el umbral |
Una larga duración de GC del proceso de Broker puede interrumpir los servicios. |
12000ms |
|
Uso de memoria heap de Kafka |
38002 |
El uso de memoria heap de Kafka supera el umbral |
Si la memoria heap de Kafka disponible es insuficiente, se produce un desbordamiento de memoria y el servicio se interrumpe. |
95% |
|
Uso de memoria directa de Kafka |
38004 |
El uso de memoria directa de Kafka supera el umbral |
Si la memoria directa disponible del servicio Kafka es insuficiente, se produce un desbordamiento de memoria y el servicio se interrumpe. |
95% |
|
Loader |
Uso de memoria heap |
23004 |
El uso de memoria heap de Loader supera el umbral |
El desbordamiento de la memoria heap puede causar una falla en el servicio. |
95% |
Estadísticas de uso de memoria directa |
23006 |
El uso de memoria directa de Loader supera el umbral |
El desbordamiento de la memoria directa puede provocar una falla en el servicio. |
80.0% |
|
Uso de memoria no heap |
23005 |
El uso de memoria no heap de Loader supera el umbral |
El desbordamiento de la memoria no heap puede provocar una falla en el servicio. |
80% |
|
Duración total del GC |
23007 |
La duración de GC del proceso de Loader supera el umbral |
La respuesta del servicio del Loader es lenta. |
12000ms |
|
MapReduce |
Estadísticas de duración de GC |
18012 |
La duración de GC de JobHistoryServer supera el umbral |
Una larga duración GC del proceso de JobHistoryServer puede interrumpir los servicios. |
12000ms |
Estadísticas de uso de memoria directa de JobHistoryServer |
18015 |
El uso de memoria directa de JobHistoryServer supera el umbral |
Si la memoria directa disponible del servicio MapReduce es insuficiente, se produce un desbordamiento de memoria y el servicio se interrumpe. |
90% |
|
Estadísticas de uso de memoria no heap de JobHistoryServer |
18019 |
El uso de memoria no heap de JobHistoryServer supera el umbral |
Cuando el uso de memoria no heap de MapReduce JobHistoryServer es excesivo, el rendimiento del envío y la operación de tareas de MapReduce se ve afectado. Además, puede producirse un desbordamiento de memoria para que el servicio MapReduce no esté disponible. |
90% |
|
Estadísticas de uso de memoria heap de JobHistoryServer |
18009 |
El uso de memoria heap de JobHistoryServer supera el umbral |
Cuando el uso de memoria heap de JobHistoryServer de MapReduce es excesivo, el rendimiento del archivo de registros de MapReduce se ve afectado. Además, puede producirse un desbordamiento de memoria para que el servicio Yarn no esté disponible. |
95% |
|
Oozie |
Uso de memoria heap |
17004 |
El uso de memoria heap de Oozie supera el umbral |
El desbordamiento de la memoria heap puede causar una falla en el servicio. |
95.0% |
Uso de memoria directa |
17006 |
El uso de memoria directa de Oozie supera el umbral |
El desbordamiento de la memoria directa puede provocar una falla en el servicio. |
80.0% |
|
Uso de memoria no heap |
17005 |
El uso de memoria no heap de Oozie supera el umbral |
El desbordamiento de la memoria no heap puede provocar una falla en el servicio. |
80% |
|
Duración total de GC |
17007 |
La duración de GC del proceso Oozie supera el umbral |
Oozie responde lentamente cuando se utiliza para enviar tareas. |
12000ms |
|
Spark2x |
Estadísticas de uso de memoria heap de JDBCServer2x |
43010 |
El uso de memoria heap del proceso JDBCServer2x supera el umbral |
Si la memoria heap de procesos JDBCServe2x disponible es insuficiente, se produce un desbordamiento de memoria y el servicio se rompe |
95% |
Estadísticas de uso de memoria directa de JDBCServer2x |
43012 |
El uso memoria heap directa del proceso JDBCServer2x supera el umbral |
Si la memoria heap directa del proceso de JDBCServer2x disponible es insuficiente, se produce un desbordamiento de memoria y el servicio se interrumpe. |
95% |
|
Estadísticas de uso de memoria no heap de JDBCServer2x |
43011 |
El uso de memoria heap del proceso JDBCServer2x supera el umbral |
Si la memoria no heap de proceso de JDBCServer2x disponible es insuficiente, se produce un desbordamiento de memoria y el servicio se interrumpe. |
95% |
|
Estadísticas de uso de memoria directa de JobHistory2x |
43008 |
El uso de memoria directa del proceso JobHistory2x supera el umbral |
Si la memoria directa disponible del proceso JobHistory2x es insuficiente, se produce un desbordamiento de memoria y el servicio se rompe. |
95% |
|
Estadísticas de uso de memoria no heap de JobHistory2x |
43007 |
El uso de memoria no heap del proceso JobHistory2x supera el umbral |
Si la memoria no heap de JobHistory2x Process disponible es insuficiente, se produce un desbordamiento de memoria y el servicio se rompe. |
95% |
|
Estadísticas de uso de memoria heap de JobHistory2x |
43006 |
El uso de memoria heap del proceso JobHistory2x supera el umbral |
Si la memoria heap de procesos de JobHistory2x disponible es insuficiente, se produce un desbordamiento de memoria y el servicio se interrumpe. |
95% |
|
Estadísticas de uso de memoria directa de IndexServer2x |
43021 |
El uso de memoria directa del proceso IndexServer2x supera el umbral |
Si la memoria directa del proceso IndexServer2x disponible es insuficiente, se produce un desbordamiento de memoria y el servicio se interrumpe. |
95% |
|
Estadísticas de uso de memoria heap de IndexServer2x |
43019 |
El uso de memoria heap del proceso IndexServer2x supera el umbral |
Si la memoria heap de procesos de IndexServer2x disponible es insuficiente, se produce un desbordamiento de memoria y el servicio se interrumpe. |
95% |
|
Estadísticas de uso de memoria no heap de IndexServer2x |
43020 |
El uso de memoria no heap del proceso IndexServer2x supera el umbral |
Si la memoria no heap del proceso IndexServer2x disponible es insuficiente, se produce un desbordamiento de memoria y el servicio se interrumpe. |
95% |
|
Número de Full GC de JDBCServer2x |
43017 |
El número de Full GC del proceso JDBCServer2x supera el umbral |
El rendimiento del proceso JDBCServer2x se ve afectado, o incluso el proceso JDBCServer2x no está disponible. |
12 |
|
Número de Full GC de JobHistory2x |
43018 |
El número de Full GC de proceso JobHistory2x supera el umbral |
El rendimiento del proceso de JobHistory2x se ve afectado, o incluso el proceso de JobHistory2x no está disponible. |
12 |
|
Número de Full GC de IndexServer2x |
43023 |
El número de Full GC del proceso IndexServer2x supera el umbral |
Si el número de GC excede el umbral, IndexServer2x puede ejecutarse con bajo rendimiento o incluso no está disponible. |
12 |
|
Duración total de GC (en milisegundos) de JDBCServer2x |
43013 |
La duración de GC del proceso JDBCServer2x supera el umbral |
Si la duración de GC excede el umbral, JDBCServer2x puede ejecutarse con bajo rendimiento. |
12000ms |
|
Duración total de GC (en milisegundos) de JobHistory2x |
43009 |
La duración de GC del proceso JobHistory2x supera el umbral |
Si la duración de GC excede el umbral, JobHistory2x puede ejecutarse con bajo rendimiento. |
12000ms |
|
Duración total de GC (en milisegundos) de IndexServer2x |
43022 |
La duración de GC del proceso IndexServer2x supera el umbral |
Si la duración de GC excede el umbral, IndexServer2x puede ejecutarse con bajo rendimiento o incluso no estar disponible. |
12000ms |
|
Storm |
Número de Supervisor disponible |
26052 |
El número de supervisor disponible del servicio de Storm es menor que el umbral |
No se pueden realizar tareas existentes en el clúster. El clúster puede recibir nuevas tareas de Storm, pero no puede realizar estas tareas. |
1 |
Uso de Slot |
26053 |
El uso de Storm Slot supera el umbral |
No se pueden realizar nuevas tareas de Storm. |
80.0% |
|
Uso de memoria heap de Nimbus |
26054 |
El uso de memoria heap de Nimbus supera el umbral |
Cuando el uso de memoria heap de Storm Nimbus es demasiado alto, se producen GC frecuentes. Además, puede producirse un desbordamiento de memoria para que el servicio Yarn no esté disponible. |
80% |
|
Yarn |
Estadísticas de uso de memoria directa de NodeManager |
18014 |
El uso de memoria directa de NodeManager supera el umbral |
Si la memoria directa disponible de NodeManager es insuficiente, se produce un desbordamiento de memoria y el servicio se interrumpe. |
90% |
Estadísticas de uso de memoria heap de NodeManager |
18018 |
El uso de memoria heap de NodeManager supera el umbral |
Cuando el uso de memoria heap de Yarn NodeManager es demasiado alto, el rendimiento del envío y la operación de la tarea de Yarn se ve afectado. Además, puede producirse un desbordamiento de memoria para que el servicio Yarn no esté disponible. |
95% |
|
Estadísticas de uso de memoria no heap de NodeManager |
18017 |
El uso de memoria no heap de NodeManager supera el umbral |
Cuando el uso de memoria heap de Yarn NodeManager es demasiado alto, el rendimiento del envío y la operación de la tarea de Yarn se ve afectado. Además, puede producirse un desbordamiento de memoria para que el servicio Yarn no esté disponible. |
90% |
|
Estadísticas de uso de memoria directa de ResourceManager |
18013 |
El uso de memoria directa de ResourceManager supera el umbral |
Si la memoria directa disponible de ResourceManager es insuficiente, se produce un desbordamiento de memoria y el servicio se interrumpe. |
90% |
|
Estadísticas de uso de memoria heap de ResourceManager |
18008 |
El uso de memoria heap de ResourceManager supera el umbral |
Cuando el uso de memoria heap de Yarn ResourceManager es demasiado alto, el rendimiento del envío y la operación de la tarea de Yarn se ve afectado. Además, puede producirse un desbordamiento de memoria para que el servicio Yarn no esté disponible. |
95% |
|
Estadísticas de uso de memoria no heap de ResourceManager |
18016 |
El uso de memoria no heap de ResourceManager supera el umbral |
Cuando el uso de memoria no heap del Yarn ResourceManager es demasiado alto, el rendimiento del envío y operación de la tarea de Yarn se ve afectado. Además, puede producirse un desbordamiento de memoria para que el servicio Yarn no esté disponible. |
90% |
|
Estadísticas de duración de GC de NodeManager |
18011 |
La duración de GC de NodeManager supera el umbral |
Una larga duración GC del proceso NodeManager puede interrumpir los servicios. |
12000ms |
|
Estadísticas de duración de GC de ResourceManager |
18010 |
La duración de GC de ResourceManager supera el umbral |
Una larga duración de GC del proceso de ResourceManager puede interrumpir los servicios. |
12000ms |
|
Número de tareas fallidas en la cola raíz |
18026 |
El número de tareas de Yarn fallidas supera el umbral |
No se puede ejecutar un gran número de tareas de aplicación. Las tareas fallidas deben enviarse de nuevo. |
50 |
|
Aplicaciones terminadas de la cola raíz |
18025 |
El número de tareas de Yarn terminadas supera el umbral |
Un gran número de tareas de aplicación se detienen forzosamente. |
50 |
|
Memoria pendiente |
18024 |
El uso de memoria de Yarn pendiente supera el umbral |
Se necesita mucho tiempo para finalizar una solicitud. Una nueva aplicación no se puede ejecutar después del envío. |
83886080MB |
|
Tareas pendientes |
18023 |
El número de tareas pendientes de Yarn supera el umbral |
Se necesita mucho tiempo para finalizar una solicitud. Una nueva aplicación no puede ejecutarse durante mucho tiempo después del envío. |
60 |
|
ZooKeeper |
Uso de conexiones de ZooKeeper |
13001 |
Las conexiones de ZooKeeper disponibles son insuficientes |
Las conexiones de ZooKeeper disponibles son insuficientes. Cuando el uso de la conexión alcanza el 100%, las conexiones externas no se pueden manejar. |
80% |
Uso de memoria heap de ZooKeeper |
13004 |
El uso de memoria heap de ZooKeeper supera el umbral |
Si la memoria ZooKeeper disponible es insuficiente, se produce un desbordamiento de memoria y el servicio se interrumpe. |
95% |
|
Uso de memoria directa de ZooKeeper |
13002 |
El uso de memoria directa de ZooKeeper supera el umbral |
Si la memoria ZooKeeper disponible es insuficiente, se produce un desbordamiento de memoria y el servicio se interrumpe. |
80% |
|
Duración de GC de ZooKeeper por minuto |
13003 |
La duración GC del proceso ZooKeeper supera el umbral |
Una larga duración GC del proceso ZooKeeper puede interrumpir los servicios. |
12000ms |
|
Ranger |
Duración de GC de UserSync |
45284 |
La duración de GC de UserSync supera el umbral |
UserSync responde lentamente. |
12000ms |
Duración de GC de PolicySync |
45292 |
La duración de GC de PolicySync supera el umbral |
PolicySync responde lentamente. |
12000ms |
|
Duración de GC de RangerAdmin |
45280 |
La duración de GC de RangerAdmin supera el umbral |
RangerAdmin responde lentamente. |
12000ms |
|
Duración de GC de TagSync |
45288 |
La duración de GC de TagSync supera el umbral |
TagSync responde lentamente. |
12000ms |
|
Uso de memoria no heap de UserSync |
45283 |
El uso de memoria no heap de UserSync supera el umbral |
El desbordamiento de la memoria no heap puede provocar una falla en el servicio. |
80.0% |
|
Uso de memoria directa de UserSync |
45282 |
El uso de memoria directa de UserSync supera el umbral |
El desbordamiento de la memoria directa puede provocar una falla en el servicio. |
80.0% |
|
Uso de memoria heap de UserSync |
45281 |
El uso de memoria heap de UserSync supera el umbral |
El desbordamiento de la memoria heap puede causar una falla en el servicio. |
95.0% |
|
Uso de memoria directa de PolicySync |
45290 |
El uso de memoria directa de PolicySync supera el umbral |
El desbordamiento de la memoria directa puede provocar una falla en el servicio. |
80.0% |
|
Uso de memoria heap de PolicySync |
45289 |
El uso de memoria heap de PolicySync supera el umbral |
El desbordamiento de la memoria heap puede causar una falla en el servicio. |
95.0% |
|
Uso de memoria no heap de PolicySync |
45291 |
El uso de memoria no heap de PolicySync supera el umbral |
El desbordamiento de la memoria no heap puede provocar una falla en el servicio. |
80.0% |
|
Uso de memoria no heap de RangerAdmin |
45279 |
El uso de memoria no heap de RangerAdmin supera el umbral |
El desbordamiento de la memoria no heap puede provocar una falla en el servicio. |
80.0% |
|
Uso de memoria heap de RangerAdmin |
45277 |
El uso de memoria heap de RangerAdmin supera el umbral |
El desbordamiento de la memoria heap puede causar una falla en el servicio. |
95.0% |
|
Uso de memoria directa de RangerAdmin |
45278 |
El uso de memoria directa de RangerAdmin supera el umbral |
El desbordamiento de la memoria directa puede provocar una falla en el servicio. |
80.0% |
|
Uso de memoria directa de TagSync |
45286 |
El uso de memoria directa de TagSync supera el umbral |
El desbordamiento de la memoria directa puede provocar una falla en el servicio. |
80.0% |
|
Uso de memoria no heap de TagSync |
45287 |
El uso de memoria no heap de TagSync supera el umbral |
El desbordamiento de la memoria no heap puede provocar una falla en el servicio. |
80.0% |
|
Uso de memoria heap de TagSync |
45285 |
El uso de memoria heap de TagSync supera el umbral |
El desbordamiento de la memoria heap puede causar una falla en el servicio. |
95.0% |
|
ClickHouse |
Uso de la cuota de cantidad de servicio de Clickhouse en ZooKeeper |
45426 |
El uso de la cuota de cantidad de servicio ClickHouse en ZooKeeper supera el umbral |
Una vez que la cuota de cantidad de ZooKeeper del servicio ClickHouse supera el umbral, no puede realizar operaciones de clúster en el servicio ClickHouse en FusionInsight Manager. Como resultado, no se puede utilizar el servicio ClickHouse. |
90% |
Uso de cuota de capacidad de servicio ClickHouse en ZooKeeper |
45427 |
El uso de la cuota de capacidad de servicio ClickHouse en ZooKeeper supera el umbral |
Una vez que la cuota de capacidad de ZooKeeper del servicio ClickHouse supera el umbral, no puede realizar operaciones de clúster en el servicio ClickHouse en FusionInsight Manager. Como resultado, no se puede utilizar el servicio ClickHouse. |
90% |
|
IoTDB |
Latencia máxima de fusión (fusión intraespacio) |
45594 |
La duración de la fusión intraespacio de IoTDBServer supera el umbral |
La escritura de datos se bloquea y el rendimiento de la operación de escritura se ve afectado. |
300000ms |
Latencia máxima de fusión (Flush) |
45593 |
La duración de ejecución de IoTDBServer Flush supera el umbral |
La escritura de datos se bloquea y el rendimiento de la operación de escritura se ve afectado. |
300000ms |
|
Latencia máxima de fusión (fusión de espacio cruzado) |
45595 |
La duración de la fusión entre espacios de IoTDBServer supera el umbral |
La escritura de datos se bloquea y el rendimiento de la operación de escritura se ve afectado. |
300000ms |
|
Latencia máxima de RPC (executeStatement) |
45592 |
La duración de ejecución de IoTDBServer RPC supera el umbral |
El rendimiento de ejecución del proceso IoTDBServer se ve afectado. |
10000s |
|
Duración total del GC de IoTDBServer |
45587 |
La duración de GC de IoTDBServer supera el umbral |
Una larga duración de GC del proceso IoTDBServer puede interrumpir los servicios. |
12000ms |
|
Duración total del GC de ConfigNode |
45590 |
La duración de GC de ConfigNode supera el umbral |
Una larga duración de GC del proceso ConfigNode puede interrumpir los servicios. |
12000ms |
|
Uso de la memoria heap de IoTDBServer |
45586 |
El uso de la memoria heap de IoTDBServer supera el umbral |
Si la memoria heap de procesos IoTDBServer disponible es insuficiente, se produce un desbordamiento de memoria y el servicio se interrumpe. |
90% |
|
Uso de la memoria directa de IoTDBServer |
45588 |
El uso de la memoria directa de IoTDBServer supera el umbral |
El desbordamiento de la memoria directa puede provocar una falla en el servicio. |
90% |
|
Uso de memoria heap de ConfigNode |
45589 |
El uso de memoria heap de ConfigNode supera el umbral |
Si la memoria heap de proceso ConfigNode disponible es insuficiente, se produce un desbordamiento de memoria y el servicio se interrumpe. |
90% |
|
Uso de memoria directa de ConfigNode |
45591 |
El uso de memoria directa de ConfigNode supera el umbral |
El desbordamiento de la memoria directa puede hacer que la instancia de IoTDB no esté disponible. |
90% |