ALM-24005 Se produce una excepción cuando Flume transmite datos
Descripción
El módulo de alarma monitoriza el estado de capacidad de Flume Channel. La alarma se genera inmediatamente cuando la duración en la que el Channel está completamente ocupado excede el umbral o el número de veces que la Source no envía datos al Channel excede el umbral.
El umbral predeterminado es 10. Puede cambiar el umbral modificando el parámetro channelfullcount del channel relacionado en el archivo de configuración properties.properties del directorio conf.
La alarma se borra cuando se libera el espacio del Flume Channel y se completa el manejo de la alarma.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrar automáticamente |
---|---|---|
24005 |
Importante |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
AgentId |
Especifica el ID del agente para el que se genera la alarma. |
ComponentType |
Especifica el tipo del componente para el que se genera la alarma. |
ComponentName |
Especifica el componente para el que se genera la alarma. |
Impacto en el sistema
Si el uso del disco de Flume Channel aumenta continuamente, el tiempo necesario para importar datos a un destino específico se prolonga. Cuando el uso del disco de Flume Channel alcanza el 100%, el proceso del agente de Flume se detiene.
Causas posibles
- Flume Sink está defectuoso, por lo que los datos no se pueden enviar.
- La red está defectuosa, por lo que los datos no se pueden enviar.
Procedimiento
Compruobar si Flume Sink está defectuoso.
- Abra el archivo de configuración properties.properties en el PC local, busque type = hdfs en el archivo y compruebe si el tipo de Flume sink es HDFS.
- En FusionInsight Manager, compruebe si se genera una alarma HDFS Service Unavailable en la lista de alarmas y si el servicio HDFS está detenido en la lista de servicios.
- Abra el archivo de configuración properties.properties en el PC local, busque type = hbase en el archivo y compruebe si el tipo de Flume sink es HBase.
- En FusionInsight Manager, compruebe si se genera una alarma HBase Service Unavailable en la lista de alarmas y si el servicio HBase está detenido en la lista de servicios.
- Abra el archivo de configuración properties.properties en el PC local, busque org.apache.flume.sink.kafka.KafkaSink en el archivo y compruebe si el tipo de Flume sink es Kafka.
- En FusionInsight Manager, compruebe si se genera una alarma Kafka Service Unavailable en la lista de alarmas y si el servicio Kafka está detenido en la lista de servicios.
- En FusionInsight Manager, elija Cluster > Name of the desired cluster > Services > Flume > Instance.
- Vaya a la página de instancia de Flume del nodo defectuoso para comprobar si el indicador Sink Speed Metrics es 0.
Verificar la conexión de red entre el nodo defectuoso y el nodo que corresponde a la dirección IP del Flume Sink.
- Abra el archivo de configuración properties.properties en el PC local, busque type = avro en el archivo y compruebe si el tipo de Flume sink es Avro.
- Inicie sesión en el nodo defectuoso como usuario root y ejecute el comando ping IP address of the Flume sink para comprobar si se puede hacer ping con éxito al host del mismo nivel.
- Póngase en contacto con el administrador de red para restaurar la red.
- En la lista de alarmas, compruebe si la alarma se borra después de un período.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 13.
Recopilar información de fallas.
- En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
- Expanda la lista desplegable Service y seleccione Flume para el clúster de destino.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 1 hora antes y después del tiempo de generación de alarma, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con y proporcione los registros recopilados.
Eliminación de alarmas
Esta alarma se borra automáticamente después de rectificar la falla.
Información relacionada
Ninguna