更新时间:2024-11-29 GMT+08:00

ALM-24004 Flume读取数据异常

告警解释

告警模块对Flume Source的状态进行监控,当Source读取不到数据的时长超过阈值时,系统即时上报告警。

默认阈值为0,表示不开启。用户可通过conf目录下的配置文件properties.properties修改阈值:修改对应source的“NoDatatime”参数。

当Source读取到数据,且告警处理完成时,告警恢复。

告警属性

告警ID

告警级别

告警类型

业务类型

是否可自动清除

24004

重要

处理错误告警

Flume

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

主机名

产生告警的主机名。

AgentId

产生告警的Agent ID。

部件类型

产生告警的元素类型。

部件名

产生告警的元素名称。

对系统的影响

如果数据源有数据,Flume Source持续读取不到数据,数据采集会停止。

可能原因

  • Flume Source故障,导致数据无法发送。
  • 网络故障,导致数据无法发送。

处理步骤

检查Flume Source是否故障。

  1. 本地打开用户自定义配置文件properties.properties,搜索配置文件中是否有“type = spooldir”关键字确认Flume Source是否是spooldir类型。

    • 是,执行2
    • 否,执行3

  2. 查看设置的spoolDir监控目录,是否所有的文件均已传输完毕。

    • 是,处理完毕。
    • 否,执行5

      spoolDir的监控目录为用户自定义配置文件properties.properties中.spoolDir的参数值。若监控目录文件已传输完毕,则该监控目录下的所有文件以.COMPLETED后缀结尾。

  3. 本地打开用户自定义配置文件properties.properties,搜索配置文件中是否有“org.apache.flume.source.kafka.KafkaSource”关键字确认Flume Source是否是Kafka类型。

    • 是,执行4
    • 否,执行7

  4. 查看Kafka Source配置的topic数据是否已经消费完毕。

    • 是,处理完毕。
    • 否,执行5

  5. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Flume > 实例”。
  6. 单击进入故障节点的Flume实例页面,查看监控指标“Source速度指标”,检查告警中的Source速度是否为0。

    • 是,执行11
    • 否,执行步骤7

检查Flume Source配置的IP所在节点与故障节点的网络状态。

  1. 本地打开用户自定义配置文件properties.properties,搜索配置文件中是否有“type = avro”关键字确认Flume Source是否是avro类型。

    • 是,执行8
    • 否,执行11

  2. root用户登录故障节点所在主机,执行ping Flume Source配置的IP地址命令查看对端主机是否可以ping通

    • 是,执行11
    • 否,执行9

  3. 联系网络管理员恢复网络。
  4. 等待一段时间后,在告警列表中,查看告警是否清除。

    • 是,处理完毕。
    • 否,执行11

收集故障信息

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”框中勾选待操作集群的“Flume”。
  3. 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。