文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-24004 Flume读取数据异常(2.x及以前版本)
更新时间:2024-08-13 GMT+08:00
分享

ALM-24004 Flume读取数据异常(2.x及以前版本)

告警解释

告警模块对Flume Source的状态进行监控,当Source读取不到数据的时长超过阈值时,系统发送告警。

用户可通过配置修改阈值。

当Source读取到数据,且告警处理完成时,告警恢复。

告警属性

告警ID

告警级别

可自动清除

24004

严重

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

HostName

产生告警的主机名。

ComponentType

产生告警的元素类型。

ComponentName

产生告警的元素名称。

对系统的影响

如果数据源有数据,Flume Source持续读取不到数据,数据采集会停止。

可能原因

  • Flume Source故障,导致数据无法发送。
  • 网络故障,导致数据无法发送。

处理步骤

  1. 检查Flume Source是否故障。

    1. 确认Flume Source是否是spooldir类型。
      • 是,执行1.b
      • 否,执行1.c
    2. 查看设置的spoolDir目录,是否所有的文件均已传输完毕。
      • 是,处理完毕。
      • 否,执行1.e
    3. 确认Flume Source是否是Kafka类型。
      • 是,执行1.d
      • 否,执行1.e
    4. 使用Kafka客户端,执行以下命令查看Kafka Source配置的topic数据是否已经消费完毕。

      cd /opt/client/Kafka/kafka/bin

      ./kafka-consumer-groups.sh --bootstrap-server Kafka集群IP:21007 --new-consumer --describe --group example-group1 --command-config

      ../config/consumer.properties
      • 是,处理完毕。
      • 否,执行1.e
    5. 登录MRS集群详情页面,选择“组件管理”。
    6. 单击Flume > 实例
    7. 单击进入故障节点的Flume实例页面,查看监控指标“Source速度指标”,检查告警中的Source速度是否为0。
      • 是,执行2.a
      • 否,处理完毕。

  2. 检查Flume Source配置的IP所在节点与故障节点的网络状态。

    1. 确认Flume Source是否是avro类型。
      • 是,执行2.c
      • 否,执行3
    2. 登录故障节点所在主机,执行以下命令切换root用户。

      sudo su - root

    3. 执行ping Flume Source配置的IP地址命令查看对端主机是否可以ping通。
      • 是,执行3
      • 否,执行2.d
    4. 联系网络管理员恢复网络。
    5. 等待一段时间后,在告警列表中,查看告警是否清除。
      • 是,处理完毕。
      • 否,执行3

  3. 收集故障信息。

    1. 在MRS Manager界面,单击“系统设置 > 日志导出”。
    2. 请联系运维人员,并发送已收集的故障日志信息。

参考信息

无。

相关文档