文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-24005 Flume传输数据异常(2.x及以前版本)
更新时间:2024-11-22 GMT+08:00
分享

ALM-24005 Flume传输数据异常(2.x及以前版本)

告警解释

告警模块对Flume Channel的容量状态进行监控,当Channel满的时长超过阈值,或Source向Channel放数据失败的次数超过阈值后,系统发送告警。

用户可通过配置修改阈值:修改对应channel的“channelfullcount”参数。

当Flume Channel空间被释放,且告警处理完成时,告警恢复。

告警属性

告警ID

告警级别

可自动清除

24005

严重

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

HostName

产生告警的主机名。

ComponentType

产生告警的元素类型。

ComponentName

产生告警的元素名称。

对系统的影响

Flume Channel的磁盘空间使用量有继续增长的趋势,将会使数据导入到指定目的地的时间增长,当Flume Channel的磁盘空间使用量达到100%时会导致Flume Agent进程暂停工作。

可能原因

  • Flume Sink故障,导致数据无法发送。
  • 网络故障,导致数据无法发送。

处理步骤

  1. 检查Flume Sink是否故障。

    1. 确认Flume Sink是否是HDFS类型。
      • 是,执行1.b
      • 否,执行1.c
    2. 在MRS的告警列表中查看是否有“ALM-14000 HDFS服务不可用”告警产生,服务列表中HDFS服务是否已停止。
    3. 确认Flume Sink是否是HBase类型。
      • 是,执行1.d
      • 否,执行1.g
    4. 在MRS的告警列表中,查看是否有“ALM-19000 HBase服务不可用”告警产生,服务列表中HBase服务是否已停止。
    5. 确认Flume Sink是否是Kafka类型。
      • 是,执行1.f
      • 否,执行1.g
    6. 在MRS的告警列表中,查看是否有“ALM-38000 Kafka服务不可用”告警产生,服务列表中Kafka服务是否已停止。
    7. 登录MRS集群详情页面,选择“组件管理”。
    8. 单击Flume > 实例
    9. 单击进入故障节点的Flume实例页面,查看指标“Sink速度指标”,检查其速度是否为0。
      • 是,执行2.a
      • 否,处理完毕。

  2. 检查Flume Sink配置的IP所在节点与故障节点的网络状态。

    1. 确认Flume Sink是否是avro类型。
      • 是,执行2.c
      • 否,执行3
    2. 登录故障节点所在主机,执行以下命令切换root用户。

      sudo su - root

    3. 执行ping Flume Sink配置的IP地址命令查看对端主机是否可以ping通。
      • 是,执行3
      • 否,执行2.d
    4. 联系网络管理员恢复网络。
    5. 等待一段时间后,在告警列表中,查看告警是否清除。
      • 是,处理完毕。
      • 否, 执行3

  3. 收集故障信息。

    1. 在MRS Manager界面,单击“系统设置 > 日志导出”。
    2. 请联系运维人员,并发送已收集的故障日志信息。

参考信息

无。

相关文档