更新时间:2024-11-29 GMT+08:00

ALM-24005 Flume传输数据异常

告警解释

告警模块对Flume Channel的容量状态进行监控,当Channel满的时长超过阈值,或Source向Channel放数据失败的次数超过阈值后,系统即时上报告警。

用户可通过conf目录下的配置文件properties.properties修改阈值:修改对应channel的“channelfullcount”参数。

当Flume Channel空间被释放,且告警处理完成时,告警恢复。

告警属性

告警ID

告警级别

告警类型

业务类型

是否可自动清除

24005

紧急(默认阈值为10)

重要(默认阈值为8)

处理错误告警

Flume

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

主机名

产生告警的主机名。

AgentId

产生告警的Agent ID。

部件类型

产生告警的元素类型。

部件名

产生告警的元素名称。

附加信息

Trigger Condition

系统当前指标取值满足自定义的告警设置条件。

对系统的影响

Flume Channel的磁盘空间使用量有继续增长的趋势,将会使数据导入到指定目的地的时间增长,当Flume Channel的磁盘空间使用量达到100%时会导致Flume Agent进程暂停工作。

可能原因

  • Flume Sink故障,导致数据无法发送。
  • 网络故障,导致数据无法发送。

处理步骤

检查Flume Sink是否故障。

  1. 本地打开用户自定义配置文件properties.properties,搜索配置文件中是否有“type = hdfs”关键字确认Flume Sink是否是HDFS类型。

    • 是,执行2
    • 否,执行3

  2. 在FusionInsight Manager的告警列表中查看是否有“HDFS服务不可用”告警产生,服务列表中HDFS是否已停止。

    • 是,如果有告警参考“ALM-14000 HDFS服务不可用”的处理步骤处理该故障;如果HDFS已停止,启动HDFS服务,执行7
    • 否,执行7

  3. 本地打开用户自定义配置文件properties.properties,搜索配置文件中是否有“type = hbase”关键字确认Flume Sink是否是HBase类型。

    • 是,执行4
    • 否,执行5

  4. 在FusionInsight Manager的告警列表中,查看是否有“HBase服务不可用”告警产生,服务列表中HBase是否已停止。

    • 是,如果有告警参考“ALM-19000 HBase服务不可用”的处理步骤处理该故障,如果HBase已停止,启动HBase服务。执行7
    • 否,执行7

  5. 本地打开用户自定义配置文件properties.properties,搜索配置文件中是否有“org.apache.flume.sink.kafka.KafkaSink”关键字确认Flume Sink是否是Kafka类型。

    • 是,执行6
    • 否,执行9

  6. 在FusionInsight Manager的告警列表中,查看是否有“Kafka服务不可用”告警产生,服务列表中Kafka是否已停止。

    • 是,如果有告警参考“ALM-38000 Kafka服务不可用”的处理步骤处理该故障;如果Kafka已停止,启动Kafka服务,执行7
    • 否,执行7

  7. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Flume > 实例”。
  8. 单击进入故障节点的Flume实例页面,查看指标“Sink速度指标”,检查其速度是否为0。

    • 是,执行13
    • 否,执行步骤9

检查Flume Sink配置的IP所在节点与故障节点的网络状态。

  1. 本地打开用户自定义配置文件properties.properties,搜索配置文件中是否有“type = avro”关键字确认Flume Sink是否是avro类型。

    • 是,执行10
    • 否,执行13

  2. root用户登录故障节点所在主机,执行ping Flume Sink配置的IP地址命令查看对端主机是否可以ping通

    • 是,执行13
    • 否,执行11

  3. 联系网络管理员恢复网络。
  4. 等待一段时间后,在告警列表中,查看告警是否清除。

    • 是,处理完毕。
    • 否, 执行13

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”框中勾选待操作集群的“Flume”。
  3. 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。