更新时间:2024-09-04 GMT+08:00

ALM-24003 Flume Client连接中断

告警解释

告警模块对Flume Server的连接端口状态进行监控。当Flume Client连接到Flume Server的某个端口,Client端连续3分钟未与Server端连接时,系统产生此告警。

当Flume Server收到Flume Client连接消息,告警恢复。

告警属性

告警ID

告警级别

是否自动清除

24003

重要

告警参数

参数名称

参数含义

来源

产生告警的集群名称。

客户端IP

Flume客户端IP地址。

客户端名称

Flume客户端的Agent名称。

sink名称

Flume Agent的sink名称。

对系统的影响

产生告警的Flume Client无法与Flume Server端进行通信,Flume Client端的数据无法传输到Flume Server端。

可能原因

  • Flume Client端与Flume Server端网络故障。
  • Flume Client端进程故障。
  • Flume Client端配置错误。

处理步骤

检查Flume Client与Flume Server的网络状况。

  1. root用户登录到告警定位参数中描述的Flume ClientIP所在主机
  2. 执行ping Flume Server IP地址命令,检查Flume Client到Flume Server的网络是否正常。

    • 是,执行3
    • 否,执行11

检查Flume Client端进程故障。

  1. root用户登录到告警定位参数中描述的Flume ClientIP所在主机。
  2. 执行ps -ef|grep flume |grep client命令,查看是否存在Flume Client进程。

    • 是,执行5
    • 否,执行11

检查Flume Client端的配置。

  1. root用户登录到告警定位参数中描述的Flume ClientIP所在主机。
  2. 执行cd Flume客户端安装目录/fusioninsight-flume-1.9.0/conf/命令,进入Flume的配置目录。
  3. 执行cat properties.properties命令,查看当前的Flume Client配置文件。
  4. 根据Flume Agent的配置说明检查“properties.properties”的配置是否有误。

    • 是,执行9
    • 否,执行11

  5. 修改“properties.properties”配置文件。

查看告警是否已清除。

  1. 查看告警列表中,该告警是否已清除。

    • 是,处理完毕。
    • 否,执行11

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”框中勾选待操作集群的“Flume”。
  3. 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。
  4. 使用传输工具,收集Flume Client端“/var/log/Bigdata/flume-client”下的日志。
  5. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

无。