文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-24001 Flume Agent异常(2.x及以前版本)
更新时间:2024-08-13 GMT+08:00
分享

ALM-24001 Flume Agent异常(2.x及以前版本)

告警解释

Flume Agent监控模块对Flume Agent状态进行监控,当Flume Agent进程故障时,系统产生此告警。

当检测到Flume Agent进程故障恢复,且告警处理完成时,告警恢复。

告警属性

告警ID

告警级别

可自动清除

24001

一般

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

对系统的影响

产生告警的Flume Agent实例无法提供正常功能,定义在该实例下的数据传输任务暂时中断,对于实时数据传输,会丢失实时数据。

可能原因

  • JAVA_HOME目录不存在或JAVA权限异常。
  • Flume Agent目录权限异常。

处理步骤

  1. 检查Flume Agent配置文件。

    1. 登录故障节点IP所在主机,执行以下命令切换root用户。

      sudo su - root

    2. 执行cd Flume安装目录/fusioninsight-flume-1.6.0/conf/命令,进入Flume的配置目录。
    3. 执行cat ENV_VARS命令,检查JAVA_HOME目录是否存在,Flume Agent运行用户是否有JAVA可执行权限。
      • 是,执行2.a
      • 否,执行1.d
    4. 指定正确的JAVA_HOME目录并赋予Flume Agent运行用户JAVA可执行权限,执行2.d

  2. 检查Flume Agent的目录权限。

    1. 登录故障节点IP所在主机,执行以下命令切换root用户。

      sudo su - root

    2. 执行以下命令,进入Flume Agent的安装目录。

      cd Flume Agent的安装目录

    3. 执行ls -al * -R命令,检查是否所有文件的所有者均是运行Flume Agent的用户。
      • 是,执行3
      • 否,使用chown命令修改文件属主为运行Flume Agent的用户,执行2.d
    4. 查看告警列表中,该告警是否已清除。
      • 是,处理完毕。
      • 否,执行3

  3. 收集故障信息。

    1. 在MRS Manager界面,单击“系统设置 > 日志导出”。
    2. 请联系运维人员,并发送已收集的故障日志信息。

参考信息

无。

相关文档