更新时间:2024-09-04 GMT+08:00
ALM-24001 Flume Agent异常
告警解释
Flume Agent监控模块对Flume Agent状态进行监控,当Flume Agent进程故障(每5秒检测一次)或Flume Agent启动失败时(即时上报告警),系统产生此告警。
当检测到Flume Agent进程故障恢复,Flume Agent启动成功,且告警处理完成时,告警恢复。
告警属性
告警ID |
告警级别 |
是否自动清除 |
---|---|---|
24001 |
重要 |
是 |
告警参数
参数名称 |
参数含义 |
---|---|
来源 |
产生告警的集群名称。 |
服务名 |
产生告警的服务名称。 |
AgentId |
产生告警的Agent ID。 |
角色名 |
产生告警的角色名称。 |
主机名 |
产生告警的主机名。 |
对系统的影响
产生告警的Flume Agent实例无法正常启动,定义在该实例下的数据传输任务暂时中断,对于实时数据传输,会丢失实时数据。
可能原因
- JAVA_HOME目录不存在或JAVA权限异常。
- Flume Agent目录权限异常。
- Flume Agent启动失败。
处理步骤
检查JAVA_HOME目录是否存在或JAVA权限是否正确
- 以root用户登录故障节点IP所在主机。
- 执行以下命令获取发生告警的Flume客户端安装目录。(AgentId可以在告警的“定位信息”中获取)
ps -ef|grep AgentId | grep -v grep | awk -F 'conf-file ' '{print $2}' | awk -F 'fusioninsight' '{print $1}'
- 使用“su - Flume安装用户”命令切换到Flume安装用户,执行cd Flume客户端安装目录/fusioninsight-flume-1.9.0/conf/命令,进入Flume的配置目录。
- 执行cat ENV_VARS | grep JAVA_HOME命令。
- 检查JAVA_HOME目录是否存在,若步骤4执行结果返回不为空,且ll $JAVA_HOME/不为空,则JAVA_HOME目录存在。
- 指定正确的JAVA_HOME目录,如export JAVA_HOME=${BIGDATA_HOME}/common/runtime0/jdk版本号。
- 执行$JAVA_HOME/bin/java -version命令检查Flume Agent运行用户是否有JAVA可执行权限,若可以查到java版本,这说明JAVA权限满足,否则不满足。
- 执行chmod 750 $JAVA_HOME/bin/java命令赋予Flume Agent运行用户JAVA可执行权限。
检查Flume Agent的目录权限。
- 以root用户登录故障节点IP所在主机。
- 执行以下命令,进入Flume Agent的安装目录。
cd Flume客户端安装目录/fusioninsight-flume-1.9.0/conf/
- 执行ls -al * -R命令,检查所有文件的所有者是否均是Flume Agent运行用户。
- 是,执行12。
- 否,使用chown命令修改文件所有者为Flume Agent运行用户。
检查Flume Agent配置。
- 执行cat properties.properties | grep spooldir以及cat properties.properties | grep TAILDIR命令,确认Flume Source是否是spooldir类型或TAILDIR类型,若任意一个命令有返回值,则为spooldir类型或TAILDIR类型。
- 查看数据监控目录是否存在。
- 指定服务器上用户自定义已经存在的数据监控目录。
- 查看Flume Agent运行用户对步骤13所指定的监控目录是否有可读可写可执行权限。
- 执行“chmod 777 Flume监控目录”命令赋予Flume Agent运行用户对步骤13监控目录的可读可写可执行权限。
- 确认Flume Sink对接组件是否处于安全模式。
- 使用“ll ketab路径命令”查看配置文件“*.kerberosKeytab”参数所指的keytab认证路径是否存在。
- 将步骤18中kerberosKeytab参数的值指定为用户自定的keytab路径,执行21。
- 执行步骤18查看Flume Agent运行用户是否有访问keytab认证文件的权限,若返回为keytab路径,则表示有权限,否则无权限。
- 执行“chmod 755 ketab文件”赋予步骤19中所指定的keytab文件的可读权限, 并重启Flume进程。
- 查看告警列表中该告警是否已清除。
- 是,处理完毕。
- 否,执行23。
收集故障信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
无。
父主题: MRS集群告警处理参考