更新时间:2024-12-06 GMT+08:00
ALM-24005 Flume传输数据异常(2.x及以前版本)
告警解释
告警模块对Flume Channel的容量状态进行监控,当Channel满的时长超过阈值,或Source向Channel放数据失败的次数超过阈值后,系统发送告警。
用户可通过配置修改阈值:修改对应channel的“channelfullcount”参数。
当Flume Channel空间被释放,且告警处理完成时,告警恢复。
告警属性
告警ID |
告警级别 |
可自动清除 |
---|---|---|
24005 |
严重 |
是 |
告警参数
参数名称 |
参数含义 |
---|---|
ServiceName |
产生告警的服务名称。 |
HostName |
产生告警的主机名。 |
ComponentType |
产生告警的元素类型。 |
ComponentName |
产生告警的元素名称。 |
对系统的影响
Flume Channel的磁盘空间使用量有继续增长的趋势,将会使数据导入到指定目的地的时间增长,当Flume Channel的磁盘空间使用量达到100%时会导致Flume Agent进程暂停工作。
可能原因
- Flume Sink故障,导致数据无法发送。
- 网络故障,导致数据无法发送。
处理步骤
- 检查Flume Sink是否故障。
- 确认Flume Sink是否是HDFS类型。
- 在MRS的告警列表中查看是否有“ALM-14000 HDFS服务不可用”告警产生,服务列表中HDFS服务是否已停止。
- 是,如果有告警参考ALM-14000 HDFS服务不可用(2.x及以前版本)的处理步骤处理该故障;如果HDFS服务已停止,启动HDFS服务,执行1.g。
- 否,执行1.g。
- 确认Flume Sink是否是HBase类型。
- 在MRS的告警列表中,查看是否有“ALM-19000 HBase服务不可用”告警产生,服务列表中HBase服务是否已停止。
- 是,如果有告警参考ALM-19000 HBase服务不可用(2.x及以前版本)的处理步骤处理该故障,如果HBase服务已停止,启动HBase服务。执行1.g。
- 否,执行1.g。
- 确认Flume Sink是否是Kafka类型。
- 在MRS的告警列表中,查看是否有“ALM-38000 Kafka服务不可用”告警产生,服务列表中Kafka服务是否已停止。
- 是,如果有告警参考ALM-38000 Kafka服务不可用(2.x及以前版本)的处理步骤处理该故障;如果Kafka服务已停止,启动Kafka服务,执行1.g。
- 否,执行1.g。
- 登录MRS集群详情页面,选择“组件管理”。
- 单击 。
- 单击进入故障节点的Flume实例页面,查看指标“Sink速度指标”,检查其速度是否为0。
- 是,执行2.a。
- 否,处理完毕。
- 检查Flume Sink配置的IP所在节点与故障节点的网络状态。
- 收集故障信息。
- 在MRS Manager界面,单击“系统设置 > 日志导出”。
- 请联系运维人员,并发送已收集的故障日志信息。
参考信息
无。
父主题: MRS集群告警处理参考