更新时间:2024-11-29 GMT+08:00

ALM-17010 Oozie连接HDFS状态异常

告警解释

Oozie会依赖HDFS,提交任务后系统会检测HDFS连接状态,当检测到与HDFS的连接状态连续3次异常时,产生该告警。

当检测到Oozie连接HDFS状态正常时,告警清除。

告警属性

告警ID

告警级别

告警类型

业务类型

是否可自动清除

17010

次要

处理错误告警

Oozie

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

附加信息

Trigger Condition

系统当前指标取值满足自定义的告警设置条件。

对系统的影响

正在运行的调度任务会阻塞,无法提交新的调度任务。

可能原因

HDFS服务重启、故障或网络故障导致Oozie与HDFS连接状态异常。

处理步骤

检查HDFS服务状态。

  1. 在FusionInsight Manager的服务列表中,查看HDFS运行状态是否为“良好”。

    • 是,执行5
    • 否,执行2

  2. 在告警列表中,查看是否有“ALM-14000 HDFS服务不可用”告警产生。

    • 是,执行3
    • 否,执行5

  3. 参考“ALM-14000 HDFS服务不可用”的处理步骤处理该故障。
  4. 等待几分钟后,在告警列表中查看“Oozie连接HDFS状态异常”告警是否清除。

    • 是,处理完毕。
    • 否,执行5

检查Oozie与HDFS连接是否异常。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 在线检索”,选择“Oozie”服务,检索日志关键词“[Oozie Alarm Enhancement][HDFS]”,在日志中查看具体告警原因,并进行处理。在告警列表中查看“Oozie连接HDFS状态异常”告警是否清除。

    • 是,处理完毕。
    • 否,执行6

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”框中勾选待操作集群的“Oozie”,单击“确定”。
  3. 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。