更新时间:2024-11-29 GMT+08:00

ALM-45616 CDL任务执行异常

告警解释

系统每60秒为周期检查CDL任务是否异常,如果异常则产生该告警。任务正常运行或者停止后,告警恢复。

告警属性

告警ID

告警级别

告警类型

业务类型

是否可自动清除

45616

重要

业务质量告警

CDL

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

任务名

产生告警的任务名称。

用户名

告警任务的创建用户名称。

对系统的影响

CDL任务失败,任务数据实时集成中断。

可能原因

CDL任务由于参数配置或者其他原因导致运行失败。失败原因可在CDL WebUI的作业列表界面中单击“状态”为“已失败”或者“运行异常”的链接查看,或者在作业运行日志中查看。

处理步骤

  1. 使用具有创建CDL任务的用户或者具有管理员权限的用户登录FusionInsight Manager。
  2. 选择“运维 > 告警 > 告警”,单击“告警ID”为“45616”所在行的,在定位信息中查看发生该告警的任务名称。
  3. 选择“集群 > 服务 > CDL”,单击“CDLService UI”后的链接进入CDL WebUI界面。
  4. 根据2中的任务名找到对应的失败作业,查看Source是否是Hudi。

    • 是,则执行5
    • 否,则执行6

  5. 在Manager界面,选择“集群 > 服务 > Yarn”,单击“ResourceManager Web UI”后的超链接进入Yarn WebUI界面,查找2中任务的最新失败任务ID,选择“任务ID > Logs”,搜索“stdout”,执行8
  6. 单击所在行的“运行异常”或“已失败”链接。

  7. 在弹出的界面中查看报错信息进行故障修复,如图1为在Yarn上运行的任务被手动kill导致CDL任务异常,其他任务失败信息还可参考trace部分异常报错信息,如图2所示。

    图1 CDL任务异常
    图2 trace部分异常报错信息

  8. 按照任务报错信息处理完成后,重新运行任务,查看是否可以运行成功。

    • 是,处理完毕。
    • 否,则执行9

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的“CDL”。
  3. 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后30分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

任务恢复正常运行或停止后,如果已经发送过告警,则告警恢复,无需手动清除。

参考信息

不涉及。