更新时间:2024-10-24 GMT+08:00

ALM-45616 CDL任务执行异常

告警解释

系统每60秒为周期检查CDL任务是否异常,如果异常则产生该告警。任务正常运行或者停止后,告警恢复。

告警属性

告警ID

告警级别

是否自动清除

45616

重要

告警参数

参数名称

参数含义

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

任务名

产生告警的任务名称。

用户名

告警任务的创建用户名称。

对系统的影响

CDL任务失败,任务数据实时集成中断。

可能原因

CDL任务由于参数配置或者其他原因导致运行失败。失败原因可在CDL WebUI的作业列表界面中单击“状态”为“已失败”或者“运行异常”的链接查看,或者在作业运行日志中查看。

处理步骤

  1. 使用具有创建CDL任务的用户或者具有管理员权限的用户登录FusionInsight Manager。
  2. 选择“运维 > 告警 > 告警”,单击“告警ID”为“45616”所在行的,在定位信息中查看发生该告警的任务名称。
  3. 选择“集群 > 服务 > CDL”,单击“CDLService UI”后的链接进入CDL WebUI界面。
  4. 根据2中的任务名找到对应的失败作业,单击所在行的“运行异常”或“已失败”链接。

  5. 在弹出的界面中查看报错信息进行故障修复,如图1为在Yarn上运行的任务被手动kill导致CDL任务异常,其他任务失败信息还可参考trace部分异常报错信息,如图2所示。

    图1 CDL任务异常
    图2 trace部分异常报错信息

  6. 按照任务报错信息处理完成后,重新运行任务,查看是否可以运行成功。

    • 是,处理完毕。
    • 否,则执行7

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的“CDL”。
  3. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后30分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

任务恢复正常运行或停止后,如果已经发送过告警,则告警恢复,无需手动清除。

参考信息

无。