更新时间:2024-11-29 GMT+08:00
ALM-45616 CDL任务执行异常
告警解释
系统每60秒为周期检查CDL任务是否异常,如果异常则产生该告警。任务正常运行或者停止后,告警恢复。
告警属性
告警ID |
告警级别 |
告警类型 |
业务类型 |
是否可自动清除 |
---|---|---|---|---|
45616 |
重要 |
业务质量告警 |
CDL |
是 |
告警参数
类别 |
参数名称 |
参数含义 |
---|---|---|
定位信息 |
来源 |
产生告警的集群名称。 |
服务名 |
产生告警的服务名称。 |
|
任务名 |
产生告警的任务名称。 |
|
用户名 |
告警任务的创建用户名称。 |
对系统的影响
CDL任务失败,任务数据实时集成中断。
可能原因
CDL任务由于参数配置或者其他原因导致运行失败。失败原因可在CDL WebUI的作业列表界面中单击“状态”为“已失败”或者“运行异常”的链接查看,或者在作业运行日志中查看。
处理步骤
- 使用具有创建CDL任务的用户或者具有管理员权限的用户登录FusionInsight Manager。
- 选择“运维 > 告警 > 告警”,单击“告警ID”为“45616”所在行的,在定位信息中查看发生该告警的任务名称。
- 选择“集群 > 服务 > CDL”,单击“CDLService UI”后的链接进入CDL WebUI界面。
- 根据2中的任务名找到对应的失败作业,查看Source是否是Hudi。
- 在Manager界面,选择“集群 > 服务 > Yarn”,单击“ResourceManager Web UI”后的超链接进入Yarn WebUI界面,查找2中任务的最新失败任务ID,选择“任务ID > Logs”,搜索“stdout”,执行8。
- 单击所在行的“运行异常”或“已失败”链接。
- 在弹出的界面中查看报错信息进行故障修复,如图1为在Yarn上运行的任务被手动kill导致CDL任务异常,其他任务失败信息还可参考trace部分异常报错信息,如图2所示。
- 按照任务报错信息处理完成后,重新运行任务,查看是否可以运行成功。
- 是,处理完毕。
- 否,则执行9。
收集故障信息。
告警清除
任务恢复正常运行或停止后,如果已经发送过告警,则告警恢复,无需手动清除。
参考信息
不涉及。
父主题: 告警参考