更新时间:2022-11-09 GMT+08:00
Jobmanager与Taskmanager心跳超时,导致Flink作业异常怎么办?
问题现象
Jobmanager与Taskmanager心跳超时,导致Flink作业异常。
图1 异常信息
根因分析
- 检查网络是否发生闪断,分析集群负载是否很高。
- 如果频繁出现Full GC, 建议排查代码,确认是否有内存泄漏。
图2 Full GC
处理步骤
- 如果频繁Full GC, 建议排查代码,是否有内存泄漏。
- 增加单TM所占的资源。
- 联系技术支持,修改集群心跳配置参数。
父主题: 运维指导
运维指导 所有常见问题
- Flink作业提交错误,如何定位
- Flink作业运行异常,如何定位
- Flink作业重启后,如何判断是否可以从checkpoint恢复
- 作业语义检验时提示DIS通道不存在怎么处理?
- 如何处理作业的OBS Bucket没有授权?
- DLI Flink作业提交运行后(已选择保存作业日志到OBS桶),提交运行失败的情形(例如:jar包冲突),有时日志不会写到OBS桶中
- Kafka Sink配置发送失败重试机制
- 访问FlinkUI/SparkUI页面无法正常显示怎么办?
- Jobmanager与Taskmanager心跳超时,导致Flink作业异常怎么办?
- Flink jobmanager日志一直报Timeout expired while fetching topic metadata怎么办?
more