更新时间:2025-07-12 GMT+08:00
Flink任务运行过程中出现报错“netty.exception.LocalTransportException”
问题现象
Flink任务运行过程中出现报错:netty.exception.LocalTransportException。
可能原因
网络抖动或者丢包。触发的原因是如下task在向上下游算子进行netty通信过程中出现了超时,在task的通信过程中,由于Flink的task之间走的是JDK底层的socket通信,而socket的读写也仅仅是调用了os底层的接口。这样在超时后抛出“IO EXCEPTION”或者“LocalTransPortException”。
根据历史经验,其中问题的根因都是网络因素导致。因素如下:
- 网络抖动或者网络丢包。
- 网络带宽到达上限。
- 数据节点之间有网络异常。
除此之外开源社区也给出了一些关于这个报错的触发场景:
解决方案
如果问题出现的不频繁,半年或者一年一次,可以不用关注,如果很频繁建议排查网络和交换机日志。建议业务可以将自动重启机制开启。如在flink-conf.xml中将配置restart-strategy:设置为failure-rate。
父主题: 使用Flink