文档首页> 云数据迁移 CDM> 常见问题> 故障处理类> Hudi目的端案例库> 启动作业后,Hudi作业长时间处于BOOTING状态,然后作业失败,日志报错Read Timeout怎么解决?
更新时间:2023-06-21 GMT+08:00

启动作业后,Hudi作业长时间处于BOOTING状态,然后作业失败,日志报错Read Timeout怎么解决?

问题现象:

作业日志报错Read time out,日志如下:

问题排查

  1. 确认MRS集群的JdbcServer是多实例模式还是多租模式。
    • 如果是多实例模式,跳转3
    • 否则跳转2
  2. 多租户模式下,确认其他租户的作业是否正常。
    • 如果所有租户的作业执行spark sql都有问题,跳转3
    • 否则,跳转4
  3. 进一步确认:用dlf建个脚本,选择直连连接,执行一条spark sql,看是否报time out的错(甚至可能数据库都list不出来)。如果有以上现象,大概率是MRS集群的jdbc server出了问题。
  4. 单租户执行不了spark sql,则多半是队列资源限制,打开yarn,搜索租户的队列,查看Spark2x-JDBCServer2x的yarn任务,此时可能会搜索不到yarn任务,或者State为ACCEPTED,这两种情况都是资源不足起不了yarn任务的现象。打开yarn的schedule,查看队列资源,关注以下几个参数:

    Used Resources: 已使用的内存与CPU核数

    Max Resources:队列中最大可供使用的内存与CPU核数

    Used Application Master Resources: 已使用的AM资源

    Max Application Master Resources: 队列中最大可供使用的AM资源

    通过对比基本就能确定是哪个资源不足导致yarn任务执行异常。

解决方案

扩充队列资源,或者停止其他yarn任务释放资源。

Hudi目的端案例库 所有常见问题

more