文档首页>
数据湖探索 DLI>
常见问题>
跨源连接相关问题>
跨源连接运维报错>
通过跨源表向CloudTable Hbase表导入数据,executor报错:RegionTooBusyException
更新时间:2022-11-09 GMT+08:00
通过跨源表向CloudTable Hbase表导入数据,executor报错:RegionTooBusyException
问题现象
客户通过DLI跨源表向CloudTable Hbase导入数据,原始数据:HBASE表,一个列簇,一个rowkey运行一个亿的模拟数据,数据量为9.76GB。导入1000W条数据后作业失败。
原因分析
- 查看driver错误日志。
- 查看executor错误日志。
- 查看task错误日志。
结论:rowkey过于集中,出现了热点region。
处理步骤
- Hbase做预分区。
- 把rowkey散列化。
建议与总结
建议DLI在写入数据时也将数据离散化,避免大量数据写入同一个regionServer,同时,在insert语句后增加distribute by rand()。
父主题: 跨源连接运维报错
跨源连接运维报错 所有常见问题
- 新建跨源连接,显示已激活,但使用时报communication link failure错误
- 跨源访问MRS HBase,连接超时,日志未打印错误
- DLI跨源连接报错找不到子网
- 跨源RDS表,执行insert overwrite报Incorrect string value错误
- 创建RDS跨源表报空指针错误
- 对跨源DWS表执行insert overwrite操作,报错:org.postgresql.util.PSQLException: ERROR: tuple concurrently updated
- 通过跨源表向CloudTable Hbase表导入数据,executor报错:RegionTooBusyException
- 通过DLI跨源写DWS表,非空字段出现空值异常
- 更新跨源目的端源表后,未同时更新对应跨源表,导致insert作业失败
more