文档首页/
MapReduce服务 MRS/
组件操作指南(普通版)/
使用HBase/
HBase故障排除/
有210000个map和10000个reduce的HBase BulkLoad任务运行失败
更新时间:2024-07-24 GMT+08:00
有210000个map和10000个reduce的HBase BulkLoad任务运行失败
问题
MRS 3.x及之后版本HBase bulkLoad任务(单个表有26T数据)有210000个map和10000个reduce,任务失败。
回答
ZooKeeper IO瓶颈观测手段:
- 通过Manager的监控页面查看单个节点上ZooKeeper请求监控,判断是否严重超出规格限制。
- 通过观测ZooKeeper的日志以及HBase的日志,查看是否有大量的IO Exception Timeout或者SocketTimeout Exception异常。
调优建议:
- 将ZooKeeper实例个数调整为5个及以上,可以通过设置peerType=observer来增加observer的数目。
- 通过控制单个任务并发的map数或减少每个节点下运行task的内存,降低节点负载。
- 升级ZooKeeper数据磁盘,如SSD等。
父主题: HBase故障排除