文档首页/ MapReduce服务 MRS/ 组件操作指南(LTS版)/ 使用HBase/ HBase故障排除/ 有210000个map和10000个reduce的HBase BulkLoad任务运行失败
更新时间:2024-09-18 GMT+08:00
分享

有210000个map和10000个reduce的HBase BulkLoad任务运行失败

问题

HBase bulkLoad任务(单个表有26T数据)有210000个map和10000个reduce,任务失败。

回答

ZooKeeper IO瓶颈观测手段

  1. 通过Manager的监控页面查看单个节点上ZooKeeper请求监控,判断是否严重超出规格限制。
  2. 通过观测ZooKeeper的日志以及HBase的日志,查看是否有大量的IO Exception Timeout或者SocketTimeout Exception异常。

调优建议:

  1. 将ZooKeeper实例个数调整为5个及以上,可以通过设置peerType=observer来增加observer的数目。
  2. 通过控制单个任务并发的map数或减少每个节点下运行task的内存,降低节点负载。
  3. 升级ZooKeeper数据磁盘,如SSD等。

相关文档