文档首页/
    
      
      MapReduce服务 MRS/
      
      
        
        
        组件操作指南(LTS版)/
        
        
        使用HBase/
        
        
        HBase故障排除/
        
      
      有210000个map和10000个reduce的HBase BulkLoad任务运行失败
    
  
  
    
        更新时间:2024-09-18 GMT+08:00
        
          
          
        
      
      
      
      
      
      
      
      
  
      
      
      
        
有210000个map和10000个reduce的HBase BulkLoad任务运行失败
问题
HBase bulkLoad任务(单个表有26T数据)有210000个map和10000个reduce,任务失败。
回答
ZooKeeper IO瓶颈观测手段:
- 通过Manager的监控页面查看单个节点上ZooKeeper请求监控,判断是否严重超出规格限制。
 - 通过观测ZooKeeper的日志以及HBase的日志,查看是否有大量的IO Exception Timeout或者SocketTimeout Exception异常。
 
调优建议:
- 将ZooKeeper实例个数调整为5个及以上,可以通过设置peerType=observer来增加observer的数目。
 - 通过控制单个任务并发的map数或减少每个节点下运行task的内存,降低节点负载。
 - 升级ZooKeeper数据磁盘,如SSD等。
 
   父主题: HBase故障排除