文档首页/ MapReduce服务 MRS/ 用户指南(巴黎区域)/ 故障排除/ 使用HDFS/ DataNode概率性出现CPU占用接近100%,导致节点丢失(ssh连得很慢或者连不上)
更新时间:2024-10-11 GMT+08:00

DataNode概率性出现CPU占用接近100%,导致节点丢失(ssh连得很慢或者连不上)

问题背景与现象

DataNode概率性出现CPU占用接近100%,导致节点丢失。

图1 DataNode出现CPU占用接近100%

原因分析

  1. DataNode有许多写失败的日志。
    图2 DataNode写失败的日志
  2. 短时间内写入大量文件导致这种情况,因此DataNode内存不足。
    图3 写入大量文件导致DataNode内存不足

解决办法

  1. 检查DataNode内存配置,以及机器剩余内存是否充足。
  2. 增加DataNode内存,并重启DataNode。