文档首页/ MapReduce服务 MRS/ 故障排除/ 集群管理类/ MRS集群更换磁盘(适用于2.x及之前)
更新时间:2024-12-09 GMT+08:00

MRS集群更换磁盘(适用于2.x及之前)

用户问题

磁盘无法访问。

问题现象

客户创建本地盘系列MRS集群,其中1个Core节点的磁盘存在硬件损坏,导致读取文件失败。

原因分析

磁盘硬件故障。

处理步骤

该指导适用于MRS 3.x之前版本分析集群,如需为流式集群或混合集群更换磁盘,请联系华为云技术支持处理。

  1. 登录MRS Manager
  2. 选择“主机管理”并单击需要更换磁盘的主机的“主机名称”,在“角色”列表中单击RegionServer,选择“更多 > 退服”。
  3. 选择“主机管理”并单击需要更换磁盘的主机的“主机名称”,在“角色”列表中单击DataNode,选择“更多 > 退服”。
  4. 选择“主机管理”并单击需要更换磁盘的主机的“主机名称”,在“角色”列表中单击NodeManager,选择“更多 > 退服”。

    该主机下若还有其他实例,请参考该步骤方式进行退服。

  5. 执行vim /etc/fstab命令编辑注释旧磁盘的挂载点。

    图1 注释旧磁盘的挂载点

  6. 如果旧磁盘仍可访问,迁移旧磁盘上(例如:/srv/BigData/hadoop/data1/)的用户自有数据。
  7. 登录MRS管理控制台。
  8. 在集群详情页面,选择“节点管理”。
  9. 单击待更换磁盘的“节点名称”进入弹性云服务器管理控制台,单击“关机”。
  10. 联系华为云支持人员在后台更换磁盘。
  11. 在弹性云服务器管理控制台,单击“开机”,将已更换磁盘的节点开机。
  12. 执行fdisk -l命令,查看新增磁盘。
  13. 使用cat /etc/fstab获取盘符。

    图2 获取盘符

  14. 使用对应的盘符对新磁盘进行格式化。

    例如:mkfs.ext4 /dev/sdh

  15. 执行如下命令挂载新磁盘。

    mount 新磁盘 挂载点

    例如:mount /dev/sdh /srv/BigData/hadoop/data1

  16. 执行如下命令为新磁盘增加omm用户权限。

    chown omm:wheel 挂载点

    例如:chown -R omm:wheel /srv/BigData/hadoop/data1

  17. 在fstab文件中新增新磁盘UUID信息。

    1. 使用blkid命令查看新磁盘的UUID。

    2. 打开“/etc/fstab”文件,新增如下信息:
      UUID=新盘UUID /srv/BigData/hadoop/data1 ext4 defaults,noatime,nodiratime 1 0

  18. (可选)执行如下命令新建日志目录。

    mkdir -p /srv/BigData/Bigdata

    chown omm:ficommon /srv/BigData/Bigdata

    chmod 770 /srv/BigData/Bigdata

    执行如下命令确认Bigdata日志软链接目录是否已存在,若存在则忽略该步骤。

    ll /var/log

  19. 登录MRS Manager
  20. 选择“主机管理”并单击更换了磁盘的主机的“主机名称”,在“角色”列表中单击RegionServer,选择“更多 > 入服”。
  21. 选择“主机管理”并单击更换了磁盘的主机的“主机名称”,在“角色”列表中单击DataNode,选择“更多 > 入服”。
  22. 选择“主机管理”并单击更换了磁盘的主机的“主机名称”,在“角色”列表中单击NodeManager,选择“更多 > 入服”。

    该主机下若还有其他实例,请参考该步骤方式进行入服。

  23. 选择“服务管理 > HDFS”,在“服务状态”页签的“HDFS概述”模块查看“丢失块数”是否为“0”。

    • “丢失块数”是为“0”,则操作完成。
    • “丢失块数”不为“0”,请联系华为云支持人员进行处理。