文档首页/ MapReduce服务 MRS/ 故障排除/ 集群管理类/ MRS集群更换磁盘(适用于3.x)
更新时间:2024-08-27 GMT+08:00

MRS集群更换磁盘(适用于3.x)

用户问题

磁盘无法访问。

问题现象

客户创建本地盘系列MRS集群,其中1个Core节点的磁盘存在硬件损坏,导致读取文件失败。

原因分析

磁盘硬件故障。

处理步骤

该指导适用于本地盘系列(d/i/ir/ki系列)MRS集群,针对Core、Task类型节点的磁盘存在硬件故障。

Kafka组件不支持更换磁盘,如果存储Kafka数据的节点故障,请联系华为云技术支持处理。

  1. 登录FusionInsight Manager
  2. 选择“主机”并单击故障主机的“主机名称”,在“实例”列表中单击DataNode,选择“更多 > 退服”。

    • 该主机下若存在DataNode、NodeManager、RegionServer和ClickHouseServer实例,请参考该步骤进行退服操作;
    • MRS 3.1.2版本之后支持退服ClickHouseServer角色实例。

  3. 选择“主机”并勾选故障主机“主机名称”前的复选框,选择“更多 > 停止所有实例”。
  4. 执行vim /etc/fstab命令编辑注释旧磁盘的挂载点。

    图1 注释旧磁盘的挂载点

  5. 如果旧磁盘仍可访问,迁移旧磁盘上(例如:/srv/BigData/data1/)的用户自有数据。

    cp -r 旧磁盘挂载点 临时数据保存目录

    例如:cp -r /srv/BigData/data1 /tmp/

  6. 登录MRS管理控制台。
  7. 在集群详情页面,选择“节点管理”。
  8. 单击待更换磁盘的“节点名称”进入弹性云服务器管理控制台,单击“关机”。
  9. 联系华为云支持人员在后台更换磁盘。
  10. 在弹性云服务器管理控制台,单击“开机”,将已更换磁盘的节点开机。
  11. 初始化Linux数据盘。

    具体步骤可参见初始化数据盘对新磁盘进行初始化操作。

  12. 执行lsblk命令,查看新增磁盘分区信息。

    图2 查看新增磁盘(分区)

  13. 使用df -TH获取文件系统类型。

    图3 获取文件系统类型

  14. 使用对应的文件系统类型对新磁盘(分区)进行格式化。

    例如:mkfs.ext4 /dev/sdd1

  15. 执行如下命令挂载新磁盘。

    mount 新磁盘 挂载点

    例如:mount /dev/sdd1 /srv/BigData/data1

    如果挂载不上,请执行如下命令重载配置后重新挂载。

    systemctl daemon-reload

  16. 执行如下命令为新磁盘增加omm用户权限。

    chown omm:wheel 挂载点

    例如:chown -R omm:wheel /srv/BigData/data1

  17. 将旧磁盘上(例如:/srv/BigData/data1/)的用户自有数据迁移到新磁盘上。

    cp -r临时数据保存目录 新磁盘挂载点

    例如:cp -r /tmp/data1/* /srv/BigData/data1/

  18. 在fstab文件中新增新磁盘UUID信息。

    1. 使用blkid命令查看新磁盘的UUID。

    2. 打开“/etc/fstab”文件,新增如下信息:
      UUID=新盘UUID /srv/BigData/data1 ext4 defaults,noatime,nodiratime,nodev 1 0

  19. 登录FusionInsight Manager
  20. 选择“主机”并单击需要入服主机的“主机名称”,在“实例”列表中单击DataNode,选择“更多 > 入服”。

    • 该主机下若存在DataNode、NodeManager、RegionServer和ClickHouseServer实例,请参考该步骤进行入服操作;
    • MRS 3.1.2版本之后支持入服ClickHouseServer角色实例。

  21. 选择“主机”,并勾选故障主机“主机名称”前的复选框,选择“更多 > 启动所有实例”。
  22. 选择“集群 > HDFS”,在“概览”页签的“基本信息”模块查看“丢失块数”是否为“0”。

    • “丢失块数”是为“0”,则操作完成。
    • “丢失块数”不为“0”,请联系华为云支持人员进行处理。