MRS集群更换磁盘(适用于3.x)
用户问题
磁盘无法访问。
问题现象
客户创建本地盘系列MRS集群,其中1个Core节点的磁盘存在硬件损坏,导致读取文件失败。
原因分析
磁盘硬件故障。
处理步骤
该指导适用于本地盘系列(d/i/ir/ki系列)MRS集群,针对Core、Task类型节点的磁盘存在硬件故障。
Kafka组件不支持更换磁盘,如果存储Kafka数据的节点故障,请联系华为云技术支持处理。
- 登录FusionInsight Manager。
- 选择“主机”并单击故障主机的“主机名称”,在“实例”列表中单击DataNode,选择“更多 > 退服”。
- 该主机下若存在DataNode、NodeManager、RegionServer和ClickHouseServer实例,请参考该步骤进行退服操作;
- MRS 3.1.2版本之后支持退服ClickHouseServer角色实例。
- 选择“主机”并勾选故障主机“主机名称”前的复选框,选择“更多 > 停止所有实例”。
- 执行vim /etc/fstab命令编辑注释旧磁盘的挂载点。
图1 注释旧磁盘的挂载点
- 如果旧磁盘仍可访问,迁移旧磁盘上(例如:/srv/BigData/data1/)的用户自有数据。
cp -r 旧磁盘挂载点 临时数据保存目录
例如:cp -r /srv/BigData/data1 /tmp/
- 登录MRS管理控制台。
- 在集群详情页面,选择“节点管理”。
- 单击待更换磁盘的“节点名称”进入弹性云服务器管理控制台,单击“关机”。
- 联系华为云支持人员在后台更换磁盘。
- 在弹性云服务器管理控制台,单击“开机”,将已更换磁盘的节点开机。
- 初始化Linux数据盘。
具体步骤可参见初始化数据盘对新磁盘进行初始化操作。
- 执行lsblk命令,查看新增磁盘分区信息。
图2 查看新增磁盘(分区)
- 使用df -TH获取文件系统类型。
图3 获取文件系统类型
- 使用对应的文件系统类型对新磁盘(分区)进行格式化。
例如:mkfs.ext4 /dev/sdd1
- 执行如下命令挂载新磁盘。
mount 新磁盘 挂载点
例如:mount /dev/sdd1 /srv/BigData/data1
如果挂载不上,请执行如下命令重载配置后重新挂载。
systemctl daemon-reload
- 执行如下命令为新磁盘增加omm用户权限。
chown omm:wheel 挂载点
例如:chown -R omm:wheel /srv/BigData/data1
- 将旧磁盘上(例如:/srv/BigData/data1/)的用户自有数据迁移到新磁盘上。
cp -r临时数据保存目录 新磁盘挂载点
例如:cp -r /tmp/data1/* /srv/BigData/data1/
- 在fstab文件中新增新磁盘UUID信息。
- 使用blkid命令查看新磁盘的UUID。
- 打开“/etc/fstab”文件,新增如下信息:
UUID=新盘UUID /srv/BigData/data1 ext4 defaults,noatime,nodiratime,nodev 1 0
- 使用blkid命令查看新磁盘的UUID。
- 登录FusionInsight Manager。
- 选择“主机”并单击需要入服主机的“主机名称”,在“实例”列表中单击DataNode,选择“更多 > 入服”。
- 该主机下若存在DataNode、NodeManager、RegionServer和ClickHouseServer实例,请参考该步骤进行入服操作;
- MRS 3.1.2版本之后支持入服ClickHouseServer角色实例。
- 选择“主机”,并勾选故障主机“主机名称”前的复选框,选择“更多 > 启动所有实例”。
- 选择“集群 > HDFS”,在“概览”页签的“基本信息”模块查看“丢失块数”是否为“0”。
- “丢失块数”是为“0”,则操作完成。
- “丢失块数”不为“0”,请联系华为云支持人员进行处理。