文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-12014 设备分区丢失(2.x及以前版本)
更新时间:2024-08-13 GMT+08:00
分享

ALM-12014 设备分区丢失(2.x及以前版本)

告警解释

系统周期性进行扫描,如果检测到挂载服务目录的设备分区丢失(如由于设备拔出、设备离线、删除分区等原因)时,产生此告警。

告警属性

告警ID

告警级别

可自动清除

12014

严重

  • 是:MRS 1.9.3.10及之后补丁版本
  • 否:其他MRS 2.x及之前版本

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

DirName

产生告警的挂载目录名。

PartitionName

产生告警的设备分区名。

对系统的影响

造成服务数据无法写入,业务系统运行不正常。

可能原因

  • 硬盘被拔出。
  • 硬盘离线、硬盘坏道等故障。

处理步骤

  1. 登录MRS集群详情页面,选择“告警管理”。
  2. 在实时告警列表中,单击此告警所在行。
  3. 在“告警详情”区域,从“定位信息”中获取“HostName”、“PartitionName”和“DirName”。
  4. 确认“HostName”节点的“PartitionName”对应的磁盘是否在对应服务器的插槽上。

    • 是,执行5
    • 否,执行6

  5. 联系硬件工程师将故障磁盘在线拔出。
  6. 使用PuTTY工具登录发生告警的“HostName”节点,检查“/etc/fstab”文件中是否包含“DirName”的行。

    • 是,执行7
    • 否,执行8

  7. 执行vi /etc/fstab命令编辑文件,将包含“DirName”的行删除。
  8. 联系硬件工程师插入全新磁盘,具体操作请参考对应型号的硬件产品文档,如果原来故障的磁盘是RAID,那么请按照对应RAID卡的配置方法配置RAID。
  9. 等待20~30分钟后执行mount命令(具体时间依赖磁盘的大小),检查磁盘是否已经挂载在目录“DirName”上。

    • 是,针对MRS 1.9.3.10及之后补丁版本集群,执行10。其他版本请手动清除告警,操作结束。
    • 否,执行11

  10. 等待2分钟,查看告警是否自动恢复。

    • 是,处理完毕。
    • 否,执行11

  11. 收集故障信息。

    1. 在MRS Manager界面,单击“系统设置 > 日志导出”。
    2. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

MRS 1.9.3.10及之后补丁版本:此告警修复后,系统会自动清除此告警,无需手工清除。

其他2.x及之前版本:此告警修复后,系统不会自动清除此告警,需手工清除。

参考信息

无。

相关文档