更新时间:2024-10-24 GMT+08:00

ALM-12014 设备分区丢失

告警解释

系统按60秒周期进行扫描,如果检测到挂载服务目录的设备分区丢失(如由于设备拔出、设备离线、删除分区等原因)时,产生此告警。

告警属性

告警ID

告警级别

是否自动清除

12014

重要

  • 是:MRS 3.3.0及之后版本、MRS 3.1.0.0.10/3.1.5.0.3及之后补丁版本
  • 否:MRS 3.3.0之前版本

告警参数

参数名称

参数含义

来源

产生告警的集群或系统名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

挂载目录名

产生告警的挂载目录名。

设备分区名

产生告警的设备分区名。

对系统的影响

  • 数据丢失:设备分区丢失,可能导致客户保存在这个分区上的数据丢失。
  • 系统崩溃:如果丢失的是系统盘可能导致客户此节点系统运行异常,严重时导致系统崩溃无法正常开机运行。
  • 业务失败:如果丢失的设备分区上会进行组件的业务读写操作,可能会导致业务运行异常,如作业运行失败,作业运行缓慢等。
  • 业务延迟:设备分区丢失,客户可能需要花费时间来恢复数据和系统,这可能会导致业务延迟。
  • 安全风险:设备分区丢失可能会导致客户的重要数据被盗窃或泄漏,从而对客户的业务产生严重影响。

可能原因

  • 硬盘被拔出。
  • 硬盘离线、硬盘坏道等故障。

处理步骤

  1. 打开FusionInsight Manager页面,选择“运维 > 告警 > 告警”,单击此告警所在行的
  2. 从“定位信息”中获取“主机名”、“设备分区名”和“挂载目录名”。
  3. 确认“主机名”节点的“设备分区名”对应的磁盘是否在对应服务器的插槽上。

    • 是,执行4
    • 否,执行5

  4. 联系硬件工程师将故障磁盘在线拔出。
  5. root用户登录发生告警的“主机名”节点,检查“/etc/fstab”文件中是否包含“挂载目录名”的行

    • 是,执行6
    • 否,执行7

  6. 执行vi /etc/fstab命令编辑文件,将包含“挂载目录名”的行删除。
  7. 联系硬件工程师插入全新磁盘,具体操作请参考对应型号的硬件产品文档,如果原来故障的磁盘是RAID,那么请按照对应RAID卡的配置方法配置RAID。
  8. 等待20~30分钟后执行mount命令(具体时间依赖磁盘的大小),检查磁盘是否已经挂载在目录“挂载目录名”上。

    • 是,针对MRS 3.3.0及之后版本、MRS 3.1.0.0.10/3.1.5.0.3及之后补丁版本集群,执行9。MRS 3.3.0之前版本集群请手动清除告警,操作结束。
    • 否,执行10

  9. 等待2分钟,查看告警是否自动恢复。

    • 是,处理完毕。
    • 否,执行10

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选“OmmServer”,单击“确定”。
  3. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

MRS 3.3.0及之后版本、MRS 3.1.0.0.10/3.1.5.0.3及之后补丁版本:此告警修复后,系统会自动清除此告警,无需手工清除。

MRS 3.3.0之前版本:此告警修复后,系统不会自动清除此告警,需手工清除。

参考信息

无。