更新时间:2024-11-29 GMT+08:00

ALM-12014 设备分区丢失

告警解释

系统按60秒周期进行扫描,如果检测到挂载服务目录的设备分区丢失(如由于设备拔出、设备离线、删除分区等原因)时,产生此告警。

告警属性

告警ID

告警级别

告警类型

业务类型

是否可自动清除

12014

重要

物理资源告警

FusionInsight Manager

是(MRS 3.3.0之前版本不支持自动清除)

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群或系统名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

挂载目录名

产生告警的挂载目录名。

设备分区名

产生告警的设备分区名。

附加信息

详细信息

产生告警的详细信息。

磁盘序列号

产生告警的设备分区磁盘序列号。

对系统的影响

  • 数据丢失:设备分区丢失,可能导致客户保存在这个分区上的数据丢失。
  • 系统崩溃:如果丢失的是系统盘可能导致客户此节点系统运行异常,严重时导致系统崩溃无法正常开机运行。
  • 业务失败:如果丢失的设备分区上会进行组件的业务读写操作,可能会导致业务运行异常,如作业运行失败,作业运行缓慢等。
  • 业务延迟:设备分区丢失,客户可能需要花费时间来恢复数据和系统,这可能会导致业务延迟。
  • 安全风险:设备分区丢失可能会导致客户的重要数据被盗窃或泄漏,从而对客户的业务产生严重影响。

可能原因

  • 硬盘被拔出。
  • 硬盘离线、硬盘坏道等故障。

处理步骤

  1. 打开FusionInsight Manager页面,选择“运维 > 告警 > 告警”,单击此告警所在行的
  2. 从“定位信息”中获取“主机名”、“设备分区名”和“挂载目录名”。
  3. 确认“主机名”节点的“设备分区名”对应的磁盘是否在对应服务器的插槽上。

    • 是,执行4
    • 否,执行5

  4. 联系硬件工程师将故障磁盘在线拔出。
  5. root用户登录发生告警的“主机名”节点,检查“/etc/fstab”文件中是否包含“挂载目录名”的行

    • 是,执行6
    • 否,执行7

  6. 执行vi /etc/fstab命令编辑文件,将包含“挂载目录名”的行删除。
  7. 联系硬件工程师插入全新磁盘,具体操作请参考对应型号的硬件产品文档,如果原来故障的磁盘是RAID,那么请按照对应RAID卡的配置方法配置RAID。
  8. 等待20~30分钟后执行mount命令(具体时间依赖磁盘的大小),检查磁盘是否已经挂载在目录“挂载目录名”上。

    • 是,针对MRS 3.3.0及之后版本集群,执行9。MRS 3.3.0之前版本集群请手动清除告警,操作结束。
    • 否,执行10

  9. 等待2分钟,查看告警是否自动恢复。

    • 是,处理完毕。
    • 否,执行10

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选“OmmServer”,单击“确定”。
  3. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

MRS 3.3.0及之后版本:此告警修复后,系统会自动清除此告警,无需手工清除。

MRS 3.3.0之前版本:此告警修复后,系统不会自动清除此告警,需手工清除。

参考信息

不涉及。