更新时间:2024-11-29 GMT+08:00
ALM-12014 设备分区丢失
告警解释
系统按60秒周期进行扫描,如果检测到挂载服务目录的设备分区丢失(如由于设备拔出、设备离线、删除分区等原因)时,产生此告警。
告警属性
告警ID |
告警级别 |
告警类型 |
业务类型 |
是否可自动清除 |
---|---|---|---|---|
12014 |
重要 |
物理资源告警 |
FusionInsight Manager |
是(MRS 3.3.0之前版本不支持自动清除) |
告警参数
类别 |
参数名称 |
参数含义 |
---|---|---|
定位信息 |
来源 |
产生告警的集群或系统名称。 |
服务名 |
产生告警的服务名称。 |
|
角色名 |
产生告警的角色名称。 |
|
主机名 |
产生告警的主机名。 |
|
挂载目录名 |
产生告警的挂载目录名。 |
|
设备分区名 |
产生告警的设备分区名。 |
|
附加信息 |
详细信息 |
产生告警的详细信息。 |
磁盘序列号 |
产生告警的设备分区磁盘序列号。 |
对系统的影响
- 数据丢失:设备分区丢失,可能导致客户保存在这个分区上的数据丢失。
- 系统崩溃:如果丢失的是系统盘可能导致客户此节点系统运行异常,严重时导致系统崩溃无法正常开机运行。
- 业务失败:如果丢失的设备分区上会进行组件的业务读写操作,可能会导致业务运行异常,如作业运行失败,作业运行缓慢等。
- 业务延迟:设备分区丢失,客户可能需要花费时间来恢复数据和系统,这可能会导致业务延迟。
- 安全风险:设备分区丢失可能会导致客户的重要数据被盗窃或泄漏,从而对客户的业务产生严重影响。
可能原因
- 硬盘被拔出。
- 硬盘离线、硬盘坏道等故障。
处理步骤
- 打开FusionInsight Manager页面,选择“运维 > 告警 > 告警”,单击此告警所在行的。
- 从“定位信息”中获取“主机名”、“设备分区名”和“挂载目录名”。
- 确认“主机名”节点的“设备分区名”对应的磁盘是否在对应服务器的插槽上。
- 联系硬件工程师将故障磁盘在线拔出。
- 以root用户登录发生告警的“主机名”节点,检查“/etc/fstab”文件中是否包含“挂载目录名”的行。
- 执行vi /etc/fstab命令编辑文件,将包含“挂载目录名”的行删除。
- 联系硬件工程师插入全新磁盘,具体操作请参考对应型号的硬件产品文档,如果原来故障的磁盘是RAID,那么请按照对应RAID卡的配置方法配置RAID。
- 等待20~30分钟后执行mount命令(具体时间依赖磁盘的大小),检查磁盘是否已经挂载在目录“挂载目录名”上。
- 等待2分钟,查看告警是否自动恢复。
- 是,处理完毕。
- 否,执行10。
收集故障信息。
告警清除
MRS 3.3.0及之后版本:此告警修复后,系统会自动清除此告警,无需手工清除。
MRS 3.3.0之前版本:此告警修复后,系统不会自动清除此告警,需手工清除。
参考信息
不涉及。
父主题: 告警参考