更新时间:2024-10-24 GMT+08:00

ALM-12034 周期备份任务失败

告警解释

系统每60分钟执行周期备份任务,如果周期备份任务执行失败,则上报该告警,如果下次备份执行成功,则恢复告警。

告警属性

告警ID

告警级别

是否自动清除

12034

重要

告警参数

参数名称

参数含义

来源

产生告警的集群或系统名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

任务名

任务名称。

对系统的影响

周期备份任务失败,会导致在备份失败的时间段内没有可用的备份包。在系统出现异常需要使用备份包恢复数据时,没有失败时间段的备份包,导致失败时间段数据无法恢复。

可能原因

该告警产生原因依赖于该任务的详细情况,直接获取日志和任务详情来处理该告警。

处理步骤

查看磁盘空间是否不足。

  1. 在FusionInsight Manager管理界面,选择“运维 > 告警 > 告警”。
  2. 在告警列表中单击该告警的,从“定位信息”处获得“任务名”。
  3. root用户登录集群主节点,查看“/var/log/Bigdata/controller/backup/”下的备份恢复日志。

    cd /var/log/Bigdata/controller/backup/

    vi 日志名称

    查看日志中是否打印类似如下信息。

    Upload backup files to *** file failed, error info: ***
    • 是,执行4
    • 否,执行7

  4. 在FusionInsight Manager管理界面,选择“运维 >备份恢复 > 备份管理”。根据“任务名”查找对应备份任务,单击“操作”列的“配置”,检查配置项是否都配置正确。

    • 是,执行7
    • 否,修改配置后保存,执行5

  5. 选择“更多 > 即时备份”启动该备份任务,查看备份任务是否执行成功。

    • 是,执行6
    • 否,执行7

  6. 等待2分钟,检查告警是否消除。

    • 是,结束操作。
    • 否,执行7

  7. 选择“更多 > 查询历史”,查看备份任务的详细信息。

    图1 查询历史

  8. 在弹出的日志详情窗口中,单击,查看是否有“Failed to backup xx due to insufficient disk space, move the data in the /srv/BigData/LocalBackup directory to other directories.”的信息。

    • 是,执行9
    • 否,执行16

  9. 单击“备份路径”下的“查看”,获取备份路径。
  10. root用户登录节点,执行以下命令查看节点挂载详情

    df -h

  11. 在挂载详情中查看备份路径挂载点的剩余空间是否小于20GB。

    • 是,执行12
    • 否,执行16

  12. 查看备份目录下是否有很多备份包。

    • 是,执行13
    • 否,执行16

  13. 将备份包移出备份目录,或者直接删除备份包,直到备份目录挂载节点剩余空间大于20GB。
  14. 再一次启动该备份任务,查看备份任务是否执行成功。

    • 是,执行15
    • 否,执行16

  15. 等待2分钟,检查告警是否消除。

    • 是,结束操作。
    • 否,执行16

收集故障信息

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选“Controller”,单击“确定”。
  3. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

无。