文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-12035 恢复任务失败后数据状态未知
更新时间:2024-08-13 GMT+08:00
分享

ALM-12035 恢复任务失败后数据状态未知

告警解释

执行恢复任务失败后,系统按60分钟周期自动回滚,如果回滚失败,可能会导致数据丢失等问题,如果该情况出现,则上报告警,如果下一次该任务恢复成功,则恢复告警。

告警属性

告警ID

告警级别

是否自动清除

12035

紧急

告警参数

参数名称

参数含义

来源

产生告警的集群或系统名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

任务名

任务名称。

对系统的影响

执行恢复任务失败后,系统会自动回滚,如果回滚失败,可能会导致数据丢失,数据状态未知等问题,有可能会影响业务功能。

可能原因

该告警产生原因可能是执行恢复任务前组件状态不满足要求或执行恢复任务中某个步骤出错,执行恢复任务中出错依赖于该任务的详细情况,可以获取日志和任务详情来处理该告警。

处理步骤

查看组件状态

  1. 在FusionInsight Manager管理界面,选择“集群 > 待操作集群的名称 > 服务”,查看组件当前的运行状态是否满足要求(OMS、DBService要求状态正常,其他组件要求停止服务):

    • 是,执行9
    • 否,执行2

  2. 恢复组件状态至要求状态,再一次启动该恢复任务。
  3. 登录FusionInsight Manager管理界面,选择“运维 > 告警 > 告警”。
  4. 在告警列表中单击该告警所在行的,从“定位信息”处获得任务名。
  5. 选择“运维 > 备份恢复 > 恢复管理”。
  6. 根据“任务名”查找对应恢复任务,查看恢复任务的详细信息。
  7. 启动该恢复任务,查看恢复任务是否执行成功。

    • 是,执行8
    • 否,执行9

  8. 等待2分钟,检查告警是否消除。

    • 是,结束操作。
    • 否,执行9

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选“Controller”,单击“确定”。
  3. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

无。

相关文档