更新时间:2024-07-16 GMT+08:00
RES12-04 出现问题后尽快恢复业务
应用系统出现故障后,需要能尽快发现,尽快响应。
- 风险等级
高
- 关键策略
可以通过以下途径实现故障的快速发现:
- 监控:应用系统需要提供业务监控信息,以便实时了解系统运行状态;维护团队需要有专人观测,并在发现故障发生时,需要及时响应。
- 告警:应用系统在检测到故障后需要及时告警,并能通过短消息、邮件等方式发送给所有相关人员,确保使相关人第一时间得知故障信息,以便快速组织应急响应。
- 预测:维护团队需要根据系统运行现状,通过数据分析、机器学习等方式,预测系统的风险情况,提前进行预防和处理。
在进行应急恢复处理时,通常需要尽快缓解或恢复业务,快速结束业务中断对客户的影响,然后再启动问题定位和修复处理流程,以减少业务中断时间。
- 组织协调:故障发生后,应急恢复主席需要迅速组织相关人员快速恢复业务。
- 应急恢复处理:系统发生故障后需要快速问题分析并按照事先制定的应急预案进行恢复处理。
父主题: RES12 应急恢复处理