更新时间:2025-09-10 GMT+08:00
分享

故障管理概述

COC故障管理为用户提供故障快速定界定位和恢复的能力,支持多源告警接入,通过COC将告警聚合,降噪转化为事件/汇聚告警,并通过应用拓扑诊断、WarRoom等方式实现故障快速定界,使用在线化的恢复预案进行快速恢复/自动恢复,缩短MTTR,最后进行复盘改进,持续积累故障管理运维知识库,提升业务抗风险能力。

图1 故障管理流程设计

故障管理功能介绍视频

核心功能特点

  • 集成管理:接入多平台告警源,统一管理原始告警,当前支持华为云CES、AOM、APM、LTS,阿里云监控、阿里云日志服务,Prometheus、Grafana、Zabbix,以及客户自定义的业务监控系统(通过Open API接入)。
  • 流转规则:使用流转规则的前提为已经在集成管理接入部分告警数据源;流转规则的主要功能为通过触发条件、触发规则等一系列配置项,将原始告警清洗转化为COC中的汇聚告警或事件单,且可以为汇聚告警/事件单指派责任人、预设响应预案。
  • 告警管理:展示原始告警和汇聚告警,并支持对汇聚告警进行操作,包含清除、告警转事件、执行预案等。
  • 事件管理:管理事件单全生命周期,包含手动创建事件单,受理/驳回/转发/处理/升降级事件单,拉起WarRoom等操作。
  • WarRoom:适用于发生重大故障、需要快速聚集各角色人员联合定位和解决故障的场景,WarRoom页面集成了受影响应用、相关告警/事件/变更信息,恢复进展通告等,支持执行预案、应用诊断、拉起第三方主流OA软件沟通群等操作。
  • 问题管理:在使用软件产品过程中,发现、记录和解决产品功能缺陷、性能差等问题。
  • 改进管理:在故障处理过程识别到一些产品、运维或管理改进事项,通过在线化改进单形式进行跟踪闭环。
  • 故障诊断:可一键使用的快捷诊断工具,帮助客户自助检测ECS、RDS、DCS、DMS、ELB实例状态,及时发现实例可能存在的问题并对异常指标给出专业修复建议和解决方案。

相关文档