标准化故障管理
实践场景
某智能客服运维人员在处理事件/告警时,事件处理闭环低效,无标准化事故处理流程、无明确故障恢复协同作战阵型、无应急响应预案。同类型故障场景重复出现,无运维经验沉淀,确定性故障场景无法自动恢复。存在多种级别的告警,处理告警缺乏规范性流程且处理效率较低。需要建立标准化的事件流程,实现规范性处理。
解决方案
端到端事件流程:明确标准化事件处理流程,通过WarRoom实现多运维兵种协同作战,通过响应预案提升事件处理效率。

COC通过设置流转规则,将原始告警清洗为事件单或告警单,帮助用户进行统一的告警管理。当原始告警命中流转规则时,创建事件/告警,并根据排班管理通知对应责任人。责任人可对告警进行处理或转事件,定位恢复后,清除告警。对于无法清除的告警,可以转事件进行升级或启动WarRoom处理。形成规范性告警处理流程,避免告警处理异常。
标准化事件处理流程包含以下步骤:
步骤一:集成管理接入原始告警数据
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > 集成管理”,进入“集成管理”页面。
- 在集成管理配置页面根据业务需要选择要接入的接入源,本示例选择云监控服务,单击“接入集成”,进入接入集成页面。
- 单击右下角“确认集成”按钮,确认接入云监控服务。
确认后云监控服务会从“待集成”移至“已集成”。图2 确认集成
- 按照页面集成接入步骤,完成告警接入配置。
步骤二:创建流转规则,清洗原始告警数据
- 在左侧导航栏选择“故障管理 > 流转规则”,进入“流转规则”页面。
- 在流转规则列表上方,单击“创建规则”进入“创建流转规则”页面。
- 根据页面提示,输入规则名称、应用名称等基本信息。
- 设置触发规则。
- 在分派规则模块,选择责任人,本示例选择“排班”。
按照已配置的排班场景和角色在下拉列表选择,配置排班详细操作请参考排班管理。图5 分派规则
- 单击下方的“确定”,完成流转规则的创建。
步骤四:集成告警处理
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > 告警管理”,进入“告警管理”页面。
- 选择“汇聚告警”页签,在当前告警列表中,选择需要处理的告警。
- 单击操作列“更多 > 处理”,进入告警自动处理页面,选择已有的脚本、作业,并选择目标实例进行自动化处理。
图8 告警自动处理
- 单击“转事件”,右侧弹出告警转事件页面。
- 事件级别选择P3,其他字段保持默认值,单击“确定”,即可进行告警转事件。
同时会根据通知规则对责任人进行通知。
步骤五:处理告警转事件
- 在左侧导航栏选择“故障管理 > 告警管理”。
- 选择“汇聚告警 > 当前告警”页签,单击事件单号进入“事件详情”页面。
图9 单击事件单号
- 单击“受理”,即可受理此事件。
- 若评估业务影响较大,可进行事件级别升级处理,单击“升降级”,进入升降级页面。
- 选择需调整的事件级别并填写升降级信息后,单击“确定”,完成事件单升级。
图10 填写升降级信息
- 为快速恢复业务正常运行,可单击右上方“启动warroom”。
- 填写warroom信息。本示例中仅解释必要参数,其余配置可保留默认值。
表2 启动WarRoom参数说明 参数
说明
WarRoom名称
默认为事件单名称。
WarRoom描述
对WarRoom进行描述。
WarRoom管理员
在下拉列表选择用户作为WarRoom管理员。
排班
按照已配置的排班场景和角色在下拉列表选择。配置排班详细操作请参考排班管理。
参与者
在下拉列表选择参与用户,可以选择多个用户。
- 单击“确定”,完成WarRoom启动。
通过WarRoom添加故障恢复成员、通过发送故障进展及时知会关注故障的人员、通过应用诊断、响应预案等辅助应用快速恢复。更多操作请参考WarRoom。
- 故障处理完成后,在事件详情页面单击右上方“事件处理”。
- 参考表3填写事件处理详情信息。
- 单击“确定”,完成事件处理详情填写。
此时事件单状态变成“已解决待验证”。
- 单击右上方“验证关闭”。
- 在弹框中填写验证结论及说明后,单击“确定”,关闭事件单。
图11 填写验证信息