文档首页/ 云运维中心 COC/ 最佳实践/ 标准化故障管理
更新时间:2025-09-09 GMT+08:00
分享

标准化故障管理

实践场景

某智能客服运维人员在处理事件/告警时,事件处理闭环低效,无标准化事故处理流程、无明确故障恢复协同作战阵型、无应急响应预案。同类型故障场景重复出现,无运维经验沉淀,确定性故障场景无法自动恢复。存在多种级别的告警,处理告警缺乏规范性流程且处理效率较低。需要建立标准化的事件流程,实现规范性处理。

解决方案

端到端事件流程:明确标准化事件处理流程,通过WarRoom实现多运维兵种协同作战,通过响应预案提升事件处理效率。

图1 标准化故障管理

COC通过设置流转规则,将原始告警清洗为事件单或告警单,帮助用户进行统一的告警管理。当原始告警命中流转规则时,创建事件/告警,并根据排班管理通知对应责任人。责任人可对告警进行处理或转事件,定位恢复后,清除告警。对于无法清除的告警,可以转事件进行升级或启动WarRoom处理。形成规范性告警处理流程,避免告警处理异常。

标准化事件处理流程包含以下步骤:

  1. 集成管理接入原始告警数据
  2. 创建流转规则,清洗原始告警数据
  3. 在通知管理中,根据通知场景配置通知模板,选择通知对象以及通知方式
  4. 集成告警中对告警进行处理或转事件处理
  5. 事件中心处理转事件的告警,可进行转发、升降级、启动WarRoom处理

前提条件

步骤一:集成管理接入原始告警数据

  1. 登录云运维中心
  2. 在左侧导航栏选择“故障管理 > 集成管理”,进入“集成管理”页面。
  3. 集成管理配置页面根据业务需要选择要接入的接入源,本示例选择云监控服务,单击“接入集成”,进入接入集成页面
  4. 单击右下角“确认集成”按钮,确认接入云监控服务
    确认后云监控服务会从“待集成”移至“已集成”。
    图2 确认集成
  5. 按照页面集成接入步骤,完成告警接入配置。
    配置完成后,系统将会接收源数据。
    图3 集成接入步骤

步骤二:创建流转规则,清洗原始告警数据

  1. 在左侧导航栏选择“故障管理 > 流转规则”,进入“流转规则”页面。
  2. 在流转规则列表上方,单击“创建规则”进入“创建流转规则”页面。
  3. 根据页面提示,输入规则名称、应用名称等基本信息。
  4. 设置触发规则。
    本示例中仅解释必要参数,其余配置可保留默认值。
    • 触发类型选择“告警”
    • 数据源选择“云监控服务”
    • 触发条件根据业务需求设置,例如,application;
    • 告警级别选择“次要”
    图4 触发规则
  5. 在分派规则模块,选择责任人,本示例选择“排班”
    按照已配置的排班场景和角色在下拉列表选择,配置排班详细操作请参考排班管理
    图5 分派规则
  6. 单击下方的“确定”,完成流转规则的创建。

步骤三:通知管理配置通知场景、通知对象、通知方式

  1. 在左侧导航栏选择“基础配置 > 通知管理”,进入通知管理页面。
  2. 在通知管理页面,单击“创建通知”。
    图6 创建通知
  3. 在“创建通知”弹框中填写创建通知的配置信息,填写完成后单击“确定”。创建通知的名词解释参考表1

    本示例中仅解释必要参数,其余配置可保留默认值。关于配置参数的详细说明请参见通知管理

    表1 创建通知参数说明

    参数

    示例

    通知名称

    自定义通知的名称,例如,告警转事件处理。

    通知类型

    选择“事件通知”。

    通知模板

    选择“事件创建”。

    通知对象

    勾选“工单责任人”,勾选后会通知工单的当前责任人。

    通知方式

    选择“邮件”。

步骤四:集成告警处理

  1. 登录云运维中心
  2. 在左侧导航栏选择“故障管理 > 告警管理”,进入“告警管理”页面。
  3. 选择“汇聚告警”页签,在当前告警列表中,选择需要处理的告警。
    可进行告警清除、转事件、处理、查看历史记录操作。
    图7 汇聚告警列表
  4. 单击操作列“更多 > 处理”,进入告警自动处理页面,选择已有的脚本、作业,并选择目标实例进行自动化处理。
    图8 告警自动处理
  5. 单击“转事件”,右侧弹出告警转事件页面。
  6. 事件级别选择P3,其他字段保持默认值,单击“确定”,即可进行告警转事件。

    同时会根据通知规则对责任人进行通知。

步骤五:处理告警转事件

  1. 在左侧导航栏选择“故障管理 > 告警管理”。
  2. 选择“汇聚告警 > 当前告警”页签,单击事件单号进入“事件详情”页面。
    图9 单击事件单号
  3. 单击“受理”,即可受理此事件。
  4. 若评估业务影响较大,可进行事件级别升级处理,单击“升降级”,进入升降级页面。
  5. 选择需调整的事件级别并填写升降级信息后,单击“确定”,完成事件单升级。
    图10 填写升降级信息
  6. 为快速恢复业务正常运行,可单击右上方“启动warroom”。
  7. 填写warroom信息。本示例中仅解释必要参数,其余配置可保留默认值。
    表2 启动WarRoom参数说明

    参数

    说明

    WarRoom名称

    默认为事件单名称。

    WarRoom描述

    对WarRoom进行描述。

    WarRoom管理员

    在下拉列表选择用户作为WarRoom管理员。

    排班

    按照已配置的排班场景和角色在下拉列表选择。配置排班详细操作请参考排班管理

    参与者

    在下拉列表选择参与用户,可以选择多个用户。

  8. 单击“确定”,完成WarRoom启动。

    通过WarRoom添加故障恢复成员、通过发送故障进展及时知会关注故障的人员、通过应用诊断、响应预案等辅助应用快速恢复。更多操作请参考WarRoom

  9. 故障处理完成后,在事件详情页面单击右上方“事件处理”。
  10. 参考表3填写事件处理详情信息。
    表3 事件处理参数说明

    参数

    说明

    事件类别

    必填项,在下拉列表选择事件的类别。

    业务是否中断

    必填项,可选项“是”、“否”。

    故障发生时间

    请填写故障发生时间。

    “业务是否中断”选择“是”时为必填项。

    定界完成时间

    请填写问题/故障定位完成时间。

    故障恢复时间

    请填写故障恢复时间。

    “业务是否中断”选择“是”时为必填项。

    出现原因

    必填项,请填写事件产生原因。

    解决方案

    必填项,请填写事件解决方案。

    添加文件

    单击“添加文件”上传事件相关附件。

    支持最多上传10个文件,支持文件类型:jpg、png、docx、txt、pdf,上传文件不能超过10MB。

  11. 单击“确定”,完成事件处理详情填写。

    此时事件单状态变成“已解决待验证”。

  12. 单击右上方“验证关闭”。
  13. 在弹框中填写验证结论及说明后,单击“确定”,关闭事件单。
    图11 填写验证信息

相关文档