标准化故障管理
实践场景
某智能客服运维人员在处理事件/告警时,事件处理闭环低效,无标准化事故处理流程、无明确故障恢复协同作战阵型、无应急响应预案。同类型故障场景重复出现,无运维经验沉淀,确定性故障场景无法自动恢复。存在多种级别的告警,处理告警缺乏规范性流程且处理效率较低。需要建立标准化的事件流程,实现规范性处理。
解决方案
端到端事件流程:明确标准化事件处理流程,通过WarRoom实现多运维兵种协同作战,通过响应预案提升事件处理效率。
COC通过设置流转规则,将原始告警清洗为事件单或告警单,帮助用户进行统一的告警管理。当原始告警命中流转规则时,创建事件/告警,并根据排班管理通知对应责任人。责任人可对告警进行处理或转事件,定位恢复后,清除告警。对于无法清除的告警,可以转事件进行升级或启动WarRoom处理。形成规范性告警处理流程,避免告警处理异常。
标准化事件处理流程包含以下步骤:
- 集成管理接入原始告警数据;
- 配置流转规则,对告警进行清洗处理;
- 在通知管理中,根据通知场景配置通知模板,选择通知对象以及通知方式;
- 集成告警中对告警进行处理或转事件处理;
- 事件中心处理转事件的告警,可进行转发、升降级、启动WarRoom处理。
步骤一:集成管理接入原始告警数据
- 登录COC。
- 在左侧导航栏选择“故障管理 > 集成管理”,进入“集成管理”页面。
- 在集成管理配置页面根据业务需要选择要接入的接入源,(当前支持CES、AOM、APM、LTS、Prometheus、自建监控等),单击“接入集成”进入新增集成页面。
图2 接入集成
- 在接入集成页面,按照集成接入步骤,完成告警接入配置。
图3 集成接入步骤
- 完成告警接入配置,单击“确认集成”。
图4 确认集成
步骤二:创建流转规则,清洗原始告警数据
- 登录COC。
- 在左侧导航栏选择“故障管理 > 流转规则”,进入“流转规则”页面。
- 在流转规则列表上方,单击“新增规则”进入“创建流转规则”页面。
图5 新增流转规则
- 根据页面提示,输入规则名称、应用名称等基本信息。
- 在触发规则部分,选择触发类型,触发规则的数据源下拉选择监控源,并根据相应的监控源的字段的键,配置相应的条件及满足条件的值。
图6 触发规则
- 可在流转规则中配置对应事件或告警的响应预案,可选择已有的脚本和作业作为预案。
图7 响应预案
- 在分派规则部分,选择分派的对象,最后单击下方的“提交”,完成流转规则的创建。
图8 分派规则
步骤三:通知管理配置通知场景、通知对象、通知方式
- 登录COC。
- 在左侧导航栏选择“基础配置 > 通知管理”页面,单击“创建通知”。
图9 创建通知
- 在“创建通知”弹框中填写创建通知的配置信息,填写完成后单击“确定”。创建通知的名词解释参考表1。
图10 保存通知
表1 通知名词解释 名词
是否必填
单选/多选
说明
通知名称
是
/
通知实例的通知名称,列表可根据通知名称进行模糊搜索。
通知类型
是
单选
事件通知 通知的第一层分类,按照应用类型进行分类。
通知模板
是
可多选
通知的内容模板,由系统内置,不同通知类型关联出的模板列表不同,选择某一个模板后,鼠标悬浮会显示。
通知范围
是
可多选
选择某一个服务,举例:当选择A服务时,事件单中出现的也是A服务时,不考虑其他匹配规则的情况下,该订阅实例生效,会根据该订阅实例发送通知。
通知对象
是
排班下场景单选,场景下角色可多选;个人可多选
该处为设置需要通知的对象。设置为排班时,通知模块会自动获取当前排班下人的列表,给对应的人发送通知;设置为个人时,直接会给对应的人发送通知。
通知规则
/
/
举例:如A规则设置了a值,若事件单中A规则对应的是a值,不考虑其他匹配规则的情况下,该订阅实例生效,会根据该订阅实例发送通知;相反,若事件单中A规则对应的是b值,该订阅实例不生效,则不会根据该订阅实例发送通知。
通知规则-级别
否
可多选
选择事件单的等级,分别为 P1-P5共五个级别(事件单级别解释参考事件级别)。
通知规则-事件类别
否
可多选
选择事件单的类别,有多个值供选择。
通知规则-来源
否
可多选
选择事件单的来源,人工创建为在事件单中心创建事件单,流转创建为流转过程中产生的事件单。
通知规则-区域
否
可多选
选择事件单的区域,多个区域可选。
通知方式
是
可多选
选择通知的渠道。
步骤四:集成告警处理
- 登录COC。
- 在左侧导航栏选择“故障管理 > 告警管理”,进入“告警管理”页面。
- 在“告警管理”页面的“汇聚告警 > 当前告警”页签列表中,对要处理的告警进行清除、转事件、处理、查看历史记录操作。
图11 汇聚告警列表
- 在告警自动处理页面,可选择已有的脚本、作业,并选择目标实例进行自动化处理。
图12 告警自动处理
- 单击“转事件”,填写应用、事件级别、责任人等字段,单击“提交”,即可进行告警转事件。并会根据通知规则对责任人进行通知。
图13 告警转事件
- 单击“清除”,即可对当前告警进行恢复,通知告警进入历史告警列表。
图14 清除告警
步骤五:处理告警转事件
- 登录COC。
- 在左侧导航栏选择“故障管理 > 告警管理”,选择“汇聚告警 > 当前告警”页签,单击事件单号进入“事件详情”页面。
图15 单击事件单号
- 单击“受理”即可受理此事件。
图16 单击“受理”按钮
- 单击“转发责任人”。
图17 单击“转发”按钮
- 填写转发信息后,单击“提交”。
图18 填写转发信息
- 单击“升降级”。
图19 单击“升降级”按钮
- 填写升降级信息后,单击“提交”。
图20 填写升降级信息
- 单击“启动warroom”。
图21 单击“启动warroom”按钮
- 填写warroom信息后,单击“提交”。
图22 填写warroom信息
- 单击“事件处理”。
图23 单击“事件处理”按钮
- 填写事件处理信息后,单击“提交”。
图24 填写事件处理信息
- 单击“验证关闭”。
图25 单击“验证关闭”按钮
- 填写验证信息后,单击“确定”。
图26 填写验证信息