更新时间:2026-02-09 GMT+08:00
分享

通过WarRoom协同处理事件单

WarRoom是在发生群体性故障或重大故障时,为快速恢复业务正常运行,支撑运维、研发、运营联合作战,保障业务快速恢复而组建的会议。通过WarRoom添加故障恢复成员、通过发送故障进展及时知会关注故障的人员、通过应用诊断、响应预案等辅助应用快速恢复。

事件处理过程中,初步定位发现该故障为重大故障或群体性故障,可启动WarRoom攻关,协同各应用专家,可快速恢复故障。

约束与限制

只有正在处理的事件单支持启动WarRoom

注意事项

若在拉起WarRoom的时候需要同时拉起群组(群组方式支持企业微信、钉钉、飞书),需要配置以下信息:

处理流程

图1 WarRoom处理流程

WarRoom处理流程如下:

1. 创建起会规则:如已有的规则不满足当前使用场景时,可创建起会规则,创建成功后可根据区域、应用、事件级别匹配到对应的规则。

2. 启动WarRoom:符合起会规则的事件,可在“事件管理 > 处理事件”页面启动WarRoom

3. 故障定界:分析故障影响范围,恢复所有受影响应用

若分析还有其他应用受影响,可新增影响应用

4. 故障处理:通过应用诊断可以快速定位故障根因,使用执行预案能够快捷处理故障。处理完成后需要修改应用状态为“已恢复”。

5. 故障已恢复:检查故障处理结果和应用状态,填写故障信息

注意:当WarRoom关联的所有应用状态更新为已恢复,才能进入故障已恢复阶段。

6. 关闭WarRoom:确认故障已闭环,需要关闭WarRoom。

注意:修改故障信息中的所有必填项填写完毕后,才可以关闭WarRoom。

另外:

  • 故障处理过程中如果需要增加相关成员并拉入群组,请参考添加与会成员操作。
  • 故障处理过程中如果需要发布通告将故障处理进展及时同步给相关人员,请参考进展通告操作。
  • 故障处理过程中如果识别到一些产品、运维或管理改进事项,可以创建改进单,并通过改进管理处理。

更多相关操作

您还可以执行以下相关操作。

表11 更多相关操作

功能

场景说明

操作

修改起会规则

对已创建的起会规则支持修改。

  1. 在“故障管理 > WarRoom > 起会规则”页面,选择需要修改的起会规则,单击操作列“修改”。
  2. 根据业务场景修改起会规则。
  3. 单击“确定”,完成起会规则修改。

删除起会规则

已创建的起会规则如果不再需要使用,支持删除。

注意:起会规则删除后无法恢复,请谨慎操作。

  1. 在“故障管理 > WarRoom > 起会规则”页面,选择需要删除的起会规则,单击操作列“删除”。
  2. 在弹框中单击“确定”,即可删除该条起会规则。

相关文档

COC支持通过调用API接口实现创建WarRoom、查询WarRoom等,详细请参考WarRoom

相关文档