WarRoom是在发生群体性故障或重大故障时,为快速恢复业务正常运行,支撑运维、研发、运营联合作战,保障业务快速恢复而组建的会议。通过WarRoom添加故障恢复成员、通过发送故障进展及时知会关注故障的人员、通过应用诊断、响应预案等辅助应用快速恢复。
事件处理过程中,初步定位发现该故障为重大故障或群体性故障,可启动WarRoom攻关,协同各应用专家,可快速恢复故障。
注意事项
若在拉起WarRoom的时候需要同时拉起群组(群组方式支持企业微信、钉钉、飞书),需要配置以下信息:
处理流程
图1 WarRoom处理流程
WarRoom处理流程如下:
1. 创建起会规则:如已有的规则不满足当前使用场景时,可创建起会规则,创建成功后可根据区域、应用、事件级别匹配到对应的规则。
创建起会规则
起会规则是在启动WarRoom时,根据区域、应用、事件级别匹配到对应的规则,将规则中相关的人员拉入群组,关注故障恢复的人员在第一时间可以接收到故障,并响应故障。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > WarRoom”。
- 单击“起会规则”,切换至与会规则页签。
- 单击“创建起会规则”,右侧弹出创建起会规则弹框。
- 参考表1设置起会规则相关信息。
表1 创建起会规则参数说明
|
参数 |
说明 |
|
规则名称 |
自定义规则名称。 |
|
区域 |
可选参数。在下拉列表选择涉及的区域,支持多选。
不选择区域展示“默认”,表示不涉及区域。 |
|
应用 |
在下拉列表选择涉及的应用,支持多选。 |
|
事件级别 |
可选项“P1”、“P2”、“P3”、“P4”、“P5”。支持多选。
默认严重程度“P1”最严重,“P5”最轻微。 |
|
加入群组。 |
可选参数。选择排班角色,其中的排班人员在启动WarRoom时会被自动加入到第三方移动应用群组。
配置排班详细操作请参考排班管理,移动应用需要配置详细操作请参考移动应用管理。 |
- 单击“确定”,完成起会规则创建。
起会规则命中逻辑:根据事件启动warroom的区域、应用、事件级别,匹配起会规则的区域、应用、事件级别,会将加入群组的人加入到warroom会议和创建的移动应用中。
2. 启动WarRoom:符合起会规则的事件,可在“事件管理 > 处理事件”页面启动WarRoom。
启动WarRoom
符合起会规则的事件,可启动WarRoom进行协同处理。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > 事件管理”。
- 在“待处理的”页签,选择需要处理的事件单,单击事件标题,进入事件详情页面。
- 单击右上方“启动WarRoom”。
- 设置启动WarRoom相关信息。
表2 启动WarRoom参数说明
|
参数 |
说明 |
|
WarRoom名称 |
默认为事件单名称,用户可以自定义名称。 |
|
WarRoom描述 |
对WarRoom进行描述。 |
|
WarRoom管理员 |
在下拉列表选择用户作为WarRoom管理员。 |
|
区域 |
可选参数。在下拉列表选择WarRoom区域。可以选择多个区域。 |
|
企业项目 |
在下拉列表中选择企业项目。 |
|
应用 |
在下拉列表选择影响应用。可以选择多个应用。 |
|
创建群组方式 |
可选项“企业微信”、“钉钉”、“飞书”。
请先在移动应用管理配置应用通知方式,选择后WarRoom拉起会将排班人员和参与者拉入对应的群组中。 |
|
通知方式 |
可选项“短信”“企业微信”、“钉钉”、“飞书”和“电话”。
如需选择“企业微信”、“钉钉”、“飞书”请先在移动应用管理配置应用通知方式。 |
|
排班 |
按照已配置的排班场景和角色在下拉列表选择。配置排班详细操作请参考排班管理。 |
|
参与者 |
在下拉列表选择参与用户。可以选择多个用户。 |
- 单击“确定”,完成WarRoom启动。
3. 故障定界:分析故障影响范围,恢复所有受影响应用。
若分析还有其他应用受影响,可新增影响应用。
新增影响应用
在故障发生时,若有应用受影响,用户可以在WarRoom详情中添加影响应用。对于影响应用,可以通过应用诊断检查应用详情,通过执行预案快速恢复应用。
WarRoom在启动、故障定界和恢复阶段支持新增影响应用功能。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > WarRoom”。
- 单击需要修改的WarRoom标题,进入WarRoom详情页面。
- 单击“新增影响应用”。
- 设置影响应用相关信息。
表3 新增影响应用参数说明
|
参数 |
说明 |
|
影响应用 |
在下拉列表选择受影响应用。 |
|
开始时间 |
请填写应用开始受影响的时间。
默认为创建WarRoom时间,开始时间不得晚于创建WarRoom时间。 |
|
恢复时间 |
可选参数。请填写应用恢复时间。
恢复时间不得早于创建WarRoom时间。 |
|
影响描述 |
请填写应用相关的影响描述。
限制长度最长500个字符。 |
- 单击“确定”,完成影响应用新增。
- 单击受影响应用可以查看该应用的告警、事件和变更信息。
4. 故障处理:通过应用诊断可以快速定位故障根因,使用执行预案能够快捷处理故障。处理完成后需要修改应用状态为“已恢复”。
应用诊断
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > WarRoom”。
- 单击需要诊断的WarRoom标题,进入WarRoom详情页面。
- 选择需要处理的应用,单击“应用诊断”。
- 单击时间框,设置故障时间。
时间框输入的时间为“结束时间”,“起始时间”为“结束时间”向前1小时。选择时间后,应用拓扑大屏展示所选时间段内应用和子应用的告警数量,右侧详情页展示应用故障详情。
- (可选)勾选“自动刷新”,自动刷新下拉列表选择刷新频率。
勾选“自动刷新”后,“结束时间”按照刷新频率自动刷新到系统当前时间。
- (可选)若应用有子应用,单击子应用。
应用拓扑大屏展示该子应用下的所有组件,右侧详情页展示子应用故障详情。支持在拓扑大屏切换查看其它子应用。
- 单击应用或子应用下组件。
应用拓扑大屏展示该组件下的所有资源,右侧详情页展示组件故障详情。支持在拓扑大屏切换查看其它组件。支持核心云服务的指标展示,如果在应用管理中有关联APM,也可以查看链路相关指标。
- 单击应用拓扑右侧“告警”。
查看应用告警,列表展示告警产生时间范围在右侧时间轴内的告警。支持选择左边拓扑对象后,自动筛选选择对象的告警信息。
- 单击应用拓扑右侧“变更”。
查看应用变更,列表展示变更时间范围在右侧时间轴内的变更。
- 单击应用拓扑右侧“故障诊断”。
查看资源的故障诊断数据,可以对应用的DCS、RDS、DMS、ECS、ELB资源进行诊断。支持选择左边拓扑对象后,自动筛选选择对象的诊断信息。
未创建过诊断或创建新诊断,具体操作如下。
- 单击“创建诊断”。
- 选择资源类型和资源。
- 单击“确定”。
- 确认“《GuestOS诊断服务前端数据授权》”,单击“同意”。
诊断完成后,单击诊断结果列表右侧“查看详情”,查看诊断报告。
执行预案
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > WarRoom”。
- 单击需要执行的WarRoom标题,进入WarRoom详情页面。
- 选择需要处理的应用,单击“执行预案”。
- 在下拉列表选择相应的应急预案。
若没有合适的应急预案,请参考创建应急预案进行创建。
- 根据应急预案关联的任务类型执行对应步骤。
- 任务类型为脚本
- 确认应急预案执行步骤信息无误后,单击“执行”。
- 设置执行脚本相关参数。
表4 执行脚本参数说明
|
参数 |
说明 |
|
脚本入参 |
脚本入参在创建自定义脚本时已预置好参数名称与参数默认值。可手动修改或输入入参值。 |
|
执行用户 |
默认“root”,目标实例节点上执行脚本的用户。 |
|
超时时间 |
默认“300”秒,脚本在单个目标实例上执行的超时时间。 |
|
目标实例 |
单击“添加实例”,选择需要执行的实例。 |
|
分批策略 |
- 可选项为“自动分批”、“手动分批”、“不分批”,只可选择其中一项。
- 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。
- 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。
- 不分批:用户所有待执行的机器会全部在同一批次。
|
|
熔断策略 |
当目标服务出现异常时暂时切断调用、故障恢复后再恢复通信的故障隔离与自我保护机制。
- 设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。
- 成功率取值范围0~100,支持精确到小数点后一位。
|
- 设置完成后,单击“提交”,开始执行脚本工单。
- 任务类型为作业
- 确认应急预案执行步骤信息无误后,单击“执行”。
- 设置执行脚本相关参数。
表5 执行脚本参数说明
|
参数 |
说明 |
|
区域 |
请选择目标实例所在区域。 |
|
目标实例模式 |
请选择作业步骤和目标实例的执行方式。
- 所有步骤一致:所有任务在所选目标实例执行,统一使用一个分批策略。
- 每个步骤独立:单个步骤下的任务在所选目标实例执行,每个步骤使用一个分批策略。
- 每个任务独立:可独立设置每个作业任务执行的目标实例和分批策略。
|
|
作业步骤 |
可自定义配置作业详情。
- 单击具体作业名称,右侧弹出“修改参数”页面。
- 设置“输入”、“输出”参数,设置“异常处理”选项。
|
|
目标实例 |
单击“添加实例”,选择需要执行的实例。 |
|
分批策略 |
- 可选项为“自动分批”、“手动分批”、“不分批”,只可选择其中一项。
- 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。
- 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。
- 不分批:用户所有待执行的机器会全部在同一批次。
|
- 设置完成后,单击“提交”,开始执行作业工单。
- 任务类型为文档
按照文档预案步骤执行即可。
- 单击“确定”,完成应急预案执行。
5. 故障已恢复:检查故障处理结果和应用状态,填写故障信息。
注意:当WarRoom关联的所有应用状态更新为已恢复,才能进入故障已恢复阶段。
修改故障信息
WarRoom的故障信息,主要是为了记录该故障的发生时间、恢复时间,故障带来的影响及故障原因,便于后续回溯防止故障再次发生。
在WarRoom启动、故障定界和恢复、故障已恢复过程都可以修改故障信息。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > WarRoom”。
- 单击需要修改的WarRoom标题,进入WarRoom详情页面。
- 单击右上方“修改”。
- 设置“修改故障信息”。
表6 修改故障信息参数说明
|
参数 |
说明 |
|
区域 |
可选参数。在下拉列表选择故障涉及的区域,支持多选。
不选择区域展示“默认”,表示不涉及区域。 |
|
故障发生时间 |
请填写故障发生时间。
默认为创建WarRoom时间,故障发生时间不得晚于创建WarRoom时间。 |
|
故障恢复时间 |
可选参数。在故障已恢复阶段为必填参数。
故障恢复时间不得早于创建WarRoom时间。 |
|
故障影响 |
可选参数。在故障已恢复阶段为必填参数。
请填写故障影响。
限制长度250个字符。 |
|
故障原因 |
可选参数。在故障已恢复阶段为必填参数。
请填写故障原因。
限制长度250个字符。 |
- 单击“确定”,完成故障信息修改。
6. 关闭WarRoom:确认故障已闭环,需要关闭WarRoom。
注意:修改故障信息中的所有必填项填写完毕后,才可以关闭WarRoom。
另外:
- 故障处理过程中如果需要增加相关成员并拉入群组,请参考添加与会成员操作。
添加与会成员
与会成员主要是为了快速恢复故障,将参与故障恢复的人员拉入群组,或通过电话或短信及时通知故障恢复人员响应并处理故障。将与会人员加入群组后,可以设置管理员、恢复责任人、恢复成员。
与会成员默认管理员为创建WarRoom设置的WarRoom管理员。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > WarRoom”。
- 单击需要设置的WarRoom标题,进入WarRoom详情页面。
- 单击右侧“邀请”。
- 参考表7设置邀请人员信息。
表7 邀请参数说明
|
参数 |
说明 |
|
与会方式 |
可选参数,可选项“企业微信”、“钉钉”、“飞书”。
选择的与会方式会自动选择相应的通知方式。
请先在移动应用管理中配置应用,人员管理中配置应用对应邮箱。 |
|
通知方式 |
可选参数,可选项“短信”、“电话”。
支持多选,“企业微信”、“钉钉”、“飞书”三种通知方式由选择的与会方式自动关联。
配置用户信息请参考人员管理。 |
|
排班人员 |
可选参数,在下拉列表选择排班。
支持多选,选择排班后会自动选择排班内所有成员。
配置排班请参考排班管理。 |
|
个人成员 |
可选参数,在下拉列表选择用户。
支持多选。 |
- 单击“加入WarRoom”,完成与会成员添加。
设置成员角色
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > WarRoom”。
- 单击需要设置的WarRoom标题,进入WarRoom详情页面。
- 单击与会成员右侧
按钮,展开与会成员列表。
- 选择需要设置角色的成员,单击右侧
。
- 单击下拉选项进行角色设置。
图2 设置成员角色
表8 成员角色说明
|
成员角色 |
说明 |
|
管理员 |
可以将管理员移交给其他无角色成员。WarRoom管理员是隐藏管理员,即使设置其他成员为管理员,WarRoom管理员仍然有成员管理权限。 |
|
恢复责任人 |
可以设置无角色成员为恢复责任人。恢复责任人可以被管理员取消,不可被移除。 |
|
恢复成员 |
可以设置无角色成员为恢复成员。恢复成员可以被管理员取消和移除。 |
|
无角色 |
可以被设置成管理员、恢复责任人或恢复成员。无角色成员可以被管理员移除。 |
- 故障处理过程中如果需要发布通告将故障处理进展及时同步给相关人员,请参考进展通告操作。
进展通告
进展通告在故障发生或处理过程将故障处理进展及时同步给相关人员,关注该故障的人可快速掌握故障进展。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > WarRoom”。
- 单击需要设置的WarRoom标题,进入WarRoom详情页面。
- 单击右侧“更新通告”。
- 设置“更新实时通报内容”。
表9 更新实时通报内容参数说明
|
参数 |
说明 |
|
通报模板 |
可选项“首次通报”、“进展通报”、“恢复通报”。 |
|
通报内容 |
根据选择的通报模板填写通报内容。
限制长度最长1000个字符。 |
- 单击“确定”,完成通告更新。
最新的通告显示在“进展通告”中。
- 单击“发布”,并在弹框中设置发布通告信息。
表10 发布通告参数说明
|
参数 |
说明 |
|
通报主题 |
自定义通报主题。 |
|
通报对象 |
可选项“排班”、“个人”。
|
|
发送方式 |
可选项“短信”、“企业微信”、“钉钉”、“飞书”、“电话”。
“企业微信”、“钉钉”、“飞书”需要先在移动应用管理中配置相应应用。 |
|
通报内容 |
不支持修改,内容为最新通报内容。 |
- 单击“确定”,完成通告发布。
查看WarRoom状态
WarRoom启动后,在处理故障过程中需查看、更新WarRoom状态,便于记录故障恢复的时间节点,同时了解故障当前的进展。WarRoom状态包含启动WarRoom、故障定界和恢复、故障已恢复和关闭。
- 故障已恢复之前受影响应用必须先走到已恢复状态。
- WarRoom关闭之前,要填写WarRoom故障信息。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > WarRoom”。
可以查看WarRoom列表信息。
- 单击需要查看的WarRoom标题,进入WarRoom详情页面。
页面展示WarRoom详情。页面右上方WarRoom状态。
- 故障处理过程中如果识别到一些产品、运维或管理改进事项,可以创建改进单,并通过改进管理处理。
更多相关操作
您还可以执行以下相关操作。
表11 更多相关操作
|
功能 |
场景说明 |
操作 |
|
修改起会规则 |
对已创建的起会规则支持修改。
|
- 在“故障管理 > WarRoom > 起会规则”页面,选择需要修改的起会规则,单击操作列“修改”。
- 根据业务场景修改起会规则。
- 单击“确定”,完成起会规则修改。
|
|
删除起会规则 |
已创建的起会规则如果不再需要使用,支持删除。
注意:起会规则删除后无法恢复,请谨慎操作。 |
- 在“故障管理 > WarRoom > 起会规则”页面,选择需要删除的起会规则,单击操作列“删除”。
- 在弹框中单击“确定”,即可删除该条起会规则。
|
相关文档
COC支持通过调用API接口实现创建WarRoom、查询WarRoom等,详细请参考WarRoom。