通过WarRoom协调处理事件单
WarRoom是在发生群体性故障或重大故障时,为快速恢复业务正常运行,支撑运维、研发、运营联合作战,保障业务快速恢复而组建的会议。通过WarRoom添加故障恢复成员、通过发送故障进展及时知会关注故障的人员、通过应用诊断、响应预案等辅助应用快速恢复。
事件处理过程中,初步定位发现该故障为重大故障或群体性故障,可启动WarRoom攻关,协同各应用专家,可快速恢复故障。
约束与限制
只有正在处理的事件单支持启动WarRoom。
注意事项
若在拉起WarRoom的时候需要同时拉起群组(群组方式支持企业微信、钉钉、飞书),需要配置以下信息:
处理流程
WarRoom处理流程如下:
- 创建起会规则:如已有的规则不满足当前使用场景时,可创建起会规则,创建成功后可根据区域、应用、事件级别匹配到对应的规则。
- 启动WarRoom:符合起会规则的事件,可在“事件管理 > 处理事件”页面启动WarRoom。
- 故障定界:分析故障影响范围,恢复所有受影响应用。
若分析还有其他应用受影响,可创建起会规则。
- 故障处理:通过应用诊断可以快速定位故障根因,使用执行预案能够快捷处理故障。处理完成后需要修改应用状态为“已恢复”。
- 故障已恢复:检查故障处理结果和应用状态,填写修改故障信息。
注意:将所有应用状态修改为已恢复状态才能走到故障已恢复阶段。
- 关闭WarRoom:确认故障已闭环,需要关闭WarRoom。
注意:填写修改故障信息中所有必填的故障信息才可以关闭WarRoom。
另外:
- 故障处理过程中如果需要增加相关成员并拉入群组,请参考添加与会成员操作。
- 故障处理过程中如果需要发布通告将故障处理进展及时同步给相关人员,请参考进展通告操作。
- 故障处理过程中如果识别到一些产品、运维或管理改进事项,可以创建改进单,并通过改进管理处理。
创建起会规则
起会规则是在启动WarRoom时,根据区域、应用、事件级别匹配到对应的规则,将规则中相关的人员拉入群组,关注故障恢复的人员在第一时间可以接收到故障,并响应故障。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > WarRoom”。
- 单击“起会规则”。
- 单击右上方“创建起会规则”。
- 设置“创建起会规则”。
- 单击“确定”。
完成起会规则创建。起会规则命中逻辑:根据事件启动warroom的区域、应用、事件级别,匹配起会规则的区域、应用、事件级别,会将加入群组的人加入到warroom会议和创建的移动应用中。
启动WarRoom
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > 事件管理”。
- 在“待处理的”页签,选择需要处理的事件单,单击事件标题。
- 单击右上方“启动WarRoom”。
- 设置“启动WarRoom”。
表2 启动WarRoom参数说明 参数
说明
WarRoom名称
默认为事件单名称,用户可以自定义名称。
WarRoom描述
对WarRoom进行描述。
WarRoom管理员
在下拉列表选择用户作为WarRoom管理员。
区域
可选参数。在下拉列表选择WarRoom区域。可以选择多个区域。
企业项目
在下拉列表中选择企业项目。
应用
在下拉列表选择影响应用。可以选择多个应用。
创建群组方式
可选项“企业微信”、“钉钉”、“飞书”。
请先在移动应用管理配置应用通知方式,选择后WarRoom拉起会将排班人员和参与者拉入对应的群组中。
通知方式
可选项“短信”“企业微信”、“钉钉”、“飞书”和“电话”。
如需选择“企业微信”、“钉钉”、“飞书”请先在移动应用管理配置应用通知方式。
排班
按照已配置的排班场景和角色在下拉列表选择。配置排班详细操作请参考排班管理。
参与者
在下拉列表选择参与用户。可以选择多个用户。
- 单击“确定”。
完成WarRoom启动。
新增影响应用
在故障发生时,若有应用受影响,用户可以在WarRoom详情中添加影响应用。对于影响应用,可以通过应用诊断检查应用详情,通过执行预案快速恢复应用。
WarRoom在启动、故障定界和恢复阶段支持新增影响应用功能。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > WarRoom”。
- 单击需要修改的WarRoom标题。
- 单击“新增影响应用”。
- 设置“新增影响应用”。
表3 新增影响应用参数说明 参数
说明
影响应用
在下拉列表选择受影响应用。
开始时间
请填写应用开始受影响的时间。
默认为创建WarRoom时间,开始时间不得晚于创建WarRoom时间。
恢复时间
可选参数。请填写应用恢复时间。
恢复时间不得早于创建WarRoom时间。
影响描述
请填写应用相关的影响描述。
限制长度最长500个字符。
- 单击“确定”。
完成影响应用新增。单击受影响应用可以查看该应用的告警、事件和变更信息。
应用诊断
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > WarRoom”。
- 单击需要诊断的WarRoom标题。
- 选择需要处理的应用,单击“应用诊断”。
- 单击时间框,设置故障时间。
时间框输入的时间为“结束时间”,“起始时间”为“结束时间”向前1小时。选择时间后,应用拓扑大屏展示所选时间段内应用和子应用的告警数量,右侧详情页展示应用故障详情。
- (可选)勾选“自动刷新”,自动刷新下拉列表选择刷新频率。
勾选“自动刷新”后,“结束时间”按照刷新频率自动刷新到系统当前时间。
- (可选)若应用有子应用,单击子应用。
应用拓扑大屏展示该子应用下的所有组件,右侧详情页展示子应用故障详情。支持在拓扑大屏切换查看其它子应用。
- 单击应用或子应用下组件。
应用拓扑大屏展示该组件下的所有资源,右侧详情页展示组件故障详情。支持在拓扑大屏切换查看其它组件。支持核心云服务的指标展示,如果在应用管理中有关联APM,也可以查看链路相关指标。
- 单击应用拓扑右侧“告警”。
查看应用告警,列表展示告警产生时间范围在右侧时间轴内的告警。支持选择左边拓扑对象后,自动筛选选择对象的告警信息。
- 单击应用拓扑右侧“变更”。
查看应用变更,列表展示变更时间范围在右侧时间轴内的变更。
- 单击应用拓扑右侧“故障诊断”。
查看资源的故障诊断数据,可以对应用的DCS、RDS、DMS、ECS、ELB资源进行诊断。支持选择左边拓扑对象后,自动筛选选择对象的诊断信息。
未创建过诊断或创建新诊断,具体操作如下。
- 单击“创建诊断”。
- 选择资源类型和资源。
- 单击“确定”。
- 确认“《GuestOS诊断服务前端数据授权》”,单击“同意”。
只有故障诊断选择ECS时需要签署同意许可。
诊断完成后,单击诊断结果列表右侧“查看详情”,查看诊断报告。
执行预案
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > WarRoom”。
- 单击需要修改的WarRoom标题。
- 选择需要处理的应用,单击“执行预案”。
- 若选择应急预案,在下拉列表选择相应的应急预案,单击“执行”。
若没有合适的应急预案需要创建,请参考创建应急预案。
- 根据应急预案关联的任务类型。
- 设置“执行脚本”。
- 脚本入参:脚本入参在录入自定义脚本时已预置好参数名称与参数默认值。
- 执行用户:默认“root”,目标实例节点上执行脚本的用户。
- 超时时间:默认“300”秒,脚本在单个目标实例上执行的超时时间。
- 目标实例:单击“添加实例”,设置“选择实例”。
表4 选择实例参数说明 参数
说明
示例
选择方式
请选择实例选择方式。
- 手动选择:根据“企业项目”、“视图类型”、“资源类型”、“区域”和“目标实例”确认筛选条件,手动选择实例。
手动选择
企业项目
在下拉列表中选择企业项目,支持选择“全部”。
全部
视图类型
请选择视图类型。
- CMDB资源视角:以资源视角选择实例列表。
- CMDB应用视角:以应用视角选择实例列表。
CMDB资源视角
资源类型
可选项“ECS”、“BMS”。
ECS
区域
在下拉列表中选择区域。
华北-北京一
目标实例
在筛选框设置条件,选择筛选出的实例。
-
- 分批策略:可选项为“自动分批”、“手动分批”、“不分批”,只可选择其中一项。
- 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。
- 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。
- 不分批:用户所有待执行的机器会全部在同一批次。
- 熔断策略:
- 设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。
- 成功率取值范围0~100,支持精确到小数点后一位。
- 设置“执行作业”。
- 区域:请选择目标实例所在区域。
- 目标实例模式:请选择作业步骤和目标实例的执行方式。
- 所有步骤一致:所有任务在所选目标实例执行,统一使用一个分批策略。
- 每个步骤独立:单个步骤下的任务在所选目标实例执行,每个步骤使用一个分批策略。
- 每个任务独立:可独立设置每个作业任务执行的目标实例和分批策略。
- 作业步骤:可自定义配置作业详情。
- 单击具体作业名称,右侧弹出“修改参数”页面。
- 设置“输入”、“输出”参数,设置“异常处理”选项。
- 目标实例:单击“添加实例”,设置“选择实例”。
表5 选择实例参数说明 参数
说明
示例
选择方式
请选择实例选择方式。
- 手动选择:根据“企业项目”、“视图类型”、“资源类型”、“区域”和“目标实例”确认筛选条件,手动选择实例。
手动选择
企业项目
在下拉列表中选择企业项目,支持选择“全部”。
全部
视图类型
请选择视图类型。
- CMDB资源视角:以资源视角选择实例列表。
- CMDB应用视角:以应用视角选择实例列表。
CMDB资源视角
资源类型
可选项“ECS”、“BMS”。
ECS
区域
默认参数,不支持修改,由“执行内容”中“区域”决定。
华北-北京一
目标实例
在筛选框设置条件,选择筛选出的实例。
-
- 分批策略:可选项为“自动分批”、“手动分批”、“不分批”,只可选择其中一项。
- 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。
- 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。
- 不分批:用户所有待执行的机器会全部在同一批次。
- 单击“确定”。
- 对于工单执行是否完成,支持以下操作:
- 若工单执行中:
- 暂停:单击右上方“暂停”,当前批次执行完成后下一批次暂停执行。
- 继续:单击右上方“继续”,继续执行已暂停的批次。
- 强制结束:单击右上方“强制结束”,结束待执行或异常的工单。
- 若工单执行完成:根据执行状态“异常”或“成功”:
- 异常:工单中有部分或全部实例任务执行异常。
- 选择“异常”批次,单击异常实例右侧“重试”,重新执行所选实例的任务。
- 选择“异常”批次,单击异常实例右侧“取消”,取消所选实例的任务。
- 成功:工单执行成功。
- 异常:工单中有部分或全部实例任务执行异常。
- 若工单执行中:
修改故障信息
WarRoom的故障信息,主要是为了记录该故障的发生时间、恢复时间,故障带来的影响及故障原因,便于后续回溯防止故障再次发生。
在WarRoom启动、故障定界和恢复、故障已恢复过程都可以修改故障信息。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > WarRoom”。
- 单击需要修改的WarRoom标题。
- 单击右上方“修改”。
- 设置“修改故障信息”。
表6 修改故障信息参数说明 参数
说明
区域
可选参数。在下拉列表选择故障涉及的区域,支持多选。
不选择区域展示“默认”,表示不涉及区域。
故障发生时间
请填写故障发生时间。
默认为创建WarRoom时间,故障发生时间不得晚于创建WarRoom时间。
故障恢复时间
可选参数。在故障已恢复阶段为必填参数。
故障恢复时间不得早于创建WarRoom时间。
故障影响
可选参数。在故障已恢复阶段为必填参数。
请填写故障影响。
限制长度250个字符。
故障原因
可选参数。在故障已恢复阶段为必填参数。
请填写故障原因。
限制长度250个字符。
- 单击“确定”。
完成故障信息修改。
添加与会成员
与会成员主要是为了快速恢复故障,将参与故障恢复的人员拉入群组,或通过电话或短信及时通知故障恢复人员响应并处理故障。将与会人员加入群组后,可以设置管理员、恢复责任人、恢复成员。
与会成员默认管理员为创建WarRoom设置的WarRoom管理员。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > WarRoom”。
- 单击需要修改的WarRoom标题。
- 单击右侧“邀请”。
- 设置“邀请”。
- 单击“加入WarRoom”。
完成与会成员添加。
设置成员角色
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > WarRoom”。
- 单击需要修改的WarRoom标题。
- 单击与会成员右侧
。 - 选择需要修改的用户,单击用户右侧
。 - 设置成员角色。
表8 成员角色说明 成员角色
说明
管理员
可以将管理员移交给其他无角色成员。WarRoom管理员是隐藏管理员,即使设置其他成员为管理员,WarRoom管理员仍然有成员管理权限。
恢复责任人
可以设置无角色成员为恢复责任人。恢复责任人可以被管理员取消,不可被移除。
恢复成员
可以设置无角色成员为恢复成员。恢复成员可以被管理员取消和移除。
无角色
可以被设置成管理员、恢复责任人或恢复成员。无角色成员可以被管理员移除。
进展通告
进展通告在故障发生或处理过程将故障处理进展及时同步给相关人员,关注该故障的人可快速掌握故障进展。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > WarRoom”。
- 单击需要修改的WarRoom标题。
- 单击右侧“更新通告”。
- 设置“更新实时通报内容”。
表9 更新实时通报内容参数说明 参数
说明
通报模板
可选项“首次通报”、“进展通报”、“恢复通报”。
通报内容
根据选择的通报模板填写通报内容。
限制长度最长1000个字符。
- 单击“确定”。
完成通告更新。最新的通告显示在“进展通告”中。
- 单击“发布”。
- 设置“发布通告”。
- 单击“确定”。
完成通告发布。
查看WarRoom状态
WarRoom启动后,在处理故障过程中需查看、更新WarRoom状态,便于记录故障恢复的时间节点,同时了解故障当前的进展。WarRoom状态包含启动WarRoom、故障定界和恢复、故障已恢复和关闭。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > WarRoom”。
可以查看WarRoom列表信息。
- 单击需要查看的WarRoom标题。
页面展示WarRoom详情。页面右上方WarRoom状态。
- 故障已恢复之前受影响应用必须先走到已恢复状态。
- WarRoom关闭之前,要填写WarRoom故障信息。
更多相关操作
您还可以执行以下相关操作。
|
功能 |
场景说明 |
操作 |
|---|---|---|
|
修改起会规则 |
对已创建的起会规则支持修改。 |
|
|
删除起会规则 |
已创建的起会规则如果不再需要使用,支持删除。 注意:起会规则删除后无法恢复,请谨慎操作。 |
|