故障通报概述
运维事件是ServiceInsight组成部分,提供故障通报功能。以运维事件为中心,提供事件的管理、通报及WarRoom能力。
功能特性
功能 |
功能描述 |
---|---|
运维事件管理 |
由SRE通报的所有现网发生的可能造成或者已经造成服务的中断和业务质量下降的系统告警等问题,由运维团队负责管理。 |
通知组管理 |
组内人员通常包括运维代表、开发代表、相关领域专家等,使用场景为运维事件发送通报、WarRoom基于通知组方式发送通知。 |
快速通报 |
运维事件系统DB及CSS不可用时需发送通知的逃生通道。 |
WarRoom |
由运维代表决策,Oncall团队负责操作创建,针对重大故障的一种应急处置的协同机制,创建WarRoom,并选择相关人员进行通知。 |