更新时间:2024-06-06 GMT+08:00

运维态势感知

云运维中心提供运维态势感知的能力,包含变更、事件、告警、SLO(服务级别目标)、PRR(生产准备度评估)等多种运维指标数据,从宏观到微观全面呈现运维全局态势,提供企业级运维沙盘。

  • 面向不同角色运维人员的专属运维BI看板,辅助运维优化改进和洞察决策。
  • 预置接入30个+运维指标,构建7张运维态势感知大屏,从宏观到微观全面呈现运维全局态势,提供企业级运维沙盘。

操作场景

通过Cloud Operations Center查看运维态势感知信息。

操作步骤

  1. 登录COC
  2. 进入COC“总览”后,单击“运维态势感知”,进入“运维态势感知”页面。
  3. 根据region、应用、日期筛选不同条件的运维沙盘信息。

运维总览

运维总览包含总览数据、风险冒泡、PRR评审汇总(生产准备度评估)、TOP5事件四个模块。总览数据可以全局视角观测运维态势情况,辅助运维优化改进和洞察决策。风险冒泡通过P3+事件单、WarRoom、变更导致故障以及紧急告警呈现当前运维态势风险情况。PRR评审汇总体现应用上线/转商前的评审情况。通过算法统计影响最严重的Top5事件单,快速识别重大故障场景。指标详情可查看表1

图1 运维总览
表1 运维总览数据字典

模块

指标名称

数据来源

指标定义

计算规则

统计周期

度量单位

总览数据

事件数量

事件中心

统计事件单的数量趋势

选择时间周期内,所有事件单的数量

天/月

告警数量

告警中心

统计告警的数量趋势

选择时间周期内,所有告警的数量

天/月

WarRoom数量

WarRoom

统计WarRoom的数量趋势

选择时间周期内,所有WarRoom的数量

天/月

监控发现率

告警中心

发生的事件单中,有相关告警的事件单占比

符合过滤条件有相关告警的事件数/符合过滤条件总的事件数

天/月

百分比

变更数量

变更管理

统计变更单的数量趋势

选择时间周期内,所有变更单的数量

天/月

服务SLO

SLO管理

统计服务SLO实际值的变化趋势

SLO实际值 = 1 - (服务不可用时长 / 云服务总时长)*100%

天/月

百分比

风险冒泡

变更导致事件数

事件管理

统计变更问题引发事件单数量

事件类型为变更操作问题的事件单数量

天/月

7天紧急告警数

告警中心

统计近7天紧急告警数量

近7天的紧急告警数量

近7天

P3+事件

事件管理

统计发生的P3+事件单数量

P1、P2、P3级别的所有事件单的数量,包括未完成状态的事件单

天/月

Warroom数量

告警中心

统计Warroom数量

选择时间周期内,WarRoom的数量

天/月

PRR评审汇总

PRR评审服务

PRR评审

统计参与PRR评审的服务数量

参与PRR评审的服务数量

天/月

PPR评审通过情况

PRR评审

统计在PRR各阶段中,通过与未通过的服务数量

PRR各阶段,通过与未通过的服务数量

天/月

TOP5事件

TOP5事件

事件管理

统计严重性最高的事件Top5

根据选择时间范围,统计已完成的P3+事件,并先按事件级别排序,再按照中断时长排序,排列TOP5事件

天/月

事件信息

变更管理

变更管理包含数据概览、变更开销、变更风险三个模块,全方位呈现变更核心指标。数据概览中包含变更时长、成功率、自动化变更率等指标,通过环比和趋势图体现变更整体情况。变更风险根据变更等级、变更方式等分布图,分析变更导致的故障和变更成功率。变更开销统计变更人力和时间趋势,有效控制变更成本。指标详情可查看表2

图2 变更管理
表2 变更管理数据字典

指标名称

数据来源

指标定义

计算规则

统计周期

度量单位

变更导致现网事件

变更管理

统计由于变更原因导致的现网各个级别的事件数量

选择时间范围内,各级别事件单类型为变更操作问题的数量

天/月

变更等级

变更管理

统计各个等级的变更单的数量

选择时间周期内,各个等级的变更单数量

天/月

变更方式

变更管理

统计各个方式(手动变更、自动化变更)的变更单数量

计算各个方式的变更单数量

天/月

变更总量

变更管理

统计的变更单的数量

选择时间周期内,已完成的变更单数量

天/月

变更成功率

变更管理

统计变更单的成功率情况

变更成功率=变更成功的变更单数量/已完成的变更单数量*100%

天/月

百分比

变更平均时长

变更管理

统计变更单的平均处理时长

选择时间周期内,已完成的变更单时长求和/已完成的变更单数量*100%

天/月

ddhhmm

自动化变更率

变更管理

所有变更单中,自动化变更的占比

自动化变更数量/所有变更单数量*100%

天/月

百分比

变更趋势

变更管理

变更成功和失败的数量以及变更成功率的趋势变化

变更成功和失败的数量以及变更成功率

天/月

变更人力

变更管理

统计参与变更所需要的人数

变更人力=变更配合人+变更实施人

天/月

人次

变更时间

变更管理

统计变更单的平均处理时长

选择时间周期内,已完成的变更单时长求和/已完成的变更单数量*100%

天/月

ddhhmm

事件管理

事件管理包含事件统计、WarRoom、回溯改进三个模块,呈现事件管理全流程核心指标。事件统计中包含数量、闭环率、处理耗时、受损应用等指标,通过环比、趋势图和Top /Bottom排序的方式,呈现事件风险情况。WarRoom中包含受损应用、引起WarRoom事件级别和时间窗,反映重大故障场景的发生和改善情况。回溯改进中包含回溯改进的闭环率和趋势分析,确保对于已发生的故障进行经验沉淀,减少相同故障再次发生的频率和处理时间。指标详情可查看表3

图3 事件管理
表3 事件管理数据字典

模块

指标名称

数据来源

指标定义

计算规则

统计周期

度量单位

事件统计

事件总量

事件管理

统计所有事件单数量

选择时间范围内,所有事件单的数量

天/月

事件级别

事件管理

统计各个类型和级别的事件单的数量

选择时间范围内,各个类型和级别的事件单的数量

天/月

事件闭环率

事件管理

统计事件单的闭环情况

选择时间范围内,闭环状态的事件单数量/事件单总量*100%

天/月

百分比

事件耗时

事件管理

统计事件单平均处理时长

已闭环事件单的处理时间求和/已闭环的事件单数量*100%

天/月

ddhhmm

受损应用

事件管理

统计事件单受损应用数量

去重计算事件单的受损应用数量(包含已删除应用)

天/月

WarRoom

WarRoom数量

WarRoom

统计所有WarRoom数量

选择时间范围内,所有WarRoom数量

天/月

故障级别

事件管理

WarRoom关联的事件单级别分布

统计WarRomm关联的各级别事件单的数量

天/月

受损应用

WarRoom

统计warroom中受损应用的数量

去重计算WarRoom的受损应用数量

天/月

平均恢复时长

WarRoom

统计WarRoom平均恢复时长

选择时间范围内,已完成的WarRoom时间求和/已完成WarRoom数量

天/月

ddhhmm

受理时间窗分布

WarRoom

统计WarRoom在各个时间窗内的拉起次数

统计各个时间窗范围内,WarRoom的拉起次数

天/月

回溯改进

回溯总数

问题管理

所有的回溯单数量

统计时间周期内,所有的回溯单数量

天/月

回溯闭环率

问题管理

统计回溯单的闭环情况

闭环率=已闭环回溯单数量/回溯单总量*100%

天/月

百分比

改进总数

问题管理

所有的改进单数量

统计时间周期内,所有的改进单数量

天/月

改进闭环率

问题管理

统计改进单的闭环情况

闭环率=已闭环改进单数量/改进单总量*100%

天/月

百分比

监控告警

监控告警包将告警信息以直观的图表形式展示,使运维人员快速掌握服务的整体状况,监控告警中含告警分析、告警成本、告警质量三个模块,体现告警管理核心指标。告警分析中提供告警总量、告警级别、Top10应用、告警降量和告警趋势等指标,运维主管可通过对历史告警数据的分析,了解服务告警的趋势和模式,发现潜在的性能问题或故障隐患。告警成本统计告警人力情况和自动化处理率,运维主管可以利用告警成本有效控制变更的人力成本。告警质量统计事件单和WarRoom的告警发现率,帮助运维主管评估当前告警的有效性,并及时进行告警配置的优化。指标详情可查看表4

图4 监控告警
表4 监控告警数据字典

模块

指标名称

数据来源

指标定义

计算规则

统计周期

度量单位

告警分析

告警总量

告警管理

统计所有告警的数量

选择时间范围内,所有告警的数量

天/月

告警级别

告警管理

统计各个级别的告警的数量

选择时间范围内,各个级别的告警的数量

天/月

告警趋势

告警管理

选择时间范围内,各级别告警的数量趋势变化

选择时间范围内,各个级别的告警的数量

天/月

告警成本

告警参与人数

告警管理

统计参与处理告警的人数

去重计算集成告警的责任人数量

天/月

人均告警处理量

告警管理

统计人均处理的告警数量

选择时间范围内,告警总数量/告警参与人数

天/月

告警自动化处理率

告警管理

统计告警的自动化处理情况

选择时间范围内,自动化处理告警/告警总数*100%

天/月

百分比

告警质量

故障告警发现率

事件管理

统计所有事件单中,由告警发现的事件单数量

选择时间范围内,告警转事件单数量/事件单总数量*100%

天/月

百分比

WarRoom告警发现率

WarRoom

统计所有WarRoom中,由告警发现的WarRoom数量

选择时间范围内,告警转事件拉起的WarRoom数量/WarRoom

总数量*100%

天/月

百分比

告警冒泡

告警冒泡

告警管理

按照应用维度,展示告警的风险冒泡情况

按照应用下告警的级别和数量进行加权计算并排序

天/月

不涉及

SLO看板

SlO看板(服务级别目标)包含SLO总体达成情况、应用维度SLO统计、ErrorBudget管理。SLO总体达成情况可查看年度和月度的总体SLO情况,评估整体的服务水平趋势。应用维度SLO支持按照时间和应用维度查看SLO情况,评估每个应用的服务水平。ErrorBuget根据应用的SLO情况计算出错误成本,用以指导变更或其他高风险操作。指标详情可查看表5

图5 SLO看板
表5 SLO看板数据字典

模块

指标名称

数据来源

指标定义

计算规则

统计周期

度量单位

SLO总体达成情况

年度SLO期望值

SLO管理

全年度应用期望达成的SLO指标

SLO期望值=SLO管理中设定的期望值;

多个应用SLO期望值=avg(SLO期望值);

百分比

年度SLO实际值

SLO管理

全年度应用实际达成的SLO情况

年度SLO实际值=1-(年度服务不可用时长/全年服务总时长)*100%;

单个区域多应用SLO实际值=avg(年度SLO实际值);

多个区域单应用SLO实际值=min(年度SLO实际值);

多个区域多应用SLO实际值=avg(多个区域单应用SLO实际值);

天/月

百分比

未达标应用数量

SLO管理

统计未达标SLO目标的应用数量

统计未达成SLO目标的应用数量,选择全部区域时,任一区域的年度SLO实际值<年度SLO期望值,视为未达标。

天/月

月度SLO期望值

SLO管理

月度服务期望达成的SLO指标

SLO期望值=SLO管理中设定的期望值;

多个应用SLO期望值=avg(SLO期望值);

天/月

百分比

月度SLO实际值

SLO管理

月度服务实际达成的SLO情况

月度SLO实际值=1-(月度服务不可用时长/月度服务总时长)*100%;

单个区域多应用SLO实际值=avg(月度SLO实际值);

多个区域单应用SLO实际值=min(月度SLO实际值);

多个区域多应用SLO实际值=avg(多个区域单应用SLO实际值);

天/月

百分比

应用维度SLO统计

应用SLO统计

SLO管理

统计应用维度的SLO情况

按照应用维度,展示月度SLO实际值。

月度SLO实际值=1-(月度服务不可用时长/月度服务总时长)*100%;

多个区域单应用SLO实际值=min(月度SLO实际值);

天/月

百分比

Error Budget

Error Budget

SLO管理

用于测量实际性能与预期性能之间的差异,用于计算错误成本

当SLO实际值>SLO期望值时:

ErrorBudget=(年度SLO实际值-年度SLO期望值)*全年服务总时长(min);

当SLO实际值≤SLO期望值时,ErrorBudget=0。

天/月

分钟

PRR看板

PRR看板(生产就绪程度评审)中包含评审服务汇总、评估雷达分布、服务复盘、改进任务闭环情况。评审服务汇总体现投入生产前各个服务当前所处的评审阶段,以及通过情况。评估雷达中体现服务不满足的评审项分布。服务复盘和改进呈现对评审不满足项的整改情况。指标详情可查看表6

图6 PRR看板
表6 PRR看板数据字典

模块

指标名称

数据来源

指标定义

计算规则

统计周期

度量单位

服务PRR评审汇总

评审服务总数

PRR评审

统计参与PRR评审的服务数量

选择时间范围内,所有参与PRR评审的服务数量;

天/月

服务PRR评审列表

PRR评审

统计参与PRR各个阶段的服务数量与通过情况

选择时间范围内,参与PRR各个阶段的所有服务数量与通过情况分布;

天/月

评估雷达分布图

评估雷达分布图

PRR评审

统计PRR不满足项的分布

选择时间范围内,各评审项中不满足的项目数量;

天/月

服务复盘

服务复盘列表

PRR评审

统计需要复盘的服务总数以及通过情况

选择时间范围内,需要复盘的服务总数以及复盘通过分布情况;

天/月

改进任务闭环情况

任务闭环统计

PRR评审

统计改进任务数量以及闭环情况

选择时间范围内,所有改进任务的数量以及闭环通过分布情况;

天/月

改进任务列表

PRR评审

统计各个维度的改进任务数量以及闭环情况

按照评审项目维度统计,各个维度的改进任务数量以及闭环分布情况;

天/月