更新时间:2024-04-20 GMT+08:00
分享

运维态势感知

云运维中心提供运维态势感知的能力,包含变更、事件、告警、SLO(服务级别目标)、PRR(生产准备度评估)等多种运维指标数据,从宏观到微观全面呈现运维全局态势,提供企业级运维沙盘。

  • 面向不同角色运维人员的专属运维BI看板,辅助运维优化改进和洞察决策。
  • 预置接入30个+运维指标,构建7张运维态势感知大屏,从宏观到微观全面呈现运维全局态势,提供企业级运维沙盘。

操作场景

通过Cloud Operations Center查看运维态势感知信息。

操作步骤

  1. 登录COC
  2. 进入COC“总览”后,单击“运维态势感知”。
  3. 单击region,应用,日期,可筛选不同条件的运维沙盘信息

运维总览

运维总览包含总览数据、风险冒泡、PRR评审汇总(生产准备度评估)、TOP5事件四个模块。总览数据可以全局视角观测运维态势情况,辅助运维优化改进和洞察决策。风险冒泡通过P3+事件单、WarRoom、变更导致故障以及紧急告警呈现当前运维态势风险情况。PRR评审汇总体现应用上线/转商前的评审情况。通过算法统计影响最严重的Top5事件单,快速识别重大故障场景。指标详情可查看表1

图1 运维总览
表1 运维总览数据字典

模块

指标名称

数据来源

指标定义

计算规则

统计周期

度量单位

刷新频率

总览数据

事件数量

事件中心

统计事件单的数量趋势

选择时间周期内,所有事件单的数量

天/月

T+1

告警数量

告警中心

统计告警的数量趋势

选择时间周期内,所有告警的数量

天/月

T+1

WarRoom数量

WarRoom

统计WarRoom的数量趋势

选择时间周期内,所有WarRoom的数量

天/月

T+1

监控发现率

告警中心

发生的事件单中,有相关告警的事件单占比

符合过滤条件有相关告警的事件数/符合过滤条件总的事件数

天/月

百分比

T+1

变更数量

变更管理

统计变更单的数量趋势

选择时间周期内,所有变更单的数量

天/月

T+1

服务SLO

SLO管理

统计服务SLO实际值的变化趋势

SLO实际值 = 1 - (服务不可用时长 / 云服务总时长)*100%

天/月

百分比

T+1

风险冒泡

变更导致事件数

事件管理

统计变更问题引发事件单数量

事件类型为变更操作问题的事件单数量

天/月

T+1

7天紧急告警数

告警中心

统计近7天紧急告警数量

近7天的紧急告警数量

近7天

T+1

P3+事件

事件管理

统计发生的P3+事件单数量

P1、P2、P3级别的所有事件单的数量,包括未完成状态的事件单

天/月

T+1

Warroom数量

告警中心

统计Warroom数量

选择时间周期内,WarRoom的数量

天/月

T+1

PRR评审汇总

PRR评审服务

PRR评审

统计参与PRR评审的服务数量

参与PRR评审的服务数量

天/月

T+1

PPR评审通过情况

PRR评审

统计在PRR各阶段中,通过与未通过的服务数量

PRR各阶段,通过与未通过的服务数量

天/月

T+1

TOP5事件

TOP5事件

事件管理

统计严重性最高的事件Top5

根据选择时间范围,统计已完成的P3+事件,并先按事件级别排序,再按照中断时长排序,排列TOP5事件

天/月

事件信息

T+1

变更管理

变更管理包含数据概览、变更开销、变更风险三个模块,全方位呈现变更核心指标。数据概览中包含变更时长、成功率、自动化变更率等指标,通过环比和趋势图体现变更整体情况。变更风险根据变更等级、变更方式等分布图,分析变更导致的故障和变更成功率。变更开销统计变更人力和时间趋势,有效控制变更成本。指标详情可查看表2

图2 变更管理
表2 变更管理数据字典

指标名称

数据来源

指标定义

计算规则

统计周期

度量单位

刷新频率

变更导致现网事件

变更管理

统计由于变更原因导致的现网各个级别的事件数量

选择时间范围内,各级别事件单类型为变更操作问题的数量

天/月

T+1

变更等级

变更管理

统计各个等级的变更单的数量

选择时间周期内,各个等级的变更单数量

天/月

T+1

变更方式

变更管理

统计各个方式(手动变更、自动化变更)的变更单数量

计算各个方式的变更单数量

天/月

T+1

变更总量

变更管理

统计的变更单的数量

选择时间周期内,已完成的变更单数量

天/月

T+1

变更成功率

变更管理

统计变更单的成功率情况

变更成功率=变更成功的变更单数量/已完成的变更单数量*100%

天/月

百分比

T+1

变更平均时长

变更管理

统计变更单的平均处理时长

选择时间周期内,已完成的变更单时长求和/已完成的变更单数量*100%

天/月

ddhhmm

T+1

自动化变更率

变更管理

所有变更单中,自动化变更的占比

自动化变更数量/所有变更单数量*100%

天/月

百分比

T+1

变更趋势

变更管理

变更成功和失败的数量以及变更成功率的趋势变化

变更成功和失败的数量以及变更成功率

天/月

T+1

变更人力

变更管理

统计参与变更所需要的人数

变更人力=变更配合人+变更实施人

天/月

人次

T+1

变更时间

变更管理

统计变更单的平均处理时长

选择时间周期内,已完成的变更单时长求和/已完成的变更单数量*100%

天/月

ddhhmm

T+1

事件管理

事件管理包含事件统计、WarRoom、回溯改进三个模块,呈现事件管理全流程核心指标。事件统计中包含数量、闭环率、处理耗时、受损应用等指标,通过环比、趋势图和Top /Bottom排序的方式,呈现事件风险情况。WarRoom中包含受损应用、引起WarRoom事件级别和时间窗,反映重大故障场景的发生和改善情况。回溯改进中包含回溯改进的闭环率和趋势分析,确保对于已发生的故障进行经验沉淀,减少相同故障再次发生的频率和处理时间。指标详情可查看表3

图3 事件管理
表3 事件管理数据字典

模块

指标名称

数据来源

指标定义

计算规则

统计周期

度量单位

刷新频率

事件统计

事件总量

事件管理

统计所有事件单数量

选择时间范围内,所有事件单的数量

天/月

T+1

事件级别

事件管理

统计各个类型和级别的事件单单的数量

选择时间范围内,各个类型和级别的事件单单的数量

天/月

T+1

事件闭环率

事件管理

统计事件单的闭环情况

选择时间范围内,闭环状态的事件单数量/事件单总量*100%

天/月

百分比

T+1

事件耗时

事件管理

统计事件单平均处理时长

已闭环事件单的处理时间求和/已闭环的事件单数量*100%

天/月

ddhhmm

T+1

受损应用

事件管理

统计事件单受损应用数量

去重计算事件单的受损应用数量(包含已删除应用)

天/月

T+1

WarRoom

WarRoom数量

WarRoom

统计所有WarRoom数量

选择时间范围内,所有WarRoom数量

天/月

T+1

故障级别

事件管理

WarRoom关联的事件单级别分布

统计WarRomm关联的各级别事件单的数量

天/月

T+1

受损应用

WarRoom

统计warroom中受损应用的数量

去重计算WarRoom的受损应用数量

天/月

T+1

平均恢复时长

WarRoom

统计WarRoom平均恢复时长

选择时间范围内,已完成的WarRoom时间求和/已完成WarRoom数量

天/月

ddhhmm

T+1

受理时间窗分布

WarRoom

统计WarRoom在各个时间窗内的拉起次数

统计各个时间窗范围内,WarRoom的拉起次数

天/月

T+1

回溯改进

回溯总数

问题管理

所有的回溯单数量

统计时间周期内,所有的回溯单数量

天/月

T+1

回溯闭环率

问题管理

统计回溯单的闭环情况

闭环率=已闭环回溯单数量/回溯单总量*100%

天/月

百分比

T+1

改进总数

问题管理

所有的改进单数量

统计时间周期内,所有的改进单数量

天/月

T+1

改进闭环率

问题管理

统计改进单的闭环情况

闭环率=已闭环改进单数量/改进单总量*100%

天/月

百分比

T+1

SLO看板

SlO看板(服务级别目标)包含SLO总体达成情况、应用维度SLO统计、ErrorBudget管理。SLO总体达成情况可查看年度和月度的总体SLO情况,评估整体的服务水平趋势。应用维度SLO支持按照时间和应用维度查看SLO情况,评估每个应用的服务水平。ErrorBuget根据应用的SLO情况计算出错误成本,用以指导变更或其他高风险操作。指标详情可查看表4

图4 SLO看板
表4 SLO看板数据字典

模块

指标名称

数据来源

指标定义

计算规则

统计周期

度量单位

刷新频率

SLO总体达成情况

年度SLO期望值

SLO管理

全年度应用期望达成的SLO指标

SLO期望值=SLO管理中设定的期望值;

多个应用SLO期望值=avg(SLO期望值);

百分比

T+1

年度SLO实际值

SLO管理

全年度应用实际达成的SLO情况

年度SLO实际值=1-(年度服务不可用时长/全年服务总时长)*100%;

单个区域多应用SLO实际值=avg(年度SLO实际值);

多个区域单应用SLO实际值=min(年度SLO实际值);

多个区域多应用SLO实际值=avg(多个区域单应用SLO实际值);

天/月

百分比

T+1

未达标应用数量

SLO管理

统计未达标SLO目标的应用数量

统计未达成SLO目标的应用数量,选择全部区域时,任一区域的年度SLO实际值<年度SLO期望值,视为未达标。

天/月

T+1

月度SLO期望值

SLO管理

月度服务期望达成的SLO指标

SLO期望值=SLO管理中设定的期望值;

多个应用SLO期望值=avg(SLO期望值);

天/月

百分比

T+1

月度SLO实际值

SLO管理

月度服务实际达成的SLO情况

月度SLO实际值=1-(月度服务不可用时长/月度服务总时长)*100%;

单个区域多应用SLO实际值=avg(月度SLO实际值);

多个区域单应用SLO实际值=min(月度SLO实际值);

多个区域多应用SLO实际值=avg(多个区域单应用SLO实际值);

天/月

百分比

T+1

应用维度SLO统计

应用SLO统计

SLO管理

统计应用维度的SLO情况

按照应用维度,展示月度SLO实际值。

月度SLO实际值=1-(月度服务不可用时长/月度服务总时长)*100%;

多个区域单应用SLO实际值=min(月度SLO实际值);

天/月

百分比

T+1

Error Budget

Error Budget

SLO管理

用于测量实际性能与预期性能之间的差异,用于计算错误成本

当SLO实际值>SLO期望值时:

ErrorBudget=(年度SLO实际值-年度SLO期望值)*全年服务总时长(min);

当SLO实际值≤SLO期望值时,ErrorBudget=0。

天/月

分钟

T+1

PRR看板

PRR看板(生产就绪程度评审)中包含评审服务汇总、评估雷达分布、服务复盘、改进任务闭环情况。评审服务汇总体现投入生产前各个服务当前所处的评审阶段,以及通过情况。评估雷达中体现服务不满足的评审项分布。服务复盘和改进呈现对评审不满足项的整改情况。指标详情可查看表5

图5 PRR看板
表5 PRR看板数据字典

模块

指标名称

数据来源

指标定义

计算规则

统计周期

度量单位

刷新频率

服务PRR评审汇总

评审服务总数

PRR评审

统计参与PRR评审的服务数量

选择时间范围内,所有参与PRR评审的服务数量;

天/月

T+1

服务PRR评审列表

PRR评审

统计参与PRR各个阶段的服务数量与通过情况

选择时间范围内,参与PRR各个阶段的所有服务数量与通过情况分布;

天/月

T+1

评估雷达分布图

评估雷达分布图

PRR评审

统计PRR不满足项的分布

选择时间范围内,各评审项中不满足的项目数量;

天/月

T+1

服务复盘

服务复盘列表

PRR评审

统计需要复盘的服务总数以及通过情况

选择时间范围内,需要复盘的服务总数以及复盘通过分布情况;

天/月

T+1

改进任务闭环情况

任务闭环统计

PRR评审

统计改进任务数量以及闭环情况

选择时间范围内,所有改进任务的数量以及闭环通过分布情况;

天/月

T+1

改进任务列表

PRR评审

统计各个维度的改进任务数量以及闭环情况

按照评审项目维度统计,各个维度的改进任务数量以及闭环分布情况;

天/月

T+1

分享:

    相关文档

    相关产品