使用运维BI查看运维指标
云运维中心提供运维BI的能力,包含变更、事件、告警、安全合规、SLO(服务级别目标)、PRR(生产准备度评估)等多种运维指标数据,从宏观到微观全面呈现运维全局态势,提供企业级运维沙盘。
- 面向不同角色运维人员的专属运维BI看板,辅助运维优化改进和洞察决策。
- 预置接入30+个运维指标,构建7张运维BI大屏,从宏观到微观全面呈现运维全局态势,提供企业级运维沙盘。
- 支持组织/委托管理员跨账号查看组织成员账号的运维态势,提供跨账号场景下的多区域、多应用数据汇聚能力。
前提条件
约束与限制
关于数据精度:除了SLO保留小数点后三位,其他环比、百分比(百分率)等指标统一保留小数点后两位。
使用运维BI查看运维指标
- 登录云运维中心。
- 在左侧导航栏选择“总览”。
- 单击右上角“运维BI”,进入“运维BI”页面。
- 根据组织账号、区域、应用、日期筛选不同条件的运维态势信息。图1 按照组织账号筛选


跨账号场景下,如未选择账号,默认展示当前账号的运维态势数据。
除监控告警-原始告警数据外,其余运维BI数据刷新时效性为T+1。
图2 跨账号场景的应用数据汇聚
- 单击左上角页签,可以切换各运维指标看板。
包括运维总览、变更管理、故障管理、监控告警、安全合规、SLO看板和PRR看板七大核心模块,各看板功能定位与指标说明如下:
运维总览包含总览数据、风险冒泡、PRR评审汇总(生产准备度评估)、TOP5故障四个模块。总览数据可以全局视角观测运维态势情况,辅助运维优化改进和洞察决策。风险冒泡通过风险故障、WarRoom、变更导致故障呈现当前运维态势风险情况。PRR评审汇总体现应用上线/转商前的评审情况。TOP5故障通过算法统计影响最严重的Top5事件单,快速识别重大故障场景。指标详情可查看表1。
运维总览数据统计规则如下:
- 事件单数量统计范围不含草稿、客户已关闭状态;
- 问题单数量统计范围不含已撤销、待提交状态;
- 告警数量仅统计 “告警中” 状态;
- 变更数量仅统计已完成状态的变更单。

注:运维总览中事件单数量不统计草稿、客户已关闭状态;问题单数量不统计已撤销、待提交状态;告警数量只统计告警中状态;变更数只统计已完成状态的变更单。
模块 | 指标名称 | 数据来源 | 指标定义 | 计算规则 | 统计周期 | 度量单位 |
|---|---|---|---|---|---|---|
总览数据 | 事件 | 事件中心 | 统计事件单的数量趋势 | 选择时间周期内,所有事件单的数量 | 天/月 | 个 |
告警 | 告警中心 | 统计汇聚告警的数量趋势 | 选择时间周期内,所有汇聚告警的数量 | 天/月 | 个 | |
问题 | 问题管理 | 统计问题单的数量趋势 | 选择时间周期内,所有问题单的数量 | 天/月 | 个 | |
WarRoom | WarRoom | 统计WarRoom的数量趋势 | 选择时间周期内,所有WarRoom的数量 | 天/月 | 个 | |
变更 | 变更管理 | 统计变更单的数量趋势 | 选择时间周期内,所有变更单的数量 | 天/月 | 个 | |
服务SLO | SLO管理 | 统计服务SLO实际值的变化趋势 | SLO实际值 =1 - (服务不可用时长 / 云服务总时长)*100% | 天/月 | 百分比 | |
风险冒泡 | 变更导致故障数 | 事件管理 | 统计变更问题引发事件单数量 | 事件类型为变更操作问题的事件单数量 | 天/月 | 个 |
风险故障 | 事件管理 | 统计发生的P3+事件单数量 | P1、P2、P3级别的所有事件单的数量,包括未完成状态的事件单 | 天/月 | 个 | |
Warroom | 告警中心 | 统计Warroom数量 | 选择时间周期内,WarRoom的数量 | 天/月 | 个 | |
PRR评审汇总 | PRR评审应用 | PRR评审 | 统计参与PRR评审的应用数量 | 参与PRR评审的应用数量 | 天/月 | 个 |
PRR评审通过情况 | PRR评审 | 统计在PRR各阶段中,通过与未通过的服务数量 | PRR各阶段,通过与未通过的服务数量 | 天/月 | 个 | |
TOP5故障 | TOP5故障 | 事件管理 | 统计严重性最高的事件Top5 | 根据选择时间范围,统计已完成的P3+事件,并先按事件级别排序,再按照中断时长排序,排列TOP5事件 | 天/月 | 事件信息 |
变更管理包含变更概览、变更开销、变更风险三个模块,全面呈现变更核心指标。数据概览中包含变更平均时长、成功率等指标,通过环比和趋势图体现变更整体情况。变更风险根据变更等级分布图,分析变更导致的故障。变更开销统计变更人力和时间趋势,有效控制变更成本。指标详情可查看表2。

模块 | 指标名称 | 数据来源 | 指标定义 | 计算规则 | 统计周期 | 度量单位 |
|---|---|---|---|---|---|---|
变更概览 | 变更总量 | 变更管理 | 统计的变更单的数量 | 选择时间周期内,已完成的变更单数量 | 天/月 | 个 |
变更成功率 | 变更管理 | 统计变更单的成功率情况 | 变更成功率=变更成功的变更单数量/已完成的变更单数量*100% | 天/月 | 百分比 | |
变更平均时长 | 变更管理 | 统计变更单的平均处理时长 | 选择时间周期内,已完成的变更单时长求和/已完成的变更单数量*100% | 天/月 | ddhhmm | |
变更趋势 | 变更管理 | 变更成功和失败的数量以及变更成功率的趋势变化 | 变更成功和失败的数量以及变更成功率 | 天/月 | 个 | |
变更开销 | 变更人力 | 变更管理 | 统计参与变更所需要的人数 | 变更人力=变更配合人+变更实施人 | 天/月 | 人次 |
变更时间 | 变更管理 | 统计变更单的平均处理时长 | 选择时间周期内,已完成的变更单时长求和/已完成的变更单数量*100% | 天/月 | ddhhmm | |
变更风险 | 变更导致的现网故障 | 变更管理 | 统计由于变更原因导致的现网各个级别的事件数量 | 选择时间范围内,各级别事件单类型为变更操作问题的数量 | 天/月 | 个 |
变更等级 | 变更管理 | 统计各个等级的变更单的数量 | 选择时间周期内,各个等级的变更单数量 | 天/月 | 个 |
故障管理包含事件统计、WarRoom、问题改进三个模块,呈现事件管理全流程核心指标。事件统计中包含数量、闭环率、处理耗时、受损应用、SLA达成率等指标,通过环比、趋势图和Top/Bottom排序的方式,呈现事件风险情况。WarRoom中包含受损应用、引起WarRoom事件级别和时间窗,反映重大故障场景的发生和改善情况。问题改进中包含问题改进的完成率和趋势分析,确保对于已发生的故障进行经验沉淀,减少相同故障再次发生的频率和处理时间。指标详情可查看表3。

模块 | 指标名称 | 数据来源 | 指标定义 | 计算规则 | 统计周期 | 度量单位 |
|---|---|---|---|---|---|---|
事件统计 | 事件总量 | 事件管理 | 统计所有事件单数量 | 选择时间范围内,所有事件单的数量 注:草稿、客户已关闭状态的事件单不计 | 天/月 | 个 |
事件级别 | 事件管理 | 统计各个类型和级别的事件单的数量 | 选择时间范围内,各个类型和级别的事件单的数量 | 天/月 | 个 | |
事件闭环率 | 事件管理 | 统计事件单的闭环情况 | 选择时间范围内,“已完成”状态的事件单数量/事件单总量*100% | 天/月 | 百分比 | |
平均事件耗时 | 事件管理 | 统计事件单平均处理时长 | 已闭环事件单的处理时间求和/已闭环的事件单数量*100% | 天/月 | ddhhmm | |
受损应用 | 事件管理 | 统计事件单受损应用数量 | 去重计算事件单的受损应用数量(包含已删除应用) | 天/月 | 个 | |
事件SLA达成率 | SLA管理 | 统计事件单SLA达成情况 | 未打破SLA的事件单数量/纳入统计的事件单总量*100% | 天/月 | 百分比 | |
WarRoom | WarRoom | WarRoom | 统计所有WarRoom数量 | 选择时间范围内,所有WarRoom数量 | 天/月 | 个 |
事件级别 | 事件管理 | WarRoom关联的事件单级别分布 | 统计WarRoom关联的各级别事件单的数量 | 天/月 | 个 | |
受损应用 | WarRoom | 统计WarRoom中受损应用的数量 | 去重计算WarRoom的受损应用数量 | 天/月 | 个 | |
平均处理时长 | WarRoom | 统计WarRoom平均处理时长 | 选择时间范围内,已关闭的WarRoom处理时间总和/已关闭WarRoom数量 | 天/月 | ddhhmm | |
受理时间窗分布 | WarRoom | 统计WarRoom在各个时间窗内的拉起次数 | 统计各个时间窗范围内,WarRoom的拉起次数 | 天/月 | 个 | |
问题改进 | 问题总数 | 问题管理 | 所有的问题单数量 | 统计时间周期内,除“已撤销”和“待提交”状态外的所有的问题单数量 | 天/月 | 个 |
问题完成率 | 问题管理 | 统计问题单的闭环情况 | 闭环率=已完成问题单数量/问题单总量*100% | 天/月 | 百分比 | |
改进总数 | 改进管理 | 所有的改进单数量 | 统计时间周期内,除“草稿”状态的所有的改进单数量 | 天/月 | 个 | |
改进完成率 | 改进管理 | 统计改进单的闭环情况 | 闭环率=已完成改进单数量/改进单总量*100% | 天/月 | 百分比 |
监控告警将告警信息以直观的图表形式展示,使运维人员快速掌握服务的整体状况,监控告警中含告警分析、告警成本、告警质量三个模块,体现告警管理核心指标。告警分析中提供告警总量、告警级别、Top应用、告警降量和告警趋势等指标,运维主管可通过对历史告警数据的分析,了解服务告警的趋势和模式,发现潜在的性能问题或故障隐患。告警成本统计告警闭环率和自动化处理率,运维主管可以利用告警成本有效控制变更的人力成本。告警质量统计事件单故障和WarRoom的告警发现率,帮助运维主管评估当前告警的有效性,并及时进行告警配置的优化。指标详情可查看表4。

模块 | 指标名称 | 数据来源 | 指标定义 | 计算规则 | 统计周期 | 度量单位 |
|---|---|---|---|---|---|---|
告警分析 | 告警总量 | 告警管理 | 统计状态为“告警中”告警的数量 | 选择时间范围内,状态为“告警中”告警的数量 | 天/月 | 个 |
告警级别 | 告警管理 | 统计各个级别的状态为“告警中”告警的数量 | 选择时间范围内,各个级别的状态为“告警中”告警的数量 | 天/月 | 个 | |
告警趋势 | 告警管理 | 选择时间范围内,各级别告警的数量趋势变化 | 选择时间范围内,各个级别的告警的数量 | 天/月 | 个 | |
告警成本 | 告警闭环率 | 告警管理 | 统计告警闭环情况 | 选择时间范围内,已闭环告警数量/告警总数量*100% | 天/月 | 百分比 |
告警自动化处理率 | 告警管理 | 统计告警的自动化处理情况 | 选择时间范围内,自动化处理告警/告警总数*100% | 天/月 | 百分比 | |
原始告警-告警质量 | 故障告警发现率 | 事件管理 | 统计所有事件单中,由告警发现的事件单数量 | 选择时间范围内,告警转事件单数量/事件单总数量*100% | 天/月 | 百分比 |
WarRoom告警发现率 | WarRoom | 统计所有WarRoom中,由告警发现的WarRoom数量 | 选择时间范围内,告警转事件拉起的WarRoom数量/WarRoom 总数量*100% | 天/月 | 百分比 | |
汇聚告警-告警SLA统计 | 告警SLA达成率 | SLA管理 | 统计汇聚告警SLA达成情况 | 未打破SLA的告警数量/纳入统计的告警总量*100% | 天/月 | 百分比 |

告警总量指标中,页面呈现的气泡代表各级告警最多的应用,其中:紧急告警展示top1,重要告警展示top5,次要告警展示top10,提示告警展示top10。
安全合规包含补丁扫描数量统计和账号纳管数据统计。补丁扫描支持按照区域、应用和操作系统维度查看实例合规数据、按时间段范围展示实例已扫描数量统计。

模块 | 指标名称 | 数据来源 | 指标定义 | 计算规则 | 统计周期 | 度量单位 |
|---|---|---|---|---|---|---|
补丁管理 | 实例扫描统计 | 补丁管理/CMDB | 租户账号下所有ECS,执行过补丁扫描和未执行过扫描的实例数量 | 未扫描实例=全量实例-扫描实例 | 区域、应用 | 个 |
实例合规性状态 | 补丁管理 | 已扫描过的实例中,合规的实例数量和不合规的实例数量 | 统计补丁管理中各合规性状态的实例数量 | 区域、应用 | 个 | |
最近扫描时间 | 补丁管理 | 统计已扫描的实例,最近一次的扫描时间区间 | 统计已扫描的实例,最近一次的扫描时间区间 | 区域、应用 | 个 | |
账号管理 | 纳管实例数量 | 账号管理 | 统计账号管理中,纳管的各云服务实例数量 | 统计账号管理中,纳管的各云服务实例数量 | 区域、应用 | 个 |
纳管率 | 账号管理 | 统计所有实例中,纳管的各云服务实例数量占比 | 纳管率=已纳管数量/实例总数*100% | 区域、应用 | 百分比 | |
纳管实例统计 | 账号管理 | 按照时间周期,呈现实例纳管的趋势情况 | 按照时间周期,呈现实例纳管的趋势情况 | 区域、应用 | - |
SLO看板(服务级别目标)包含SLO总体达成情况、应用维度SLO统计、ErrorBudget管理。SLO总体达成情况可查看年度和月度的总体SLO情况,评估整体的服务水平趋势。应用维度SLO支持按照时间和应用维度查看SLO情况,评估每个应用的服务水平。ErrorBudget根据应用的SLO情况计算出错误成本,用以指导变更或其他高风险操作。指标详情可查看表6。

模块 | 指标名称 | 数据来源 | 指标定义 | 计算规则 | 统计周期 | 度量单位 |
|---|---|---|---|---|---|---|
SLO总体达成情况 | 年度SLO期望值 | SLO管理 | 全年度应用期望达成的SLO指标 | SLO期望值=SLO管理中设定的期望值; 多个应用SLO期望值=avg(SLO期望值); | 年 | 百分比 |
年度SLO实际值 | SLO管理 | 全年度应用实际达成的SLO情况 | 年度SLO实际值=1-(年度应用不可用时长/全年应用总时长)*100%; 单个区域多应用SLO实际值=avg(单个区域单应用年度SLO实际值); 多个区域单应用SLO实际值=min(单个区域单应用年度SLO实际值); 多个区域多应用SLO实际值=avg(多个区域单应用SLO实际值); | 天/月 | 百分比 | |
未达标应用数量 | SLO管理 | 统计未达标SLO目标的应用数量 | 统计未达成SLO目标的应用数量,选择全部区域时,任一区域的年度SLO实际值<年度SLO期望值,视为未达标 | 天/月 | 个 | |
月度SLO期望值 | SLO管理 | 月度应用期望达成的SLO指标 | SLO期望值=SLO管理中设定的期望值; 多个应用SLO期望值=avg(SLO期望值); | 天/月 | 百分比 | |
月度SLO实际值 | SLO管理 | 月度应用实际达成的SLO情况 | 月度SLO实际值=1-(月度应用不可用时长/月度应用总时长)*100%; 单个区域多应用SLO实际值=avg(单个区域单应用月度SLO实际值); 多个区域单应用SLO实际值=min(单个区域单应用月度SLO实际值); 多个区域多应用SLO实际值=avg(多个区域单应用SLO实际值); | 天/月 | 百分比 | |
应用维度SLO统计 | 应用SLO统计 | SLO管理 | 统计应用维度的SLO情况 | 按照应用维度,展示月度SLO实际值; 月度SLO实际值=1-(月度应用不可用时长/月度应用总时长)*100%; 多个区域单应用SLO实际值=min(单个区域单应用月度SLO实际值); | 天/月 | 百分比 |
Error Budget | Error Budget | SLO管理 | 用于测量实际性能与预期性能之间的差异,用于计算错误成本 | 当SLO实际值>SLO期望值时: ErrorBudget=(年度SLO实际值-年度SLO期望值)*全年服务总时长(min); 当SLO实际值≤SLO期望值时,ErrorBudget=0; | 天/月 | 分钟 |
单击“应用维度SLO统计”中任意指标,进入“应用SLI实时数据”页面。
当前页面只支持展示请求型和实例型两种中断类型的记录。
PRR看板(生产就绪程度评审)中包含评审服务汇总、评估雷达分布、改进任务闭环情况。评审服务汇总体现投入生产前各个服务当前所处的评审阶段,以及通过情况。评估雷达分布图中体现服务不满足的评审项分布。改进任务闭环情况呈现对评审不满足项的整改情况。指标详情可查看表8。

模块 | 指标名称 | 数据来源 | 指标定义 | 计算规则 | 统计周期 | 度量单位 |
|---|---|---|---|---|---|---|
PRR评审汇总 | 评审服务 | PRR评审 | 统计参与PRR评审的服务数量。 | 选择时间范围内,所有参与PRR评审的去重服务数量 | 天/月 | 个 |
应用PRR评审列表 | PRR评审 | 统计参与PRR各个阶段的应用数量与通过情况。 | 选择时间范围内,参与PRR各个阶段的所有应用评审数量与通过情况分布(应用不去重) | 天/月 | 个 | |
评估雷达分布图 | 评估雷达分布 | PRR评审 | 统计PRR不满足项的分布。 当前只支持系统模板检查项展示。 | 选择时间范围内,各评审项中不满足的项目数量 | 天/月 | 个 |
改进任务闭环情况 | 改进任务状态分布 | PRR评审 | 统计改进任务数量以及状态分布。 | 选择时间范围内,所有改进任务的数量以及状态分布情况 | 天/月 | 个 |
改进任务列表 | PRR评审 | 统计各个维度的改进任务数量以及闭环情况。 | 按照评审项目维度统计,各个维度的改进任务数量以及状态分布情况 | 天/月 | 个 |
下载运维报告
- 登录云运维中心。
- 在左侧导航栏选择“总览”,进入云运维中心总览页面。
- 单击页面右上角“运维BI”,进入“运维BI”页面。
- 单击页面右上角“下载报告”,进入“运维BI_运维报告”页面。图10 查看运维报告

- 在“运维BI_运维报告”页面,单击页面右上角“下载报告”,即可将运维报告以PDF格式下载至本地,方便后续查看、存档及分享。图11 下载运维报告


