运维态势感知
云运维中心提供运维态势感知的能力,包含变更、事件、告警、安全合规、SLO(服务级别目标)、PRR(生产准备度评估)等多种运维指标数据,从宏观到微观全面呈现运维全局态势,提供企业级运维沙盘。
- 面向不同角色运维人员的专属运维BI看板,辅助运维优化改进和洞察决策。
- 预置接入30个+运维指标,构建7张运维态势感知大屏,从宏观到微观全面呈现运维全局态势,提供企业级运维沙盘。
- 支持组织/委托管理员跨账号查看组织成员账号的运维态势,提供跨账号场景下的多区域、多应用数据汇聚能力。
前提条件
如果您是在单账号场景下使用运维态势感知,您可跳过此部分内容,查看操作步骤。
如果您是在跨账号场景下使用运维态势感知,需要满足以下前提条件:
1、当前账号已经开启跨账号管理,并且是组织/委托管理员账号。
2、组织成员账号已开通云运维中心COC服务。
操作场景
通过Cloud Operations Center查看运维态势感知信息。
操作步骤
- 登录COC。
- 进入COC“总览”后,单击“运维态势感知”,进入“运维态势感知”页面。
- 根据region、应用、日期筛选不同条件的运维沙盘信息。
- 根据组织账号、区域、应用、日期筛选不同条件的运维态势信息。
图1 按照组织账号筛选
跨账号场景下,如未选择账号,默认展示当前账号的运维态势数据。
图2 跨账号场景的应用数据汇聚
运维总览
运维总览包含总览数据、风险冒泡、PRR评审汇总(生产准备度评估)、TOP5事件四个模块。总览数据可以全局视角观测运维态势情况,辅助运维优化改进和洞察决策。风险冒泡通过P3+事件单、WarRoom、变更导致故障以及紧急告警呈现当前运维态势风险情况。PRR评审汇总体现应用上线/转商前的评审情况。通过算法统计影响最严重的Top5事件单,快速识别重大故障场景。指标详情可查看表1。
模块 |
指标名称 |
数据来源 |
指标定义 |
计算规则 |
统计周期 |
度量单位 |
---|---|---|---|---|---|---|
总览数据 |
事件数量 |
事件中心 |
统计事件单的数量趋势 |
选择时间周期内,所有事件单的数量 |
天/月 |
个 |
告警数量 |
告警中心 |
统计告警的数量趋势 |
选择时间周期内,所有告警的数量 |
天/月 |
个 |
|
WarRoom数量 |
WarRoom |
统计WarRoom的数量趋势 |
选择时间周期内,所有WarRoom的数量 |
天/月 |
个 |
|
监控发现率 |
告警中心 |
发生的事件单中,有相关告警的事件单占比 |
符合过滤条件有相关告警的事件数/符合过滤条件总的事件数 |
天/月 |
百分比 |
|
变更数量 |
变更管理 |
统计变更单的数量趋势 |
选择时间周期内,所有变更单的数量 |
天/月 |
个 |
|
服务SLO |
SLO管理 |
统计服务SLO实际值的变化趋势 |
SLO实际值 = 1 - (服务不可用时长 / 云服务总时长)*100% |
天/月 |
百分比 |
|
风险冒泡 |
变更导致事件数 |
事件管理 |
统计变更问题引发事件单数量 |
事件类型为变更操作问题的事件单数量 |
天/月 |
个 |
7天紧急告警数 |
告警中心 |
统计近7天紧急告警数量 |
近7天的紧急告警数量 |
近7天 |
个 |
|
P3+事件 |
事件管理 |
统计发生的P3+事件单数量 |
P1、P2、P3级别的所有事件单的数量,包括未完成状态的事件单 |
天/月 |
个 |
|
Warroom数量 |
告警中心 |
统计Warroom数量 |
选择时间周期内,WarRoom的数量 |
天/月 |
个 |
|
PRR评审汇总 |
PRR评审服务 |
PRR评审 |
统计参与PRR评审的服务数量 |
参与PRR评审的服务数量 |
天/月 |
个 |
PRR评审通过情况 |
PRR评审 |
统计在PRR各阶段中,通过与未通过的服务数量 |
PRR各阶段,通过与未通过的服务数量 |
天/月 |
个 |
|
TOP5事件 |
TOP5事件 |
事件管理 |
统计严重性最高的事件Top5 |
根据选择时间范围,统计已完成的P3+事件,并先按事件级别排序,再按照中断时长排序,排列TOP5事件 |
天/月 |
事件信息 |
变更管理
变更管理包含数据概览、变更开销、变更风险三个模块,全方位呈现变更核心指标。数据概览中包含变更时长、成功率、自动化变更率等指标,通过环比和趋势图体现变更整体情况。变更风险根据变更等级、变更方式等分布图,分析变更导致的故障和变更成功率。变更开销统计变更人力和时间趋势,有效控制变更成本。指标详情可查看表2。
指标名称 |
数据来源 |
指标定义 |
计算规则 |
统计周期 |
度量单位 |
---|---|---|---|---|---|
变更导致现网事件 |
变更管理 |
统计由于变更原因导致的现网各个级别的事件数量 |
选择时间范围内,各级别事件单类型为变更操作问题的数量 |
天/月 |
个 |
变更等级 |
变更管理 |
统计各个等级的变更单的数量 |
选择时间周期内,各个等级的变更单数量 |
天/月 |
个 |
变更方式 |
变更管理 |
统计各个方式(手动变更、自动化变更)的变更单数量 |
计算各个方式的变更单数量 |
天/月 |
个 |
变更总量 |
变更管理 |
统计的变更单的数量 |
选择时间周期内,已完成的变更单数量 |
天/月 |
个 |
变更成功率 |
变更管理 |
统计变更单的成功率情况 |
变更成功率=变更成功的变更单数量/已完成的变更单数量*100% |
天/月 |
百分比 |
变更平均时长 |
变更管理 |
统计变更单的平均处理时长 |
选择时间周期内,已完成的变更单时长求和/已完成的变更单数量*100% |
天/月 |
ddhhmm |
自动化变更率 |
变更管理 |
所有变更单中,自动化变更的占比 |
自动化变更数量/所有变更单数量*100% |
天/月 |
百分比 |
变更趋势 |
变更管理 |
变更成功和失败的数量以及变更成功率的趋势变化 |
变更成功和失败的数量以及变更成功率 |
天/月 |
个 |
变更人力 |
变更管理 |
统计参与变更所需要的人数 |
变更人力=变更配合人+变更实施人 |
天/月 |
人次 |
变更时间 |
变更管理 |
统计变更单的平均处理时长 |
选择时间周期内,已完成的变更单时长求和/已完成的变更单数量*100% |
天/月 |
ddhhmm |
故障管理
故障管理包含事件统计、WarRoom、回溯改进三个模块,呈现事件管理全流程核心指标。事件统计中包含数量、闭环率、处理耗时、受损应用等指标,通过环比、趋势图和Top /Bottom排序的方式,呈现事件风险情况。WarRoom中包含受损应用、引起WarRoom事件级别和时间窗,反映重大故障场景的发生和改善情况。回溯改进中包含回溯改进的闭环率和趋势分析,确保对于已发生的故障进行经验沉淀,减少相同故障再次发生的频率和处理时间。指标详情可查看表3。
模块 |
指标名称 |
数据来源 |
指标定义 |
计算规则 |
统计周期 |
度量单位 |
---|---|---|---|---|---|---|
事件统计 |
事件总量 |
事件管理 |
统计所有事件单数量 |
选择时间范围内,所有事件单的数量 |
天/月 |
个 |
事件级别 |
事件管理 |
统计各个类型和级别的事件单的数量 |
选择时间范围内,各个类型和级别的事件单的数量 |
天/月 |
个 |
|
事件闭环率 |
事件管理 |
统计事件单的闭环情况 |
选择时间范围内,闭环状态的事件单数量/事件单总量*100% |
天/月 |
百分比 |
|
事件耗时 |
事件管理 |
统计事件单平均处理时长 |
已闭环事件单的处理时间求和/已闭环的事件单数量*100% |
天/月 |
ddhhmm |
|
受损应用 |
事件管理 |
统计事件单受损应用数量 |
去重计算事件单的受损应用数量(包含已删除应用) |
天/月 |
个 |
|
WarRoom |
WarRoom数量 |
WarRoom |
统计所有WarRoom数量 |
选择时间范围内,所有WarRoom数量 |
天/月 |
个 |
故障级别 |
事件管理 |
WarRoom关联的事件单级别分布 |
统计WarRoom关联的各级别事件单的数量 |
天/月 |
个 |
|
受损应用 |
WarRoom |
统计WarRoom中受损应用的数量 |
去重计算WarRoom的受损应用数量 |
天/月 |
个 |
|
平均恢复时长 |
WarRoom |
统计WarRoom平均恢复时长 |
选择时间范围内,已完成的WarRoom时间求和/已完成WarRoom数量 |
天/月 |
ddhhmm |
|
受理时间窗分布 |
WarRoom |
统计WarRoom在各个时间窗内的拉起次数 |
统计各个时间窗范围内,WarRoom的拉起次数 |
天/月 |
个 |
|
回溯改进 |
回溯总数 |
问题管理 |
所有的回溯单数量 |
统计时间周期内,所有的回溯单数量 |
天/月 |
个 |
回溯闭环率 |
问题管理 |
统计回溯单的闭环情况 |
闭环率=已闭环回溯单数量/回溯单总量*100% |
天/月 |
百分比 |
|
改进总数 |
问题管理 |
所有的改进单数量 |
统计时间周期内,所有的改进单数量 |
天/月 |
个 |
|
改进闭环率 |
问题管理 |
统计改进单的闭环情况 |
闭环率=已闭环改进单数量/改进单总量*100% |
天/月 |
百分比 |
监控告警
监控告警将告警信息以直观的图表形式展示,使运维人员快速掌握服务的整体状况,监控告警中含告警分析、告警成本、告警质量三个模块,体现告警管理核心指标。告警分析中提供告警总量、告警级别、Top10应用、告警降量和告警趋势等指标,运维主管可通过对历史告警数据的分析,了解服务告警的趋势和模式,发现潜在的性能问题或故障隐患。告警成本统计告警人力情况和自动化处理率,运维主管可以利用告警成本有效控制变更的人力成本。告警质量统计事件单和WarRoom的告警发现率,帮助运维主管评估当前告警的有效性,并及时进行告警配置的优化。指标详情可查看表4。
模块 |
指标名称 |
数据来源 |
指标定义 |
计算规则 |
统计周期 |
度量单位 |
---|---|---|---|---|---|---|
告警分析 |
告警总量 |
告警管理 |
统计所有告警的数量 |
选择时间范围内,所有告警的数量 |
天/月 |
个 |
告警级别 |
告警管理 |
统计各个级别的告警的数量 |
选择时间范围内,各个级别的告警的数量 |
天/月 |
个 |
|
告警趋势 |
告警管理 |
选择时间范围内,各级别告警的数量趋势变化 |
选择时间范围内,各个级别的告警的数量 |
天/月 |
个 |
|
告警成本 |
告警参与人数 |
告警管理 |
统计参与处理告警的人数 |
去重计算集成告警的责任人数量 |
天/月 |
人 |
人均告警处理量 |
告警管理 |
统计人均处理的告警数量 |
选择时间范围内,告警总数量/告警参与人数 |
天/月 |
人 |
|
告警自动化处理率 |
告警管理 |
统计告警的自动化处理情况 |
选择时间范围内,自动化处理告警/告警总数*100% |
天/月 |
百分比 |
|
告警质量 |
故障告警发现率 |
事件管理 |
统计所有事件单中,由告警发现的事件单数量 |
选择时间范围内,告警转事件单数量/事件单总数量*100% |
天/月 |
百分比 |
WarRoom告警发现率 |
WarRoom |
统计所有WarRoom中,由告警发现的WarRoom数量 |
选择时间范围内,告警转事件拉起的WarRoom数量/WarRoom 总数量*100% |
天/月 |
百分比 |
|
告警冒泡 |
告警冒泡 |
告警管理 |
按照应用维度,展示告警的风险冒泡情况 |
按照应用下告警的级别和数量进行加权计算并排序 |
天/月 |
不涉及 |
安全合规
安全合规包含补丁扫描数量统计和账号纳管数据统计(待实现)。补丁扫描支持按照区域、应用和操作系统维度查看实例合规数据、按时间段范围展示实例已扫描数量统计。
模块 |
指标名称 |
数据来源 |
指标定义 |
计算规则 |
统计周期 |
度量单位 |
---|---|---|---|---|---|---|
补丁管理 |
实例扫描情况 |
补丁管理/CMDB |
租户账号下所有ECS,执行过补丁扫描和未执行过扫描的实例数量 |
未扫描实例=全量实例-扫描实例; |
区域、应用 |
个 |
实例合规性状态 |
补丁管理 |
已扫描过的实例中,合规的实例数量和不合规的实例数量 |
统计补丁管理中各合规性状态的实例数量; |
区域、应用 |
个 |
|
最近扫描时间 |
补丁管理 |
统计已扫描的实例,最近一次的扫描时间区间 |
统计已扫描的实例,最近一次的扫描时间区间 |
区域、应用 |
个 |
|
账号管理 |
纳管实例数量 |
账号管理 |
统计账号管理中,纳管的各云服务实例数量 |
统计账号管理中,纳管的各云服务实例数量 |
区域、应用 |
个 |
纳管率 |
账号管理 |
统计所有实例中,纳管的各云服务实例数量占比 |
纳管率=已纳管数量/实例总数*100% |
区域、应用 |
百分比 |
|
纳管实例统计 |
账号管理 |
按照时间周期,呈现实例纳管的趋势情况 |
按照时间周期,呈现实例纳管的趋势情况 |
区域、应用 |
- |
SLO看板
SlO看板(服务级别目标)包含SLO总体达成情况、应用维度SLO统计、ErrorBudget管理。SLO总体达成情况可查看年度和月度的总体SLO情况,评估整体的服务水平趋势。应用维度SLO支持按照时间和应用维度查看SLO情况,评估每个应用的服务水平。ErrorBuget根据应用的SLO情况计算出错误成本,用以指导变更或其他高风险操作。指标详情可查看表5。
模块 |
指标名称 |
数据来源 |
指标定义 |
计算规则 |
统计周期 |
度量单位 |
---|---|---|---|---|---|---|
SLO总体达成情况 |
年度SLO期望值 |
SLO管理 |
全年度应用期望达成的SLO指标 |
SLO期望值=SLO管理中设定的期望值; 多个应用SLO期望值=avg(SLO期望值); |
年 |
百分比 |
年度SLO实际值 |
SLO管理 |
全年度应用实际达成的SLO情况 |
年度SLO实际值=1-(年度应用不可用时长/全年应用总时长)*100%; 单个区域多应用SLO实际值=avg(年度SLO实际值); 多个区域单应用SLO实际值=min(年度SLO实际值); 多个区域多应用SLO实际值=avg(多个区域单应用SLO实际值); |
天/月 |
百分比 |
|
未达标应用数量 |
SLO管理 |
统计未达标SLO目标的应用数量 |
统计未达成SLO目标的应用数量,选择全部区域时,任一区域的年度SLO实际值<年度SLO期望值,视为未达标。 |
天/月 |
个 |
|
月度SLO期望值 |
SLO管理 |
月度应用期望达成的SLO指标 |
SLO期望值=SLO管理中设定的期望值; 多个应用SLO期望值=avg(SLO期望值); |
天/月 |
百分比 |
|
月度SLO实际值 |
SLO管理 |
月度应用实际达成的SLO情况 |
月度SLO实际值=1-(月度应用不可用时长/月度应用总时长)*100%; 单个区域多应用SLO实际值=avg(月度SLO实际值); 多个区域单应用SLO实际值=min(月度SLO实际值); 多个区域多应用SLO实际值=avg(多个区域单应用SLO实际值); |
天/月 |
百分比 |
|
应用维度SLO统计 |
应用SLO统计 |
SLO管理 |
统计应用维度的SLO情况 |
按照应用维度,展示月度SLO实际值。 月度SLO实际值=1-(月度应用不可用时长/月度应用总时长)*100%; 多个区域单应用SLO实际值=min(月度SLO实际值); |
天/月 |
百分比 |
Error Budget |
Error Budget |
SLO管理 |
用于测量实际性能与预期性能之间的差异,用于计算错误成本 |
当SLO实际值>SLO期望值时: ErrorBudget=(年度SLO实际值-年度SLO期望值)*全年服务总时长(min); 当SLO实际值≤SLO期望值时,ErrorBudget=0。 |
天/月 |
分钟 |
PRR看板
PRR看板(生产就绪程度评审)中包含评审服务汇总、评估雷达分布、服务复盘、改进任务闭环情况。评审服务汇总体现投入生产前各个服务当前所处的评审阶段,以及通过情况。评估雷达中体现服务不满足的评审项分布。服务复盘和改进呈现对评审不满足项的整改情况。指标详情可查看表6。
模块 |
指标名称 |
数据来源 |
指标定义 |
计算规则 |
统计周期 |
度量单位 |
---|---|---|---|---|---|---|
服务PRR评审汇总 |
评审服务总数 |
PRR评审 |
统计参与PRR评审的服务数量 |
选择时间范围内,所有参与PRR评审的服务数量; |
天/月 |
个 |
服务PRR评审列表 |
PRR评审 |
统计参与PRR各个阶段的服务数量与通过情况 |
选择时间范围内,参与PRR各个阶段的所有服务数量与通过情况分布; |
天/月 |
个 |
|
评估雷达分布图 |
评估雷达分布 |
PRR评审 |
统计PRR不满足项的分布 |
选择时间范围内,各评审项中不满足的项目数量; |
天/月 |
个 |
服务复盘 |
服务复盘列表 |
PRR评审 |
统计需要复盘的服务总数以及通过情况 |
选择时间范围内,需要复盘的服务总数以及复盘通过分布情况; |
天/月 |
个 |
改进任务闭环情况 |
任务闭环统计 |
PRR评审 |
统计改进任务数量以及闭环情况 |
选择时间范围内,所有改进任务的数量以及闭环通过分布情况; |
天/月 |
个 |
改进任务列表 |
PRR评审 |
统计各个维度的改进任务数量以及闭环情况 |
按照评审项目维度统计,各个维度的改进任务数量以及闭环分布情况; |
天/月 |
个 |