计算
弹性云服务器 ECS
Flexus云服务
裸金属服务器 BMS
弹性伸缩 AS
镜像服务 IMS
专属主机 DeH
函数工作流 FunctionGraph
云手机服务器 CPH
Huawei Cloud EulerOS
网络
虚拟私有云 VPC
弹性公网IP EIP
虚拟专用网络 VPN
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
VPC终端节点 VPCEP
云连接 CC
企业路由器 ER
企业交换机 ESW
全球加速 GA
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
边缘安全 EdgeSec
威胁检测服务 MTD
CDN与智能边缘
内容分发网络 CDN
CloudPond云服务
智能边缘云 IEC
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
迁移中心 MGC
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
云搜索服务 CSS
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
数据治理中心 DataArts Studio
数据可视化 DLV
数据湖工厂 DLF
湖仓构建 LakeFormation
企业应用
云桌面 Workspace
应用与数据集成平台 ROMA Connect
云解析服务 DNS
专属云
专属计算集群 DCC
IoT物联网
IoT物联网
设备接入 IoTDA
智能边缘平台 IEF
用户服务
账号中心
费用中心
成本中心
资源中心
企业管理
工单管理
国际站常见问题
ICP备案
我的凭证
支持计划
客户运营能力
合作伙伴支持计划
专业服务
区块链
区块链服务 BCS
Web3节点引擎服务 NES
解决方案
SAP
高性能计算 HPC
视频
视频直播 Live
视频点播 VOD
媒体处理 MPC
实时音视频 SparkRTC
数字内容生产线 MetaStudio
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
存储容灾服务 SDRS
高性能弹性文件服务 SFS Turbo
弹性文件服务 SFS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
专属分布式存储服务 DSS
容器
云容器引擎 CCE
容器镜像服务 SWR
应用服务网格 ASM
华为云UCS
云容器实例 CCI
管理与监管
云监控服务 CES
统一身份认证服务 IAM
资源编排服务 RFS
云审计服务 CTS
标签管理服务 TMS
云日志服务 LTS
配置审计 Config
资源访问管理 RAM
消息通知服务 SMN
应用运维管理 AOM
应用性能管理 APM
组织 Organizations
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
应用身份管理服务 OneAccess
数据库
云数据库 RDS
文档数据库服务 DDS
数据管理服务 DAS
数据复制服务 DRS
云数据库 GeminiDB
云数据库 GaussDB
分布式数据库中间件 DDM
数据库和应用迁移 UGO
云数据库 TaurusDB
人工智能
人脸识别服务 FRS
图引擎服务 GES
图像识别 Image
内容审核 Moderation
文字识别 OCR
AI开发平台ModelArts
图像搜索 ImageSearch
对话机器人服务 CBS
华为HiLens
视频智能分析服务 VIAS
语音交互服务 SIS
应用中间件
分布式缓存服务 DCS
API网关 APIG
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
多活高可用服务 MAS
事件网格 EG
企业协同
华为云会议 Meeting
云通信
消息&短信 MSGSMS
云生态
合作伙伴中心
云商店
开发者工具
SDK开发指南
API签名指南
Terraform
华为云命令行工具服务 KooCLI
其他
产品价格详情
系统权限
管理控制台
客户关联华为云合作伙伴须知
消息中心
公共问题
开发与运维
应用管理与运维平台 ServiceStage
软件开发生产线 CodeArts
需求管理 CodeArts Req
部署 CodeArts Deploy
性能测试 CodeArts PerfTest
编译构建 CodeArts Build
流水线 CodeArts Pipeline
制品仓库 CodeArts Artifact
测试计划 CodeArts TestPlan
代码检查 CodeArts Check
代码托管 CodeArts Repo
云应用引擎 CAE
开天aPaaS
云消息服务 KooMessage
云手机服务 KooPhone
云空间服务 KooDrive

运维态势感知

更新时间:2024-10-29 GMT+08:00

云运维中心提供运维态势感知的能力,包含变更、事件、告警、安全合规、SLO(服务级别目标)、PRR(生产准备度评估)等多种运维指标数据,从宏观到微观全面呈现运维全局态势,提供企业级运维沙盘。

  • 面向不同角色运维人员的专属运维BI看板,辅助运维优化改进和洞察决策。
  • 预置接入30个+运维指标,构建7张运维态势感知大屏,从宏观到微观全面呈现运维全局态势,提供企业级运维沙盘。
  • 支持组织/委托管理员跨账号查看组织成员账号的运维态势,提供跨账号场景下的多区域、多应用数据汇聚能力。

前提条件

如果您是在单账号场景下使用运维态势感知,您可跳过此部分内容,查看操作步骤

如果您是在跨账号场景下使用运维态势感知,需要满足以下前提条件:

1、当前账号已经开启跨账号管理,并且是组织/委托管理员账号。

2、组织成员账号已开通云运维中心COC服务。

操作场景

通过Cloud Operations Center查看运维态势感知信息。

操作步骤

  1. 登录COC
  2. 进入COC“总览”后,单击“运维态势感知”,进入“运维态势感知”页面。
  3. 根据region、应用、日期筛选不同条件的运维沙盘信息。
  4. 根据组织账号、区域、应用、日期筛选不同条件的运维态势信息。

    图1 按照组织账号筛选
    说明:

    跨账号场景下,如未选择账号,默认展示当前账号的运维态势数据。

    图2 跨账号场景的应用数据汇聚

运维总览

运维总览包含总览数据、风险冒泡、PRR评审汇总(生产准备度评估)、TOP5事件四个模块。总览数据可以全局视角观测运维态势情况,辅助运维优化改进和洞察决策。风险冒泡通过P3+事件单、WarRoom、变更导致故障以及紧急告警呈现当前运维态势风险情况。PRR评审汇总体现应用上线/转商前的评审情况。通过算法统计影响最严重的Top5事件单,快速识别重大故障场景。指标详情可查看表1

图3 运维总览
表1 运维总览数据字典

模块

指标名称

数据来源

指标定义

计算规则

统计周期

度量单位

总览数据

事件数量

事件中心

统计事件单的数量趋势

选择时间周期内,所有事件单的数量

天/月

告警数量

告警中心

统计告警的数量趋势

选择时间周期内,所有告警的数量

天/月

WarRoom数量

WarRoom

统计WarRoom的数量趋势

选择时间周期内,所有WarRoom的数量

天/月

监控发现率

告警中心

发生的事件单中,有相关告警的事件单占比

符合过滤条件有相关告警的事件数/符合过滤条件总的事件数

天/月

百分比

变更数量

变更管理

统计变更单的数量趋势

选择时间周期内,所有变更单的数量

天/月

服务SLO

SLO管理

统计服务SLO实际值的变化趋势

SLO实际值 = 1 - (服务不可用时长 / 云服务总时长)*100%

天/月

百分比

风险冒泡

变更导致事件数

事件管理

统计变更问题引发事件单数量

事件类型为变更操作问题的事件单数量

天/月

7天紧急告警数

告警中心

统计近7天紧急告警数量

近7天的紧急告警数量

近7天

P3+事件

事件管理

统计发生的P3+事件单数量

P1、P2、P3级别的所有事件单的数量,包括未完成状态的事件单

天/月

Warroom数量

告警中心

统计Warroom数量

选择时间周期内,WarRoom的数量

天/月

PRR评审汇总

PRR评审服务

PRR评审

统计参与PRR评审的服务数量

参与PRR评审的服务数量

天/月

PRR评审通过情况

PRR评审

统计在PRR各阶段中,通过与未通过的服务数量

PRR各阶段,通过与未通过的服务数量

天/月

TOP5事件

TOP5事件

事件管理

统计严重性最高的事件Top5

根据选择时间范围,统计已完成的P3+事件,并先按事件级别排序,再按照中断时长排序,排列TOP5事件

天/月

事件信息

变更管理

变更管理包含数据概览、变更开销、变更风险三个模块,全方位呈现变更核心指标。数据概览中包含变更时长、成功率、自动化变更率等指标,通过环比和趋势图体现变更整体情况。变更风险根据变更等级、变更方式等分布图,分析变更导致的故障和变更成功率。变更开销统计变更人力和时间趋势,有效控制变更成本。指标详情可查看表2

图4 变更管理
表2 变更管理数据字典

指标名称

数据来源

指标定义

计算规则

统计周期

度量单位

变更导致现网事件

变更管理

统计由于变更原因导致的现网各个级别的事件数量

选择时间范围内,各级别事件单类型为变更操作问题的数量

天/月

变更等级

变更管理

统计各个等级的变更单的数量

选择时间周期内,各个等级的变更单数量

天/月

变更方式

变更管理

统计各个方式(手动变更、自动化变更)的变更单数量

计算各个方式的变更单数量

天/月

变更总量

变更管理

统计的变更单的数量

选择时间周期内,已完成的变更单数量

天/月

变更成功率

变更管理

统计变更单的成功率情况

变更成功率=变更成功的变更单数量/已完成的变更单数量*100%

天/月

百分比

变更平均时长

变更管理

统计变更单的平均处理时长

选择时间周期内,已完成的变更单时长求和/已完成的变更单数量*100%

天/月

ddhhmm

自动化变更率

变更管理

所有变更单中,自动化变更的占比

自动化变更数量/所有变更单数量*100%

天/月

百分比

变更趋势

变更管理

变更成功和失败的数量以及变更成功率的趋势变化

变更成功和失败的数量以及变更成功率

天/月

变更人力

变更管理

统计参与变更所需要的人数

变更人力=变更配合人+变更实施人

天/月

人次

变更时间

变更管理

统计变更单的平均处理时长

选择时间周期内,已完成的变更单时长求和/已完成的变更单数量*100%

天/月

ddhhmm

故障管理

故障管理包含事件统计、WarRoom、回溯改进三个模块,呈现事件管理全流程核心指标。事件统计中包含数量、闭环率、处理耗时、受损应用等指标,通过环比、趋势图和Top /Bottom排序的方式,呈现事件风险情况。WarRoom中包含受损应用、引起WarRoom事件级别和时间窗,反映重大故障场景的发生和改善情况。回溯改进中包含回溯改进的闭环率和趋势分析,确保对于已发生的故障进行经验沉淀,减少相同故障再次发生的频率和处理时间。指标详情可查看表3

图5 故障管理
表3 事件管理数据字典

模块

指标名称

数据来源

指标定义

计算规则

统计周期

度量单位

事件统计

事件总量

事件管理

统计所有事件单数量

选择时间范围内,所有事件单的数量

天/月

事件级别

事件管理

统计各个类型和级别的事件单的数量

选择时间范围内,各个类型和级别的事件单的数量

天/月

事件闭环率

事件管理

统计事件单的闭环情况

选择时间范围内,闭环状态的事件单数量/事件单总量*100%

天/月

百分比

事件耗时

事件管理

统计事件单平均处理时长

已闭环事件单的处理时间求和/已闭环的事件单数量*100%

天/月

ddhhmm

受损应用

事件管理

统计事件单受损应用数量

去重计算事件单的受损应用数量(包含已删除应用)

天/月

WarRoom

WarRoom数量

WarRoom

统计所有WarRoom数量

选择时间范围内,所有WarRoom数量

天/月

故障级别

事件管理

WarRoom关联的事件单级别分布

统计WarRoom关联的各级别事件单的数量

天/月

受损应用

WarRoom

统计WarRoom中受损应用的数量

去重计算WarRoom的受损应用数量

天/月

平均恢复时长

WarRoom

统计WarRoom平均恢复时长

选择时间范围内,已完成的WarRoom时间求和/已完成WarRoom数量

天/月

ddhhmm

受理时间窗分布

WarRoom

统计WarRoom在各个时间窗内的拉起次数

统计各个时间窗范围内,WarRoom的拉起次数

天/月

回溯改进

回溯总数

问题管理

所有的回溯单数量

统计时间周期内,所有的回溯单数量

天/月

回溯闭环率

问题管理

统计回溯单的闭环情况

闭环率=已闭环回溯单数量/回溯单总量*100%

天/月

百分比

改进总数

问题管理

所有的改进单数量

统计时间周期内,所有的改进单数量

天/月

改进闭环率

问题管理

统计改进单的闭环情况

闭环率=已闭环改进单数量/改进单总量*100%

天/月

百分比

监控告警

监控告警将告警信息以直观的图表形式展示,使运维人员快速掌握服务的整体状况,监控告警中含告警分析、告警成本、告警质量三个模块,体现告警管理核心指标。告警分析中提供告警总量、告警级别、Top10应用、告警降量和告警趋势等指标,运维主管可通过对历史告警数据的分析,了解服务告警的趋势和模式,发现潜在的性能问题或故障隐患。告警成本统计告警人力情况和自动化处理率,运维主管可以利用告警成本有效控制变更的人力成本。告警质量统计事件单和WarRoom的告警发现率,帮助运维主管评估当前告警的有效性,并及时进行告警配置的优化。指标详情可查看表4

图6 监控告警
表4 监控告警数据字典

模块

指标名称

数据来源

指标定义

计算规则

统计周期

度量单位

告警分析

告警总量

告警管理

统计所有告警的数量

选择时间范围内,所有告警的数量

天/月

告警级别

告警管理

统计各个级别的告警的数量

选择时间范围内,各个级别的告警的数量

天/月

告警趋势

告警管理

选择时间范围内,各级别告警的数量趋势变化

选择时间范围内,各个级别的告警的数量

天/月

告警成本

告警参与人数

告警管理

统计参与处理告警的人数

去重计算集成告警的责任人数量

天/月

人均告警处理量

告警管理

统计人均处理的告警数量

选择时间范围内,告警总数量/告警参与人数

天/月

告警自动化处理率

告警管理

统计告警的自动化处理情况

选择时间范围内,自动化处理告警/告警总数*100%

天/月

百分比

告警质量

故障告警发现率

事件管理

统计所有事件单中,由告警发现的事件单数量

选择时间范围内,告警转事件单数量/事件单总数量*100%

天/月

百分比

WarRoom告警发现率

WarRoom

统计所有WarRoom中,由告警发现的WarRoom数量

选择时间范围内,告警转事件拉起的WarRoom数量/WarRoom

总数量*100%

天/月

百分比

告警冒泡

告警冒泡

告警管理

按照应用维度,展示告警的风险冒泡情况

按照应用下告警的级别和数量进行加权计算并排序

天/月

不涉及

安全合规

安全合规包含补丁扫描数量统计和账号纳管数据统计(待实现)。补丁扫描支持按照区域、应用和操作系统维度查看实例合规数据、按时间段范围展示实例已扫描数量统计。

图7 安全合规

模块

指标名称

数据来源

指标定义

计算规则

统计周期

度量单位

补丁管理

实例扫描情况

补丁管理/CMDB

租户账号下所有ECS,执行过补丁扫描和未执行过扫描的实例数量

未扫描实例=全量实例-扫描实例;

区域、应用

实例合规性状态

补丁管理

已扫描过的实例中,合规的实例数量和不合规的实例数量

统计补丁管理中各合规性状态的实例数量;

区域、应用

最近扫描时间

补丁管理

统计已扫描的实例,最近一次的扫描时间区间

统计已扫描的实例,最近一次的扫描时间区间

区域、应用

账号管理

纳管实例数量

账号管理

统计账号管理中,纳管的各云服务实例数量

统计账号管理中,纳管的各云服务实例数量

区域、应用

纳管率

账号管理

统计所有实例中,纳管的各云服务实例数量占比

纳管率=已纳管数量/实例总数*100%

区域、应用

百分比

纳管实例统计

账号管理

按照时间周期,呈现实例纳管的趋势情况

按照时间周期,呈现实例纳管的趋势情况

区域、应用

-

SLO看板

SlO看板(服务级别目标)包含SLO总体达成情况、应用维度SLO统计、ErrorBudget管理。SLO总体达成情况可查看年度和月度的总体SLO情况,评估整体的服务水平趋势。应用维度SLO支持按照时间和应用维度查看SLO情况,评估每个应用的服务水平。ErrorBuget根据应用的SLO情况计算出错误成本,用以指导变更或其他高风险操作。指标详情可查看表5

图8 SLO看板
表5 SLO看板数据字典

模块

指标名称

数据来源

指标定义

计算规则

统计周期

度量单位

SLO总体达成情况

年度SLO期望值

SLO管理

全年度应用期望达成的SLO指标

SLO期望值=SLO管理中设定的期望值;

多个应用SLO期望值=avg(SLO期望值);

百分比

年度SLO实际值

SLO管理

全年度应用实际达成的SLO情况

年度SLO实际值=1-(年度应用不可用时长/全年应用总时长)*100%;

单个区域多应用SLO实际值=avg(年度SLO实际值);

多个区域单应用SLO实际值=min(年度SLO实际值);

多个区域多应用SLO实际值=avg(多个区域单应用SLO实际值);

天/月

百分比

未达标应用数量

SLO管理

统计未达标SLO目标的应用数量

统计未达成SLO目标的应用数量,选择全部区域时,任一区域的年度SLO实际值<年度SLO期望值,视为未达标。

天/月

月度SLO期望值

SLO管理

月度应用期望达成的SLO指标

SLO期望值=SLO管理中设定的期望值;

多个应用SLO期望值=avg(SLO期望值);

天/月

百分比

月度SLO实际值

SLO管理

月度应用实际达成的SLO情况

月度SLO实际值=1-(月度应用不可用时长/月度应用总时长)*100%;

单个区域多应用SLO实际值=avg(月度SLO实际值);

多个区域单应用SLO实际值=min(月度SLO实际值);

多个区域多应用SLO实际值=avg(多个区域单应用SLO实际值);

天/月

百分比

应用维度SLO统计

应用SLO统计

SLO管理

统计应用维度的SLO情况

按照应用维度,展示月度SLO实际值。

月度SLO实际值=1-(月度应用不可用时长/月度应用总时长)*100%;

多个区域单应用SLO实际值=min(月度SLO实际值);

天/月

百分比

Error Budget

Error Budget

SLO管理

用于测量实际性能与预期性能之间的差异,用于计算错误成本

当SLO实际值>SLO期望值时:

ErrorBudget=(年度SLO实际值-年度SLO期望值)*全年服务总时长(min);

当SLO实际值≤SLO期望值时,ErrorBudget=0。

天/月

分钟

PRR看板

PRR看板(生产就绪程度评审)中包含评审服务汇总、评估雷达分布、服务复盘、改进任务闭环情况。评审服务汇总体现投入生产前各个服务当前所处的评审阶段,以及通过情况。评估雷达中体现服务不满足的评审项分布。服务复盘和改进呈现对评审不满足项的整改情况。指标详情可查看表6

图9 PRR看板
表6 PRR看板数据字典

模块

指标名称

数据来源

指标定义

计算规则

统计周期

度量单位

服务PRR评审汇总

评审服务总数

PRR评审

统计参与PRR评审的服务数量

选择时间范围内,所有参与PRR评审的服务数量;

天/月

服务PRR评审列表

PRR评审

统计参与PRR各个阶段的服务数量与通过情况

选择时间范围内,参与PRR各个阶段的所有服务数量与通过情况分布;

天/月

评估雷达分布图

评估雷达分布

PRR评审

统计PRR不满足项的分布

选择时间范围内,各评审项中不满足的项目数量;

天/月

服务复盘

服务复盘列表

PRR评审

统计需要复盘的服务总数以及通过情况

选择时间范围内,需要复盘的服务总数以及复盘通过分布情况;

天/月

改进任务闭环情况

任务闭环统计

PRR评审

统计改进任务数量以及闭环情况

选择时间范围内,所有改进任务的数量以及闭环通过分布情况;

天/月

改进任务列表

PRR评审

统计各个维度的改进任务数量以及闭环情况

按照评审项目维度统计,各个维度的改进任务数量以及闭环分布情况;

天/月

我们使用cookie来确保您的高速浏览体验。继续浏览本站,即表示您同意我们使用cookie。 详情

文档反馈

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容