全景可观测实现系统故障快速发现与定位方案概述
方案概述
随着业务场景与系统复杂度的激升,故障定位恢复困难,运维人力成本等问题日益严重。全景可观测性通过构建以业务场景为导向的分层指标体系,实现对复杂系统环境下的故障快速发现与定位,有效降低运维成本和提高故障处理效率。
通过结合主机监控、容器监控、云服务实例监控及业务关键黄金指标,全景可观测性实现了对系统状态的全面、多维度监控。有助于运维团队快速发现和定位故障,实现故障的快速响应和处理,从而显著提升系统的整体运维效率和稳定性。
本文档介绍如何通过AppStage运维中心的全景可观测解决方案实现系统故障快速发现与定位,各说明如表1所示。
类型 |
说明 |
---|---|
为主机绑定在模板管理定义的监控模板,绑定后监控服务会自动为该主机重启/重装agent,通过监控模板中的监控插件和agent采集主机监控数据。 |
|
为集群安装cluster-monitoring插件,安装cluster-monitoring插件后并配置容器指标,数据异常时会上报至告警列表。 |
|
通过采集CES收集的云服务实例指标监控数据,一键生成指标,并快速创建和生成对应的监控报表,从而实现对云资源状态的实时监控与分析。 |
|
通过创建日志项目、日志空间、日志采集配置及组、安装集群插件、启动导流任务、查看采集日志、创建逻辑主体、新建指标、新建查询视图等操作快速配置业务关键黄金指标并创建生成对应的监控报表,以确保能够准确、及时地收集和分析业务关键数据,支持业务决策和优化。 |
准备工作
在执行操作前,需要提前完成如下准备工作,以满足操作要求。
- 已初始化监控服务运维资源。
- 已纳管主机且纳管完成15分钟以上,并将已纳管的主机设置为执行机。
- 已购买并配置相应的华为云资源,如ECS、EIP、ELB等。