建设完整指标体系,实现立体化监控
本文档介绍如何建设完整的指标体系和统一监控大盘,实现资源和应用的全方位、立体化、可视化监控。
实践场景
用户体验至上的互联网时代,页面的响应速度、访问时延和页面的访问成功率常常会影响用户的体验,如果无法及时获知,就会导致流失大量用户,某商城的运维人员使用开源的监控软件,虽然能采集很多指标,但却分散在各处,无法统一展示。
解决方案
AOM能够实现云上应用的一站式立体化运维管理,在接入中心中可以接入需要监控的业务层、组件层、自建中间件、运行环境、云服务、API开源协议及其他指标、日志、调用链,在仪表盘中实现个性化监控,以及通过统一告警入口配置告警规则,实现业务的日常巡检,保障业务的正常运行。
步骤一:建设指标体系
- 配置业务层接入。
- 登录AOM 2.0控制台。
- 在左侧导航栏中选择“接入中心 > 接入中心”,进入新版接入中心页面。
- 勾选“类型”下的“业务层”前的复选框,筛选出业务层卡片。
- 单击卡片上的“接入日志(LTS)简介”、“接入调用链(APM)”链接,可查看接入LTS相关的操作文档、快速接入调用链。
- 接入日志(LTS)简介:AOM提供业务层的日志接入LTS的入口。通过业务层卡片的“接入日志(LTS)简介”链接,查看业务层日志接入LTS的相关操作文档。您可以根据文档完成日志接入LTS相关操作。
- 接入调用链(APM):AOM提供业务层的调用链接入APM的入口。通过业务层卡片的“接入调用链(APM)”链接,可快速接入业务层调用链。
表1 业务层接入 卡片
相关操作
Web & H5
获取Web&H5应用的指标、链路追踪和日志信息。具体操作请参见:
Android APP
获取Android应用的指标、链路追踪和日志信息。具体操作请参见:Android 应用日志接入(LTS)。
IOS APP
获取IOS应用的指标、链路追踪和日志信息。具体操作请参见:IOS应用日志接入(LTS)。
微信小程序
获取微信小程序的指标、链路追踪和日志信息。具体操作请参见:
支付宝小程序
获取支付宝小程序的指标、链路追踪和日志信息。具体操作请参见:
钉钉小程序
获取钉钉小程序的指标、链路追踪和日志信息。具体操作请参见:
百度小程序
获取百度小程序的指标、链路追踪和日志信息。具体操作请参见:
快应用小程序
获取快应用小程序的指标、链路追踪和日志信息。具体操作请参见:快应用小程序日志接入(LTS)。
- 配置组件层接入。
- 登录AOM 2.0控制台。
- 在左侧导航栏中选择“接入中心 > 接入中心”,进入新版接入中心页面。
- 勾选“类型”下的“组件层”前的复选框,筛选出组件层卡片。
- 单击卡片上的“接入日志(LTS)简介”或“接入调用链(APM)”链接,可快速接入调用链或查看接入日志相关的操作文档。
- 接入日志(LTS)简介:AOM提供组件层日志接入LTS的入口。通过组件层卡片的“接入日志(LTS)简介”链接,查看组件层日志接入LTS的相关操作文档。您可以根据文档完成日志接入LTS相关操作。
- 接入调用链(APM):AOM提供组件层调用链接入APM的入口。通过组件层卡片的“接入调用链(APM)”链接,可快速接入组件层调用链。
表2 组件层接入 卡片
相关操作
JAVA组件
获取JAVA应用的指标、链路追踪和日志信息。具体操作请参见:
GO组件
获取GO应用的指标、链路追踪和日志信息。具体操作请参见:
Python组件
获取Python应用的指标、链路追踪和日志信息。具体操作请参见:Python组件调用链接入(APM)。
Node.js组件
获取Node.js应用的指标、链路追踪和日志信息。具体操作请参见:Node.js组件调用链接入(APM)。
PHP组件
获取PHP应用的指标、链路追踪和日志信息。具体操作请参见:PHP组件调用链接入(APM)。
.NET组件
获取.NET应用的指标、链路追踪和日志信息。具体操作请参见:.NET组件调用链接入(APM)。
C++组件
获取C++应用的指标、链路追踪和日志信息。具体操作请参见:C++组件调用链接入(APM)。
- 自建中间件接入。
- 登录AOM 2.0控制台。
- 在左侧导航栏中选择“接入中心 > 接入中心”,进入新版接入中心页面。
- 勾选“类型”下的“自建中间件”前的复选框,筛选出中间件卡片。
- 单击卡片上的“接入指标(AOM)”或“接入日志(LTS)简介”链接,可快速将中间件指标接入AOM或查看中间件日志接入LTS相关的操作文档。
- 接入指标(AOM):AOM提供了快捷安装配置自建中间件能力。通过为中间件创建采集任务,并执行插件脚本,就可以对中间件上报到AOM的指标进行监控,结合AOM应用运维管理平台和开源Grafana可以提供一站式全方位的监控体系,帮助业务快速发现和定位问题,减轻故障给业务带来的影响。AOM支持监控的具体指标请参见“开源社区Exporter列表”。
- 接入日志(LTS):AOM提供中间件的日志接入LTS的入口。通过中间件卡片的“接入日志(LTS)简介”链接,查看中间件日志接入LTS的相关操作文档。您可以根据文档完成日志接入LTS相关操作。
表3 自建中间件接入 卡片
相关操作
MySQL
关系型数据库,稳定高效,支持大量数据,广泛应用于网站和应用开发。具体操作请参见:
Redis
内存数据结构存储系统,支持多种类型,用作数据库、缓存和消息代理。具体操作请参见:
Kafka
分布式流处理平台,高吞吐、低延迟,支持实时数据处理和日志聚合。具体操作请参见:
NGINX
高性能HTTP/反向代理服务器,支持5万并发,稳定且内存消耗低。具体操作请参见:
MongoDB
高性能、开源的NoSQL数据库,支持文档存储,灵活的数据模型。具体操作请参见:MongoDB指标接入(AOM)。
Consul
开源的分布式服务发现与配置管理,支持多数据中心,强一致性。具体操作请参见:Consul指标接入(AOM)。
HAProxy
高性能TCP/HTTP反向代理负载均衡器,支持高并发,灵活配置,确保服务高可用。具体操作请参见:HAProxy指标接入(AOM)。
PostgreSQL
功能强大的开源对象-关系数据库系统,支持复杂查询,高度可定制。具体操作请参见:PostgreSQL指标接入(AOM)。
ElasticSearch
分布式全文搜索引擎,实时存检PB级数据,支持全文检索、分析、监控等。具体操作请参见:
RabbitMQ
采集RabbitMQ的监控数据。具体操作请参见:RabbitMQ指标接入(AOM)。
ZooKeeper
分布式协调服务,支持领导者选举、配置管理、分布式锁等,确保数据一致性。具体操作请参见:ZooKeeper日志接入(LTS)。
IIS
互联网信息服务,作为Windows Server的一部分,可以用来为网络上的客户端提供HTML、ASP.NET、PHP等类型的Web应用程序和服务,支持HTTP等协议,提供高性能、稳定性及扩展性。具体操作请参见:IIS日志接入(LTS)。
DNS
将域名转换为IP地址的系统,支持负载均衡,提高网络访问效率。具体操作请参见:DNS日志接入(LTS)。
Flink
分布式实时计算引擎,支持有界无界数据流处理,高效内存性能,确保精确一次语义。具体操作请参见:Flink日志接入(LTS)。
SQL Server
关系型数据库管理系统,用于存储、管理和检索数据。它支持广泛的应用场景,从小型单机应用到大型企业级应用。具体操作请参见:SQL Server指标接入AOM。
Oracle
关系型数据库管理系统,支持大规模数据处理和高性能事务处理。具体操作请参见:Oracle指标接入AOM。
- 运行环境接入。
- 登录AOM 2.0控制台。
- 在左侧导航栏中选择“接入中心 > 接入中心”,进入新版接入中心页面。
- 勾选“类型”下的“运行环境”前的复选框,筛选出运行环境卡片。
- 单击卡片上的“接入指标(AOM)”或“接入日志(LTS)简介”链接,可快速接入指标或查看接入日志相关的操作文档。
- 接入指标(AOM):AOM提供运行环境指标接入AOM的能力。通过运行环境卡片的“接入指标(AOM)”链接,可快速接入运行环境相关指标。
- 接入日志(LTS)简介:AOM提供运行环境日志接入LTS的入口。
- 通过运行环境卡片上“接入日志(LTS)简介”中的“简介”链接,查看运行环境日志接入LTS的相关操作文档。您可以根据文档完成日志接入LTS相关操作。
- 通过运行环境卡片上“接入日志(LTS)简介”中的“接入日志(LTS)”链接入口,可快速接入运行环境相关日志。
表4 运行环境接入 卡片
相关操作
弹性云服务器 ECS
弹性云服务器(Elastic Cloud Server),提供安全稳定、可随时自助获取、弹性伸缩的计算服务,灵活计费,极简运维,极大降低企业成本。具体操作请参见:
裸金属服务器BMS
裸金属服务器(Bare Metal Server),高性能、高安全的云上物理服务器。具体操作请参见:裸金属服务器BMS日志接入(LTS)。
云容器引擎CCE
云容器引擎(Cloud Container Engine),提供高可靠高性能的企业级容器应用管理服务,支持Kubernetes社区原生应用和工具,简化云上自动化容器运行环境搭建。具体操作请参见:
- 云容器引擎CCE指标接入(AOM):单击“云容器引擎 CCE”上的“接入指标(AOM)”,在弹框中选择要接入的CCE集群,并单击“确定”,跳转至CCE集群的插件中心页面,然后为集群安装“云原生监控插件”。其中“数据存储配置”配置为“监控数据上报至AOM服务”。配置详情请参考:云原生监控插件。
- 云容器引擎CCE日志接入(LTS)
云容器实例CCI
容器实例(Cloud Container Instance),提供Serverless容器服务,用户无需关注集群和服务器,简单三步配置即可快速创建容器负载。云容器实例CCI服务默认自动将指标上报到AOM,其指标数据开箱即用。
自建K8S集群
K8S(Kubernetes)是一个开源的容器编排系统,用于自动化部署、扩展和管理容器化应用程序,提升应用程序的可靠性和扩展性。具体操作请参见:自建K8S集群日志接入(LTS)。
- 云服务接入。
- 登录AOM 2.0控制台。
- 在左侧导航栏中选择“接入中心 > 接入中心”,进入新版接入中心页面。
- 勾选“类型”下的“云服务”前的复选框,筛选出云服务卡片。
- 单击卡片上的“接入指标(AOM)”或“接入日志(LTS)简介”链接,可快速接入指标、日志或查看接入LTS相关的操作文档。
- 接入指标(AOM):AOM提供云服务指标接入AOM的能力。通过云服务卡片的“接入指标(AOM)”链接,可快速接入云服务相关指标。当前不同区域支持接入的云服务类型不同,详情请参考界面。
- 接入日志(LTS)简介:AOM提供云服务日志接入LTS的入口。通过云服务卡片的“接入日志(LTS)简介”链接,查看云服务日志接入LTS的相关操作文档。您可以根据文档完成日志接入LTS相关操作。
- 通过云服务卡片上“接入日志(LTS)简介”中的“简介”链接,查看云服务日志接入LTS的相关操作文档。您可以根据文档完成日志接入LTS相关操作。
- 部分云服务可通过云服务卡片上“接入日志(LTS)简介”中的“接入日志(LTS)”链接入口,快速接入云服务相关日志。
表5 云服务接入AOM 卡片
数据源
说明
弹性伸缩 AS、API网关(APIG)、专享版API网关(APIG)、裸金属服务器(BMS)、云堡垒机(CBH)、云备份(CBR)、表格存储服务(CloudTable)、云防火墙(CFW)、云搜索服务(CSS)、云专线(DC)、分布式缓存服务(DCS)、文档数据库服务(DDS)、DDoS防护服务(Anti-DDoS)、数据湖探索(DLI)、分布式消息服务Kafka版(DMS)、数据复制服务(DRS)、数据仓库服务(DWS)、弹性云服务器(ECS)、弹性负载均衡(ELB)、企业路由器(ER)、云硬盘(EVS)、函数工作流(FunctionGraph)、分布式关系型数据库(GaussDB)、图引擎服务(GES)、云数据库(TaurusDB)、云数据库(GeminiDB)、设备接入服务(IoTDA)、智能边缘平台(IEF)、ModelArts、MapReduce服务(MRS)、NAT网关(NAT)、对象存储服务(OBS)、云数据库(RDS for MySQL)、云数据库(RDS for PostgreSQL)、云数据库(RDS for SQLServer)、应用与数据集成平台(ROMA Connect)、视频直播服务(Live)、湖仓构建(LakeFormation)、消息通知服务(SMN)、弹性文件服务(SFS)、高性能弹性文件服务(SFS Turbo)、虚拟私有云(VPC)、虚拟专用网络(VPN)、Web应用防火墙(WAF)、云存储网关(CSG)、云解析服务(DNS)、全球加速(GA)、事件网格(EG)、分布式数据库中间件(DDM)、文字识别(OCR)、云数据迁移(CDM)、企业主机安全(HSS)、数据库安全服务(DBSS)、云手机服务器(CPH)、云连接(CC)、数据接入服务(DIS)、图像搜索(ImageSearch)、图像识别(Image Recognition)、自然语言处理(NLP)、语音交互服务(SIS)、CloudPond、AGT、全域弹性公网IP(GEIP)
指标
通过该功能可接入云服务相关指标,例如CPU使用率、内存使用率、健康状态。
- ModelArts服务默认自动将指标上报到AOM,其指标数据开箱即用。用户无需手动接入。
ModelArts指标的详细说明请参考基础指标-Modelarts指标。
- IoTDA服务默认自动将指标上报到AOM,其指标数据开箱即用。用户无需手动接入。
IoTDA指标的详细说明请参考基础指标-IoTDA指标。
- IEF服务默认自动将指标上报到AOM,其指标数据开箱即用。用户无需手动接入。
IEF指标的详细说明请参考基础指标-IEF指标。
- 其他云服务参照云服务指标接入AOM将指标接入AOM。相关指标的详细说明请参见云服务指标说明。
应用运维管理(AOM)、API网关(APIG)、华为云Astro轻应用(Huawei Cloud Astro Zero)、裸金属服务器(BMS)、云堡垒机(CBH)、云容器引擎(CCE)、内容分发网络(CDN)、云防火墙(CFW)、云审计服务(CTS)、分布式缓存服务(DCS)、文档数据库服务(DDS)、华为云DDoS防护服务(DDoS防护 AAD)、分布式消息服务Kafka版(DMS)、数据复制服务(DRS)、数据仓库服务(DWS)、弹性云服务器(ECS)、弹性负载均衡(ELB)、企业路由器(ER)、函数工作流(FunctionGraph)、云数据库 GaussDB、图引擎服务(GES)、云数据库 TaurusDB、云数据库(GeminiDB)、云数据库(GeminiDB Mongo)、云数据库(GeminiDB Cassandra)、华为HiLens(HiLens)、设备接入服务(IoTDA)、ModelArts、MapReduce服务(MRS)、对象存储服务(OBS)、云数据库(RDS for MySQL)、云数据库(RDS for PostgreSQL)、云数据库(RDS for SQL Server)、应用与数据集成平台(ROMA Connect)、视频直播服务(Live)、消息通知服务(SMN)、安全云脑 SecMaster(SecMaster)、应用管理与运维平台(ServiceStage-容器应用日志)、应用管理与运维平台(ServiceStage-云主机日志)、虚拟私有云(VPC)、Web应用防火墙(WAF)
日志
云日志服务(LTS)支持采集计算、存储、安全、数据库等多种华为云服务的日志数据,您可以使用LTS对云服务日志进行关键词搜索、运营数据统计分析、运行状况监控告警等多种操作。详细操作请参见:云服务日志接入(LTS)。
- API开源协议及其他接入。
- 登录AOM 2.0控制台。
- 在左侧导航栏中选择“接入中心 > 接入中心”,进入新版接入中心页面。
- 勾选“类型”下的“API开源协议及其他”前的复选框,筛选出API开源协议及其他类型卡片。
- 单击卡片上的“接入指标(AOM)”、接入调用链(APM)或“接入日志(LTS)简介”链接,可快速接入指标、调用链、日志或查看接入LTS相关的操作文档。
- 接入指标(AOM):AOM提供API开源协议及其他组件指标接入AOM的能力。通过卡片的“接入指标(AOM)”链接,可快速接入API开源协议及其他组件相关指标。
- 接入调用链(APM):AOM提供API开源协议及其他组件调用链接入APM的入口。通过卡片的“接入调用链(APM)”链接,可快速接入API开源协议及其他组件相关调用链。
- 接入日志(LTS)简介:AOM提供API开源协议及其他组件日志接入LTS的入口。
- 通过卡片上“接入日志(LTS)简介”中的“简介”链接,查看API开源协议及其他组件日志接入LTS的相关操作文档。您可以根据文档完成日志接入LTS相关操作。
- 部分组件可通过卡片上“接入日志(LTS)简介”中的“接入日志(LTS)”链接入口,快速接入相关日志。例如“跨账号接入 - 日志流映射”卡片。
表6 API开源协议及其他组件接入AOM 卡片
相关操作
应用运维管理AOM API
使用AOM的OPEN API上报指标数据。具体操作请参见:使用API将指标接入(AOM)。
云日志LTS API
使用LTS的OPEN API上报日志数据。具体操作请参见:使用API将日志接入(LTS)。
应用性能监控APM API
使用APM的OPEN API上报应用性能监控数据。具体操作请参见:使用API将调用链接入(APM)。
Prometheus 通用实例
适合已自建了Prometheus Server,但需要通过远端存储(Remote Write)方式来解决Prometheus存储的可用性和可扩展性场景。具体操作请参见:配置Prometheus 通用实例接入(AOM)。
KAFKA协议
高吞吐、分布式、基于TCP的二进制消息系统协议。具体操作请参见:使用KAFKA协议上报日志 (LTS)。
Open Telemetry
使用开源OpenTelemetry协议上报应用性能监控数据。具体操作请参见:通过OpenTelemetry将调用链接入(APM)。
SKYwalking
使用开源Skywalking协议上报应用性能监控数据。具体操作请参见:APM通过Skywalking将调用链接入(APM)。
Syslog协议
系统日志标准,基于UDP/TCP,用于设备间日志交换。具体操作请参见:使用Flume采集器上报日志(LTS)。
Flume
使用开源工具Flume采集日志并上传到LTS。具体操作请参见:使用Flume采集器上报日志(LTS)。
Beats
使用开源工具Beats采集日志并上传到LTS。具体操作请参见:使用KAFKA协议上报日志(LTS)。
Logstash
使用开源工具Logstash采集日志并上传到LTS。具体操作请参见:使用KAFKA协议上报日志(LTS)。
SNMP协议
简单网络管理协议,用于远程监控网络设备,有v1、v2、v3三个版本。具体操作请参见:使用Flume采集器上报日志(LTS)。
Java SDK (log4j2)
可以直接在log4j2中配置华为云appender,将通过log4j2产生的日志直接上报至云日志服务。具体操作请参见:通过Java SDK(log4j2插件)上报日志(LTS)。
LOGBack SDK
可以直接在logback中配置华为云appender,将通过logback产生的日志直接上报至云日志服务。具体操作请参见:通过LogBack SDK上报日志 (LTS)。
跨账号接入 - 日志流映射
通过创建委托,您可以将委托方账号的日志流映射到被委托方账号的日志流。具体操作请参见:跨IAM账号日志接入(LTS)。
自定义 Prometheus 格式指标
接入自定义Prometheus格式指标。具体操作请参见:自定义Prometheus格式指标接入(AOM)。
步骤二:配置统一监控大盘
- 配置仪表盘图表
- 登录AOM 2.0控制台。
- 在左侧菜单栏中选择“仪表盘 > 仪表盘”,单击页面右上角“体验新版”。
- 创建仪表盘,详情可参见创建仪表盘。
- 配置告警
- 登录AOM 2.0控制台。
- 在左侧菜单栏中选择“告警中心 > 告警规则”。
- 在“Prometheus监控”或“日志监控”页签按需配置指标、日志告警,详情请参见:
- 创建AOM指标告警规则:通过指标告警规则可对资源的指标设置阈值条件,当指标数据满足阈值条件时产生阈值告警,当没有指标数据上报时产生数据不足事件。
- 创建AOM事件告警规则:过事件告警规则可对服务设置事件条件,当服务发生了某种变化,资源数据满足事件条件时产生事件类告警。
- 创建AOM应用性能监控告警规则:通过创建应用性能监控类型告警规则可对资源的指标设置阈值条件,当指标数据满足阈值条件时产生阈值告警。
- 创建AOM日志告警规则:AOM支持通过关键词统计、搜索分析以及SQL统计创建告警规则,实时监控日志数据并上报告警信息。