更新时间:2024-10-28 GMT+08:00

资源监控

表1 资源监控基本概念

术语

说明

指标

指标是对资源性能的数据描述或状态描述,指标由命名空间、维度、指标名称和单位组成。

其中,命名空间特指指标的命名空间,可将其理解为存放指标的容器,不同命名空间中的指标彼此独立,因此来自不同应用程序的指标不会被错误地聚合到相同的统计信息中。维度是指标的分类,每个指标都包含用于描述该指标的特定特征,可以将维度理解为这些特征的类别。

主机

AOM的每一台主机对应一台虚拟机或物理机。主机可以是您自己的虚拟机或物理机,也可以是您通过华为云购买的虚拟机(例如:弹性云服务器,简称ECS)或物理机(例如:裸金属服务器,简称BMS)。只要主机的操作系统满足AOM支持的操作系统,且主机已安装ICAgent,即可将主机接入到AOM中进行监控。

日志

AOM提供了海量运行日志的检索和分析功能,支持日志采集、下载、转储、搜索,并提供报表分析、SQL查询、实时监控、关键词告警等能力。

AOM的基础版和按需版所对应的日志存储时长、大小和计费方式不同,详见收费详情

日志流量

日志流量指的是每秒上报的日志大小。每个租户在每个Region的日志流量不能超过10MB/s。如果超过10MB/s,则可能导致日志丢失。

告警

告警是指AOM、ServiceStage、CCE、APM等服务在异常情况或在可能导致异常情况下上报的信息,告警会引起业务异常,您需要对告警进行处理。

事件

事件是指AOM、ServiceStage、CCE、APM等服务发生了某种变化,但不一定会引起业务异常,事件一般用来表达一些重要信息。您不用对事件进行处理。

告警清除

告警清除方式包括自动清除和手动清除两种。

  • 自动清除:产生告警的故障消除后,AOM会自动清除告警,您不需要做任何操作。
  • 手动清除:产生告警的故障消除后,AOM不会自动清除告警,您需要手动清除告警。

告警规则

告警规则分为指标告警规则和事件告警规则两种。

  • 通过指标告警规则,实时监控环境中主机、组件等资源使用情况。
  • 当资源使用告警过多,告警通知过于频繁时,通过事件告警规则,简化告警通知,快速识别服务的某一类资源使用问题并及时解决。

告警通知

告警通知有2种方式:

  • 直接告警:在配置告警规则的时候,可以配置告警通知规则,将告警信息通知相关人,以便提醒相关人员及时采取措施清除故障。告警方式包括邮件、短信、钉钉、企业微信、语音等方式。
  • 告警降噪:选择告警降噪的分组规则进行告警降噪。

告警行动规则

告警行动规则定义产生告警之后,按照规则做何种动作。包括消息发送到哪里和以什么形式发送。消息发送到哪里通过华为云服务SMN主题设置。

Prometheus实例

Prometheus监控功能提供的管理Prometheus数据采集和数据存储分析的逻辑单元。

Prometheus探针

部署在用户侧或者云产品侧Kubernetes集群。负责自动发现采集目标、采集指标和远程写到其他库。

Exporter

一个采集监控数据并通过Prometheus监控功能规范对外提供数据的组件。目前有上百个官方或者第三方 Exporter可供使用,具体请参见Exporter详情

Job

一组Target的配置集合。定义了抓取间隔,访问限制等作用于一组Target的抓取行为。