更新时间:2022-06-01 GMT+08:00

术语

指标

指标是对资源性能的数据描述或状态描述,指标由命名空间、维度、指标名称和单位组成。

其中,命名空间特指指标的命名空间,可将其理解为存放指标的容器,不同命名空间中的指标彼此独立,因此来自不同应用程序的指标不会被错误地聚合到相同的统计信息中。维度是指标的分类,每个指标都包含用于描述该指标的特定特征,可以将维度理解为这些特征的类别。图1以集群指标为例,介绍了命名空间、维度和指标的关系。

图1 集群指标

主机

AOM的每一台主机对应一台虚拟机或物理机。主机可以是您自己的虚拟机或物理机,也可以是您创建的虚拟机(例如:弹性云服务器,简称ECS)。只要主机的操作系统满足AOM支持的操作系统且主机已安装ICAgent,即可将主机接入到AOM中进行监控。

ICAgent

ICAgent是AOM的采集器,分别运行在每台主机上用于实时采集指标、日志和应用性能数据。安装ICAgent是使用AOM的前提,否则将无法正常使用AOM。

日志

AOM提供了海量运行日志的检索和分析功能。

告警

告警是指AOM自身或ServiceStage、CCE、APM等外部服务在异常情况或在可能导致异常情况下上报的信息,告警会引起业务异常,您需要对告警进行处理。

告警清除方式包括自动清除和手动清除两种。

  • 自动清除:产生告警的故障消除后,AOM会自动清除告警,您不需要做任何操作,例如:阈值告警。
  • 手动清除:产生告警的故障消除后,AOM不会自动清除告警,您需要手动清除告警,例如:ICAgent安装失败告警。

事件

事件告诉您AOM自身或ServiceStage、CCE、APM等外部服务发生了某种变化,但不一定会引起业务异常,事件一般用来表达一些重要信息。您不用对事件进行处理。

阈值规则

静态阈值规则:对资源的指标设置阈值条件,当指标数据满足阈值条件时,会产生阈值告警(阈值告警即由阈值规则触发而产生的告警);当没有指标数据上报时,会产生数据不足事件(数据不足事件即由阈值规则触发而产生的事件)。同时执行自定义的触发策略,当静态阈值规则的状态(正常、超限阈值、数据不足)发生变化时,会以邮件或短信等方式通知,以便您在第一时间发现异常并进行处理。