基本概念
指标
指标是对资源性能的数据描述或状态描述,指标由命名空间、维度、指标名称和单位组成。
其中,命名空间特指指标的命名空间,可将其理解为存放指标的容器,不同命名空间中的指标彼此独立,因此来自不同应用程序的指标不会被错误地聚合到相同的统计信息中。维度是指标的分类,每个指标都包含用于描述该指标的特定特征,可以将维度理解为这些特征的类别。图1以集群指标为例,介绍了命名空间、维度和指标的关系。
AOM的基础版和按需版所对应的指标存储时长及计费方式不同,详见收费详情。
主机
AOM的每一台主机对应一台虚拟机或物理机。主机可以是您自己的虚拟机或物理机,也可以是您通过华为云购买的虚拟机(例如:弹性云服务器,简称ECS)或物理机(例如:裸金属服务器,简称BMS)。只要主机的操作系统满足AOM支持的操作系统(AOM支持的操作系统详见操作系统使用限制)且主机已安装ICAgent,即可将主机接入到AOM中进行监控。
ICAgent
ICAgent是AOM的采集器,分别运行在每台主机上用于实时采集指标、日志和应用性能数据。安装ICAgent是使用AOM的前提,否则将无法正常使用AOM。
日志
AOM提供了海量运行日志的检索和分析功能,支持日志采集、下载、转储、搜索,并提供报表分析、SQL查询、实时监控、关键词告警等能力。
AOM的基础版和按需版所对应的日志存储时长、大小和计费方式不同,详见收费详情。
日志桶
日志桶是AOM对日志文件逻辑上的分组,用于创建统计规则、查看桶日志等,使用这些功能前您需先添加一个日志桶。
日志流量
日志流量指的是每秒上报的日志大小。每个租户在每个Region的日志流量不能超过10MB/s。如果超过10MB/s,则可能导致日志丢失。
桶日志
桶日志是AOM提供的一种细粒度日志查询功能,您可以日志桶为单位查看日志,以便提取关键业务数据、快速查看并定位问题。
桶日志支持多维度日志信息查询和检索,您可对原始日志进行查询与分析,也可对结构化后的日志进行SQL查询与分析。
告警
告警是指AOM自身或ServiceStage、CCE、APM等外部服务在异常情况或在可能导致异常情况下上报的信息,告警会引起业务异常,您需要对告警进行处理。
告警清除方式包括自动清除和手动清除两种。
- 自动清除:产生告警的故障消除后,AOM会自动清除告警,您不需要做任何操作,例如:阈值告警。
- 手动清除:产生告警的故障消除后,AOM不会自动清除告警,您需要手动清除告警,例如:ICAgent安装失败告警。
事件
事件告诉您AOM自身或ServiceStage、CCE、APM等外部服务发生了某种变化,但不一定会引起业务异常,事件一般用来表达一些重要信息。您不用对事件进行处理。
阈值规则
阈值规则:对资源的指标设置阈值条件,当指标数据满足阈值条件时,会产生阈值告警(阈值告警即由阈值规则触发而产生的告警);当没有指标数据上报时,会产生数据不足事件(数据不足事件即由阈值规则触发而产生的事件)。同时执行自定义的触发策略,当阈值规则的状态(正常、超限阈值、数据不足)发生变化时,会以邮件或短信等方式通知,以便您在第一时间发现异常并进行处理。
通知规则
当AOM自身或外部服务存在异常或可能存在异常而产生告警时,可将告警信息通过邮件或短信发送给您指定的人员,以便提醒相关人员及时采取措施清除故障,避免造成业务损失。
统计规则
周期性地统计关键词或SQL语句,并生成指标数据,以便您实时了解系统性能及业务等信息。同时,还可以针对日志指标添加阈值规则,当满足阈值条件时产生阈值告警,以便您能在第一时间发现异常并进行处理。
拓扑
拓扑是对服务间调用关系和依赖关系的可视化展示(拓扑图)。拓扑图主要是由圆圈、箭头连线和资源组成。每个圆圈代表一个服务,圆圈上每个分区代表一个实例。每个圆圈中的分数表示活跃的实例/总实例数。分数下的内容分别表示在当前所选的时间内服务被调用次数、响应时延、错误数。每个箭头连线代表一个调用关系。调用次数越多,连线越粗。连线上的数据表示吞吐量和整体时延。吞吐量即所选时间的调用次数。拓扑使用Apdex对应用性能满意度进行量化,并使用不同颜色对不同区间Apdex的值进行标识,方便您快速发现问题,并进行定位。
事务
现实生活中,事务即一次任务,您使用应用完成一项任务,比如电商应用程序中一次商品查询就是一个事务,一次支付也是一个事务。事务通常表现为一个HTTP请求,表示一个从“请求 > webserver > DB > webserver > 请求”的完整过程。
调用链
调用链跟踪、记录业务的调用过程,可视化地还原业务请求在分布式系统中的执行轨迹和状态,用于性能及故障快速定界。