更新时间:2024-08-02 GMT+08:00
分享

配置指标告警

您可以对主机监控、云服务监控中的指标项设置告警规则。您可以在不同的监控对象层级(全部资源、资源分组、指定实例维度)设置告警规则。

前提条件

请确保您已拥有云监控服务的操作权限,能够创建告警规则。

资源层级

配置告警时,您需要指定监控对象的资源层级,资源层级分为云产品和子维度两种类型,推见您使用云产品层级,两者介绍如下。

  1. 云产品(推荐):该方式将允许您在同一告警规则内配置多个维度的指标,如CPU使用率(云服务器维度)、磁盘使用率(挂载点维度)。
  2. 子维度:该方式只允许您在同一告警规则内配置单个维度的指标,2024年之前的产品能力,不推荐使用。

监控范围(监控对象)

配置告警规则时,需要选择要监控范围(监控对象),监控范围包含以下三种方式。

  1. 全部资源(推荐):针对全部资源生效。
  2. 资源分组(推荐):针对指定的资源分组生效。
  3. 指定资源:只有选择的资源才生效。

触发规则

触发规则是告警规则最核心的组成部分,定义指标在什么条件下生成什么级别的告警。

  1. 关联模板:通过模板快速生成告警触发规则。
  2. 自定义创建:通过自助选择指标的方式来完成触发规则的创建。

告警通知

当告警触发后,我们需要定义通知的渠道和对象,快速的将告警信息通过配置的渠道通知到运维人员。

当前CES支持以下三种方式来完成通知的配置。

  1. 通知策略(推荐):产品最新上线能力,通过通知策略可以完成告警的分级通知、简易排班。
  2. 通知组:通过在云监控服务上配置的通知群组,可以快速通知到指定运维人员。
  3. 主体订阅:通过在消息通知服务(SMN)配置的主题,快速将该消息推送至消息主题。

通知配置模块如下图所示。

通知策略模块如下图所示。

监控最核心的职责是帮助用户发现问题,而问题的发现是依赖监控系统中对告警规则的配置,告警规则配置的覆盖率、准确率将直接影响监控系统的故障发现率。

相关文档