文档首页/ 应用运维管理 AOM/ 最佳实践(1.0)/ 阈值告警最佳实践(旧版)
更新时间:2023-01-04 GMT+08:00

阈值告警最佳实践(旧版)

该功能对非洲-约翰内斯堡、拉美-墨西哥城一、拉美-墨西哥城二、拉美-圣保罗一和拉美-圣地亚哥区域生效。

告警作为AOM应用运维管理中一项基础功能,在日常运维中发挥着重要作用。AOM告警可以对接华为云租户虚机、组件等数十种指标,通过短信、邮件等多种方式通知客户当前系统存在的问题。

支持的指标

AOM可以支持设置阈值告警的指标类型如下。

类型

指标举例

组件(进程)

CPU内核总量、CPU内核占用、CPU使用率等

主机网络

接收Bps、接收错包率、发送错包率、总Bps。

主机磁盘、文件系统

磁盘读取速率、磁盘写入速率、磁盘使用率。

主机指标

CPU内核总量、物理内存使用率、主机状态、NTP偏移量。

应用性能指标

请求平均时延、错误调用次数、请求吞吐量。

更多指标可参见《AOM产品介绍》“指标总览”章节。

使用步骤

  1. 登录AOM控制台,在左侧导航栏中选择“告警 > 告警规则”,单击右上角的“添加阈值”。
  2. 选择资源:在“阈值名称”文本框中输入阈值规则名称,选择资源类型,在资源树上选择待监控的资源,单击“下一步”。

    • 资源树上最多可选择100个资源。
    • 当选择多个资源时,创建操作完成后,会创建多个单条静态阈值规则,每个资源对应一个单条静态阈值规则。规则命名方式为:您在“阈值名称”文本框中设置的阈值规则名称加上0至9的序号(序号和资源选择时的先后顺序有关,先选择的资源序号越小,后选择的资源序号越大)。
    图1 选择资源

  3. 定义阈值:选择待监控的指标,设置阈值条件、连续周期、告警级别、统计方式等参数,选择是否发送通知。

    • 阈值条件:阈值告警的触发条件,由判断条件(>=、<=、>、<)和阈值组成。例如,阈值条件设置为“>85”,表示指标的实际值大于已设置的阈值85时,生成阈值告警。
    • 连续周期:连续多少个周期满足阈值条件后,发送阈值告警。
    • 统计方式:指标数据按照所设置的统计方式进行聚合。
    • 统计周期:指标数据按照所设置的统计周期进行聚合。
    • 选择是否发送通知:当静态阈值规则的状态(正常、超限阈值、数据不足)发生变化时,选择是否发送邮件或短信通知该变动。
      • 如需使用邮件或短信方式发送通知,请选择“是”,则需设置通知策略,选择已创建的主题,选择触发场景。
      • 如不需接收邮件或短信通知,请选择“否”。
    • 触发场景:发送通知的触发条件。

      触发场景您可选择多个。例如,当阈值状态变为超限阈值时,您需要收到通知,则触发场景选择超限阈值;只要阈值状态发生变化时,您都需要收到通知,则触发场景可以全选。

    图2 定义阈值

  4. 单击“添加”,完成创建多个单条静态阈值规则,一个资源对应一个规则,可使用独立的规则对某个资源进行监控。

    对于一个单条静态阈值规则,若其监控对象为某个主机,当主机的CPU使用率超限时,在告警界面产生阈值告警,可在左侧导航栏中选择“告警 > 告警列表”,在告警列表中查看该告警;当主机满足已设的通知策略时,就会发送邮件或短信。

    图3 单条静态阈值规则