文档首页/ 应用运维管理 AOM/ 快速入门(2.0)/ 使用Prometheus监控ECS主机的指标
更新时间:2024-12-12 GMT+08:00
分享

使用Prometheus监控ECS主机的指标

弹性云服务器(Elastic Cloud Server,简称ECS)是由CPU、内存、操作系统、云硬盘组成的一种可随时获取、弹性可扩展的云服务器,ECS提供了丰富的网络和安全功能,如VPC、安全组、云防火墙等,帮助用户构建安全、可靠的云上环境。应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业海量运维的自动化能力和效率。将ECS接入AOM后,可以通过AOM实时监控ECS主机状态,并提供告警通知。

本文以监控ECS主机的“node_network_up”指标为例,帮助您快速上手使用AOM。

操作流程

  1. ECS主机手动安装UniAgent:手动为ECS主机安装Uniagent,统一管理指标采集插件。
  2. AOM接入弹性云服务器 ECS:通过Node Exporter插件将ECS指标上报到AOM,并储存在ECS类型的Prometheus实例中。
  3. 配置指标告警规则:通过创建告警规则对ECS的指标设置告警阈值条件,当指标数据满足设置的告警阈值条件时产生告警。

准备工作

ECS主机手动安装UniAgent

  1. 登录AOM 2.0控制台。
  2. 在左侧导航栏中选择“设置”,进入全局配置界面。
  3. 左侧导航栏中,选择“采集设置 > UniAgent 安装与配置”,查看ECS主机的UniAgent状态。

    • 如果UniAgent状态为“运行中”,表示主机已安装UniAgent,可以跳过安装UniAgent的操作步骤,直接执行AOM接入弹性云服务器 ECS的操作步骤。
    • 如果UniAgent状态为“异常”,表示主机安装的UniAgent功能异常,请联系技术支持。
    • 如果UniAgent状态为“安装中”,表示主机正在安装UniAgent,请耐心等待主机安装UniAgent。
    • 如果UniAgent状态为“安装失败”或“未安装”,表示主机安装UniAgent失败或未安装UniAgent,请继续执行安装UniAgent的操作步骤。

  4. 选择需要安装UniAgent的主机,单击右上角“安装UniAgent”,选择“手动安装”。

    首次安装UniAgent时,默认进入“手动安装”页面,无需选择“手动安装”。

  5. 在安装UniAgent页面中,配置相关参数信息。

    图1 手动安装UniAgent
    表1 手动安装参数说明表

    参数

    说明

    示例

    UniAgent版本

    UniAgent的版本,必选项。

    1.1.6

    接入方式

    接入UniAgent的方式,此处选择“直连接入”。

    直连接入:华为云主机,使用直连接入的方式。

    直连接入

    安装命令

    安装UniAgent的命令,此处选择复制LINUX安装命令。

    单击复制安装命令。

    set +o history; 
    curl -k -X GET -m 20 --retry 1 --retry-delay 10 -o /tmp/install_uniagent https://aom-uniagent-xxxxxx/install_uniagent.sh;bash /tmp/install_uniagent -a xxxxxxxxxx -s xxxxxxxxxx -p xxxxxx -d https://aom-uniagent-xxxxxx -m https://uniagent.master.cnxxxxxx,https://xx.xx.xx.xx:xxxx -v 1.x.x -q false
    set -o history;

    复制LINUX安装命令

  6. 登录ECS主机,在主机中以root权限执行5复制的Linux安装命令进行安装。
  7. 安装完成后,在UniAgent列表中查看UniAgent安装状态。UniAgent状态为运行中,则安装成功。

AOM接入弹性云服务器 ECS

  1. 登录AOM 2.0控制台。
  2. 在左侧导航栏中选择“接入 > 接入中心”。
  3. 在“Prometheus 运行环境”面板单击“弹性云服务器 ECS”卡片。
  4. 在“弹性云服务器 ECS”弹框中的“安装步骤”页签,按照页面提示进行安装。

    1. 创建Prometheus For ECS类型实例:单击“创建Prometheus For ECS类型实例”,在弹框中配置相关参数信息。
      表2 创建Prometheus For ECS类型实例

      参数

      说明

      示例

      实例名称

      Prometheus实例的名称。

      只能由中文、字母、数字、下划线、中划线组成,且不能以下划线或中划线开头和结尾,最多不能超过100个字符。

      mon_ECS

      企业项目

      所属的企业项目。

      • 如果在全局页面设置为“ALL”,此处请从下拉列表中选择企业项目。
      • 如果在全局页面已选择企业项目,则此处灰化不可选。

      default

      实例类型

      Prometheus实例的类型。

      Prometheus for ECS

    2. 选择Prometheus For ECS实例:在“选择Prometheus For ECS实例”下拉框中选择4.a中创建的ECS实例。
    3. 安装Node Exporter。在主机列表中选择需要安装的主机,单击“一键安装”。
    4. 安装完成后,NodeExporter插件即可为您采集指标。单击“弹性云服务器 ECS”弹框中的“采集任务”页签,可以查看采集任务。
      图2 查看采集任务

配置指标告警规则

按照配置方式的不同,创建指标告警规则可分为:按全量指标创建按PromQL创建

下面的操作以按全量指标创建为例,通过选择指标和设置条件,配置指标告警规则。

  1. 在左侧导航栏选择“告警管理 > 告警规则”,单击“创建”。
  2. 设置告警规则基本信息,具体的参数说明如表3所示。

    表3 基本信息填写说明

    参数名称

    说明

    示例

    规则名称

    规则名称。最多可输入256个字符,只能包含中文、字母、数字、下划线和中划线,开头、结尾不允许输入特殊字符。

    monitor_ecs

    企业项目

    选择业务需要的企业项目,默认为default。

    default

    描述

    规则的描述信息,最多可输入1024个字符。本示例可不填写。

    -

  3. 设置告警规则的详细信息。

    1. “规则类型”选择“指标告警规则”。
    2. “配置方式”选择“全量指标”,通过配置多种类型资源的告警条件创建告警规则。
    3. 从下拉列表选择需要的Prometheus实例。此处选择4.a创建的ECS实例。
    4. 设置告警规则详情。具体的参数说明如表4所示。

      设置完成后,监控的指标数据以折线图形式显示在告警条件上方。单击“新增指标”可多次添加监控指标,并为指标设置统计周期和检测规则等信息。

      图3 设置告警规则详情
      表4 告警规则详情填写说明

      参数名称

      参数说明

      示例

      多指标

      按设置的多个指标数据和对应告警条件逐条计算,只要满足一个条件则触发告警。

      多指标

      指标

      需要监控的指标。单击“指标”文本框,通过下拉框右侧的资源树,可以按资源类型快速选择需监控的指标。

      node_network_up

      统计周期

      指标数据按照所设置的统计周期进行聚合。

      1分钟

      条件

      指标监控的维度。不设置则表示选中全部资源。本示例可不填写。

      -

      分组条件

      指标数据按指定字段分组聚合,对聚合的结果进行运算。

      不分组

      检测规则

      指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(≥、≤、>、<)和阈值组成。

      “平均值 > 1”

      触发条件

      连续多少个周期满足阈值条件后,触发指标告警。

      3

      告警级别

      指标告警的级别。

      • :表示紧急告警。
      • :表示重要告警。
      • :表示次要告警。
      • :表示提示告警。

  4. 单击“高级设置”,设置检查频率、告警恢复等信息,具体参数说明请参见表5

    表5 “高级设置”填写说明

    参数名称

    参数说明

    示例

    检查频率

    根据设置的频率对指标数据查询和分析结果进行检查。

    固定间隔 1分钟

    告警恢复

    连续多少个周期不满足告警条件,恢复告警。

    1

    无数据处理

    监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要开启或者关闭。

    开启:连续周期“1”达到数据不足,状态设置“数据不足并发送告警”

    告警标签

    单击添加告警标签。告警标签为告警标识性属性,key:value键值对格式,主要应用于告警降噪等场景。本示例可不填写。

    详细说明请参见标签和标注

    说明:

    如您的组织已经设定AOM服务的相关标签策略,则需按照标签策略规则添加告警标签。标签如果不符合标签策略的规则,则可能会导致添加标签失败,请联系组织管理员了解标签策略详情。

    -

    告警标注

    单击添加告警标注。告警标注为告警非标识性属性,key:value键值对格式,主要应用于告警通知、消息模板等场景。本示例可不填写。

    详细说明请参见标签和标注

    -

  5. 设置告警通知策略。具体参数说明请参见表6

    图4 设置告警通知策略
    表6 告警通知策略填写说明

    参数名称

    参数说明

    示例

    通知场景

    设置发送告警通知的场景。系统默认选择“告警触发时”和“告警恢复时”。

    • 告警触发时:满足告警触发条件,则以邮件、短信等方式发送告警通知给指定人员。
    • 告警恢复时:满足告警恢复条件,则以邮件、短信等方式发送告警通知给指定人员。

    保持系统默认选择

    告警方式

    • 直接告警:满足告警条件,直接发送告警。选择直接告警方式,需要设置通知频率和是否启用告警行动规则。
    • 通知频率:发送告警通知的频率,请根据需要从下拉列表中选择。
    • 行动规则:启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有列表中的告警行动规则无法满足需要,可在下拉列表中单击“新建告警行动规则”添加。设置告警行动规则的操作详见配置告警行动规则
    • 告警方式:直接告警
    • 通知频率:只通知一次
    • 告警行动规则:Mon_aom

  6. 单击“立即创建”,完成创建。创建完成后,单击“查看告警规则”可查看已创建的告警规则。

    在展开的列表中,当指标数据满足设置的告警条件时,在告警界面就会生成一条指标类告警,您可在左侧导航栏中选择“告警管理 > 告警列表”,在告警列表中查看该告警。当指标数据满足已设的通知策略,系统就会以邮件、短信等方式发送告警通知给指定人员。

    图5 创建指标告警规则

相关信息

告警规则配置完成后,您还可以根据需要执行以下操作:

  • 在“告警管理 > 告警列表”中查看告警,详情请参见查看告警
  • 使用不同的配置方式创建指标告警规则,详情请参见创建指标告警规则

相关文档