文档首页/ 应用运维管理 AOM/ 快速入门(2.0)/ 使用Prometheus监控ECS主机的指标(新版)
更新时间:2024-12-12 GMT+08:00
分享

使用Prometheus监控ECS主机的指标(新版)

弹性云服务器(Elastic Cloud Server,简称ECS)是由CPU、内存、操作系统、云硬盘组成的一种可随时获取、弹性可扩展的云服务器,ECS提供了丰富的网络和安全功能,如VPC、安全组、云防火墙等,帮助用户构建安全、可靠的云上环境。应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业海量运维的自动化能力和效率。将ECS接入AOM后,可以通过AOM实时监控ECS主机状态,并提供告警通知。

本文以监控ECS主机的“node_network_up”指标为例,帮助您快速上手使用AOM。

约束与限制

  • ECS主机所在区域与AOM控制台所在的区域一致。
  • 接入中心(新版)、安装UniAgent(新版)功能受限开放,如有需求可以通过提交工单申请开放此功能。

操作流程

  1. ECS主机安装 UniAgent:为AOM服务控制台所在Region区主机安装UniAgent,统一管理指标采集插件。
  2. 创建主机组:主机进行虚拟分组,便于分类管理、提升配置多个主机数据采集的效率。
  3. 接入弹性云服务器ECS:通过接入ECS,您可以为主机组安装Node Exporter并配置采集任务,采集到的指标会存储在ECS类型的Prometheus实例中,方便您管理。
  4. 配置指标告警规则:通过创建告警规则对ECS的指标设置告警阈值条件,当指标数据满足设置的告警阈值条件时产生告警。

准备工作

ECS主机安装 UniAgent

  1. 登录AOM 2.0控制台。
  2. 在左侧导航栏选择“设置 > 采集设置 > UniAgent 安装与配置”,单击右上角“体验新版”。
  3. 进入新版UniAgent 安装与配置页面,查看ECS主机的UniAgent状态。

    • 如果UniAgent状态为“运行中”,表示主机已安装UniAgent,可以跳过安装UniAgent的操作步骤,直接执行创建主机组的操作步骤。
    • 如果UniAgent状态为“异常”,表示主机安装的UniAgent功能异常,请联系技术支持。
    • 如果UniAgent状态为“安装中”,表示主机正在安装UniAgent,请耐心等待主机安装UniAgent。
    • 如果UniAgent状态为“安装失败”或“未安装”,表示主机安装UniAgent失败或未安装UniAgent,请继续执行安装UniAgent的操作步骤。

  4. 单击“安装UniAgent”,在安装UniAgent页面中,配置相关参数信息。

    图1 安装UniAgent
    表1 安装参数说明表

    参数

    说明

    示例

    服务器所在Region

    待安装主机的云服务器所在区域有两种:“本Region内”和“本Region外”。此处选择“本Region内”。

    本Region内:云服务器所在区域与当前AOM服务端在同一区域,默认云服务器与AOM服务端网络互通。

    本Region内

    服务器类型

    云服务器类型有两种:ECS云服务器、其他服务器。此处选择ECS云服务器。

    ECS云服务器:ECS云服务器管理下的主机。

    ECS云服务器

    选择安装模式

    安装模式当前仅支持命令行安装。

    控制台会提供安装命令,您需要远程登录机器执行安装命令。

    命令行安装

    云服务器操作系统

    操作系统当前仅支持Linux。

    Linux

    UniAgent版本

    选择待安装的UniAgent版本,默认最新版本。

    最新版本

    复制并执行安装命令

    单击“复制命令”,复制安装命令。

    复制Linux安装命令

  5. 登录ECS主机,在主机中以root权限执行4复制的Linux安装命令进行安装。
  6. 安装完成后,在UniAgent列表中查看UniAgent安装状态。UniAgent状态为运行中,则安装成功。

创建主机组

支持创建IP类型与自定义标识类型主机组,此处选择创建IP类型主机组。

  1. 在左侧导航栏选择“设置 > 采集设置 > 主机组管理”,单击“新建主机组”。
  2. 在弹出的新建主机组页面,配置相关参数信息。

    表2 参数说明

    参数

    说明

    示例

    主机组名称

    主机组的名称。只支持输入英文、数字、中文、中划线、下划线及小数点,且不能以小数点、下划线开头或以小数点结尾,最多可输入64个字符。

    aom-ecs

    主机组类型

    主机组的类型,支持IP类型与自定义标识类型,此处选择“IP”。

    IP

    主机类型

    主机的类型,默认选择“Linux主机”。

    Linux主机

    备注

    主机组备注,,最多可输入1024个字符。本示例可不填写。

    -

  3. 在列表中选择需要加入该主机组的主机,单击“确定”,完成主机组的创建。

接入弹性云服务器ECS

  1. 登录AOM 2.0控制台。
  2. 左侧导航栏选择“接入 > 接入中心”,单击页面右上角“体验新版”,进入新版接入中心页面。
  3. 筛选出“运行环境”下的“弹性云服务器ECS”卡片,并单击卡片上的“接入指标(AOM)”。
  4. 配置接入弹性云服务器ECS的相关参数。

    1. 选择Prometheus实例。
      1. Prometheus 实例类型:系统默认选择“Prometheus for ECS”,不可修改。
      2. 选择 Prometheus 实例:单击“新建 Prometheus 实例”,详情请参见表3,创建完成后在下拉列表中选择Prometheus 实例。
        表3 创建Prometheus For ECS类型实例

        参数

        说明

        示例

        实例名称

        Prometheus实例的名称。

        只能由中文、字母、数字、下划线、中划线组成,且不能以下划线或中划线开头和结尾,最多不能超过100个字符。

        mon_ECS

        企业项目

        所属的企业项目。

        • 如果在全局页面设置为“ALL”,此处请从下拉列表中选择企业项目。
        • 如果在全局页面已选择企业项目,则此处灰化不可选。

        default

        实例类型

        Prometheus实例的类型。

        Prometheus for ECS

    2. 选择主机组。

      在主机组列表中选择创建主机组中的主机组。

    3. 采集配置。
      在“采集配置”中,参考下表配置相关参数信息。
      表4 采集配置

      类别

      参数

      说明

      示例

      基础配置

      采集配置名称

      配置指标接入规则名称。

      规则名称可以包含大小写字母,数字,特殊字符(_-),以字母开头,最大长度为50。

      ecs-rule

      指标抓取规则

      指标采集间隔(秒)

      指标采集的周期,单位为秒(s),默认为60s,可选择10、30和60。

      60

      指标采集超时时间(秒)

      执行指标采集任务的超时时间,单位为秒(s),默认为60s,可选择10、30和60。

      说明:

      超时时间必须小于或等于采集周期。

      60

      执行用户

      执行指标接入规则的用户,即所选主机组的用户。默认设置为root。

      root

      其他配置

      自定义键值对维度

      以键值对形式添加静态维度,用于标识指标的附加属性。单击“添加标签”可配置多个自定义键值对维度。此处可不设置。

      -

      ECS标签注入维度

      系统默认关闭,开启后,AOM会将ECS的标签信息(键值对)写入到指标的维度中。当ECS标签变更(增/删/改),指标维度也会同步变化。

      关闭

  5. 配置完成后,配置完成后,单击“下一步”,即可成功接入ECS。

配置指标告警规则

按照配置方式的不同,创建指标告警规则可分为:按全量指标创建按PromQL创建

下面的操作以按全量指标创建为例,通过选择指标和设置条件,配置指标告警规则。

  1. 在左侧导航栏选择“告警管理 > 告警规则”,单击“创建”。
  2. 设置告警规则基本信息,具体的参数说明如表5所示。

    表5 基本信息填写说明

    参数名称

    说明

    示例

    规则名称

    规则名称。最多可输入256个字符,只能包含中文、字母、数字、下划线和中划线,开头、结尾不允许输入特殊字符。

    monitor_ecs

    企业项目

    选择业务需要的企业项目,默认为default。

    default

    描述

    规则的描述信息,最多可输入1024个字符。本示例可不填写。

    -

  3. 设置告警规则的详细信息。

    1. “规则类型”选择“指标告警规则”。
    2. “配置方式”选择“全量指标”,通过配置多种类型资源的告警条件创建告警规则。
    3. 从下拉列表选择需要Prometheus实例。此处选择4.a.ii创建的ECS实例。
    4. 设置告警规则详情。具体的参数说明如表6所示。

      设置完成后,监控的指标数据以折线图形式显示在告警条件上方。单击“新增指标”可多次添加监控指标,并为指标设置统计周期和检测规则等信息。

      图2 设置告警规则详情
      表6 告警规则详情填写说明

      参数名称

      参数说明

      示例

      多指标

      按设置的多个指标数据和对应告警条件逐条计算,只要满足一个条件则触发告警。

      多指标

      指标

      需要监控的指标。单击“指标”文本框,通过下拉框右侧的资源树,可以按资源类型快速选择需监控的指标。

      node_network_up

      统计周期

      指标数据按照所设置的统计周期进行聚合。

      1分钟

      条件

      指标监控的维度。不设置则表示选中全部资源。本示例可不填写。

      -

      分组条件

      指标数据按指定字段分组聚合,对聚合的结果进行运算。

      不分组

      检测规则

      指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(≥、≤、>、<)和阈值组成。

      “平均值 > 1”

      触发条件

      连续多少个周期满足阈值条件后,触发指标告警。

      3

      告警级别

      指标告警的级别。

      • :表示紧急告警。
      • :表示重要告警。
      • :表示次要告警。
      • :表示提示告警。

  4. 单击“高级设置”,设置检查频率、告警恢复等信息,具体参数说明请参见表7

    表7 “高级设置”填写说明

    参数名称

    参数说明

    示例

    检查频率

    根据设置的频率对指标数据查询和分析结果进行检查。

    固定间隔 1分钟

    告警恢复

    连续多少个周期不满足告警条件,恢复告警。

    1

    无数据处理

    监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要开启或者关闭。

    开启:连续周期“1”达到数据不足,状态设置“数据不足并发送告警”

    告警标签

    单击添加告警标签。告警标签为告警标识性属性,key:value键值对格式,主要应用于告警降噪等场景。本示例可不填写。

    详细说明请参见标签和标注

    说明:

    如您的组织已经设定AOM服务的相关标签策略,则需按照标签策略规则添加告警标签。标签如果不符合标签策略的规则,则可能会导致添加标签失败,请联系组织管理员了解标签策略详情。

    -

    告警标注

    单击添加告警标注。告警标注为告警非标识性属性,key:value键值对格式,主要应用于告警通知、消息模板等场景。本示例可不填写。

    详细说明请参见标签和标注

    -

  5. 设置告警通知策略。具体参数说明请参见表8

    图3 设置告警通知策略
    表8 告警通知策略填写说明

    参数名称

    参数说明

    示例

    通知场景

    设置发送告警通知的场景。系统默认选择“告警触发时”和“告警恢复时”。

    • 告警触发时:满足告警触发条件,则以邮件、短信等方式发送告警通知给指定人员。
    • 告警恢复时:满足告警恢复条件,则以邮件、短信等方式发送告警通知给指定人员。

    保持系统默认选择

    告警方式

    • 直接告警:满足告警条件,直接发送告警。选择直接告警方式,需要设置通知频率和是否启用告警行动规则。
    • 通知频率:发送告警通知的频率,请根据需要从下拉列表中选择。
    • 行动规则:启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有列表中的告警行动规则无法满足需要,可在下拉列表中单击“新建告警行动规则”添加。设置告警行动规则的操作详见配置告警行动规则
    • 告警方式:直接告警
    • 通知频率:只通知一次
    • 告警行动规则:Mon_aom

  6. 单击“立即创建”,完成创建。创建完成后,单击“查看告警规则”可查看已创建的告警规则。

    在展开的列表中,当指标数据满足设置的告警条件时,在告警界面就会生成一条指标类告警,您可在左侧导航栏中选择“告警管理 > 告警列表”,在告警列表中查看该告警。当指标数据满足已设的通知策略,系统就会以邮件、短信等方式发送告警通知给指定人员。

    图4 创建指标告警规则

相关信息

告警规则配置完成后,您还可以根据需要执行以下操作:

  • 在“告警管理 > 告警列表”中查看告警,详情请参见查看告警
  • 使用不同的配置方式创建指标告警规则,详情请参见创建指标告警规则

相关文档