使用Prometheus监控ECS主机的指标
弹性云服务器(Elastic Cloud Server,简称ECS)是由CPU、内存、操作系统、云硬盘组成的一种可随时获取、弹性可扩展的云服务器,ECS提供了丰富的网络和安全功能,如VPC、安全组、云防火墙等,帮助用户构建安全、可靠的云上环境。应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业海量运维的自动化能力和效率。将ECS接入AOM后,可以通过AOM实时监控ECS主机状态,并提供告警通知。
本文以监控ECS主机的“node_network_up”指标为例,帮助您快速上手使用AOM。
操作流程
- ECS主机手动安装UniAgent:手动为ECS主机安装Uniagent,统一管理指标采集插件。
- AOM接入弹性云服务器 ECS:通过Node Exporter插件将ECS指标上报到AOM,并储存在ECS类型的Prometheus实例中。
- 配置指标告警规则:通过创建告警规则对ECS的指标设置告警阈值条件,当指标数据满足设置的告警阈值条件时产生告警。
准备工作
- 购买一台弹性云服务器,详细请参考快速购买和使用Linux ECS。如果您已有可用的弹性云服务器,可重复使用,不需要再次购买。
- 已开通AOM 2.0并授权。
ECS主机手动安装UniAgent
- 登录AOM 2.0控制台。
- 在左侧导航栏中选择“设置”,进入全局配置界面。
- 左侧导航栏中,选择“采集设置 > UniAgent 安装与配置”,查看ECS主机的UniAgent状态。
- 如果UniAgent状态为“运行中”,表示主机已安装UniAgent,可以跳过安装UniAgent的操作步骤,直接执行AOM接入弹性云服务器 ECS的操作步骤。
- 如果UniAgent状态为“异常”,表示主机安装的UniAgent功能异常,请联系技术支持。
- 如果UniAgent状态为“安装中”,表示主机正在安装UniAgent,请耐心等待主机安装UniAgent。
- 如果UniAgent状态为“安装失败”或“未安装”,表示主机安装UniAgent失败或未安装UniAgent,请继续执行安装UniAgent的操作步骤。
- 选择需要安装UniAgent的主机,单击右上角“安装UniAgent”,选择“手动安装”。
首次安装UniAgent时,默认进入“手动安装”页面,无需选择“手动安装”。
- 在安装UniAgent页面中,配置相关参数信息。
图1 手动安装UniAgent
表1 手动安装参数说明表 参数
说明
示例
UniAgent版本
UniAgent的版本,必选项。
1.1.6
接入方式
接入UniAgent的方式,此处选择“直连接入”。
直连接入:华为云主机,使用直连接入的方式。
直连接入
安装命令
安装UniAgent的命令,此处选择复制LINUX安装命令。
单击复制安装命令。
set +o history; curl -k -X GET -m 20 --retry 1 --retry-delay 10 -o /tmp/install_uniagent https://aom-uniagent-xxxxxx/install_uniagent.sh;bash /tmp/install_uniagent -a xxxxxxxxxx -s xxxxxxxxxx -p xxxxxx -d https://aom-uniagent-xxxxxx -m https://uniagent.master.cnxxxxxx,https://xx.xx.xx.xx:xxxx -v 1.x.x -q false set -o history;
复制LINUX安装命令
- 登录ECS主机,在主机中以root权限执行5复制的Linux安装命令进行安装。
- 安装完成后,在UniAgent列表中查看UniAgent安装状态。UniAgent状态为运行中,则安装成功。
AOM接入弹性云服务器 ECS
- 登录AOM 2.0控制台。
- 在左侧导航栏中选择“接入 > 接入中心”。
- 在“Prometheus 运行环境”面板单击“弹性云服务器 ECS”卡片。
- 在“弹性云服务器 ECS”弹框中的“安装步骤”页签,按照页面提示进行安装。
- 创建Prometheus For ECS类型实例:单击“创建Prometheus For ECS类型实例”,在弹框中配置相关参数信息。
表2 创建Prometheus For ECS类型实例 参数
说明
示例
实例名称
Prometheus实例的名称。
只能由中文、字母、数字、下划线、中划线组成,且不能以下划线或中划线开头和结尾,最多不能超过100个字符。
mon_ECS
企业项目
所属的企业项目。
- 如果在全局页面设置为“ALL”,此处请从下拉列表中选择企业项目。
- 如果在全局页面已选择企业项目,则此处灰化不可选。
default
实例类型
Prometheus实例的类型。
Prometheus for ECS
- 选择Prometheus For ECS实例:在“选择Prometheus For ECS实例”下拉框中选择4.a中创建的ECS实例。
- 安装Node Exporter。在主机列表中选择需要安装的主机,单击“一键安装”。
- 安装完成后,NodeExporter插件即可为您采集指标。单击“弹性云服务器 ECS”弹框中的“采集任务”页签,可以查看采集任务。
图2 查看采集任务
- 创建Prometheus For ECS类型实例:单击“创建Prometheus For ECS类型实例”,在弹框中配置相关参数信息。
配置指标告警规则
按照配置方式的不同,创建指标告警规则可分为:按全量指标创建和按PromQL创建。
下面的操作以按全量指标创建为例,通过选择指标和设置条件,配置指标告警规则。
- 在左侧导航栏选择“告警管理 > 告警规则”,单击“创建”。
- 设置告警规则基本信息,具体的参数说明如表3所示。
- 设置告警规则的详细信息。
- “规则类型”选择“指标告警规则”。
- “配置方式”选择“全量指标”,通过配置多种类型资源的告警条件创建告警规则。
- 从下拉列表选择需要的Prometheus实例。此处选择4.a创建的ECS实例。
- 设置告警规则详情。具体的参数说明如表4所示。
设置完成后,监控的指标数据以折线图形式显示在告警条件上方。单击“新增指标”可多次添加监控指标,并为指标设置统计周期和检测规则等信息。
图3 设置告警规则详情
表4 告警规则详情填写说明 参数名称
参数说明
示例
多指标
按设置的多个指标数据和对应告警条件逐条计算,只要满足一个条件则触发告警。
多指标
指标
需要监控的指标。单击“指标”文本框,通过下拉框右侧的资源树,可以按资源类型快速选择需监控的指标。
node_network_up
统计周期
指标数据按照所设置的统计周期进行聚合。
1分钟
条件
指标监控的维度。不设置则表示选中全部资源。本示例可不填写。
-
分组条件
指标数据按指定字段分组聚合,对聚合的结果进行运算。
不分组
检测规则
指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(≥、≤、>、<)和阈值组成。
“平均值 > 1”
触发条件
连续多少个周期满足阈值条件后,触发指标告警。
3
告警级别
指标告警的级别。
- :表示紧急告警。
- :表示重要告警。
- :表示次要告警。
- :表示提示告警。
- 单击“高级设置”,设置检查频率、告警恢复等信息,具体参数说明请参见表5。
表5 “高级设置”填写说明 参数名称
参数说明
示例
检查频率
根据设置的频率对指标数据查询和分析结果进行检查。
固定间隔 1分钟
告警恢复
连续多少个周期不满足告警条件,恢复告警。
1
无数据处理
监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要开启或者关闭。
开启:连续周期“1”达到数据不足,状态设置“数据不足并发送告警”
告警标签
单击添加告警标签。告警标签为告警标识性属性,key:value键值对格式,主要应用于告警降噪等场景。本示例可不填写。
详细说明请参见标签和标注。
说明:如您的组织已经设定AOM服务的相关标签策略,则需按照标签策略规则添加告警标签。标签如果不符合标签策略的规则,则可能会导致添加标签失败,请联系组织管理员了解标签策略详情。
-
告警标注
单击添加告警标注。告警标注为告警非标识性属性,key:value键值对格式,主要应用于告警通知、消息模板等场景。本示例可不填写。
详细说明请参见标签和标注。
-
- 设置告警通知策略。具体参数说明请参见表6。
图4 设置告警通知策略
表6 告警通知策略填写说明 参数名称
参数说明
示例
通知场景
设置发送告警通知的场景。系统默认选择“告警触发时”和“告警恢复时”。
- 告警触发时:满足告警触发条件,则以邮件、短信等方式发送告警通知给指定人员。
- 告警恢复时:满足告警恢复条件,则以邮件、短信等方式发送告警通知给指定人员。
保持系统默认选择
告警方式
- 直接告警:满足告警条件,直接发送告警。选择直接告警方式,需要设置通知频率和是否启用告警行动规则。
- 通知频率:发送告警通知的频率,请根据需要从下拉列表中选择。
- 行动规则:启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有列表中的告警行动规则无法满足需要,可在下拉列表中单击“新建告警行动规则”添加。设置告警行动规则的操作详见配置告警行动规则。
- 告警方式:直接告警
- 通知频率:只通知一次
- 告警行动规则:Mon_aom
- 单击“立即创建”,完成创建。创建完成后,单击“查看告警规则”可查看已创建的告警规则。
在展开的列表中,当指标数据满足设置的告警条件时,在告警界面就会生成一条指标类告警,您可在左侧导航栏中选择“告警管理 > 告警列表”,在告警列表中查看该告警。当指标数据满足已设的通知策略,系统就会以邮件、短信等方式发送告警通知给指定人员。
图5 创建指标告警规则