使用Prometheus监控ECS主机的指标(新版)
弹性云服务器(Elastic Cloud Server,简称ECS)是由CPU、内存、操作系统、云硬盘组成的一种可随时获取、弹性可扩展的云服务器,ECS提供了丰富的网络和安全功能,如VPC、安全组、云防火墙等,帮助用户构建安全、可靠的云上环境。应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业海量运维的自动化能力和效率。将ECS接入AOM后,可以通过AOM实时监控ECS主机状态,并提供告警通知。
本文以监控ECS主机的“node_network_up”指标为例,帮助您快速上手使用AOM。
约束与限制
- ECS主机所在区域与AOM控制台所在的区域一致。
- 接入中心(新版)、安装UniAgent(新版)功能受限开放,如有需求可以通过提交工单申请开放此功能。
操作流程
- ECS主机安装 UniAgent:为AOM服务控制台所在Region区主机安装UniAgent,统一管理指标采集插件。
- 创建主机组:主机进行虚拟分组,便于分类管理、提升配置多个主机数据采集的效率。
- 接入弹性云服务器ECS:通过接入ECS,您可以为主机组安装Node Exporter并配置采集任务,采集到的指标会存储在ECS类型的Prometheus实例中,方便您管理。
- 配置指标告警规则:通过创建告警规则对ECS的指标设置告警阈值条件,当指标数据满足设置的告警阈值条件时产生告警。
准备工作
- 购买一台弹性云服务器,详细请参考快速购买和使用Linux ECS。如果您已有可用的弹性云服务器,可重复使用,不需要再次购买。
- 已开通AOM 2.0并授权。
ECS主机安装 UniAgent
- 登录AOM 2.0控制台。
- 在左侧导航栏选择“设置 > 采集设置 > UniAgent 安装与配置”,单击右上角“体验新版”。
- 进入新版UniAgent 安装与配置页面,查看ECS主机的UniAgent状态。
- 如果UniAgent状态为“运行中”,表示主机已安装UniAgent,可以跳过安装UniAgent的操作步骤,直接执行创建主机组的操作步骤。
- 如果UniAgent状态为“异常”,表示主机安装的UniAgent功能异常,请联系技术支持。
- 如果UniAgent状态为“安装中”,表示主机正在安装UniAgent,请耐心等待主机安装UniAgent。
- 如果UniAgent状态为“安装失败”或“未安装”,表示主机安装UniAgent失败或未安装UniAgent,请继续执行安装UniAgent的操作步骤。
- 单击“安装UniAgent”,在安装UniAgent页面中,配置相关参数信息。
图1 安装UniAgent
表1 安装参数说明表 参数
说明
示例
服务器所在Region
待安装主机的云服务器所在区域有两种:“本Region内”和“本Region外”。此处选择“本Region内”。
本Region内:云服务器所在区域与当前AOM服务端在同一区域,默认云服务器与AOM服务端网络互通。
本Region内
服务器类型
云服务器类型有两种:ECS云服务器、其他服务器。此处选择ECS云服务器。
ECS云服务器:ECS云服务器管理下的主机。
ECS云服务器
选择安装模式
安装模式当前仅支持命令行安装。
控制台会提供安装命令,您需要远程登录机器执行安装命令。
命令行安装
云服务器操作系统
操作系统当前仅支持Linux。
Linux
UniAgent版本
选择待安装的UniAgent版本,默认最新版本。
最新版本
复制并执行安装命令
单击“复制命令”,复制安装命令。
复制Linux安装命令
- 登录ECS主机,在主机中以root权限执行4复制的Linux安装命令进行安装。
- 安装完成后,在UniAgent列表中查看UniAgent安装状态。UniAgent状态为运行中,则安装成功。
创建主机组
支持创建IP类型与自定义标识类型主机组,此处选择创建IP类型主机组。
- 在左侧导航栏选择“设置 > 采集设置 > 主机组管理”,单击“新建主机组”。
- 在弹出的新建主机组页面,配置相关参数信息。
表2 参数说明 参数
说明
示例
主机组名称
主机组的名称。只支持输入英文、数字、中文、中划线、下划线及小数点,且不能以小数点、下划线开头或以小数点结尾,最多可输入64个字符。
aom-ecs
主机组类型
主机组的类型,支持IP类型与自定义标识类型,此处选择“IP”。
IP
主机类型
主机的类型,默认选择“Linux主机”。
Linux主机
备注
主机组备注,,最多可输入1024个字符。本示例可不填写。
-
- 在列表中选择需要加入该主机组的主机,单击“确定”,完成主机组的创建。
接入弹性云服务器ECS
- 登录AOM 2.0控制台。
- 左侧导航栏选择“接入 > 接入中心”,单击页面右上角“体验新版”,进入新版接入中心页面。
- 筛选出“运行环境”下的“弹性云服务器ECS”卡片,并单击卡片上的“接入指标(AOM)”。
- 配置接入弹性云服务器ECS的相关参数。
- 选择Prometheus实例。
- Prometheus 实例类型:系统默认选择“Prometheus for ECS”,不可修改。
- 选择 Prometheus 实例:单击“新建 Prometheus 实例”,详情请参见表3,创建完成后在下拉列表中选择Prometheus 实例。
- 选择主机组。
在主机组列表中选择创建主机组中的主机组。
- 采集配置。
在“采集配置”中,参考下表配置相关参数信息。
表4 采集配置 类别
参数
说明
示例
基础配置
采集配置名称
配置指标接入规则名称。
规则名称可以包含大小写字母,数字,特殊字符(_-),以字母开头,最大长度为50。
ecs-rule
指标抓取规则
指标采集间隔(秒)
指标采集的周期,单位为秒(s),默认为60s,可选择10、30和60。
60
指标采集超时时间(秒)
执行指标采集任务的超时时间,单位为秒(s),默认为60s,可选择10、30和60。
说明:超时时间必须小于或等于采集周期。
60
执行用户
执行指标接入规则的用户,即所选主机组的用户。默认设置为root。
root
其他配置
自定义键值对维度
以键值对形式添加静态维度,用于标识指标的附加属性。单击“添加标签”可配置多个自定义键值对维度。此处可不设置。
-
ECS标签注入维度
系统默认关闭,开启后,AOM会将ECS的标签信息(键值对)写入到指标的维度中。当ECS标签变更(增/删/改),指标维度也会同步变化。
关闭
- 选择Prometheus实例。
- 配置完成后,配置完成后,单击“下一步”,即可成功接入ECS。
配置指标告警规则
按照配置方式的不同,创建指标告警规则可分为:按全量指标创建和按PromQL创建。
下面的操作以按全量指标创建为例,通过选择指标和设置条件,配置指标告警规则。
- 在左侧导航栏选择“告警管理 > 告警规则”,单击“创建”。
- 设置告警规则基本信息,具体的参数说明如表5所示。
- 设置告警规则的详细信息。
- “规则类型”选择“指标告警规则”。
- “配置方式”选择“全量指标”,通过配置多种类型资源的告警条件创建告警规则。
- 从下拉列表选择需要Prometheus实例。此处选择4.a.ii创建的ECS实例。
- 设置告警规则详情。具体的参数说明如表6所示。
设置完成后,监控的指标数据以折线图形式显示在告警条件上方。单击“新增指标”可多次添加监控指标,并为指标设置统计周期和检测规则等信息。
图2 设置告警规则详情
表6 告警规则详情填写说明 参数名称
参数说明
示例
多指标
按设置的多个指标数据和对应告警条件逐条计算,只要满足一个条件则触发告警。
多指标
指标
需要监控的指标。单击“指标”文本框,通过下拉框右侧的资源树,可以按资源类型快速选择需监控的指标。
node_network_up
统计周期
指标数据按照所设置的统计周期进行聚合。
1分钟
条件
指标监控的维度。不设置则表示选中全部资源。本示例可不填写。
-
分组条件
指标数据按指定字段分组聚合,对聚合的结果进行运算。
不分组
检测规则
指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(≥、≤、>、<)和阈值组成。
“平均值 > 1”
触发条件
连续多少个周期满足阈值条件后,触发指标告警。
3
告警级别
指标告警的级别。
- :表示紧急告警。
- :表示重要告警。
- :表示次要告警。
- :表示提示告警。
- 单击“高级设置”,设置检查频率、告警恢复等信息,具体参数说明请参见表7。
表7 “高级设置”填写说明 参数名称
参数说明
示例
检查频率
根据设置的频率对指标数据查询和分析结果进行检查。
固定间隔 1分钟
告警恢复
连续多少个周期不满足告警条件,恢复告警。
1
无数据处理
监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要开启或者关闭。
开启:连续周期“1”达到数据不足,状态设置“数据不足并发送告警”
告警标签
单击添加告警标签。告警标签为告警标识性属性,key:value键值对格式,主要应用于告警降噪等场景。本示例可不填写。
详细说明请参见标签和标注。
说明:如您的组织已经设定AOM服务的相关标签策略,则需按照标签策略规则添加告警标签。标签如果不符合标签策略的规则,则可能会导致添加标签失败,请联系组织管理员了解标签策略详情。
-
告警标注
单击添加告警标注。告警标注为告警非标识性属性,key:value键值对格式,主要应用于告警通知、消息模板等场景。本示例可不填写。
详细说明请参见标签和标注。
-
- 设置告警通知策略。具体参数说明请参见表8。
图3 设置告警通知策略
表8 告警通知策略填写说明 参数名称
参数说明
示例
通知场景
设置发送告警通知的场景。系统默认选择“告警触发时”和“告警恢复时”。
- 告警触发时:满足告警触发条件,则以邮件、短信等方式发送告警通知给指定人员。
- 告警恢复时:满足告警恢复条件,则以邮件、短信等方式发送告警通知给指定人员。
保持系统默认选择
告警方式
- 直接告警:满足告警条件,直接发送告警。选择直接告警方式,需要设置通知频率和是否启用告警行动规则。
- 通知频率:发送告警通知的频率,请根据需要从下拉列表中选择。
- 行动规则:启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有列表中的告警行动规则无法满足需要,可在下拉列表中单击“新建告警行动规则”添加。设置告警行动规则的操作详见配置告警行动规则。
- 告警方式:直接告警
- 通知频率:只通知一次
- 告警行动规则:Mon_aom
- 单击“立即创建”,完成创建。创建完成后,单击“查看告警规则”可查看已创建的告警规则。
在展开的列表中,当指标数据满足设置的告警条件时,在告警界面就会生成一条指标类告警,您可在左侧导航栏中选择“告警管理 > 告警列表”,在告警列表中查看该告警。当指标数据满足已设的通知策略,系统就会以邮件、短信等方式发送告警通知给指定人员。
图4 创建指标告警规则