使用Prometheus监控ECS主机的指标
弹性云服务器(Elastic Cloud Server,简称ECS)是由CPU、内存、操作系统、云硬盘组成的一种可随时获取、弹性可扩展的云服务器,ECS提供了丰富的网络和安全功能,如VPC、安全组、云防火墙等,帮助用户构建安全、可靠的云上环境。应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业海量运维的效率。将ECS接入AOM后,可以通过AOM实时监控ECS主机状态,并提供告警通知。
本文以监控ECS主机的“node_network_up”指标为例,帮助您快速上手使用AOM。
约束与限制
ECS主机所在区域与AOM控制台所在的区域一致。
操作流程
- ECS主机安装 UniAgent:为AOM服务控制台所在Region区主机安装UniAgent,统一管理指标采集插件。
- 创建主机组:主机进行虚拟分组,便于分类管理、提升配置多个主机数据采集的效率。
- 配置弹性云服务器ECS接入AOM:通过接入ECS,您可以为主机组安装Node Exporter并配置采集任务,采集到的指标会存储在ECS类型的Prometheus实例中,方便您管理。
- 配置指标告警规则:通过创建告警规则对ECS的指标设置告警阈值条件,当指标数据满足设置的告警阈值条件时产生告警。
前提条件
- 购买一台ECS弹性云服务器。如果您已有可用的弹性云服务器,可重复使用,不需要再次购买。
- 已开通AOM 2.0并授权。
ECS主机安装 UniAgent
- 登录AOM 2.0控制台。
- 在左侧导航栏中选择“设置 > 全局设置”,进入全局设置页面。
- 在全局设置页面选择“采集设置 > UniAgent管理”,单击右上角“体验新版”。
- 进入新版UniAgent管理页面,查看ECS主机的UniAgent状态。
- 如果UniAgent状态为“运行中”,表示主机已安装UniAgent,可以跳过安装UniAgent的操作步骤,直接执行创建主机组的操作步骤。
- 如果UniAgent状态为“离线”,表示主机安装的UniAgent功能异常。
- 如果UniAgent状态为“安装中”,表示主机正在安装UniAgent,请耐心等待主机安装UniAgent。
- 如果UniAgent状态为“安装失败”或“未安装”,表示主机安装UniAgent失败或未安装UniAgent,请继续执行安装UniAgent的操作步骤。
- 在“ECS 云服务器”页签单击“安装UniAgent”,选择“安装场景”为“脚本快速安装(推荐)”。
- 在安装UniAgent页面中,配置相关参数信息。
表1 安装参数说明表 参数
说明
示例
服务器所在Region
待安装主机的云服务器所在区域。
本Region内:云服务器所在区域与当前AOM服务端在同一区域,默认云服务器与AOM服务端网络互通。
本Region内
服务器类型
云服务器类型有两种:ECS云服务器、其他服务器。此处选择ECS云服务器。
ECS云服务器:ECS云服务器管理下的主机。
ECS云服务器
选择安装模式
安装模式当前仅支持命令行安装。
控制台会提供安装命令,您需要远程登录机器执行安装命令。
命令行安装
云服务器操作系统
操作系统当前支持Linux和Windows。此处选择Linux。
Linux
UniAgent版本
选择待安装的UniAgent版本,默认最新版本。
最新版本
复制并执行安装命令
单击“复制命令”,复制安装命令。
复制Linux安装命令
- 登录ECS主机,在主机中以root权限执行6复制的Linux安装命令进行安装。
- 安装完成后,在UniAgent列表中查看UniAgent安装状态。UniAgent状态为运行中,则安装成功。
创建主机组
支持创建IP类型与自定义标识类型主机组,此处选择创建IP类型主机组。
- 登录AOM 2.0控制台。
- 在左侧导航栏中选择“设置 > 全局设置”,进入全局设置页面。
- 在全局设置页面选择“采集设置 > 主机组管理”,单击“新建主机组”。
- 在弹出的新建主机组页面,配置相关参数信息。
表2 参数说明 参数
说明
示例
主机组名称
主机组的名称。只支持输入英文、数字、中文、中划线、下划线及小数点,且不能以小数点、下划线开头或以小数点结尾,最多可输入64个字符。
aom-ecs
主机组类型
主机组的类型,支持IP类型与自定义标识类型,此处选择“IP”。
IP
主机类型
主机的类型,默认选择“Linux主机”。
Linux主机
备注
主机组备注,最多可输入1024个字符。本示例可不填写。
-
- 在列表中选择需要加入该主机组的主机,单击“确定”,完成主机组的创建。
配置弹性云服务器ECS接入AOM
- 登录AOM 2.0控制台。
- 左侧导航栏选择“接入中心 > 接入中心”,单击页面右上角“体验新版”,进入新版接入中心页面。
- 筛选出“运行环境”下的“弹性云服务器ECS”卡片,并单击卡片上的“接入指标(AOM)”。
- 配置接入弹性云服务器ECS的相关参数。
- 选择Prometheus实例。
- Prometheus 实例类型:选择Prometheus实例类型,支持选择“Prometheus for ECS”和Prometheus 通用实例”。
- 选择 Prometheus 实例:在下拉列表中选择Prometheus实例。如果当前没有可选的Prometheus实例,可单击“新建 Prometheus 实例”,详情请参见表3。
表3 创建Prometheus实例 参数
说明
示例
实例名称
Prometheus实例的名称。
只能由中文、字母、数字、下划线、中划线组成,且不能以下划线或中划线开头和结尾,最多不能超过100个字符。
mon_ECS
企业项目
选择业务需要的企业项目,默认为default。- 如果在全局页面设置为“ALL”,此处请从下拉列表中选择企业项目。
- 如果在全局页面已选择企业项目,则此处灰化不可选。
- 企业项目功能当前受限开放,如有需要请联系工程师为您开放。
default
实例类型
Prometheus实例的类型,支持选择“Prometheus for ECS”和Prometheus 通用实例”。
Prometheus for ECS
- 选择主机组。
在主机组列表中选择创建主机组中的主机组。
- 采集配置。
在“采集配置”中,参考下表配置相关参数信息。
表4 采集配置 类别
参数
说明
示例
基础配置
采集配置名称
配置指标接入规则名称。
规则名称可以包含大小写字母,数字,特殊字符(_-),以字母开头,最大长度为50个字符。
ecs-rule
指标抓取规则
指标采集间隔(秒)
指标采集的周期,单位为秒(s),默认为60s,可选择10、30和60。
60
指标采集超时时间(秒)
执行指标采集任务的超时时间,单位为秒(s),默认为60s,可选择10、30和60。超时时间必须小于或等于采集周期。
60
执行用户
执行指标接入规则的用户,即所选主机组的用户。默认设置为root。
root
其他配置
自定义键值对维度
以键值对形式添加静态维度,用于标识指标的附加属性。单击“添加标签”可配置多个自定义键值对维度。此处可不设置。
-
ECS标签注入维度
系统默认关闭,开启后,AOM会将ECS的标签信息(键值对)写入到指标的维度中。当ECS标签变更(增/删/改),指标维度也会同步变化。
关闭
- 选择Prometheus实例。
- 配置完成后,配置完成后,单击“下一步”,即可成功接入ECS的指标。
配置指标告警规则
按照配置方式的不同,创建指标告警规则可分为:按全量指标创建和按PromQL创建。
下面的操作以按全量指标创建为例,通过选择指标和设置条件,配置指标告警规则。
- 在左侧导航栏选择“告警中心 > 告警规则”,单击“创建”。
- 设置告警规则基本信息,具体的参数说明如表5所示。
表5 基本信息填写说明 参数名称
说明
示例
规则原始名称
规则名称。最多可输入256个字符,只能包含中文、字母、数字、下划线和中划线,开头、结尾不允许输入特殊字符。
monitor_ecs
规则名称
规则的名称。最多可输入256个字符,只能包含中文、字母、数字、特殊字符(_-【】),开头、结尾不允许输入中划线、下划线。
-
企业项目
选择业务需要的企业项目,默认为default。- 如果在全局页面设置为“ALL”,此处请从下拉列表中选择企业项目。
- 如果在全局页面已选择企业项目,则此处灰化不可选。
- 企业项目功能当前受限开放,如有需要请联系工程师为您开放。
default
描述
规则的描述信息,最多可输入1024个字符。本示例可不填写。
-
- 设置告警规则的详细信息。
- “规则类型”选择“指标告警规则”。
- “配置方式”选择“全量指标”,通过配置多种类型资源的告警条件创建告警规则。
- 从下拉列表选择需要Prometheus实例。此处选择4.a.ii创建的ECS实例。
- 设置告警规则详情。具体的参数说明如表6所示。
设置完成后,监控的指标数据以折线图形式显示在告警条件上方。单击“新增指标”可多次添加监控指标,并为指标设置统计周期和检测规则等信息。
表6 告警规则详情填写说明 参数名称
参数说明
示例
多指标
按设置的多个指标数据和对应告警条件逐条计算,只要满足一个条件则触发告警。
多指标
指标
需要监控的指标。单击“指标”文本框,通过下拉框右侧的资源树,可以按资源类型快速选择需监控的指标。
node_network_up
统计周期
指标数据按照所设置的统计周期进行聚合。
1分钟
条件
指标监控的维度。不设置则表示选中全部资源。本示例可不填写。
-
分组条件
指标数据按指定字段分组聚合,对聚合的结果进行运算。
不分组
检测规则
指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(≥、≤、>、<)和阈值组成。
“平均值 > 1”
触发条件
连续多少个周期满足阈值条件后,触发指标告警。
3
告警级别
指标告警的级别。
:表示紧急告警。
:表示重要告警。
:表示次要告警。
:表示提示告警。
- 单击“高级设置”,设置检查频率、告警恢复等信息,具体参数说明请参见表7。
表7 “高级设置”填写说明 参数名称
参数说明
示例
检查频率
根据设置的频率对指标数据查询和分析结果进行检查。
固定间隔 1分钟
告警恢复
连续多少个周期不满足告警条件,恢复告警。
1
无数据处理
监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要开启或者关闭。
开启:连续周期“1”达到数据不足,状态设置“数据不足并发送告警”
告警规则标签
单击
添加告警规则标签。告警规则标签为告警标识性属性,key:value键值对格式,主要应用于告警降噪等场景。本示例可不填写。
详细说明请参见标签和标注 。
-
告警规则标注
单击
添加告警规则标注。告警规则标注为告警非标识性属性,key:value键值对格式,主要应用于告警通知、消息模板等场景。本示例可不填写。
详细说明请参见标签和标注 。
-
- 设置告警通知策略。具体参数说明请参见表8。
表8 告警通知策略填写说明 参数名称
参数说明
示例
通知场景
设置发送告警通知的场景。系统默认选择“告警触发时”和“告警恢复时”。
- 告警触发时:满足告警触发条件,则以邮件、短信等方式发送告警通知给指定人员。
- 告警恢复时:满足告警恢复条件,则以邮件、短信等方式发送告警通知给指定人员。
保持系统默认选择
告警方式
- 直接告警:满足告警条件,直接发送告警。选择直接告警方式,需要设置通知频率和是否启用通知规则。
- 通知频率:发送告警通知的频率,请根据需要从下拉列表中选择。
- 通知规则:启用通知规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有列表中的告警通知规则无法满足需要,可在下拉列表中单击“新建告警通知规则”添加。设置告警通知规则的操作详见配置告警通知规则。
- 告警方式:直接告警
- 通知频率:只通知一次
- 通知规则:Mon_aom
- 单击“立即创建”,完成创建。创建完成后,单击“查看告警规则”可查看已创建的告警规则。
在展开的列表中,当指标数据满足设置的告警条件时,在告警界面就会生成一条指标类告警,您可在左侧导航栏中选择“告警中心 > 告警列表”,在告警列表中查看该告警。当指标数据满足已设的通知策略,系统就会以邮件、短信等方式发送告警通知给指定人员。
相关信息
告警规则配置完成后,您还可以根据需要执行以下操作:
- 在“告警中心 > 告警列表”中查看告警,详情请参见查看AOM告警或事件。
- 使用不同的配置方式创建指标告警规则,详情请参见创建AOM指标告警规则。