- 最新动态
- 功能总览
- 产品介绍(2.0)
- 计费说明(2.0)
- 快速入门(2.0)
-
用户指南(2.0)
- 通过IAM授予使用AOM的权限
- 接入AOM
- 接入AOM(新版)
- 可观测指标浏览
- 仪表盘监控
- 告警监控
- 日志管理(新版)
- 日志管理(旧版)
-
Prometheus监控
- Prometheus监控概述
- 管理Prometheus实例
- 管理Prometheus实例指标数据
- 使用Prometheus监控CCE集群指标
- 配置多账号聚合实现指标统一监控
- 配置CCE集群监控采集指标规则
- 配置预聚合规则提升指标查询效率
- 配置数据多写实现监控指标转储到自建Prometheus
- 配置指标存储时长
- 通过仪表盘监控Prometheus实例指标数据
- 配置Remote Read地址实现自建Prometheus读取AOM的Prometheus数据
- 配置Remote Write地址实现自建Prometheus数据上报到AOM
- 通过Grafana查看Prometheus实例数据
- 查看Prometheus实例指标上报量
- 基础设施监控
- 智能洞察(BETA)
- 应用洞察
- 运维管理
- 全局设置
- 查看AOM审计事件
- 迁移AOM 1.0数据至AOM 2.0
- 最佳实践(2.0)
- 常见问题(2.0)
- API参考
- SDK参考
- 产品介绍(1.0)
- 快速入门(1.0)
- 用户指南(1.0)
- 最佳实践(1.0)
-
常见问题(1.0)
- 用户高频问题
- 常见咨询问题
-
常见使用问题
- 没有消息通知服务的访问权限?
- 资源运行异常怎么办?
- 如何设置全屏模式在线时长?
- 日志配额已达到90%或已满怎么办?
- 如何获取AK/SK?
- 如何查询服务不可用时间?
- AOM告警规则状态为什么显示“数据不足”?
- 正常状态的工作负载,AOM界面显示异常是什么原因?
- 如何创建委托apm_admin_trust?
- 如何通过创建委托获取AK/SK?
- 日志费用说明
- 在控制台查看不到日志怎么办?
- 如何处理界面“ICAgent状态”为“离线”的问题?
- 安装了ICAgent,但是监控不到主机是什么原因?
- 安装ICAgent过程中,系统提示“no crontab for root”是什么原因?
- AOM配置日志转储时无法选中obs桶是什么原因?
- Grafana无法展示内容是什么原因?
- 视频帮助(1.0)
-
更多文档
- 用户指南(1.0)(吉隆坡区域)
- 用户指南(2.0)(吉隆坡区域)
- API参考(吉隆坡区域)
- 用户指南(阿布扎比区域)
- API参考(阿布扎比区域)
- 用户指南(安卡拉区域)
- API参考(安卡拉区域)
- 通用参考
链接复制成功!
快速管理容器
本章节介绍在“总览”页面的容器视角下,如何通过AOM快速管理容器,包括容器监控、配置告警规则等操作。主要操作如下:
容器监控
- 登录AOM 2.0控制台。
- 在左侧导航栏单击“概览”,即可进入“总览”页面。
- 进入“总览”页面的容器视角。
- 在快速入门区域,单击“容器监控”,进入“工作负载”页面。
- 在页面右上角设置工作负载信息的统计条件。
- 单击任一工作负载页签,即可在下方列表区域查看该工作负载的名称、状态、集群、命名空间等信息。
- 在工作负载列表上方可按集群、命名空间、实例名称等设置搜索条件,实现工作负载过滤显示。
- 单击右上角的
,可实时获取到该工作负载的最新信息。
- 单击右上角的
,通过选中/取消选中各展示项前的复选框,自定义列表项的展示/隐藏。
- 单击工作负载名称,可查看该工作负载的详细信息。
- 在“Pod实例”页签下,可查看该工作负载所有实例的概况。单击实例名称,可查看该实例下所有容器的资源使用与健康状态。
- 在“监控视图”页签下,可视化展示该工作负载的资源使用情况。
- 在“告警”页签下,可查看该工作负载的告警详情。
- 在“事件”页签下,可查看该工作负载的事件详情。
配置告警
按照配置方式的不同,创建指标告警规则可分为三种:按资源类型创建、按全量指标创建和按Prometheus命令创建。
下面的操作以按全量指标创建告警规则为例说明。
- 在“总览”页面切换为“容器视角”。
- 在快速入门区域,单击“配置告警”,进入“告警规则”页面。
- 单击 “创建告警规则”。
- 设置告警规则基本信息,具体的参数说明如表1所示。
- 设置告警规则的详细信息。
- 选择“规则类型”为“指标告警规则”。
- 选择指标配置方式为“全量指标”。
- 从下拉列表选择需要创建告警的Prometheus实例。
- 设置告警规则详情。具体的参数说明如表2所示。
设置完成后,监控的指标数据以折线图形式显示在告警条件上方,单击每条指标数据前的折线符号可将对应指标数据在当前图表中隐藏。单击“新增指标”可多次添加监控指标,并为指标设置统计周期和检测规则等信息。
将光标移动到指标数据和对应告警条件后,还可以根据需要执行以下操作:
- 单击告警条件后的
,可将对应行的指标数据在当前图表中隐藏。
- 单击告警条件后的
,可将对应行的指标数据和告警条件转换为Prometheus命令。
- 单击告警条件后的
,可快速复制对应行的指标数据及告警条件等信息,并根据需要修改。
- 单击告警条件后的
,可删除对应行指标数据的监控。
表2 告警规则详情填写说明 参数名称
参数说明
多指标
按设置的多个指标数据和对应告警条件逐条计算,只要满足一个条件则触发告警。
例如,设置了三个告警条件,则系统按照三个告警条件分别计算,只要满足任意一条则触发告警。
混合运算
将设置的多个指标数据和告警条件按照表达式计算后,满足条件则触发告警。
例如,查看主机的CPU内核占用率,没有直接可用的指标,可以按如下方案设置:
- 告警条件a的指标设置为“aom_node_cpu_used_core”,其余参数采用默认设置。该指标用于统计测量对象已经使用的CPU核个数。
- 告警条件b的指标设置为“aom_node_cpu_limit_core”,其余参数采用默认设置。该指标用于统计测量对象申请的CPU核总量。
- 表达式设置为“a/b”,最终计算结果即为主机的CPU内核占用率。
- 检测规则设置为“最大值>0.2”。
- 触发条件设置为“连续周期:3”
- 告警级别设置为“紧急”。
当连续3个统计周期,主机CPU内核占用率的最大值大于0.2时,则触发紧急告警。
指标
需要监控的指标。通过“全量指标”方式选择指标时,仅支持英文展示和英文搜索。
单击“指标”文本框,通过下列框右侧的资源树,可以按资源类型快速选择需监控的指标。
统计周期
指标数据按照所设置的统计周期进行聚合,包括:1分钟、5分钟、15分钟、1小时。
条件
指标监控的维度。不设置则表示选中全部资源。
指标的条件为key:value键值对格式,维度名称可从下拉列表中直接选择,维度值根据匹配方式的不同,设置方式不同:
- 匹配方式为“=”:此时维度值可从下拉列表中直接选择。例如,维度名称设置为“主机名称”,维度值设置为“192.168.16.4”,表示只监控主机名为“192.168.16.4”的资源。
- 匹配方式为“!=”:此时维度值可从下拉列表中直接选择。例如,维度名称设置为“主机名称”,维度值设置为“192.168.16.4”,表示监控除主机名为“192.168.16.4”的资源外的其他资源。
- 匹配方式为“=~”:此时维度值根据设置的一个或多个正则表达式确定,多个正则表达式间通过“|”间隔。例如,维度名称设置为“主机名称”,正则表达式设置为“192.*|172.*”,表示只监控主机名为“192.*”和“172.*”的资源。
- 匹配方式为“!~”:此时维度值根据设置的一个或多个正则表达式确定,多个正则表达式间通过“|”间隔。例如,维度名称设置为“主机名称”,正则表达式设置为“192.*|172.*”,表示监控除主机名为“192.*”和“172.*”的资源外的其他资源。
正则表达式的输入请参见正则表达式输入说明。
单击
,通过AND、OR关键词可为同一指标设置多个监控条件。
分组条件
指标数据按指定字段分组聚合,对聚合的结果进行运算。包括:不分组、avg by、max by、min by、sum by。例如,分组条件设置为:avg by clusterName,表示将指标按集群名称分组,然后将分组后的指标按平均值运算并展示在当前图表中。
检测规则
指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(≥、≤、>、<)和阈值组成。例如,检测规则设置为“平均值>10”,表示指标的平均值大于已设置的阈值10时,生成指标告警。
触发条件
连续多少个周期满足阈值条件后,触发指标告警。连续周期的取值范围为1~30。
例如,设置连续周期为“2”,则表示连续2个周期满足检测规则的条件,触发指标告警。
告警级别
指标告警的级别,包括:紧急、重要、次要、提示。
- 单击告警条件后的
- 单击“高级设置”,设置检查频率、告警恢复等信息,具体参数说明请参见表3。
表3 “高级设置”填写说明 参数名称
参数说明
检查频率
根据设置的频率对指标数据查询和分析结果进行检查。
告警恢复
连续多少个周期不满足告警条件,恢复告警。默认只监控一个周期,最多可监控30个连续周期指标数据。
例如,设置连续周期为“2”,则表示连续2个周期不满足告警条件,恢复告警。
无数据处理
监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要开启或者关闭。
默认只监控一个周期,最多可监控5个连续周期指标数据。
系统处理方式包括:超限阈值并发送告警、数据不足并发送事件、保持上一个状态、正常并发送清除告警。
告警标签
单击
添加告警标签。告警标签为告警标识性属性,key:value键值对格式,主要应用于告警降噪等场景。
详细说明请参见标签和标注。
告警标注
单击
添加告警标注。告警标注为告警非标识性属性,key:value键值对格式,主要应用于告警通知、消息模板等场景。
详细说明请参见标签和标注。
- 设置告警通知策略。具体参数说明请参见表4。
表4 告警通知策略填写说明 参数名称
参数说明
通知场景
设置发送告警通知的场景。
- 告警触发时:满足告警触发条件,则以邮件、短信等方式发送告警通知给指定人员。
- 告警恢复时:满足告警恢复条件,则以邮件、短信等方式发送告警通知给指定人员。
告警方式
- 直接告警:满足告警条件,直接发送告警。选择直接告警方式,需要设置通知频率和是否启用告警行动规则。
启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有列表中的告警行动规则无法满足需要,可在下拉列表中单击“新建告警行动规则”添加。设置告警行动规则的操作详见配置告警行动规则。
- 告警降噪:对告警信息自动匹配告警降噪分组规则后再发送告警,防止产生告警风暴。
选择告警降噪方式,默认会启用静默规则,请根据需要设置是否启用告警降噪的分组规则。启用后,请从下拉列表选择告警降噪的分组规则。如果现有的分组规则无法满足需要,可在下拉列表中单击“新建分组规则”添加。
- 单击“立即创建”,完成创建。创建完成后,单击“查看告警规则”可查看已创建的告警规则。
在展开的列表中,只要指标数据满足设置的告警条件时,在告警界面就会生成一条指标类告警,您可在左侧导航栏中选择“告警管理 > 告警列表”,在告警列表中查看该告警。只要指标数据满足已设的通知策略,系统就会以邮件、短信等方式发送告警通知给指定人员。
配置告警行动规则
- 进入“总览”页面的容器视角。
- 在快速入门区域,单击“配置告警行动规则”,进入告警行动规则页面。
- 在“告警行动规则”页签下,单击“创建告警行动规则”。
- 设置行动规则名称、类型等信息,参数说明如表5所示。
表5 告警行动规则参数说明 参数名称
说明
行动规则名称
行动规则的名称,只能由中文、数字、字母、下划线和中划线组成,且不能以下划线或中划线开头和结尾,最多可输入100个字符。
企业项目
所属的企业项目。
- 如果在全局页面设置为“ALL”,此处请从下拉列表中选择企业项目。
- 如果在全局页面已选择企业项目,则此处灰化不可选。
说明:
企业项目功能当前受限开放,如有需要请联系工程师为您开放。
描述
行动规则的描述信息,最多可输入1024个字符。
行动规则类型
行动规则的类型。当前只支持“指标或事件”类型。
行动方式
告警行动规则与SMN主题、消息模板关联的类型,请从下拉列表中选择。当前只支持“通知”类型。
主题
SMN主题,请从下拉列表中选择。
若没有合适的主题,请单击主题选择栏下方“创建主题”,在SMN界面创建。
消息模板
通知消息的模板,请从下列列表中选择。
若没有合适的消息模板,请单击消息模板选择栏右侧“创建消息模板”,新建消息模板。
- 设置完成后,单击“确定”。