- 最新动态
- 功能总览
- 产品介绍
- 计费说明
- 快速入门
-
用户指南
- 通过IAM授予使用AOM的权限
- 接入AOM
- 接入AOM(新版)
- 可观测指标浏览
- 仪表盘监控
- 告警监控
- 日志管理(新版)
- 日志管理(旧版)
-
Prometheus监控
- Prometheus监控概述
- 管理Prometheus实例
- 管理Prometheus实例指标数据
- 使用Prometheus监控CCE集群指标
- 配置多账号聚合实现指标统一监控
- 配置CCE集群监控采集指标规则
- 配置预聚合规则提升指标查询效率
- 配置数据多写实现监控指标转储到自建Prometheus
- 配置指标存储时长
- 通过仪表盘监控Prometheus实例指标数据
- 配置Remote Read地址实现自建Prometheus读取AOM的Prometheus数据
- 配置Remote Write地址实现自建Prometheus数据上报到AOM
- 通过Grafana查看Prometheus实例数据
- 查看Prometheus实例指标上报量
- 基础设施监控
- 云服务监控
- 应用监控
- 智能洞察(BETA)
- Web监控
- App监控
- 应用洞察
- 运维管理
- 全局设置
- 查看AOM审计事件
- 迁移AOM 1.0数据至AOM 2.0
- 最佳实践
-
常见问题
- 仪表盘
- 告警管理
- 日志分析
- Prometheus监控
- 基础设施监控
- 应用监控
- 应用资源管理(即将下线)
- 运维管理(即将下线)
-
采集管理
- ICAgent和UniAgent是同一个插件吗?
- 如何处理界面“ICAgent状态”为“离线”的问题?
- 在主机上手工安装ICAgent后提示安装成功,但UniAgent安装与配置界面显示状态异常?
- ICAgent安装成功后,无法在界面上获取到ICAgent状态
- ICAgent安装成功后,AOM中无法监控到CPU内存使用率等信息
- 如何获取AK/SK?
- UniAgent和ICAgent安装类常见问题
- 如何在VPCEP控制台为AOM/LTS创建终端节点?
- 如何启用NGINX stub_status模块?
- APM指标数据未采集上来,可能有哪些原因?
- ECS主机上执行UniAgent安装命令,下载安装脚本失败
- 其他常见问题
- 视频帮助
- API参考
- SDK参考
- 场景代码示例
-
AOM 1.0 文档
- 产品介绍(1.0)
- 快速入门(1.0)
- 用户指南(1.0)
- 最佳实践(1.0)
-
常见问题(1.0)
- 用户高频问题
- 常见咨询问题
-
常见使用问题
- 没有消息通知服务的访问权限?
- 资源运行异常怎么办?
- 如何设置全屏模式在线时长?
- 日志配额已达到90%或已满怎么办?
- 如何获取AK/SK?
- 如何查询服务不可用时间?
- AOM告警规则状态为什么显示“数据不足”?
- 正常状态的工作负载,AOM界面显示异常是什么原因?
- 如何创建委托apm_admin_trust?
- 如何通过创建委托获取AK/SK?
- 日志费用说明
- 在控制台查看不到日志怎么办?
- 如何处理界面“ICAgent状态”为“离线”的问题?
- 安装了ICAgent,但是监控不到主机是什么原因?
- 安装ICAgent过程中,系统提示“no crontab for root”是什么原因?
- AOM配置日志转储时无法选中obs桶是什么原因?
- Grafana无法展示内容是什么原因?
- 视频帮助(1.0)
- 文档下载
- 通用参考
链接复制成功!
监控云容器引擎 CCE的指标
云容器引擎 CCE是一个企业级的集群托管服务,基于云服务器快速构建高可靠的容器集群,帮助您轻松创建和管理多样化的容器工作负载。应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业海量运维的自动化能力和效率。当CCE对接AOM后,支持将云容器引擎 CCE的集群信息上报至AOM,AOM可以实时监控CCE集群的状态和性能等,并提供告警通知。
您可通过在AOM中设置告警规则,及时了解CCE集群中各种资源是否存在异常,全面掌握集群的实时运行状况。本章节以监控云容器引擎 CCE的CPU使用率指标“aom_container_cpu_usage”,当该指标达到告警阈值条件时,产生告警为例,帮助您快速上手使用应用运维管理。
操作流程
- 开通AOM 2.0并授权。
- 容器监控:在云容器引擎 CCE购买集群和节点后,自动安装ICAgent插件,将CCE集群指标上报到AOM,用户无需手动接入。
- 配置告警行动规则:通过创建告警行动规则关联SMN主题与消息模板,当CCE的指标数据满足对应的告警条件时,系统根据关联SMN主题与消息模板来发送告警通知。
- 配置告警:通过创建告警规则对CCE的指标设置告警阈值条件,当指标数据满足设置的告警阈值条件时产生告警。
准备工作
本章节以监控云容器引擎 CCE的指标为例,需要提前在CCE中购买集群和节点,详细请参考购买Standard/Turbo集群和创建节点。如果您已有可用的集群和节点,可重复使用,不需要再次购买。
首次开通AOM 2.0并授权
- 注册账号并实名认证。
使用AOM 2.0前,需要先注册一个华为账号并进行实名认证。如果您已有一个华为账号,可直接跳过如下操作。
- 进入华为云官网,单击页面右上角的“注册”。
- 参考注册华为账号并开通华为云中操作,完成注册。
- 注册后参考实名认证完成个人或企业账号实名认证。
- 开通AOM 2.0。
使用AOM 2.0前,需要先开通AOM 2.0。如果您已开通AOM 2.0,可直接跳过如下操作。
- 登录AOM华为云官网。
- 在AOM产品简介下方单击“AOM2.0控制台”,进入AOM 2.0服务页面。
- 在弹出的“通知”对话框中仔细阅读从AOM 1.0切换到AOM 2.0计费方式变化的说明。
- 单击“授权”,然后在“云服务授权”页面中仔细阅读授权声明后,勾选“我已阅读并同意授权声明”。
- 单击“免费开通服务并授权”,即可免费开通AOM 2.0服务。
- 为用户添加应用运维管理AOM和云容器引擎CCE的操作权限。
您需要有AOM的管理员权限“AOM FullAccess”和CCE的管理员权限“CCE FullAccess”,具体操作请参考创建用户并授权使用AOM和集群权限(IAM授权)。
配置告警行动规则
- 在左侧导航栏选择“告警管理 > 告警行动规则”。
- 在“告警行动规则”页签下,单击“创建告警行动规则”,参考表1填写参数。
表1 告警行动规则参数说明 参数名称
说明
示例
行动规则名称
行动规则的名称,只能由中文、数字、字母、下划线和中划线组成,且不能以下划线或中划线开头和结尾,最多可输入200个字符。
Mon_aom
企业项目
选择业务需要的企业项目,默认为default。
default
描述
行动规则的描述信息,最多可输入1024个字符。本示例可不填写。
-
行动规则类型
行动规则的类型。此处选择“指标或事件”。
指标或事件:当指标或事件满足对应的告警条件时,系统根据关联SMN主题与消息模板来发送告警通知。
指标或事件
行动方式
告警行动规则与SMN主题、消息模板关联的类型,请从下拉列表中选择。当前只支持“通知”类型。
通知
主题
SMN主题,请从下拉列表中选择。
若没有合适的主题,请单击主题选择栏下方“创建主题”,在SMN界面创建。
-
消息模板
通知消息的模板,请从下列列表中选择。
若没有合适的消息模板,请单击消息模板选择栏右侧“创建消息模板”,新建消息模板。
-
- 设置完成后,单击“确定”。
配置告警
按照配置方式的不同,创建指标告警规则可分为:按全量指标创建和按Prometheus命令创建。
下面的操作以按全量指标创建告警规则为例说明。
- 在左侧导航栏选择“告警管理 > 告警规则”,单击“创建”。
- 设置告警规则基本信息,具体的参数说明如表2所示。
- 设置告警规则的详细信息。
- “规则类型”选择“指标告警规则”。
- “配置方式”选择“全量指标”,通过配置多种类型资源的告警条件创建告警规则。
- 从下拉列表选择需要创建告警的Prometheus实例。例如,此处选择“Prometheus_AOM_Default”。
- 设置告警规则详情。具体的参数说明如表3所示。
设置完成后,监控的指标数据以折线图形式显示在告警条件上方。单击“新增指标”可多次添加监控指标,并为指标设置统计周期和检测规则等信息。
图2 设置告警规则详情表3 告警规则详情填写说明 参数名称
参数说明
示例
多指标
按设置的多个指标数据和对应告警条件逐条计算,只要满足一个条件则触发告警。
多指标
指标
需要监控的指标。单击“指标”文本框,通过下列框右侧的资源树,可以按资源类型快速选择需监控的指标。
aom_container_cpu_usage
统计周期
指标数据按照所设置的统计周期进行聚合。
1分钟
条件
指标监控的维度。不设置则表示选中全部资源。此处根据3中监控的工作负载设置条件。
集群名称=aom-doc-test AND 工作负载名称=coredns
分组条件
指标数据按指定字段分组聚合,对聚合的结果进行运算。
不分组
检测规则
指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(≥、≤、>、<)和阈值组成。
“平均值 > 10”
触发条件
连续多少个周期满足阈值条件后,触发指标告警。
3
告警级别
指标告警的级别。
- 单击“高级设置”,设置检查频率、告警恢复等信息,具体参数说明请参见表4。
表4 “高级设置”填写说明 参数名称
参数说明
示例
检查频率
根据设置的频率对指标数据查询和分析结果进行检查。
固定间隔 1分钟
告警恢复
连续多少个周期不满足告警条件,恢复告警。
1
无数据处理
监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要开启或者关闭。
开启:连续周期“1”达到数据不足,状态设置“数据不足并发送告警”
告警标签
单击
添加告警标签。告警标签为告警标识性属性,key:value键值对格式,主要应用于告警降噪等场景。本示例可不填写。
详细说明请参见标签和标注。
-
告警标注
单击
添加告警标注。告警标注为告警非标识性属性,key:value键值对格式,主要应用于告警通知、消息模板等场景。本示例可不填写。
详细说明请参见标签和标注。
-
- 设置告警通知策略。具体参数说明请参见表5。
图3 设置告警通知策略
表5 告警通知策略填写说明 参数名称
参数说明
示例
通知场景
设置发送告警通知的场景。系统默认选择“告警触发时”和“告警恢复时”。
- 告警触发时:满足告警触发条件,则以邮件、短信等方式发送告警通知给指定人员。
- 告警恢复时:满足告警恢复条件,则以邮件、短信等方式发送告警通知给指定人员。
保持系统默认选择
告警方式
- 直接告警:满足告警条件,直接发送告警。选择直接告警方式,需要设置通知频率和是否启用告警行动规则。
- 通知频率:发送告警通知的频率,请根据需要从下拉列表中选择。
- 行动规则:启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有列表中的告警行动规则无法满足需要,可在下拉列表中单击“新建告警行动规则”添加。设置告警行动规则的操作详见配置告警行动规则。
告警方式:直接告警
通知频率:只通知一次
告警行动规则:Mon_aom
- 单击“立即创建”,完成创建。创建完成后,单击“查看告警规则”可查看已创建的告警规则。
在展开的列表中,当指标数据满足设置的告警条件时,在告警界面就会生成一条指标类告警,您可在左侧导航栏中选择“告警管理 > 告警列表”,在告警列表中查看该告警。当指标数据满足已设的通知策略,系统就会以邮件、短信等方式发送告警通知给指定人员。
图4 创建指标告警规则