文档首页/ 应用平台 AppStage/ 最佳实践/ 运维中心最佳实践/ 全景可观测实现系统故障快速发现与定位/ 配置容器监控指标并查看异常监控

更新时间：2025-09-16 GMT+08:00

配置容器监控指标并查看异常监控

安装cluster-monitoring插件到集群后并配置容器指标，数据异常时会上报至告警列表。

配置容器监控指标并查看异常监控

单击，选择“运维 > 弹性资源服务（ERS）”。
选择左侧导航栏的“插件中心”。
单击需要使用的插件模板的“创建”，打开“插件模板列表”页面。

选择“监控插件cluster-monitoring”，单击“安装”，然后配置插件参数，具体如表1所示，配置完成后，单击“确定”。

图1 安装插件

点击放大

表1 插件参数
参数名称	示例	参数说明
选择集群	erscluster-3dpt-WiseEyePOCProductA-turbo-cce-appstage-poc-test-001	选择需要安装插件的集群，可选集群为已纳管集群。
选择版本号	1.0.20241127103214	选择需要使用的插件模板的版本号。
变量文件名称	values-cn-cbu-product.yaml	选择插件模板的变量文件。
工作负载	-	安装cluster-monitoring、pod-upstream-controller插件时可以查看需要使用的工作负载。
自定义变量	-	单击“添加”设置键值对形式的应答。也可以进行批量添加，批量添加格式为{"k1":"v1","k2":"v2"}。可单击“复制”，复制已设置的键值对应答，复制的应答格式为{"k1":"v1","k2":"v2"}。创建aiopslogdaemonset、cluster-monitoring插件时需要新增键值，具体值可根据实际需要设置，其余插件使用默认值。 aiopslogdaemonset： filebeat.aiops_log_dir={业务的hostPath} #filebeat采集的业务日志路径 cluster-monitoring： alertmanager.replicas=0 #AlertManager工作负载POD实例个数 event_adapter.replicas=0 #EventAdapter工作负载POD实例个数 event_exporter.replicas=0 #EventExporter工作负载POD实例个数 kafkadapter.mem_request=1Gi #KafkaAdapter工作负载申请内存大小 prometheus.cpu_reuquest=1 #prometheus工作负载申请CPU核心数 prometheus.mem_request=2Gi #prometheus工作负载申请内存大小 prometheus.replicas=1 #prometheus工作负载POD实例个数

单击“确定”，提示安装成功。待状态由“Pending”变更为“Active”，安装完成。
单击，选择“运维 > 监控服务（ServiceInsight）”。
选择左侧导航栏的“告警 > 策略配置”。
单击“统一告警定义”，进入告警定义页面，默认显示“模板告警”页签。
在“模板告警”页签，单击“创建”。

配置监控指标模板规则参数，参数说明如表2所示，配置完成后，单击“确定”。

表2 监控指标模板规则参数说明
参数名称	示例	参数说明
指标来源	监控指标	选择告警的指标来源“监控指标”。
告警定义名称	XX集群的内存使用率超过70%	设置告警定义的名称，长度不超过512个字符，告警定义名称支持如下两种命名方式：普通命名。表达式命名，使用{{$labels.变量名}}命名，支持的变量如下： cluster：所在ERS集群名称 namespace：命名空间 workload：工作负载 tenant_id：租户ID application_id：应用ID service_id：服务ID site：站点
级别	提示	选择该规则生成告警的级别，包括提示、一般、严重和紧急。
告警类型	AIOps@rate	选择告警类型，上报的告警会显示类型信息，可根据类型筛选查看告警。
持续时间	5	设置指标持续异常的时间。以持续时间5min为例，需要连续满足5min内的计算点全部异常才会生成告警，否则就不会生成。持续时间控制了当前指标生成告警的速率。
运行模式	容器	选择告警定义规则的运行模式，是主机还是容器。
是否激活	是	是否激活这条告警定义。监控指标的告警定义需要推送到监控模块才能生效。如果不激活，则仅在告警侧保存，不会生效。
是否调试	否	选择是否调试。如果开启调试，当这个模板检测出来的告警上报时，告警侧会将对应告警打上debug的标签，用于存库留痕，并且对应的告警不会触发任何通知，包括语音、短信、WeLink。
指标名称	pod_container_cpu_rate	选择指标。当前集群采集的指标类型有： pod_container_cpu_rate: 容器cpu使用率 pod_container_restarts_count_30m: 容器在30分钟内重启次数 container_memory_rss_utilization: 容器rss内存使用率 cluster_cpuratre_avg: cce集群cpu平均使用率 cluster_memratre_avg: cce集群内存平均使用率
比较方式	固定阈值 >=70%	区间阈值分为在区间内和在区间外。在区间内：指数据值满足在该范围内则指标正常，否则异常。在区间外：指数据值满足不在该范围内则指标正常，否则异常。固定阈值是指数据不满足当前设置表达式则指标异常，有四种表达式，包括大于等于、小于、等于和不等于。同比是计算指标的时刻，与前一天同一时刻的比较，根据前一条的值的大小来决定当前指标是否异常。
告警标签	集群=erscluster-3dpt-WiseEyePOCProductA-turbo-cce-appstage-poc-test-001	当运行模式为“容器”时为必填。
消息模板	XX集群的内存使用率超过70%	消息模板是生成告警的msg字段中的具体信息，可选变量名由指标来决定，每一个指标都有自己对应的变量名列表。
表达式	-	单击“获取”后系统自动生成。

数据异常时，在“告警 > 告警列表”即可查看已配置的容器异常指标告警。

父主题： 全景可观测实现系统故障快速发现与定位

上一篇：配置主机监控并查看监控报表

下一篇：配置云服务实例指标并查看监控报表

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问