查看监控指标及告警
概述
应用运维管理服务(AOM)可以监控和查看ServiceStage服务的运行状态、各个指标的使用情况,并对监控项创建告警规则。
当您使用ServiceStage服务部署组件后,AOM服务能关联通过在ServiceStage部署组件的监控指标,帮助您实时掌握组件的各项性能指标,精确掌握组件运行情况。
设置监控及告警
ServiceStage支持容器和虚拟机两种组件部署方式。
- 设置容器部署组件监控及告警
CCE会配合AOM对集群进行全方位的监控,在创建节点时会默认安装AOM的ICAgent(在集群kube-system命名空间下名为icagent的DaemonSet),ICAgent默认采集集群底层资源以及运行在集群上负载的监控数据并上传到AOM。另外,自定义组件运行指标后,ICAgent还能采集负载的自定义指标监控数据并上传到AOM。
参考设置资源监控告警阈值,完成阈值告警规则设置后,组件运行过程中产生的各种告警会上传到AOM。
- 设置虚拟机部署组件监控
选择虚拟机部署组件时,需要先在虚拟机上安装虚拟机Agent。而安装虚拟机Agent时会默认安装AOM的ICAgent,将虚拟机部署组件的监控指标上传到AOM。
支持的监控指标
指标是对资源性能的数据描述或状态描述。
- 容器部署组件支持的监控指标
容器部署组件的资源基础监控包含CPU、内存、磁盘等,具体请参考表1。
表1 资源监控指标 监控指标
指标含义
取值范围
单位
CPU内核总量(cpuCoreLimit)
该指标用于统计测量对象申请的CPU核总量。
≥1
核(Core)
CPU内核占用(cpuCoreUsed)
该指标用于统计测量对象已经使用的CPU核个数。
≥0
核(Core)
CPU使用率(cpuUsage)
该指标用于统计测量对象的CPU使用率。服务实际使用的与申请的CPU核数量比率。
0~100%
百分比(Percent)
物理内存总量(memCapacity)
该指标用于统计测量对象申请的物理内存总量。
≥0
兆字节(Megabytes)
物理内存使用率(memUsage)
该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。
0~100%
百分比(Percent)
物理内存使用量(memUsed)
该指标用于统计测量对象实际已经使用的物理内存(Resident Set Size)。
≥0
兆字节(Megabytes)
磁盘读取速率(diskReadRate)
该指标用于统计每秒从磁盘读出的数据量。
≥0
千字节/秒(Kilobytes/Second)
磁盘写入速率(diskWriteRate)
该指标用于统计每秒写入磁盘的数据量。
≥0
千字节/秒(Kilobytes/Second)
下行Pps(recvPackRate)
每秒网卡接收的数据包个数。
≥0
个/秒(Packets/Second)
文件系统容量(filesystemCapacity)
该指标用于统计测量对象文件系统的容量。仅支持1.11及其更高版本的kubernetes集群中驱动模式为devicemapper的容器。
≥0
兆字节(Megabytes)
下行Bps(recvBytesRate)
该指标用于统计测试对象的入方向网络流速。
≥0
字节/秒(Bytes/Second)
下行包错率(recvErrPackRate)
每秒网卡接收的错误包个数。
≥0
个/秒(Packets/Second)
上行Pps(sendPackRate)
该指标用于统计测试对象的出方向网络流速。
≥0
字节/秒(Bytes/Second)
上行包错率(sendErrPackRate)
每秒网卡发送的错误包个数。
≥0
个/秒(Packets/Second)
上行Bps(sendBytesRate)
该指标用于统计测试对象的出方向网络流速。
≥0
字节/秒(Bytes/Second)
容器错包个数(rxPackErrors)
该指标用于统计测量对象收到错误包的数量。
≥0
个(Packets)
线程数(threadsCount)
该指标用于统计主机中当前创建的线程数量。
≥0
无
文件系统可用(filesystemAvailable)
该指标用于统计测量对象文件系统的可用大小。仅支持1.11及其更高版本的Kubernetes集群中驱动模式为devicemapper的容器。
≥0
兆字节(Megabytes)
文件系统使用率(filesystemUsage)
该指标用于统计测量对象文件系统使用率。实际使用量与文件系统容量的百分比。仅支持1.11及其更高版本的Kubernetes集群中驱动模式为devicemapper的容器。
≥0
百分比(Percent)
句柄数(handleCount)
该指标用于统计测量对象使用的句柄数。
≥0
无
组件状态(status)
该指标用于统计应用组状态是否正常。
- 0:表示正常
- 1:表示异常
无
虚拟内存总量(virMemCapacity)
该指标用于统计测量对象申请的虚拟内存总量。
≥0
兆字节(Megabytes)
- 虚拟机部署组件支持的监控指标
AOM中,虚拟机部署的组件指的是进程,虚拟机组件指标指的就是进程指标,具体请参考表2。
表2 进程指标 指标名称
指标含义
取值范围
单位
CPU内核总量(cpuCoreLimit)
该指标用于统计测量对象申请的CPU核总量。
≥1
核(Core)
CPU内核占用(cpuCoreUsed)
该指标用于统计测量对象已经使用的CPU核个数。
≥0
核(Core)
CPU使用率(cpuUsage)
该指标用于统计测量对象的CPU使用率。服务实际使用的与申请的CPU核数量比率。
0~100%
百分比(Percent)
句柄数(handleCount)
该指标用于统计测量对象使用的句柄数。
≥0
无
物理内存总量(memCapacity)
该指标用于统计测量对象申请的物理内存总量。
≥0
兆字节(Megabytes)
物理内存使用率(memUsage)
该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。
0~100%
百分比(Percent)
物理内存使用量(memUsed)
该指标用于统计测量对象实际已经使用的物理内存(Resident Set Size)。
≥0
兆字节(Megabytes)
状态(status)
该指标用于统计进程状态是否正常。
- 0表示正常
- 1表示异常
无
线程数(threadsCount)
该指标用于统计测量对象使用的线程数。
≥0
无
虚拟内存总量(virMemCapacity)
该指标用于统计测量对象申请的虚拟内存总量。
≥0
兆字节(Megabytes)