更新时间:2025-08-06 GMT+08:00

概览

无论您使用的是ECS还是BMS,都可以使用主机监控来采集丰富的操作系统层面监控指标,也可以使用主机监控进行服务器资源使用情况监控和排查故障时的监控数据查询。

主机监控分为基础监控、操作系统监控和进程监控。

  • 基础监控:ECS自动上报的监控指标,数据采集频率为5分钟1次。可以监控CPU使用率等指标,详见云产品监控指标。BMS不支持基础监控。
  • 操作系统监控:通过在ECS或BMS中安装Agent插件,为用户提供服务器的系统级、主动式、细颗粒度监控服务。数据采集频率为1分钟1次。支持采集CPU使用率、内存使用率等指标,关于指标的更多信息请参见云产品监控指标
  • 进程监控:针对主机内活跃进程进行的监控,默认采集活跃进程消耗的CPU、内存,以及打开的文件数量等信息。
  • 目前支持Linux操作系统和Windows操作系统。支持的系统请参见Agent支持的系统有哪些?
  • 建议用户使用主机监控的主机规格为:Linux使用“2vCPUs | 4GiB”、Windows使用“4vCPUs | 8GiB”或更高配置。
  • Linux操作系统安装插件需要root权限;Windows操作系统安装插件需要管理员权限。

约束限制

主机监控服务仅支持对华为云公共镜像进行监控。若使用私有镜像,在监控过程中出现任何问题,CES 将无法提供技术支持。

监控能力

云监控服务会提供CPU、内存、磁盘、网络等多种监控指标,满足服务器的基本监控运维需求。详细的监控指标请参考云产品监控指标

性能说明

Agent占用的系统资源很小,CPU单核使用率最大不超过10%、内存最大不超过200M。一般情况下,CPU单核使用率<5%,内存<100M。

在部分场景下,由于机器运行场景原因,会导致Agent CPU、内存占用冲高,超过资源阈值后出现Agent熔断情况,以下是常见场景及解决方式说明:
表1 导致Agent资源占用高的场景

影响因素

场景说明

解决方式

TCP连接数过多

Agent在默认情况下仅仅采集TCP TOTAL、TCP ESTABLISHED两个基础指标,此时比较节省CPU;通过修改配置文件开启任何一个TCP详细指标,则会采集全部TCP指标,此时CPU资源消耗会显著增加。。

TCP基础指标:TCP TOTAL、TCP ESTABLISHED。

TCP详细指标:TCP SYS_SENT、TCP SYS_RECV、TCP FIN_WAIT1、TCP FIN_WAIT2、TCP TIME_WAIT、TCP CLOSE、TCP CLOSE_WAIT、TCP LAST_ACK、 TCP LISTEN、 TCP CLOSING。

方式一:请参见修改配置文件开启/关闭指标采集,通过修改配置文件关闭TCP详细指标采集,节省CPU占用。

方式二:请参见修改配置文件调整Agent资源消耗阈值,通过修改配置文件,调整Agent资源占用阈值。

文件句柄总数

Agent在运行过程中会遍历当前机器所有进程打开文件数并累计求和,采集文件句柄总数指标,当进程打开文件数过多时会导致Agent任务重进而导致CPU冲高。

方式一:请参见修改配置文件调整进程采集频率,通过修改配置文件,降低Agent进程指标刷新频率,节省CPU占用。

方式二:请参见修改配置文件调整Agent资源消耗阈值,通过修改配置文件,调整Agent资源占用阈值。

进程数量

Agent在运行过程中会遍历当前机器所有进程,通过查看进程的信息来采集进程级指标,当实例中进程数量过多时会导致Agent任务重进而导致CPU冲高。