更新时间:2024-08-23 GMT+08:00
分享

监控弹性云服务器

监控是保持弹性云服务器可靠性、可用性和性能的重要部分,通过监控,用户可以观察弹性云服务器资源。为使用户更好地掌握自己的弹性云服务器运行状态,云服务平台提供了云监控。您可以使用该服务监控您的弹性云服务器,执行自动实时监控、告警和通知操作,帮助您更好地了解弹性云服务器的各项性能指标。

主机监控分为基础监控、操作系统监控和进程监控。
  • 基础监控:ECS自动上报的监控指标,可以监控CPU使用率等指标。
  • 操作系统监控:通过在ECS中安装Agent插件,为用户提供服务器的系统级、主动式、细颗粒度监控服务。除了CPU使用率等指标外,还可以支持内存使用率(Linux)等指标。
  • 进程监控:通过在ECS中安装Agent插件,对主机内活跃进程进行监控,默认采集活跃进程消耗的CPU、内存,以及打开的文件数量等信息。
安装配置Agent相关操作请参考云监控服务“Agent安装配置方式说明”

GPU加速型实例若要进行GPU监控,需要安装Agent及对应的GPU监控插件,安装方法,请参见异构类实例安装支持对应监控的CES Agent(Linux)

通过后续章节,您可以了解以下内容:

  • 弹性云服务器当前支持的基础监控指标
  • 弹性云服务器操作系统监控的监控指标(安装Agent)
  • 弹性云服务器进程监控的监控指标(安装Agent)
  • GPU加速型实例安装GPU监控插件(Linux,公测)
  • 如何自定义弹性云服务器告警规则
  • 如何查看弹性云服务器运行状态进行日常监控

一键告警

弹性云服务器运行在物理机上,虽然提供了多种机制来保证系统的可靠性、容错能力和高可用性,但是,服务器的硬件、电源等部件仍有较小概率的损坏。云平台默认提供了自动恢复功能,当弹性云服务器所在的硬件出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,保障您受到的影响最小,该过程会导致云服务器重启。了解更多

您可以在云监控服务控制台为弹性云服务器开启“一键告警”功能,以便在HA发生(弹性云服务器所在的物理机出现故障,系统自动迁移弹性云服务器至正常的物理机)时,及时获得通知。配置方法请参见一键告警

相关文档