主机监控
ECS是电商平台的基础支撑,因此ECS上细微的性能变化,都可能会引起电商业务的大幅震荡,甚至出现宕机,引起巨大损失。
主机监控提供了包括基础监控和操作系统监控两种不同监控粒度层次的监控。基础监控为ECS自动上报的监控指标,操作系统监控通过在ECS中安装Agent插件,为用户提供服务器的系统级、主动式、细颗粒度监控服务。
本章节以CPU使用率为例介绍如何使用主机监控,由于需要给服务器预留部分处理性能保障服务器正常运行,所以建议将CPU告警阈值设置为80%,连续三次超过阈值后开始报警。
应用场景
促销、秒杀、爆款等电商业务场景,瞬间访问量达到平常的几十至数百倍,会导致服务器负载高,系统响应慢。
您可以对ECS的监控指标配置告警规则,比如CPU使用率,当CPU使用率达到配置的阈值时发送告警通知,及时处理异常。
前提条件
已安装Agent插件,具体安装步骤请参见安装配置Agent。
操作步骤
- 登录管理控制台。
- 在管理控制台左上角选择区域和项目。
- 单击“服务列表 > 云监控服务”。
- 单击页面左侧的“主机监控”,进入主机监控页面。
- 单击ECS主机所在栏右侧的“更多”按钮,选择下拉出的“创建告警规则”。
- 在“创建告警规则”界面,根据界面提示配置告警内容参数,其中,告警类型、云产品、资源层级、监控范围、监控对象默认预填写。。
表1 主机监控告警内容配置说明 参数
示例
说明
告警类型
指标
告警规则适用的告警类型。不支持修改。
云产品
弹性云服务器 - 云服务器
配置告警规则监控的服务名称。不支持修改
资源层级
云产品
用户购买了云产品,根据指标划分了多个子维度。若选择云产品则单个告警规则支持跨子维度指标,若选择子维度则不支持跨子维度指标。
不支持修改。
监控范围
指定资源
告警规则适用的资源范围。
触发规则
自定义创建
选择触发规则方式
指标名称
在下拉框中选择“云服务器-进程-进程ID >(Agent)指定进程CPU使用率”
选择触发告警的指标
告警策略
原始值连续3次大于等于80%,每1天告警一次。
触发告警规则的告警策略。说明:每1天告警一次是指告警发生后如果状态未恢复正常,每一天重复上报一次告警。
告警级别
重要
根据告警的严重程度不同等级
- 根据界面提示,配置告警通知参数。
表2 主机监控告警通知配置说明 参数
示例
说明
发送通知
开启
当触发设置的告警条件时,是否发送告警通知。
通知方式
主题订阅
选择告警通知方式
通知对象
云账号联系人
- 当通知方式选择主题订阅时,需要选择发送告警通知的对象。
- 当通知对象选择云账号联系人时,会发送告警通知到注册时的手机和邮箱。
生效时间
00:00-23:59
- 当通知方式选择主题订阅时,需要设置生效时间。
- 系统仅在生效时间内发送告警通知消息。
触发条件
依次勾选出现告警、恢复正常
当通知方式选择通知组或者主题订阅时,可以选择“出现告警”、“恢复正常”两种状态,作为触发告警通知的条件。
告警规则创建完成后,当业务量飙升,监控指标触发设定的阈值时,云监控会在第一时间通过消息通知服务实时告知资源异常,提醒您处理,以免因此造成业务损失。