更新时间:2022-12-05 GMT+08:00

一键告警

应用场景

一键告警为您提供针对服务下所有资源快速开启告警的能力,旨在帮助用户快速建立监控告警体系,在资源异常时可以及时获得通知。本章节介绍如何使用一键告警功能一键开启关键监控项告警的服务。

一键式告警和普通告警的主要差异点如表1所示。

表1 一键告警和告警对比一览表

告警类型

主要目标

范围

告警对象

告警触发方式

一键告警

当重要事件发生时,立即触发告警通知。

优势:配置简单,一键式打开开关。

弹性云服务器、弹性公网IP和关系型数据库的重要事件。支持的事件列表请参考支持的产品及事件详情

事件监控

立即触发

普通告警

根据设置的告警策略触发告警。例如:CPU利用率在5分钟内的平均值连续5次>=80%时发送告警通知。

优势:告警策略更加灵活,可根据业务情况灵活配置。

所有支持监控的服务。

  • 主机监控
  • 云服务监控
  • 自定义监控
  • 站点监控
  • 日志监控

累计触发

当事件发生时,立即触发或者累计触发告警通知。

优势:灵活配置,仅支持事件告警。

支持的事件请参考事件监控支持的事件说明

事件监控

立即触发或累计触发(可配置)

使用约束和限制

  • 一键告警当前只发送告警通知,不发送告警恢复。
  • 一键告警的所有告警规则均为立即触发,即按照阈值直接触发。
  • 一键告警中的告警策略无法修改。

操作步骤

  1. 登录管理控制台。
  2. 单击“服务列表 > 云监控服务”。
  3. 单击左侧导航栏的“告警 > 一键告警”,进入一键告警界面。
  4. 单击需要开启的云服务资源所在行右侧的一键告警开关,开启一键告警。
    一键告警支持的产品及规则详情请参见支持的产品及事件详情
    图1 开启一键告警
  5. 单击一键告警左侧的下拉按钮,可查看已开启的告警规则。

    一键式告警规则的通知对象为“云账号联系人”,即当前登录管理控制台的账号联系人。如果联系人配置了短信或邮箱,告警通知会发送到对应的手机号码或邮箱。

    图2 查看告警规则

支持的产品及事件详情

表2 弹性云服务器

告警名称

告警策略

规则说明

处理步骤

alarm-StartAutoRecovery

弹性云服务器-开始恢复

立即触发

弹性云服务器所在的主机出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,该过程会导致云服务器重启,并发送一个“开始恢复”的事件,当迁移完成后,并发送一个“恢复成功”的事件,表示已恢复正常。

当收到“开始恢复”时,说明已发生故障,该机器无法使用,需要考虑更换弹性云服务器,或考虑将流量导至其他机器。

alarm-EndAutoRecovery

弹性云服务器-恢复成功

立即触发

当收到“恢复成功”时,说明该ECS已正常工作,可继续使用。

表3 弹性公网IP和带宽

告警名称

告警策略

事件说明

处理步骤

alarm-BlockEIP

弹性公网IP-EIP封堵

立即触发

带宽超过5G就会封堵,相当于把流量直接丢弃,说明带宽严重超限或收到攻击,一般是受到了DDoS攻击。

收到EIP解封事件时,说明封堵已被解封。

需要更换EIP,避免业务受到影响,同时查看事件中的封堵原因,进行相应处理。

alarm-UnblockEIP

弹性公网IP-EIP解封

立即触发

可以换回EIP,可以将被解封EIP重新进行使用,避免资源浪费。

alarm-EIPBandwidthOverflow

弹性公网IP-EIP带宽超限事件

立即触发

收到该事件,说明数据流量已超过购买的带宽,可能会导致网络变慢或丢包发生。

需要检查EIP数据流量是否一直增加,业务是否正常,考虑是否增加带宽。

表4 关系型数据库

告警名称

告警策略

事件说明

处理步骤

alarm-CreateInstanceFailed

关系型数据库-创建实例业务失败

立即触发

创建实例失败产生的事件,一般是磁盘个数、配额很小,底层资源耗尽导致。

检查磁盘个数、配额大小,释放资源后重新创建。

alarm-FullBackupFailed

关系型数据库-实例全量备份失败

立即触发

单次全量备份失败产生的事件,不影响以前成功备份的文件,但会对“时间点恢复”的功能有一些影响,导致“时间点恢复”时增量备份的回复时间延长。

重新发起一次手工备份。

alarm-ActiveStandBySwitchFailed

关系型数据库-主备切换异常

立即触发

主备切换异常是由于网络、物理机有某种故障导致备机没有接管主机的业务,短时间内会恢复到原主机继续提供服务。

检查应用和数据库之间的连接是否重新建立了连接。

alarm-AbnormalReplicationStatus

关系型数据库-复制状态异常

立即触发

即主备之间复制时延太大(一般在写入大量数据,或者执行大事务的时候会出现),在业务低峰期备机会逐渐追上主机。还有另一种可能是主备间的网络中断,导致主备复制异常。但不会导致原来单实例的读写中断,客户的应用是无感知的。

提交工单处理。

alarm-FaultyDBInstance

关系型数据库-实例运行状态异常

立即触发

由于灾难或者物理机故障导致单机或者主实例出现故障时会上报本事件,属于关键告警事件,有可能导致数据库服务不可用。

检查是否有设置自动备份策略,并且提交工单处理。

alarm-SingleToHAFailed

关系型数据库-单实例转主备实例失败

立即触发

即创建备机或者备机创建完成后在主备机之间配置同步有故障,一般是由于备节点所在数据中心资源不足导致,转主备失败不会导致原来单实例的读写中断,客户的应用是无感知的。

提交工单处理。

alarm-ReplicationStatusRecovered

关系型数据库-复制状态异常已恢复

立即触发

即复制时延已回到正常范围内,或者主备之间的网络通信恢复。

不需要处理。

alarm-DBInstanceRecovered

关系型数据库-实例运行状态异常已恢复

立即触发

针对灾难性的故障,RDS有高可用工具会自动进行备机重建,重建完成之后即会上报本事件。

不需要处理。