更新时间:2024-09-05 GMT+08:00

事件监控支持的事件说明

表1 资源异常事件

事件来源

事件名称

事件ID

事件级别

事件说明

处理建议

事件影响

RDS

创建实例业务失败

createInstanceFailed

重要

创建实例失败产生的事件,一般是磁盘个数,配额大小不足,底层资源耗尽导致。

检查磁盘个数、配额大小,释放资源后重新创建。

无法创建数据库实例。

实例全量备份失败

fullBackupFailed

重要

单次全量备份失败产生的事件,不影响以前成功备份的文件,但会对“恢复到指定时间点”的功能有一些影响,导致“恢复到指定时间点”时增量备份的恢复时间延长。

重新执行一次手工备份。

备份失败。

主备切换异常

activeStandBySwitchFailed

重要

主备切换异常是由于网络、物理机有某种故障导致备机没有接管主机的业务,短时间内会恢复到原主机继续提供服务。

检查应用和数据库之间的连接是否重新建立了连接。

复制状态异常

abnormalReplicationStatus

重要

出现”复制状态异常“事件通常有两种情况:

1、主备之间复制时延太大(一般在写入大量数据或执行大事务的时候出现),在业务高峰期容易出现阻塞。

2、主备间的网络中断,导致主备复制异常。

提交工单。

但不会导致原来单实例的读写中断,客户的应用是无感知的。

复制状态异常已恢复

replicationStatusRecovered

重要

即复制时延已回到正常范围内,或者主备之间的网络通信恢复。

不需要处理。

实例运行状态异常

faultyDBInstance

重要

由于灾难或者物理机故障导致单机或者主实例故障时会上报本事件,属于关键告警事件。

检查是否有设置自动备份策略,并且提交工单。

可能导致数据库服务不可用。

实例运行状态异常已恢复

DBInstanceRecovered

重要

RDS单机实例灾难或物理机故障恢复,主备实例自动进行主备故障切换完成后会上报本事件。

不需要处理。

单实例转主备实例失败

singleToHaFailed

重要

创建备机时或备机创建完成后主备机之间配置同步发生故障时会产生此事件,一般是由于备节点所在数据中心资源不足导致。

提交工单。

“单实例转主备实例失败”不会导致原来单实例的读写中断,客户的应用是无感知的。

数据库进程重新启动

DatabaseProcessRestarted

重要

一般是内存不足、负载过高导致数据库进程停止

通过云监控的数据,查看是否有内存飙升、cpu长期过高、磁盘满使用率不足等的情况,可以选择提升CPU内存规格或者优化业务逻辑

进程挂掉的时候,业务中断。RDS服务会自动拉起进程,尝试恢复业务。

实例磁盘满

instanceDiskFull

重要

一般是由于数据空间占用过大导致。

对实例进行扩容操作。

实例由于磁盘空间满将会变成只读实例,数据库不可进行写入操作。

实例磁盘满恢复

instanceDiskFullRecovered

重要

实例磁盘状态恢复正常。

不需要处理。

实例解除只读状态,恢复写操作。

kafka连接失败

kafkaConnectionFailed

重要

一般是由于网络波动或kafka服务端出现异常等原因导致。

检查网络状况和kafka服务端状态。

审计日志无法发送到kafka服务端。

表2 操作类事件

事件来源

事件名称

事件ID

事件级别

事件说明

RDS

重置数据库管理员密码

resetPassword

重要

重置数据库管理员密码

集群扩容等操作

instanceAction

重要

磁盘扩容、规格变更

删除集群下的实例

deleteInstance

次要

删除集群下的实例

修改备份策略

setBackupPolicy

次要

修改备份策略

修改参数组

updateParameterGroup

次要

修改参数组

删除参数组

deleteParameterGroup

次要

删除参数组

重置参数组

resetParameterGroup

次要

重置参数组

修改数据库端口号

changeInstancePort

重要

修改数据库端口号