更新时间:2024-09-06 GMT+08:00
分享

事件监控支持的事件说明

表1 资源异常事件

事件来源

事件名称

事件ID

事件级别

事件说明

处理建议

事件影响

RDS

创建实例业务失败

createInstanceFailed

重要

创建实例失败产生的事件,一般是磁盘个数,配额大小不足,底层资源耗尽导致。

检查磁盘个数、配额大小,释放资源后重新创建。

无法创建数据库实例。

跨区域备份同步异常

crossRegionBackupSyncFailed

次要

一般是由于底层网络和复制资源出现瓶颈等原因导致。

如果事件一直不停上报,提交工单调整底层资源分配。

跨区域备份同步异常,目标区域不能使用备份文件进行恢复。

实例全量备份失败

fullBackupFailed

重要

单次全量备份失败产生的事件,不影响以前成功备份的文件,但会对“恢复到指定时间点”的功能有一些影响,导致“恢复到指定时间点”时增量备份的恢复时间延长。

重新执行一次手工备份。

备份失败。

主备切换异常

activeStandBySwitchFailed

重要

主备切换异常是由于网络、物理机有某种故障导致备机没有接管主机的业务,短时间内会恢复到原主机继续提供服务。

检查应用和数据库之间的连接是否重新建立了连接。

复制状态异常

abnormalReplicationStatus

重要

出现”复制状态异常“事件通常有两种情况:

1、主备之间复制时延太大(一般在写入大量数据或执行大事务的时候出现),在业务高峰期容易出现阻塞。

2、主备间的网络中断,导致主备复制异常。

提交工单。

但不会导致原来单实例的读写中断,客户的应用是无感知的。

复制状态异常已恢复

replicationStatusRecovered

重要

即复制时延已回到正常范围内,或者主备之间的网络通信恢复。

不需要处理。

实例运行状态异常

faultyDBInstance

重要

由于灾难或者物理机故障导致单机或者主实例故障时会上报本事件,属于关键告警事件。

检查是否有设置自动备份策略,并且提交工单。

可能导致数据库服务不可用。

实例运行状态异常已恢复

DBInstanceRecovered

重要

针对灾难性的故障,RDS有高可用工具会自动进行备机重建,重建完成之后即会上报本事件。

不需要处理。

单实例转主备实例失败

singleToHaFailed

重要

创建备机时或备机创建完成后主备机之间配置同步发生故障时会产生此事件,一般是由于备节点所在数据中心资源不足导致。

提交工单。

“单实例转主备实例失败”不会导致原来单实例的读写中断,客户的应用是无感知的。

数据库进程重新启动

DatabaseProcessRestarted

重要

一般是内存不足、负载过高导致数据库进程停止

通过云监控的数据,查看是否有内存飙升、cpu长期过高、磁盘满使用率不足等的情况,可以选择提升CPU内存规格或者优化业务逻辑

进程挂掉的时候,业务中断。RDS服务会自动拉起进程,尝试恢复业务。

实例磁盘满

instanceDiskFull

重要

一般是由于数据空间占用过大导致。

对实例进行扩容操作。

实例由于磁盘空间满将会变成只读实例,数据库不可进行写入操作。

实例磁盘满恢复

instanceDiskFullRecovered

重要

实例磁盘状态恢复正常。

不需要处理。

实例解除只读状态,恢复写操作。

MySQL实例连接数满

mysqlConnectionsFull

重要

由于实例业务量冲高,导致连接数满,无法建立新连接。

  • 调整连接数到合理值。
  • 通过限流等方式降低负载。
  • 变更到更高规格,扩大连接数上限。

实例无法建立新连接。

MySQL实例连接数满已恢复

mysqlConnectionsFullRecovered

重要

实例连接数已恢复正常

实例连接数已恢复正常,请确认业务是否正常运行。

实例连接数已恢复正常。

MySQL负载高导致新建连接异常

highLoadInstanceConnectionsAbnormal

重要

由于CPU、内存、磁盘、网络带宽等资源不足,导致无法建立新连接或者建立的新连接异常

  • 增加系统资源,例如增加CPU、内存、磁盘等。
  • 调整MySQL配置,例如增加连接池大小、调整缓存大小等。
  • 根据实际运行状态和业务需求,选择异常进程执行kill会话,结束会话,使数据库恢复正常。

实例新建连接异常。

MySQL负载高导致新建连接异常已恢复

highLoadInstanceConnectionsAbnormalRevocered

重要

负载高导致实例新建连接异常已恢复

负载高导致实例新建连接异常已恢复,请确认业务是否正常运行。

负载高导致实例新建连接异常已恢复。

kafka连接失败

kafkaConnectionFailed

重要

一般是由于网络波动或kafka服务端出现异常等原因导致。

检查网络状况和kafka服务端状态。

审计日志无法发送到kafka服务端。

数据库代理

数据库安全组未放通数据库代理地址

proxy_connection_failure_cause_security_group

重要

一般是由于数据库安全组未放通代理地址导致。

修改数据库所使用安全组规则放通代理地址。

通过代理访问的业务流量中断。

数据库代理与数据库连通性异常

proxy_connection_failure_to_db

重要

数据库代理与主库建立新连接失败,与只读库可能存在建立新连接失败。一般是由于数据库/数据库代理压力过大,或代理与数据库间网络异常。

观察数据库与数据库代理压力指标后(连接数、活跃连接数、CPU使用率)调整相应参数,压力指标正常情况下提工单处理。

通过代理访问的业务流量中断。

数据库代理与数据库只读库连通性异常

proxy_connection_failure_to_replica

一般

数据库代理与只读库建立新连接失败。一般是由于只读库压力过大,或代理与只读库间网络异常。

观察只读库压力指标后(连接数、活跃连接数、CPU使用率)调整相应参数,压力指标正常情况下提工单处理。

通过代理访问的业务读流量部分中断。

表2 操作类事件

事件来源

事件名称

事件ID

事件级别

事件说明

RDS

重置数据库管理员密码

resetPassword

重要

重置数据库管理员密码

集群扩容等操作

instanceAction

重要

磁盘扩容、规格变更

删除集群下的实例

deleteInstance

次要

删除集群下的实例

修改备份策略

setBackupPolicy

次要

修改备份策略

修改参数组

updateParameterGroup

次要

修改参数组

删除参数组

deleteParameterGroup

次要

删除参数组

重置参数组

resetParameterGroup

次要

重置参数组

修改数据库端口号

changeInstancePort

重要

修改数据库端口号

实例主备切换

PrimaryStandbySwitched

重要

实例主备切换

相关文档