TaurusDB标准版事件监控支持的事件说明
事件来源 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|
RDS |
创建实例业务失败 |
createInstanceFailed |
重要 |
创建实例失败产生的事件,一般是磁盘个数,配额大小不足,底层资源耗尽导致。 |
检查磁盘个数、配额大小,释放资源后重新创建。 |
无法创建数据库实例。 |
实例全量备份失败 |
fullBackupFailed |
重要 |
单次全量备份失败产生的事件,不影响以前成功备份的文件,但会对“恢复到指定时间点”的功能有一些影响,导致“恢复到指定时间点”时增量备份的恢复时间延长。 |
重新执行一次手工备份。 |
备份失败。 |
|
主备切换异常 |
activeStandBySwitchFailed |
重要 |
主备切换异常是由于网络、物理机有某种故障导致备机没有接管主机的业务,短时间内会恢复到原主机继续提供服务。 |
检查应用和数据库之间的连接是否重新建立了连接。 |
无 |
|
复制状态异常 |
abnormalReplicationStatus |
重要 |
出现”复制状态异常“事件通常有两种情况: 1、主备之间复制时延太大(一般在写入大量数据或执行大事务的时候出现),在业务高峰期容易出现阻塞。 2、主备间的网络中断,导致主备复制异常。 |
提交工单。 |
但不会导致原来单实例的读写中断,客户的应用是无感知的。 |
|
复制状态异常已恢复 |
replicationStatusRecovered |
重要 |
即复制时延已回到正常范围内,或者主备之间的网络通信恢复。 |
不需要处理。 |
无 |
|
实例运行状态异常 |
faultyDBInstance |
重要 |
由于灾难或者物理机故障导致单机或者主实例故障时会上报本事件,属于关键告警事件。 |
检查是否有设置自动备份策略,并且提交工单。 |
可能导致数据库服务不可用。 |
|
实例运行状态异常已恢复 |
DBInstanceRecovered |
重要 |
针对灾难性的故障,TaurusDB标准版有高可用工具会自动进行备机重建,重建完成之后即会上报本事件。 |
不需要处理。 |
无 |
|
单机实例转高可用实例失败 |
singleToHaFailed |
重要 |
创建备机时或备机创建完成后主备机之间配置同步发生故障时会产生此事件,一般是由于备节点所在数据中心资源不足导致。 |
提交工单。 |
“单机实例转高可用实例失败”不会导致原来单实例的读写中断,客户的应用是无感知的。 |
|
数据库进程重新启动 |
DatabaseProcessRestarted |
重要 |
一般是内存不足、负载过高导致数据库进程停止 |
通过云监控的数据,查看是否有内存飙升、cpu长期过高、磁盘满使用率不足等的情况,可以选择提升CPU内存规格或者优化业务逻辑 |
进程挂掉的时候,业务中断。TaurusDB服务会自动拉起进程,尝试恢复业务。 |
|
实例磁盘满 |
instanceDiskFull |
重要 |
一般是由于数据空间占用过大导致。 |
对实例进行扩容操作。 |
实例由于磁盘空间满将会变成只读实例,数据库不可进行写入操作。 |
|
实例磁盘满恢复 |
instanceDiskFullRecovered |
重要 |
实例磁盘状态恢复正常。 |
不需要处理。 |
实例解除只读状态,恢复写操作。 |
|
kafka连接失败 |
kafkaConnectionFailed |
重要 |
一般是由于网络波动或kafka服务端出现异常等原因导致。 |
检查网络状况和kafka服务端状态。 |
审计日志无法发送到kafka服务端。 |
|
数据库代理 |
数据库安全组未放通数据库代理地址 |
proxy_connection_failure_cause_security_group |
重要 |
一般是由于数据库安全组未放通代理地址导致。 |
修改数据库所使用安全组规则放通代理地址。 |
通过代理访问的业务流量中断。 |
数据库代理与数据库连通性异常 |
proxy_connection_failure_to_db |
重要 |
数据库代理与主库建立新连接失败,与只读库可能存在建立新连接失败。一般是由于数据库/数据库代理压力过大,或代理与数据库间网络异常。 |
观察数据库与数据库代理压力指标后(连接数、活跃连接数、CPU使用率)调整相应参数,压力指标正常情况下提工单处理。 |
通过代理访问的业务流量中断。 |
|
数据库代理与数据库只读库连通性异常 |
proxy_connection_failure_to_replica |
一般 |
数据库代理与只读库建立新连接失败。一般是由于只读库压力过大,或代理与只读库间网络异常。 |
观察只读库压力指标后(连接数、活跃连接数、CPU使用率)调整相应参数,压力指标正常情况下提工单处理。 |
通过代理访问的业务读流量部分中断。 |
事件来源 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
---|---|---|---|---|
RDS |
重置数据库管理员密码 |
resetPassword |
重要 |
重置数据库管理员密码 |
集群扩容等操作 |
instanceAction |
重要 |
磁盘扩容、规格变更 |
|
删除集群下的实例 |
deleteInstance |
次要 |
删除集群下的实例 |
|
修改备份策略 |
setBackupPolicy |
次要 |
修改备份策略 |
|
修改参数组 |
updateParameterGroup |
次要 |
修改参数组 |
|
删除参数组 |
deleteParameterGroup |
次要 |
删除参数组 |
|
重置参数组 |
resetParameterGroup |
次要 |
重置参数组 |
|
修改数据库端口号 |
changeInstancePort |
重要 |
修改数据库端口号 |
|
实例主备切换 |
PrimaryStandbySwitched |
重要 |
实例主备切换 |