TaurusDB事件监控支持的事件说明
功能说明
事件监控提供了事件类型数据上报、查询和告警的功能。方便您将业务中的各类重要事件或对云资源的操作事件收集到云监控服务,并在事件发生时进行告警。
命名空间
- 云数据库TaurusDB服务命名空间:SYS.GAUSSDB
- 数据库代理服务命名空间:SYS.DBPROXY
事件监控支持的事件说明
| 事件来源 | 事件名称 | 事件ID | 事件级别 | 事件说明 | 处理建议 | 事件影响 | 
|---|---|---|---|---|---|---|
| TaurusDB | 实例增量备份业务失败 | TaurusIncrementalBackupInstanceFailed | 重要 | 实例增量备份失败产生的事件,一般是管理节点到实例网络或者实例到OBS存储的网络异常,或者实例备份环境异常。 | 提交工单。 | 无法完成实例备份业务操作。 | 
| 添加只读节点失败 | addReadonlyNodesFailed | 重要 | 创建实例只读节点失败产生的事件,一般是底层资源耗尽导致。 | 检查并释放资源后重新创建。 | 无法创建数据库实例只读节点。 | |
| 创建实例业务失败 | createInstanceFailed | 重要 | 创建实例失败产生的事件,一般是配额大小不足,底层资源耗尽导致。 | 检查配额大小,释放资源后重新创建。 | 无法创建数据库实例。 | |
| 主备切换异常 | activeStandBySwitchFailed | 重要 | 主备切换异常主要是由于网络、物理机有某种故障导致只读节点没有接管主节点的业务,短时间内会恢复到原主节点继续提供服务。 | 提交工单。 | 无法完成主备切换(只读升主)。 | |
| 规格变更业务失败 | flavorAlterationFailed | 重要 | 规格变更失败产生的事件,一般是配额大小不足,底层资源耗尽导致。 | 提交工单。 | 无法完成规格变更。 | |
| 实例运行状态异常 | TaurusInstanceRunningStatusAbnormal | 重要 | 实例运行状态异常产生的事件,可能原因是实例进程故障,或者实例到DFV存储间通信问题。 | 提交工单。 | 实例异常,业务可能受损。 | |
| 实例运行状态异常已恢复 | TaurusInstanceRunningStatusRecovered | 重要 | 实例运行状态异常后恢复产生的事件。 | 观察业务运行情况。 | 无。 | |
| 节点运行状态异常 | TaurusNodeRunningStatusAbnormal | 重要 | 运行节点状态异常产生的事件,可能原因是节点进程故障,或者节点到DFV存储间通信问题。 | 观察实例状态和业务运行情况。 | 节点异常,可能触发只读升主。 | |
| 节点运行状态异常已恢复 | TaurusNodeRunningStatusRecovered | 重要 | 节点运行状态异常后恢复产生的事件。 | 观察业务情况。 | 无。 | |
| 删除只读节点失败 | TaurusDeleteReadOnlyNodeFailed | 重要 | 删除只读节点失败产生的事件,可能原因是管理面到实例节点通信异常或者请求IaaS删除虚机失败。 | 提交工单。 | 无法完成删除只读节点操作。 | |
| 实例重置密码失败 | TaurusResetInstancePasswordFailed | 重要 | 实例重置密码失败产生的事件,可能原因是管理面到实例通信异常或者实例状态异常件。 | 检查确认实例状态后重试,未解决则提交工单。 | 无法完成实例重置密码操作。 | |
| 实例重启失败 | TaurusRestartInstanceFailed | 重要 | 实例重启失败产生的事件,可能原因是管理面到实例通信异常或者实例状态异常。 | 检查确认实例状态后重试,未解决则提交工单。 | 无法完成实例重启操作。 | |
| 恢复到新实例失败 | TaurusRestoreToNewInstanceFailed | 重要 | 恢复到新实例失败产生的事件,一般是新创建实例配额大小不足,底层资源耗尽导致或者数据恢复逻辑出错。 | 如果是新创建实例失败,检查配额大小,释放资源后重新恢复到新实例,其他情况提交工单。 | 无法完成恢复到新实例。 | |
| 实例绑定EIP失败 | TaurusBindEIPToInstanceFailed | 重要 | 实例绑定EIP失败产生的事件,绑定任务执行错误。 | 提交工单。 | 无法完成绑定EIP操作。 | |
| 实例解绑EIP失败 | TaurusUnbindEIPFromInstanceFailed | 重要 | 实例解绑EIP失败产生的事件,解绑任务执行错误。 | 提交工单。 | 无法完成解绑EIP操作。 | |
| 实例修改参数失败 | TaurusUpdateInstanceParameterFailed | 重要 | 实例修改参数失败产生的事件,一般是管理节点到实例网络异常,或者实例状态异常。 | 检查确认实例状态后重试,未解决则提交工单。 | 无法完成实例修改参数操作。 | |
| 实例参数组应用失败 | TaurusApplyParameterGroupToInstanceFailed | 重要 | 实例参数组应用失败产生的事件,一般是管理节点到实例网络异常,或者实例状态异常。 | 检查确认实例状态后重试,未解决则提交工单。 | 无法完成实例参数组应用操作。 | |
| 实例全量备份业务失败 | TaurusBackupInstanceFailed | 重要 | 实例全量备份失败产生的事件,一般是管理节点到实例网络或者实例到OBS存储的网络异常,或者实例实例备份环境异常。 | 提交工单。 | 无法完成实例备份业务操作。 | |
| 实例主备切换 | TaurusActiveStandbySwitched | 重要 | 实例故障时被动倒换产生的事件。 | 检查确认实例状态是否恢复,未解决则提交工单。 | 业务闪断。 | |
| 实例设置为只读模式 | NodeReadonlyMode | 重要 | 实例设置为只读状态,只支持查询类操作。 | 提交工单。 | 实例设置只读状态后,所有写业务返回失败。 | |
| 实例设置为读写模式 | NodeReadWriteMode | 重要 | 实例设置为读写状态。 | 提交工单。 | 无。 | |
| 实例容灾切换 | DisasterSwitchOver | 重要 | 实例故障不可用,通过容灾切换保证数据库继续对外提供服务。 | 提交工单。 | 访问数据库的业务出现闪断,高可用服务通过切换机制保证新机器升主继续对外提供服务。 | |
| 数据库进程重新启动 | TaurusDatabaseProcessRestarted | 重要 | 一般是内存不足、负载过高导致数据库进程停止。 | 通过云监控的数据,查看是否有内存飙升、CPU长期过高等的情况,可以选择提升CPU内存规格或者优化业务逻辑。 | 数据库进程挂掉的时候,该节点业务中断。高可用服务会自动拉起进程,尝试恢复业务。 | 
| 事件来源 | 事件名称 | 事件ID | 事件级别 | 事件说明 | 处理建议 | 事件影响 | 
|---|---|---|---|---|---|---|
| 数据库代理 | 数据库代理与数据库连通性异常 | proxy_connection_failure_to_db | 重要 | 数据库代理与主库建立新连接失败,与只读库可能存在建立新连接失败。一般是由于数据库/数据库代理压力过大,或代理与数据库间网络异常。 | 观察数据库与数据库代理压力指标后(连接数、活跃连接数、CPU使用率)调整相应参数,压力指标正常情况下提交工单处理。 | 通过代理访问的业务流量中断。 | 
| 数据库代理与数据库只读库连通性异常 | proxy_connection_failure_to_replica | 一般 | 数据库代理与只读库建立新连接失败。一般是由于只读库压力过大,或代理与只读库间网络异常。 | 观察只读库压力指标后(连接数、活跃连接数、CPU使用率)调整相应参数,压力指标正常情况下提交工单处理。 | 通过代理访问的业务读流量部分中断。 | |
| 数据库安全组未放通数据库代理地址 | proxy_connection_failure_cause_security_group | 重要 | 一般是由于数据库安全组未放通代理地址导致。 | 修改数据库所使用安全组规则放通代理地址。 | 通过代理访问的业务流量中断。 | 
 
  