TaurusDB事件监控支持的事件说明
事件来源 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|
TaurusDB |
实例增量备份业务失败 |
TaurusIncrementalBackupInstanceFailed |
重要 |
实例增量备份失败产生的事件,一般是管理节点到实例网络或者实例到OBS存储的网络异常,或者实例备份环境异常。 |
提交工单。 |
无法完成实例备份业务操作。 |
添加只读节点失败 |
addReadonlyNodesFailed |
重要 |
创建实例只读节点失败产生的事件,一般是底层资源耗尽导致。 |
检查并释放资源后重新创建。 |
无法创建数据库实例只读节点。 |
|
创建实例业务失败 |
createInstanceFailed |
重要 |
创建实例失败产生的事件,一般是配额大小不足,底层资源耗尽导致。 |
检查配额大小,释放资源后重新创建。 |
无法创建数据库实例。 |
|
主备切换异常 |
activeStandBySwitchFailed |
重要 |
主备切换异常主要是由于网络、物理机有某种故障导致只读节点没有接管主节点的业务,短时间内会恢复到原主节点继续提供服务。 |
提交工单。 |
无法完成主备切换(只读升主)。 |
|
规格变更业务失败 |
flavorAlterationFailed |
重要 |
规格变更失败产生的事件,一般是配额大小不足,底层资源耗尽导致。 |
提交工单。 |
无法完成规格变更。 |
|
实例运行状态异常 |
TaurusInstanceRunningStatusAbnormal |
重要 |
实例运行状态异常产生的事件,可能原因是实例进程故障,或者实例到DFV存储间通信问题。 |
提交工单。 |
实例异常,业务可能受损。 |
|
实例运行状态异常已恢复 |
TaurusInstanceRunningStatusRecovered |
重要 |
实例运行状态异常后恢复产生的事件。 |
观察业务运行情况。 |
无。 |
|
节点运行状态异常 |
TaurusNodeRunningStatusAbnormal |
重要 |
运行节点状态异常产生的事件,可能原因是节点进程故障,或者节点到DFV存储间通信问题。 |
观察实例状态和业务运行情况。 |
节点异常,可能触发只读升主。 |
|
节点运行状态异常已恢复 |
TaurusNodeRunningStatusRecovered |
重要 |
节点运行状态异常后恢复产生的事件。 |
观察业务情况。 |
无。 |
|
删除只读节点失败 |
TaurusDeleteReadOnlyNodeFailed |
重要 |
删除只读节点失败产生的事件,可能原因是管理面到实例节点通信异常或者请求IaaS删除虚机失败。 |
提交工单。 |
无法完成删除只读节点操作。 |
|
实例重置密码失败 |
TaurusResetInstancePasswordFailed |
重要 |
实例重置密码失败产生的事件,可能原因是管理面到实例通信异常或者实例状态异常件。 |
检查确认实例状态后重试,未解决则提交工单。 |
无法完成实例重置密码操作。 |
|
实例重启失败 |
TaurusRestartInstanceFailed |
重要 |
实例重启失败产生的事件,可能原因是管理面到实例通信异常或者实例状态异常。 |
检查确认实例状态后重试,未解决则提交工单。 |
无法完成实例重启操作。 |
|
恢复到新实例失败 |
TaurusRestoreToNewInstanceFailed |
重要 |
恢复到新实例失败产生的事件,一般是新创建实例配额大小不足,底层资源耗尽导致或者数据恢复逻辑出错。 |
如果是新创建实例失败,检查配额大小,释放资源后重新恢复到新实例,其他情况提交工单。 |
无法完成恢复到新实例。 |
|
实例绑定EIP失败 |
TaurusBindEIPToInstanceFailed |
重要 |
实例绑定EIP失败产生的事件,绑定任务执行错误。 |
提交工单。 |
无法完成绑定EIP操作。 |
|
实例解绑EIP失败 |
TaurusUnbindEIPFromInstanceFailed |
重要 |
实例解绑EIP失败产生的事件,解绑任务执行错误。 |
提交工单。 |
无法完成解绑EIP操作。 |
|
实例修改参数失败 |
TaurusUpdateInstanceParameterFailed |
重要 |
实例修改参数失败产生的事件,一般是管理节点到实例网络异常,或者实例状态异常。 |
检查确认实例状态后重试,未解决则提交工单。 |
无法完成实例修改参数操作。 |
|
实例参数组应用失败 |
TaurusApplyParameterGroupToInstanceFailed |
重要 |
实例参数组应用失败产生的事件,一般是管理节点到实例网络异常,或者实例状态异常。 |
检查确认实例状态后重试,未解决则提交工单。 |
无法完成实例参数组应用操作。 |
|
实例全量备份业务失败 |
TaurusBackupInstanceFailed |
重要 |
实例全量备份失败产生的事件,一般是管理节点到实例网络或者实例到OBS存储的网络异常,或者实例实例备份环境异常。 |
提交工单。 |
无法完成实例备份业务操作。 |
|
实例主备切换 |
TaurusActiveStandbySwitched |
重要 |
实例故障时被动倒换产生的事件。 |
检查确认实例状态是否恢复,未解决则提交工单。 |
业务闪断。 |
|
实例设置为只读模式 |
NodeReadonlyMode |
重要 |
实例设置为只读状态,只支持查询类操作。 |
提交工单。 |
实例设置只读状态后,所有写业务返回失败。 |
|
实例设置为读写模式 |
NodeReadWriteMode |
重要 |
实例设置为读写状态。 |
提交工单。 |
无。 |
|
实例容灾切换 |
DisasterSwitchOver |
重要 |
实例故障不可用,通过容灾切换保证数据库继续对外提供服务。 |
联系技术支持团队处理。 |
访问数据库的业务出现闪断,高可用服务通过切换机制保证新机器升主继续对外提供服务。 |
|
数据库进程重新启动 |
TaurusDatabaseProcessRestarted |
重要 |
一般是内存不足、负载过高导致数据库进程停止。 |
通过云监控的数据,查看是否有内存飙升、CPU长期过高等的情况,可以选择提升CPU内存规格或者优化业务逻辑。 |
数据库进程挂掉的时候,该节点业务中断。高可用服务会自动拉起进程,尝试恢复业务。 |
|
数据库代理与数据库连通性异常 |
proxy_connection_failure_to_db |
重要 |
数据库代理与主库建立新连接失败,与只读库可能存在建立新连接失败。一般是由于数据库/数据库代理压力过大,或代理与数据库间网络异常。 |
观察数据库与数据库代理压力指标后(连接数、活跃连接数、CPU使用率)调整相应参数,压力指标正常情况下提工单处理。 |
通过代理访问的业务流量中断。 |
|
数据库代理与数据库只读库连通性异常 |
proxy_connection_failure_to_replica |
一般 |
数据库代理与只读库建立新连接失败。一般是由于只读库压力过大,或代理与只读库间网络异常。 |
观察只读库压力指标后(连接数、活跃连接数、CPU使用率)调整相应参数,压力指标正常情况下提工单处理。 |
通过代理访问的业务读流量部分中断。 |
|
数据库安全组未放通数据库代理地址 |
proxy_connection_failure_cause_security_group |
重要 |
一般是由于数据库安全组未放通代理地址导致。 |
修改数据库所使用安全组规则放通代理地址。 |
通过代理访问的业务流量中断。 |